Courses
チャットボットの回答が悪化したとき、まずプロンプトを見直すのは自然な発想です。単発の LLM 呼び出しなら有効ですが、アプリがツール呼び出しを行うエージェントになると、それだけでは不十分です。
欠けているコンテキストを補うのが、LLM 可観測性プラットフォームの役割です。これは従来のアプリ監視ツールとは異なります。従来型のツールはレイテンシやエラー率を示しますが、LLM 可観測性プラットフォームは、どのツール呼び出しが悪い結果を返したのか、プロンプト変更で出力品質が改善したのかを教えてくれます。
Langfuse と LangSmith はどちらもトレーシング、評価、プロンプト管理をカバーしており、2026 年初頭に大きなアップデートがありました。ただし、互換的に置き換えられるわけではありません。違いは、デプロイ要件、技術スタック、そしてチームが評価をどう運用するかに集約されます。
結論を先に言うと、Langfuse はオープンソースのセルフホスティング、データコントロール、LangChain 以外のスタックを必要とするチームに適しています。LangSmith は既に LangChain や LangGraph で構築しているチームに適していますが、現在はそのエコシステムに限定されていません。どちらにも当てはまらない場合は、料金を比較するとよいでしょう。
Langfuse と LangSmith とは?
大まかに言えば、両製品は LLM アプリケーションを可観測・テスト可能・デバッグ可能にします。各製品の概要は次のとおりです。

Langfuse と LangSmith のプラットフォーム位置付け概要。画像:著者作成。
Langfuse とは?
Langfuse は 2023 年に登場したオープンソースの LLM エンジニアリングプラットフォームです。トレーシング、プロンプト管理、評価(LLM-as-judge、人手によるアノテーション、コードベースのチェック)、データセット実験、コストとレイテンシの監視をカバーします。中核のオープンソース製品は MIT ライセンスです。
2026 年 1 月、ClickHouse が 4 億ドルのシリーズ D を発表し、Langfuse を買収しました。Langfuse は、すでに Langfuse のバックエンドを支えていたカラム型データベース ClickHouse の一部となりました。当時、MIT ライセンスとオープンソースとしてのアイデンティティは変更なしと確認されています。
Langfuse は、米国・EU・日本リージョンのマネージドクラウドサービスとして、またはソフトウェアライセンス費用なしのセルフホスト型オープンソースとして利用できます。
LangSmith とは?
LangSmith は、LangChain と LangGraph の開発元である LangChain Inc. が構築した可観測性・評価プラットフォームです。プロプライエタリでクローズドソースです。LangChain は 2025 年 10 月に 12.5 億ドルの評価額で 1.25 億ドルを調達しました。
主な機能は、アプリケーション実行全体のトレーシング、ビジュアルデバッグ、自動評価、本番監視、Prompt Hub と Playground によるプロンプト管理です。2026 年 5 月、LangChain は Rust 製のデータレイヤー SmithDB をリリースし、現在は LangSmith の米国クラウド取り込みの 100% を処理しています。SmithDB により、トレースツリーの P50 ロードは 92 ミリ秒、全文検索は 400 ミリ秒になりました。
LangSmith は、マネージドクラウド、顧客 VPC データプレーンのハイブリッド、エンタープライズ向けのセルフホスティングとして提供されています。
オープンソース vs. マネージド SaaS
両プラットフォームの核心的な違いは「オープンソースか否か」ではありません。実際の違いは、一方にあるコントロール性と可搬性、もう一方にある LangChain/LangGraph との適合性です。Langfuse はライセンス費用なしで自社インフラ上にスタックを構築できます。LangSmith は、すでに LangChain や LangGraph 上でアプリを動かしている場合、導入の手間が少なくなります。
この比較の前提を変えるアップデートが 1 点あります。LangSmith は langsmith[otel] パッケージと LANGSMITH_OTEL_ENABLED=true 環境変数により OpenTelemetry トレーシングをサポートしました。つまり LangSmith はもはや LangChain 専用ではありません。ただし最も緊密な統合は引き続き LangGraph であり、その点はトレーシングの章で触れます。
両プラットフォームの構造上の位置付けは次のとおりです。
|
切り口 |
Langfuse |
LangSmith |
|
ソースモデル |
オープンソース(MIT) |
プロプライエタリ/クローズドソース |
|
セルフホスティング |
MIT 無償セルフホスティング;エンタープライズ機能は有償 |
エンタープライズ契約が必要 |
|
フレームワーク方針 |
フレームワーク横断で動作;広範な統合;OTel ネイティブ |
LangChain/LangGraph に最適;OTel サポート |
|
データ主権 |
完全対応;エアギャップ構成も可能 |
エンタープライズ向けにハイブリッド/セルフホスト提供 |
|
バックエンド DB |
ClickHouse |
SmithDB(Rust/DataFusion) |
|
料金モデル |
ユニット課金(トレース+オブザベーション+スコア) |
席数課金+トレース課金(保持 2 段階) |
|
コンプライアンス |
SOC 2 Type II、ISO 27001、GDPR、HIPAA |
SOC 2 Type II、GDPR、HIPAA |
この記事の残りでは、これらの違いが実務で何を意味するかを解きほぐします。
トレーシングと可観測性
トレーシングは、両製品の差が出始める領域です。どちらも LLM 呼び出し、ツール呼び出し、関連メタデータを取得しますが、エージェントのワークフローでは、単純なプロンプト応答型アプリよりも差が早く表れます。
リクエストトレーシング
Langfuse は、LLM 呼び出し、ツール実行、埋め込み、検索手順を捉える階層型トレースを構築します。ユーザー、セッション、コスト、レイテンシ、カスタムメタデータでフィルタ可能です。2026 年 5 月には ClickHouse ネイティブの FTS エンジンを用いた全文検索を追加し、従来は 20 秒近くかかっていた検索が 0.5 秒未満になりました。
LangSmith は、すべての LLM 呼び出しとツール利用を検査可能な実行ツリーとして記録します。米国クラウドの取り込みを SmithDB が全面的に処理するようになり、トレースツリーの P50 ロードは 92 ミリ秒です。さらに教師なしのトピッククラスタリングを備え、検出したテーマでトレースをグルーピングし、原因が不明なときの出発点を提供します。
エージェントワークフローの可視性
Langfuse は 2025 年 11 月に Agent Graphs を追加し、観測の時系列とネスト構造からグラフを推定して、多段エージェントの実行フローを可視化しました。計測済みであればどのフレームワークでも機能し、LangGraph のネイティブ対応も含みます。同時に Trace Log View も追加され、ループや分岐が多いワークフロー向けにフラットなステップストリームを提供します。

LangGraph 実行のための Langfuse エージェントグラフ。画像:著者作成。
LangSmith の LangGraph トレーシングは、環境変数を設定する以外の構成なしで、実行中のすべてのノード、エッジ、状態遷移を取得します。LangSmith Studio では、エージェントの実行をステップ実行し、各ノードでの状態を検査し、異なるモデルやプロンプトでトレースをリプレイできます。LangGraph アプリケーションでは、汎用トレースツリーよりもリッチなコンテキストを提供します。

エージェントワークフローのための LangSmith トレースツリー。画像:著者作成。
本番監視
本番監視では、両プラットフォームともレイテンシ、トークン使用量、コスト、エラー率を追跡します。LangSmith は PagerDuty と Webhook によるアラートを備えています。Langfuse は閾値を設定できる支出アラートを提供します。このレイヤーでは、監視機能は概ね同等です。
オフライン評価とオンライン評価
トレーシングは「何が起きたか」を示します。評価は「それが良かったか」を示します。実務では、評価がワークフローの一部になっているときに、これらのツールはより有用です。ローンチ前チェックリストに留めるべきではありません。
LLM-as-a-judge とコード評価
Langfuse の LLM-as-judge は 2025 年 6 月に MIT ライセンスの完全オープンソースになりました。v3.65.0 以降のセルフホストユーザーは商用ライセンスなしで利用できます。2026 年 5 月には Code Evaluators をリリースしました。これは Langfuse の UI 上で直接記述する Python または TypeScript の evaluate 関数で、JSON スキーマ検証、正規表現検証、ツール引数検証などの決定論的チェックを、トークンコストや判定モデル呼び出しなしで実行できます。
LangSmith は、真偽値、カテゴリ、連続値のフィードバック型を備えた設定可能な LLM-as-judge 評価器を提供し、Security、Safety、Quality のテンプレートも内蔵しています。さらに、人手による評価器出力の訂正をフィードバックとして少数ショット例に組み込み、時間とともに評価器のキャリブレーションを改善する few-shot 補正もサポートします。
データセット、実験、人手アノテーション
オフライン評価は、両プラットフォームでデータセットと並列実験比較によって行えます。Langfuse は 2025 年 11 月に Score Analytics を追加し、適合率、再現率、F1、コスト、正確性の観点で評価器の整合性を測定できるようにしました。同じく 2025 年 11 月の Baseline comparison では、特定の実行を基準点としてフラグし、それに対するリグレッションを可視化できます。
Langfuse は 2026 年 5 月に langfuse/experiment-action として GitHub Actions の CI/CD 連携を提供し、実験スコアが閾値を下回るとワークフローを失敗させます。これにより、評価はリリース後レビューではなく、デプロイのゲートになります。

GitHub Actions と連携した Langfuse の評価ループ。画像:著者作成。
LangSmith の評価設定で最初に留意すべき請求挙動が 1 つあります。評価器がトレースにフィードバックを追加すると、そのトレースは自動的に延長保持へとアップグレードされます。料金の章で述べるように、これは評価ワークフローのコストに影響します。
プロンプトのバージョニング、デプロイ、A/B テスト
ここでのプロンプト管理は、単なる履歴以上の意味があります。ワークフローは、サンドボックスで反復し、データセットでテストし、本番へ昇格し、問題が起きたらクリーンにロールバックする、というものです。
Langfuse は各プロンプトにバージョン ID を付与し、 production や staging といったラベルでどのバージョンをライブにするかを制御します。UI でラベルを変更することが、デプロイやロールバックの手段です。プロンプトは SDK によりクライアント側でキャッシュされ、SDK がアクティブ版を取得しても本番呼び出しにレイテンシは追加されません。保護ラベルにより、管理者は production ラベルを変更できるロールを制限でき、アクセスレベルの異なる貢献者が混在する場合に有用です。
LangSmith は LangChain Hub を通じてプロンプトを管理し、厳密なバージョン固定のためのコミットハッシュによるバージョニングを提供します。Prompt Hub には、Langfuse にはないコミュニティライブラリがあります。データセット実験による A/B テストは両プラットフォームで利用できます。
このカテゴリでは、ホスティング、料金、フレームワーク設定ほどの差はありません。
エージェントアプリケーションにおける Langfuse と LangSmith
過去 1 年間、両プラットフォームの多くの機能開発はエージェント主導でした。ここでは、エージェントの実装基盤が重要になります。
Langfuse は利用可能なツールを可視化し、どのツールが呼び出されたかをハイライトし、引数と呼び出し ID を表示します。拡張された観測タイプにより、トレースビューでツール呼び出し、埋め込み、ガードレール呼び出しを区別できます。前述のとおり、Code Evaluators でツール引数をスキーマに照らして検証することも可能です。MCP サーバーは 2026 年 5 月に 15 のツールカテゴリまで拡大され、Claude Code、Cursor、OpenAI Codex のエージェントが Langfuse データをプログラム的に照会できます。
トレーシングの章で述べた LangGraph の点はここでも現れます。LangSmith のエージェント対応は、各ノードでの状態検査、代替モデルでのトレースリプレイ、LangSmith Studio によるビジュアルなステップ実行デバッグを含みます。数百のサブエージェントを含む本番システムを運用する Monte Carlo のエンジニアリングチームは、このゼロセットアップの LangGraph 統合を選定理由として挙げています。
一方、CrewAI、Pydantic AI、その他のマルチエージェントフレームワーク で構築されたエージェントでは、Langfuse のほうがネイティブ計測が広く、手動設定が少なくて済むことが多いです。
フレームワークと SDK の統合
Langfuse は、モデルプロバイダ、フレームワーク、ゲートウェイ、ノーコードツール、アナリティクス、開発者ツールにわたる広範な統合を掲示しています。フレームワークには LangChain、LangGraph、OpenAI Agents SDK、Pydantic AI、CrewAI、AutoGen、DSPy、Haystack、LlamaIndex などが含まれます。プラットフォームは SDK レベルで OpenTelemetry ネイティブです。
LangSmith のネイティブ SDK は Python、TypeScript、Go、Java をカバーします。LangChain と LangGraph に加え、OpenAI SDK、Anthropic SDK、Vercel AI SDK、LlamaIndex、独自実装、OpenTelemetry と連携します。つまり、LangGraph が最も適合するとはいえ、LangSmith は LangChain 専用のトレーシングツールではありません。
実務上の論点は、フレームワークがサポートされているかだけではありません。ほとんどの人気フレームワークは両プラットフォームで動くため、必要な計測コードの量が肝心です。LangGraph は LangSmith でゼロコンフィグのトレーシングが得られます。他のフレームワークは Langfuse のほうが設定が少なく済む場合があります。設定コストはスタックにより異なります。
Langfuse オープンソース vs. LangSmith エンタープライズ
セルフホスティングは、多くの機能カテゴリ以上に、運用とコンプライアンスの様相を変えます。
Langfuse のセルフホスティングは MIT のもとで無償です。開発や評価には Docker Compose が使え、本番デプロイでは通常 GKE、EKS、AKS 上の Helm と Kubernetes を用います。スタックは ClickHouse、PostgreSQL、Redis、S3 互換ストレージを含み、推奨の最小 VM は 4 コア・16 GiB RAM です。ソフトウェアライセンス費用はかかりませんが、インフラと運用は自社の責任です。有償のセルフホスト型エンタープライズ版では、専用サポート、監査ログ、SCIM、SLA が追加されます。
コンプライアンスに関して、Langfuse Cloud は SOC 2 Type II、ISO 27001、GDPR、HIPAA を保持しています。LangSmith Cloud は SOC 2 Type II、GDPR、HIPAA を保持しています。LangSmith には ISO 27001 の記載がありません。調達プロセスでその要件がある場合、これは具体的な違いになります。
LangSmith のセルフホスティングにはエンタープライズ契約が必要です。オープンソースかつ無償のセルフホスト経路はありません。3 つのデプロイモデル(クラウド、ハイブリッド、セルフホスト)はすべてエンタープライズの枠組み下にあります。セルフホスト版 LangSmith 向けの SmithDB は 2026 年 5 月時点で早期アクセスで、一般提供前です。
Langfuse と LangSmith の料金
見出しの価格だけでは全体は分かりません。
この分野の料金は頻繁に変わります。以下の数字は 2026 年 6 月に公式ページで確認したものですが、予算化の前に必ず最新の料金ページを確認してください。
Langfuse の料金
Langfuse Cloud はユニット課金で、1 ユニットは 1 トレース、1 オブザベーション、または 1 スコアに相当します。式は Units = Traces + Observations + Scores で、ツール呼び出しが多いエージェント実行は、単純なプロンプト応答のトレースより高くなる可能性があります。無料の Hobby プランは月 50,000 ユニット、30 日保持、ユーザー 2 名を含みます。Core は月額 $29 で 100,000 ユニット、ユーザー無制限、保持 90 日です。Pro は月額 $199 で 3 年のデータアクセスと各種認証を提供。Enterprise は月額 $2,499 からでボリュームに応じたカスタム価格です。超過は 100,000 追加ユニットあたり $8 からです。
前述のとおり、セルフホスト版 Langfuse はソフトウェアライセンス費用がかかりません。SCIM、監査ログ、エンタープライズサポートは商用ライセンスが必要です。
LangSmith の料金
LangSmith は席数課金とトレース課金です。Developer プランは無料で、月 5,000 トレース、1 席、14 日保持を含みます。Plus は 1 席あたり月 $39 で、ベーストレース 10,000 件が含まれます。ベーストレースは 14 日保持、延長トレースは 400 日保持で追加費用がかかります。5 人チームが Plus を利用すると、トレース超過前の席料金は月 $195 です。Enterprise はカスタム価格です。
データ保持の仕組み
前述のとおり、評価器がトレースにフィードバックを追加すると自動的に延長保持が有効になります。評価パイプラインの設定前に、LangSmith の自動延長保持に関する課金ドキュメントを確認してください。
トレースの深さ、評価器の使用、保持設定の小さな違いが、月額費用を左右するため、これらの細部は重要です。
Langfuse と LangSmith の比較表
先に述べたとおり、主な違いは所有モデル、フレームワーク適合、評価ワークフロー、料金です。以下の表は、最終的な判断セクションの前にそのポイントを圧縮したものです。
|
機能 |
Langfuse |
LangSmith |
|
オープンソース |
はい(MIT) |
いいえ(プロプライエタリ) |
|
セルフホスティング |
MIT 無償セルフホスティング;エンタープライズ機能は有償 |
エンタープライズ契約が必要 |
|
評価 |
LLM-as-judge(MIT)、コード評価、人手アノテーション、CI/CD |
LLM-as-judge、人手アノテーション、オンライン評価、few-shot 補正 |
|
プロンプト管理 |
ラベルベースのデプロイ、SDK キャッシュ、プロンプト合成 |
コミットハッシュのバージョニング、コミュニティ Prompt Hub |
|
エコシステム |
広範な統合、OTel ネイティブ、フレームワーク横断 |
LangChain/LangGraph に最適;OTel サポート |
|
エージェント対応 |
Agent Graphs、Trace Log View、Code Evaluators、MCP サーバー |
LangSmith Studio、ネイティブ LangGraph トレーシング、状態検査 |
|
コンプライアンス |
SOC 2 Type II、ISO 27001、GDPR、HIPAA |
SOC 2 Type II、GDPR、HIPAA |
|
料金モデル |
ユニット課金;有料プランはユーザー無制限 |
席数+トレース課金;保持 2 段階 |
|
適合 |
データ主権、非 LangChain スタック、CI/CD 評価 |
LangGraph チーム、マネージド SaaS 志向 |
LLM 可観測性プラットフォーム選定時の落とし穴
まず私の考えとしては、トレーシングのみに注目しないことです。トレーシングは起きた事象を示すだけで、出力が良かったかは評価が示します。トレースの可視化だけで選ぶのは、基準を誤っています。
次に、料金の仕組みに注意してください。前述のとおり、Langfuse はトレースの深さでコストが増え、LangSmith は延長保持が自動評価のコストに影響し得ます。本番前に試算しましょう。
三点目として、セルフホスティングは両製品で同じ意味ではありません。セルフホスティングの章がその理由を示しています。データ主権が厳格な要件なら、その違いが決め手になり得ます。
最後に、フレームワーク互換性だけで決めないこと。スタックは変わり得ます。デプロイ要件や評価ワークフローは、後からの入れ替えが難しい領域です。
Langfuse を選ぶべきとき
上記のトレードオフに基づくと、Langfuse が適しているのは次のような場合です。
- チームが主に LangChain や LangGraph を使っておらず、CrewAI、Pydantic AI、LlamaIndex、あるいは OpenAI や Anthropic への直接 API 呼び出しで構築している。
- データ主権が譲れず、LLM の入出力やトレースを自社インフラ内に留める必要がある。
- コンプライアンスチェックリストで、SOC 2 と HIPAA に加えて ISO 27001 が必要である。
- GitHub Actions による自動リグレッションゲートを伴う、CI/CD 統合の評価を導入したい。
- 有料クラウドプランでユーザー無制限のため、拡大するチームでもコストを予測可能にしたい。
LangSmith を選ぶべきとき
同じトレードオフに基づくと、LangSmith が適しているのは次のような場合です。
- LangGraph で構築しており、ゼロコンフィグのトレーシング、ネイティブなグラフ可視化、LangSmith Studio でのステップ実行デバッグを求めている。
- インフラ運用不要のマネージドプラットフォームを望んでいる。
- 組織外も含めたチーム間でプロンプトを発見・共有できるコミュニティ Prompt Hub を重視している。
- 可観測性を越えて、エージェントのデプロイや Fleet 管理まで含む LangSmith の広範なプラットフォーム機能を必要としている。
結論
Langfuse と LangSmith はどちらも実際の課題を解決し、過去 1 年で大きく進化しました。現時点ではトレードオフは明確です。
判断は機能数の多寡ではありません。前述の「所有とエコシステム」のトレードオフです。データスタックを自分たちでコントロールする必要があるのか、それとも LangChain/LangGraph の世界でセットアップの手間を減らしたいのか。
最後に 1 点注意:両プラットフォームは頻繁に変わります。決める前に必ずチェンジログを確認してください。
LangChain エコシステムの背景については、こちらの LangChain vs. LangGraph vs. LangSmith vs. LangFlow チュートリアルをご覧ください。
FAQs
後から LangSmith から Langfuse に乗り換えられますか?
はい、可能ですが作業は必要です。前述の OpenTelemetry の対応により、トレーシングの可搬性は向上します。より難しいのは、保持期間が切れる前に評価用データセットをエクスポートすることです。
ClickHouse に買収された後も、Langfuse はセルフホスティングをサポートしていますか?
はい。先述のとおり、2026 年 1 月の買収時点で MIT ライセンスとセルフホスティングは変更なしと確認されています。実務上の注意点は運用です。
LangSmith は LangChain アプリ専用ですか?
現在は違います。前述のとおり、LangSmith は langsmith[otel] を通じて OpenTelemetry トレーシングをサポートしています。最も緊密な統合は依然として LangGraph ですが、非 LangChain のチームでも LangSmith を利用できます。
LangSmith の延長保持の課金はどうなっていますか?
料金の章で説明したとおり、LangSmith には 14 日のベース保持と 400 日の延長保持という 2 つのトレース保持階層があります。フィードバックが追加されたとき、実行ルールが発火したとき、またはトレースがアノテーションキューに入ったときに延長保持が有効になります。
Langfuse の Hobby ティアで、プラットフォームを十分に評価できますか?
個人開発者にとっては十分です。月 50,000 ユニットと 30 日保持があれば、アプリを接続して実際のトレースを確認できます。本番評価では、前述のセルフホスティングのポイントが効いてきます。MIT 版ではユニット上限やユーザー上限がなくなるためです。