Langfuse 与 LangSmith：LLM 可观测性平台对比

比较 Langfuse 与 LangSmith 在追踪、评估、可观测性、提示词管理与生产监控方面的能力，助您为 LLM 应用选择合适的平台。

更新 2026年6月24日 · 13分钟读

当聊天机器人开始给出糟糕的回答时，人们的本能是检查提示词。对单次 LLM 调用而言，这没问题。但当应用是一个会调用工具的代理时，这种方法就不再奏效。

LLM 可观测性平台正是为弥补这种缺失的上下文而生。它们不是传统的应用监控工具。传统工具告诉您延迟和错误率；LLM 可观测性平台则告诉您是哪一次工具调用返回了错误结果，以及提示词的更改是否提升了输出质量。

Langfuse 和 LangSmith 都涵盖追踪、评估和提示词管理，并且都在 2026 年初发布了重大更新。不过它们并不可互换。差异归结为部署需求、技术栈，以及您团队如何开展评估。

简短结论：如果您需要开源自托管、数据可控，或使用非 LangChain 技术栈，Langfuse 更合适。若您已经在使用 LangChain 或 LangGraph，LangSmith 更契合，但它已不再局限于该生态。若两者皆非关键条件，请比较定价。

什么是 Langfuse 和 LangSmith？

从高层看，这两款产品都让 LLM 应用具备可观测、可测试、可调试性。下面分别介绍。

Langfuse 与 LangSmith 的平台定位概览。作者供图。

什么是 Langfuse？

Langfuse 是一款于 2023 年推出的开源 LLM 工程平台，涵盖追踪、提示词管理、评估（LLM 判官、人工标注与基于代码的检查）、数据集实验，以及成本与延迟监控。其核心开源产品采用 MIT 许可。

2026 年 1 月，ClickHouse 宣布完成 4 亿美元 D 轮融资并收购 Langfuse。Langfuse 现为列式数据库 ClickHouse 的一部分，而 ClickHouse 早已为 Langfuse 后端提供支撑。彼时确认 MIT 许可与开源定位均保持不变。

Langfuse 提供托管云服务（覆盖美国、欧盟、日本区域），也可作为开源自托管实例运行，无需软件许可费用。

什么是 LangSmith？

LangSmith 是由 LangChain Inc. 构建的可观测与评估平台，该团队也是 LangChain 与 LangGraph 的开发者。该平台为专有闭源。LangChain 于 2025 年 10 月以 12.5 亿美元估值融资 1.25 亿美元。

其核心能力包括跨应用运行的追踪、可视化调试、自动化评估、生产监控，以及通过 Prompt Hub 与 Playground 进行的提示词管理。2026 年 5 月，LangChain 推出基于 Rust 的数据层 SmithDB，现已处理 LangSmith 美国云端 100% 的数据写入。SmithDB 将 P50 追踪树加载降低至 92 毫秒，全文检索降低至 400 毫秒。

LangSmith 提供托管云、混合部署（客户 VPC 数据平面）和企业版自托管。

开源 vs. 托管 SaaS

两者的核心差异并非“开源与否”。真正的差别在于一端是可控性与可迁移性，另一端是与 LangChain/LangGraph 的契合度。Langfuse 允许您在自有基础设施上运行整套栈且无许可成本；如果您的应用已运行在 LangChain 或 LangGraph 上，LangSmith 的设置工作量会更小。

有一项更新会改变比较的视角：LangSmith 现已通过 langsmith[otel] 包与 LANGSMITH_OTEL_ENABLED=true 环境变量支持 OpenTelemetry 追踪。LangSmith 已不再仅限于 LangChain 应用。它与 LangGraph 的集成仍然最为紧密，详见追踪部分。

以下是两者的结构性定位：turally:

维度	Langfuse	LangSmith
源模型	开源（MIT）	专有、闭源
自托管	免费 MIT 自托管；企业级控制需付费	需签订企业合约
框架取向	跨框架可用；集成广；原生 OTel	最契合 LangChain/LangGraph；支持 OTel
数据主权	完整；可实现物理隔离部署	为企业客户提供混合与自托管
后端数据库	ClickHouse	SmithDB（Rust/DataFusion）
定价模型	按单元计费（追踪 + 观测 + 评分）	按席位 + 按追踪计费，双重留存层级
合规	SOC 2 Type II、ISO 27001、GDPR、HIPAA	SOC 2 Type II、GDPR、HIPAA

文章其余部分将拆解这些差异在实践中的意义。

追踪与可观测性

从追踪开始，两款产品就逐渐拉开差距。二者都能捕获 LLM 调用、工具调用及相关元数据，但在代理型工作流中，差异暴露得比简单的问答式应用更快。

请求追踪

Langfuse 构建分层追踪，捕获 LLM 调用、工具调用、嵌入与检索步骤。您可按用户、会话、成本、延迟或自定义元数据进行筛选。2026 年 5 月，Langfuse 基于 ClickHouse 原生 FTS 引擎加入全文检索，将此前接近 20 秒的搜索缩短至不足半秒。

LangSmith 将每次 LLM 调用与工具使用捕获为可检查的运行树。随着 SmithDB 现已处理所有美国云端写入，追踪树 P50 加载为 92 毫秒。LangSmith 还包含无监督主题聚类，可按检测到的主题对追踪分组，为团队在不确定问题根因时提供切入点。

代理工作流可见性

Langfuse 于 2025 年 11 月加入 Agent Graphs，通过从观测的时间与嵌套中推断图结构，直观展示多步代理的执行流程。它适配任何已接入监测的框架，并原生支持 LangGraph。同时间还加入 Trace Log View，为大量循环或强分支的工作流提供扁平的代理步骤流。

用于 LangGraph 执行的 Langfuse 代理图。作者供图。

LangSmith 的 LangGraph 追踪可零配置（仅需设置环境变量）捕获运行中的每个节点、边与状态转换。LangSmith Studio 支持逐步执行代理、在每个节点检查状态，并以不同模型或提示词重放追踪。在 LangGraph 应用中，这比通用追踪树提供了更多上下文。

用于代理工作流的 LangSmith 追踪树。作者供图。

生产监控

在生产监控层面，两个平台都会跟踪延迟、token 使用、成本与错误率。LangSmith 包含针对生产事故的 PagerDuty 与 webhook 告警。Langfuse 提供可配置阈值的支出告警。在该层面，两者监控功能相近。

离线与在线评估

追踪告诉您发生了什么；评估告诉您结果是否良好。实践中，将评估作为工作流的一部分而非上线前清单，这些工具的价值更大。

LLM 判官与代码评估器

Langfuse 的 LLM 判官在 2025 年 6 月完全以 MIT 开源。任何 v3.65.0 或更高版本的自托管用户无需商业许可即可使用。2026 年 5 月，Langfuse 推出 Code Evaluators：您可在 Langfuse UI 中直接编写 Python 或 TypeScript 的 evaluate 函数。这些评估器可执行确定性检查，如 JSON 模式校验、正则校验或工具参数验证，无需 token 成本或调用判官模型。

LangSmith 提供可配置的 LLM 判官评估器，支持布尔、分类与连续型反馈，并内置安全、保障与质量的模板。它还支持少样本校正：将人工标注的评估结果修正用作少样本示例，随时间改进评估器的校准。

数据集、实验与人工标注

两者都通过数据集与并排对比实验支持离线评估。Langfuse 于 2025 年 11 月加入 Score Analytics，以精确率、召回率、F1、成本与准确率衡量评估器一致性。同月推出的基线对比功能，允许将特定运行设为参考点并突出相对回归。

Langfuse 的 GitHub Actions CI/CD 集成于 2026 年 5 月通过 langfuse/experiment-action 发布，当实验得分低于阈值时使工作流失败。这样评估就变成了发布门，而不是发布后的复盘。

结合 GitHub Actions 的 Langfuse 评估闭环。作者供图。

需要尽早注意的一点是 LangSmith 的评估计费行为：向追踪添加反馈的评估器会自动将这些追踪升级到延长留存。正如我在定价部分将提到的，这会改变评估工作流的成本。

提示词版本管理、部署与 A/B 测试

这里的提示词管理不止是版本历史。流程是：在沙盒迭代、用数据集测试、推广到生产、出现问题时能干净回滚。

Langfuse 为每个提示词版本分配版本 ID，并使用 production 与 staging 等标签控制当前生效的版本。在 UI 中更改标签即为部署或回滚。SDK 会在客户端缓存提示词，因此当 SDK 获取活动版本时不会给生产调用增加延迟。受保护标签允许管理员限制可修改 production 标签的角色，这在不同权限层级的协作团队中很重要。

LangSmith 通过 LangChain Hub 管理提示词，并以提交哈希进行版本固定以便于编程化定位精确版本。Prompt Hub 包含社区库，这是 Langfuse 所不具备的。两者都支持通过数据集实验进行 A/B 测试。

在该类别中，两款产品的差距小于托管、定价或框架设置方面。

面向代理应用的 Langfuse vs. LangSmith

过去一年，代理推动了两平台的大量功能迭代。此处关键在于代理的构建方式。

Langfuse 会展示可用工具、突出显示已调用的工具，并显示参数与调用 ID。扩展的观测类型会在追踪视图中区分工具调用、嵌入与护栏调用。正如前文所述，Code Evaluators 还能根据模式校验工具参数。MCP 服务器在 2026 年 5 月扩展至覆盖 15 类工具，因此 Claude Code、Cursor 或 OpenAI Codex 中的代理可通过编程方式查询 Langfuse 数据。

追踪部分关于 LangGraph 的观点在此再次体现。LangSmith 的代理支持包括每个节点的状态检查、以替代模型重放追踪，以及用于可视化逐步调试的 LangSmith Studio。运营包含数百个子代理的生产系统的 Monte Carlo 工程团队，就将这种零设置的 LangGraph 集成视为其选择的重要原因。

对于使用 CrewAI、Pydantic AI 或其他多代理框架构建的代理，Langfuse 拥有更广的原生监测覆盖，通常需要更少的手动设置。

框架与 SDK 集成

Langfuse 在模型提供商、框架、网关、无代码工具、分析与开发者工具上提供广泛集成。框架包括 LangChain、LangGraph、OpenAI Agents SDK、Pydantic AI、CrewAI、AutoGen、DSPy、Haystack、LlamaIndex 等。该平台在 SDK 层原生支持 OpenTelemetry。

LangSmith 的原生 SDK 覆盖 Python、TypeScript、Go 与 Java。除 LangChain 与 LangGraph 外，它还适配 OpenAI SDK、Anthropic SDK、Vercel AI SDK、LlamaIndex、自定义实现与 OpenTelemetry。这意味着它并非仅面向 LangChain 的追踪工具，尽管与 LangGraph 的契合度仍最高。

实践问题不只在于是否支持某个框架（多数主流框架两者都支持），还在于您需要编写多少监测代码。LangGraph 在 LangSmith 中可实现零配置追踪；而在其他框架中，Langfuse 可能需要更少的设置。具体设置工作量取决于技术栈。

Langfuse 开源版 vs. LangSmith 企业版

自托管对运维与合规的影响往往超过多数功能类别。

Langfuse 的自托管在 MIT 许可下免费。开发或评估可用 Docker Compose；生产部署通常在 GKE、EKS 或 AKS 上采用 Kubernetes 与 Helm。其技术栈包含 ClickHouse、PostgreSQL、Redis 与兼容 S3 的存储，推荐最低虚机规格为 4 核、16 GiB 内存。软件许可零成本，但基础设施与运维由您团队负责。其付费自托管企业版提供专属支持、审计日志、SCIM 与 SLA。

在合规方面，Langfuse Cloud 具备 SOC 2 Type II、ISO 27001、GDPR 与 HIPAA 认证。LangSmith Cloud 具备 SOC 2 Type II、GDPR 与 HIPAA；未列出 ISO 27001。若您的采购流程要求该项，这是一个具体差异。

LangSmith 的自托管需要企业合约。没有开源、免费的自托管路径。三种部署模式（云、混合、自托管）都归于企业范畴。用于自托管 LangSmith 的 SmithDB 在 2026 年 5 月仍处早期访问阶段，尚未全面可用。

Langfuse 与 LangSmith 的定价

标价并不能说明全部情况。

此外，此类产品的定价常有变动。以下数字基于我在 2026 年 6 月查阅的官方页面，但在为任一平台做预算前，请先查看当前定价页面。

Langfuse 定价

Langfuse Cloud 按单元计费：一个单元等于一次追踪、一次观测或一次评分。公式为 Units = Traces + Observations + Scores，因此一次大量工具调用的代理运行会比简单问答式追踪花费更高。免费 Hobby 方案每月含 50,000 个单元、30 天留存、2 名用户；Core 每月 29 美元，含 100,000 个单元、无限用户与 90 天留存；Pro 每月 199 美元，含 3 年数据访问与合规认证；Enterprise 起价 2,499 美元/月，按量定制；超量从每额外 100,000 个单元 8 美元起。

如前所述，自托管的 Langfuse 无需软件许可费用。SCIM、审计日志与企业支持需要商业许可。

LangSmith 定价

LangSmith 按席位与按追踪计费。Developer 方案免费，每月 5,000 条追踪、1 个席位、14 天留存。Plus 每席位每月 39 美元，含 10,000 条基础追踪。基础追踪留存 14 天；延长追踪留存 400 天且成本更高。一个五人团队使用 Plus，在追踪超量前席位费为 195 美元/月。企业版为定制定价。

数据留存机制

如前所述，当评估器向追踪添加反馈时，会自动启用延长留存。在搭建评估流水线前，请阅读 LangSmith 关于自动延长留存的计费文档。

这些细节很重要，因为追踪深度、评估器使用与留存的细微差异会改变月度账单。

Langfuse 与 LangSmith 对比表

如前所述，主要差异在于拥有权、框架契合度、评估工作流与定价。下表在最终决策部分前对这些要点进行压缩总结。

功能	Langfuse	LangSmith
开源	是（MIT）	否（专有）
自托管	免费 MIT 自托管；企业级控制需付费	需签订企业合约
评估	LLM 判官（MIT）、代码评估器、人工标注、CI/CD	LLM 判官、人工标注、在线评估器、少样本校正
提示词管理	基于标签的部署、SDK 缓存、提示词可组合	提交哈希版本固定、社区 Prompt Hub
生态	集成广、原生 OTel、跨框架可用	最契合 LangChain/LangGraph；支持 OTel
代理支持	Agent Graphs、Trace Log View、代码评估器、MCP 服务器	LangSmith Studio、原生 LangGraph 追踪、状态检查
合规	SOC 2 Type II、ISO 27001、GDPR、HIPAA	SOC 2 Type II、GDPR、HIPAA
定价模型	按单元；付费方案不限用户数	按席位 + 按追踪；双重留存层级
适配性	数据主权、非 LangChain 技术栈、CI/CD 评估	LangGraph 团队、偏好托管 SaaS

选择 LLM 可观测性平台时的常见错误

首先，在我看来：不要只关注追踪。追踪告诉您发生了什么，但评估告诉您输出是否良好。若仅凭追踪可视化来选择平台，标准就用错了。

其次，要留意定价机制。如上所述，Langfuse 的成本会随追踪深度增长，而 LangSmith 的延长留存会改变自动化评估的成本。在生产前做好测算。

第三，两款产品对“自托管”的定义并不相同。上述自托管部分已解释原因。若数据主权是硬性要求，这一差异可能直接决定选择。

最后，不要仅凭框架兼容性做决定。技术栈会变；而部署要求与评估工作流更难在后期更换。

何时选择 Langfuse

基于上述权衡，以下情形下 Langfuse 更合适：

您的团队主要不使用 LangChain 或 LangGraph，而是使用 CrewAI、Pydantic AI、LlamaIndex，或直接调用 OpenAI、Anthropic 的 API。
数据主权不可妥协，LLM 输入、输出与追踪需要保留在您自有的基础设施上。
您的合规清单除 SOC 2 与 HIPAA 外，还要求 ISO 27001。
您希望通过 GitHub Actions 实现与 CI/CD 集成的评估与自动回归闸门。
您需要对不断扩大的团队保持可预测成本，因为付费云方案不限用户数。