Langfuse vs. LangSmith: comparando plataformas de observabilidade de LLM

Compare Langfuse e LangSmith em tracing, avaliação, observabilidade, gestão de prompts e monitoramento em produção para escolher a plataforma certa para suas aplicações de LLM.

Atualizado 24 de jun. de 2026 · 13 min lido

Quando um chatbot começa a dar respostas ruins, a reação é revisar o prompt. Isso funciona para uma chamada única de LLM. Deixa de funcionar quando o app é um agente que faz chamadas de ferramentas.

É esse contexto que as plataformas de observabilidade de LLM tentam oferecer. Elas não são ferramentas tradicionais de monitoramento de aplicações. Uma ferramenta tradicional mostra latência e taxas de erro. Uma plataforma de observabilidade de LLM mostra qual chamada de ferramenta retornou um resultado ruim e se uma mudança no prompt melhorou a qualidade do output.

Tanto o Langfuse quanto o LangSmith cobrem tracing, avaliação e gestão de prompts, e ambos lançaram atualizações importantes no início de 2026. Mas não são intercambiáveis. A diferença está nas exigências de deployment, no stack e em como seu time roda avaliações.

Resumo: Langfuse é ideal para times que precisam de self-hosting open source, controle de dados ou um stack fora de LangChain. LangSmith é ideal para times que já constroem com LangChain ou LangGraph, embora não esteja mais limitado a esse ecossistema. Se nenhum dos dois cenários for o seu, vale comparar preços.

O que são Langfuse e LangSmith?

Em linhas gerais, ambos tornam aplicações de LLM observáveis, testáveis e depuráveis. Veja o que cada um é.

Visão geral de posicionamento: Langfuse versus LangSmith. Imagem do autor.

O que é o Langfuse?

Langfuse é uma plataforma open source de engenharia de LLM lançada em 2023. Cobre tracing, gestão de prompts, avaliação (LLM-as-judge, anotação humana e checagens baseadas em código), experimentos com datasets e monitoramento de custo e latência. O núcleo open source é licenciado sob MIT.

Em janeiro de 2026, a ClickHouse anunciou uma Série D de US$ 400 milhões e adquiriu o Langfuse. O Langfuse agora faz parte da ClickHouse, o banco de dados colunar que já alimentava seu backend. A licença MIT e a identidade open source foram mantidas na época.

O Langfuse roda como serviço gerenciado em nuvem com regiões nos EUA, UE e Japão, ou como instância self-hosted open source sem custo de licença de software.

O que é o LangSmith?

LangSmith é a plataforma de observabilidade e avaliação construída pela LangChain Inc., o time por trás do LangChain e do LangGraph. A plataforma é proprietária e fechada. A LangChain levantou US$ 125 milhões a um valuation de US$ 1,25 bilhão em outubro de 2025.

Os principais recursos incluem tracing de runs da aplicação, depuração visual, avaliações automatizadas, monitoramento em produção e gestão de prompts via Prompt Hub e Playground. Em maio de 2026, a LangChain lançou o SmithDB, uma camada de dados em Rust que agora processa 100% da ingestão do LangSmith US Cloud. O SmithDB reduz o P50 de carregamento de árvores de trace para 92 milissegundos e a busca full-text para 400 milissegundos.

O LangSmith está disponível como serviço gerenciado em nuvem, deployment híbrido com plano de dados no VPC do cliente ou deployment self-hosted para Enterprise.

Open source vs. SaaS gerenciado

A diferença central entre as plataformas não é "open source versus não open source". A questão é controle e portabilidade de um lado e o encaixe com LangChain/LangGraph do outro. O Langfuse permite rodar o stack na sua própria infraestrutura sem custo de licença. O LangSmith exige menos setup quando sua aplicação já roda em LangChain ou LangGraph.

Uma atualização muda como enquadrar essa comparação: o LangSmith agora suporta tracing via OpenTelemetry por meio do pacote langsmith[otel] e da variável de ambiente LANGSMITH_OTEL_ENABLED=true. O LangSmith não está mais limitado a apps somente em LangChain. A integração mais profunda continua sendo com LangGraph, como explico na seção de tracing.

Veja como as duas plataformas se posicionam estruturalmente:

Dimensão	Langfuse	LangSmith
Modelo de origem	Open source (MIT)	Proprietário, fechado
Self-hosting	Self-hosting MIT gratuito; controles enterprise pagos	Requer contrato Enterprise
Abordagem de framework	Funciona em vários frameworks; integrações amplas; OTel nativo	Encaixe ideal com LangChain/LangGraph; suporte a OTel
Soberania de dados	Total; deployment isolado (air-gapped) possível	Híbrido e self-hosted para clientes Enterprise
Banco de dados backend	ClickHouse	SmithDB (Rust/DataFusion)
Modelo de preço	Baseado em unidades (traces + observações + scores)	Por assento e por trace, com duas camadas de retenção
Conformidade	SOC 2 Type II, ISO 27001, GDPR, HIPAA	SOC 2 Type II, GDPR, HIPAA

O restante do artigo detalha o que essas diferenças significam na prática.

Tracing e observabilidade

É no tracing que os produtos começam a se diferenciar. Ambos capturam chamadas de LLM, chamadas de ferramentas e metadados relacionados, mas fluxos de agentes expõem as diferenças mais rápido do que apps simples de prompt-resposta.

Tracing de requisições

O Langfuse constrói traces hierárquicos que capturam chamadas de LLM, invocações de ferramentas, embeddings e etapas de retrieval. Você pode filtrar por usuário, sessão, custo, latência ou metadados customizados. Em maio de 2026, o Langfuse adicionou busca full-text apoiada pelo mecanismo nativo de FTS do ClickHouse, reduzindo pesquisas que levavam quase 20 segundos para menos de meio segundo.

O LangSmith captura cada chamada de LLM e uso de ferramenta como uma árvore de runs inspecionável. Com o SmithDB processando toda a ingestão no US Cloud, árvores de trace carregam no P50 em 92 milissegundos. O LangSmith também inclui clusterização de tópicos não supervisionada, que agrupa traces por tema detectado e dá um ponto de partida quando o time ainda não sabe o que está errado.

Visibilidade de workflow de agentes

O Langfuse adicionou Agent Graphs em novembro de 2025, visualizando o fluxo de execução de agentes multi-etapas ao inferir a estrutura do grafo a partir de tempos e aninhamento de observações. Funciona com qualquer framework instrumentado, com suporte nativo a LangGraph. Um Trace Log View foi lançado na mesma época, oferecendo um fluxo linear de etapas do agente para workflows com muitos loops ou ramificações.

Agent graph do Langfuse para execução em LangGraph. Imagem do autor.

O tracing do LangSmith para LangGraph captura cada nó, aresta e transição de estado de um run sem configuração além de setar uma variável de ambiente. O LangSmith Studio permite percorrer a execução do agente passo a passo, inspecionar o estado em cada nó e reproduzir um trace com outro modelo ou prompt. Em uma aplicação LangGraph, isso dá mais contexto do que uma árvore de trace genérica.

Árvore de trace do LangSmith para workflow de agente. Imagem do autor.

Monitoramento em produção

Para produção, ambas as plataformas acompanham latência, uso de tokens, custo e taxas de erro. O LangSmith inclui alertas via PagerDuty e webhooks para incidentes. O Langfuse inclui alertas de gasto com limites configuráveis. Neste nível, os recursos de monitoramento são semelhantes.

Avaliação offline e online

Tracing mostra o que aconteceu. Avaliação mostra se foi bom. Na prática, essas ferramentas são mais úteis quando a avaliação faz parte do fluxo, não só um checklist pré-lançamento.

LLM-as-a-judge e avaliadores por código

O LLM-as-judge do Langfuse tornou-se totalmente open source sob MIT em junho de 2025. Qualquer usuário self-hosted na v3.65.0 ou superior tem acesso sem licença comercial. Em maio de 2026, o Langfuse lançou Code Evaluators: funções evaluate em Python ou TypeScript que você escreve direto na UI do Langfuse. Elas rodam checagens determinísticas, como validação de schema JSON, validação por regex ou verificação de argumentos de ferramentas, sem custo de tokens ou chamada de modelo juiz.

O LangSmith oferece avaliadores configuráveis de LLM-as-judge com feedback Booleano, Categórico e Contínuo, além de templates prontos para Segurança, Safety e Qualidade. Ele também suporta few-shot correction, onde correções anotadas por humanos nos outputs dos avaliadores viram exemplos few-shot para melhorar a calibração do avaliador ao longo do tempo.

Datasets, experimentos e anotação humana

A avaliação offline funciona em ambas as plataformas via datasets e comparação lado a lado de experimentos. O Langfuse adicionou Score Analytics em novembro de 2025 para medir alinhamento entre avaliadores em precisão, recall, F1, custo e acurácia. A comparação com baseline, também de novembro de 2025, permite marcar um run específico como referência e destacar regressões em relação a ele.

A integração do Langfuse com GitHub Actions para CI/CD, lançada em maio de 2026 via langfuse/experiment-action, falha um workflow quando as notas do experimento ficam abaixo de um limite. Isso transforma a avaliação em uma barreira de deploy em vez de revisão pós-lançamento.

Ciclo de avaliação do Langfuse com GitHub Actions. Imagem do autor.

A configuração de avaliação do LangSmith tem um ponto de cobrança importante: avaliadores que adicionam feedback aos traces promovem automaticamente esses traces para retenção estendida. Como explico na seção de preços, isso muda o custo dos fluxos de avaliação.

Versionamento de prompts, deployment e testes A/B

Gestão de prompts aqui vai além do histórico de versões. O fluxo é: iterar em um sandbox, testar contra um dataset, promover para produção e reverter com segurança quando algo quebra.

O Langfuse dá a cada versão de prompt um ID e usa labels como production e staging para controlar qual versão está ativa. Mudar uma label na UI é como você faz deploy ou rollback. Os prompts são cacheados no cliente pelo SDK, então não há latência extra nas chamadas de produção quando o SDK busca a versão ativa. Labels protegidas permitem que administradores restrinjam quais papéis podem modificar a label production, algo importante quando há colaboradores com níveis de acesso diferentes.

O LangSmith gerencia prompts via LangChain Hub com versionamento por hash de commit para fixar versões exatas programaticamente. O Prompt Hub inclui uma biblioteca da comunidade que o Langfuse não replica. Testes A/B via experimentos com datasets estão disponíveis em ambas as plataformas.

Nesta categoria, os dois produtos são mais próximos do que em hosting, preços ou setup de framework.

Langfuse vs. LangSmith para aplicações de agentes

Agentes impulsionaram boa parte das novidades em ambas as plataformas no último ano. Aqui, importa onde o agente é construído.

O Langfuse exibe ferramentas disponíveis, destaca quais foram chamadas e mostra argumentos e IDs das chamadas. Tipos de observação expandidos distinguem chamadas de ferramentas, embeddings e chamadas de guardrails na visualização de trace. Como mencionei, os Code Evaluators também podem verificar argumentos de ferramentas contra um schema. O servidor MCP foi expandido em maio de 2026 para cobrir 15 categorias de ferramentas, então agentes no Claude Code, Cursor ou OpenAI Codex podem consultar dados do Langfuse programaticamente.

O ponto sobre LangGraph da seção de tracing aparece novamente aqui. O suporte do LangSmith a agentes inclui inspeção de estado em cada nó, replay de trace com modelos alternativos e o LangSmith Studio para depuração visual passo a passo. O time de engenharia da Monte Carlo, que roda um sistema em produção com centenas de subagentes, citou essa integração sem setup com LangGraph como razão-chave da escolha.

Para agentes construídos com CrewAI, Pydantic AI ou outros frameworks multiagentes, o Langfuse tem instrumentação nativa mais ampla e muitas vezes exige menos setup manual.

Integrações com frameworks e SDKs

O Langfuse lista integrações amplas entre provedores de modelos, frameworks, gateways, ferramentas no-code, analytics e ferramentas de desenvolvedor. Os frameworks incluem LangChain, LangGraph, OpenAI Agents SDK, Pydantic AI, CrewAI, AutoGen, DSPy, Haystack, LlamaIndex e outros. A plataforma é nativa em OpenTelemetry no nível do SDK.

Os SDKs nativos do LangSmith cobrem Python, TypeScript, Go e Java. Além de LangChain e LangGraph, funciona com OpenAI SDK, Anthropic SDK, Vercel AI SDK, LlamaIndex, implementações customizadas e OpenTelemetry. Isso significa que ele não é uma ferramenta de tracing apenas para LangChain, embora o LangGraph siga sendo o melhor encaixe.

A pergunta prática não é só se um framework é suportado, já que a maioria dos populares funciona em ambas. É quanto de instrumentação você precisa escrever. O LangGraph tem tracing zero-config no LangSmith. Outros frameworks podem exigir menos setup no Langfuse. O esforço de setup varia conforme o stack.

Langfuse open source vs. LangSmith Enterprise

Self-hosting muda mais o cenário operacional e de compliance do que a maioria das categorias de recursos.

O self-hosting do Langfuse é gratuito sob MIT. Docker Compose funciona para desenvolvimento ou avaliação; deploys de produção geralmente usam Kubernetes com Helm no GKE, EKS ou AKS. O stack inclui ClickHouse, PostgreSQL, Redis e storage compatível com S3, com VM mínima recomendada de 4 cores e 16 GiB de RAM. A licença de software não custa nada, mas sua equipe assume infraestrutura e operações. A Enterprise Edition self-hosted paga adiciona suporte dedicado, audit logs, SCIM e SLAs.

Em compliance, o Langfuse Cloud possui certificações SOC 2 Type II, ISO 27001, GDPR e HIPAA. O LangSmith Cloud possui SOC 2 Type II, GDPR e HIPAA. ISO 27001 não está listado para o LangSmith. Se o seu processo de compras exige esse item, é uma diferença concreta.

O self-hosting do LangSmith requer contrato Enterprise. Não há caminho open source e gratuito para self-hosting. Três modelos de deployment (Cloud, Híbrido e Self-hosted) ficam sob o guarda-chuva Enterprise. O SmithDB para LangSmith self-hosted está em early access em maio de 2026, ainda sem disponibilidade geral.

Preços: Langfuse vs. LangSmith

Os preços de vitrine não contam a história inteira.

Preços também mudam com frequência nessa categoria. Os números abaixo refletem as páginas oficiais consultadas em junho de 2026, mas confira as páginas atuais antes de orçar qualquer plataforma.

Preços do Langfuse

O Langfuse Cloud cobra por unidades: uma unidade equivale a um trace, uma observação ou um score. A fórmula é Units = Traces + Observations + Scores, então um run de agente com muitas ferramentas pode custar mais do que um trace simples de prompt-resposta. O plano gratuito Hobby inclui 50.000 unidades/mês, retenção de 30 dias e dois usuários. O Core custa US$ 29/mês com 100.000 unidades incluídas, usuários ilimitados e 90 dias de retenção. O Pro é US$ 199/mês com acesso a dados por 3 anos e certificações de compliance. Enterprise começa em US$ 2.499/mês com volume customizado. Excedente a partir de US$ 8 por 100.000 unidades adicionais.

Como mencionei, o Langfuse self-hosted não tem custo de licença de software. SCIM, audit logs e suporte enterprise exigem licença comercial.

Preços do LangSmith

O LangSmith cobra por assento e por trace. O plano Developer é gratuito com 5.000 traces/mês, um assento e retenção de 14 dias. O Plus custa US$ 39 por assento/mês com 10.000 traces base incluídos. Traces base têm retenção de 14 dias; traces estendidos guardam dados por 400 dias e custam mais. Um time de cinco no Plus paga US$ 195/mês em assentos antes do excedente de traces. Enterprise tem preço customizado.

Mecânica de retenção de dados

Como mencionei, a retenção estendida é acionada automaticamente quando avaliadores adicionam feedback aos traces. Leia a documentação de cobrança do LangSmith sobre retenção estendida automática antes de configurar pipelines de avaliação.

Esses detalhes importam porque pequenas diferenças em profundidade do trace, uso de avaliadores e retenção podem alterar a fatura mensal.

Tabela comparativa: Langfuse vs. LangSmith

Como já mencionei, as principais diferenças são propriedade, encaixe com framework, workflow de avaliação e preço. A tabela abaixo resume antes das seções finais de decisão.

Recurso	Langfuse	LangSmith
Open source	Sim (MIT)	Não (proprietário)
Self-hosting	Self-hosting MIT gratuito; controles enterprise pagos	Requer contrato Enterprise
Avaliação	LLM-as-judge (MIT), avaliadores por código, anotação humana, CI/CD	LLM-as-judge, anotação humana, avaliadores online, few-shot correction
Gestão de prompts	Deployment por labels, cache no SDK, composição de prompts	Versionamento por hash de commit, Prompt Hub da comunidade
Ecossistema	Integrações amplas, OTel nativo, funciona entre frameworks	Encaixe ideal com LangChain/LangGraph; suporte a OTel
Suporte a agentes	Agent Graphs, Trace Log View, Code Evaluators, servidor MCP	LangSmith Studio, tracing nativo de LangGraph, inspeção de estado
Conformidade	SOC 2 Type II, ISO 27001, GDPR, HIPAA	SOC 2 Type II, GDPR, HIPAA
Modelo de preço	Por unidade; usuários ilimitados nos planos pagos	Por assento + por trace; duas camadas de retenção
Adequação	Soberania de dados, stacks fora de LangChain, avaliação em CI/CD	Times em LangGraph, preferência por SaaS gerenciado

Erros ao escolher uma plataforma de observabilidade de LLM

Primeiro ponto: não foque só no tracing. Tracing mostra o que aconteceu; avaliação mostra se o output foi bom. Se você decidir apenas pela visualização do trace, está usando o critério errado.

Segundo: fique de olho na mecânica de preços. Como vimos, o custo do Langfuse cresce com a profundidade do trace, enquanto a retenção estendida do LangSmith pode mudar o custo da avaliação automatizada. Faça as contas antes da produção.

Terceiro, self-hosting não significa a mesma coisa nos dois produtos. A seção de self-hosting acima mostra o porquê. Se soberania de dados é requisito inegociável, essa diferença pode decidir.

Por fim, não decida apenas pela compatibilidade com frameworks. Stacks mudam. Requisitos de deployment e workflows de avaliação são mais difíceis de trocar depois.

Quando escolher o Langfuse

Com base nos trade-offs acima, o Langfuse é mais indicado quando:

Seu time não usa principalmente LangChain ou LangGraph e você está construindo com CrewAI, Pydantic AI, LlamaIndex ou chamadas diretas de API para OpenAI ou Anthropic.
Soberania de dados é inegociável e entradas, saídas e traces de LLM precisam ficar na sua própria infraestrutura.
Sua checklist de compliance exige ISO 27001 além de SOC 2 e HIPAA.
Seu time quer avaliação integrada ao CI/CD com gates de regressão automáticos via GitHub Actions.
Você precisa de custos previsíveis para um time em crescimento, já que os planos Cloud pagos incluem usuários ilimitados.

Quando escolher o LangSmith

Pelos mesmos trade-offs, o LangSmith é mais indicado quando:

Você está construindo com LangGraph e quer tracing sem configuração, visualização nativa do grafo e depuração passo a passo no LangSmith Studio.
Seu time quer uma plataforma gerenciada, sem infraestrutura para operar.
Você valoriza o Prompt Hub da comunidade para descobrir e compartilhar prompts com times fora da sua organização.
Suas necessidades vão além de observabilidade, chegando à plataforma mais ampla do LangSmith, que agora inclui deployment de agentes e gestão de Fleets.

Conclusão

Langfuse e LangSmith resolvem um problema real e mudaram bastante no último ano. A esta altura, o trade-off está claro.

A decisão não é sobre quem tem mais recursos. É o trade-off de propriedade e ecossistema que vimos antes. Você precisa controlar seu stack de dados ou prefere menos setup no mundo LangChain/LangGraph?

Um alerta antes de decidir: ambas as plataformas mudam com frequência. Confira os changelogs antes de se comprometer.

Para mais contexto sobre o ecossistema LangChain, veja nosso tutorial LangChain vs. LangGraph vs. LangSmith vs. LangFlow.