Langfuse vs LangSmith : comparer les plateformes d’observabilité LLM

Comparez Langfuse et LangSmith sur le tracing, l’évaluation, l’observabilité, la gestion des prompts et la supervision de production pour choisir la bonne plateforme pour vos applications LLM.

Actualisé 24 juin 2026 · 13 min lire

Quand un chatbot commence à donner de mauvaises réponses, le réflexe est de vérifier le prompt. Ça marche pour un appel LLM unique. Ça ne suffit plus quand l’application est un agent qui enchaîne des appels d’outils.

C’est ce contexte manquant que les plateformes d’observabilité LLM cherchent à fournir. Ce ne sont pas des outils de monitoring applicatif traditionnels. Un outil classique vous parle de latence et de taux d’erreur. Une plateforme d’observabilité LLM vous dit quel appel d’outil a renvoyé un mauvais résultat et si une modification de prompt a amélioré la qualité de sortie.

Langfuse et LangSmith couvrent tous deux le tracing, l’évaluation et la gestion des prompts, et ont publié d’importantes mises à jour début 2026. Ils ne sont pas interchangeables pour autant. La différence tient aux exigences de déploiement, à la stack technique et à la façon dont votre équipe mène les évaluations.

En bref : Langfuse convient aux équipes qui ont besoin d’un auto‑hébergement open source, de contrôle des données ou d’une stack hors LangChain. LangSmith convient aux équipes déjà sur LangChain ou LangGraph, même s’il n’est plus limité à cet écosystème. Si aucune de ces conditions n’est vraie, comparez les tarifs.

Qu’est‑ce que Langfuse et LangSmith ?

À haut niveau, les deux produits rendent les applications LLM observables, testables et débogables. Voici ce que propose chacun.

Aperçu du positionnement de Langfuse versus LangSmith. Image de l’auteur.

Qu’est‑ce que Langfuse ?

Langfuse est une plateforme open source d’ingénierie LLM lancée en 2023. Elle couvre le tracing, la gestion des prompts, l’évaluation (LLM-as-judge, annotation humaine et contrôles basés sur le code), les expériences sur jeux de données, ainsi que le suivi des coûts et de la latence. Le cœur du produit open source est sous licence MIT.

En janvier 2026, ClickHouse a annoncé une série D de 400 millions de dollars et a acquis Langfuse. Langfuse fait désormais partie de ClickHouse, la base de données colonnaire qui motorisait déjà le backend de Langfuse. La licence MIT et l’identité open source ont été confirmées inchangées à cette date.

Langfuse est disponible en service managé dans le cloud avec des régions aux États‑Unis, dans l’UE et au Japon, ou en instance auto‑hébergée open source sans coût de licence logicielle.

Qu’est‑ce que LangSmith ?

LangSmith est la plateforme d’observabilité et d’évaluation développée par LangChain Inc., l’équipe derrière LangChain et LangGraph. La plateforme est propriétaire et close source. LangChain a levé 125 millions de dollars pour une valorisation de 1,25 milliard en octobre 2025.

Ses principales capacités incluent le tracing d’un run applicatif, le débogage visuel, les évaluations automatisées, la supervision en production, et la gestion des prompts via Prompt Hub et le Playground. En mai 2026, LangChain a lancé SmithDB, une couche de données en Rust qui gère désormais 100 % de l’ingestion LangSmith US Cloud. SmithDB ramène le chargement P50 des arbres de traces à 92 millisecondes et la recherche plein texte à 400 millisecondes.

LangSmith est proposé en service cloud managé, en déploiement hybride avec plan de données dans le VPC client, ou en auto‑hébergement Enterprise.

Open source vs SaaS managé

La différence centrale entre les deux plateformes n’est pas « open source contre non open source ». Le vrai sujet est le contrôle et la portabilité d’un côté, et l’adéquation à LangChain/LangGraph de l’autre. Langfuse vous laisse exécuter la stack sur votre propre infrastructure sans coût de licence. LangSmith demande moins de configuration si votre application tourne déjà sur LangChain ou LangGraph.

Une mise à jour change toutefois la grille de lecture : LangSmith prend désormais en charge le tracing OpenTelemetry via le package langsmith[otel] et la variable d’environnement LANGSMITH_OTEL_ENABLED=true. LangSmith n’est plus limité aux applications LangChain. Son intégration la plus poussée reste avec LangGraph, comme je le détaille dans la section tracing.

Voici la position structurelle des deux plateformes :

Dimension	Langfuse	LangSmith
Modèle de diffusion	Open source (MIT)	Propriétaire, close source
Auto‑hébergement	Auto‑hébergement MIT gratuit ; contrôles entreprise payants	Contrat Enterprise requis
Approche framework	Fonctionne sur plusieurs frameworks ; intégrations larges ; OTel natif	Meilleur ajustement pour LangChain/LangGraph ; support OTel
Souveraineté des données	Totale ; déploiement isolé possible	Hybride et auto‑hébergé pour les clients Enterprise
Base de données backend	ClickHouse	SmithDB (Rust/DataFusion)
Modèle tarifaire	À l’unité (traces + observations + scores)	Par siège + par trace avec double palier de rétention
Conformité	SOC 2 Type II, ISO 27001, RGPD, HIPAA	SOC 2 Type II, RGPD, HIPAA

La suite de l’article détaille ce que ces différences impliquent en pratique.

Tracing et observabilité

Le tracing est le premier point de divergence. Les deux capturent les appels LLM, les appels d’outils et les métadonnées associées, mais les workflows d’agents révèlent plus vite les écarts qu’une simple app prompt‑réponse.

Tracing des requêtes

Langfuse construit des traces hiérarchiques qui capturent appels LLM, invocations d’outils, embeddings et étapes de retrieval. Vous pouvez filtrer par utilisateur, session, coût, latence ou métadonnées personnalisées. En mai 2026, Langfuse a ajouté la recherche plein texte basée sur le moteur FTS natif de ClickHouse, faisant passer des recherches proches de 20 secondes à moins d’une demi‑seconde.

LangSmith capture chaque appel LLM et usage d’outil sous forme d’arbre de runs inspectable. Avec SmithDB qui gère désormais toute l’ingestion US Cloud, les arbres de traces se chargent à P50 en 92 ms. LangSmith inclut aussi un clustering thématique non supervisé, qui regroupe les traces par thème détecté et offre un point de départ quand on ne sait pas où chercher.

Visibilité des workflows d’agents

Langfuse a ajouté Agent Graphs en novembre 2025, visualisant le flux d’exécution des agents multi‑étapes en déduisant la structure du graphe à partir du timing et de l’imbrication des observations. Cela fonctionne avec tout framework instrumenté, avec un support natif de LangGraph. Un Trace Log View a été ajouté en même temps pour afficher un flux linéaire d’étapes d’agent, utile pour les workflows très bouclés ou branchés.

Graphe d’agent Langfuse pour une exécution LangGraph. Image de l’auteur.

Le tracing LangGraph de LangSmith capture chaque nœud, arête et transition d’état d’un run sans autre configuration que la définition d’une variable d’environnement. LangSmith Studio permet d’avancer pas à pas dans l’exécution, d’inspecter l’état à chaque nœud et de rejouer une trace avec un autre modèle ou prompt. Dans une application LangGraph, cela apporte plus de contexte qu’un arbre de traces générique.

Arbre de traces LangSmith pour un workflow d’agent. Image de l’auteur.

Supervision de production

En production, les deux plateformes suivent latence, usage de tokens, coûts et taux d’erreur. LangSmith inclut des alertes PagerDuty et webhooks pour les incidents. Langfuse propose des alertes de dépenses avec seuils configurables. À ce niveau, les fonctionnalités de monitoring sont proches.

Évaluation offline et online

Le tracing vous dit ce qui s’est passé. L’évaluation vous dit si c’était bon. En pratique, ces outils sont plus utiles quand l’évaluation fait partie du workflow, pas seulement d’une checklist pré‑lancement.

LLM‑as‑a‑judge et évaluateurs par code

Le LLM‑as‑judge de Langfuse est devenu entièrement open source sous MIT en juin 2025. Tout utilisateur auto‑hébergé en v3.65.0 ou plus récent en bénéficie sans licence commerciale. En mai 2026, Langfuse a livré les Code Evaluators : des fonctions evaluate en Python ou TypeScript que vous écrivez directement dans l’interface Langfuse. Elles exécutent des contrôles déterministes (validation de schéma JSON, regex, vérification d’arguments d’outil, etc.) sans coût de tokens ni appel à un modèle juge.

LangSmith propose des évaluateurs LLM‑as‑judge configurables avec retours Booléen, Catégoriel et Continu, plus des modèles intégrés pour la sécurité, la sûreté et la qualité. Il prend aussi en charge la correction par few‑shot : des corrections étiquetées par des humains sur les sorties d’évaluateur sont réinjectées comme exemples few‑shot pour améliorer l’étalonnage au fil du temps.

Jeux de données, expériences et annotation humaine

L’évaluation offline fonctionne sur les deux plateformes via des datasets et la comparaison côte à côte d’expériences. Langfuse a ajouté Score Analytics en novembre 2025 pour mesurer l’alignement des évaluateurs selon la précision, le rappel, le F1, le coût et l’exactitude. La comparaison à un baseline, également en novembre 2025, permet de marquer un run de référence et de faire remonter les régressions par rapport à celui‑ci.

L’intégration CI/CD GitHub Actions de Langfuse, sortie en mai 2026 via langfuse/experiment-action, fait échouer un workflow si les scores d’expérience passent sous un seuil. L’évaluation devient ainsi un garde‑fou de déploiement, plutôt qu’une revue post‑release.

Boucle d’évaluation Langfuse avec GitHub Actions. Image de l’auteur.

L’environnement d’évaluation de LangSmith a un point de facturation à noter : les évaluateurs qui ajoutent du feedback aux traces basculent automatiquement ces traces en rétention étendue. Comme je le couvre dans la section tarifs, cela change le coût des workflows d’évaluation.

Versioning des prompts, déploiement et A/B testing

La gestion des prompts va ici au‑delà de l’historique des versions. Le workflow type : itérer dans un bac à sable, tester sur un dataset, promouvoir en production et revenir proprement en arrière en cas de problème.

Langfuse attribue un identifiant à chaque version de prompt et utilise des labels comme production et staging pour contrôler la version active. Le déploiement ou le rollback se fait en changeant un label dans l’UI. Les prompts sont mis en cache côté client par le SDK, donc aucune latence n’est ajoutée lorsque le SDK récupère la version active en production. Les labels protégés permettent aux administrateurs de restreindre les rôles autorisés à modifier le label production, point clé quand vous avez des contributeurs aux niveaux d’accès variés.

LangSmith gère les prompts via LangChain Hub avec versioning par hash de commit pour épingler exactement une version par code. Le Prompt Hub inclut une bibliothèque communautaire que Langfuse ne réplique pas. L’A/B testing via des expériences sur datasets est disponible sur les deux plateformes.

Sur ce volet, les produits sont plus proches que pour l’hébergement, les prix ou la mise en place framework.

Langfuse vs LangSmith pour les applications d’agents

Les agents ont largement guidé les évolutions des deux plateformes cette dernière année. Ici, le framework de l’agent compte.

Langfuse met en évidence les outils disponibles, ceux appelés, ainsi que les arguments et IDs d’appel. Des types d’observations élargis distinguent les appels d’outils, les embeddings et les appels de garde‑fous dans la vue de trace. Comme indiqué plus haut, les Code Evaluators peuvent aussi vérifier les arguments d’outil via un schéma. Le serveur MCP s’est étendu en mai 2026 à 15 catégories d’outils, permettant aux agents dans Claude Code, Cursor ou OpenAI Codex d’interroger les données Langfuse par programmation.

Le point LangGraph mentionné dans la section tracing réapparaît ici. Le support agent de LangSmith inclut l’inspection d’état à chaque nœud, la relecture de trace avec d’autres modèles et LangSmith Studio pour un débogage pas à pas visuel. L’équipe de Monte Carlo, qui exploite un système de production avec des centaines de sous‑agents, cite cette intégration LangGraph sans configuration comme un élément décisif.

Pour des agents bâtis avec CrewAI, Pydantic AI ou d’autres frameworks multi‑agents, Langfuse offre une instrumentation native plus large et demande souvent moins de configuration manuelle.

Intégrations framework et SDK

Langfuse propose de larges intégrations avec des fournisseurs de modèles, frameworks, gateways, outils no‑code, analytics et outils développeurs. Côté frameworks : LangChain, LangGraph, OpenAI Agents SDK, Pydantic AI, CrewAI, AutoGen, DSPy, Haystack, LlamaIndex, et d’autres. La plateforme est OpenTelemetry native au niveau SDK.

Les SDK natifs de LangSmith couvrent Python, TypeScript, Go et Java. Au‑delà de LangChain et LangGraph, il fonctionne avec les SDK OpenAI, Anthropic, Vercel AI, LlamaIndex, des implémentations customs et OpenTelemetry. Ce n’est donc pas un outil de tracing réservé à LangChain, même si LangGraph reste son meilleur ajustement.

La question pratique n’est pas seulement le support d’un framework, car la plupart des frameworks populaires fonctionnent avec les deux. C’est la quantité d’instrumentation à écrire. LangGraph bénéficie d’un tracing zéro configuration dans LangSmith. D’autres frameworks demanderont parfois moins de mise en place dans Langfuse. L’effort varie selon la stack.

Langfuse open source vs LangSmith Enterprise

L’auto‑hébergement change davantage l’opérationnel et la conformité que la plupart des catégories de fonctionnalités.

L’auto‑hébergement Langfuse est gratuit sous MIT. Docker Compose convient au dev ou à l’évaluation ; en production, on déploie généralement sur Kubernetes avec Helm sur GKE, EKS ou AKS. La stack inclut ClickHouse, PostgreSQL, Redis et un stockage compatible S3, avec un minimum recommandé de 4 cœurs et 16 Gio de RAM. Le logiciel ne coûte rien, mais votre équipe gère l’infrastructure et les opérations. L’édition Enterprise auto‑hébergée ajoute support dédié, journaux d’audit, SCIM et SLAs.

Côté conformité, Langfuse Cloud est certifié SOC 2 Type II, ISO 27001, RGPD et HIPAA. LangSmith Cloud est certifié SOC 2 Type II, RGPD et HIPAA. ISO 27001 n’est pas listée pour LangSmith. Si votre processus achats l’exige, c’est une différence concrète.

L’auto‑hébergement LangSmith requiert un contrat Enterprise. Il n’existe pas de voie open source gratuite pour l’auto‑hébergement. Les trois modèles de déploiement (Cloud, Hybride, Auto‑hébergé) relèvent tous de l’offre Enterprise. SmithDB pour l’auto‑hébergé LangSmith est en early access en mai 2026, pas encore en disponibilité générale.

Tarifs : Langfuse vs LangSmith

Les prix affichés ne disent pas tout.

Les grilles tarifaires évoluent aussi fréquemment. Les chiffres ci‑dessous reflètent les pages officielles consultées en juin 2026 ; vérifiez les pages à jour avant de budgéter.

Tarifs Langfuse

Langfuse Cloud facture à l’unité : une unité équivaut à une trace, une observation ou un score. La formule est Units = Traces + Observations + Scores, donc un run d’agent riche en outils peut coûter plus cher qu’une trace prompt‑réponse simple. L’offre Hobby gratuite inclut 50 000 unités/mois, 30 jours de rétention et deux utilisateurs. Core coûte 29 $/mois avec 100 000 unités incluses, utilisateurs illimités et 90 jours de rétention. Pro est à 199 $/mois avec 3 ans d’accès aux données et certifications de conformité. Enterprise commence à 2 499 $/mois avec volumes sur mesure. Le dépassement démarre à 8 $ par 100 000 unités supplémentaires.

Comme indiqué plus haut, l’auto‑hébergé Langfuse n’a pas de coût de licence logicielle. SCIM, journaux d’audit et support entreprise nécessitent une licence commerciale.

Tarifs LangSmith

LangSmith facture par siège et par trace. Le plan Developer est gratuit avec 5 000 traces/mois, un siège et 14 jours de rétention. Plus est à 39 $ par siège et par mois avec 10 000 traces de base incluses. Les traces de base ont 14 jours de rétention ; les traces en rétention étendue conservent les données 400 jours et coûtent plus cher. Une équipe de cinq sur Plus paie 195 $/mois en sièges, hors dépassement de traces. Le tarif Enterprise est sur devis.

Mécanismes de rétention des données

Comme mentionné plus haut, la rétention étendue s’applique automatiquement quand des évaluateurs ajoutent du feedback aux traces. Lisez la documentation de facturation LangSmith sur l’auto‑extension de rétention avant de configurer vos pipelines d’évaluation.

Ces détails comptent, car de petites différences de profondeur de trace, d’usage des évaluateurs et de rétention peuvent changer la facture mensuelle.

Tableau comparatif : Langfuse vs LangSmith

Comme indiqué, les principales différences portent sur la maîtrise, l’adéquation framework, le workflow d’évaluation et les tarifs. Le tableau ci‑dessous synthétise ces points avant la décision finale.

Fonctionnalité	Langfuse	LangSmith
Open source	Oui (MIT)	Non (propriétaire)
Auto‑hébergement	Auto‑hébergement MIT gratuit ; contrôles entreprise payants	Contrat Enterprise requis
Évaluation	LLM‑as‑judge (MIT), évaluateurs par code, annotation humaine, CI/CD	LLM‑as‑judge, annotation humaine, évaluateurs en ligne, correction few‑shot
Gestion des prompts	Déploiement par labels, cache SDK, composabilité des prompts	Versioning par hash de commit, Prompt Hub communautaire
Écosystème	Intégrations larges, OTel natif, multi‑frameworks	Meilleur ajustement pour LangChain/LangGraph ; support OTel
Support des agents	Agent Graphs, Trace Log View, Code Evaluators, serveur MCP	LangSmith Studio, tracing LangGraph natif, inspection d’état
Conformité	SOC 2 Type II, ISO 27001, RGPD, HIPAA	SOC 2 Type II, RGPD, HIPAA
Modèle tarifaire	À l’unité ; utilisateurs illimités sur les offres payantes	Par siège + par trace ; double palier de rétention
Adéquation	Souveraineté des données, stacks hors LangChain, évaluation CI/CD	Équipes LangGraph, préférence pour le SaaS managé

Erreurs à éviter lors du choix d’une plateforme d’observabilité LLM

Premier point, à mon avis : ne vous focalisez pas uniquement sur le tracing. Le tracing décrit ce qui s’est passé, mais l’évaluation indique si la sortie est bonne. Si vous choisissez sur la seule visualisation de traces, vous utilisez le mauvais critère.

Deuxième point : surveillez les mécanismes tarifaires. Comme vu plus haut, le coût Langfuse croît avec la profondeur des traces, tandis que la rétention étendue de LangSmith peut changer le coût d’une évaluation automatisée. Faites le calcul avant la production.

Troisièmement, l’auto‑hébergement ne signifie pas la même chose pour les deux produits. La section dédiée explique pourquoi. Si la souveraineté des données est non négociable, cette différence peut trancher à elle seule.

Enfin, ne décidez pas uniquement sur la compatibilité framework. Les stacks évoluent. Les exigences de déploiement et les workflows d’évaluation sont plus difficiles à changer ensuite.

Quand choisir Langfuse

Au vu des arbitrages ci‑dessus, Langfuse est plus adapté lorsque :

Votre équipe n’utilise pas principalement LangChain ou LangGraph et vous développez avec CrewAI, Pydantic AI, LlamaIndex, ou des appels API directs vers OpenAI ou Anthropic.
La souveraineté des données est non négociable, et les entrées, sorties et traces LLM doivent rester sur votre infrastructure.
Votre check‑list de conformité exige ISO 27001 en plus de SOC 2 et HIPAA.
Vous voulez une évaluation intégrée au CI/CD avec des garde‑fous de régression automatisés via GitHub Actions.
Vous avez besoin de coûts prévisibles pour une équipe qui grandit, car les offres Cloud payantes incluent des utilisateurs illimités.

Quand choisir LangSmith

Sur les mêmes critères, LangSmith convient mieux lorsque :

Vous développez avec LangGraph et voulez un tracing sans configuration, une visualisation native du graphe et un débogage pas à pas dans LangSmith Studio.
Votre équipe veut une plateforme managée sans infrastructure à opérer.
Vous valorisez le Prompt Hub communautaire pour découvrir et partager des prompts au‑delà de votre organisation.
Vos besoins dépassent l’observabilité pour couvrir des capacités plus larges de LangSmith, qui incluent désormais le déploiement d’agents et la gestion de Fleet.

Conclusion

Langfuse et LangSmith résolvent tous deux un vrai problème et ont beaucoup évolué cette année. À ce stade, l’arbitrage est clair.

La décision ne tient pas au « plus de fonctionnalités ». C’est l’arbitrage entre maîtrise de la stack et adéquation à l’écosystème évoqué plus haut. Avez‑vous besoin de contrôler votre pile de données, ou préférez‑vous moins de configuration dans l’univers LangChain/LangGraph ?

Un avertissement avant de trancher : les deux plateformes évoluent vite. Consultez les changelogs avant de vous engager.

Pour approfondir l’écosystème LangChain, consultez notre tutoriel LangChain vs LangGraph vs LangSmith vs LangFlow.