Langfuse vs. LangSmith: LLM-observabilityplatforms vergeleken

Vergelijk Langfuse en LangSmith op tracing, evaluatie, observability, promptbeheer en monitoring in productie om de juiste keuze te maken voor je LLM-applicaties.

Bijgewerkt 24 jun 2026 · 13 min lezen

Wanneer een chatbot slechte antwoorden begint te geven, is je eerste reflex vaak om de prompt te controleren. Dat werkt prima voor één enkele LLM-call. Het houdt op te werken zodra de applicatie een agent is die tool-calls doet.

Die missende context is precies wat LLM-observabilityplatforms proberen te bieden. Het zijn geen traditionele applicatiemonitoringtools. Een traditioneel hulpmiddel vertelt je iets over latency en foutpercentages. Een LLM-observabilityplatform vertelt je welke tool-call een slecht resultaat teruggaf en of een promptwijziging de outputkwaliteit verbeterde.

Zowel Langfuse als LangSmith dekken tracing, evaluatie en promptbeheer, en beide brachten grote updates uit begin 2026. Ze zijn echter niet inwisselbaar. Het verschil komt neer op deploymentvereisten, je techstack en hoe je team evaluaties uitvoert.

Kort antwoord: Langfuse past bij teams die open-source self-hosting, datacontrole of een stack buiten LangChain nodig hebben. LangSmith past bij teams die al bouwen met LangChain of LangGraph, maar is niet langer beperkt tot dat ecosysteem. Als geen van beide geldt, zou ik naar de prijs kijken.

Wat zijn Langfuse en LangSmith?

Op hoofdlijnen maken beide producten LLM-applicaties observeerbaar, testbaar en debugbaar. Dit is wat elk van hen is.

Overzicht van de positionering van Langfuse versus LangSmith. Afbeelding door auteur.

Wat is Langfuse?

Langfuse is een open-source LLM-engineeringplatform dat in 2023 is gelanceerd. Het dekt tracing, promptbeheer, evaluatie (LLM-als-rechter, menselijke annotatie en codegebaseerde checks), datasetexperimenten en monitoring van kosten en latency. Het kernproduct met open source heeft een MIT-licentie.

In januari 2026 kondigde ClickHouse een Series D van $400 miljoen aan en nam Langfuse over. Langfuse maakt nu deel uit van ClickHouse, de kolomgebaseerde database die al de backend van Langfuse aandreef. De MIT-licentie en open-source-identiteit werden destijds bevestigd als ongewijzigd.

Langfuse draait als beheerde clouddienst met regio’s in de VS, EU en Japan, of als self-hosted open-source-instantie zonder softwarelicentiekosten.

Wat is LangSmith?

LangSmith is het observability- en evaluatieplatform gebouwd door LangChain Inc., het team achter LangChain en LangGraph. Het platform is propriëtair en closed source. LangChain haalde in oktober 2025 $125 miljoen op bij een waardering van $1,25 miljard.

De belangrijkste mogelijkheden zijn tracing over een applicatierun, visueel debuggen, geautomatiseerde evaluaties, monitoring in productie en promptbeheer via Prompt Hub en de Playground. In mei 2026 lanceerde LangChain SmithDB, een op Rust gebaseerde datalaag die nu 100% van de US Cloud-ingestie van LangSmith afhandelt. SmithDB verlaagt P50-laadtijd van trace trees naar 92 milliseconden en full-text search naar 400 milliseconden.

LangSmith is beschikbaar als beheerde clouddienst, als hybride deployment met een data plane in de VPC van de klant, of als self-hosted Enterprise-deployment.

Open source vs. beheerde SaaS

Het kernverschil tussen de twee platforms is niet "open source versus niet open source". Het echte verschil is controle en portabiliteit aan de ene kant, en LangChain/LangGraph-fit aan de andere. Met Langfuse kun je de stack draaien op je eigen infrastructuur zonder licentiekosten. LangSmith vergt minder setup wanneer je applicatie al op LangChain of LangGraph draait.

Eén update verandert hoe je deze vergelijking moet inkaderen: LangSmith ondersteunt nu OpenTelemetry-tracing via het langsmith[otel] pakket en de LANGSMITH_OTEL_ENABLED=true omgevingsvariabele. LangSmith is niet langer beperkt tot alleen LangChain-applicaties. De nauwste integratie blijft met LangGraph, zoals ik in de tracingsectie zal bespreken.

Hier is waar de twee platforms structureel staan:

Dimensie	Langfuse	LangSmith
Sourcemodel	Open source (MIT)	Propriëtair, closed source
Self-hosting	Gratis MIT self-hosting; enterprise-controls betaald	Enterprisecontract vereist
Frameworkbenadering	Werkt framework-agnostisch; brede integraties; OTel-native	Beste fit voor LangChain/LangGraph; OTel-ondersteuning
Data soevereiniteit	Volledig; air-gapped deployment mogelijk	Hybride en self-hosted voor Enterprise-klanten
Backend-database	ClickHouse	SmithDB (Rust/DataFusion)
Prijsmodel	Unit-gebaseerd (traces + observaties + scores)	Seat-gebaseerd plus trace-gebaseerd met dubbele retentieniveaus
Compliance	SOC 2 Type II, ISO 27001, GDPR, HIPAA	SOC 2 Type II, GDPR, HIPAA

De rest van het artikel legt uit wat die verschillen in de praktijk betekenen.

Tracing en observability

Bij tracing beginnen de producten uiteen te lopen. Beide leggen LLM-calls, tool-calls en gerelateerde metadata vast, maar agentworkflows maken de verschillen sneller zichtbaar dan eenvoudige prompt-antwoordapps.

Request tracing

Langfuse bouwt hiërarchische traces die LLM-calls, toolaanroepen, embeddings en retrievalstappen vastleggen. Je kunt filteren op gebruiker, sessie, kosten, latency of aangepaste metadata. In mei 2026 voegde Langfuse full-text search toe, ondersteund door de native FTS-engine van ClickHouse, waardoor zoekopdrachten die eerder bijna 20 seconden duurden, teruggebracht werden tot minder dan een halve seconde.

LangSmith legt elke LLM-call en toolgebruik vast als een inspecteerbare run tree. Nu SmithDB alle US Cloud-ingestie afhandelt, laden trace trees op P50 in 92 milliseconden. LangSmith bevat ook ongecontroleerde topicclustering, die traces groepeert op gedetecteerd thema en teams een startpunt geeft wanneer ze geen idee hebben wat er mis is.

Zichtbaarheid van agentworkflows

Langfuse voegde in november 2025 Agent Graphs toe, die de uitvoeringsflow voor meerstapsagents visualiseren door de graafstructuur af te leiden uit observatietiming en -nesting. Het werkt met elk geïnstrumenteerd framework, met native ondersteuning voor LangGraph. Tegelijkertijd werd een Trace Log View toegevoegd, die een platte stroom van agentstappen geeft voor workflows die sterk loopen of vertakken.

Langfuse-agentgraaf voor LangGraph-uitvoering. Afbeelding door auteur.

LangSmiths LangGraph-tracing legt elke node, edge en statusovergang in een run vast zonder configuratie, behalve het instellen van een omgevingsvariabele. LangSmith Studio laat je door de agentuitvoering stappen, de status bij elke node inspecteren en een trace opnieuw afspelen met een ander model of een andere prompt. In een LangGraph-applicatie geeft dit meer context dan een generieke trace tree.

LangSmith trace tree voor agentworkflow. Afbeelding door auteur.

Monitoring in productie

Voor monitoring in productie volgen beide platforms latency, tokengebruik, kosten en foutpercentages. LangSmith bevat PagerDuty- en webhook-meldingen voor incidenten in productie. Langfuse bevat uitgavenalerts met instelbare drempels. Op dit niveau lijken de monitoringfuncties op elkaar.

Offline en online evaluatie

Tracing vertelt je wat er gebeurde. Evaluatie vertelt je of het goed was. In de praktijk zijn deze tools nuttiger wanneer evaluatie onderdeel is van de workflow, niet slechts een checklist vóór de lancering.

LLM-als-rechter en code-evaluators

Langfuse’s LLM-als-rechter werd in juni 2025 volledig open-source onder MIT. Elke self-hosted gebruiker op v3.65.0 of later krijgt dit zonder commerciële licentie. In mei 2026 bracht Langfuse Code Evaluators uit: Python- of TypeScript-evaluate-functies die je rechtstreeks in de Langfuse-UI schrijft. Deze draaien deterministische checks, zoals JSON-schemavalidatie, regex-validatie of verificatie van toolargumenten, zonder tokencost of een judge-modelcall.

LangSmith biedt configureerbare LLM-als-rechter-evaluators met Booleaanse, Categoriale en Continue feedbacktypes, plus ingebouwde templates voor Security, Safety en Quality. Het ondersteunt ook few-shot correctie, waarbij door mensen gelabelde correcties op evaluatoroutputs terugvloeien als few-shotvoorbeelden om de kalibratie van de evaluator in de tijd te verbeteren.

Datasets, experimenten en menselijke annotatie

Offline evaluatie werkt in beide platforms via datasets en side-by-side vergelijking van experimenten. Langfuse voegde in november 2025 Score Analytics toe om evaluatoralignement te meten op precisie, recall, F1, kosten en nauwkeurigheid. Baselinevergelijking, ook november 2025, laat je een specifieke run als referentiepunt markeren en regressies ertegen zichtbaar maken.

Langfuse’s GitHub Actions CI/CD-integratie, uitgebracht in mei 2026 via de langfuse/experiment-action, laat een workflow falen wanneer experimentscores onder een drempel zakken. Daarmee wordt evaluatie een deploy-gate in plaats van een review achteraf.

Langfuse-evaluatielus met GitHub Actions. Afbeelding door auteur.

De evaluatie-setup van LangSmith heeft één prijsmechaniek om vroeg op te letten: evaluators die feedback aan traces toevoegen upgraden die traces automatisch naar uitgebreide retentie. Zoals ik in de prijzensectie zal behandelen, verandert dat de kosten van evaluatieworkflows.

Promptversies, deployment en A/B-testen

Promptbeheer is hier meer dan versiegeschiedenis. De workflow is: itereren in een sandbox, testen tegen een dataset, promoveren naar productie en netjes terugdraaien wanneer iets stukgaat.

Langfuse kent elke promptversie een versie-ID toe en gebruikt labels zoals production en staging om te bepalen welke versie live is. Een label wijzigen in de UI is hoe je deployt of terugdraait. Prompts worden client-side gecachet door de SDK, dus er komt geen latency bij productiecalls wanneer de SDK de actieve versie ophaalt. Beschermde labels laten beheerders beperken welke rollen het production-label mogen aanpassen, wat telt als je een mix van bijdragers met verschillende toegangsrechten hebt.

LangSmith beheert prompts via LangChain Hub met commit-hashversiebeheer om exacte versies programmatisch te pinnen. De Prompt Hub bevat een communitybibliotheek die Langfuse niet dupliceert. A/B-testen via datasetexperimenten is op beide platforms beschikbaar.

In deze categorie liggen de twee producten dichter bij elkaar dan bij hosting, prijsstelling of framework-setup.

Langfuse vs. LangSmith voor agentapplicaties

Agents dreven het afgelopen jaar veel van het werk aan features op beide platforms. Waar de agent is gebouwd, doet er hier toe.

Langfuse toont beschikbare tools, markeert welke tools zijn aangeroepen en laat argumenten en call-ID’s zien. Uitgebreide observatietypen onderscheiden tool-calls, embeddings en guardrail-calls in de traceweergave. Zoals ik eerder noemde, kunnen Code Evaluators ook toolargumenten verifiëren tegen een schema. De MCP-server werd in mei 2026 uitgebreid naar 15 toolcategorieën, zodat agents in Claude Code, Cursor of OpenAI Codex programmatisch Langfuse-data kunnen opvragen.

Het LangGraph-punt uit de tracingsectie komt hier terug. De agentondersteuning van LangSmith omvat statusinspectie bij elke node, trace-replay met alternatieve modellen en LangSmith Studio voor visueel stap-voor-stap debuggen. Het team van Monte Carlo, dat een productiesysteem met honderden subagents draait, noemde deze zero-setup LangGraph-integratie als een belangrijke reden om hiervoor te kiezen.

Voor agents gebouwd met CrewAI, Pydantic AI of andere multi-agentframeworks heeft Langfuse bredere native instrumentatie en is vaak minder handmatige setup nodig.

Framework- en SDK-integraties

Langfuse vermeldt brede integraties over modelproviders, frameworks, gateways, no-code tools, analytics en ontwikkeltools. Frameworks zijn onder andere LangChain, LangGraph, OpenAI Agents SDK, Pydantic AI, CrewAI, AutoGen, DSPy, Haystack, LlamaIndex en andere. Het platform is OpenTelemetry-native op SDK-niveau.

De native SDK’s van LangSmith dekken Python, TypeScript, Go en Java. Buiten LangChain en LangGraph werkt het met de OpenAI SDK, Anthropic SDK, Vercel AI SDK, LlamaIndex, maatwerkimplementaties en OpenTelemetry. Dat betekent dat het geen tracingtool is alleen voor LangChain, ook al blijft LangGraph de beste fit.

De praktische vraag is niet alleen of een framework wordt ondersteund, want de meeste populaire frameworks werken met beide platforms. Het is hoeveel instrumentatie je zelf moet schrijven. LangGraph krijgt zero-config tracing in LangSmith. Andere frameworks vergen mogelijk minder setup in Langfuse. De setupporte verschilt per stack.

Langfuse open source vs. LangSmith Enterprise

Self-hosting verandert het operationele en complianceplaatje meer dan de meeste featurecategorieën doen.

Self-hosting van Langfuse is gratis onder MIT. Docker Compose werkt voor ontwikkeling of evaluatie; productiedeployments gebruiken doorgaans Kubernetes met Helm op GKE, EKS of AKS. De stack omvat ClickHouse, PostgreSQL, Redis en S3-compatibele opslag, met een aanbevolen minimale VM van 4 cores en 16 GiB RAM. De softwarelicentie kost niets, maar je team is eigenaar van infrastructuur en operatie. De betaalde self-hosted Enterprise Edition voegt dedicated support, auditlogs, SCIM en SLA’s toe.

Qua compliance heeft Langfuse Cloud SOC 2 Type II, ISO 27001, GDPR en HIPAA-certificeringen. LangSmith Cloud heeft SOC 2 Type II, GDPR en HIPAA. ISO 27001 staat niet vermeld voor LangSmith. Als je inkoopproces dat vinkje vereist, is dat een concreet verschil.

Self-hosting van LangSmith vereist een Enterprisecontract. Er is geen open-source, gratis self-hostingpad beschikbaar. Drie deploymentmodellen (Cloud, Hybrid en Self-hosted) vallen allemaal onder de Enterprise-paraplu. SmithDB voor self-hosted LangSmith is in mei 2026 in early access, nog niet algemeen beschikbaar.

Prijzen: Langfuse vs. LangSmith

De headlineprijzen vertellen niet het hele verhaal.

Prijzen veranderen in deze categorie ook vaak. De onderstaande cijfers weerspiegelen de officiële pagina’s die ik in juni 2026 heb gecontroleerd, maar bekijk de actuele prijspagina’s voordat je rond een van beide platforms budgetteert.

Prijzen van Langfuse

Langfuse Cloud rekent per unit: één unit is één trace, één observatie of één score. De formule is Units = Traces + Observations + Scores, dus een agentrun met veel tools kan meer kosten dan een eenvoudige prompt-antwoord-trace. Het gratis Hobby-abonnement omvat 50.000 units per maand, 30 dagen retentie en twee gebruikers. Core kost $29/maand met 100.000 inbegrepen units, onbeperkte gebruikers en 90 dagen retentie. Pro is $199/maand met 3 jaar data-toegang en compliancecertificeringen. Enterprise begint bij $2.499/maand met aangepaste volumetarieven. Overage start bij $8 per 100.000 extra units.

Zoals ik eerder noemde, heeft self-hosted Langfuse geen softwarelicentiekosten. SCIM, auditlogs en enterprise support vereisen een commerciële licentie.

Prijzen van LangSmith

LangSmith rekent per seat en per trace. Het Developer-plan is gratis met 5.000 traces per maand, één seat en 14 dagen retentie. Plus kost $39 per seat per maand met 10.000 basistraces inbegrepen. Basistraces hebben 14 dagen retentie; uitgebreide traces bewaren data 400 dagen en kosten meer. Een team van vijf op Plus betaalt $195/maand aan seats vóór trace-overage. Enterprise-prijzen zijn maatwerk.

Mechaniek van dataretentie

Zoals ik eerder noemde, treedt uitgebreide retentie automatisch in werking wanneer evaluators feedback aan traces toevoegen. Lees de facturatiedocumentatie van LangSmith over auto-extended retention voordat je evaluatiepijplijnen inricht.

Die details zijn belangrijk, omdat kleine verschillen in tracediepte, evaluatorgebruik en retentie de maandelijkse rekening kunnen veranderen.

Vergelijkingstabel: Langfuse vs. LangSmith

Zoals eerder genoemd, zitten de grootste verschillen in eigenaarschap, framework-fit, evaluatieworkflow en prijs. De onderstaande tabel vat die punten samen vóór de slotsecties met keuzes.

Functie	Langfuse	LangSmith
Open source	Ja (MIT)	Nee (propriëtair)
Self-hosting	Gratis MIT self-hosting; enterprise-controls betaald	Enterprisecontract vereist
Evaluatie	LLM-als-rechter (MIT), code-evaluators, menselijke annotatie, CI/CD	LLM-als-rechter, menselijke annotatie, online evaluators, few-shot correctie
Promptbeheer	Labelgebaseerde deployment, SDK-caching, promptcomposeerbaarheid	Commit-hashversiebeheer, community Prompt Hub
Ecosysteem	Brede integraties, OTel-native, werkt over frameworks heen	Beste fit voor LangChain/LangGraph; OTel-ondersteuning
Agentondersteuning	Agent Graphs, Trace Log View, Code Evaluators, MCP-server	LangSmith Studio, native LangGraph-tracing, statusinspectie
Compliance	SOC 2 Type II, ISO 27001, GDPR, HIPAA	SOC 2 Type II, GDPR, HIPAA
Prijsmodel	Unit-gebaseerd; onbeperkte gebruikers op betaalde plannen	Seat-gebaseerd + trace-gebaseerd; dubbele retentieniveaus
Fit	Datsoevereiniteit, non-LangChain-stacks, CI/CD-evaluatie	LangGraph-teams, voorkeur voor beheerde SaaS

Fouten bij het kiezen van een LLM-observabilityplatform

Eerste punt, naar mijn mening: focus niet alleen op tracing. Tracing vertelt je wat er gebeurde, maar evaluatie vertelt je of de output goed was. Als je kiest op basis van alleen tracevisualisatie, hanteer je het verkeerde criterium.

Tweede punt: let op de prijsmechanieken. Zoals hierboven besproken, groeien de kosten van Langfuse mee met tracediepte, terwijl de uitgebreide retentie van LangSmith de kosten van geautomatiseerde evaluatie kan veranderen. Reken het door vóór productie.

Derde punt: self-hosting betekent niet hetzelfde in beide producten. De self-hostingsectie hierboven laat zien waarom. Als datsoevereiniteit een harde eis is, kan dat verschil de doorslag geven.

Tot slot, beslis niet alleen op frameworkcompatibiliteit. Stacks veranderen. Deploymentvereisten en evaluatieworkflows zijn later lastiger te wisselen.

Wanneer kies je voor Langfuse

Op basis van bovenstaande trade-offs past Langfuse beter wanneer:

Je team niet primair LangChain of LangGraph gebruikt en je bouwt met CrewAI, Pydantic AI, LlamaIndex of directe API-calls naar OpenAI of Anthropic.
Datsoevereiniteit niet-onderhandelbaar is en LLM-inputs, outputs en traces op je eigen infrastructuur moeten blijven.
Je compliancelijst ISO 27001 vereist naast SOC 2 en HIPAA.
Je team CI/CD-geïntegreerde evaluatie wil met geautomatiseerde regressiepoorten via GitHub Actions.
Je voorspelbare kosten nodig hebt voor een groeiend team, aangezien betaalde Cloud-plannen onbeperkte gebruikers omvatten.

Wanneer kies je voor LangSmith

Op basis van dezelfde trade-offs past LangSmith beter wanneer:

Je bouwt met LangGraph en wilt zero-configuratie tracing, native graafvisualisatie en stap-voor-stap debuggen in LangSmith Studio.
Je team een beheerd platform wil zonder te draaien infrastructuur.
Je waarde hecht aan de community Prompt Hub om prompts te ontdekken en te delen met teams buiten je organisatie.
Je behoeften verder reiken dan observability naar het bredere platform van LangSmith, dat nu ook agentdeployment en Fleet management omvat.

Conclusie

Langfuse en LangSmith lossen allebei een reëel probleem op, en beide zijn het afgelopen jaar flink veranderd. Op dit punt is de trade-off duidelijk.

De beslissing gaat niet over welk platform meer features heeft. Het is de trade-off in eigenaarschap en ecosysteem van eerder. Moet je je datastack controleren, of wil je minder setup binnen de LangChain/LangGraph-wereld?

Eén kanttekening vóór je beslist: beide platforms veranderen vaak. Check de changelogs voordat je je vastlegt.

Voor gerelateerde achtergrond over het LangChain-ecosysteem, zie onze LangChain vs. LangGraph vs. LangSmith vs. LangFlow-tutorial.