Langfuse vs. LangSmith: Jämförelse av plattformar för LLM-observerbarhet

Jämför Langfuse och LangSmith inom spårning, utvärdering, observerbarhet, prompt-hantering och produktionsövervakning för att välja rätt plattform för dina LLM-applikationer.

Uppdaterad 24 juni 2026 · 13 min läsa

När en chatbot börjar ge dåliga svar är instinkten att kontrollera prompten. Det fungerar för ett enskilt LLM-anrop. Det slutar fungera när applikationen är en agent som gör verktygsanrop.

Det är den saknade kontexten som plattformar för LLM-observerbarhet försöker ge. De är inte traditionella verktyg för applikationsövervakning. Ett mer traditionellt verktyg berättar om latens och felfrekvenser. En plattform för LLM-observerbarhet berättar vilket verktygsanrop som gav ett dåligt resultat och om en promptändring förbättrade utdata-kvaliteten.

Både Langfuse och LangSmith täcker spårning, utvärdering och prompt-hantering, och båda släppte stora uppdateringar i början av 2026. De är dock inte utbytbara. Skillnaden handlar om driftsättningskrav, teknikstack och hur ditt team kör utvärderingar.

Kort svar: Langfuse passar team som behöver öppen källkod för egenhosting, datakontroll eller en stack utanför LangChain. LangSmith passar team som redan bygger med LangChain eller LangGraph, men är inte längre begränsad till det ekosystemet. Om inget av detta stämmer skulle jag titta på prissättningen.

Vad är Langfuse och LangSmith?

På en övergripande nivå gör båda produkterna LLM-applikationer observerbara, testbara och debugg-bara. Här är vad var och en är.

Översikt över plattformarnas positionering: Langfuse kontra LangSmith. Bild av författaren.

Vad är Langfuse?

Langfuse är en LLM-ingenjörsplattform med öppen källkod som lanserades 2023. Den täcker spårning, prompt-hantering, utvärdering (LLM-som-domare, mänsklig annotering och kodbaserade kontroller), datasetexperiment samt kostnads- och latensövervakning. Kärnprodukten med öppen källkod har MIT-licens.

I januari 2026 meddelade ClickHouse en Serie D på 400 miljoner dollar och förvärvade Langfuse. Langfuse är nu en del av ClickHouse, den kolumnorienterade databasen som redan drev Langfuse-backenden. MIT-licensen och identiteten som öppen källkod bekräftades oförändrade vid den tidpunkten.

Langfuse körs som en hanterad molntjänst med regioner i USA, EU och Japan, eller som en egenhostad instans med öppen källkod utan mjukvarulicenskostnad.

Vad är LangSmith?

LangSmith är plattformen för observerbarhet och utvärdering som byggts av LangChain Inc., teamet bakom LangChain och LangGraph. Plattformen är proprietär och sluten källkod. LangChain tog in 125 miljoner dollar till en värdering på 1,25 miljarder i oktober 2025.

Dess huvudfunktioner omfattar spårning över en applikationskörning, visuell felsökning, automatiserade utvärderingar, övervakning i produktion och prompt-hantering via Prompt Hub och Playground. I maj 2026 lanserade LangChain SmithDB, ett Rust-baserat datalager som nu hanterar 100% av LangSmiths datainmatning i US Cloud. SmithDB sänker P50-laddningstiden för spårträd till 92 millisekunder och fulltextsökning till 400 millisekunder.

LangSmith finns som hanterad molntjänst, hybriddriftsättning med kundens VPC-dataplan eller egenhostad Enterprise-driftsättning.

Öppen källkod vs. hanterad SaaS

Den grundläggande skillnaden mellan plattformarna är inte ”öppen källkod kontra inte öppen källkod”. Den verkliga skillnaden är kontroll och portabilitet på ena sidan, och passform för LangChain/LangGraph på den andra. Langfuse låter dig köra stacken i din egen infrastruktur utan licenskostnad. LangSmith kräver mindre setup när din applikation redan körs på LangChain eller LangGraph.

En uppdatering ändrar hur jämförelsen bör ramas in: LangSmith stöder nu OpenTelemetry-spårning via paketet langsmith[otel] och miljövariabeln LANGSMITH_OTEL_ENABLED=true. LangSmith är inte längre begränsad till enbart LangChain-applikationer. Den närmaste integrationen är fortfarande med LangGraph, vilket jag tar upp i avsnittet om spårning.

Här är var de två plattformarna ligger strukturellt:

Dimension	Langfuse	LangSmith
Källmodell	Öppen källkod (MIT)	Proprietär, sluten källkod
Egenhosting	Kostnadsfri MIT-egenhosting; företagskontroller är betalda	Enterprise-avtal krävs
Ramverksstrategi	Fungerar över ramverk; breda integrationer; OTel inbyggt	Bäst passform för LangChain/LangGraph; OTel-stöd
Datasuveränitet	Full; luftgapad driftsättning möjlig	Hybrid och egenhostad för Enterprise-kunder
Backend-databas	ClickHouse	SmithDB (Rust/DataFusion)
Prismodell	Enhetsbaserad (traces + observations + scores)	Platsbaserad plus spårbaserad med två retentionnivåer
Regelefterlevnad	SOC 2 Typ II, ISO 27001, GDPR, HIPAA	SOC 2 Typ II, GDPR, HIPAA

Resten av artikeln packar upp vad dessa skillnader betyder i praktiken.

Spårning och observerbarhet

Spårning är där produkterna börjar skilja sig åt. Båda fångar LLM-anrop, verktygsanrop och relaterad metadata, men agentarbetsflöden exponerar skillnaderna snabbare än enkla prompt–svar-appar gör.

Begäransspårning

Langfuse bygger hierarkiska spår som fångar LLM-anrop, verktygsanrop, inbäddningar och hämtningssteg. Du kan filtrera på användare, session, kostnad, latens eller anpassad metadata. I maj 2026 lade Langfuse till fulltextsökning baserad på ClickHouses inbyggda FTS-motor, vilket sänkte sökningar som tidigare tog nära 20 sekunder till under en halv sekund.

LangSmith fångar varje LLM-anrop och verktygsanvändning som ett inspekterbart körträd. Med SmithDB som nu hanterar all datainmatning i US Cloud laddas spårträd vid P50 på 92 millisekunder. LangSmith inkluderar också osupervised ämnesklustring, som grupperar spår efter upptäckt tema och ger team en startpunkt när de inte vet vad som är fel.

Synlighet i agentarbetsflöden

Langfuse lade till Agent Graphs i november 2025, som visualiserar körningsflödet för fler-stegsagenter genom att härleda grafstrukturen från observationstider och nästling. Det fungerar med valfritt instrumenterat ramverk, med inbyggt stöd för LangGraph. En Trace Log View lades till samtidigt, vilket ger en platt ström av agentsteg för arbetsflöden som loopar eller förgrenar sig mycket.

Langfuse Agent Graph för LangGraph-körning. Bild av författaren.

LangSmiths LangGraph-spårning fångar varje nod, kant och tillståndsövergång i en körning utan konfiguration utöver att sätta en miljövariabel. LangSmith Studio låter dig stega igenom agentkörning, inspektera tillstånd vid varje nod och spela upp ett spår med en annan modell eller prompt. I en LangGraph-applikation ger detta mer kontext än ett generiskt spårträd.

LangSmith-spårträd för agentarbetsflöde. Bild av författaren.

Övervakning i produktion

För övervakning i produktion spårar båda plattformarna latens, tokenanvändning, kostnad och felfrekvenser. LangSmith inkluderar PagerDuty och webhook-varningar för produktionsincidenter. Langfuse inkluderar utgiftsvarningar med konfigurerbara trösklar. På denna nivå är övervakningsfunktionerna likartade.

Offline- och onlineutvärdering

Spårning berättar vad som hände. Utvärdering berättar om det var bra. I praktiken är dessa verktyg mer användbara när utvärdering är en del av arbetsflödet, inte en checklista före lansering.

LLM-som-domare och kodevaluatorer

Langfuses LLM-som-domare blev helt öppen källkod under MIT i juni 2025. Alla egenhostade användare på v3.65.0 eller senare får det utan kommersiell licens. I maj 2026 levererade Langfuse Code Evaluators: Python- eller TypeScript-evaluate-funktioner som du skriver direkt i Langfuse-gränssnittet. Dessa kör deterministiska kontroller, som JSON-schemavalidering, regex-validering eller verifiering av verktygsargument, utan tokenkostnad eller anrop till en domarmodell.

LangSmith erbjuder konfigurerbara LLM-som-domare-evaluatorer med Booleska, Kategoriska och Kontinuerliga återkopplingstyper, plus inbyggda mallar för Security, Safety och Quality. Det stöder också few-shot-korrigering, där människomärkta korrigeringar av evaluatorutdata matas tillbaka som few-shot-exempel för att förbättra evaluatorns kalibrering över tid.

Datasets, experiment och mänsklig annotering

Offline-utvärdering fungerar i båda plattformarna via datasets och sida-vid-sida-jämförelse av experiment. Langfuse lade till Score Analytics i november 2025 för att mäta evaluatorers överensstämmelse över precision, recall, F1, kostnad och noggrannhet. Baslinjejämförelse, också november 2025, låter dig flagga en specifik körning som referenspunkt och lyfta fram regressioner mot den.

Langfuses GitHub Actions CI/CD-integration, släppt i maj 2026 via langfuse/experiment-action, får ett arbetsflöde att fallera när experimentscore sjunker under en tröskel. Det gör utvärdering till en deploy-grind istället för en granskning efter release.

Langfuse-utvärderingsloop med GitHub Actions. Bild av författaren.

LangSmiths utvärderingsupplägg har ett faktureringsbeteende att notera tidigt: evaluatorer som lägger till feedback i spår uppgraderar automatiskt dessa spår till utökad retention. Som jag tar upp i prisavsnittet ändrar det kostnaden för utvärderingsarbetsflöden.

Versionshantering av prompts, driftsättning och A/B-testning

Prompt-hantering här är mer än versionshistorik. Arbetsflödet är: iterera i en sandbox, testa mot ett dataset, promota till produktion och rulla tillbaka rent när något går sönder.

Langfuse ger varje promptversion ett versions-ID och använder etiketter som production och staging för att styra vilken version som är live. Att ändra en etikett i gränssnittet är hur du driftsätter eller rullar tillbaka. Prompts cachelagras på klientsidan av SDK:n, så ingen latens läggs till produktionsanrop när SDK:n hämtar den aktiva versionen. Skyddade etiketter låter administratörer begränsa vilka roller som kan ändra etiketten production, vilket spelar roll när du har en mix av bidragsgivare med olika åtkomstnivåer.

LangSmith hanterar prompts via LangChain Hub med commit-hash-versionering för att programmässigt låsa exakta versioner. Prompt Hub inkluderar ett communitybibliotek som Langfuse inte replikerar. A/B-test via datasetexperiment finns på båda plattformarna.

I denna kategori är produkterna närmare varandra än de är i hosting, prissättning eller ramverksuppsättning.

Langfuse vs. LangSmith för agentapplikationer

Agentar har drivit mycket av funktionsarbetet på båda plattformarna det senaste året. Var agenten är byggd spelar roll här.

Langfuse visar tillgängliga verktyg, markerar vilka som anropades och visar argument och anrops-ID:n. Utökade observationstyper särskiljer verktygsanrop, inbäddningar och skyddsrälsanrop i spårvyn. Som nämnt tidigare kan Code Evaluators också verifiera verktygsargument mot ett schema. MCP-servern utökades i maj 2026 till att omfatta 15 verktygskategorier, så agenter i Claude Code, Cursor eller OpenAI Codex kan fråga Langfuse-data programmatiskt.

Punkten om LangGraph från spårningsavsnittet dyker upp igen här. LangSmiths agentsupport inkluderar tillståndsinspektion vid varje nod, spåruppspelning med alternativa modeller och LangSmith Studio för visuell steg-för-steg-felsökning. Ingenjörsteamet på Monte Carlo, som kör ett produktionssystem med hundratals underagenter, lyfte fram denna noll-setup-integration med LangGraph som en nyckelorsak till valet.

För agenter byggda med CrewAI, Pydantic AI eller andra multiagent-ramverk har Langfuse bredare inbyggd instrumentering och kräver ofta mindre manuell uppsättning.

Ramverk och SDK-integrationer

Langfuse listar breda integrationer över modelltillhandahållare, ramverk, gateways, no-code-verktyg, analys och utvecklarverktyg. Ramverk inkluderar LangChain, LangGraph, OpenAI Agents SDK, Pydantic AI, CrewAI, AutoGen, DSPy, Haystack, LlamaIndex och andra. Plattformen har OpenTelemetry inbyggt på SDK-nivå.

LangSmiths inbyggda SDK:er täcker Python, TypeScript, Go och Java. Utöver LangChain och LangGraph fungerar den med OpenAI SDK, Anthropic SDK, Vercel AI SDK, LlamaIndex, egna implementationer och OpenTelemetry. Det betyder att den inte är ett spårningsverktyg enbart för LangChain, även om LangGraph förblir dess närmaste passform.

Den praktiska frågan är inte bara om ett ramverk stöds, eftersom de flesta populära ramverk fungerar med båda plattformarna. Det är hur mycket instrumentering du behöver skriva. LangGraph får spårning utan konfiguration i LangSmith. Andra ramverk kan kräva mindre setup i Langfuse. Setup-insatsen varierar med stacken.

Langfuse öppen källkod vs. LangSmith Enterprise

Egenhosting förändrar den operativa bilden och efterlevnadsbilden mer än de flesta funktionskategorier gör.

Langfuses egenhosting är gratis under MIT. Docker Compose fungerar för utveckling eller utvärdering; produktionsdriftsättningar använder vanligtvis Kubernetes med Helm på GKE, EKS eller AKS. Stacken inkluderar ClickHouse, PostgreSQL, Redis och S3-kompatibel lagring, med en rekommenderad minimi-VM på 4 kärnor och 16 GiB RAM. Programvarulicensen kostar inget, men ditt team äger infrastrukturen och driften. Den betalda egenhostade Enterprise Edition lägger till dedikerad support, granskningsloggar, SCIM och SLA:er.

När det gäller efterlevnad har Langfuse Cloud certifieringarna SOC 2 Typ II, ISO 27001, GDPR och HIPAA. LangSmith Cloud har SOC 2 Typ II, GDPR och HIPAA. ISO 27001 listas inte för LangSmith. Om din upphandlingsprocess kräver den rutan är det en konkret skillnad.

LangSmiths egenhosting kräver ett Enterprise-avtal. Det finns ingen väg för fri egenhosting med öppen källkod. Tre driftsättningsmodeller (Cloud, Hybrid och Egenhostad) ligger alla under Enterprise-paraplyet. SmithDB för egenhostad LangSmith är i early access per maj 2026, ännu inte allmänt tillgänglig.

Prissättning: Langfuse vs. LangSmith

Rubrikpriserna berättar inte hela historien.

Prissättningen ändras också ofta i denna kategori. Siffrorna nedan återspeglar de officiella sidor jag kontrollerade i juni 2026, men kontrollera aktuella prissidor innan du budgeterar kring någon av plattformarna.

Langfuse-prissättning

Langfuse Cloud tar betalt per enhet: en enhet är ett spår, en observation eller en poäng. Formeln är Units = Traces + Observations + Scores, så en agentkörning med många verktyg kan kosta mer än ett enkelt prompt–svar-spår. Den kostnadsfria Hobby-planen inkluderar 50 000 enheter per månad, 30 dagars retention och två användare. Core kostar 29 $/månad med 100 000 inkluderade enheter, obegränsade användare och 90 dagars retention. Pro är 199 $/månad med 3 års dataåtkomst och efterlevnadscertifieringar. Enterprise börjar på 2 499 $/månad med anpassad volymprissättning. Överdebitering börjar på 8 $ per ytterligare 100 000 enheter.

Som nämnts tidigare har egenhostad Langfuse ingen programvarulicenskostnad. SCIM, granskningsloggar och företagsstöd kräver en kommersiell licens.

LangSmith-prissättning

LangSmith tar betalt per plats och per spår. Developer-planen är gratis med 5 000 spår per månad, en plats och 14 dagars retention. Plus kostar 39 $ per plats och månad med 10 000 bas-spår inkluderade. Bas-spår har 14 dagars retention; utökade spår behåller data i 400 dagar och kostar mer. Ett team på fem på Plus betalar 195 $/månad i platser före överdebitering för spår. Enterprise-prissättningen är anpassad.

Mekanismer för dataretention

Som nämnts tidigare aktiveras utökad retention automatiskt när evaluatorer lägger till feedback i spår. Läs LangSmiths faktureringsdokumentation om auto-utökad retention innan du sätter upp utvärderingspipelines.

Dessa detaljer spelar roll eftersom små skillnader i spårdjup, användning av evaluatorer och retention kan ändra månadsfakturan.

Jämförelsetabell: Langfuse vs. LangSmith

Som nämnts tidigare är de största skillnaderna ägande, ramverkspassform, utvärderingsarbetsflöde och prissättning. Tabellen nedan komprimerar dessa punkter före de slutliga beslutsavsnitten.

Funktion	Langfuse	LangSmith
Öppen källkod	Ja (MIT)	Nej (proprietär)
Egenhosting	Kostnadsfri MIT-egenhosting; företagskontroller är betalda	Enterprise-avtal krävs
Utvärdering	LLM-som-domare (MIT), kodevaluatorer, mänsklig annotering, CI/CD	LLM-som-domare, mänsklig annotering, online-evaluatorer, few-shot-korrigering
Prompt-hantering	Etikettbaserad driftsättning, SDK-cachning, komponerbarhet i prompts	Commit-hash-versionering, community Prompt Hub
Ekosystem	Breda integrationer, OTel inbyggt, fungerar över ramverk	Bäst passform för LangChain/LangGraph; OTel-stöd
Agentsupport	Agent Graphs, Trace Log View, Code Evaluators, MCP-server	LangSmith Studio, inbyggd LangGraph-spårning, tillståndsinspektion
Regelefterlevnad	SOC 2 Typ II, ISO 27001, GDPR, HIPAA	SOC 2 Typ II, GDPR, HIPAA
Prismodell	Enhetsbaserad; obegränsade användare på betalda planer	Platsbaserad + spårbaserad; två retentionnivåer
Passform	Datasuveränitet, icke-LangChain-stackar, CI/CD-utvärdering	LangGraph-team, preferens för hanterad SaaS

Vanliga misstag när du väljer plattform för LLM-observerbarhet

Först, enligt min mening: Fokusera inte bara på spårning. Spårning berättar vad som hände, men utvärdering berättar om utdata var bra. Om du väljer baserat enbart på visualisering av spår använder du fel kriterium.

För det andra: Håll koll på prissättningsmekaniken. Som ovan täckts växer Langfuses kostnader med spårdjup, medan LangSmiths utökade retention kan ändra kostnaden för automatiserad utvärdering. Räkna på det före produktion.

Tredje punkten: Egenhosting betyder inte samma sak i båda produkterna. Avsnittet om egenhosting ovan visar varför. Om datasuveränitet är ett absolut krav kan den skillnaden avgöra jämförelsen.

Slutligen, besluta inte enbart utifrån ramverkskompatibilitet. Stackar förändras. Driftsättningskrav och utvärderingsarbetsflöden är svårare att byta senare.

När du ska välja Langfuse

Utifrån avvägningarna ovan passar Langfuse bättre när:

Ditt team använder inte primärt LangChain eller LangGraph, och ni bygger med CrewAI, Pydantic AI, LlamaIndex eller direkta API-anrop till OpenAI eller Anthropic.
Datasuveränitet är icke-förhandlingsbar, och LLM-inmatningar, -utmatningar och spår behöver stanna i din egen infrastruktur.
Din efterlevnadschecklista kräver ISO 27001 utöver SOC 2 och HIPAA.
Ditt team vill ha CI/CD-integrerad utvärdering med automatiska regressionsgrindar via GitHub Actions.
Du behöver förutsägbara kostnader för ett växande team, eftersom betalda molnplaner inkluderar obegränsade användare.

När du ska välja LangSmith

Utifrån samma avvägningar passar LangSmith bättre när:

Du bygger med LangGraph och vill ha spårning utan konfiguration, inbyggd grafvisualisering och steg-för-steg-felsökning i LangSmith Studio.
Ditt team vill ha en hanterad plattform utan infrastruktur att köra.
Du värdesätter communityns Prompt Hub för att upptäcka och dela prompts mellan team utanför din organisation.
Dina behov sträcker sig bortom observerbarhet till LangSmiths bredare plattform, som nu inkluderar agentdriftsättning och Fleet-hantering.

Slutsats

Langfuse och LangSmith löser båda ett verkligt problem, och båda har förändrats mycket under det senaste året. Vid det här laget är avvägningen tydlig.

Beslutet handlar inte om vilken plattform som har flest funktioner. Det är avvägningen mellan ägande och ekosystem från tidigare. Behöver du kontrollera din datastack, eller vill du ha mindre setup inom LangChain/LangGraph-världen?

En brasklapp innan du bestämmer dig: båda plattformarna förändras ofta. Kontrollera ändringsloggarna innan du binder dig.

För relaterad bakgrund om LangChain-ekosystemet, se vår handledning LangChain vs. LangGraph vs. LangSmith vs. LangFlow.