Langfuse vs. LangSmith: confronto tra piattaforme di osservabilità per LLM

Confronta Langfuse e LangSmith in termini di tracing, valutazione, osservabilità, gestione dei prompt e monitoraggio in produzione per scegliere la piattaforma giusta per le tue applicazioni LLM.

Aggiornato 24 giu 2026 · 13 min leggi

Quando un chatbot inizia a dare risposte sbagliate, l’istinto è controllare il prompt. Funziona finché c’è una singola chiamata LLM. Smette di funzionare quando l’applicazione è un agente che effettua chiamate a strumenti.

Quel contesto mancante è proprio ciò che le piattaforme di osservabilità per LLM cercano di fornire. Non sono strumenti di monitoraggio applicativo tradizionali. Uno strumento tradizionale ti parla di latenza e tassi di errore. Una piattaforma di osservabilità per LLM ti dice quale chiamata a uno strumento ha restituito un risultato sbagliato e se una modifica al prompt ha migliorato la qualità dell’output.

Sia Langfuse che LangSmith coprono tracing, valutazione e gestione dei prompt, e entrambe hanno rilasciato aggiornamenti importanti all’inizio del 2026. Non sono però intercambiabili. La differenza si riduce ai requisiti di deployment, allo stack tecnologico e a come il tuo team esegue le valutazioni.

Risposta breve: Langfuse si adatta ai team che hanno bisogno di self-hosting open source, controllo dei dati o di uno stack al di fuori di LangChain. LangSmith si adatta ai team che già costruiscono con LangChain o LangGraph, ma non è più limitato a quell’ecosistema. Se nessuna delle due condizioni è vera, guarderei ai prezzi.

Cosa sono Langfuse e LangSmith?

A grandi linee, entrambi i prodotti rendono le applicazioni LLM osservabili, testabili e debuggabili. Ecco cosa sono nello specifico.

Panoramica del posizionamento di Langfuse rispetto a LangSmith. Immagine dell’autore.

Cos’è Langfuse?

Langfuse è una piattaforma open source per l’ingegneria LLM lanciata nel 2023. Copre tracing, gestione dei prompt, valutazione (LLM-come-giudice, annotazione umana e verifiche basate su codice), esperimenti su dataset e monitoraggio di costi e latenza. Il core open source è con licenza MIT.

A gennaio 2026, ClickHouse ha annunciato un round Series D da 400 milioni di dollari e ha acquisito Langfuse. Langfuse fa ora parte di ClickHouse, il database colonnare che già alimentava il backend di Langfuse. La licenza MIT e l’identità open source sono state confermate come invariate al momento dell’annuncio.

Langfuse è disponibile come servizio cloud gestito con regioni in USA, UE e Giappone, oppure come istanza open source self-hosted senza costi di licenza software.

Cos’è LangSmith?

LangSmith è la piattaforma di osservabilità e valutazione sviluppata da LangChain Inc., il team dietro LangChain e LangGraph. La piattaforma è proprietaria e closed source. LangChain ha raccolto 125 milioni di dollari a una valutazione di 1,25 miliardi nell’ottobre 2025.

Le sue principali capacità includono tracing sull’intera esecuzione dell’applicazione, debug visivo, valutazioni automatiche, monitoraggio in produzione e gestione dei prompt tramite Prompt Hub e Playground. A maggio 2026, LangChain ha lanciato SmithDB, un livello dati in Rust che ora gestisce il 100% dell’ingestione di LangSmith US Cloud. SmithDB riduce il P50 di caricamento degli alberi di trace a 92 millisecondi e la ricerca full-text a 400 millisecondi.

LangSmith è disponibile come servizio cloud gestito, deployment ibrido con data plane nel VPC del cliente o self-hosted Enterprise.

Open source vs. SaaS gestito

La differenza fondamentale tra le due piattaforme non è “open source contro non open source”. La vera differenza è controllo e portabilità da un lato, e aderenza a LangChain/LangGraph dall’altro. Langfuse ti consente di eseguire lo stack sulla tua infrastruttura senza costi di licenza. LangSmith richiede meno setup quando la tua applicazione gira già su LangChain o LangGraph.

Un aggiornamento cambia il modo in cui bisognerebbe inquadrare questo confronto: LangSmith ora supporta il tracing OpenTelemetry tramite il pacchetto langsmith[otel] e la variabile d’ambiente LANGSMITH_OTEL_ENABLED=true. LangSmith non è più limitato alle sole applicazioni LangChain. La sua integrazione più stretta resta con LangGraph, come tratterò nella sezione sul tracing.

Ecco dove si collocano le due piattaforme strutturalmente:

Dimensione	Langfuse	LangSmith
Modello di origine	Open source (MIT)	Proprietario, closed source
Self-hosting	Self-hosting MIT gratuito; controlli enterprise a pagamento	Richiesto contratto Enterprise
Approccio al framework	Funziona tra framework; ampie integrazioni; OTel nativo	Fit più stretto per LangChain/LangGraph; supporto OTel
Sovranità dei dati	Totale; possibile deployment air-gapped	Ibrido e self-hosted per clienti Enterprise
Database backend	ClickHouse	SmithDB (Rust/DataFusion)
Modello di prezzo	Basato su unità (traces + observations + scores)	Basato su seat più trace, con due livelli di retention
Compliance	SOC 2 Type II, ISO 27001, GDPR, HIPAA	SOC 2 Type II, GDPR, HIPAA

Il resto dell’articolo spiega nel dettaglio cosa significano in pratica queste differenze.

Tracing e osservabilità

Il tracing è il punto in cui i prodotti iniziano a divergere. Entrambi catturano chiamate LLM, chiamate a strumenti e metadati correlati, ma i workflow a base di agenti mettono in luce le differenze più rapidamente rispetto alle app prompt-risposta semplici.

Request tracing

Langfuse costruisce trace gerarchiche che catturano chiamate LLM, invocazioni di strumenti, embeddings e passaggi di retrieval. Puoi filtrare per utente, sessione, costo, latenza o metadati personalizzati. A maggio 2026, Langfuse ha aggiunto la ricerca full-text basata sul motore FTS nativo di ClickHouse, riducendo ricerche che prima richiedevano quasi 20 secondi a meno di mezzo secondo.

LangSmith cattura ogni chiamata LLM e uso di strumenti come un albero di run ispezionabile. Con SmithDB che ora gestisce tutta l’ingestione US Cloud, gli alberi di trace si caricano al P50 in 92 millisecondi. LangSmith include anche il clustering di argomenti non supervisionato, che raggruppa le trace per tema rilevato e offre ai team un punto di partenza quando non hanno idea di cosa non vada.

Visibilità dei workflow degli agenti

Langfuse ha aggiunto Agent Graphs a novembre 2025, visualizzando il flusso di esecuzione per agenti multi-step inferendo la struttura del grafo dai tempi delle osservazioni e dall’annidamento. Funziona con qualsiasi framework strumentato, con supporto nativo per LangGraph incluso. Nello stesso periodo è stata aggiunta una Trace Log View, che offre un flusso piatto dei passaggi dell’agente per workflow con molti loop o ramificazioni.

Grafo agente di Langfuse per l’esecuzione LangGraph. Immagine dell’autore.

Il tracing di LangGraph in LangSmith cattura ogni nodo, arco e transizione di stato in un run senza configurazione, oltre all’impostazione di una variabile d’ambiente. LangSmith Studio ti permette di procedere passo-passo nell’esecuzione dell’agente, ispezionare lo stato a ogni nodo e riprodurre una trace con un modello o prompt diverso. In un’applicazione LangGraph, questo offre più contesto rispetto a un albero di trace generico.

Albero di trace LangSmith per workflow di agente. Immagine dell’autore.

Monitoraggio in produzione

Per il monitoraggio in produzione, entrambe le piattaforme tracciano latenza, token utilizzati, costo e tassi di errore. LangSmith include integrazione con PagerDuty e webhook per gli incidenti in produzione. Langfuse include avvisi di spesa con soglie configurabili. A questo livello, le funzionalità di monitoraggio sono simili.

Valutazione offline e online

Il tracing ti dice cosa è successo. La valutazione ti dice se è stato buono. In pratica, questi strumenti sono più utili quando la valutazione fa parte del workflow, non una checklist pre-lancio.

LLM-come-giudice ed evaluator basati su codice

L’LLM-come-giudice di Langfuse è diventato completamente open source sotto licenza MIT a giugno 2025. Qualsiasi utente self-hosted dalla v3.65.0 in poi lo ottiene senza licenza commerciale. A maggio 2026, Langfuse ha introdotto i Code Evaluators: funzioni evaluate in Python o TypeScript che scrivi direttamente nell’UI di Langfuse. Eseguono verifiche deterministiche, come validazione di schema JSON, validazione regex o verifica degli argomenti degli strumenti, senza costi di token o chiamate a un modello giudice.

LangSmith offre valutatori LLM-come-giudice configurabili con tipi di feedback Boolean, Categorical e Continuous, oltre a template integrati per Security, Safety e Quality. Supporta anche la correzione few-shot, in cui correzioni etichettate da umani sugli output dei valutatori ritornano come esempi few-shot per migliorare nel tempo la taratura del valutatore.

Dataset, esperimenti e annotazione umana

La valutazione offline funziona su entrambe le piattaforme tramite dataset e confronto side-by-side degli esperimenti. Langfuse ha aggiunto Score Analytics a novembre 2025 per misurare l’allineamento dei valutatori su precision, recall, F1, costo e accuratezza. Il confronto con baseline, sempre a novembre 2025, ti consente di contrassegnare un run specifico come riferimento e mettere in evidenza le regressioni rispetto ad esso.

L’integrazione CI/CD di Langfuse con GitHub Actions, rilasciata a maggio 2026 tramite langfuse/experiment-action, fa fallire un workflow quando i punteggi degli esperimenti scendono sotto una soglia. Questo trasforma la valutazione in un gate di deploy invece che in una revisione post-rilascio.

Ciclo di valutazione Langfuse con GitHub Actions. Immagine dell’autore.

La configurazione di valutazione di LangSmith ha un comportamento di fatturazione da notare subito: i valutatori che aggiungono feedback alle trace aggiornano automaticamente quelle trace alla retention estesa. Come tratterò nella sezione prezzi, questo cambia il costo dei workflow di valutazione.

Versioning dei prompt, deployment e A/B test

La gestione dei prompt qui è più della semplice cronologia delle versioni. Il workflow è: iterare in sandbox, testare su un dataset, promuovere in produzione e fare rollback in modo pulito quando qualcosa si rompe.

Langfuse assegna a ogni versione di prompt un ID di versione e usa etichette come production e staging per controllare quale versione è live. Cambiare un’etichetta nell’UI è il modo in cui fai deploy o rollback. I prompt sono messi in cache lato client dall’SDK, quindi non viene aggiunta latenza alle chiamate di produzione quando l’SDK recupera la versione attiva. Le etichette protette consentono agli admin di limitare quali ruoli possono modificare l’etichetta production, cosa importante quando hai un mix di collaboratori con diversi livelli di accesso.

LangSmith gestisce i prompt tramite LangChain Hub con versioning a commit-hash per fissare esattamente le versioni via codice. Il Prompt Hub include una libreria della community che Langfuse non replica. L’A/B test tramite esperimenti su dataset è disponibile su entrambe le piattaforme.

In questa categoria, i due prodotti sono più vicini che in hosting, prezzi o setup del framework.

Langfuse vs. LangSmith per applicazioni ad agenti

Gli agenti hanno guidato gran parte del lavoro sulle funzionalità di entrambe le piattaforme nell’ultimo anno. Qui conta dove l’agente è stato costruito.

Langfuse mette in evidenza gli strumenti disponibili, segnala quali strumenti sono stati chiamati e mostra argomenti e ID di chiamata. Tipi di osservazione estesi distinguono chiamate a strumenti, embeddings e chiamate a guardrail nella vista trace. Come accennato prima, i Code Evaluators possono anche verificare gli argomenti degli strumenti rispetto a uno schema. Il server MCP si è ampliato a maggio 2026 per coprire 15 categorie di strumenti, quindi agenti in Claude Code, Cursor o OpenAI Codex possono interrogare i dati di Langfuse in modo programmatico.

Il punto su LangGraph dalla sezione sul tracing ritorna anche qui. Il supporto agli agenti di LangSmith include ispezione dello stato a ogni nodo, replay delle trace con modelli alternativi e LangSmith Studio per un debug visivo passo-passo. Il team di ingegneria di Monte Carlo, che gestisce un sistema in produzione con centinaia di sotto-agenti, ha citato proprio questa integrazione LangGraph senza setup come una ragione chiave della scelta.

Per agenti costruiti con CrewAI, Pydantic AI o altri framework multi-agente, Langfuse ha un’instrumentation nativa più ampia e spesso richiede meno setup manuale.

Integrazioni con framework e SDK

Langfuse elenca integrazioni ampie tra provider di modelli, framework, gateway, strumenti no-code, analytics e tool per sviluppatori. I framework includono LangChain, LangGraph, OpenAI Agents SDK, Pydantic AI, CrewAI, AutoGen, DSPy, Haystack, LlamaIndex e altri. La piattaforma è nativamente OpenTelemetry a livello di SDK.

Gli SDK nativi di LangSmith coprono Python, TypeScript, Go e Java. Oltre a LangChain e LangGraph, funziona con OpenAI SDK, Anthropic SDK, Vercel AI SDK, LlamaIndex, implementazioni personalizzate e OpenTelemetry. Ciò significa che non è uno strumento di tracing solo per LangChain, anche se LangGraph resta la sua corrispondenza più stretta.

La domanda pratica non è solo se un framework è supportato, poiché la maggior parte dei framework popolari funziona con entrambe le piattaforme. È quanta instrumentation devi scrivere. LangGraph ottiene tracing zero-config in LangSmith. Altri framework possono richiedere meno setup in Langfuse. Lo sforzo di setup varia in base allo stack.

Langfuse open source vs. LangSmith Enterprise

Il self-hosting cambia il quadro operativo e di compliance più di quanto facciano la maggior parte delle categorie di funzionalità.

Il self-hosting di Langfuse è gratuito sotto licenza MIT. Docker Compose è adatto a sviluppo o valutazione; i deployment in produzione di solito usano Kubernetes con Helm su GKE, EKS o AKS. Lo stack include ClickHouse, PostgreSQL, Redis e storage compatibile S3, con una VM minima consigliata da 4 core e 16 GiB di RAM. La licenza software non costa nulla, ma il tuo team possiede infrastruttura e operazioni. La Enterprise Edition self-hosted a pagamento aggiunge supporto dedicato, audit log, SCIM e SLA.

Sul fronte compliance, Langfuse Cloud possiede certificazioni SOC 2 Type II, ISO 27001, GDPR e HIPAA. LangSmith Cloud possiede SOC 2 Type II, GDPR e HIPAA. ISO 27001 non è elencata per LangSmith. Se nel tuo procurement quella casella va spuntata, è una differenza concreta.

Il self-hosting di LangSmith richiede un contratto Enterprise. Non esiste un percorso open source, gratuito, per il self-hosting. I tre modelli di deployment (Cloud, Hybrid e Self-hosted) rientrano tutti nell’ombrello Enterprise. SmithDB per LangSmith self-hosted è in early access a maggio 2026, non ancora generalmente disponibile.

Prezzi: Langfuse vs. LangSmith

I prezzi in evidenza non raccontano tutta la storia.

In questa categoria i prezzi cambiano spesso. I numeri sotto riflettono le pagine ufficiali che ho consultato a giugno 2026, ma verifica le pagine di pricing aggiornate prima di pianificare il budget su una delle due piattaforme.

Prezzi di Langfuse

Langfuse Cloud addebita per unità: un’unità equivale a una trace, un’osservazione o uno score. La formula è Units = Traces + Observations + Scores, quindi un run di un agente ricco di strumenti può costare più di una semplice trace prompt-risposta. Il piano gratuito Hobby include 50.000 unità al mese, retention di 30 giorni e due utenti. Core costa 29 $/mese con 100.000 unità incluse, utenti illimitati e retention di 90 giorni. Pro costa 199 $/mese con accesso ai dati per 3 anni e certificazioni di compliance. Enterprise parte da 2.499 $/mese con prezzi personalizzati per volumi. L’overage parte da 8 $ ogni 100.000 unità aggiuntive.

Come accennato prima, la versione self-hosted di Langfuse non ha costi di licenza software. SCIM, audit log e supporto enterprise richiedono una licenza commerciale.

Prezzi di LangSmith

LangSmith addebita per seat e per trace. Il piano Developer è gratuito con 5.000 trace al mese, un seat e retention di 14 giorni. Plus costa 39 $ per seat al mese con 10.000 trace base incluse. Le trace base hanno retention di 14 giorni; le trace estese mantengono i dati per 400 giorni e costano di più. Un team di cinque persone su Plus paga 195 $/mese in seat prima dell’overage sulle trace. I prezzi Enterprise sono personalizzati.

Meccaniche di retention dei dati

Come accennato prima, la retention estesa si attiva automaticamente quando i valutatori aggiungono feedback alle trace. Leggi la documentazione di billing di LangSmith sull’auto-retention estesa prima di configurare pipeline di valutazione.

Questi dettagli contano perché piccole differenze nella profondità delle trace, nell’uso dei valutatori e nella retention possono cambiare il conto mensile.

Tabella di confronto: Langfuse vs. LangSmith

Come accennato prima, le differenze principali sono proprietà, aderenza al framework, workflow di valutazione e prezzi. La tabella sotto comprime questi punti prima delle sezioni decisive finali.

Funzionalità	Langfuse	LangSmith
Open source	Sì (MIT)	No (proprietario)
Self-hosting	Self-hosting MIT gratuito; controlli enterprise a pagamento	Richiesto contratto Enterprise
Valutazione	LLM-come-giudice (MIT), code evaluators, annotazione umana, CI/CD	LLM-come-giudice, annotazione umana, valutatori online, correzione few-shot
Gestione prompt	Deployment basato su etichette, caching via SDK, composabilità dei prompt	Versioning a commit-hash, community Prompt Hub
Ecosistema	Integrazioni ampie, OTel nativo, funziona tra framework	Fit più stretto per LangChain/LangGraph; supporto OTel
Supporto agli agenti	Agent Graphs, Trace Log View, Code Evaluators, server MCP	LangSmith Studio, tracing nativo LangGraph, ispezione dello stato
Compliance	SOC 2 Type II, ISO 27001, GDPR, HIPAA	SOC 2 Type II, GDPR, HIPAA
Modello di prezzo	Basato su unità; utenti illimitati nei piani a pagamento	Basato su seat + trace; due livelli di retention
Fit	Sovranità dei dati, stack non-LangChain, valutazione in CI/CD	Team LangGraph, preferenza per SaaS gestito

Errori nella scelta di una piattaforma di osservabilità LLM

Primo punto, secondo me: non concentrarti solo sul tracing. Il tracing ti dice cosa è successo, ma la valutazione ti dice se l’output era buono. Se scegli in base alla sola visualizzazione delle trace, stai usando il criterio sbagliato.

Secondo punto: osserva le meccaniche di prezzo. Come visto sopra, i costi di Langfuse crescono con la profondità delle trace, mentre la retention estesa di LangSmith può cambiare il costo della valutazione automatizzata. Fai i conti prima della produzione.

Terzo, self-hosting non significa la stessa cosa nei due prodotti. La sezione sul self-hosting sopra spiega perché. Se la sovranità dei dati è un requisito inderogabile, quella differenza può decidere il confronto.

Infine, non decidere solo sulla compatibilità con il framework. Gli stack cambiano. I requisiti di deployment e i workflow di valutazione sono più difficili da sostituire in seguito.

Quando scegliere Langfuse

In base ai trade-off sopra, Langfuse è più adatto quando:

Il tuo team non usa principalmente LangChain o LangGraph e stai costruendo con CrewAI, Pydantic AI, LlamaIndex o chiamate API dirette a OpenAI o Anthropic.
La sovranità dei dati è non negoziabile e input, output e trace LLM devono restare sulla tua infrastruttura.
La tua checklist di compliance richiede ISO 27001 oltre a SOC 2 e HIPAA.
Il tuo team vuole valutazione integrata in CI/CD con gate di regressione automatici tramite GitHub Actions.
Ti servono costi prevedibili per un team in crescita, dato che i piani Cloud a pagamento includono utenti illimitati.

Quando scegliere LangSmith

In base agli stessi trade-off, LangSmith è più adatto quando:

Stai costruendo con LangGraph e vuoi tracing a zero configurazione, visualizzazione nativa del grafo e debug passo-passo in LangSmith Studio.
Il tuo team vuole una piattaforma gestita senza infrastruttura da gestire.
Valorizzi il Prompt Hub della community per scoprire e condividere prompt tra team al di fuori della tua organizzazione.
Le tue esigenze vanno oltre l’osservabilità, verso la piattaforma più ampia di LangSmith, che ora include deployment degli agenti e gestione delle Fleet.

Conclusione

Langfuse e LangSmith risolvono entrambi un problema reale e sono entrambi molto cambiati nell’ultimo anno. A questo punto, il trade-off è chiaro.

La decisione non riguarda quale piattaforma abbia più funzionalità. È il trade-off tra proprietà e ecosistema visto prima. Hai bisogno di controllare il tuo stack dati o vuoi meno setup nel mondo LangChain/LangGraph?

Un’avvertenza prima di decidere: entrambe le piattaforme cambiano spesso. Controlla i changelog prima di impegnarti.

Per approfondimenti correlati sull’ecosistema LangChain, vedi il nostro tutorial LangChain vs. LangGraph vs. LangSmith vs. LangFlow.