Langfuse vs. LangSmith: comparativa de plataformas de observabilidad para LLM

Compara Langfuse y LangSmith en trazabilidad, evaluación, observabilidad, gestión de prompts y monitorización en producción para elegir la plataforma adecuada para tus aplicaciones con LLM.

Actualizado 24 jun 2026 · 13 min leer

Cuando un chatbot empieza a dar malas respuestas, lo primero es revisar el prompt. Eso funciona para una única llamada a un LLM. Deja de funcionar cuando la aplicación es un agente que hace llamadas a herramientas.

Ese contexto que falta es justo lo que intentan aportar las plataformas de observabilidad para LLM. No son herramientas de monitorización tradicionales. Una herramienta clásica te habla de latencia y tasas de error. Una plataforma de observabilidad para LLM te dice qué llamada de herramienta devolvió un mal resultado y si un cambio de prompt mejoró la calidad del output.

Tanto Langfuse como LangSmith cubren trazabilidad, evaluación y gestión de prompts, y ambas lanzaron actualizaciones importantes a principios de 2026. Pero no son intercambiables. La diferencia depende de los requisitos de despliegue, el stack tecnológico y de cómo tu equipo ejecuta las evaluaciones.

Respuesta corta: Langfuse encaja con equipos que necesitan autoalojamiento open source, control de datos o un stack fuera de LangChain. LangSmith encaja con equipos que ya desarrollan con LangChain o LangGraph, aunque ya no está limitado a ese ecosistema. Si no se cumple ninguna de las dos condiciones, yo miraría el precio.

¿Qué son Langfuse y LangSmith?

A grandes rasgos, ambos productos hacen que las aplicaciones con LLM sean observables, testeables y depurables. Esto es lo que ofrece cada uno.

Resumen de posicionamiento de plataforma: Langfuse frente a LangSmith. Imagen del autor.

¿Qué es Langfuse?

Langfuse es una plataforma open source de ingeniería con LLM lanzada en 2023. Cubre trazabilidad, gestión de prompts, evaluación (LLM-as-judge, anotación humana y comprobaciones basadas en código), experimentos con datasets y monitorización de coste y latencia. El núcleo open source tiene licencia MIT.

En enero de 2026, ClickHouse anunció una Serie D de 400 millones de dólares y adquirió Langfuse. Langfuse forma ahora parte de ClickHouse, la base de datos columnar que ya impulsaba el backend de Langfuse. En ese momento se confirmó que la licencia MIT y la identidad open source se mantenían sin cambios.

Langfuse se ofrece como servicio cloud gestionado con regiones en EE. UU., UE y Japón, o como instancia autoalojada open source sin coste de licencia de software.

¿Qué es LangSmith?

LangSmith es la plataforma de observabilidad y evaluación creada por LangChain Inc., el equipo detrás de LangChain y LangGraph. La plataforma es propietaria y de código cerrado. LangChain recaudó 125 millones de dólares con una valoración de 1.250 millones en octubre de 2025.

Sus principales capacidades incluyen trazabilidad de una ejecución completa, depuración visual, evaluaciones automatizadas, monitorización en producción y gestión de prompts mediante Prompt Hub y el Playground. En mayo de 2026, LangChain lanzó SmithDB, una capa de datos en Rust que ya gestiona el 100% de la ingesta de LangSmith en la nube de EE. UU. SmithDB reduce la carga P50 del árbol de trazas a 92 milisegundos y la búsqueda de texto completo a 400 milisegundos.

LangSmith está disponible como servicio cloud gestionado, despliegue híbrido con plano de datos en el VPC del cliente o autoalojado Enterprise.

Open source vs. SaaS gestionado

La diferencia clave entre ambas plataformas no es "open source frente a no open source". La diferencia real está entre control y portabilidad por un lado, y el encaje con LangChain/LangGraph por el otro. Langfuse te permite ejecutar el stack en tu propia infraestructura sin coste de licencia. LangSmith requiere menos configuración cuando tu aplicación ya corre en LangChain o LangGraph.

Hay una novedad que cambia el enfoque de la comparación: LangSmith ahora admite trazabilidad con OpenTelemetry a través del paquete langsmith[otel] y la variable de entorno LANGSMITH_OTEL_ENABLED=true. LangSmith ya no se limita a aplicaciones con LangChain. Su integración más estrecha sigue siendo con LangGraph, como verás en la sección de trazabilidad.

Aquí es donde se sitúan estructuralmente las dos plataformas:

Dimensión	Langfuse	LangSmith
Modelo de código	Open source (MIT)	Propietario, de código cerrado
Autoalojamiento	Autoalojamiento MIT gratuito; controles enterprise de pago	Se requiere contrato Enterprise
Enfoque de framework	Funciona entre frameworks; integraciones amplias; nativo OTel	Mejor encaje con LangChain/LangGraph; soporte OTel
Soberanía de datos	Total; despliegue air-gapped posible	Híbrido y autoalojado para clientes Enterprise
Base de datos backend	ClickHouse	SmithDB (Rust/DataFusion)
Modelo de precios	Por unidades (trazas + observaciones + puntuaciones)	Por asiento y por traza con dos niveles de retención
Conformidad	SOC 2 Type II, ISO 27001, RGPD, HIPAA	SOC 2 Type II, RGPD, HIPAA

El resto del artículo desglosa qué significan esas diferencias en la práctica.

Trazabilidad y observabilidad

La trazabilidad es donde los productos empiezan a diferenciarse. Ambos capturan llamadas a LLM, llamadas a herramientas y metadatos relacionados, pero los flujos de trabajo con agentes exponen antes las diferencias que las apps sencillas de prompt-respuesta.

Trazabilidad de peticiones

Langfuse construye trazas jerárquicas que capturan llamadas a LLM, invocaciones de herramientas, embeddings y pasos de recuperación. Puedes filtrar por usuario, sesión, coste, latencia o metadatos personalizados. En mayo de 2026, Langfuse añadió búsqueda de texto completo basada en el motor FTS nativo de ClickHouse, reduciendo búsquedas que antes rondaban los 20 segundos a menos de medio segundo.

LangSmith captura cada llamada a LLM y uso de herramientas como un árbol de ejecuciones inspeccionable. Con SmithDB gestionando ya toda la ingesta en la nube de EE. UU., los árboles de trazas cargan con un P50 de 92 milisegundos. LangSmith también incluye clustering de temas no supervisado, que agrupa trazas por tema detectado y da un punto de partida cuando no tienes claro qué falla.

Visibilidad del flujo de trabajo de agentes

Langfuse añadió Agent Graphs en noviembre de 2025, visualizando el flujo de ejecución de agentes multi-paso al inferir la estructura del grafo a partir de temporizaciones y anidado de observaciones. Funciona con cualquier framework instrumentado, con soporte nativo para LangGraph. En esa misma fecha se incorporó Trace Log View, que ofrece un flujo plano de pasos del agente para workflows con muchos bucles o ramificaciones.

Grafo de agente de Langfuse para ejecución en LangGraph. Imagen del autor.

La trazabilidad de LangGraph en LangSmith captura cada nodo, arista y transición de estado en una ejecución sin más configuración que establecer una variable de entorno. LangSmith Studio te permite avanzar paso a paso por la ejecución del agente, inspeccionar el estado en cada nodo y reproducir una traza con otro modelo o prompt. En una aplicación con LangGraph, esto da más contexto que un árbol de trazas genérico.

Árbol de trazas de LangSmith para un flujo de trabajo de agente. Imagen del autor.

Monitorización en producción

Para la producción, ambas plataformas hacen seguimiento de latencia, uso de tokens, coste y tasas de error. LangSmith incluye alertas por PagerDuty y webhooks para incidentes. Langfuse incluye alertas de gasto con umbrales configurables. A este nivel, las funciones de monitorización son similares.

Evaluación offline y online

La trazabilidad te dice qué pasó. La evaluación te dice si estuvo bien. En la práctica, estas herramientas son más útiles cuando la evaluación forma parte del flujo de trabajo, no solo un checklist previo al lanzamiento.

LLM-as-a-judge y evaluadores por código

El LLM-as-judge de Langfuse pasó a ser completamente open source bajo MIT en junio de 2025. Cualquier usuario autoalojado desde la v3.65.0 lo obtiene sin licencia comercial. En mayo de 2026, Langfuse lanzó Code Evaluators: funciones evaluate en Python o TypeScript que escribes directamente en la interfaz de Langfuse. Ejecutan comprobaciones deterministas (validación de esquemas JSON, regex, verificación de argumentos de herramientas, etc.) sin coste de tokens ni llamada a un modelo juez.

LangSmith ofrece evaluadores configurables de LLM-as-judge con tipos de feedback booleano, categórico y continuo, además de plantillas integradas para seguridad, protección y calidad. También admite few-shot correction, donde las correcciones etiquetadas por humanos en las salidas de los evaluadores se reutilizan como ejemplos few-shot para mejorar la calibración con el tiempo.

Datasets, experimentos y anotación humana

La evaluación offline funciona en ambas plataformas mediante datasets y comparación de experimentos lado a lado. Langfuse añadió Score Analytics en noviembre de 2025 para medir la alineación de evaluadores en precisión, recall, F1, coste y exactitud. La comparación con baseline, también en noviembre de 2025, te permite marcar una ejecución como referencia y detectar regresiones frente a ella.

La integración de CI/CD con GitHub Actions de Langfuse, lanzada en mayo de 2026 mediante langfuse/experiment-action, falla un workflow cuando las puntuaciones del experimento caen por debajo de un umbral. Así, la evaluación pasa a ser una puerta de despliegue y no una revisión posterior.

Bucle de evaluación de Langfuse con GitHub Actions. Imagen del autor.

La configuración de evaluación de LangSmith tiene un comportamiento de facturación importante: los evaluadores que añaden feedback a las trazas las actualizan automáticamente a retención extendida. Como verás en la sección de precios, eso cambia el coste de los flujos de evaluación.

Versionado, despliegue y A/B testing de prompts

Aquí, gestionar prompts es más que tener un historial. El flujo es: iterar en un entorno aislado, probar con un dataset, promocionar a producción y revertir sin fricciones cuando algo falla.

Langfuse asigna a cada versión de prompt un identificador y usa etiquetas como production y staging para controlar qué versión está activa. Cambiar una etiqueta en la interfaz es cómo despliegas o haces rollback. Los prompts se cachean en el cliente mediante el SDK, así que no añades latencia a las llamadas de producción cuando el SDK recupera la versión activa. Las etiquetas protegidas permiten a los administradores restringir qué roles pueden modificar la etiqueta production, algo clave con colaboradores de distintos niveles de acceso.

LangSmith gestiona prompts con LangChain Hub y versionado por hash de commit para fijar versiones exactas por código. Prompt Hub incluye una biblioteca comunitaria que Langfuse no replica. El A/B testing mediante experimentos con datasets está disponible en ambas plataformas.

En esta categoría, los dos productos están más cerca que en hosting, precios o configuración por framework.

Langfuse vs. LangSmith para aplicaciones con agentes

Los agentes han impulsado muchas funciones en ambas plataformas en el último año. Aquí importa dónde se construye el agente.

Langfuse muestra las herramientas disponibles, resalta cuáles se llamaron y enseña argumentos e IDs de llamada. Los tipos de observación ampliados distinguen llamadas a herramientas, embeddings y guardrails en la vista de trazas. Como mencioné antes, los Code Evaluators también pueden verificar los argumentos de herramientas contra un esquema. El servidor MCP se amplió en mayo de 2026 hasta cubrir 15 categorías de herramientas, por lo que agentes en Claude Code, Cursor u OpenAI Codex pueden consultar datos de Langfuse de forma programática.

El punto de LangGraph de la sección de trazabilidad reaparece aquí. El soporte de agentes en LangSmith incluye inspección de estado en cada nodo, reproducción de trazas con modelos alternativos y LangSmith Studio para depuración visual paso a paso. El equipo de ingeniería de Monte Carlo, que opera un sistema en producción con cientos de subagentes, citó esta integración sin configuración con LangGraph como una razón clave de su elección.

Para agentes construidos con CrewAI, Pydantic AI u otros frameworks multiagente, Langfuse ofrece una instrumentación nativa más amplia y a menudo requiere menos configuración manual.

Integraciones con frameworks y SDK

Langfuse lista integraciones amplias con proveedores de modelos, frameworks, gateways, herramientas no-code, analítica y herramientas de desarrollo. Entre los frameworks están LangChain, LangGraph, OpenAI Agents SDK, Pydantic AI, CrewAI, AutoGen, DSPy, Haystack, LlamaIndex y otros. La plataforma es nativa de OpenTelemetry a nivel de SDK.

Los SDK nativos de LangSmith cubren Python, TypeScript, Go y Java. Más allá de LangChain y LangGraph, funciona con OpenAI SDK, Anthropic SDK, Vercel AI SDK, LlamaIndex, implementaciones personalizadas y OpenTelemetry. Es decir, no es una herramienta de trazabilidad exclusiva de LangChain, aunque LangGraph siga siendo su mejor encaje.

La pregunta práctica no es solo si un framework está soportado, porque la mayoría de populares funcionan con ambas plataformas. Es cuánta instrumentación tienes que escribir. LangGraph obtiene trazabilidad sin configuración en LangSmith. Otros frameworks pueden requerir menos setup en Langfuse. El esfuerzo de configuración varía según el stack.

Langfuse open source vs. LangSmith Enterprise

El autoalojamiento cambia más el panorama operativo y de cumplimiento que la mayoría de categorías de funciones.

El autoalojamiento de Langfuse es gratuito bajo MIT. Docker Compose sirve para desarrollo o evaluación; en producción se suele usar Kubernetes con Helm en GKE, EKS o AKS. El stack incluye ClickHouse, PostgreSQL, Redis y almacenamiento compatible con S3, con una VM mínima recomendada de 4 cores y 16 GiB de RAM. La licencia de software no cuesta nada, pero tu equipo se encarga de la infraestructura y las operaciones. Su edición Enterprise autoalojada añade soporte dedicado, logs de auditoría, SCIM y SLAs.

En cumplimiento, Langfuse Cloud cuenta con SOC 2 Type II, ISO 27001, RGPD y HIPAA. LangSmith Cloud tiene SOC 2 Type II, RGPD y HIPAA. ISO 27001 no aparece listado para LangSmith. Si tu proceso de compras exige ese punto, es una diferencia concreta.

El autoalojamiento de LangSmith requiere contrato Enterprise. No hay una vía open source y gratuita para autoalojar. Sus tres modelos de despliegue (Cloud, Híbrido y Autoalojado) están bajo el paraguas Enterprise. SmithDB para LangSmith autoalojado está en early access en mayo de 2026, aún sin disponibilidad general.

Precios de Langfuse vs. LangSmith

Los precios de portada no cuentan toda la historia.

Además, la tarificación en esta categoría cambia a menudo. Las cifras siguientes reflejan las páginas oficiales revisadas en junio de 2026, pero consulta las páginas actuales antes de presupuestar cualquiera de las plataformas.

Precios de Langfuse

Langfuse Cloud cobra por unidades: una unidad equivale a una traza, una observación o una puntuación. La fórmula es Units = Traces + Observations + Scores, por lo que una ejecución de agente con muchas herramientas puede costar más que una traza simple de prompt-respuesta. El plan gratuito Hobby incluye 50.000 unidades al mes, 30 días de retención y dos usuarios. Core cuesta 29 $/mes con 100.000 unidades incluidas, usuarios ilimitados y 90 días de retención. Pro son 199 $/mes con acceso a datos durante 3 años y certificaciones de cumplimiento. Enterprise parte de 2.499 $/mes con precios por volumen a medida. El exceso empieza en 8 $ por cada 100.000 unidades adicionales.

Como comenté antes, el Langfuse autoalojado no tiene coste de licencia de software. SCIM, logs de auditoría y soporte enterprise requieren licencia comercial.

Precios de LangSmith

LangSmith cobra por asiento y por traza. El plan Developer es gratuito con 5.000 trazas al mes, un asiento y 14 días de retención. Plus cuesta 39 $ por asiento al mes con 10.000 trazas base incluidas. Las trazas base tienen 14 días de retención; las extendidas conservan datos 400 días y cuestan más. Un equipo de cinco en Plus paga 195 $/mes en asientos antes del exceso por trazas. El precio Enterprise es a medida.

Mecánica de retención de datos

Como mencioné, la retención extendida se activa automáticamente cuando los evaluadores añaden feedback a las trazas. Lee la documentación de facturación de LangSmith sobre la auto-retención extendida antes de configurar pipelines de evaluación.

Estos detalles importan porque pequeñas diferencias en la profundidad de las trazas, uso de evaluadores y retención pueden cambiar la factura mensual.

Tabla comparativa: Langfuse vs. LangSmith

Como dije antes, las principales diferencias son la propiedad, el encaje con el framework, el flujo de evaluación y el precio. La tabla de abajo resume estos puntos antes de las secciones de decisión.

Funcionalidad	Langfuse	LangSmith
Open source	Sí (MIT)	No (propietario)
Autoalojamiento	Autoalojamiento MIT gratuito; controles enterprise de pago	Se requiere contrato Enterprise
Evaluación	LLM-as-judge (MIT), evaluadores por código, anotación humana, CI/CD	LLM-as-judge, anotación humana, evaluadores online, few-shot correction
Gestión de prompts	Despliegue por etiquetas, caché en SDK, composabilidad de prompts	Versionado por hash de commit, Prompt Hub comunitario
Ecosistema	Integraciones amplias, nativo OTel, funciona entre frameworks	Mejor encaje con LangChain/LangGraph; soporte OTel
Soporte a agentes	Agent Graphs, Trace Log View, Code Evaluators, servidor MCP	LangSmith Studio, trazabilidad nativa de LangGraph, inspección de estado
Conformidad	SOC 2 Type II, ISO 27001, RGPD, HIPAA	SOC 2 Type II, RGPD, HIPAA
Modelo de precios	Por unidades; usuarios ilimitados en planes de pago	Por asiento + por traza; dos niveles de retención
Mejor encaje	Soberanía de datos, stacks sin LangChain, evaluación en CI/CD	Equipos con LangGraph, preferencia por SaaS gestionado

Errores al elegir una plataforma de observabilidad para LLM

Lo primero, en mi opinión: no te centres solo en la trazabilidad. La trazabilidad dice qué pasó, pero la evaluación dice si el output es bueno. Si eliges basándote solo en la visualización de trazas, estás usando el criterio equivocado.

Segundo: vigila la mecánica de precios. Como vimos, el coste de Langfuse crece con la profundidad de la traza, mientras que la retención extendida de LangSmith puede cambiar el coste de la evaluación automatizada. Haz números antes de ir a producción.

Tercero, autoalojar no significa lo mismo en ambos productos. La sección de autoalojamiento explica por qué. Si la soberanía del dato es un requisito estricto, esa diferencia puede decidir la comparación.

Por último, no decidas solo por compatibilidad con frameworks. Los stacks cambian. Los requisitos de despliegue y los flujos de evaluación son más difíciles de cambiar después.

Cuándo elegir Langfuse

Según las compensaciones anteriores, Langfuse encaja mejor cuando:

Tu equipo no usa principalmente LangChain o LangGraph y estás construyendo con CrewAI, Pydantic AI, LlamaIndex o llamadas directas a las APIs de OpenAI o Anthropic.
La soberanía del dato no es negociable y las entradas, salidas y trazas del LLM deben quedarse en tu infraestructura.
Tu checklist de cumplimiento exige ISO 27001 además de SOC 2 y HIPAA.
Tu equipo quiere evaluación integrada en CI/CD con puertas de regresión automáticas vía GitHub Actions.
Necesitas costes previsibles para un equipo en crecimiento, ya que los planes Cloud de pago incluyen usuarios ilimitados.

Cuándo elegir LangSmith

Con las mismas premisas, LangSmith encaja mejor cuando:

Construyes con LangGraph y quieres trazabilidad sin configuración, visualización nativa del grafo y depuración paso a paso en LangSmith Studio.
Tu equipo prefiere una plataforma gestionada sin infraestructura propia.
Valoras el Prompt Hub comunitario para descubrir y compartir prompts entre equipos fuera de tu organización.
Tus necesidades van más allá de la observabilidad hacia la plataforma más amplia de LangSmith, que ahora incluye despliegue de agentes y gestión de Fleet.

Conclusión

Langfuse y LangSmith resuelven un problema real y han cambiado mucho en el último año. A estas alturas, el compromiso es claro.

La decisión no va de qué plataforma tiene más funciones. Es el equilibrio entre propiedad y ecosistema del que hablábamos. ¿Necesitas controlar tu stack de datos o prefieres menos configuración dentro del mundo LangChain/LangGraph?

Un aviso antes de decidir: ambas plataformas cambian a menudo. Revisa los changelogs antes de comprometerte.

Para profundizar en el ecosistema LangChain, consulta nuestro tutorial LangChain vs. LangGraph vs. LangSmith vs. LangFlow.