Ir al contenido principal

Observabilidad de LLM: 6 lecciones del CTO de Datadog

Antes de DASH 2026, el cofundador de Datadog Alexis Lê-Quôc explica cómo la IA ha cambiado las revisiones de código, por qué producción es la prueba real y dónde deben hacerse cargo los agentes.
Actualizado 9 jun 2026  · 9 min leer

Los equipos de ingeniería están publicando más código del que pueden leer. Los asistentes de IA ya escriben gran parte de ese código, más rápido de lo que cualquier revisor puede seguir línea a línea. Ese cambio es el telón de fondo de la conferencia DASH de Datadog en Nueva York esta semana, donde el cofundador y CTO Alexis Lê-Quôc dirige una sesión titulada "The New Shape of Engineering".

Su tesis es clara. La forma en que los equipos operan el software no ha cambiado: envías un cambio, lo despliegas y observas qué ocurre. Lo que sí ha cambiado es el volumen y el ritmo, y eso modifica qué lo mantiene seguro.

En este artículo, desgloso sus ideas en seis lecciones clave: desde los cambios en el proceso de revisión hasta usar producción como prueba definitiva, y qué deberías aprender.

Si es la primera vez que oyes hablar de la observabilidad de LLM, te recomendamos nuestros recursos para empezar con MLOps y la evaluación de LLM como punto de partida.

En pocas palabras

La idea de fondo de Lê-Quôc es que la observabilidad se convierte en la capa de control del software que la IA escribe, prueba y despliega: tanto para las personas que lo operan como para los propios agentes.

Las seis lecciones, en resumen:

  • La revisión se desplaza fuera del propio código. Hay demasiado código generado por IA para leerlo línea a línea, así que la validación real son las pruebas, especificaciones y demostraciones que diseñas de antemano, incluyendo protegerte contra agentes que puedan "jugar" con esas pruebas.
  • Producción es la única prueba que cuenta. Un CI en verde demuestra poco cuando los usuarios reales chocan con supuestos que no pudiste verificar, y la salida de un modelo nunca es totalmente cierta, así que debes monitorizar en vivo y mantener un botón de parada.
  • Deja la carga repetitiva a los agentes. Entrégales la vigilancia de paneles y la comprobación de hipótesis que agotan a las personas, y reserva a la gente las decisiones de alto juicio.
  • Divide el trabajo en dos bucles: Un bucle de desarrollo (escribir, desplegar, verificar, corregir) y un bucle de operaciones y seguridad (detectar, investigar, resolver).
  • Mantén a raya el gasto en IA. Ajusta qué modelo hace cada tarea usando datos de trayectorias de agentes, y deja esa decisión en manos de desarrolladores y SRE.
  • Aprende a aprender. Los modelos son tutores pacientes, pero la habilidad está en interrogarles: entender los sistemas capa a capa y preguntar por qué el código que escribieron funcionó realmente.

Mejora las habilidades de tu equipo en IA

Transforma tu empresa dotando a tu equipo de conocimientos avanzados de IA a través de DataCamp for Business. Consigue mejores conocimientos y eficacia.

Solicita una demostración hoy mismo
business-homepage-hero.png

Lección 1: la IA rompió la forma clásica de revisar código

Empecemos por la presión que desencadena todo lo demás: hay más código del que cualquiera puede leer.

Lê-Quôc es tajante: el modelo antiguo, una persona leyendo un pull request línea a línea, no sobrevive al desarrollo asistido por IA. La inquietud que escucha por toda la industria es que las revisiones se vuelven inviables porque ocurre demasiado como para seguirlo leyendo PRs.

Su respuesta no es pedir a la gente que lea más rápido, sino mover la revisión a otro sitio.

La revisión ya no es la línea de código; hay demasiado, no puedes seguir el ritmo. Se trata de qué pruebas diseñamos de antemano y de indicar al agente que no las haga trampa.

Alexis Lê-QuôcCTO at Datadog

Ese último matiz es fácil pasarlo por alto. Cuando orquestas un agente que planifica, otro que escribe y otro que prueba, también debes evitar que quien escribe "juegue" con las pruebas automatizadas en vez de solucionar el problema.

Va más allá de las pruebas. En Datadog ahora añaden demostraciones semiformales y formales de que una especificación hace lo que debe, algo demasiado exigente como para intentarlo de forma generalizada antes de que los agentes se hicieran cargo del trabajo pesado. Funciona mejor en sistemas de backend y de coordinación, donde el comportamiento es lo bastante matemático como para razonar con precisión.

Lección 2: producción es la única prueba que cuenta

Pasar todas las pruebas en CI es necesario y ni de lejos suficiente. Los fallos que importan llegan después.

El lugar donde realmente importa es producción.

Alexis Lê-QuôcCTO at Datadog

Cada versión se apoya en supuestos que no puedes comprobar del todo de antemano, sobre la forma de los datos y el comportamiento de los usuarios. Si expones esos supuestos a suficiente tráfico real, los casos raros dejan de serlo; se convierten en las ralentizaciones y errores del día a día por deriva de datos y de modelos.

Los LLM complican esto: con código normal, al menos puedes razonar por cada rama, pero nadie puede explicar mecánicamente por qué un modelo devuelve lo que devuelve, así que la misma entrada nunca garantiza la misma salida. Los resultados extraños ocasionales no desaparecen con ingeniería.

Así que dejas de intentar demostrar que un sistema es correcto antes de enviarlo. En su lugar,

La pregunta ya no es si ha pasado, sino si un problema es puntual o el inicio de una tendencia.

Esa señal en vivo no es solo un panel para humanos. Conectada al sistema de despliegue, permite a un agente extender un cambio como lo haría una ingeniera prudente: al uno por ciento de usuarios, luego al cinco, juzgando con datos reales si el cambio logra lo previsto.

Lección 3: deja la carga a los agentes

El argumento de Lê-Quôc a favor de los agentes no es que reemplacen a las personas ingenieras, sino que asuman las partes del trabajo que desgastan.

Resolver un incidente significa lanzar hipótesis contra un síntoma y, en incidentes largos, a menudo la que se confirma es la más rebuscada. El agente Bits AI de Datadog las comprueba todas en paralelo, por delante de la ingeniera, mientras la persona lo guía hacia esa intuición que un panel nunca sacaría a la luz.

El punto de fondo es la fatiga. Un despliegue en guardia es un pico de alerta seguido de horas de nada, repetido hasta que se resiente tu criterio.

Estás en modo alerta máxima y luego es como ver secar la pintura.

Alexis Lê-QuôcCTO at Datadog

A un agente no le importa, y no empeora tras cuatro horas mirando números. El estrés y la fatiga degradan el rendimiento humano, por eso los equipos rotan a las personas de guardia.

Entrega la vigilancia incansable a una máquina y la gente vuelve descansada para las decisiones que sí los necesitan. Lo mismo aplica al triaje de seguridad, donde los analistas se queman distinguiendo falsos positivos de amenazas reales.

Lección 4: divide el trabajo en dos bucles

Lê-Quôc organiza el trabajo con agentes en Datadog alrededor de dos bucles.

image1.png

El bucle de desarrollo

A la mayoría de ingenieros les resultará familiar:

  1. Escribir código
  2. Desplegarlo
  3. Ver si funciona
  4. Corregirlo
  5. Repetir

El enfoque de Datadog es que un problema que nace en el código suele tener su arreglo en el código, así que la plataforma intenta darte esa corrección, informada por lo que sabe de la aplicación: su propiedad, sus cambios recientes y los errores lanzados.

Pone como ejemplo la optimización de consultas de base de datos. Cualquier modelo puede reescribir una consulta lenta; lo difícil es demostrar que la nueva versión es más rápida y segura antes de llegar a producción. Por eso Datadog la prueba primero contra una copia realista de los datos de producción y entrega un pull request con las evidencias adjuntas.

El bucle de operaciones y seguridad

El otro bucle corre en paralelo, ya sea con las mismas personas o con un equipo distinto:

  1. Detectar
  2. Investigar
  3. Corregir
  4. Repetir

Aquí es donde AI Guard de Datadog prioriza eventos de seguridad y bloquea ataques más rápido que un analista trabajando a mano. Los agentes también pueden encargarse de tareas operativas rutinarias que los ingenieros hacen a diario sin demasiado entusiasmo, como redimensionar ese pod de Kubernetes.

En ambos bucles, Lê-Quôc es firme con el orden de operaciones. Datadog no parte de "aquí hay IA, ¿qué problema puede resolver?". Parte de un problema que los clientes ya lamentan, normalmente alguna versión de "no quiero hacer esta tarea repetitiva", y a partir de ahí decide si se puede confiar en un agente.

Lección 5: controla el gasto en IA

El coste es la restricción que se sienta junto a la seguridad, y mantener a raya el precio de la puesta en producción de grandes modelos de lenguaje está convirtiéndose en una disciplina propia. La respuesta de Lê-Quôc en DASH es el Agent Console de Datadog.

Si preguntas a una desarrolladora qué modelo necesita, a menudo dirá el más potente (y caro). A veces es la elección correcta, pero mucho trabajo es rutinario y un modelo más barato y rápido lo resuelve igual de bien. Distinguir entre ambos exige leer las trayectorias de los agentes de la organización: qué herramientas llaman y con qué frecuencia tienen éxito, hasta que aparecen patrones.

Esos patrones se convierten en heurísticos más que en reglas: un modelo puntero como el último Claude Opus o los modelos GPT para planificar; algo económico como Claude Haiku para generar pruebas.

Tarea Gama de modelo Por qué
Planificación y razonamiento complejo Puntera (p. ej., Claude Opus, GPT) El mejor razonamiento compensa su coste aquí
Código rutinario y boilerplate Gama media (p. ej., Claude Sonnet, GPT-mini) Suficientemente capaz y mucho más barato para uso frecuente
Generación de tests y transformaciones simples Barata y rápida (p. ej., Claude Haiku, GPT-nano) Ganan la velocidad y el precio manteniendo la calidad

El principio de fondo trata sobre quién toma la decisión. Si agregas el coste a un único número, obtienes lo que Lê-Quôc llama "muy poca accionabilidad": o todo el mundo deja de gastar, lo que mata trabajo útil, o todo el mundo sigue gastando, lo que el negocio no sostiene. Prefiere poner los datos delante de desarrolladores y SRE que eligen los modelos.

Lección 6: aprende a aprender

Cuando le preguntan qué deberían estudiar quienes empiezan en ingeniería, Lê-Quôc da una respuesta que suena clásica pero no lo es.

Tienes que aprender a aprender.

Alexis Lê-QuôcCTO at Datadog

Los modelos son los tutores más pacientes jamás inventados, capaces de explicarte cualquier cosa al ritmo que necesites, un nivel de acceso que antes estaba reservado a la realeza con profesores particulares. Pero un tutor solo es útil si lo interrogas. La habilidad es saber qué preguntar y cómo comprobar la respuesta.

Recomienda entender los ordenadores capa a capa en vez de tratarlos como magia. Toma un planificador, un balanceador de carga, un sandbox, y pídele a un modelo que te explique cómo funciona, luego sigue profundizando:

  • ¿Qué significa este término?
  • ¿Cómo se mide?
  • ¿Cuál es la matemática detrás?
  • ¿Cómo sabes que funciona bien?

Estudiar los clásicos así es lento a propósito. Lo compara con aprender un instrumento: puedes escuchar música todo el día, pero para tocar el piano tienes que poner las manos en las teclas.

Con el código escrito por IA pasa lo mismo. El vibe coding está bien, dice, siempre que luego vuelvas y preguntes por qué funcionó: por qué se construyó así, si hay enfoques mejores, en qué se inspiró. El objetivo no es escribir menos código con IA, sino entender el código del que ahora produces mucho más.

Reflexión final

El mensaje central de Lê-Quôc es que el bucle no ha cambiado, pero el ritmo sí. Lo diferente es que ninguna persona puede vigilar lo bastante de cerca a la velocidad a la que ahora se mueve la IA, así que la vigilancia, y una parte creciente de la construcción, pasa a agentes que no se cansan ni se inquietan.

Defiende tratar la observabilidad como un plano de control, no como un conjunto de gráficos. Si los agentes van a escribir, probar, desplegar y operar software, necesitan el mismo anclaje en datos reales de producción en el que confían las buenas ingenieras, además de una persona para las decisiones de juicio y el botón de parada. Datadog está posicionando la observabilidad como la capa que hace segura esa apuesta.

La habilidad que esta visión exige a las personas ingenieras es clara: leer los sistemas por cómo se comportan en producción, no solo por su código fuente. Si quieres construir ese hábito, nuestro itinerario de habilidades Machine Learning in Production es un buen lugar para empezar.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Editor de ciencia de datos en DataCamp | Me encanta hacer previsiones y crear con API.

Temas

Los mejores cursos de ingeniería de IA

programa

Associate AI Engineer para desarrolladores

26 h
Aprende a integrar IA en aplicaciones de software usando APIs y bibliotecas de código abierto. ¡Empieza hoy tu camino para convertirte en AI Engineer!
Ver detallesRight Arrow
Iniciar curso
Ver másRight Arrow
Relacionado

blog

Cómo aprender IA desde cero en 2026: Guía completa de los expertos

Descubre todo lo que necesitas saber sobre el aprendizaje de la IA en 2026, desde consejos para empezar, recursos útiles e información de expertos del sector.
Adel Nehme's photo

Adel Nehme

15 min

Top MLOps Tools

blog

25 Herramientas MLOps que debes conocer en 2025

Descubre las mejores herramientas MLOps para el seguimiento de experimentos, la gestión de metadatos de modelos, la orquestación de flujos de trabajo, el versionado de datos y canalizaciones, el despliegue y servicio de modelos, y la supervisión de modelos en producción.
Abid Ali Awan's photo

Abid Ali Awan

15 min

Tutorial

IA explicable - Comprender y confiar en los modelos de aprendizaje automático

Sumérjase en la IA explicable (XAI) y aprenda a generar confianza en los sistemas de IA con LIME y SHAP para la interpretabilidad de modelos. Comprender la importancia de la transparencia y la equidad en las decisiones basadas en la IA.
Zoumana Keita 's photo

Zoumana Keita

Tutorial

Guía para principiantes de LlaMA-Factory WebUI: Ajuste de los LLM

Aprende a afinar los LLM en conjuntos de datos personalizados, evaluar el rendimiento y exportar y servir modelos sin problemas utilizando el marco de trabajo de bajo/ningún código de LLaMA-Factory.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

Tutorial de DeepChecks: Automatizar las pruebas de aprendizaje automático

Aprende a realizar la validación de datos y modelos para garantizar un sólido rendimiento del aprendizaje automático utilizando nuestra guía paso a paso para automatizar las pruebas con DeepChecks.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

Tutorial sobre cómo crear aplicaciones LLM con LangChain

Explore el potencial sin explotar de los grandes modelos lingüísticos con LangChain, un marco Python de código abierto para crear aplicaciones avanzadas de IA.
Moez Ali's photo

Moez Ali

Ver másVer más