Pular para o conteúdo principal

Observabilidade de LLM: 6 lições do CTO da Datadog

Antes da DASH 2026, o cofundador da Datadog, Alexis Lê-Quôc, explica como a IA mudou o code review, por que produção é o teste que vale e quando os agentes devem assumir.
Atualizado 9 de jun. de 2026  · 9 min lido

Times de engenharia estão entregando mais código do que conseguem ler. Assistentes de IA já escrevem uma grande parte dele, mais rápido do que qualquer revisor consegue acompanhar linha a linha. Essa mudança é o pano de fundo da conferência DASH da Datadog em Nova York nesta semana, onde o cofundador e CTO Alexis Lê-Quôc conduz a sessão "The New Shape of Engineering".

O argumento dele é direto. A forma de operar software não mudou: você envia uma alteração, faz o rollout e observa o que acontece. O que mudou foi o volume e o ritmo, e isso muda o que garante segurança.

Neste artigo, vou resumir o raciocínio dele em seis lições centrais: das mudanças no processo de review ao uso de produção como teste definitivo e o que você deve aprender com isso.

Se você é novo no tema de observabilidade de LLM, recomendo ler nossos guias de primeiros passos em MLOps e avaliação de LLMs como ponto de partida.

Em poucas palavras

A linha mestra de Lê-Quôc é que a observabilidade vira a camada de controle do software que a IA escreve, testa e entrega, tanto para as pessoas que o operam quanto para os próprios agentes.

As seis lições, em resumo:

  • O review sai de dentro do código. Há código demais gerado por IA para ler linha a linha, então a checagem real está nos testes, especificações e provas que você define antes, inclusive protegendo contra agentes que "joguem" com esses testes.
  • Produção é o único teste que vale. Um CI todo verde prova pouco quando usuários reais confrontam pressupostos impossíveis de validar antes, e a saída de um modelo nunca é totalmente certa; por isso, monitore ao vivo e mantenha um botão de parada.
  • Deixe os agentes ficarem com o trabalho braçal. Entregue a eles a vigia de dashboards e a caça a hipóteses que esgotam humanos, e mantenha as pessoas nas decisões que exigem julgamento.
  • Divida o trabalho em dois ciclos: Use um ciclo de desenvolvimento (escrever, enviar, verificar, corrigir) e um ciclo de operações e segurança (detectar, investigar, resolver).
  • Mantenha os gastos com IA sob controle. Dimensione qual modelo faz qual tarefa usando dados de trajetória dos agentes e deixe a decisão nas mãos de developers e SREs.
  • Aprenda a aprender. Modelos são tutores pacientes, mas a habilidade está em interrogá-los: entender sistemas camada por camada e perguntar por que o código que eles escreveram realmente funcionou.

Melhore as habilidades de IA da sua equipe

Transforme seus negócios capacitando sua equipe com habilidades avançadas de IA por meio do DataCamp for Business. Obtenha melhores insights e eficiência.

Solicite uma demonstração hoje mesmo!
business-homepage-hero.png

Lição 1: a IA quebrou o jeito antigo de revisar código

Comecemos pela pressão que dispara todo o resto: há mais código do que qualquer pessoa consegue ler.

Lê-Quôc é franco ao dizer que o modelo antigo, um humano lendo um pull request linha a linha, não resiste ao desenvolvimento assistido por IA. A ansiedade que ele ouve pelo setor é que os reviews se tornaram inviáveis, porque acontece coisa demais para acompanhar lendo PRs.

A resposta dele não é pedir para as pessoas lerem mais rápido, e sim mover o review para outro lugar.

O review não é mais a linha de código; é código demais, não dá para acompanhar. Trata-se dos testes que projetamos antes e de dizer ao agente para não trapacear neles.

Alexis Lê-QuôcCTO at Datadog

Esse último ponto passa fácil batido. Quando você orquestra um agente para planejar, outro para escrever e outro para testar, você também precisa impedir que o escritor manipule os testes automatizados em vez de resolver o problema.

Ele vai além dos testes. A Datadog agora adiciona provas semi-formais e formais de que uma spec faz o que deveria, algo muito trabalhoso para tentar amplamente antes de os agentes assumirem a parte pesada. Funciona melhor em sistemas de backend e coordenação, onde o comportamento é matemático o suficiente para raciocinar com precisão.

Lição 2: produção é o único teste que conta

Passar em todos os testes no CI é necessário e está longe de ser suficiente. As falhas que importam acontecem depois.

O lugar onde realmente importa é a produção.

Alexis Lê-QuôcCTO at Datadog

Cada release se apoia em pressupostos impossíveis de checar totalmente antes, sobre o formato dos dados e o comportamento dos usuários. Com tráfego real suficiente, os casos raros deixam de ser raros; viram as lentidões e erros do dia a dia causados por drift de dados e de modelos.

LLMs pioram isso: com código tradicional, ao menos dá para raciocinar sobre cada branch, mas ninguém explica mecanicamente por que um modelo retorna o que retorna, então a mesma entrada nunca garante a mesma saída. Resultados estranhos ocasionais não somem com engenharia.

Então, você para de tentar provar que o sistema está correto antes de enviar. Em vez disso, você

A pergunta deixa de ser se passou, e vira se o problema é um ponto fora da curva ou o início de uma tendência.

Esse sinal ao vivo não é só um dashboard para humanos. Integrado ao sistema de deploy, permite que um agente faça o rollout como um engenheiro cuidadoso: para 1% dos usuários, depois 5%, julgando com dados reais se a mudança está cumprindo o objetivo.

Lição 3: deixe os agentes ficarem com o trabalho braçal

O argumento de Lê-Quôc para agentes não é que eles substituem engenheiros, mas que assumem as partes do trabalho que desgastam as pessoas.

Resolver um incidente significa testar hipóteses contra um sintoma e, em incidentes longos, muitas vezes a hipótese improvável é a verdadeira. O agente Bits AI da Datadog verifica todas em paralelo, à frente do engenheiro, enquanto a pessoa direciona pela intuição que um dashboard não mostraria.

O ponto mais fundo é a fadiga. Um rollout em on-call é um pico de alerta seguido de horas de nada, repetido até o julgamento ficar comprometido.

Você fica em modo de alerta máximo e, depois, é como ver a tinta secar.

Alexis Lê-QuôcCTO at Datadog

Um agente não se incomoda e não piora depois de quatro horas encarando números. Estresse e fadiga degradam o desempenho humano, por isso os times fazem rodízio no on-call.

Entregue a vigia incansável à máquina e as pessoas voltam descansadas para as decisões que precisam delas. A mesma lógica vale para triagem de segurança, em que analistas se esgotam separando falsos positivos de ameaças reais.

Lição 4: divida o trabalho em dois ciclos

Lê-Quôc organiza o trabalho com agentes na Datadog em dois ciclos.

image1.png

O ciclo de desenvolvimento

A maioria dos engenheiros vai reconhecer o primeiro ciclo:

  1. Escrever código
  2. Enviar
  3. Ver se funcionou
  4. Corrigir
  5. Repetir

A abordagem da Datadog é que um problema que nasce no código normalmente tem sua correção no código, então a plataforma tenta te entregar essa correção, informada pelo que sabe sobre a aplicação: quem é dono, mudanças recentes e erros disparados.

Ele cita otimização de queries como exemplo. Qualquer modelo reescreve uma query lenta; o mais difícil é provar que a reescrita é mais rápida e segura antes de chegar à produção. Por isso, a Datadog testa contra uma cópia realista dos dados de produção e entrega um pull request com as evidências anexas.

O ciclo de operações e segurança

O outro ciclo roda em paralelo, pelo mesmo time ou por outro:

  1. Detectar
  2. Investigar
  3. Corrigir
  4. Repetir

Aqui, o AI Guard da Datadog faz a triagem de eventos de segurança e bloqueia ataques mais rápido do que um analista faria manualmente. Agentes também cuidam de tarefas operacionais rotineiras que engenheiros fazem diariamente sem muito entusiasmo, como redimensionar aquele único pod do Kubernetes.

Nos dois ciclos, Lê-Quôc é firme quanto à ordem das coisas. A Datadog não parte de "aqui está a IA, qual problema ela resolve?". Parte de um problema que os clientes já reclamam, geralmente alguma variação de "não quero fazer essa tarefa repetitiva", e só então avalia se um agente pode assumir com confiança.

Lição 5: mantenha os gastos com IA sob controle

Custo é a restrição ao lado da segurança, e manter o preço de operacionalizar grandes modelos de linguagem sob controle virou uma disciplina. A resposta de Lê-Quôc na DASH é o Agent Console da Datadog.

Pergunte a um developer qual modelo precisa e, muitas vezes, ele vai citar o mais poderoso (e caro). Às vezes é a escolha certa, mas muito trabalho é boilerplate que um modelo mais barato e rápido resolve tão bem quanto. Distinguir um do outro exige ler as trajetórias dos agentes da organização, quais ferramentas chamam e com que frequência têm sucesso, até surgirem padrões.

Esses padrões viram heurísticas, não regras: um modelo de fronteira como o último Claude Opus ou modelos GPT para planejamento, algo barato como o Claude Haiku para gerar testes.

Tarefa Nível de modelo Por quê
Planejamento e raciocínio difícil Fronteira (ex.: Claude Opus, GPT) O raciocínio mais forte se paga aqui
Código rotineiro, boilerplate Intermediário (ex.: Claude Sonnet, GPT-mini) Capaz o suficiente e bem mais barato para rodar com frequência
Geração de testes e transforms simples Barato e rápido (ex.: Claude Haiku, GPT-nano) Velocidade e preço vencem mantendo a qualidade

O princípio por trás é sobre quem decide. Se você agrega custo em um número único, cai no que Lê-Quôc chama de "baixíssima acionabilidade": ou todo mundo para de gastar, matando trabalho útil, ou todo mundo segue gastando, o que o negócio não sustenta. Melhor colocar os dados diante de developers e SREs que escolhem os modelos.

Lição 6: aprenda a aprender

Quando perguntam o que engenheiros iniciantes devem estudar, Lê-Quôc dá uma resposta que soa antiga, mas não é.

Você precisa aprender a aprender.

Alexis Lê-QuôcCTO at Datadog

Modelos são os tutores mais pacientes já inventados, capazes de explicar qualquer coisa no ritmo que você precisar — um nível de acesso que já foi privilégio de reis com professores particulares. Mas um tutor só é útil se você o interroga. A habilidade é saber o que perguntar e como checar a resposta.

Ele recomenda entender computadores camada por camada, em vez de tratá-los como mágica. Pegue um scheduler, um balanceador de carga, um sandbox, e peça para um modelo explicar como funciona; depois, continue insistindo:

  • O que este termo significa?
  • Como você mede isso?
  • Qual é a matemática por trás disso?
  • Como você sabe que está funcionando bem?

Estudar os clássicos desse jeito é lento de propósito. Ele compara a aprender um instrumento: você pode ouvir música o dia todo, mas, para tocar piano, precisa colocar as mãos nas teclas.

O mesmo vale para código escrito por IA. Vibe coding tudo bem, ele diz, desde que você volte e pergunte por que funcionou: por que foi feito assim, se existem abordagens melhores, em que foi inspirado. O objetivo não é escrever menos código com IA, e sim entender o código que agora você produz em muito maior volume.

Considerações finais

A mensagem central de Lê-Quôc é que o ciclo não mudou, mas o ritmo sim. O que muda é que nenhum humano consegue observar de perto na velocidade em que a IA agora opera, então a observação — e uma parcela crescente da construção — vai para agentes que não cansam e não entram em pânico.

Ele defende tratar observabilidade como plano de controle, não um conjunto de gráficos. Se agentes vão escrever, testar, entregar e operar software, precisam do mesmo lastro em dados reais de produção de que bons engenheiros dependem, mais uma pessoa com o julgamento e o botão de parada. A Datadog está posicionando a observabilidade como a camada que torna essa troca segura.

A habilidade que essa visão pede dos engenheiros é clara: ler sistemas pelo comportamento em produção, não só pelo código-fonte. Se você quer criar esse hábito, nossa trilha de habilidades Machine Learning in Production é um bom ponto de partida.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Editor de Ciência de Dados @ DataCamp | Fazer previsões e construir com APIs é a minha paixão.

Tópicos

Os melhores cursos de engenharia de IA

Programa

Associate AI Engineer para desenvolvedores

26 h
Aprenda a integrar IA em aplicações de software usando APIs e bibliotecas de código aberto. Comece hoje sua jornada para se tornar um AI Engineer!
Ver detalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Os 9 melhores LLMs de código aberto para 2026 e seus usos

Conheça alguns dos LLMs de código aberto mais poderosos e por que eles serão essenciais para o futuro da IA generativa.
Abid Ali Awan's photo

Abid Ali Awan

13 min

blog

Tipos de agentes de IA: Compreensão de suas funções, estruturas e aplicações

Saiba mais sobre os principais tipos de agentes de IA, como eles interagem com os ambientes e como são usados em todos os setores. Entenda o reflexo simples, baseado em modelo, baseado em meta, baseado em utilidade, agentes de aprendizagem e muito mais.

Tutorial

IA explicável - Entendendo e confiando nos modelos de aprendizado de máquina

Mergulhe na IA explicável (XAI) e saiba como criar confiança em sistemas de IA com LIME e SHAP para interpretabilidade de modelos. Entenda a importância da transparência e da justiça nas decisões baseadas em IA.
Zoumana Keita 's photo

Zoumana Keita

Tutorial

Tutorial do DeepChecks: Automatizando os testes de machine learning

Saiba como realizar a validação de dados e modelos para garantir um desempenho robusto de machine learning usando nosso guia passo a passo para automatizar testes com o DeepChecks.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

Como criar aplicativos LLM com o tutorial LangChain

Explore o potencial inexplorado dos modelos de linguagem grandes com o LangChain, uma estrutura Python de código aberto para criar aplicativos avançados de IA.
Moez Ali's photo

Moez Ali

Tutorial

Guia para iniciantes do LlaMA-Factory WebUI: Ajuste fino dos LLMs

Saiba como fazer o ajuste fino dos LLMs em conjuntos de dados personalizados, avaliar o desempenho e exportar e servir modelos com facilidade usando a estrutura com pouco ou nenhum código do LLaMA-Factory.
Abid Ali Awan's photo

Abid Ali Awan

Ver maisVer mais