LLM-observability: 6 lessen van de CTO van Datadog

In aanloop naar DASH 2026 legt Datadog-medeoprichter Alexis Lê-Quôc uit hoe AI code review heeft veranderd, waarom productie de echte test is en waar agents het moeten overnemen.

Bijgewerkt 9 jun 2026 · 9 min lezen

Verkennen met AI

Openen in ChatGPT Openen in Claude Openen in Perplexity

Engineeringteams leveren meer code op dan ze kunnen lezen. AI-assistenten schrijven inmiddels een groot deel daarvan, sneller dan welke reviewer dan ook het regel voor regel kan bijbenen. Die verschuiving vormt de achtergrond van Datadog's DASH-conferentie deze week in New York, waar medeoprichter en CTO Alexis Lê-Quôc een sessie geeft met de titel "The New Shape of Engineering."

Zijn punt is eenvoudig. De manier waarop teams software runnen is niet veranderd: je levert een wijziging, rolt die uit en kijkt wat er gebeurt. Maar het volume en tempo zijn wél veranderd, en dat verandert wat het veilig houdt.

In dit artikel vat ik zijn gedachtegoed samen in zes kernlessen, van veranderingen in het reviewproces tot productie als ultieme test en wat je daarvan moet leren.

Als LLM-observability nieuw voor je is, raad ik aan om te beginnen met onze gidsen over aan de slag gaan met MLOps en LLM-evaluatie.

In het kort

De rode draad bij Lê-Quôc is dat observability de controllaag wordt voor software die AI schrijft, test en uitrolt — zowel voor de mensen die haar beheren als voor de agents zelf.

De zes lessen, in het kort:

Review verschuift weg van de code zelf. Er is te veel AI-geschreven code om regel voor regel te lezen, dus de echte check zit in de tests, specs en bewijzen die je vooraf ontwerpt — inclusief bescherming tegen agents die die tests gamen.
Productie is de enige test die telt. Een groene CI-run bewijst weinig zodra echte gebruikers aannames raken die je vooraf niet kon toetsen, en de output van een model is nooit volledig zeker, dus je monitort live en houdt een stopknop achter de hand.
Laat agents het monnikenwerk doen. Geef ze het dashboardkijken en hypothesen najagen dat mensen uitput, en bewaar mensen voor de beslissingen met veel beoordelingsvermogen.
Splits het werk in twee lussen: Gebruik een ontwikkellus (schrijven, shippen, verifiëren, fixen) en een operations-en-security-lus (detecteren, onderzoeken, oplossen).
Houd AI-kosten in toom. Kies per taak het juiste model op basis van agenttrajectdata, en laat die keuze bij de developers en SRE's die hem maken.
Leer hoe je leert. Modellen zijn geduldige tutors, maar de vaardigheid is ze ondervragen: systemen laag voor laag begrijpen en vragen waarom de code die ze schreven daadwerkelijk werkte.

Les 1: AI brak de oude manier van code reviewen

Beginnen we bij de druk die alles in gang zet: er is meer code dan wie dan ook kan lezen.

Lê-Quôc is helder: het oude model, een mens die een pull request regel voor regel leest, overleeft AI-ondersteunde ontwikkeling niet. De zorg die hij overal in de industrie hoort, is dat reviews onmogelijk worden, omdat er te veel gebeurt om via PR's bij te houden.

Zijn reactie is niet vragen om sneller te lezen, maar de review naar ergens anders verplaatsen.

De review is niet langer de regel code; het is er te veel, je kunt het niet bijbenen. Het gaat om welke tests we vooraf ontwerpen, en de agent vertellen dat hij er niet mee moet valsspelen.
Alexis Lê-Quôc, CTO at Datadog

Die laatste clausule is makkelijk te missen. Zodra je de ene agent laat plannen, een andere laat schrijven en weer een andere laat testen, moet je er ook voor zorgen dat de schrijver de geautomatiseerde tests niet gaat gamen in plaats van het probleem op te lossen.

Hij gaat verder dan tests. Datadog voegt nu semi-formele en formele bewijzen toe dat een spec doet wat hij moet doen — iets wat eerder te belastend was om op grote schaal te proberen, voordat agents het zware werk overnamen. Het werkt het best bij backend- en coördinatiesystemen, waar het gedrag wiskundig genoeg is om er precies over te redeneren.

Les 2: Productie is de enige test die telt

Alle tests halen in CI is noodzakelijk en lang niet voldoende. De problemen die ertoe doen, gebeuren later.

De plek waar het echt telt is productie.
Alexis Lê-Quôc, CTO at Datadog

Elke release rust op aannames die je vooraf niet volledig kunt controleren, over de vorm van de data en hoe gebruikers zich gedragen. Blootgesteld aan genoeg echt verkeer stoppen zeldzame gevallen met zeldzaam zijn; ze worden de alledaagse vertragingen en fouten van data- en modeldrift.

LLM's maken dit lastiger: bij gewone code kun je tenminste elke tak beredeneren, maar niemand kan mechanistisch verklaren waarom een model geeft wat het geeft. Dezelfde input levert dus nooit gegarandeerd dezelfde output op. Af en toe een vreemd resultaat valt niet weg te engineeren.

Dus stop je met proberen een systeem vóór verzending correct te bewijzen. In plaats daarvan

Schrijf je evaluaties voor het gewenste gedrag
Monitor je in productie
Houd je een stopcontrole achter de hand voor een rollout die misgaat.

De vraag is niet langer of het geslaagd is, maar of een probleem eenmalig is of het begin van een trend.

Dat live signaal is niet alleen een dashboard voor mensen. Ingebouwd in het deploysysteem laat het een agent een change uitrollen zoals een zorgvuldige engineer dat zou doen: naar één procent van de gebruikers, dan vijf, en op basis van echte data beoordelen of de wijziging doet wat de bedoeling was.

Les 3: Laat agents het monnikenwerk doen

Lê-Quôc's pleidooi voor agents is niet dat ze engineers vervangen, maar dat ze de onderdelen van het werk overnemen die mensen afmatten.

Een incident troubleshooten betekent hypothesen op een symptoom afvuren, en bij lange incidenten blijkt vaak een vergezochte hypothese de juiste. Datadog's Bits AI-agent test ze allemaal parallel, vóór de engineer, terwijl de persoon het bijstuurt richting het onderbuikgevoel dat een dashboard nooit zou laten zien.

Het diepere punt is vermoeidheid. Een on-call rollout is plotselinge paraatheid gevolgd door urenlang niets, herhaald tot je beoordelingsvermogen rafelt.

Je staat in opperste staat van paraatheid, en daarna kijk je naar verf die droogt.
Alexis Lê-Quôc, CTO at Datadog

Een agent heeft daar geen moeite mee, en wordt niet slechter na vier uur naar cijfers staren. Stress en vermoeidheid tasten menselijk presteren aan — daarom rouleren teams mensen überhaupt door on-call.

Laat het eindeloze turen over aan een machine, en mensen komen uitgerust terug voor de beslissingen die hen nodig hebben. Hetzelfde geldt voor security-triage, waar analisten opgebrand raken door valse positieven van echte dreigingen te scheiden.

Les 4: Splits het werk in twee lussen

Lê-Quôc organiseert Datadog's agentwerk rond twee lussen.

De ontwikkellus

De meeste engineers zullen de eerste lus herkennen:

Code schrijven
Shippen
Kijken of het werkt
Fixen
Herhalen

Datadog's invalshoek is dat een probleem dat in code ontstaat, meestal ook in code wordt opgelost. Dus probeert het platform je die fix aan te reiken, gevoed door wat het weet over de applicatie: eigenaarschap, recente wijzigingen en de fouten die zijn opgetreden.

Hij noemt databasequery-optimalisatie als voorbeeld. Elk model kan een trage query herschrijven; het lastigere deel is bewijzen dat de herschrijving sneller en veilig is vóór productie. Daarom test Datadog eerst tegen een realistische kopie van de productiedata en levert het een pull request met het bewijs erbij.

De operations- en security-lus

De andere lus draait parallel, door dezelfde mensen of een ander team:

Detecteren
Onderzoeken
Oplossen
Herhalen

Hier triaget Datadog's AI Guard security-events en blokkeert het aanvallen sneller dan een analist die alles met de hand doorloopt. Agents kunnen ook routinematige operationele klussen afhandelen die engineers dagelijks doen zonder veel enthousiasme, zoals dat ene Kubernetes-podje resizen.

Over beide lussen heen is Lê-Quôc duidelijk over de volgorde der dingen. Datadog begint niet bij "hier is AI, welk probleem kunnen we oplossen?" Het begint bij een probleem waar klanten al over klagen — meestal een variant op "ik wil dit repetitieve werk niet doen" — en werkt terug naar de vraag of een agent ermee kan worden vertrouwd.

Les 5: Houd AI-uitgaven in toom

Kosten zijn de beperking naast veiligheid, en de prijs van het operationaliseren van large language models in toom houden wordt een discipline op zich. Lê-Quôc's antwoord op DASH is Datadog's Agent Console.

Vraag een developer welk model hij nodig heeft, en vaak noemen ze het krachtigste (en duurste). Soms is dat de juiste keuze, maar veel werk is boilerplate die een goedkoper, sneller model net zo goed aankan. Het onderscheid maken betekent de trajecten van de agents in een organisatie lezen: welke tools ze aanroepen en hoe vaak ze slagen — tot er patronen zichtbaar worden.

Die patronen worden heuristieken in plaats van regels: een frontiermodel zoals de nieuwste Claude Opus of GPT-modellen voor plannen, iets goedkoops zoals Claude Haiku voor het genereren van tests.

Taak	Modelniveau	Waarom
Plannen en moeilijke redenering	Frontier (bijv. Claude Opus, GPT)	De sterkste redenering is hier de kosten waard
Routinematige, boilerplate code	Middenklasse (bijv. Claude Sonnet, GPT-mini)	Voldoende capabel en veel goedkoper om vaak te draaien
Tests genereren en simpele transformaties	Goedkoop, snel (bijv. Claude Haiku, GPT-nano)	Snelheid en prijs winnen zolang de kwaliteit blijft

Het onderliggende principe gaat over eigenaarschap van de beslissing. Kosten optellen tot één getal levert wat Lê-Quôc "heel lage uitvoerbaarheid" noemt: of iedereen stopt met uitgeven — wat nuttig werk doodt — of iedereen blijft uitgeven — wat het bedrijf niet volhoudt. Hij zet de data liever voor de developers en SRE's die de modellen kiezen.

Les 6: Leer hoe je leert

Gevraagd wat nieuwe engineers zouden moeten bestuderen, geeft Lê-Quôc een antwoord dat oud klinkt en het niet is.

Je moet leren hoe je leert.
Alexis Lê-Quôc, CTO at Datadog

Modellen zijn de meest geduldige tutors ooit, in staat om alles in elk tempo uit te leggen — een niveau van toegang dat vroeger was voorbehouden aan royalty met privéleraren. Maar een tutor is alleen nuttig als je hem ondervraagt. De vaardigheid is weten wat je moet vragen en hoe je het antwoord checkt.

Hij raadt aan computers laag voor laag te begrijpen in plaats van ze als magie te zien. Neem een scheduler, een load balancer, een sandbox en vraag een model om uit te leggen hoe die werkt — en blijf doorvragen:

Wat betekent deze term?
Hoe meet je dit?
Wat is de wiskunde erachter?
Hoe weet je dat het goed werkt?

De klassiekers op deze manier bestuderen is expres traag. Hij vergelijkt het met een instrument leren; je kunt de hele dag naar muziek luisteren, maar om piano te spelen moet je je handen op de toetsen leggen.

Hetzelfde geldt voor door AI geschreven code. Vibe coding is prima, zegt hij, zolang je terugkomt en vraagt waarom het werkte: waarom is het zo gebouwd, zijn er betere aanpakken, waar is het op gemodelleerd. Het doel is niet minder code schrijven met AI, maar de code begrijpen waarvan je nu zoveel meer produceert.

Tot slot

Lê-Quôc's kernboodschap is dat de lus niet is veranderd, maar het tempo wel. Wat anders is: geen mens kan nog scherp genoeg meekijken op de snelheid waarmee AI nu beweegt. Dus het meekijken — en een groeiend deel van het bouwen — verschuift naar agents die niet moe worden en niet in paniek raken.

Hij pleit ervoor om observability te zien als een control plane in plaats van een set grafieken. Als agents software gaan schrijven, testen, shippen en runnen, hebben ze dezelfde verankering in echte productiedata nodig waar goede engineers op vertrouwen — plus een mens die de beoordelingsknoppen en de stopknop vasthoudt. Datadog positioneert observability als de laag die die ruil veilig maakt.

De vaardigheid die dit kader van engineers vraagt is helder: lees systemen via hun gedrag in productie, niet alleen via de broncode. Wil je die gewoonte opbouwen, dan is ons Machine Learning in Production-skill track een goed beginpunt.

Author

Tom Farnschläder

Onderwerpen

AI Agents

AI voor business

Topcursussen AI-engineering

Leerpad

Associate AI Engineer voor ontwikkelaars

26 Hr

Leer hoe je AI in softwareapplicaties kunt integreren met behulp van API's en open-sourcebibliotheken. Begin vandaag nog aan je reis om AI-ingenieur te worden!

Bekijk details

Begin Met De Cursus

Leerpad

AI voor softwareontwikkeling

7 Hr

Schrijf code en bouw sneller dan ooit softwareapplicaties met de nieuwste AI-ontwikkelaarstools, zoals GitHub Copilot, Windsurf en Replit.

Bekijk details

Begin Met De Cursus

Cursus

LLMOps-concepten

1 Hr

16.7K

Leer alles over LLMOps, van idee tot implementatie, krijg inzicht in de levenscyclus en uitdagingen, en ontdek hoe je deze concepten kunt toepassen op je apps.

Bekijk details

Begin Met De Cursus

Meer zien

Gerelateerd