Leerpad
Engineeringteams leveren meer code op dan ze kunnen lezen. AI-assistenten schrijven inmiddels een groot deel daarvan, sneller dan welke reviewer dan ook het regel voor regel kan bijbenen. Die verschuiving vormt de achtergrond van Datadog's DASH-conferentie deze week in New York, waar medeoprichter en CTO Alexis Lê-Quôc een sessie geeft met de titel "The New Shape of Engineering."
Zijn punt is eenvoudig. De manier waarop teams software runnen is niet veranderd: je levert een wijziging, rolt die uit en kijkt wat er gebeurt. Maar het volume en tempo zijn wél veranderd, en dat verandert wat het veilig houdt.
In dit artikel vat ik zijn gedachtegoed samen in zes kernlessen, van veranderingen in het reviewproces tot productie als ultieme test en wat je daarvan moet leren.
Als LLM-observability nieuw voor je is, raad ik aan om te beginnen met onze gidsen over aan de slag gaan met MLOps en LLM-evaluatie.
In het kort
De rode draad bij Lê-Quôc is dat observability de controllaag wordt voor software die AI schrijft, test en uitrolt — zowel voor de mensen die haar beheren als voor de agents zelf.
De zes lessen, in het kort:
- Review verschuift weg van de code zelf. Er is te veel AI-geschreven code om regel voor regel te lezen, dus de echte check zit in de tests, specs en bewijzen die je vooraf ontwerpt — inclusief bescherming tegen agents die die tests gamen.
- Productie is de enige test die telt. Een groene CI-run bewijst weinig zodra echte gebruikers aannames raken die je vooraf niet kon toetsen, en de output van een model is nooit volledig zeker, dus je monitort live en houdt een stopknop achter de hand.
- Laat agents het monnikenwerk doen. Geef ze het dashboardkijken en hypothesen najagen dat mensen uitput, en bewaar mensen voor de beslissingen met veel beoordelingsvermogen.
- Splits het werk in twee lussen: Gebruik een ontwikkellus (schrijven, shippen, verifiëren, fixen) en een operations-en-security-lus (detecteren, onderzoeken, oplossen).
- Houd AI-kosten in toom. Kies per taak het juiste model op basis van agenttrajectdata, en laat die keuze bij de developers en SRE's die hem maken.
- Leer hoe je leert. Modellen zijn geduldige tutors, maar de vaardigheid is ze ondervragen: systemen laag voor laag begrijpen en vragen waarom de code die ze schreven daadwerkelijk werkte.
Les 1: AI brak de oude manier van code reviewen
Beginnen we bij de druk die alles in gang zet: er is meer code dan wie dan ook kan lezen.
Lê-Quôc is helder: het oude model, een mens die een pull request regel voor regel leest, overleeft AI-ondersteunde ontwikkeling niet. De zorg die hij overal in de industrie hoort, is dat reviews onmogelijk worden, omdat er te veel gebeurt om via PR's bij te houden.
Zijn reactie is niet vragen om sneller te lezen, maar de review naar ergens anders verplaatsen.
De review is niet langer de regel code; het is er te veel, je kunt het niet bijbenen. Het gaat om welke tests we vooraf ontwerpen, en de agent vertellen dat hij er niet mee moet valsspelen.
Alexis Lê-Quôc, CTO at Datadog
Die laatste clausule is makkelijk te missen. Zodra je de ene agent laat plannen, een andere laat schrijven en weer een andere laat testen, moet je er ook voor zorgen dat de schrijver de geautomatiseerde tests niet gaat gamen in plaats van het probleem op te lossen.
Hij gaat verder dan tests. Datadog voegt nu semi-formele en formele bewijzen toe dat een spec doet wat hij moet doen — iets wat eerder te belastend was om op grote schaal te proberen, voordat agents het zware werk overnamen. Het werkt het best bij backend- en coördinatiesystemen, waar het gedrag wiskundig genoeg is om er precies over te redeneren.
Les 2: Productie is de enige test die telt
Alle tests halen in CI is noodzakelijk en lang niet voldoende. De problemen die ertoe doen, gebeuren later.
De plek waar het echt telt is productie.
Alexis Lê-Quôc, CTO at Datadog
Elke release rust op aannames die je vooraf niet volledig kunt controleren, over de vorm van de data en hoe gebruikers zich gedragen. Blootgesteld aan genoeg echt verkeer stoppen zeldzame gevallen met zeldzaam zijn; ze worden de alledaagse vertragingen en fouten van data- en modeldrift.
LLM's maken dit lastiger: bij gewone code kun je tenminste elke tak beredeneren, maar niemand kan mechanistisch verklaren waarom een model geeft wat het geeft. Dezelfde input levert dus nooit gegarandeerd dezelfde output op. Af en toe een vreemd resultaat valt niet weg te engineeren.
Dus stop je met proberen een systeem vóór verzending correct te bewijzen. In plaats daarvan
- Schrijf je evaluaties voor het gewenste gedrag
- Monitor je in productie
- Houd je een stopcontrole achter de hand voor een rollout die misgaat.
De vraag is niet langer of het geslaagd is, maar of een probleem eenmalig is of het begin van een trend.
Dat live signaal is niet alleen een dashboard voor mensen. Ingebouwd in het deploysysteem laat het een agent een change uitrollen zoals een zorgvuldige engineer dat zou doen: naar één procent van de gebruikers, dan vijf, en op basis van echte data beoordelen of de wijziging doet wat de bedoeling was.
Les 3: Laat agents het monnikenwerk doen
Lê-Quôc's pleidooi voor agents is niet dat ze engineers vervangen, maar dat ze de onderdelen van het werk overnemen die mensen afmatten.
Een incident troubleshooten betekent hypothesen op een symptoom afvuren, en bij lange incidenten blijkt vaak een vergezochte hypothese de juiste. Datadog's Bits AI-agent test ze allemaal parallel, vóór de engineer, terwijl de persoon het bijstuurt richting het onderbuikgevoel dat een dashboard nooit zou laten zien.
Het diepere punt is vermoeidheid. Een on-call rollout is plotselinge paraatheid gevolgd door urenlang niets, herhaald tot je beoordelingsvermogen rafelt.
Je staat in opperste staat van paraatheid, en daarna kijk je naar verf die droogt.
Alexis Lê-Quôc, CTO at Datadog
Een agent heeft daar geen moeite mee, en wordt niet slechter na vier uur naar cijfers staren. Stress en vermoeidheid tasten menselijk presteren aan — daarom rouleren teams mensen überhaupt door on-call.
Laat het eindeloze turen over aan een machine, en mensen komen uitgerust terug voor de beslissingen die hen nodig hebben. Hetzelfde geldt voor security-triage, waar analisten opgebrand raken door valse positieven van echte dreigingen te scheiden.
Les 4: Splits het werk in twee lussen
Lê-Quôc organiseert Datadog's agentwerk rond twee lussen.
De ontwikkellus
De meeste engineers zullen de eerste lus herkennen:
- Code schrijven
- Shippen
- Kijken of het werkt
- Fixen
- Herhalen
Datadog's invalshoek is dat een probleem dat in code ontstaat, meestal ook in code wordt opgelost. Dus probeert het platform je die fix aan te reiken, gevoed door wat het weet over de applicatie: eigenaarschap, recente wijzigingen en de fouten die zijn opgetreden.
Hij noemt databasequery-optimalisatie als voorbeeld. Elk model kan een trage query herschrijven; het lastigere deel is bewijzen dat de herschrijving sneller en veilig is vóór productie. Daarom test Datadog eerst tegen een realistische kopie van de productiedata en levert het een pull request met het bewijs erbij.
De operations- en security-lus
De andere lus draait parallel, door dezelfde mensen of een ander team:
- Detecteren
- Onderzoeken
- Oplossen
- Herhalen
Hier triaget Datadog's AI Guard security-events en blokkeert het aanvallen sneller dan een analist die alles met de hand doorloopt. Agents kunnen ook routinematige operationele klussen afhandelen die engineers dagelijks doen zonder veel enthousiasme, zoals dat ene Kubernetes-podje resizen.
Over beide lussen heen is Lê-Quôc duidelijk over de volgorde der dingen. Datadog begint niet bij "hier is AI, welk probleem kunnen we oplossen?" Het begint bij een probleem waar klanten al over klagen — meestal een variant op "ik wil dit repetitieve werk niet doen" — en werkt terug naar de vraag of een agent ermee kan worden vertrouwd.
Les 5: Houd AI-uitgaven in toom
Kosten zijn de beperking naast veiligheid, en de prijs van het operationaliseren van large language models in toom houden wordt een discipline op zich. Lê-Quôc's antwoord op DASH is Datadog's Agent Console.
Vraag een developer welk model hij nodig heeft, en vaak noemen ze het krachtigste (en duurste). Soms is dat de juiste keuze, maar veel werk is boilerplate die een goedkoper, sneller model net zo goed aankan. Het onderscheid maken betekent de trajecten van de agents in een organisatie lezen: welke tools ze aanroepen en hoe vaak ze slagen — tot er patronen zichtbaar worden.
Die patronen worden heuristieken in plaats van regels: een frontiermodel zoals de nieuwste Claude Opus of GPT-modellen voor plannen, iets goedkoops zoals Claude Haiku voor het genereren van tests.
| Taak | Modelniveau | Waarom |
|---|---|---|
| Plannen en moeilijke redenering | Frontier (bijv. Claude Opus, GPT) | De sterkste redenering is hier de kosten waard |
| Routinematige, boilerplate code | Middenklasse (bijv. Claude Sonnet, GPT-mini) | Voldoende capabel en veel goedkoper om vaak te draaien |
| Tests genereren en simpele transformaties | Goedkoop, snel (bijv. Claude Haiku, GPT-nano) | Snelheid en prijs winnen zolang de kwaliteit blijft |
Het onderliggende principe gaat over eigenaarschap van de beslissing. Kosten optellen tot één getal levert wat Lê-Quôc "heel lage uitvoerbaarheid" noemt: of iedereen stopt met uitgeven — wat nuttig werk doodt — of iedereen blijft uitgeven — wat het bedrijf niet volhoudt. Hij zet de data liever voor de developers en SRE's die de modellen kiezen.
Les 6: Leer hoe je leert
Gevraagd wat nieuwe engineers zouden moeten bestuderen, geeft Lê-Quôc een antwoord dat oud klinkt en het niet is.
Je moet leren hoe je leert.
Alexis Lê-Quôc, CTO at Datadog
Modellen zijn de meest geduldige tutors ooit, in staat om alles in elk tempo uit te leggen — een niveau van toegang dat vroeger was voorbehouden aan royalty met privéleraren. Maar een tutor is alleen nuttig als je hem ondervraagt. De vaardigheid is weten wat je moet vragen en hoe je het antwoord checkt.
Hij raadt aan computers laag voor laag te begrijpen in plaats van ze als magie te zien. Neem een scheduler, een load balancer, een sandbox en vraag een model om uit te leggen hoe die werkt — en blijf doorvragen:
- Wat betekent deze term?
- Hoe meet je dit?
- Wat is de wiskunde erachter?
- Hoe weet je dat het goed werkt?
De klassiekers op deze manier bestuderen is expres traag. Hij vergelijkt het met een instrument leren; je kunt de hele dag naar muziek luisteren, maar om piano te spelen moet je je handen op de toetsen leggen.
Hetzelfde geldt voor door AI geschreven code. Vibe coding is prima, zegt hij, zolang je terugkomt en vraagt waarom het werkte: waarom is het zo gebouwd, zijn er betere aanpakken, waar is het op gemodelleerd. Het doel is niet minder code schrijven met AI, maar de code begrijpen waarvan je nu zoveel meer produceert.
Tot slot
Lê-Quôc's kernboodschap is dat de lus niet is veranderd, maar het tempo wel. Wat anders is: geen mens kan nog scherp genoeg meekijken op de snelheid waarmee AI nu beweegt. Dus het meekijken — en een groeiend deel van het bouwen — verschuift naar agents die niet moe worden en niet in paniek raken.
Hij pleit ervoor om observability te zien als een control plane in plaats van een set grafieken. Als agents software gaan schrijven, testen, shippen en runnen, hebben ze dezelfde verankering in echte productiedata nodig waar goede engineers op vertrouwen — plus een mens die de beoordelingsknoppen en de stopknop vasthoudt. Datadog positioneert observability als de laag die die ruil veilig maakt.
De vaardigheid die dit kader van engineers vraagt is helder: lees systemen via hun gedrag in productie, niet alleen via de broncode. Wil je die gewoonte opbouwen, dan is ons Machine Learning in Production-skill track een goed beginpunt.

Tom is data scientist en technisch docent. Hij schrijft en beheert de data science-tutorials en blogposts van DataCamp. Eerder werkte Tom in data science bij Deutsche Telekom.
