Hoppa till huvudinnehållet

LLM-observerbarhet: 6 lärdomar från Datadogs CTO

Inför DASH 2026 förklarar Datadogs medgrundare Alexis Lê-Quôc hur AI har förändrat kodgranskning, varför produktion är det verkliga testet och var agenter bör ta över.
Uppdaterad 9 juni 2026  · 9 min läsa

Engineeringteam skickar nu mer kod än de hinner läsa. AI-assistenter skriver en stor del av den, snabbare än någon granskare kan hinna med rad för rad. Den förskjutningen är bakgrunden till Datadogs DASH-konferens i New York den här veckan, där medgrundaren och CTO:n Alexis Lê-Quôc håller en session med titeln "The New Shape of Engineering".

Hans resonemang är rakt på sak. Sättet team driver mjukvara på har inte förändrats: du skeppar en ändring, rullar ut den och ser vad som händer. Men volymen och tempot har förändrats, och det ändrar vad som håller det säkert.

I den här artikeln bryter jag ner hans tänkande i sex centrala lärdomar, från förändringar i granskningsprocessen till att använda produktion som det yttersta testet, och vad du bör ta med dig.

Om du är ny till begreppet LLM-observerbarhet rekommenderar jag att du läser våra guider till att komma igång med MLOps och utvärdering av LLM som startpunkt.

I korthet

Lê-Quôcs röda tråd är att observerbarhet blir kontrollagret för mjukvara som AI skriver, testar och skeppar – för både människorna som driver den och för agenterna själva.

De sex lärdomarna, kortfattat:

  • Granskningen flyttar bort från koden i sig. Det finns för mycket AI-skriven kod för att läsa rad för rad, så den verkliga kontrollen är testerna, specifikationerna och bevisen du designar i förväg – inklusive skydd mot agenter som försöker spela systemet.
  • Produktion är det enda testet som räknas. En grön CI-körning bevisar lite när riktiga användare träffar antaganden du inte kunde testa i förväg, och en modells utdata är aldrig helt säker, så du övervakar live och behåller en stoppknapp.
  • Låt agenter ta slitjobbet. Ge dem dashboard-vaktandet och hypotesjagandet som tröttar ut människor, och behåll människor för besluten som kräver gott omdöme.
  • Dela upp arbetet i två loopar: Använd en utvecklingsloop (skriv, skeppa, verifiera, fixa) och en drift- och säkerhetsloop (detektera, undersök, åtgärda).
  • Håll AI-kostnaderna i schack. Rätt dimensionera vilken modell som gör vilket jobb med hjälp av agenters trajektoriedata, och lämna beslutet hos utvecklarna och SRE:erna som fattar det.
  • Lär dig att lära. Modeller är tålmodiga handledare, men färdigheten är att förhöra dem: förstå system lager för lager och fråga varför koden de skrev faktiskt fungerade.

Lektion 1: AI slog sönder det gamla sättet att granska kod

Vi börjar med trycket som sätter igång allt annat: det finns mer kod än någon kan läsa.

Lê-Quôc är tydlig med att den gamla modellen – en människa som läser en pull request rad för rad – inte överlever i mötet med AI-assisterad utveckling. Oron han hör i branschen handlar om att granskningar blir omöjliga, eftersom det händer för mycket för att kunna följas genom att läsa PR:ar.

Hans svar är inte att be folk läsa snabbare, utan att flytta granskningen någon annanstans.

Granskningen är inte längre raden med kod; det finns för mycket, du hinner inte med. Det handlar om vilka tester vi designar i förväg, och att tala om för agenten att inte fuska på dem.

Alexis Lê-QuôcCTO at Datadog

Den där sista bisatsen är lätt att missa. När du orkestrerar en agent som planerar, en som skriver och en som testar, måste du också hindra skrivaren från att spela de automatiserade testerna i stället för att lösa problemet.

Han går bortom tester. Datadog lägger nu till semiformal och formell bevisföring att en spec gör det den ska, något som var för betungande att försöka brett innan agenter tog över grovjobbet. Det fungerar bäst på backend- och koordinationssystem, där beteendet är tillräckligt matematiskt för att resonera exakt om.

Lektion 2: Produktion är det enda testet som räknas

Att klara alla tester i CI är nödvändigt och långt ifrån tillräckligt. De fel som spelar roll sker senare.

Platsen där det verkligen betyder något är i produktion.

Alexis Lê-QuôcCTO at Datadog

Varje release vilar på antaganden du inte kan kontrollera fullt ut i förväg, om datats form och hur användare beter sig. Utsätt de antagandena för tillräckligt mycket verklig trafik och de sällsynta fallen slutar vara sällsynta; de blir vardagliga fördröjningar och fel från data- och modelldrift.

LLM:er gör detta svårare: Med vanlig kod kan du åtminstone resonera igenom varje gren, men ingen kan mekaniskt förklara varför en modell returnerar det den gör, så samma indata garanterar aldrig samma utdata. Det tillfälliga märkliga resultatet går inte att konstruera bort.

Så du slutar försöka bevisa att ett system är korrekt innan det skeppas. I stället

Frågan är inte längre om det klarade testet, utan om ett problem är en engångsföreteelse eller början på en trend.

Den där livesignalen är inte bara en dashboard för människor. Inkopplad i deploysystemet låter den en agent rulla ut en ändring som en försiktig ingenjör skulle göra, till en procent av användarna, sedan fem, och utifrån verkliga data bedöma om ändringen gör det som var avsett.

Lektion 3: Låt agenter ta slitjobbet

Lê-Quôcs argument för agenter är inte att de ersätter ingenjörer, utan att de tar de delar av jobbet som nöter ner människor.

Felsökning av en incident innebär att kasta hypoteser på ett symptom, och vid långa incidenter är det ofta en långsökt hypotes som visar sig sann. Datadogs agent Bits AI kontrollerar dem alla parallellt, i förväg, medan ingenjören styr den mot den magkänsla som en dashboard aldrig skulle visa.

Den djupare poängen är trötthet. En on-call-utrullning är plötslig skärpthet följt av timmar av ingenting, upprepat tills omdömet blir sämre.

Du är i hög beredskap, och sedan tittar du på när färg torkar.

Alexis Lê-QuôcCTO at Datadog

En agent bryr sig inte, och blir inte sämre efter fyra timmars stirrande på siffror. Stress och trötthet försämrar mänsklig prestation, vilket är varför team roterar personer i on-call från början.

Lägg det outtröttliga vaktandet på en maskin, så kommer människor tillbaka utvilade för besluten som behöver dem. Samma logik gäller säkerhetstriage, där analytiker bränner ut sig på att sålla falska positiver från verkliga hot.

Lektion 4: Dela upp arbetet i två loopar

Lê-Quôc organiserar Datadogs agentarbete kring två loopar.

image1.png

Utvecklingsloopen

De flesta ingenjörer känner igen den första loopen:

  1. Skriv kod
  2. Skeppa
  3. Se om det fungerar
  4. Fixa
  5. Upprepa

Datadogs vinkel är att ett problem som har sitt ursprung i kod oftast har sin lösning i kod, så plattformen försöker ge dig den lösningen, informerad av vad den vet om applikationen: dess ägarskap, dess senaste ändringar och de fel den har kastat.

Han pekar på optimering av databasfrågor som exempel. Vilken modell som helst kan skriva om en långsam fråga; den svårare delen är att bevisa att omskrivningen är snabbare och säker innan den når produktion, så Datadog testar den mot en realistisk kopia av produktionsdata först och lämnar över en pull request med bevisen bifogade.

Drifts- och säkerhetsloopen

Den andra loopen körs parallellt, antingen av samma personer eller av ett annat team:

  1. Detektera
  2. Undersök
  3. Åtgärda
  4. Upprepa

Här triagerar Datadogs AI Guard säkerhetshändelser och stoppar attacker snabbare än en analytiker som arbetar igenom dem för hand. Agenter kan också hantera rutinmässiga driftgöromål som ingenjörer gör dagligen utan större entusiasm, som att ändra storlek på just den där Kubernetes-podden.

I båda looparna är Lê-Quôc bestämd om ordningen. Datadog börjar inte från "här är AI, vilket problem kan den lösa?". De börjar från ett problem kunder redan klagar på, oftast någon variant av "jag vill inte göra den här repetitiva grejen", och arbetar bakåt till om en agent kan anförtros det.

Lektion 5: Håll AI-kostnaderna i schack

Kostnad är begränsningen som sitter bredvid säkerhet, och att hålla priset för att operationalisera stora språkmodeller i schack håller på att bli en egen disciplin. Lê-Quôcs svar på DASH är Datadogs Agent Console.

Fråga en utvecklare vilken modell de behöver, och ofta nämner de den mest kraftfulla (och dyraste). Ibland är det rätt val, men mycket arbete är rutin som en billigare, snabbare modell hanterar lika bra. Att skilja dem åt kräver att läsa trajektorierna för en organisations agenter – vilka verktyg de anropar och hur ofta de lyckas – tills mönster framträder.

De mönstren blir heuristiker snarare än regler: en ledande modell som senaste Claude Opus eller GPT-modeller för planering, något billigt som Claude Haiku för att generera tester.

Uppgift Modellnivå Varför
Planering och svår resonerande Frontier (t.ex. Claude Opus, GPT) Den starkaste logiken förtjänar sin kostnad här
Rutinmässig, boilerplate-kod Mellannivå (t.ex. Claude Sonnet, GPT-mini) Tillräckligt kapabel och betydligt billigare att köra ofta
Generera tester och enkla transformeringar Billig, snabb (t.ex. Claude Haiku, GPT-nano) Hastighet och pris vinner så länge kvaliteten håller

Principen under ytan handlar om vem som äger beslutet. Summera kostnaden till ett enda tal, och du får vad Lê-Quôc kallar "mycket låg handlingsbarhet": antingen slutar alla spendera, vilket dödar nyttigt arbete, eller så fortsätter alla spendera, vilket verksamheten inte kan bära. Han vill hellre lägga data framför utvecklarna och SRE:erna som väljer modellerna.

Lektion 6: Lär dig att lära

På frågan vad nya ingenjörer bör studera ger Lê-Quôc ett svar som låter gammalt men inte är det.

Du måste lära dig att lära.

Alexis Lê-QuôcCTO at Datadog

Modeller är de mest tålmodiga handledare som någonsin uppfunnits, kapabla att förklara vad som helst i vilken takt som helst – en nivå av tillgång som tidigare var förbehållen kungligheter med privatlärare. Men en handledare är bara användbar om du förhör den. Färdigheten är att veta vad du ska fråga och hur du ska kontrollera svaret.

Han rekommenderar att förstå datorer lager för lager i stället för att behandla dem som magi. Ta en schemaläggare, en lastbalanserare, en sandbox, och be en modell förklara hur den fungerar, och fortsätt sedan pressa:

  • Vad betyder den här termen?
  • Hur mäter man den?
  • Vad är matematiken bakom?
  • Hur vet du att den fungerar bra?

Att studera klassikerna på det här sättet är medvetet långsamt. Han jämför det med att lära sig ett instrument; du kan lyssna på musik hela dagen, men för att spela piano måste du lägga händerna på tangenterna.

Samma sak gäller AI-skriven kod. Vibe coding är okej, säger han, så länge du kommer tillbaka och frågar varför det fungerade: varför byggdes det så här, finns det bättre angreppssätt, vad modellerades det på. Målet är inte att skriva mindre kod med AI. Det är att förstå den kod du nu producerar så mycket mer av.

Avslutande tankar

Lê-Quôcs huvudbudskap är att loopen inte har förändrats, men tempot har det. Skillnaden är att ingen människa kan hålla uppsikt tillräckligt noga i den hastighet som AI nu rör sig, så övervakningen – och en växande andel av byggandet – flyttas till agenter som inte tröttnar och inte får panik.

Han förespråkar att behandla observerbarhet som ett kontrollplan snarare än en uppsättning diagram. Om agenter ska skriva, testa, skeppa och drifta mjukvara behöver de samma förankring i verkliga produktionsdata som bra ingenjörer förlitar sig på, plus en person som håller i omdömesfrågorna och stoppknappen. Datadog positionerar observerbarhet som lagret som gör den avvägningen säker.

Färdigheten som denna inramning kräver av ingenjörer är tydlig: läs system genom hur de beter sig i produktion, inte bara genom deras källkod. Om du vill bygga den vanan är vår Machine Learning in Production-kompetensväg en bra start.

Ämnen

De bästa kurserna i AI-engineering

track

Associate AI Engineer för utvecklare

26 timmar
Lär dig hur du integrerar AI i mjukvaruapplikationer med hjälp av API:er och bibliotek med öppen källkod. Börja din resa mot att bli AI Engineer idag!
Se detaljerRight Arrow
Starta kursen
Se merRight Arrow