LLM-Observability: 6 Lektionen vom CTO von Datadog

Im Vorfeld von DASH 2026 erklärt Datadog-Mitgründer Alexis Lê-Quôc, wie KI Code-Reviews verändert hat, warum die Produktion der wahre Test ist und wo Agenten übernehmen sollten.

Aktualisiert 9. Juni 2026 · 9 Min. lesen

Mit KI erkunden

In ChatGPT öffnen In Claude öffnen In Perplexity öffnen

Engineering-Teams liefern heute mehr Code aus, als sie lesen können. KI-Assistenten schreiben einen großen Teil davon – schneller, als jede Review Zeile für Zeile mithalten könnte. Vor diesem Hintergrund steht diese Woche in New York die DASH-Konferenz von Datadog, bei der Mitgründer und CTO Alexis Lê-Quôc eine Session mit dem Titel "The New Shape of Engineering" leitet.

Sein Punkt ist klar: Die Art, wie Teams Software betreiben, hat sich nicht geändert – du lieferst eine Änderung aus, rollst sie aus und beobachtest, was passiert. Geändert haben sich jedoch Umfang und Tempo – und damit, was Sicherheit gewährleistet.

In diesem Artikel zerlege ich sein Denken in sechs zentrale Lektionen – vom veränderten Review-Prozess über die Produktion als ultimativen Test bis hin zu dem, was du daraus mitnehmen solltest.

Wenn dir LLM-Observability neu ist, empfehle ich als Einstieg unsere Guides zu MLOps für Einsteiger und zur LLM-Evaluierung.

Auf den Punkt gebracht

Lê-Quôcs roter Faden: Observability wird zur Steuerschicht für Software, die KI schreibt, testet und ausliefert – für die Menschen, die sie betreiben, und für die Agenten selbst.

Die sechs Lektionen im Überblick:

Reviews rücken vom Code selbst ab. Es gibt zu viel KI-generierten Code, um ihn Zeile für Zeile zu lesen. Die eigentliche Prüfung sind die Tests, Spezifikationen und Beweise, die du vorab entwirfst – inklusive Schutz vor Agenten, die diese Tests aushebeln.
Die Produktion ist der einzige Test, der zählt. Ein grüner CI-Run sagt wenig aus, sobald echte Nutzende Annahmen treffen, die du vorher nicht prüfen konntest. Und Modell-Outputs sind nie vollkommen sicher. Also überwachst du live und behältst einen Stopp-Button.
Lass Agenten die Routinearbeit übernehmen. Übergib ihnen das Dashboard-Watching und Hypothesentesten, das Menschen ermüdet, und behalte die High-Judgment-Entscheidungen für Menschen.
Teile die Arbeit in zwei Schleifen. Nutze eine Entwicklungsschleife (schreiben, shippen, verifizieren, fixen) und eine Operations- und Security-Schleife (erkennen, untersuchen, beheben).
Behalte die KI-Kosten im Griff. Setze je Aufgabe das passende Modell ein – gesteuert durch Agenten-Trajektorien – und lass diese Entscheidung bei den Developers und SREs.
Lernen lernen. Modelle sind geduldige Tutor:innen, doch die eigentliche Kompetenz ist, sie klug zu hinterfragen: Systeme Schicht für Schicht verstehen und prüfen, warum der von ihnen geschriebene Code wirklich funktioniert.

Verbessere die KI-Fähigkeiten deines Teams

Verändere dein Unternehmen, indem du deinem Team mit dem DataCamp for Business fortgeschrittene KI-Kenntnisse vermittelst. Erreiche bessere Einblicke und mehr Effizienz.

Fordere Noch Heute Eine Demo An!

Lektion 1: KI hat den alten Code-Review-Prozess aufgebrochen

Beginnen wir mit dem Druck, der alles andere lostritt: Es gibt mehr Code, als irgendwer lesen kann.

Lê-Quôc sagt deutlich: Das alte Modell, bei dem ein Mensch einen Pull Request Zeile für Zeile liest, hat im KI-gestützten Development keine Chance. Die weitverbreitete Sorge lautet, dass Reviews unmöglich werden, weil zu viel passiert, um es über PRs nachzuvollziehen.

Seine Antwort ist nicht, schneller zu lesen, sondern den Review an einen anderen Ort zu verlagern.

Der Review ist nicht mehr die einzelne Codezeile; es ist zu viel, du kommst nicht hinterher. Es geht darum, welche Tests wir vorab entwerfen – und dem Agenten klarzumachen, dass er sie nicht austricksen darf.
Alexis Lê-Quôc, CTO at Datadog

Dieser letzte Punkt geht leicht unter. Orchestrierst du einen Agenten fürs Planen, einen fürs Schreiben und einen fürs Testen, musst du auch verhindern, dass der Schreib-Agent die automatisierten Tests ausspielt, statt das eigentliche Problem zu lösen.

Er geht über Tests hinaus. Datadog fügt heute semi-formale und formale Beweise hinzu, dass eine Spezifikation tut, was sie soll – etwas, das früher zu aufwendig war, bevor Agenten die Schwerarbeit übernahmen. Am besten funktioniert das bei Backend- und Koordinationssystemen, deren Verhalten mathematisch präzise begründbar ist.

Lektion 2: Die Produktion ist der einzige Test, der zählt

Alle Tests in CI zu bestehen ist notwendig und bei Weitem nicht ausreichend. Die entscheidenden Ausfälle passieren später.

Wirklich entscheidend ist die Produktion.
Alexis Lê-Quôc, CTO at Datadog

Jeder Release basiert auf Annahmen, die du vorher nicht vollständig prüfen kannst – über die Form der Daten und das Verhalten der Nutzenden. Bei genug echtem Traffic werden seltene Fälle nicht mehr selten, sondern zu den alltäglichen Verlangsamungen und Fehlern durch Daten- und Modelldrift.

LLMs machen das schwieriger: Bei herkömmlichem Code kannst du zumindest jede Verzweigung logisch durchdenken. Niemand kann jedoch mechanistisch erklären, warum ein Modell genau diesen Output liefert, daher ist derselbe Input nie garantiert mit demselben Output verknüpft. Gelegentliche kuriose Ergebnisse lassen sich nicht wegingenieurieren.

Also hörst du auf, ein System vorab als korrekt beweisen zu wollen. Stattdessen

schreibst du Evaluierungen für das gewünschte Verhalten,
überwachst du es in der Produktion
und behältst eine Stopp-Kontrolle für einen missglückten Rollout.

Die Frage ist nicht mehr, ob es bestanden hat, sondern ob ein Problem ein Ausreißer ist oder der Beginn eines Trends.

Dieses Livesignal ist nicht nur ein Dashboard für Menschen. In das Deployment-System verdrahtet, kann ein Agent einen Change so ausrollen, wie es eine vorsichtige Ingenieurin tun würde: erst auf ein Prozent der Nutzenden, dann fünf – stets anhand realer Daten beurteilend, ob die Änderung den Zweck erfüllt.

Lektion 3: Lass Agenten die Routinearbeit machen

Lê-Quôcs Plädoyer für Agenten ist nicht, Ingenieur:innen zu ersetzen, sondern ihnen die Teile der Arbeit abzunehmen, die auslaugen.

Bei einem Incident Hypothesen gegen Symptome zu testen, heißt viele Spuren verfolgen – und bei langen Incidents ist es oft eine gewagte, die stimmt. Datadogs Bits-AI-Agent prüft sie alle parallel, noch bevor die Ingenieurin ansetzt, während der Mensch es in Richtung einer Ahnung lenkt, die kein Dashboard zeigen würde.

Der tiefere Punkt ist Ermüdung. On-Call bedeutet plötzliche Alarmbereitschaft, gefolgt von Stunden des Wartens – wieder und wieder, bis die Urteilsfähigkeit leidet.

Du bist im Hochalarm-Modus – und dann starrst du Stundenlang beim Trocknen der Farbe zu.
Alexis Lê-Quôc, CTO at Datadog

Einem Agenten macht das nichts aus – und nach vier Stunden Zahlenstarren wird er nicht schlechter. Stress und Müdigkeit senken die menschliche Performance – darum rotieren Teams überhaupt durchs On-Call.

Gib die mühelose Dauerbeobachtung an Maschinen ab, und Menschen kommen erholt zurück für die Entscheidungen, die sie wirklich brauchen. Dasselbe gilt für Security-Triage, wo Analyst:innen beim Aussortieren von False Positives ausbrennen.

Lektion 4: Teile die Arbeit in zwei Schleifen

Lê-Quôc organisiert Datadogs Agentenarbeit um zwei Schleifen.

Die Entwicklungsschleife

Die erste Schleife werden die meisten Ingenieur:innen wiedererkennen:

Code schreiben
Shippen
Prüfen, ob es funktioniert
Fixen
Wiederholen

Datadogs Blick: Wenn ein Problem im Code entsteht, liegt die Lösung meist ebenfalls im Code. Also liefert die Plattform dir diese Lösung – gestützt auf Wissen über die Anwendung: Ownership, letzte Änderungen, aufgetretene Fehler.

Als Beispiel nennt er die Optimierung von Datenbankabfragen. Jedes Modell kann eine langsame Query umschreiben; schwieriger ist es, zu beweisen, dass die neue schneller und sicher ist, bevor sie die Produktion erreicht. Also testet Datadog sie zuerst gegen eine realistische Kopie der produktiven Daten und übergibt einen Pull Request mit belastbaren Nachweisen.

Die Operations- und Security-Schleife

Die zweite Schleife läuft parallel – durch dasselbe oder ein anderes Team:

Erkennen
Untersuchen
Beheben
Wiederholen

Hier triagiert Datadogs AI Guard Security-Events und blockiert Angriffe schneller, als es Analyst:innen von Hand können. Agenten können auch alltägliche Betriebsaufgaben übernehmen, die Ingenieur:innen wenig Freude bereiten – etwa das eine Kubernetes-Pod zu resize’n.

Über beide Schleifen hinweg ist Lê-Quôc klar in der Reihenfolge: Datadog startet nicht mit "Hier ist KI, was kann sie lösen?". Ausgangspunkt ist ein reales Kundenproblem – meist eine Variante von "Ich will diese Routineaufgabe nicht mehr machen" –, und dann die Frage, ob ein Agent sie zuverlässig übernehmen kann.

Lektion 5: Halte die KI-Ausgaben im Zaum

Kosten stehen gleichberechtigt neben Sicherheit. Die Ausgaben für das Operationalisieren von Large Language Models zu steuern, wird zur eigenen Disziplin. Lê-Quôcs Antwort auf der DASH ist Datadogs Agent Console.

Frag eine Entwicklerin, welches Modell sie braucht, und oft fällt die Wahl auf das stärkste (und teuerste). Manchmal ist das richtig, aber vieles ist Boilerplate, die ein günstigeres, schnelleres Modell ebenso gut erledigt. Die Unterscheidung gelingt, wenn du die Trajektorien deiner Agenten liest: welche Tools sie aufrufen und wie oft sie erfolgreich sind – bis sich Muster zeigen.

Diese Muster werden zu Heuristiken statt Regeln: Ein Frontier-Modell wie das neueste Claude Opus oder GPT für Planung, etwas Günstiges wie Claude Haiku für das Generieren von Tests.

Aufgabe	Modellstufe	Warum
Planung und schwieriges Reasoning	Frontier (z. B. Claude Opus, GPT)	Die stärkste Schlussfolgerungsfähigkeit lohnt sich hier
Routine- und Boilerplate-Code	Mid-Tier (z. B. Claude Sonnet, GPT-mini)	Leistungsfähig genug und deutlich günstiger im Dauerbetrieb
Tests generieren und einfache Transformationen	Günstig, schnell (z. B. Claude Haiku, GPT-nano)	Tempo und Preis überzeugen bei stabiler Qualität

Das zugrunde liegende Prinzip betrifft Ownership der Entscheidung. Kosten auf eine einzige Zahl zu verdichten führt zu dem, was Lê-Quôc "very low actionability" nennt: Entweder alle hören auf zu investieren, was sinnvolle Arbeit tötet, oder alle machen weiter, was das Business nicht tragen kann. Er legt die Daten lieber den Developers und SREs vor, die die Modelle auswählen.

Lektion 6: Lernen lernen

Gefragt, was neue Ingenieur:innen studieren sollten, gibt Lê-Quôc eine Antwort, die alt klingt und es nicht ist.

Du musst lernen zu lernen.
Alexis Lê-Quôc, CTO at Datadog

Modelle sind die geduldigsten Tutor:innen, die je erfunden wurden – sie können alles in jedem Tempo erklären. Ein Zugang, der früher Privattutor:innen und Königshäusern vorbehalten war. Doch ein Tutor ist nur nützlich, wenn du ihn befragst. Die Kompetenz liegt darin, zu wissen, was du fragst und wie du die Antwort prüfst.

Er empfiehlt, Computer Schicht für Schicht zu verstehen statt sie als Magie zu behandeln. Nimm einen Scheduler, einen Load Balancer, eine Sandbox und lass dir von einem Modell erklären, wie es funktioniert – und bohre dann weiter nach:

Was bedeutet dieser Begriff?
Wie misst du das?
Welche Mathematik steckt dahinter?
Woran erkennst du, dass es gut funktioniert?

Die Klassiker auf diese Weise zu studieren, ist absichtlich langsam. Er vergleicht es mit dem Erlernen eines Instruments: Du kannst Musik den ganzen Tag hören, aber um Klavier zu spielen, musst du die Hände auf die Tasten legen.

Dasselbe gilt für KI-geschriebenen Code. Vibe Coding ist okay, sagt er, solange du zurückkehrst und fragst, warum es funktioniert hat: Warum wurde es so gebaut, gibt es bessere Ansätze, woran war es orientiert? Ziel ist nicht, mit KI weniger Code zu schreiben. Ziel ist, den Code zu verstehen, von dem du nun viel mehr produzierst.

Abschließende Gedanken

Lê-Quôcs Kernaussage: Die Schleife hat sich nicht geändert, das Tempo schon. Kein Mensch kann bei der Geschwindigkeit, mit der KI heute arbeitet, aufmerksam genug zuschauen. Also wandert das Beobachten – und ein wachsender Teil des Bauens – zu Agenten, die nicht ermüden und nicht in Panik geraten.

Er plädiert dafür, Observability als Control Plane statt als Sammlung von Charts zu begreifen. Wenn Agenten Software schreiben, testen, shippen und betreiben sollen, brauchen sie dasselbe Fundament in echten Produktionsdaten, auf das gute Ingenieur:innen vertrauen – plus eine Person mit Urteilsvermögen und Stopp-Knopf. Datadog positioniert Observability als die Schicht, die diesen Tausch sicher macht.

Die geforderte Kompetenz ist klar: Lies Systeme über ihr Verhalten in der Produktion – nicht nur über den Source. Wenn du diese Gewohnheit aufbauen willst, ist unser Machine Learning in Production-Lernpfad ein guter Startpunkt.

Author

Tom Farnschläder

Themen

KI-Agenten

KI für Unternehmen

Top-Kurse für AI Engineering

Lernpfad

Associate AI Engineer für Entwickler

26 Std.

Lerne, wie du KI mithilfe von APIs und Open-Source-Bibliotheken in Softwareanwendungen integrierst. Starte noch heute deine Reise zum AI Engineer!

Details anzeigen

Kurs Starten

Lernpfad

KI für Softwareentwicklung

7 Std.

Schreib Code und entwickle Software-Apps schneller als je zuvor mit den neuesten KI-Entwicklertools wie GitHub Copilot, Windsurf und Replit.

Details anzeigen

Kurs Starten

Kurs

LLMOps-Konzepte

1 Std.

16.7K

LLMOps praktisch anwenden. Dieser Kurs liefert wertvolle Einblicke rund um Lebenszyklus und Best Practices.

Details anzeigen

Kurs Starten

Verwandt

Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.

Blog

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Dieser Blog hat eine ganze Reihe von Fragen und Antworten zu generativer KI, von den Grundlagen bis hin zu fortgeschrittenen Themen.

Hesam Sheikh Hassani

15 Min.

Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.

Nathaniel Taylor-Leach

8 Min.

Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.

Nathaniel Taylor-Leach

Blog

Top 50+ AWS-Interviewfragen und Antworten für 2026

Ein kompletter Guide mit grundlegenden, fortgeschrittenen und szenariobasierten AWS-Interviewfragen – mit Beispielen aus der Praxis.

Zoumana Keita

15 Min.

Mehr Anzeigen Mehr Anzeigen

Auf den Punkt gebracht

Verbessere die KI-Fähigkeiten deines Teams

Lektion 1: KI hat den alten Code-Review-Prozess aufgebrochen

Der Review ist nicht mehr die einzelne Codezeile; es ist zu viel, du kommst nicht hinterher. Es geht darum, welche Tests wir vorab entwerfen – und dem Agenten klarzumachen, dass er sie nicht austricksen darf.

Lektion 2: Die Produktion ist der einzige Test, der zählt

Wirklich entscheidend ist die Produktion.

Lektion 3: Lass Agenten die Routinearbeit machen

Du bist im Hochalarm-Modus – und dann starrst du Stundenlang beim Trocknen der Farbe zu.

Lektion 4: Teile die Arbeit in zwei Schleifen

Die Entwicklungsschleife

Die Operations- und Security-Schleife

Lektion 5: Halte die KI-Ausgaben im Zaum

Lektion 6: Lernen lernen

Du musst lernen zu lernen.

Abschließende Gedanken

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

2022-2023 DataCamp Classrooms Jahresbericht

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Q2 2023 DataCamp Donates Digest

Top 50+ AWS-Interviewfragen und Antworten für 2026

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Associate AI Engineer für Entwickler

KI für Softwareentwicklung

LLMOps-Konzepte

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Die 36 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

2022-2023 DataCamp Classrooms Jahresbericht

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Q2 2023 DataCamp Donates Digest

Top 50+ AWS-Interviewfragen und Antworten für 2026

Associate AI Engineer für Entwickler