Lewati ke konten utama

Observabilitas LLM: 6 Pelajaran dari CTO Datadog

Menjelang DASH 2026, Co-founder Datadog Alexis Lê-Quôc menjelaskan bagaimana AI mengubah code review, mengapa produksi adalah ujian sesungguhnya, dan di mana agen harus mengambil alih.
Diperbarui 9 Jun 2026  · 9 mnt baca

Tim engineering mengirimkan lebih banyak kode daripada yang bisa mereka baca. Asisten AI kini menulis porsi besar darinya, lebih cepat daripada yang bisa diikuti reviewer mana pun baris demi baris. Pergeseran itu menjadi latar konferensi DASH Datadog di New York pekan ini, di mana Co-founder dan CTO Alexis Lê-Quôc memimpin sesi berjudul "The New Shape of Engineering."

Argumennya lugas. Cara tim mengoperasikan perangkat lunak tidak berubah: Anda mengirim perubahan, meluncurkannya, dan melihat apa yang terjadi; namun volume dan kecepatannya berubah, dan itu mengubah apa yang membuatnya tetap aman.

Dalam artikel ini, saya akan merangkum pemikirannya menjadi enam pelajaran utama, mulai dari perubahan dalam proses review hingga menggunakan produksi sebagai ujian pamungkas, dan apa yang perlu Anda pelajari.

Jika Anda baru dengan konsep observabilitas LLM, saya sarankan membaca panduan kami tentang memulai MLOps dan evaluasi LLM sebagai titik awal.

Intinya

Benang merah Lê-Quôc adalah bahwa observabilitas menjadi lapisan kontrol bagi perangkat lunak yang ditulis, diuji, dan dikirim oleh AI—baik untuk orang yang mengoperasikannya maupun untuk para agen itu sendiri.

Enam pelajaran, secara singkat:

  • Review bergeser dari kode itu sendiri. Terlalu banyak kode yang ditulis AI untuk dibaca baris demi baris, jadi pemeriksaan yang nyata adalah uji, spesifikasi, dan pembuktian yang Anda rancang di awal, termasuk menjaga agar agen tidak mengecoh uji tersebut.
  • Produksi adalah satu-satunya uji yang berarti. CI berwarna hijau tidak membuktikan banyak hal saat pengguna nyata menghadapi asumsi yang tak bisa Anda uji sebelumnya, dan keluaran model tidak pernah sepenuhnya pasti, jadi Anda memantau secara langsung dan selalu siap dengan tombol berhenti.
  • Biarkan agen menangani pekerjaan melelahkan. Serahkan kepada mereka tugas memantau dasbor dan mengejar hipotesis yang melelahkan manusia, dan simpan manusia untuk keputusan dengan penilaian tinggi.
  • Pisahkan pekerjaan ke dalam dua loop: Gunakan loop pengembangan (menulis, mengirim, memverifikasi, memperbaiki) dan loop operasi-dan-keamanan (mendeteksi, menyelidiki, menyelesaikan).
  • Jaga pengeluaran AI tetap terkendali. Sesuaikan model untuk tiap tugas menggunakan data trajektori agen, dan biarkan keputusan itu pada developer dan SRE yang menentukannya.
  • Belajar cara belajar. Model adalah tutor yang sabar, tetapi keahliannya adalah menginterogasi mereka: memahami sistem lapis demi lapis, dan menanyakan mengapa kode yang mereka tulis benar-benar berhasil.

Pelajaran 1: AI Merusak Cara Lama Mereview Kode

Mari mulai dari tekanan yang memicu semuanya: ada lebih banyak kode daripada yang bisa dibaca siapa pun.

Lê-Quôc tegas bahwa model lama—manusia membaca pull request baris demi baris—tidak bertahan menghadapi pengembangan berbantuan AI. Kegelisahan yang ia dengar di seluruh industri adalah tentang review yang menjadi mustahil, karena terlalu banyak yang terjadi untuk diikuti hanya dengan membaca PR.

Responsnya bukan meminta orang membaca lebih cepat, melainkan memindahkan review ke tempat lain.

Review bukan lagi pada baris kode; terlalu banyak, Anda tak bisa mengejar. Ini soal uji apa yang kita rancang di awal, dan menginstruksikan agen agar tidak menyontek uji tersebut.

Alexis Lê-QuôcCTO at Datadog

Klausa terakhir itu mudah terlewat. Setelah Anda mengorkestrasi satu agen untuk merencanakan, lainnya menulis, dan yang lain menguji, Anda juga harus mencegah penulis "mengakali" uji otomatis alih-alih menyelesaikan masalahnya.

Ia melampaui uji. Datadog kini menambahkan pembuktian semi-formal dan formal bahwa sebuah spesifikasi melakukan apa yang seharusnya, sesuatu yang terlalu melelahkan untuk dilakukan secara luas sebelum agen mengambil alih pekerjaan berat. Ini paling efektif pada sistem backend dan koordinasi, di mana perilakunya cukup matematis untuk dianalisis secara presisi.

Pelajaran 2: Produksi Adalah Satu-satunya Uji yang Berarti

Lolos semua uji di CI itu perlu dan jauh dari cukup. Kegagalan yang penting terjadi belakangan.

Tempat yang benar-benar penting adalah produksi.

Alexis Lê-QuôcCTO at Datadog

Setiap rilis bertumpu pada asumsi yang tak bisa Anda periksa sepenuhnya sebelumnya, tentang bentuk data dan perilaku pengguna. Tampilkan asumsi itu pada lalu lintas nyata yang cukup, dan kasus langka berhenti menjadi langka; mereka berubah menjadi perlambatan dan kesalahan sehari-hari akibat drift data dan model.

LLM membuat ini lebih sulit: Dengan kode biasa, Anda setidaknya bisa menalar setiap cabang, tetapi tak seorang pun bisa menjelaskan secara mekanistik mengapa sebuah model menghasilkan apa yang dihasilkannya, sehingga masukan yang sama tak pernah dijamin memberi keluaran yang sama. Hasil aneh sesekali tidak bisa direkayasa agar hilang.

Jadi Anda berhenti mencoba membuktikan sistem sudah benar sebelum dikirim. Sebagai gantinya, Anda

Pertanyaannya bukan lagi apakah ia lolos, melainkan apakah masalah itu insiden satu kali atau awal dari sebuah tren.

Sinyal langsung itu bukan sekadar dasbor untuk manusia. Terhubung ke sistem deployment, sinyal ini memungkinkan agen meluncurkan perubahan seperti insinyur yang berhati-hati—ke satu persen pengguna, lalu lima—menilai dari data nyata apakah perubahan tersebut melakukan apa yang dimaksudkan.

Pelajaran 3: Biarkan Agen Menangani Pekerjaan Melelahkan

Alasan Lê-Quôc untuk agen bukan karena mereka menggantikan engineer, tetapi karena mereka mengambil bagian pekerjaan yang menguras manusia.

Menangani insiden berarti melempar hipotesis ke sebuah gejala, dan pada insiden panjang, seringkali hipotesis yang tampak tak masuk akal justru benar. Agen Bits AI Datadog memeriksa semuanya secara paralel, mendahului engineer, sementara manusia mengarahkannya ke intuisi yang tak akan muncul di dasbor.

Inti yang lebih dalam adalah kelelahan. On-call rollout adalah kewaspadaan mendadak diikuti berjam-jam tanpa kejadian, diulang hingga penilaian Anda menurun.

Anda berada dalam mode siaga tinggi, lalu menunggu cat mengering.

Alexis Lê-QuôcCTO at Datadog

Agen tidak keberatan, dan tidak memburuk setelah empat jam menatap angka. Stres dan kelelahan menurunkan kinerja manusia, itulah mengapa tim melakukan rotasi on-call sejak awal.

Serahkan pengawasan tanpa lelah kepada mesin, dan orang-orang kembali bugar untuk panggilan yang membutuhkan mereka. Logika yang sama berlaku untuk triase keamanan, di mana analis rentan burnout saat memilah false positive dari ancaman nyata.

Pelajaran 4: Pisahkan Pekerjaan ke Dalam Dua Loop

Lê-Quôc mengatur pekerjaan agen Datadog di sekitar dua loop.

image1.png

Loop pengembangan

Kebanyakan engineer akan mengenali loop pertama:

  1. Menulis kode
  2. Mengirimnya
  3. Melihat apakah berfungsi
  4. Memperbaikinya
  5. Ulangi

Pendekatan Datadog adalah bahwa masalah yang berasal dari kode biasanya memiliki perbaikannya di kode juga, sehingga platform berusaha memberikan perbaikan itu kepada Anda, diinformasikan oleh pengetahuan tentang aplikasi: kepemilikannya, perubahan terbaru, dan error yang muncul.

Ia menunjuk optimasi query database sebagai contoh. Model apa pun bisa menulis ulang query yang lambat; bagian yang lebih sulit adalah membuktikan penulisan ulang itu lebih cepat dan aman sebelum mencapai produksi, sehingga Datadog mengujinya terhadap salinan realistis data produksi terlebih dahulu dan menyerahkan pull request dengan bukti terlampir.

Loop operasi dan keamanan

Loop lainnya berjalan paralel, oleh orang yang sama atau tim berbeda:

  1. Deteksi
  2. Investigasi
  3. Perbaikan
  4. Ulangi

Di sinilah AI Guard Datadog melakukan triase peristiwa keamanan dan memblokir serangan lebih cepat daripada analis yang menanganinya manual. Agen juga bisa menangani tugas operasional rutin yang setiap hari dilakukan engineer tanpa banyak antusiasme, seperti mengubah ukuran satu pod Kubernetes itu.

Di kedua loop, Lê-Quôc tegas soal urutan operasi. Datadog tidak memulai dari "ini AI, masalah apa yang bisa diselesaikan?" Mereka mulai dari masalah yang sudah dikeluhkan pelanggan, biasanya versi dari "Saya tidak ingin melakukan hal berulang ini", lalu menilai apakah agen bisa dipercaya untuk menanganinya.

Pelajaran 5: Jaga Pengeluaran AI Tetap Terkendali

Biaya adalah kendala yang duduk berdampingan dengan keamanan, dan menjaga biaya operasionalisasi large language model tetap terkendali menjadi disiplin tersendiri. Jawaban Lê-Quôc di DASH adalah Agent Console milik Datadog.

Tanya developer model apa yang mereka butuhkan, dan seringnya mereka menyebut yang paling kuat (dan mahal). Kadang itu pilihan tepat, namun banyak pekerjaan adalah boilerplate yang bisa ditangani model lebih murah dan cepat dengan sama baiknya. Membedakan keduanya berarti membaca trajektori agen organisasi: alat apa yang mereka panggil, seberapa sering berhasil, hingga pola muncul.

Pola tersebut menjadi heuristik, bukan aturan: model frontier seperti Claude Opus atau model GPT terbaru untuk perencanaan, sesuatu yang murah seperti Claude Haiku untuk menghasilkan uji.

Tugas Tingkat model Alasan
Perencanaan dan penalaran sulit Frontier (mis., Claude Opus, GPT) Penalaran terkuat layak biayanya di sini
Kode rutin, boilerplate Tingkat menengah (mis., Claude Sonnet, GPT-mini) Cukup mumpuni, dan jauh lebih murah untuk sering dijalankan
Menghasilkan uji dan transformasi sederhana Murah, cepat (mis., Claude Haiku, GPT-nano) Kecepatan dan harga unggul selama kualitas terjaga

Prinsip di baliknya adalah tentang siapa yang memegang keputusan. Jika biaya digulung menjadi satu angka, Anda mendapat apa yang Lê-Quôc sebut "sangat rendah dapat ditindaklanjuti": entah semua orang berhenti belanja, yang mematikan pekerjaan bermanfaat, atau semua orang terus belanja, yang tak dapat ditanggung bisnis. Ia lebih memilih menaruh data di depan developer dan SRE yang memilih model.

Pelajaran 6: Belajar Cara Belajar

Saat ditanya apa yang harus dipelajari engineer baru, Lê-Quôc memberi jawaban yang terdengar klasik namun sebenarnya tidak.

Anda harus belajar cara belajar.

Alexis Lê-QuôcCTO at Datadog

Model adalah tutor paling sabar yang pernah ada, mampu menjelaskan apa pun dalam kecepatan apa pun—tingkat akses yang dulu hanya dimiliki kaum bangsawan dengan guru pribadi. Namun tutor hanya berguna jika Anda menginterogasinya. Keahliannya adalah tahu apa yang ditanyakan dan bagaimana memeriksa jawabannya.

Ia menyarankan memahami komputer lapis demi lapis alih-alih menganggapnya sebagai sihir. Ambil scheduler, load balancer, sandbox, dan minta model menjelaskan cara kerjanya, lalu terus dorong:

  • Apa arti istilah ini?
  • Bagaimana cara mengukurnya?
  • Apa matematika di baliknya?
  • Bagaimana Anda tahu itu bekerja dengan baik?

Mempelajari klasik dengan cara ini memang sengaja lambat. Ia membandingkannya dengan belajar alat musik; Anda bisa mendengarkan musik sepanjang hari, tetapi untuk bermain piano, Anda harus meletakkan tangan di atas tuts.

Hal yang sama berlaku untuk kode yang ditulis AI. Vibe coding tidak masalah, katanya, asalkan Anda kembali dan bertanya mengapa itu berhasil: mengapa dibangun seperti itu, adakah pendekatan yang lebih baik, apa acuannya. Tujuannya bukan menulis lebih sedikit kode dengan AI. Tujuannya adalah memahami kode yang kini Anda hasilkan jauh lebih banyak.

Pemikiran Akhir

Pesan utama Lê-Quôc adalah bahwa loop-nya tidak berubah, namun temponya berubah. Yang berbeda adalah tak ada manusia yang bisa mengawasi cukup dekat pada kecepatan gerak AI saat ini, sehingga pengawasan—dan porsi pembangunan yang kian besar—beralih ke agen yang tidak lelah dan tidak panik.

Ia menganjurkan memperlakukan observabilitas sebagai control plane, bukan sekumpulan grafik. Jika agen akan menulis, menguji, mengirim, dan mengoperasikan perangkat lunak, mereka memerlukan landasan data produksi nyata yang sama seperti yang diandalkan engineer yang baik, ditambah seorang manusia yang memegang keputusan penilaian dan tombol berhenti. Datadog memosisikan observabilitas sebagai lapisan yang membuat pertukaran itu aman.

Keahlian yang diminta kerangka ini dari para engineer jelas: membaca sistem melalui perilakunya di produksi, bukan hanya melalui source code. Jika Anda ingin membangun kebiasaan itu, skill track Machine Learning in Production kami adalah tempat yang baik untuk mulai.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Tom adalah seorang ilmuwan data dan pendidik teknis. Ia menulis dan mengelola tutorial serta artikel blog ilmu data DataCamp. Sebelumnya, Tom bekerja di bidang ilmu data di Deutsche Telekom.

Topik

Kursus AI Engineering Teratas

Program

Insinyur Kecerdasan Buatan (AI) untuk Pengembang

26 Hr
Pelajari cara mengintegrasikan kecerdasan buatan (AI) ke dalam aplikasi perangkat lunak menggunakan antarmuka pemrograman aplikasi (API) dan perpustakaan sumber terbuka. Mulailah perjalanan Anda untuk menjadi seorang Insinyur Kecerdasan Buatan (AI) hari ini!
Lihat DetailRight Arrow
Mulai Kursus
Lihat Lebih BanyakRight Arrow
Terkait

blogs

40 Pertanyaan Wawancara DBMS Teratas di 2026

Kuasai pertanyaan wawancara basis data, dari konsep SQL dasar hingga skenario desain sistem tingkat lanjut. Panduan mendalam ini mencakup semua yang Anda perlukan untuk sukses di wawancara DBMS dan meraih peran berikutnya.
Dario Radečić's photo

Dario Radečić

15 mnt

blogs

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Artikel ini menyajikan daftar alternatif ChatGPT yang akan meningkatkan produktivitas Anda.
Javier Canales Luna's photo

Javier Canales Luna

14 mnt

blogs

Spaghetti Plot dan Jalur Badai

Temukan alasan mengapa Anda sebaiknya (tidak) menggunakan spaghetti plot untuk menyampaikan ketidakpastian jalur prediksi badai serta dampaknya terhadap interpretasi.
Hugo Bowne-Anderson's photo

Hugo Bowne-Anderson

13 mnt

blogs

Tutorial Korelasi di R

Dapatkan pengenalan dasar-dasar korelasi di R: pelajari lebih lanjut tentang koefisien korelasi, matriks korelasi, plotting korelasi, dan sebagainya.
David Woods's photo

David Woods

13 mnt

Lihat Lebih BanyakLihat Lebih Banyak