Program
Tim engineering mengirimkan lebih banyak kode daripada yang bisa mereka baca. Asisten AI kini menulis porsi besar darinya, lebih cepat daripada yang bisa diikuti reviewer mana pun baris demi baris. Pergeseran itu menjadi latar konferensi DASH Datadog di New York pekan ini, di mana Co-founder dan CTO Alexis Lê-Quôc memimpin sesi berjudul "The New Shape of Engineering."
Argumennya lugas. Cara tim mengoperasikan perangkat lunak tidak berubah: Anda mengirim perubahan, meluncurkannya, dan melihat apa yang terjadi; namun volume dan kecepatannya berubah, dan itu mengubah apa yang membuatnya tetap aman.
Dalam artikel ini, saya akan merangkum pemikirannya menjadi enam pelajaran utama, mulai dari perubahan dalam proses review hingga menggunakan produksi sebagai ujian pamungkas, dan apa yang perlu Anda pelajari.
Jika Anda baru dengan konsep observabilitas LLM, saya sarankan membaca panduan kami tentang memulai MLOps dan evaluasi LLM sebagai titik awal.
Intinya
Benang merah Lê-Quôc adalah bahwa observabilitas menjadi lapisan kontrol bagi perangkat lunak yang ditulis, diuji, dan dikirim oleh AI—baik untuk orang yang mengoperasikannya maupun untuk para agen itu sendiri.
Enam pelajaran, secara singkat:
- Review bergeser dari kode itu sendiri. Terlalu banyak kode yang ditulis AI untuk dibaca baris demi baris, jadi pemeriksaan yang nyata adalah uji, spesifikasi, dan pembuktian yang Anda rancang di awal, termasuk menjaga agar agen tidak mengecoh uji tersebut.
- Produksi adalah satu-satunya uji yang berarti. CI berwarna hijau tidak membuktikan banyak hal saat pengguna nyata menghadapi asumsi yang tak bisa Anda uji sebelumnya, dan keluaran model tidak pernah sepenuhnya pasti, jadi Anda memantau secara langsung dan selalu siap dengan tombol berhenti.
- Biarkan agen menangani pekerjaan melelahkan. Serahkan kepada mereka tugas memantau dasbor dan mengejar hipotesis yang melelahkan manusia, dan simpan manusia untuk keputusan dengan penilaian tinggi.
- Pisahkan pekerjaan ke dalam dua loop: Gunakan loop pengembangan (menulis, mengirim, memverifikasi, memperbaiki) dan loop operasi-dan-keamanan (mendeteksi, menyelidiki, menyelesaikan).
- Jaga pengeluaran AI tetap terkendali. Sesuaikan model untuk tiap tugas menggunakan data trajektori agen, dan biarkan keputusan itu pada developer dan SRE yang menentukannya.
- Belajar cara belajar. Model adalah tutor yang sabar, tetapi keahliannya adalah menginterogasi mereka: memahami sistem lapis demi lapis, dan menanyakan mengapa kode yang mereka tulis benar-benar berhasil.
Pelajaran 1: AI Merusak Cara Lama Mereview Kode
Mari mulai dari tekanan yang memicu semuanya: ada lebih banyak kode daripada yang bisa dibaca siapa pun.
Lê-Quôc tegas bahwa model lama—manusia membaca pull request baris demi baris—tidak bertahan menghadapi pengembangan berbantuan AI. Kegelisahan yang ia dengar di seluruh industri adalah tentang review yang menjadi mustahil, karena terlalu banyak yang terjadi untuk diikuti hanya dengan membaca PR.
Responsnya bukan meminta orang membaca lebih cepat, melainkan memindahkan review ke tempat lain.
Review bukan lagi pada baris kode; terlalu banyak, Anda tak bisa mengejar. Ini soal uji apa yang kita rancang di awal, dan menginstruksikan agen agar tidak menyontek uji tersebut.
Alexis Lê-Quôc, CTO at Datadog
Klausa terakhir itu mudah terlewat. Setelah Anda mengorkestrasi satu agen untuk merencanakan, lainnya menulis, dan yang lain menguji, Anda juga harus mencegah penulis "mengakali" uji otomatis alih-alih menyelesaikan masalahnya.
Ia melampaui uji. Datadog kini menambahkan pembuktian semi-formal dan formal bahwa sebuah spesifikasi melakukan apa yang seharusnya, sesuatu yang terlalu melelahkan untuk dilakukan secara luas sebelum agen mengambil alih pekerjaan berat. Ini paling efektif pada sistem backend dan koordinasi, di mana perilakunya cukup matematis untuk dianalisis secara presisi.
Pelajaran 2: Produksi Adalah Satu-satunya Uji yang Berarti
Lolos semua uji di CI itu perlu dan jauh dari cukup. Kegagalan yang penting terjadi belakangan.
Tempat yang benar-benar penting adalah produksi.
Alexis Lê-Quôc, CTO at Datadog
Setiap rilis bertumpu pada asumsi yang tak bisa Anda periksa sepenuhnya sebelumnya, tentang bentuk data dan perilaku pengguna. Tampilkan asumsi itu pada lalu lintas nyata yang cukup, dan kasus langka berhenti menjadi langka; mereka berubah menjadi perlambatan dan kesalahan sehari-hari akibat drift data dan model.
LLM membuat ini lebih sulit: Dengan kode biasa, Anda setidaknya bisa menalar setiap cabang, tetapi tak seorang pun bisa menjelaskan secara mekanistik mengapa sebuah model menghasilkan apa yang dihasilkannya, sehingga masukan yang sama tak pernah dijamin memberi keluaran yang sama. Hasil aneh sesekali tidak bisa direkayasa agar hilang.
Jadi Anda berhenti mencoba membuktikan sistem sudah benar sebelum dikirim. Sebagai gantinya, Anda
- Menulis evaluasi untuk perilaku yang Anda inginkan
- Memantau di produksi
- Menjaga kontrol berhenti untuk rollout yang memburuk.
Pertanyaannya bukan lagi apakah ia lolos, melainkan apakah masalah itu insiden satu kali atau awal dari sebuah tren.
Sinyal langsung itu bukan sekadar dasbor untuk manusia. Terhubung ke sistem deployment, sinyal ini memungkinkan agen meluncurkan perubahan seperti insinyur yang berhati-hati—ke satu persen pengguna, lalu lima—menilai dari data nyata apakah perubahan tersebut melakukan apa yang dimaksudkan.
Pelajaran 3: Biarkan Agen Menangani Pekerjaan Melelahkan
Alasan Lê-Quôc untuk agen bukan karena mereka menggantikan engineer, tetapi karena mereka mengambil bagian pekerjaan yang menguras manusia.
Menangani insiden berarti melempar hipotesis ke sebuah gejala, dan pada insiden panjang, seringkali hipotesis yang tampak tak masuk akal justru benar. Agen Bits AI Datadog memeriksa semuanya secara paralel, mendahului engineer, sementara manusia mengarahkannya ke intuisi yang tak akan muncul di dasbor.
Inti yang lebih dalam adalah kelelahan. On-call rollout adalah kewaspadaan mendadak diikuti berjam-jam tanpa kejadian, diulang hingga penilaian Anda menurun.
Anda berada dalam mode siaga tinggi, lalu menunggu cat mengering.
Alexis Lê-Quôc, CTO at Datadog
Agen tidak keberatan, dan tidak memburuk setelah empat jam menatap angka. Stres dan kelelahan menurunkan kinerja manusia, itulah mengapa tim melakukan rotasi on-call sejak awal.
Serahkan pengawasan tanpa lelah kepada mesin, dan orang-orang kembali bugar untuk panggilan yang membutuhkan mereka. Logika yang sama berlaku untuk triase keamanan, di mana analis rentan burnout saat memilah false positive dari ancaman nyata.
Pelajaran 4: Pisahkan Pekerjaan ke Dalam Dua Loop
Lê-Quôc mengatur pekerjaan agen Datadog di sekitar dua loop.
Loop pengembangan
Kebanyakan engineer akan mengenali loop pertama:
- Menulis kode
- Mengirimnya
- Melihat apakah berfungsi
- Memperbaikinya
- Ulangi
Pendekatan Datadog adalah bahwa masalah yang berasal dari kode biasanya memiliki perbaikannya di kode juga, sehingga platform berusaha memberikan perbaikan itu kepada Anda, diinformasikan oleh pengetahuan tentang aplikasi: kepemilikannya, perubahan terbaru, dan error yang muncul.
Ia menunjuk optimasi query database sebagai contoh. Model apa pun bisa menulis ulang query yang lambat; bagian yang lebih sulit adalah membuktikan penulisan ulang itu lebih cepat dan aman sebelum mencapai produksi, sehingga Datadog mengujinya terhadap salinan realistis data produksi terlebih dahulu dan menyerahkan pull request dengan bukti terlampir.
Loop operasi dan keamanan
Loop lainnya berjalan paralel, oleh orang yang sama atau tim berbeda:
- Deteksi
- Investigasi
- Perbaikan
- Ulangi
Di sinilah AI Guard Datadog melakukan triase peristiwa keamanan dan memblokir serangan lebih cepat daripada analis yang menanganinya manual. Agen juga bisa menangani tugas operasional rutin yang setiap hari dilakukan engineer tanpa banyak antusiasme, seperti mengubah ukuran satu pod Kubernetes itu.
Di kedua loop, Lê-Quôc tegas soal urutan operasi. Datadog tidak memulai dari "ini AI, masalah apa yang bisa diselesaikan?" Mereka mulai dari masalah yang sudah dikeluhkan pelanggan, biasanya versi dari "Saya tidak ingin melakukan hal berulang ini", lalu menilai apakah agen bisa dipercaya untuk menanganinya.
Pelajaran 5: Jaga Pengeluaran AI Tetap Terkendali
Biaya adalah kendala yang duduk berdampingan dengan keamanan, dan menjaga biaya operasionalisasi large language model tetap terkendali menjadi disiplin tersendiri. Jawaban Lê-Quôc di DASH adalah Agent Console milik Datadog.
Tanya developer model apa yang mereka butuhkan, dan seringnya mereka menyebut yang paling kuat (dan mahal). Kadang itu pilihan tepat, namun banyak pekerjaan adalah boilerplate yang bisa ditangani model lebih murah dan cepat dengan sama baiknya. Membedakan keduanya berarti membaca trajektori agen organisasi: alat apa yang mereka panggil, seberapa sering berhasil, hingga pola muncul.
Pola tersebut menjadi heuristik, bukan aturan: model frontier seperti Claude Opus atau model GPT terbaru untuk perencanaan, sesuatu yang murah seperti Claude Haiku untuk menghasilkan uji.
| Tugas | Tingkat model | Alasan |
|---|---|---|
| Perencanaan dan penalaran sulit | Frontier (mis., Claude Opus, GPT) | Penalaran terkuat layak biayanya di sini |
| Kode rutin, boilerplate | Tingkat menengah (mis., Claude Sonnet, GPT-mini) | Cukup mumpuni, dan jauh lebih murah untuk sering dijalankan |
| Menghasilkan uji dan transformasi sederhana | Murah, cepat (mis., Claude Haiku, GPT-nano) | Kecepatan dan harga unggul selama kualitas terjaga |
Prinsip di baliknya adalah tentang siapa yang memegang keputusan. Jika biaya digulung menjadi satu angka, Anda mendapat apa yang Lê-Quôc sebut "sangat rendah dapat ditindaklanjuti": entah semua orang berhenti belanja, yang mematikan pekerjaan bermanfaat, atau semua orang terus belanja, yang tak dapat ditanggung bisnis. Ia lebih memilih menaruh data di depan developer dan SRE yang memilih model.
Pelajaran 6: Belajar Cara Belajar
Saat ditanya apa yang harus dipelajari engineer baru, Lê-Quôc memberi jawaban yang terdengar klasik namun sebenarnya tidak.
Anda harus belajar cara belajar.
Alexis Lê-Quôc, CTO at Datadog
Model adalah tutor paling sabar yang pernah ada, mampu menjelaskan apa pun dalam kecepatan apa pun—tingkat akses yang dulu hanya dimiliki kaum bangsawan dengan guru pribadi. Namun tutor hanya berguna jika Anda menginterogasinya. Keahliannya adalah tahu apa yang ditanyakan dan bagaimana memeriksa jawabannya.
Ia menyarankan memahami komputer lapis demi lapis alih-alih menganggapnya sebagai sihir. Ambil scheduler, load balancer, sandbox, dan minta model menjelaskan cara kerjanya, lalu terus dorong:
- Apa arti istilah ini?
- Bagaimana cara mengukurnya?
- Apa matematika di baliknya?
- Bagaimana Anda tahu itu bekerja dengan baik?
Mempelajari klasik dengan cara ini memang sengaja lambat. Ia membandingkannya dengan belajar alat musik; Anda bisa mendengarkan musik sepanjang hari, tetapi untuk bermain piano, Anda harus meletakkan tangan di atas tuts.
Hal yang sama berlaku untuk kode yang ditulis AI. Vibe coding tidak masalah, katanya, asalkan Anda kembali dan bertanya mengapa itu berhasil: mengapa dibangun seperti itu, adakah pendekatan yang lebih baik, apa acuannya. Tujuannya bukan menulis lebih sedikit kode dengan AI. Tujuannya adalah memahami kode yang kini Anda hasilkan jauh lebih banyak.
Pemikiran Akhir
Pesan utama Lê-Quôc adalah bahwa loop-nya tidak berubah, namun temponya berubah. Yang berbeda adalah tak ada manusia yang bisa mengawasi cukup dekat pada kecepatan gerak AI saat ini, sehingga pengawasan—dan porsi pembangunan yang kian besar—beralih ke agen yang tidak lelah dan tidak panik.
Ia menganjurkan memperlakukan observabilitas sebagai control plane, bukan sekumpulan grafik. Jika agen akan menulis, menguji, mengirim, dan mengoperasikan perangkat lunak, mereka memerlukan landasan data produksi nyata yang sama seperti yang diandalkan engineer yang baik, ditambah seorang manusia yang memegang keputusan penilaian dan tombol berhenti. Datadog memosisikan observabilitas sebagai lapisan yang membuat pertukaran itu aman.
Keahlian yang diminta kerangka ini dari para engineer jelas: membaca sistem melalui perilakunya di produksi, bukan hanya melalui source code. Jika Anda ingin membangun kebiasaan itu, skill track Machine Learning in Production kami adalah tempat yang baik untuk mulai.

Tom adalah seorang ilmuwan data dan pendidik teknis. Ia menulis dan mengelola tutorial serta artikel blog ilmu data DataCamp. Sebelumnya, Tom bekerja di bidang ilmu data di Deutsche Telekom.

