Program
Mühendislik ekipleri, okuyabileceklerinden daha fazla kod yayımlıyor. Yapay zekâ asistanları artık bunun büyük bir bölümünü yazıyor ve bunu, herhangi bir inceleyenin satır satır yetişebileceğinden daha hızlı yapıyor. Bu değişim, Datadog'un bu hafta New York'ta gerçekleştirilen DASH konferansına zemin hazırlıyor; burada kurucu ortak ve CTO Alexis Lê-Quôc "Mühendisliğin Yeni Şekli" başlıklı bir oturum yönetiyor.
Onun argümanı basit. Ekiplerin yazılımı işletme biçimi değişmedi: bir değişiklik yaparsınız, yayına alırsınız ve ne olduğuna bakarsınız; ama hacim ve tempo değişti ve bu da güvenliği sağlayan şeyi değiştiriyor.
Bu yazıda, onun düşüncelerini altı temel derse ayıracağım: inceleme sürecindeki değişimlerden üretimi nihai test olarak kullanmaya ve sizin bundan neler öğrenmeniz gerektiğine kadar.
LLM gözlemlenebilirliği kavramına yeniyseniz, başlangıç olarak MLOps'a başlama ve LLM değerlendirme rehberlerimizi okumanızı öneririm.
Kısaca
Lê-Quôc'un ana hattı şu: gözlemlenebilirlik, yapay zekânın yazdığı, test ettiği ve yayımladığı yazılımlar için—hem bunları işleten insanlar hem de ajanlar adına—kontrol katmanına dönüşüyor.
Altı dersin özeti:
- İnceleme, kodun kendisinden uzaklaşıyor. Satır satır okunamayacak kadar çok yapay zekâ kaynaklı kod var; bu yüzden gerçek kontrol, baştan tasarladığınız testler, teknik şartnameler ve ispatlarda yatıyor—testleri manipüle eden ajanlara karşı koruma dâhil.
- Üretim, tek geçerli testtir. CI'da yeşil sonuç, gerçek kullanıcılar önceden doğrulayamadığınız varsayımlara çarptığında pek bir şey kanıtlamaz ve bir modelin çıktısı asla tamamen kesin değildir; bu yüzden canlı izleme yapar ve bir durdurma düğmesini elinizde tutarsınız.
- Angaryayı ajanlara bırakın. İnsanları yoran pano izleme ve hipotez kovalamayı onlara devredin; yüksek muhakeme gerektiren kararlar insanlarda kalsın.
- İşi iki döngüye bölün: Bir geliştirme döngüsü (yaz, yayımla, doğrula, düzelt) ve bir operasyon-güvenlik döngüsü (tespit et, araştır, çözüme ulaştır) kullanın.
- Yapay zekâ harcamasını kontrol altında tutun. Hangi işi hangi modelin yapacağını ajan yol verileriyle doğru boyutlandırın ve bu kararı alan geliştiriciler ve SRE'lerde bırakın.
- Öğrenmeyi öğrenin. Modeller sabırlı eğitmenlerdir; asıl beceri, onları sorgulamaktır: sistemleri katman katman anlamak ve yazdıkları kodun neden gerçekten çalıştığını sormak.
Ders 1: Yapay Zekâ, Eski Kod İnceleme Yöntemini Bozdu
Her şeyi tetikleyen baskıyla başlayalım: Herkesin okuyabileceğinden daha fazla kod var.
Lê-Quôc, eski modelin—bir insanın çekme isteğini satır satır okumasının—yapay zekâ destekli geliştirme karşısında ayakta kalamadığını açıkça söylüyor. Sektörde duyduğu kaygı, incelemelerin imkânsız hâle gelmesi; çünkü PR okuyarak takip etmek için ortada çok fazla hareket var.
Onun yanıtı, insanlardan daha hızlı okumalarını istemek değil; incelemeyi başka bir yere taşımak.
İnceleme artık kod satırı değil; çok fazla var, yetişemezsiniz. Mesele, baştan nasıl testler tasarladığımız ve ajana bu testleri kandırmamasını söylemek.
Alexis Lê-Quôc, CTO at Datadog
Son kısım gözden kaçabilir. Bir ajanın planlaması, bir başkasının yazması ve diğerinin test etmesini orkestre ettiğinizde, yazanı da sorunu çözmek yerine otomatik testleri oynamaktan alıkoymanız gerekir.
O testlerin ötesine geçiyor. Datadog artık bir teknik şartnamenin yapılması gerekeni yaptığını gösteren yarı biçimsel ve biçimsel ispatlar ekliyor; bu, ajanlar ağır işi devralmadan önce yaygın biçimde girişmeyecek kadar zahmetliydi. Bu yaklaşım, davranışın yeterince matematiksel olduğu arka uç ve koordinasyon sistemlerinde en iyi çalışıyor.
Ders 2: Üretim Tek Geçerli Testtir
CI'daki tüm testleri geçmek gerekli ama asla yeterli değil. Önemli hatalar daha sonra gerçekleşir.
Gerçekten önemli olan yer, üretimdir.
Alexis Lê-Quôc, CTO at Datadog
Her sürüm, verinin şekli ve kullanıcı davranışı hakkında önceden tam olarak doğrulayamayacağınız varsayımlara dayanır. Bu varsayımları yeterince gerçek trafiğe maruz bıraktığınızda, nadir vakalar nadir olmaktan çıkar; veri ve model kaymasının günlük yavaşlamaları ve hataları hâline gelir.
LLM'ler bunu zorlaştırır: Sıradan kodda en azından her dalı mantıksal olarak değerlendirebilirsiniz; ancak kimse bir modelin neden belirli bir çıktıyı verdiğini mekanik olarak açıklayamaz; dolayısıyla aynı girdinin her zaman aynı çıktıyı vereceği garanti edilmez. Ara sıra görülen tuhaf sonuçlar mühendislikle tamamen ortadan kaldırılamaz.
Bu yüzden, bir sistemi yayına almadan önce doğru olduğunu kanıtlama çabasını bırakırsınız. Bunun yerine şunları yaparsınız:
- İstediğiniz davranış için değerlendirmeler yazın
- Üretimde izleyin
- Kötüye giden bir yayılım için bir durdurma kontrolü elinizde bulunsun.
Artık soru, geçip geçmediği değil; bir sorunun tek seferlik mi yoksa bir trendin başlangıcı mı olduğudur.
Canlı sinyal yalnızca insanlar için bir pano değildir. Dağıtım sistemine bağlandığında, bir ajanın temkinli bir mühendisin yapacağı gibi bir değişikliği önce kullanıcıların yüzde birine, sonra yüzde beşine yaymasına ve gerçek verilere bakarak değişikliğin amaçlandığı şeyi yapıp yapmadığına karar vermesine olanak tanır.
Ders 3: Angaryayı Ajanlara Bırakın
Lê-Quôc'un ajanlar için tezi, mühendislerin yerini aldıkları değil; insanları yıpratan iş kısımlarını üstlendikleridir.
Bir olayı sorun gidermek, bir semptoma hipotezler fırlatmak demektir ve uzun süren olaylarda çoğu zaman asıl doğru çıkan, uzak ihtimalli olandır. Datadog'un Bits AI ajanı, bir mühendis devreye girmeden tümünü paralel şekilde kontrol eder; insan ise bir panoda asla görünmeyecek sezgiye doğru onu yönlendirir.
Daha derin nokta yorgunluktur. Nöbetçi bir yayılım, ani bir teyakkuzun ardından saatlerce süren hareketsizliktir; bu tekrarlandıkça muhakemeniz yıpranır.
Yüksek alarm modundasınız ve sonra boyanın kurumasını izliyorsunuz.
Alexis Lê-Quôc, CTO at Datadog
Bir ajan için fark etmez ve saatlerce sayılara bakınca performansı kötüleşmez. Stres ve yorgunluk insan performansını düşürür; bu yüzden ekipler zaten nöbeti insanları döndürerek yürütür.
Bitmeyen izlemeyi makineye devredin; insanlar onlara ihtiyaç duyulan çağrılar için dinlenmiş dönsün. Aynı mantık, analistlerin yalancı pozitifleri gerçek tehditlerden ayırmaya çalışırken tükendiği güvenlik triyajı için de geçerlidir.
Ders 4: İşi İki Döngüye Bölün
Lê-Quôc, Datadog'un ajan çalışmalarını iki döngü etrafında düzenliyor.
Geliştirme döngüsü
Çoğu mühendis ilk döngüyü tanıyacaktır:
- Kod yaz
- Yayımla
- Çalışıp çalışmadığını gör
- Düzelt
- Tekrarla
Datadog'un yaklaşımı, kökeni kod olan bir sorunun çözümünün de genellikle kodda olduğudur; bu yüzden platform, uygulama hakkında bildiklerinden hareketle—sahipliği, yakın değişiklikleri ve fırlattığı hatalar—size bu çözümü sunmaya çalışır.
Örnek olarak veritabanı sorgusu iyileştirmesini gösteriyor. Herhangi bir model yavaş bir sorguyu yeniden yazabilir; zor olan kısım, üretime ulaşmadan önce yeniden yazımın daha hızlı ve güvenli olduğunu kanıtlamaktır. Bu yüzden Datadog, önce üretim verisinin gerçekçi bir kopyası üzerinde test eder ve kanıtı ekli bir çekme isteği teslim eder.
Operasyon ve güvenlik döngüsü
Diğer döngü paralel çalışır; aynı kişiler veya farklı bir ekip tarafından:
- Tespit
- İnceleme
- Düzeltme
- Tekrarla
Burada Datadog'un AI Guard'ı güvenlik olaylarını triyajlar ve saldırıları, bir analistin elle çalışmasından daha hızlı engeller. Ajanlar ayrıca mühendislerin her gün pek istekli olmadan yaptığı rutin operasyonel işleri de üstlenebilir; örneğin o tek Kubernetes pod'unun boyutunu ayarlamak gibi.
Her iki döngüde de Lê-Quôc işlem sırası konusunda nettir. Datadog, "işte yapay zekâ, hangi sorunu çözebilir?" diye başlamaz. Müşterilerin zaten şikâyet ettiği bir problemden yola çıkar—genellikle "bu tekrarlayan işi yapmak istemiyorum"un bir varyantı—ve buradan geriye doğru giderek bir ajana güvenilip güvenilemeyeceğini değerlendirir.
Ders 5: Yapay Zekâ Harcamasını Kontrol Edin
Maliyet, güvenliğin yanında duran kısıttır ve büyük dil modellerini üretimde çalıştırmanın fiyatını kontrol altında tutmak başlı başına bir disiplin hâline geliyor. Lê-Quôc'un DASH'teki yanıtı Datadog'un Agent Console'u.
Bir geliştiriciye hangi modele ihtiyaç duyduğunu sorun; çoğu zaman en güçlü (ve en pahalı) olanın adını verir. Bazen bu doğru seçimdir; ancak işlerin büyük bölümü, daha ucuz ve hızlı bir modelin aynı derecede iyi halledebileceği şablon işlerden oluşur. İkisini ayırt etmek, bir kuruluşun ajanlarının yolculuklarını, hangi araçları çağırdıklarını ve ne sıklıkla başarılı olduklarını okumayı; ta ki kalıplar ortaya çıkana kadar, gerektirir.
Bu kalıplar kural değil sezgisel yaklaşımlara dönüşür: planlama için en yeni Claude Opus veya GPT gibi sınır modelleri; test üretimi için Claude Haiku gibi ucuz, hızlı modeller.
| Görev | Model katmanı | Neden |
|---|---|---|
| Planlama ve zor muhakeme | Sınır (örn. Claude Opus, GPT) | En güçlü muhakeme burada maliyetini hak eder |
| Rutin, şablon kod | Orta seviye (örn. Claude Sonnet, GPT-mini) | Yeterince yetenekli ve sık çalıştırmak çok daha ucuz |
| Test üretimi ve basit dönüşümler | Ucuz, hızlı (örn. Claude Haiku, GPT-nano) | Kalite korunurken hız ve fiyat kazanır |
Alttaki ilke, kararın sahibine dairdir. Maliyeti tek bir sayıya yuvarlayın; Lê-Quôc'un "çok düşük eyleme geçirilebilirlik" dediği durumu elde edersiniz: ya herkes harcamayı durdurur—bu faydalı işleri öldürür—ya da herkes harcamaya devam eder—bu da işletmenin sürdüremeyeceği bir durumdur. O, veriyi modelleri seçen geliştiricilerin ve SRE'lerin önüne koymayı tercih eder.
Ders 6: Öğrenmeyi Öğrenin
Yeni mühendislere ne çalışmaları gerektiği sorulduğunda, Lê-Quôc eski gibi görünen ama olmayan bir cevap veriyor.
Öğrenmeyi öğrenmelisiniz.
Alexis Lê-Quôc, CTO at Datadog
Modeller şimdiye kadar icat edilmiş en sabırlı eğitmenlerdir; her şeyi, her hızda açıklayabilirler—bu düzey bir erişim, eskiden ancak özel öğretmenli kraliyet için mümkündü. Ama bir eğitmen, ancak onu sorgularsanız faydalıdır. Beceriniz, ne soracağınızı ve yanıtı nasıl kontrol edeceğinizi bilmektir.
Bilgisayarları sihir gibi görmek yerine katman katman anlamayı öneriyor. Bir zamanlayıcıyı, bir yük dengeleyiciyi, bir sandbox'ı ele alın ve bir modele nasıl çalıştığını açıklamasını isteyin; sonra zorlamaya devam edin:
- Bu terim ne anlama geliyor?
- Nasıl ölçersiniz?
- Arkasındaki matematik nedir?
- İyi çalıştığını nasıl anlarsınız?
Klasikleri bu şekilde çalışmak kasıtlı olarak yavaştır. Bunu bir enstrüman öğrenmeye benzetiyor; tüm gün müzik dinleyebilirsiniz ama piyano çalmak için ellerinizi tuşlara koymanız gerekir.
Yapay zekâ tarafından yazılan kod için de aynısı geçerli. Vibe coding iyi, diyor; yeter ki geri dönüp neden çalıştığını sorun: Neden böyle inşa edildi, daha iyi yaklaşımlar var mıydı, neye göre modellenmişti. Amaç, yapay zekâ ile daha az kod yazmak değil. Artık çok daha fazlasını ürettiğiniz kodu anlamaktır.
Son Düşünceler
Lê-Quôc'un temel mesajı, döngünün değişmediği; hızın değiştiğidir. Farklı olan, artık hiçbir insanın yapay zekânın ulaştığı hızda yeterince yakından izleyememesidir; bu nedenle izleme ve inşa etmenin giderek büyüyen bir kısmı, yorulmayan ve panik yapmayan ajanlara kayar.
O, gözlemlenebilirliğin grafiklerden oluşan bir set değil; bir kontrol düzlemi olarak ele alınması gerektiğini savunuyor. Ajanlar yazılımı yazacak, test edecek, yayımlayacak ve işletecekse, iyi mühendislerin güvendiği gerçek üretim verilerine dayanmaları ve ayrıca birinin muhakeme gerektiren kararları ve durdurma düğmesini elinde tutması gerekir. Datadog, gözlemlenebilirliği bu değişimi güvenli kılan katman olarak konumlandırıyor.
Bu çerçevenin mühendislere sorduğu beceri nettir: sistemleri yalnızca kaynak kodlarından değil, üretimdeki davranışlarından okuyun. Bu alışkanlığı geliştirmek istiyorsanız, Üretimde Makine Öğrenimi beceri yolumuz iyi bir başlangıç noktasıdır.

Tom bir veri bilimci ve teknik eğitmendir. DataCamp'in veri bilimi eğitim içerikleri ve blog yazılarını yazar ve yönetir. Daha önce Tom, Deutsche Telekom'da veri bilimi alanında çalıştı.

