Quan sát LLM: 6 bài học từ CTO của Datadog

Trước thềm DASH 2026, đồng sáng lập Datadog Alexis Lê-Quôc giải thích cách AI thay đổi việc rà soát mã, vì sao sản xuất là bài kiểm tra thực sự, và nơi các tác tử nên đảm nhiệm.

Đã cập nhật 9 thg 6, 2026 · 9 phút đọc

Khám phá với AI

Mở trong ChatGPT Mở trong Claude Mở trong Perplexity

Các nhóm kỹ sư đang phát hành nhiều mã hơn mức họ có thể đọc. Trợ lý AI hiện viết một phần lớn trong số đó, nhanh hơn bất kỳ người rà soát nào có thể theo kịp từng dòng. Sự dịch chuyển này là bối cảnh cho hội nghị DASH của Datadog tại New York tuần này, nơi đồng sáng lập kiêm CTO Alexis Lê-Quôc chủ trì phiên "Hình hài mới của kỹ nghệ phần mềm".

Lập luận của ông khá thẳng thắn. Cách các nhóm vận hành phần mềm không thay đổi: bạn phát hành một thay đổi, triển khai và quan sát chuyện gì xảy ra; nhưng khối lượng và nhịp độ thì đã đổi, và điều đó làm thay đổi cách giữ an toàn cho hệ thống.

Trong bài viết này, tôi sẽ chia tư duy của ông thành sáu bài học cốt lõi, từ thay đổi trong quy trình rà soát cho đến việc coi sản xuất là bài kiểm tra tối hậu, và bạn nên rút ra điều gì.

Nếu bạn mới làm quen với khái niệm quan sát LLM, tôi khuyến nghị đọc các hướng dẫn khởi động về MLOps và đánh giá LLM làm điểm bắt đầu.

Tóm lược

Sợi chỉ xuyên suốt của Lê-Quôc là quan sát trở thành lớp điều khiển cho phần mềm do AI viết, kiểm thử và phát hành, cả với con người vận hành lẫn với chính các tác tử.

Sáu bài học, tóm tắt:

Rà soát rời khỏi chính mã nguồn. Có quá nhiều mã do AI viết để đọc từng dòng, nên bước kiểm thực sự là các bài kiểm thử, đặc tả và chứng minh bạn thiết kế từ đầu, kể cả việc phòng các tác tử tìm cách lách bài kiểm thử đó.
Sản xuất là bài kiểm tra duy nhất có ý nghĩa. CI xanh chẳng nói lên nhiều điều khi người dùng thật chạm vào những giả định bạn không thể kiểm tra trước, và đầu ra của mô hình không bao giờ chắc chắn hoàn toàn, nên bạn cần giám sát trực tiếp và luôn có nút dừng.
Để tác tử gánh phần việc mệt mỏi. Giao cho chúng việc canh dashboard và lần theo giả thuyết khiến con người kiệt sức, còn người làm những quyết định cần phán đoán cao.
Chia công việc thành hai vòng lặp: Dùng vòng phát triển (viết, phát hành, kiểm, sửa) và vòng vận hành–bảo mật (phát hiện, điều tra, khắc phục).
Giữ chi tiêu AI trong tầm kiểm soát. Chọn đúng mô hình cho đúng việc bằng dữ liệu quỹ đạo của tác tử, và để quyết định đó cho các lập trình viên và SRE chịu trách nhiệm.
Học cách học. Các mô hình là gia sư kiên nhẫn, nhưng kỹ năng là biết chất vấn chúng: hiểu hệ thống theo từng lớp, và hỏi vì sao đoạn mã chúng viết thực sự hoạt động.

Bài học 1: AI đã phá vỡ cách rà soát mã cũ

Hãy bắt đầu với áp lực kéo theo mọi thứ khác: có nhiều mã hơn mức bất kỳ ai có thể đọc.

Lê-Quôc thẳng thắn rằng mô hình cũ—một người đọc pull request từng dòng—không còn trụ nổi trước phát triển có trợ lực AI. Mối lo ông nghe khắp ngành là việc rà soát trở nên bất khả thi vì có quá nhiều thứ diễn ra để theo kịp bằng cách đọc PR.

Phản ứng của ông không phải là bảo mọi người đọc nhanh hơn, mà là chuyển việc rà soát sang chỗ khác.

Việc rà soát không còn ở từng dòng mã nữa; quá nhiều, bạn không thể theo kịp. Trọng tâm là những bài kiểm thử ta thiết kế từ đầu, và dặn tác tử đừng gian lận chúng.
Alexis Lê-Quôc, CTO at Datadog

Vế cuối cùng đó rất dễ bỏ sót. Khi bạn điều phối một tác tử để lập kế hoạch, một tác tử để viết và một tác tử để kiểm thử, bạn cũng phải ngăn kẻ viết "lách" các bài kiểm thử tự động thay vì giải quyết vấn đề.

Ông còn đi xa hơn kiểm thử. Datadog giờ bổ sung các chứng minh bán hình thức và hình thức rằng một đặc tả làm đúng như yêu cầu—điều quá nặng nhọc để triển khai rộng rãi trước khi có tác tử gánh phần khó. Cách này hiệu quả nhất với hệ thống backend và điều phối, nơi hành vi đủ tính toán để suy luận chính xác.

Bài học 2: Sản xuất là bài kiểm tra duy nhất có ý nghĩa

Vượt qua mọi bài kiểm tra trong CI là điều kiện cần nhưng còn lâu mới đủ. Những lỗi quan trọng xảy ra về sau.

Nơi thực sự quan trọng là môi trường sản xuất.
Alexis Lê-Quôc, CTO at Datadog

Mỗi lần phát hành đều dựa trên các giả định bạn không thể kiểm tra hết trước, về hình dạng dữ liệu và cách người dùng hành xử. Đưa các giả định đó ra trước đủ lượng truy cập thực, và các ca hiếm sẽ thôi hiếm; chúng trở thành những chậm trễ và lỗi thường ngày do trôi dạt dữ liệu và mô hình.

LLM làm điều này khó hơn: Với mã thông thường, bạn ít nhất có thể suy luận mọi nhánh, nhưng không ai có thể giải thích cơ chế vì sao một mô hình trả về điều nó trả về, nên cùng một đầu vào không bao giờ đảm bảo cùng đầu ra. Những kết quả lạ lùng đôi khi không thể triệt tiêu bằng kỹ thuật.

Vì vậy bạn ngừng cố chứng minh hệ thống đúng trước khi phát hành. Thay vào đó, bạn

Viết đánh giá cho hành vi bạn mong muốn
Giám sát trong sản xuất
Giữ một cơ chế dừng khi đợt triển khai chuyển xấu.

Câu hỏi không còn là có vượt qua hay không, mà là vấn đề đó chỉ xảy ra một lần hay là khởi đầu của một xu hướng.

Tín hiệu trực tiếp đó không chỉ là một bảng điều khiển cho con người. Khi được nối vào hệ thống triển khai, nó cho phép một tác tử phát hành dần dần như một kỹ sư thận trọng: tới 1% người dùng, rồi 5%, và dựa vào dữ liệu thực để đánh giá thay đổi có đạt như mong muốn hay không.

Bài học 3: Để tác tử gánh phần việc mệt mỏi

Lê-Quôc lập luận về tác tử không phải để thay thế kỹ sư, mà để chúng đảm nhiệm những phần công việc bào mòn con người.

Khắc phục sự cố nghĩa là tung hàng loạt giả thuyết vào một triệu chứng, và trong các sự cố kéo dài, thường chính giả thuyết nghe xa vời lại đúng. Tác tử Bits AI của Datadog kiểm tra tất cả song song, đi trước kỹ sư, trong khi con người điều hướng nó theo trực giác mà dashboard sẽ không bao giờ gợi ý.

Điểm sâu xa là sự mệt mỏi. Trực on-call là trạng thái cảnh giác cao độ rồi hàng giờ không có gì, lặp đi lặp lại đến khi phán đoán của bạn mòn mỏi.

Bạn ở chế độ báo động cao, rồi lại ngồi nhìn sơn khô.
Alexis Lê-Quôc, CTO at Datadog

Một tác tử thì không bận tâm, và nó cũng không tệ đi sau bốn giờ dán mắt vào con số. Căng thẳng và mệt mỏi làm suy giảm hiệu suất con người, đó là lý do các đội phải xoay vòng người trực on-call ngay từ đầu.

Giao việc canh chừng không biết mệt cho máy, và con người trở lại với tinh thần tốt hơn cho những quyết định cần họ. Lý lẽ tương tự áp dụng cho phân loại bảo mật, nơi các nhà phân tích kiệt sức vì lọc dương tính giả khỏi mối đe doạ thực.

Bài học 4: Chia công việc thành hai vòng lặp

Lê-Quôc tổ chức công việc về tác tử của Datadog quanh hai vòng lặp.

Vòng lặp phát triển

Hầu hết kỹ sư sẽ nhận ra vòng đầu tiên:

Viết mã
Phát hành
Xem có hoạt động không
Sửa
Lặp lại

Góc nhìn của Datadog là vấn đề phát sinh từ mã thì thường có cách khắc phục cũng bằng mã, nên nền tảng cố gắng đưa cho bạn bản sửa đó, dựa trên những gì nó biết về ứng dụng: ai sở hữu, thay đổi gần đây, và lỗi đã phát sinh.

Ông lấy tối ưu hoá truy vấn cơ sở dữ liệu làm ví dụ. Bất kỳ mô hình nào cũng có thể viết lại một truy vấn chậm; phần khó hơn là chứng minh bản viết lại nhanh hơn và an toàn trước khi vào sản xuất, nên Datadog kiểm thử nó với bản sao dữ liệu sản xuất thực tế trước, rồi gửi kèm pull request với bằng chứng.

Vòng lặp vận hành và bảo mật

Vòng còn lại chạy song song, do cùng người hoặc đội khác thực hiện:

Phát hiện
Điều tra
Khắc phục
Lặp lại

Đây là nơi AI Guard của Datadog phân loại sự kiện bảo mật và chặn tấn công nhanh hơn một nhà phân tích xử lý thủ công. Tác tử cũng có thể xử lý các việc vận hành thường nhật mà kỹ sư làm mỗi ngày không mấy hứng thú, như đổi kích thước cái pod Kubernetes kia.

Ở cả hai vòng lặp, Lê-Quôc nhấn mạnh thứ tự ưu tiên. Datadog không bắt đầu từ "đây là AI, giải được vấn đề gì?" mà bắt đầu từ một vấn đề khách hàng đã phàn nàn—thường là biến thể của "tôi không muốn làm việc lặp đi lặp lại này"—rồi lần ngược xem một tác tử có thể được tin cậy giao việc đó hay không.

Bài học 5: Giữ chi tiêu AI trong tầm kiểm soát

Chi phí là ràng buộc ngồi cạnh an toàn, và việc giữ giá thành đưa mô hình ngôn ngữ lớn vào vận hành trong tầm kiểm soát đang trở thành một kỷ luật riêng. Câu trả lời của Lê-Quôc tại DASH là Agent Console của Datadog.

Hỏi một lập trình viên họ cần mô hình nào, và thường họ sẽ nêu mô hình mạnh nhất (và đắt nhất). Đôi khi đó là lựa chọn đúng, nhưng nhiều việc là khuôn mẫu mà một mô hình rẻ hơn, nhanh hơn xử lý tốt không kém. Phân biệt hai loại nghĩa là đọc các quỹ đạo của tác tử trong tổ chức, công cụ chúng gọi, và tỉ lệ thành công—cho đến khi mẫu hình hiện ra.

Những mẫu hình đó trở thành kinh nghiệm thay vì quy tắc: mô hình tuyến đầu như Claude Opus hay các mô hình GPT mới nhất cho lập kế hoạch; loại rẻ như Claude Haiku để sinh kiểm thử.

Nhiệm vụ	Hạng mô hình	Lý do
Lập kế hoạch và suy luận khó	Tuyến đầu (ví dụ: Claude Opus, GPT)	Năng lực suy luận mạnh nhất đáng chi phí ở đây
Mã lặp lại, khuôn mẫu	Tầm trung (ví dụ: Claude Sonnet, GPT-mini)	Đủ khả năng, và rẻ hơn nhiều để chạy thường xuyên
Sinh kiểm thử và biến đổi đơn giản	Rẻ, nhanh (ví dụ: Claude Haiku, GPT-nano)	Tốc độ và giá thành thắng khi chất lượng vẫn đảm bảo

Nguyên tắc bên dưới là về quyền sở hữu quyết định. Cuộn chi phí thành một con số duy nhất, bạn sẽ nhận thứ Lê-Quôc gọi là "tính khả thi rất thấp": hoặc ai cũng ngừng chi, giết chết công việc hữu ích, hoặc ai cũng tiếp tục chi, điều doanh nghiệp không chịu nổi. Ông muốn đặt dữ liệu trước mặt các lập trình viên và SRE—những người chọn mô hình.

Bài học 6: Học cách học

Khi được hỏi các kỹ sư mới nên học gì, Lê-Quôc đưa ra câu trả lời nghe cũ mà không cũ.

Bạn phải học cách học.
Alexis Lê-Quôc, CTO at Datadog

Các mô hình là gia sư kiên nhẫn nhất từng có, có thể giải thích bất cứ điều gì với bất kỳ nhịp độ nào—mức độ tiếp cận từng dành cho giới quý tộc có thầy riêng. Nhưng gia sư chỉ hữu dụng nếu bạn chất vấn họ. Kỹ năng là biết hỏi gì và kiểm tra câu trả lời ra sao.

Ông khuyến nghị hiểu máy tính theo từng lớp thay vì coi chúng là phép màu. Lấy một bộ lập lịch, bộ cân bằng tải, sandbox và yêu cầu một mô hình giải thích cách nó hoạt động, rồi tiếp tục đào sâu:

Thuật ngữ này nghĩa là gì?
Đo lường nó như thế nào?
Toán học đằng sau là gì?
Làm sao biết nó hoạt động tốt?

Học các kinh điển theo cách này là cố ý chậm. Ông ví như học nhạc cụ; bạn có thể nghe nhạc cả ngày, nhưng để chơi piano, bạn phải đặt tay lên phím.

Điều tương tự áp dụng cho mã do AI viết. Vibe coding là ổn, ông nói, miễn là bạn quay lại và hỏi vì sao nó hoạt động: vì sao thiết kế như vậy, còn cách nào tốt hơn, nó được mô phỏng theo đâu. Mục tiêu không phải là viết ít mã hơn với AI. Mà là hiểu lượng mã bạn nay tạo ra nhiều hơn rất nhiều.

Lời kết

Thông điệp trung tâm của Lê-Quôc là vòng lặp không đổi, nhưng nhịp độ đã đổi. Điều khác biệt là không con người nào có thể quan sát đủ sát với tốc độ AI vận hành hiện nay, nên việc quan sát—và một phần ngày càng lớn của việc xây dựng—được chuyển cho các tác tử không biết mệt và không hoảng loạn.

Ông đề xuất coi quan sát như một mặt phẳng điều khiển thay vì một tập biểu đồ. Nếu tác tử sẽ viết, kiểm thử, phát hành và vận hành phần mềm, chúng cần cùng nền tảng dữ liệu sản xuất thực mà các kỹ sư giỏi dựa vào, cộng với một con người nắm các quyết định phán đoán và nút dừng. Datadog đang định vị quan sát là lớp giúp trao đổi đó an toàn.

Kỹ năng mà cách tiếp cận này đòi hỏi ở kỹ sư là rõ ràng: đọc hệ thống qua cách chúng hành xử trong sản xuất, không chỉ qua mã nguồn. Nếu bạn muốn xây thói quen đó, lộ trình kỹ năng Machine Learning in Production của chúng tôi là nơi tốt để bắt đầu.

Author

Tom Farnschläder

Chủ đề

AI Agents

AI for Business

Các khóa học Kỹ thuật AI hàng đầu

Tracks

Kỹ sư Trợ lý Trí tuệ Nhân tạo (AI) cho Lập trình viên

26 giờ

Học cách tích hợp trí tuệ nhân tạo (AI) vào các ứng dụng phần mềm thông qua việc sử dụng các giao diện lập trình ứng dụng (API) và các thư viện mã nguồn mở. Hãy bắt đầu hành trình trở thành Kỹ sư Trí tuệ Nhân tạo ngay hôm nay!

Xem chi tiết

Bắt Đầu Khóa Học

Tracks

Trí tuệ nhân tạo trong Kỹ thuật phần mềm

7 giờ

Viết mã và phát triển ứng dụng phần mềm nhanh hơn bao giờ hết với các công cụ phát triển AI mới nhất, bao gồm GitHub Copilot, Windsurf và Replit.

Xem chi tiết

Bắt Đầu Khóa Học

Courses

Các khái niệm về LLMOps

1 giờ

16.7K

Tìm hiểu về LLMOps từ ý tưởng đến triển khai, nắm bắt các thông tin về vòng đời và thách thức, và học cách áp dụng các khái niệm này vào ứng dụng của bạn.

Xem chi tiết

Bắt Đầu Khóa Học

Xem thêm

Có liên quan

blogs

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Mô hình mới nhất của Anthropic dẫn đầu bảng xếp hạng về mã hóa theo hướng tác nhân và suy luận phức tạp. Thêm nữa, nó có cửa sổ ngữ cảnh 1M.

Matt Crabtree

10 phút

Xem Thêm Xem Thêm

Tóm lược

Bài học 1: AI đã phá vỡ cách rà soát mã cũ

Việc rà soát không còn ở từng dòng mã nữa; quá nhiều, bạn không thể theo kịp. Trọng tâm là những bài kiểm thử ta thiết kế từ đầu, và dặn tác tử đừng gian lận chúng.

Bài học 2: Sản xuất là bài kiểm tra duy nhất có ý nghĩa

Nơi thực sự quan trọng là môi trường sản xuất.

Bài học 3: Để tác tử gánh phần việc mệt mỏi

Bạn ở chế độ báo động cao, rồi lại ngồi nhìn sơn khô.

Bài học 4: Chia công việc thành hai vòng lặp

Vòng lặp phát triển

Vòng lặp vận hành và bảo mật

Bài học 5: Giữ chi tiêu AI trong tầm kiểm soát

Bài học 6: Học cách học

Bạn phải học cách học.

Lời kết

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Kỹ sư Trợ lý Trí tuệ Nhân tạo (AI) cho Lập trình viên

Trí tuệ nhân tạo trong Kỹ thuật phần mềm

Các khái niệm về LLMOps

Claude Opus 4.6: Tính năng, điểm chuẩn, các bài kiểm tra thực hành và hơn thế nữa

Kỹ sư Trợ lý Trí tuệ Nhân tạo (AI) cho Lập trình viên