LLM 可观测性：来自 Datadog CTO 的 6 条启示

在 DASH 2026 之前，Datadog 联合创始人 Alexis Lê-Quôc 解释了 AI 如何改变代码审查、为何生产环境才是唯一有效的测试，以及哪些工作应交由智能体完成。

更新 2026年6月9日 · 9分钟读

用 AI 探索

工程团队正在交付比他们能读完的更多代码。如今，AI 助手写下了其中很大一部分，速度快到任何审阅者都无法逐行跟上。这一转变成为 Datadog 本周在纽约举办的 DASH 大会的背景，联合创始人兼 CTO Alexis Lê-Quôc 将主持一场名为“工程的新形态”的会议。

他的观点很直接。团队运营软件的方式没有变：发布变更、逐步推送、观察结果。但变化的是规模与节奏，而这改变了安全性的保障方式。

本文将把他的思考拆解为六条核心启示，从审查流程的改变，到把生产环境作为最终测试，以及您应该从中学到什么。

如果您刚接触 LLM 可观测性的概念，建议先阅读我们的 MLOps 入门和 LLM 评估指南作为起点。

Lê-Quôc 的核心主线是：可观测性将成为由 AI 编写、测试与发布的软件的控制层，既服务于负责运营的人，也服务于智能体本身。

六条启示，概括如下：

审查从代码本身移开。AI 生成的代码量过于庞大，无法逐行阅读，因此真正的检查在于您事先设计的测试、规格与证明，包括防范智能体钻测试的空子。
生产是唯一算数的测试。当真实用户触发那些您事前无法验证的假设时，CI 全绿并不能说明太多；而模型的输出从不完全确定，因此要在生产中实时监控，并保留一键回滚。
让智能体承担繁琐工作。把让人疲惫的看板盯梢与假设求证交给它们，而把需要高度判断的决策留给人。
把工作分成两个闭环：使用开发闭环（编写、发布、验证、修复）以及运维与安全闭环（检测、调查、处置）。
控制 AI 成本。借助智能体轨迹数据为不同任务匹配合适的模型，并把决策权交给做决定的开发者与 SRE。
学会如何学习。模型是耐心的导师，但关键在于提问能力：自底向上理解系统各层，并追问它写的代码为何真的有效。

审查已不在代码行本身；代码太多了，您跟不上。关键在于我们预先设计了哪些测试，并要求智能体不要“作弊”。
Alexis Lê-Quôc, CTO at Datadog

最后这一点很容易忽略。一旦您编排一个智能体负责规划、一个负责编写、另一个负责测试，您还必须阻止“编写者”利用自动化测试的规则钻空子，而不是解决问题本身。

他的做法超越了测试。Datadog 现在会为规格是否达标加入半形式化与形式化证明——在没有智能体承担繁重工作前，这样的做法过于耗力而难以普及。它在后端与协调系统中效果最佳，因为这些系统的行为足够“数学化”，便于进行精确推理。

在 CI 中通过所有测试是必要条件，但远远不够。真正重要的失败发生在后面。

真正关乎结果的地方在生产环境。
Alexis Lê-Quôc, CTO at Datadog

每次发布都建立在无法完全事前验证的假设上，涉及数据形态与用户行为。当这些假设在足够多的真实流量面前经受检验，罕见情形就不再罕见；它们会演变为日常的性能下降与错误，即数据与模型漂移。

LLM 让这更难：在普通代码中，您至少可以穷举每个分支并推理其结果，但没有人能以机械因果解释一个模型为何给出某个返回，因此相同输入也无法保证得到相同输出。偶发的离奇结果无法通过工程手段彻底消除。

因此，您不再试图在发布前证明系统绝对正确。取而代之，您要：

问题不再是“是否通过”，而是“这是一次偶发，还是趋势的开始”。

这一实时信号不仅是给人的仪表盘。将其接入部署系统，智能体就能像谨慎的工程师那样滚动发布：先放给 1% 的用户，再到 5%，并依据真实数据判断变更是否达到了预期效果。

Lê-Quôc 为智能体辩护的理由不是取代工程师，而是让它们接手那些最消磨人的工作。

排障意味着针对一个症状不断提出假设，而在持续时间很长的事故中，往往是那个“看似牵强”的假设成真。Datadog 的 Bits AI 智能体会提前并行检查所有假设，而工程师可以据直觉引导它朝向仪表盘难以显露的方向。

更深层的原因是疲劳。值班发布的节奏是瞬间紧张之后的漫长空档，如此反复，直至判断力被磨损。

您一会儿高度警觉，接着就像看油漆变干一样枯燥。
Alexis Lê-Quôc, CTO at Datadog

而智能体不会在意，也不会在盯着数字四小时后变得更糟。压力与疲劳会损害人的表现，这也是团队轮换值班的原因。

把不知疲倦的盯梢交给机器，人就能以更好的状态回到真正需要他们的决策上。安全分流同理，分析师在真假告警中反复筛查也会疲惫不堪。

Lê-Quôc 将 Datadog 的智能体工作组织为两个闭环。

大多数工程师都会对第一个闭环感到熟悉：

Datadog 的角度是：源于代码的问题，修复通常也在代码中，因此平台会尝试把修复方案直接交到您手中，并结合它对应用的了解——例如归属、近期变更与抛出的错误。

他以数据库查询优化为例。任何模型都能重写一个慢查询；更难的是在进入生产前证明重写更快且安全，因此 Datadog 会先在与生产数据高度相似的副本上进行测试，并附带证据提交一个拉取请求。

另一个闭环并行运行，可能由同一批人也可能由不同团队执行：

在这里，Datadog 的 AI Guard 会对安全事件进行分流，并以快于人工的速度阻断攻击。智能体也能处理工程师日常并不热衷的例行运维事务，比如调整某个 Kubernetes Pod 的大小。

在两个闭环中，Lê-Quôc 对先后次序的态度十分明确。Datadog 不会从“这里有 AI，它能解决什么问题？”出发，而是从客户已经抱怨的问题出发，通常是“我不想做这个重复劳动”的某种版本，然后再反推是否可以放心交给智能体。

成本与安全并列为首要约束，控制将大语言模型投入运营的价格，正在成为一门独立学问。Lê-Quôc 在 DASH 给出的答案是 Datadog 的 Agent Console。

问一位开发者需要哪个模型，他们往往会说最强（也最贵）的那个。有时这是对的，但大量工作是样板活，更便宜更快的模型同样胜任。区分两者需要阅读组织内智能体的轨迹、它们调用的工具与成功率，直至出现可识别的模式。

这些模式会形成经验法则而非硬性规则：用最新的 Claude Opus 或 GPT 等前沿模型做规划；用像 Claude Haiku 这类便宜快捷的模型生成测试。