古德哈特定律降临你的智能体评估：为何你的绿色仪表盘不再具有任何意义

在每个智能体团队的发展历程中，都有一个特定的时刻是没有人会将其列入路线图的。你构建了一套评估套件。它捕捉到了真实的缺陷。你将其集成到持续集成（CI）流程中作为发布关卡。仪表盘显示为绿色（通过）。然后，在接下来的三个月里的某个时候，绿色不再代表任何实际意义——而所有人却仍然像它有意义一样对待它。

这就是古德哈特定律，无论你是否有所准备，它都会影响你的智能体评估工作。

“当一项指标成为目标时，它就不再是一项好的指标。”

当你的评估套件成为决定哪些功能可以发布的关键因素时，它就不再是对质量的中立衡量，而变成了你的团队努力优化的目标。这并非假设性的风险。这是默认的演变轨迹，大多数团队只有在一次“完全通过”的发布版本上线生产环境并悄然导致情况恶化后，才会察觉到这一点。

优秀的评估套件是如何腐化的

这种衰退过程平淡无奇，而这正是其危险之处。通常的演变序列如下：

你针对已经发现的缺陷编写评估用例。这很合理。但现在，你的套件衡量的是昨天的失败模式，而不是明天的。
某次变更导致一个用例失败。有人不是问“我们是否出现了回归？”，而是问“评估标准是否太严格了？”，并调整断言条件直到它变绿（通过）。
提示词针对评估集进行了调优。少样本示例逐渐偏向于你的评判模型所奖励的确切措辞。智能体在你的测试用例上表现更好，但在实际工作任务中却没有丝毫提升。
保留测试集悄然变成了训练集。你进行调试的每一个用例，都成了你过度拟合的对象。

最终结果是一个通过率为 98% 的智能体，对用户体验来说却明显更差——因为此时的分数衡量的不再是智能体完成工作的质量，而是它满足测试要求的程度。地图取代了疆域。

征兆：一个无法解释的绿色关卡

古德哈特定律生效的最清晰信号是这样的——一个发布版本通过了关卡，但团队中没有人能解释为什么某个特定的边缘案例会通过。它就是通过了。这个分数只是一个数字，背后没有任何叙事支撑。

这才是真正的问题所在。一个通过/失败的二进制位不是一个你可以进行推理的衡量指标。它是一个你只能选择信任或不信任的指标。而在缺乏审计的情况下，信任总是会逐渐倾向于绿色（通过）。

这正是我所依赖的两个工具必须作为一个整体协同工作，而不是作为独立仪表盘存在的关键结合点。

agent-eval 对输出进行评分并执行关卡检查。它运行确定性检查、模型即评判的评分标准、漂移和幻觉信号——并返回关于智能体产生了什么内容的 verdict（裁决）。

AgentLens 捕获智能体如何达成该结果的追踪记录。包括每一次模型调用和工具步骤、解析后的输入（经过模板渲染后的内容，而非原始模板），以及任何后处理之前的原始输出。

单独任何一半都不足以胜任，而这正是重点所在。单纯的评估分数是一个等待被博弈的目标。单纯的追踪记录是没有附带裁决的法证数据。你需要将 agent-eval 的分数锚定到 AgentLens 的追踪记录上，以便每一个关卡决策都附带一个“向我展示原因”的依据。当一个边缘案例的结果发生翻转时，你不必争论评估标准是否太严格——你打开追踪记录，查看解析后的提示词和确切的工具输出，并查明智能体是真正进行了正确的推理，还是仅仅在措辞上侥幸过关。

这种关联性是保持衡量指标诚实的关键。评估告诉你关卡状态发生了翻转；追踪记录告诉你这次翻转是否实至名归。