古德哈特定律降临你的智能体评估:为何你的绿色仪表盘不再具有任何意义

发布日期:2026-06-21 10:03:08   浏览量 :9
发布日期:2026-06-21 10:03:08  
9

在每个智能体团队的发展历程中,都有一个特定的时刻是没有人会将其列入路线图的。你构建了一套评估套件。它捕捉到了真实的缺陷。你将其集成到持续集成(CI)流程中作为发布关卡。仪表盘显示为绿色(通过)。然后,在接下来的三个月里的某个时候,绿色不再代表任何实际意义——而所有人却仍然像它有意义一样对待它。

这就是古德哈特定律,无论你是否有所准备,它都会影响你的智能体评估工作。

“当一项指标成为目标时,它就不再是一项好的指标。”

当你的评估套件成为决定哪些功能可以发布的关键因素时,它就不再是对质量的中立衡量,而变成了你的团队努力优化的目标。这并非假设性的风险。这是默认的演变轨迹,大多数团队只有在一次“完全通过”的发布版本上线生产环境并悄然导致情况恶化后,才会察觉到这一点。

优秀的评估套件是如何腐化的

这种衰退过程平淡无奇,而这正是其危险之处。通常的演变序列如下:

  1. 你针对已经发现的缺陷编写评估用例。这很合理。但现在,你的套件衡量的是昨天的失败模式,而不是明天的。
  2. 某次变更导致一个用例失败。有人不是问“我们是否出现了回归?”,而是问“评估标准是否太严格了?”,并调整断言条件直到它变绿(通过)。
  3. 提示词针对评估集进行了调优。少样本示例逐渐偏向于你的评判模型所奖励的确切措辞。智能体在你的测试用例上表现更好,但在实际工作任务中却没有丝毫提升。
  4. 保留测试集悄然变成了训练集。你进行调试的每一个用例,都成了你过度拟合的对象。

最终结果是一个通过率为 98% 的智能体,对用户体验来说却明显更差——因为此时的分数衡量的不再是智能体完成工作的质量,而是它满足测试要求的程度。地图取代了疆域。

征兆:一个无法解释的绿色关卡

古德哈特定律生效的最清晰信号是这样的——一个发布版本通过了关卡,但团队中没有人能解释为什么某个特定的边缘案例会通过。它就是通过了。这个分数只是一个数字,背后没有任何叙事支撑。

这才是真正的问题所在。一个通过/失败的二进制位不是一个你可以进行推理的衡量指标。它是一个你只能选择信任或不信任的指标。而在缺乏审计的情况下,信任总是会逐渐倾向于绿色(通过)。

这正是我所依赖的两个工具必须作为一个整体协同工作,而不是作为独立仪表盘存在的关键结合点。

agent-eval 对输出进行评分并执行关卡检查。它运行确定性检查、模型即评判的评分标准、漂移和幻觉信号——并返回关于智能体产生了什么内容的 verdict(裁决)。

AgentLens 捕获智能体如何达成该结果的追踪记录。包括每一次模型调用和工具步骤、解析后的输入(经过模板渲染后的内容,而非原始模板),以及任何后处理之前的原始输出。

单独任何一半都不足以胜任,而这正是重点所在。单纯的评估分数是一个等待被博弈的目标。单纯的追踪记录是没有附带裁决的法证数据。你需要将 agent-eval 的分数锚定到 AgentLens 的追踪记录上,以便每一个关卡决策都附带一个“向我展示原因”的依据。当一个边缘案例的结果发生翻转时,你不必争论评估标准是否太严格——你打开追踪记录,查看解析后的提示词和确切的工具输出,并查明智能体是真正进行了正确的推理,还是仅仅在措辞上侥幸过关。

这种关联性是保持衡量指标诚实的关键。评估告诉你关卡状态发生了翻转;追踪记录告诉你这次翻转是否实至名归。

它看起来

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 订阅 数据