跳转至

第 30 章 评测体系设计

Agent 如果没有评测,只能靠演示和个人感觉迭代。而演示往往偏向最好路径,无法代表真实系统表现。评测体系存在的意义,是让团队能够持续知道系统在哪些问题上变好了,在哪些问题上退化了。

30.1 离线评测

离线评测适合固定样例和回归集,例如典型任务、典型失败场景和典型边界条件。它是系统演进的最小安全网。

30.2 在线评测

离线评测无法覆盖所有真实流量,因此上线后仍需要观察在线表现,例如人工满意度、任务完成率、人工转接率和异常终止率。

30.3 人工评审

很多复杂任务无法完全靠自动指标判断。这时人工评审仍然必要,尤其在高风险、引用质量和综合任务完成度等方面。

30.4 Eval Flywheel

成熟团队通常会把失败案例回流进评测集,让系统每次出错都推动未来评测更完整。评测不是一次性建设,而是迭代资产。

30.5 本章小结

没有评测,就没有稳定演进。Agent 的评测难,但并非不可做。关键是同时接受离线、在线和人工三种视角,而不是指望一个总分解决所有问题。