跳转至

Agent构建指北

30. 评测体系设计

第 30 章评测体系设计¶

Agent 如果没有评测，只能靠演示和个人感觉迭代。而演示往往偏向最好路径，无法代表真实系统表现。评测体系存在的意义，是让团队能够持续知道系统在哪些问题上变好了，在哪些问题上退化了。

30.1 离线评测¶

离线评测适合固定样例和回归集，例如典型任务、典型失败场景和典型边界条件。它是系统演进的最小安全网。

30.2 在线评测¶

离线评测无法覆盖所有真实流量，因此上线后仍需要观察在线表现，例如人工满意度、任务完成率、人工转接率和异常终止率。

30.3 人工评审¶

很多复杂任务无法完全靠自动指标判断。这时人工评审仍然必要，尤其在高风险、引用质量和综合任务完成度等方面。

30.4 Eval Flywheel¶

成熟团队通常会把失败案例回流进评测集，让系统每次出错都推动未来评测更完整。评测不是一次性建设，而是迭代资产。

30.5 本章小结¶

没有评测，就没有稳定演进。Agent 的评测难，但并非不可做。关键是同时接受离线、在线和人工三种视角，而不是指望一个总分解决所有问题。