跳转至

第 40 章 如何判断一个 Agent 方案是否靠谱

到全书后半段,一个工程师最该获得的能力,不只是会搭 Agent,而是会判断一个 Agent 方案是不是靠谱。一个方案能不能做 Demo,和它是否值得投入生产化,往往是两回事。本章给出一套更务实的判断框架。

40.1 先看约束,不先看能力

如果一个方案先展示模型多强、多会规划、多会调工具,却很少谈权限、失败恢复和人工介入点,那它大概率还不成熟。约束不是附录,而是方案可信度的一部分。

40.2 先看闭环,不先看 Prompt

真正靠谱的方案,应当能明确说明:

  • 目标是什么。
  • 状态怎么维护。
  • 动作怎么执行。
  • 失败怎么恢复。
  • 结果怎么评估。

如果这些都说不清,单独谈 Prompt 或模型选型没有太大意义。

40.3 先看评测,不先看演示

演示说明“有时能成”,评测说明“持续可控”。一个成熟方案一定会回答:用什么样例集评估、如何看回归、怎么知道最近的改动是进步还是退化。

40.4 本章小结

判断一个 Agent 方案是否靠谱,本质上是在判断它是不是一个系统工程方案,而不是一段聪明的模型调用逻辑。能把边界、闭环和评测讲清楚的方案,才值得进一步投入。