第 40 章 如何判断一个 Agent 方案是否靠谱¶
到全书后半段,一个工程师最该获得的能力,不只是会搭 Agent,而是会判断一个 Agent 方案是不是靠谱。一个方案能不能做 Demo,和它是否值得投入生产化,往往是两回事。本章给出一套更务实的判断框架。
40.1 先看约束,不先看能力¶
如果一个方案先展示模型多强、多会规划、多会调工具,却很少谈权限、失败恢复和人工介入点,那它大概率还不成熟。约束不是附录,而是方案可信度的一部分。
40.2 先看闭环,不先看 Prompt¶
真正靠谱的方案,应当能明确说明:
- 目标是什么。
- 状态怎么维护。
- 动作怎么执行。
- 失败怎么恢复。
- 结果怎么评估。
如果这些都说不清,单独谈 Prompt 或模型选型没有太大意义。
40.3 先看评测,不先看演示¶
演示说明“有时能成”,评测说明“持续可控”。一个成熟方案一定会回答:用什么样例集评估、如何看回归、怎么知道最近的改动是进步还是退化。
40.4 本章小结¶
判断一个 Agent 方案是否靠谱,本质上是在判断它是不是一个系统工程方案,而不是一段聪明的模型调用逻辑。能把边界、闭环和评测讲清楚的方案,才值得进一步投入。