第 28 章 可靠性设计¶
Agent 的可靠性,不是指“模型总能答对”,而是指系统在不确定环境里仍然不会轻易失控。只要涉及工具、外部依赖和多步执行,可靠性设计就会成为生产系统的底线要求。
28.1 超时、重试与熔断¶
外部调用迟早会超时。系统必须明确哪些动作可以重试、重试几次、什么错误不应重试,以及在持续失败时如何熔断,而不是把所有异常都交给模型继续猜。
28.2 幂等与去重¶
只要动作会改环境,重复执行就可能造成严重后果。因此写操作、异步任务和事件消费都应尽量具备幂等语义或去重机制。
28.3 回滚与补偿¶
不是所有失败都能靠“重新执行一次”解决。已经发生的外部副作用,需要明确的补偿路径。没有补偿能力的 Agent,只适合低风险场景。
28.4 本章小结¶
可靠性设计的重点,是让系统在失败发生时仍然有边界、有恢复路径、有停止条件。它是 Agent 进入真实任务环境的必要条件,而不是上线后再补的优化项。