跳转至

Agent构建指北

28. 可靠性设计

第 28 章可靠性设计¶

Agent 的可靠性，不是指“模型总能答对”，而是指系统在不确定环境里仍然不会轻易失控。只要涉及工具、外部依赖和多步执行，可靠性设计就会成为生产系统的底线要求。

28.1 超时、重试与熔断¶

外部调用迟早会超时。系统必须明确哪些动作可以重试、重试几次、什么错误不应重试，以及在持续失败时如何熔断，而不是把所有异常都交给模型继续猜。

28.2 幂等与去重¶

只要动作会改环境，重复执行就可能造成严重后果。因此写操作、异步任务和事件消费都应尽量具备幂等语义或去重机制。

28.3 回滚与补偿¶

不是所有失败都能靠“重新执行一次”解决。已经发生的外部副作用，需要明确的补偿路径。没有补偿能力的 Agent，只适合低风险场景。

28.4 本章小结¶

可靠性设计的重点，是让系统在失败发生时仍然有边界、有恢复路径、有停止条件。它是 Agent 进入真实任务环境的必要条件，而不是上线后再补的优化项。