跳转至

第 31 章 成本与性能优化

很多 Agent 原型在效果上可用,却迟迟进不了生产,原因并不是能力不够,而是成本和延迟无法接受。Agent 的性能问题不只来自模型本身,还来自检索、工具链路、状态装配和工作流控制。

31.1 模型路由

不是所有步骤都值得用最强模型。常见做法是把高价值判断留给强模型,把低风险格式化、摘要或分类留给轻模型。

31.2 缓存

缓存并不只适用于传统接口系统。检索结果、工具元信息、稳定状态摘要和高频中间结果,很多都值得缓存,以降低重复成本。

31.3 Token 预算

上下文越长、历史越多、工具说明越重,成本就越高。Token 预算管理本质上是 Context Engineering 的成本视角。

31.4 延迟控制

长延迟通常来自串行链路过多、工具调用过慢和不必要的重试。优化延迟,不只是换快模型,更常常是调整系统链路。

31.5 本章小结

成本与性能优化不是上线后再做的最后一步,而应从架构设计开始贯穿其中。一个经济上不可接受的 Agent,最终同样是不可用的。