第 32 章 Agent 安全问题¶

只要 Agent 可以读取外部信息或执行外部动作，安全问题就不再是可选项。与传统系统不同，Agent 的安全威胁不仅来自接口，还来自上下文、知识源、工具选择和模型行为本身。

32.1 Prompt Injection¶

当模型会消费外部文本时，提示注入几乎是必然风险。文档、网页、用户输入甚至工具返回值，都可能携带诱导模型越权或偏离任务的内容。

如果模型能自由看到并调用过多工具，就会把错误理解直接放大成错误动作。工具权限、可见范围和阶段门禁因此必须进入系统层。

上下文里可能混入敏感数据，工具也可能返回超权限结果。没有最小暴露原则，Agent 很容易变成高风险的数据出口。

RAG 不一定安全。只要知识源可被污染，模型就可能在“有依据”的错信息上稳定作答。因此知识系统必须考虑来源可信度。

Agent 安全不是在接口前加一层认证就结束了。它要求团队同时防护输入、知识、工具、状态和动作链路，真正把“模型不值得完全信任”当作默认前提。