第 32 章 Agent 安全问题¶
只要 Agent 可以读取外部信息或执行外部动作,安全问题就不再是可选项。与传统系统不同,Agent 的安全威胁不仅来自接口,还来自上下文、知识源、工具选择和模型行为本身。
32.1 Prompt Injection¶
当模型会消费外部文本时,提示注入几乎是必然风险。文档、网页、用户输入甚至工具返回值,都可能携带诱导模型越权或偏离任务的内容。
32.2 Tool Injection 与越权调用¶
如果模型能自由看到并调用过多工具,就会把错误理解直接放大成错误动作。工具权限、可见范围和阶段门禁因此必须进入系统层。
32.3 数据泄露¶
上下文里可能混入敏感数据,工具也可能返回超权限结果。没有最小暴露原则,Agent 很容易变成高风险的数据出口。
32.4 不可信知识源¶
RAG 不一定安全。只要知识源可被污染,模型就可能在“有依据”的错信息上稳定作答。因此知识系统必须考虑来源可信度。
32.5 本章小结¶
Agent 安全不是在接口前加一层认证就结束了。它要求团队同时防护输入、知识、工具、状态和动作链路,真正把“模型不值得完全信任”当作默认前提。