AI Agent 上生产前,需要补上的运行时安全控制
近期企业 AI Agent 的落地重点正在发生变化。6 月 16 日,HPE 与 NVIDIA 发布面向企业 Agent 的新方案时,不只强调模型和算力,也把安全运行环境、可观测性、策略控制和治理能力放到了核心位置。
原因并不复杂:当 Agent 从“生成答案”走向“调用工具”,应用风险已经从内容层进入执行层。
一条 Agent 调用链可能在哪里出问题
企业常见的 Agent 链路通常包括用户输入、模型推理、MCP 工具选择、参数生成、业务 API 执行和结果返回。
如果用户输入或外部网页中包含提示词注入,模型可能选择错误工具;如果工具权限过大,普通请求可能演变为敏感数据查询;如果输出阶段缺少检查,接口返回的手机号、订单和内部信息又可能被直接发送出去。
因此,只在系统提示词中要求模型“不要泄露数据”并不足以解决问题。系统提示词可以提供行为指导,却不能代替后端权限校验和运行时策略。
更可靠的工程思路
真正的控制应该分布在执行链路中。输入进入模型前,需要识别越狱、注入和恶意链接;工具调用前,需要检查当前用户、场景、工具和参数是否匹配;业务结果返回前,还要判断是否包含 PII 或不应外发的数据。
对于删除数据、修改配置、批量发送消息等高风险操作,应该保留人工确认节点。每一次调用还需要记录请求、策略结果和工具响应,才能支持后续审计和故障定位。
JOTO 唯客 AI 护栏可以部署在模型与业务应用之间,对输入和输出进行双向检测,识别提示词注入、敏感数据、违规内容和恶意链接,并通过安全日志保留运行过程。
它解决的不是“让模型永远不犯错”,而是在模型犯错、被诱导或上下文异常时,避免错误继续放大到真实系统。
当 Agent 开始参与客服、运维、研发和办公流程后,工程指标也需要随之变化。除了响应速度和任务成功率,还要关注权限是否最小化、关键动作是否可阻断、异常是否可回滚,以及整个过程是否能够追溯。
Agent 能做事只是第一步。能够在明确边界内稳定做事,才是真正进入生产环境。
更多推荐



所有评论(0)