研究人员警告人工智能代理仍然无法阻止即时注入攻击

随着开发人员竞相部署能够自主浏览互联网、进行研究、在线购物和交易加密货币的人工智能代理，新的研究表明这些系统仍然非常容易受到即时注入攻击。

在周四发布的一项新的研究中，来自南洋理工大学、ST Engineering、IBM Research 和伊利诺伊大学厄巴纳-香槟分校的研究人员发现，他们测试的 AI 代理没有一个能始终抵抗即时注入攻击。

“现有的安全基准采用以攻击为中心的视角，重点关注注入的技术可行性，而忽视了所造成损害的细微分布，”研究人员写道。 “然而，在实践中，即时注入风险取决于受害者：单一漏洞可能会给不同的利益相关者带来不对称的后果，并且相同的攻击模式可能会根据其目标对象而表现出截然不同的有效性。”

当攻击者在 AI 代理遇到的内容中嵌入隐藏指令时，就会发生提示注入，导致其遵循攻击者的指示而不是用户的指示。为了解决现有人工智能代理评估中的差距，研究人员开发了 StakeBench，这是一个测试人工智能代理如何在现实在线环境中响应即时注入攻击的基准。

&amp;lt;span style="display: inline-block; width: 0px; 溢出：隐藏; line-height: 0;" data-mce-type="bookmark" class="mce_SELRES_start"&gt;&lt;/span&amp;gt;

“我们现在使用 StakeBench 来描述该漏洞被放大或抑制的条件，重点关注 [间接提示注入] 作为主要的部署相关渠道，”研究人员写道。 “StakeBench 探测了三个这样的因素：注入的目标与用户的原始意图之间的语义距离、周围环境线索的一致性，以及基准测试首先将其暴露给注入内容的代理执行轨迹上的位置。”

该团队使用 NanoBrowser 和 BrowserUse 以及 GPT-5 和 Gemini 2.5-Flash 进行了 3,168 次攻击模拟。研究人员发现，在所有测试的配置中，直接提示注入攻击的成功率超过 79%，间接攻击的成功率为 41.67% 到 68.16%。

这项研究是在即时注入攻击变得越来越普遍且人工智能代理激增的情况下进行的。

二月份，微软研究人员警告人工智能摘要链接中嵌入的隐藏指令可能会影响聊天机器人的行为。 4 月份，Google 记录了隐藏在网页中的提示注入攻击，这些攻击试图操纵 AI 代理泄露凭证或发送付款。最近，微软披露 Anthropic 的 Claude Code GitHub Action 中存在一个提示注入缺陷，该缺陷可能会暴露用户凭据。

该研究还确定了研究人员所说的“隐形寄生”，即人工智能代理完成用户的任务，同时推进攻击者的目标。例如，由即时注入攻击引起的隐形寄生可能会巧妙地影响产品推荐，引导用户转向特定项目，而没有任何明显迹象表明系统已受到损害。

“这些结果表明，可部署 Web 代理中的即时注入安全性不是主干模型的标量属性，而是一种危害的分布，其实现由受影响的利益相关者、注入目标和用户任务之间的语义一致性以及部署主干的架构上下文共同确定，”他们写道。