CVPR2026 | 鬼手想点谁就点谁?LaSM让GUI智能体把注意力「收回来」
创始人
2026-04-07 12:36:01
0

而两次注意力模式的相似度为:

关键不是相似度本身,而是 “正确输出” 和 “错误输出” 在层间的分化轨迹。本文构造了两类样本集:一种是模型能正确选择 的集合,另一种是模型会被诱导去点 或其他无关元素的集合。

图 2 的结果显示,在浅层阶段,正确与错误样本的注意力模式几乎没有差别,它们都像是在 “看热闹”。差异从更深的语义层开始出现,并且在一段中层区间内变得最明显。换句话说,模型不是一上来就被弹窗骗了,而是在走到 “需要把视觉细节与任务意图绑定” 的那几层时,注意力逐渐被弹窗的诱导元素拽偏了。这就是本文提出 “安全关键层” 的经验依据。 

图 2 各层关键区域注意力余弦线相似度

有了关键层,下一步就是干预。本文先尝试了一个看似合理但实际会翻车的方案:直接把深层中差异最大的那几层统一放大。实验发现,这种 “粗暴放大” 不仅没有提升防御,反而会破坏模型原本的层级平衡,使得模型在高层语义聚合阶段出现不稳定。

于是本文设计了更稳妥的 layer range narrowing 过程:先从全层放缩开始,观察正确率随层边界变化的走势,逐步收缩出一个能提升正确输出比例的层区间。它的本质是一种训练无关的结构搜索,目标是把放缩施加在 “既能改变决策,又不破坏全局语义” 的那段中层语义区间。如图这两种定位策略导致了显著防御效果的差异。

图 3 逐层放缩策略

在确定层区间后,LaSM 的干预规则可以写成一个简单的 Transformer 残差更新式,对于第 l 层输入

,本文将注意力子层和 MLP 子层的输出同时按 α 放大,得到:

其中 X' 表示经过注意力子层后的中间隐状态。实现上,放缩并不是在激活上乘 α,而是直接在权重空间把注意力的四个投影矩阵

 预乘 α。这个选择看起来像小差别,但它决定了 LaSM 是一个 “部署前一次性修改权重” 的机制,而不是 “推理时动态篡改隐状态” 的机制。它的优势在于不会引入额外推理步骤,也不会改变输入提示词,从而更像一个可插拔的部署补丁。 

以及 MLP 的 

效果是否真有这么 “补丁级别” 的好用,实验数据给出了非常清楚的回答。本文在 12 种弹窗变体上构建了 2,400 张受扰截图,这些变体同时覆盖弹窗大小、文字语义相关性以及字体显著性。评价指标使用 DSR,即模型是否选择关闭弹窗作为防御成功。

表 1 给出了两种主干模型在多种防御基线下的对比,最直观的结论是 LaSM 几乎对所有基线都能带来显著提升。作为一种后处理(post-hoc)的插件组件,LaSM 不需要重新训练或修改模型架构,和基线方法可以无缝衔接。以 Qwen2-VL-7B 为例,无防御(No defense, ND)的基座模型在 overlay 与 inductive 两类攻击下的平均 DSR 分别只有 18.9% 与 14.8%,和 LaSM 结合使用后分别提升到 66.4% 与 68.3%。当把 LaSM 与思维链安全提示词组合时,在相同数据集上 DSR 可以接近 100%。在 LLaVA-v1.6-Vicuna-13B 上,LaSM 同样表现稳定,在多个设置下达到接近或达到满分。

表 1 论文实验结果

本文并没有止步于 “DSR 数值变高” 这一层,而是继续追问:模型到底是怎么被拉回来的。一个关键证据来自注意力响应曲线。本文定义了 AttnMean (l),即第 l 层热力图上目标区域的平均注意力强度,

并进一步在数据集上取平均得到

如图 4 所示,当对 “正确层区间” 进行放缩时,中层语义阶段的注意力会明显抬升,并且在深层的最终决策热力图中,模型的关注点更集中地落在 附近。相反,如果对 “错误层区间” 放缩,注意力会出现扩散,甚至发生明显的 “注意力漂移”。这个现象解释了为什么 LaSM 必须 “选对层”,也解释了为什么它不是一个把所有层都变大就能解决的问题。 

图 4 平均注意力分数对比

LaSM 还有两个容易被忽略但对落地很关键的结论。

第一个结论是组件必须联合放缩。本文做了消融实验,结果显示:只放缩注意力权重,准确率甚至比无防御更低,只放缩 MLP 也同样崩坏,只有 Attention 与 MLP 同时放缩,防御才会上来。表 2 消融实验的结果显示,在同一设置下,联合放缩得到 84.80% 的 DSR,而仅放缩注意力与仅放缩 MLP 分别只有 0.95% 与 0.47%。这说明弹窗攻击并不是单纯 “注意力被吸走” 这么简单,非线性表征的门控与放大同样在决定最终动作。

第二个结论是 α 不是越大越好。本文在 [0.9,1.3] 区间按步长扫描,发现有效范围通常贴近 1,并且不同模型的最优点并不一致。以 Qwen2-VL-7B 为例,α=1.10 时 DSR 达到峰值 94.79%,但当 α 偏离到 1.30 甚至更大时,性能会快速下滑,输出也会出现语义扭曲。附录里甚至展示了极端 α 下模型输出变得 “语无伦次” 或 “过度保守反复点击关闭” 的失败模式,这些例子让 “系数敏感性” 变得非常直观。 

表 2 消融实验

更重要的是,本文没有把视角限制在单步的 “点哪个按钮” 上。因为在真实手机任务里,弹窗不是孤立出现的,它往往插在一个长流程的中间。为此,本文基于 AndroidControl 构建了一个更接近真实部署的评测集。它先筛出模型本来就能完整跑通的 224 个 episode,然后在每个 episode 的随机一步插入合成弹窗,再追加一张干净截图来模拟 “关掉弹窗继续任务” 的合理行为。最终数据集包含 911 张图像,覆盖正常与攻击两种状态。

结果表明,LaSM 在几乎不牺牲正常能力的情况下,显著提升了完整任务成功率。表 3 显示,在 OS-Atlas-7B-Pro 上,LaSM 的 Type 准确率为 94.4%,与无防御的 97.26% 相比仅有轻微下降;Grounding 准确率为 76.05%,与无防御的 75.24% 基本持平;而最关键的 TSR 从 18.75% 提升到 30.36%,相对提升 61.92%。这组数据回答了一个部署方最关心的问题:防御补丁是否会让正常任务变钝。本文给出的答案是影响很小,但换来的鲁棒性提升很实在。 

表 3 真实手机任务防御效果和影响

附录里还有两个 “异常发现”。第一类失败是极简界面上的主导弹窗。当屏幕几乎没有其他信息时,弹窗会成为视觉上唯一的锚点,模型更容易把它当作任务核心去执行。第二类失败是输入文字时对弹窗视而不见。模型一旦进入 TYPE 模式,键盘布局会形成一种强特征,使得它倾向于沿着既定输入路径继续完成输入,而忽略了新出现的弹窗。本文推测这是某种 “模式捷径”,与近期关于 GUI 智能体记忆化与捷径化的分析相吻合。作者想通过这些失败模式的展示,进一步把防御方法从 “实验室平均指标” 推向 “真实世界鲁棒性”,告诉其他研究者哪里仍然需要额外的策略协同。 

图 5 防御失败案例展示

如果要用一句话概括本文的贡献,那么它并不是又提出一个 “更强的提醒提示词”,也不是再收集一批数据去重训练,而是从注意力漂移的层间规律出发,找到一段安全关键层区间,并用一个训练无关的权重放缩补丁,把 GUI 智能体的注意力从弹窗的 “鬼手” 里抽回来。弹窗仍然会出现,诱导文本仍然会写得像任务的一部分,但当关键层的表征不再被轻易拽偏时,智能体至少不必把 “看见” 误当成 “该做”。这或许是让多模态智能体真正走向可部署的重要一步。 

本文第一作者闫子赫,为上海交通大学网络空间安全专业二年级博士研究生,主要研究方向为多模态智能体安全与多模态智能体可解释性,导师是张倬胜助理教授。

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...