CVPR2026 | 鬼手想点谁就点谁？LaSM让GUI智能体把注意力「收回来」_商业

CVPR2026 | 鬼手想点谁就点谁？LaSM让GUI智能体把注意力「收回来」

创始人

2026-04-07 12:36:01

0次

而两次注意力模式的相似度为:

关键不是相似度本身，而是 “正确输出” 和 “错误输出” 在层间的分化轨迹。本文构造了两类样本集：一种是模型能正确选择的集合，另一种是模型会被诱导去点或其他无关元素的集合。

图 2 的结果显示，在浅层阶段，正确与错误样本的注意力模式几乎没有差别，它们都像是在 “看热闹”。差异从更深的语义层开始出现，并且在一段中层区间内变得最明显。换句话说，模型不是一上来就被弹窗骗了，而是在走到 “需要把视觉细节与任务意图绑定” 的那几层时，注意力逐渐被弹窗的诱导元素拽偏了。这就是本文提出 “安全关键层” 的经验依据。

图 2 各层关键区域注意力余弦线相似度

有了关键层，下一步就是干预。本文先尝试了一个看似合理但实际会翻车的方案：直接把深层中差异最大的那几层统一放大。实验发现，这种 “粗暴放大” 不仅没有提升防御，反而会破坏模型原本的层级平衡，使得模型在高层语义聚合阶段出现不稳定。

于是本文设计了更稳妥的 layer range narrowing 过程：先从全层放缩开始，观察正确率随层边界变化的走势，逐步收缩出一个能提升正确输出比例的层区间。它的本质是一种训练无关的结构搜索，目标是把放缩施加在 “既能改变决策，又不破坏全局语义” 的那段中层语义区间。如图这两种定位策略导致了显著防御效果的差异。

图 3 逐层放缩策略

在确定层区间后，LaSM 的干预规则可以写成一个简单的 Transformer 残差更新式，对于第 l 层输入

，本文将注意力子层和 MLP 子层的输出同时按 α 放大，得到：

其中 X' 表示经过注意力子层后的中间隐状态。实现上，放缩并不是在激活上乘 α，而是直接在权重空间把注意力的四个投影矩阵

预乘 α。这个选择看起来像小差别，但它决定了 LaSM 是一个 “部署前一次性修改权重” 的机制，而不是 “推理时动态篡改隐状态” 的机制。它的优势在于不会引入额外推理步骤，也不会改变输入提示词，从而更像一个可插拔的部署补丁。

以及 MLP 的

效果是否真有这么 “补丁级别” 的好用，实验数据给出了非常清楚的回答。本文在 12 种弹窗变体上构建了 2,400 张受扰截图，这些变体同时覆盖弹窗大小、文字语义相关性以及字体显著性。评价指标使用 DSR，即模型是否选择关闭弹窗作为防御成功。

表 1 给出了两种主干模型在多种防御基线下的对比，最直观的结论是 LaSM 几乎对所有基线都能带来显著提升。作为一种后处理（post-hoc）的插件组件，LaSM 不需要重新训练或修改模型架构，和基线方法可以无缝衔接。以 Qwen2-VL-7B 为例，无防御（No defense， ND）的基座模型在 overlay 与 inductive 两类攻击下的平均 DSR 分别只有 18.9% 与 14.8%，和 LaSM 结合使用后分别提升到 66.4% 与 68.3%。当把 LaSM 与思维链安全提示词组合时，在相同数据集上 DSR 可以接近 100%。在 LLaVA-v1.6-Vicuna-13B 上，LaSM 同样表现稳定，在多个设置下达到接近或达到满分。

表 1 论文实验结果

本文并没有止步于 “DSR 数值变高” 这一层，而是继续追问：模型到底是怎么被拉回来的。一个关键证据来自注意力响应曲线。本文定义了 AttnMean (l)，即第 l 层热力图上目标区域的平均注意力强度，

并进一步在数据集上取平均得到

如图 4 所示，当对 “正确层区间” 进行放缩时，中层语义阶段的注意力会明显抬升，并且在深层的最终决策热力图中，模型的关注点更集中地落在附近。相反，如果对 “错误层区间” 放缩，注意力会出现扩散，甚至发生明显的 “注意力漂移”。这个现象解释了为什么 LaSM 必须 “选对层”，也解释了为什么它不是一个把所有层都变大就能解决的问题。

图 4 平均注意力分数对比

LaSM 还有两个容易被忽略但对落地很关键的结论。

第一个结论是组件必须联合放缩。本文做了消融实验，结果显示：只放缩注意力权重，准确率甚至比无防御更低，只放缩 MLP 也同样崩坏，只有 Attention 与 MLP 同时放缩，防御才会上来。表 2 消融实验的结果显示，在同一设置下，联合放缩得到 84.80% 的 DSR，而仅放缩注意力与仅放缩 MLP 分别只有 0.95% 与 0.47%。这说明弹窗攻击并不是单纯 “注意力被吸走” 这么简单，非线性表征的门控与放大同样在决定最终动作。

第二个结论是 α 不是越大越好。本文在 [0.9,1.3] 区间按步长扫描，发现有效范围通常贴近 1，并且不同模型的最优点并不一致。以 Qwen2-VL-7B 为例，α=1.10 时 DSR 达到峰值 94.79%，但当 α 偏离到 1.30 甚至更大时，性能会快速下滑，输出也会出现语义扭曲。附录里甚至展示了极端 α 下模型输出变得 “语无伦次” 或 “过度保守反复点击关闭” 的失败模式，这些例子让 “系数敏感性” 变得非常直观。

表 2 消融实验

更重要的是，本文没有把视角限制在单步的 “点哪个按钮” 上。因为在真实手机任务里，弹窗不是孤立出现的，它往往插在一个长流程的中间。为此，本文基于 AndroidControl 构建了一个更接近真实部署的评测集。它先筛出模型本来就能完整跑通的 224 个 episode，然后在每个 episode 的随机一步插入合成弹窗，再追加一张干净截图来模拟 “关掉弹窗继续任务” 的合理行为。最终数据集包含 911 张图像，覆盖正常与攻击两种状态。

结果表明，LaSM 在几乎不牺牲正常能力的情况下，显著提升了完整任务成功率。表 3 显示，在 OS-Atlas-7B-Pro 上，LaSM 的 Type 准确率为 94.4%，与无防御的 97.26% 相比仅有轻微下降；Grounding 准确率为 76.05%，与无防御的 75.24% 基本持平；而最关键的 TSR 从 18.75% 提升到 30.36%，相对提升 61.92%。这组数据回答了一个部署方最关心的问题：防御补丁是否会让正常任务变钝。本文给出的答案是影响很小，但换来的鲁棒性提升很实在。

表 3 真实手机任务防御效果和影响

附录里还有两个 “异常发现”。第一类失败是极简界面上的主导弹窗。当屏幕几乎没有其他信息时，弹窗会成为视觉上唯一的锚点，模型更容易把它当作任务核心去执行。第二类失败是输入文字时对弹窗视而不见。模型一旦进入 TYPE 模式，键盘布局会形成一种强特征，使得它倾向于沿着既定输入路径继续完成输入，而忽略了新出现的弹窗。本文推测这是某种 “模式捷径”，与近期关于 GUI 智能体记忆化与捷径化的分析相吻合。作者想通过这些失败模式的展示，进一步把防御方法从 “实验室平均指标” 推向 “真实世界鲁棒性”，告诉其他研究者哪里仍然需要额外的策略协同。

图 5 防御失败案例展示

如果要用一句话概括本文的贡献，那么它并不是又提出一个 “更强的提醒提示词”，也不是再收集一批数据去重训练，而是从注意力漂移的层间规律出发，找到一段安全关键层区间，并用一个训练无关的权重放缩补丁，把 GUI 智能体的注意力从弹窗的 “鬼手” 里抽回来。弹窗仍然会出现，诱导文本仍然会写得像任务的一部分，但当关键层的表征不再被轻易拽偏时，智能体至少不必把 “看见” 误当成 “该做”。这或许是让多模态智能体真正走向可部署的重要一步。

本文第一作者闫子赫，为上海交通大学网络空间安全专业二年级博士研究生，主要研究方向为多模态智能体安全与多模态智能体可解释性，导师是张倬胜助理教授。

上一篇：爸爸开车撞倒自家1岁宝宝，让人揪心又后怕……

下一篇：午评：沪指冲高回落涨0.03% 化工板块集体走强

CVPR2026 | 鬼手想点谁就点谁？LaSM让GUI智能体把注意力「收回来」

相关内容

热门资讯