当前位置：首页 > news >正文

别再只盯着Lp范数了：从DiffAttack看对抗攻击如何‘骗过’人眼和模型

news 2026/5/27 4:08:02

DiffAttack：对抗攻击如何用扩散模型突破人眼与AI的双重防线

当你在手机相册里翻到一张去年旅行的照片，蓝天白云下的建筑轮廓清晰可见——但有没有可能，这张看似普通的照片其实暗藏玄机？它或许能骗过最先进的人脸识别系统，让AI将埃菲尔铁塔误认为一只猫。这不是科幻情节，而是DiffAttack这类基于扩散模型的对抗攻击技术正在实现的现实。传统对抗攻击就像用荧光笔在名画上涂改，而DiffAttack则如同用纳米级画笔在画布纤维间重组色彩。

1. 对抗攻击的范式转移：从像素战争到语义博弈

十年前，Szegedy等人发现只需对图像添加肉眼难辨的扰动，就能让深度神经网络将熊猫误认为长臂猿。这一发现开启了基于Lp范数的对抗攻击时代，研究者们像中世纪炼金术士般执着于调配像素级的扰动配方。但这类方法存在三个致命缺陷：

感知失真悖论：L2/L∞范数约束下的扰动虽小，却会产生高频噪声（如图1左侧的棋盘格效应），人眼对这类异常极为敏感
可转移性天花板：针对ResNet优化的攻击在ViT模型上成功率可能骤降50%以上
防御易损性：简单的JPEG压缩或随机裁剪就能瓦解多数攻击

# 传统FGSM攻击的核心代码示例 def fgsm_attack(image, epsilon, data_grad): sign_grad = data_grad.sign() perturbed_image = image + epsilon * sign_grad return torch.clamp(perturbed_image, 0, 1) # 保持像素值合法

DiffAttack的革命性在于将战场从RGB空间转移到扩散模型的潜在空间。就像魔术师用障眼法转移观众注意力，它通过操纵DDIM反演过程中的交叉注意力图（如图2），在保持视觉自然性的同时完成语义层面的"偷梁换柱"。

关键洞察：扩散模型在去噪过程中自然形成的注意力机制，既是强大的生成工具，也是隐式的判别器——这正是DiffAttack同时实现隐蔽性和可转移性的双重支点。

2. DiffAttack技术解剖：在潜在空间跳舞的对抗样本

2.1 DDIM反演：构建可编辑的语义通道

传统方法直接在像素空间添加扰动，如同在完成的画作上涂抹修改。DiffAttack则采用DDIM反演技术，将图像"解构"到扩散过程的中间状态：

通过5-10步反演将干净图像x₀映射到潜在表示xₜ
在xₜ空间施加扰动Δ，满足‖Δ‖₂ ≤ ε
用20步去噪重建对抗样本xₐᵈᵛ

x_t = \sqrt{\alpha_t}x_0 + \sqrt{1-\alpha_t}\epsilon \quad \text{(前向过程)}

x_{t-1} = \frac{x_t - \sqrt{1-\alpha_t}\epsilon_\theta(x_t,t)}{\sqrt{\alpha_t}} \quad \text{(反向过程)}

这种操作带来的优势显而易见：

攻击维度	传统方法	DiffAttack
扰动可见性	高频噪声明显	自然纹理融合
可转移性	模型依赖性强	跨架构平均提升23%
防御穿透力	易被随机化防御拦截	对DiffPure鲁棒

2.2 注意力偏离：欺骗模型的"认知焦点"

扩散模型中的交叉注意力图记录了文本提示与图像区域的关联强度。DiffAttack通过最小化注意力方差，使模型失去语义聚焦能力：

# 注意力分散损失计算示例 def attention_dispersion_loss(cross_attn_maps): # cross_attn_maps形状为[layers, heads, seq_len, h*w] var_per_token = torch.var(cross_attn_maps, dim=-1) # 计算每个token的注意力方差 return torch.mean(var_per_token) # 目标是最小化平均方差

这种操作相当于在人类观看时不断转移其视线焦点。如图3所示，原始图像中"狗"对应的注意力集中区域（红色），在经过扰动后变得分散而模糊。

2.3 结构保护机制：对抗样本的"隐形斗篷"

为避免过度失真，DiffAttack引入两项关键约束：

自注意力一致性：强制扰动后的自注意力图Sₜ接近固定副本Sₜ₍fᵢₓ₎
```
\mathcal{L}_{self} = \|S_t - S_{t(fix)}\|_F^2
```
反演强度权衡：采用渐进式反演策略
- 早期步骤（t>0.6T）：强反演保留全局结构
- 中期步骤（0.3T<t≤0.6T）：中等反演平衡编辑能力
- 后期步骤（t≤0.3T）：弱反演保持细节自然

这种精细控制使得FID分数（衡量视觉真实性的指标）相比传统方法提升达47.3，人眼几乎无法区分原始图像与对抗样本。

3. 实战效果：当攻击穿上"皇帝的新衣"

在ImageNet-Compatible数据集上的测试显示，DiffAttack展现出惊人的跨模型穿透力：

目标模型	MI-FGSM成功率	DiffAttack成功率
ResNet-50	82.1%	76.3% (+4.2%)
ViT-B/16	45.7%	68.9% (+23.2%)
ConvNeXt-L	39.2%	63.4% (+24.2%)
防御模型平均值	18.6%	41.3% (+22.7%)

更令人警惕的是，这些对抗样本能骗过专业人员的视觉检查。在图4的鸟类分类示例中，DiffAttack生成的图像（右）与原始图像（左）在羽色、姿态等细节上几乎无异，却能让分类器将"红雀"误判为"蜂鸟"。

4. 防御新思路：构建动态感知防线

DiffAttack的出现迫使安全研究者重新思考防御策略。我们实验发现几种有前景的方向：

多模态一致性检查：同时验证图像在像素空间和潜在空间的异常

def multimodal_check(image, text_prompt): pixel_anomaly = detect_pixel_abnormality(image) clip_score = clip_similarity(image, text_prompt) return pixel_anomaly or (clip_score < threshold)