ECCV 2024 | 清华等提出扰动生成器网络，用CLIP提升有目标对抗攻击迁移性

Original 让你更懂AI的 PaperWeekly

2024-09-03

介绍

目前，以深度神经网络为基础人工智能技术被广泛用于许多安全关键领域，如自动驾驶、金融系统、人脸识别。然而，众多研究指出，深度神经网络容易受到对抗样本的威胁，恶意攻击者可以对图片添加一些人眼难以感知的扰动，从而改变模型输出，欺骗模型。

现有研究表明，由白盒代理模型生成的对抗样本也能迁移欺骗其他未知的黑盒模型。然而，它们仅在无目标迁移攻击上表现较为良好。即由于过度依赖于白盒模型，这些方法在有目标黑盒迁移性上表现欠佳。目前，一种效果较为有潜力的方法是生成式有目标攻击算法，即基于数据的分布训练一个扰动生成器来产生有目标对抗攻击的对抗扰动。

生成式有目标攻击算法可被分为 single-target 和 multi-target 攻击方式。Single-target 攻击是为每一个攻击目标类别训练一个扰动生成器的算法，展现出相对出色的性能。然而，当面对攻击许多类别的场景，特别是包含上千类别的真实分类系统时，这些方法需要为每一个目标类别训练一个生成器，产生了巨大的计算负担。

因此，为多个目标类只训练一个带限制的生成器（conditional generator）的 Multi-target 攻击算法被提出。通过指定攻击目标类别作为限制输入，生成器可生成任意指定类别的扰动。然而，目前的算法只能借助代理模型的分类边界作为目标类别的指导，仅取得了有限的攻击效果。

本文提出了 CGNC，一种新设计的扰动生成器网络。它将多模态模型 CLIP 对目标类别的文本表征融入生成器网络中，协助生成器学习目标类分布，从而提升攻击迁移性，同时，引入了一种掩码微调机制，使之适应于单目标类攻击场景，提高了性能。

论文标题：

CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks

作者单位：

清华大学、哈尔滨工业大学（深圳）

论文链接：

https://arxiv.org/abs/2407.10179

Github链接：

https://github.com/ffhibnese/CGNC_Targeted_Adversarial_Attacks

CLIP指导的有目标迁移生成网络

攻击目标概述

给定白盒代理模型，干净图片样本，以及攻击者指定的目标类别，攻击者希望生成不可见的扰动，来误导黑盒模型，即。同时，通过确保，保证对抗噪声的隐蔽性。

为了增强有目标黑盒攻击性能，单目标攻击使用了强大的生成模型来学习目标类别的数据分布，从而实现更高的迁移性，然而，这些方法会消耗大量的计算时间和资源，在现实场景中难以实现。C-GSP 通过将多目标攻击构造为学习一个类条件生成器，有效解决了这个问题。给定一个无标签的数据集，优化目标为：

其中为交叉熵损失。通过使用中的图像最小化目标类的损失，优化生成器参数。最终训练得到生成器，它可以为测试集中的任何图像生成对抗扰动：当攻击者指定一个目标类时，通过得到对抗样本。

当前的多目标攻击方法仅仅将目标类别的类标签作为条件，只依靠代理模型的分类信息学习目标类别的数据分布，未充分利用目标类别的具体特征。受视觉语言学习的启发，本文提出一种新的生成网络，该网络利用强大的 CLIP 模型中充足的先验知识来提升目标类别的表示，极大地增强了多目标迁移性。

CLIP指导的生成网络

▲ 图1. CGNC生成器架构

本文提出的生成模型架构如图 1 所示。具体而言，生成器由一个视觉语言特征纯化器（VL-Purifier），一个特征融合编码器（F-Encoder）和一个基于交叉注意力的解码器（CA-Decoder）组成。

为了利用 CLIP 模型产生语义嵌入，我们使用 CLIP 常用的文本模板“a photo of a [class]”来生成目标类别文本，并输入到 CLIP 的文本编码器中，得到文本嵌入。由于当前视觉语言空间的通用表示并未适配于我们的学习任务，我们使用一个视觉语言特征纯化器将特征进行提纯，从而促进后续的特征融合。

在特征融合编码器中，由视觉语言特征纯化器提纯的特征和视觉特征进行融合。具体而言，令提纯后的特征为，将其扩展为和图像特征一致的维度，即，将它们进行通道级别的拼接，得到融合特征，随后，进行进一步的下采样，得到的特征再次与进行拼接。

通过多次重复这个操作，有效地融合了输入图像的视觉特征和纯化后的 CLIP 对目标类别的嵌入。这种机制充分利用了来自视觉的实例级信息和来自文本的类级信息，促进生成更强的语义模式和更好的扰动迁移性。

利用上一个模块得到的多模态融合特征，解码器将其转化为目标类别的扰动。为了充分利用 CLIP 模型的语义先验，我们通过引入交叉注意力机制来增强特征融合，具体而言，我们通过交叉注意力层将来自 CLIP 编码空间的文本嵌入合并到解码器中：

其中，为解码器中的中间层特征，、、为可学习参数。最后，我们通过 tanh(·) 函数对扰动进行平滑投影，得到满足范数限制的扰动。

掩码微调机制

▲ 图2. 掩码微调机制示意图及对比图

除了针对多目标攻击场景设计的生成器外，我们还设计了一个单目标类攻击的变体，从而进一步提升性能。如图 2（a）所示，我们使用特定目标类别的文本描述来固定条件输入，从而对扰动生成器进行微调。

然而，我们在微调的过程中遇到了过拟合问题，导致在某些目标类中攻击成功率提升有限，甚至性能下降。一个可能的原因是产生的对抗扰动有时严重集中于图像的特定区域，为了缓解这个现象，我们使用块级别的掩码对生成的扰动进行后处理，再加到输入图像上，得到对抗样本进行训练，如图 2（b）所示，该方法显著提高了攻击成功率，并实现了效率和性能之间较好的权衡。

实验结果与分析

我们在一系列场景下对各种黑盒模型进行了广泛的实验，证明了 CGNC 在黑盒迁移性上的优越性。我们在 ImageNet 数据集上训练扰动生成器，并在 ImageNet-NeurIPS（1k）数据集上评估，受害者模型主要有 Inception-v3，Inception-v4，Inception-ResNet-v2，ResNet-152，DenseNet-121，GoogleNet，VGG-16，以及若干对抗训练的防御模型，如 adv-Inception-v3，ens-adv-Inception-v2 等。

对比的基线主要包括特定于实例的攻击（MIM[1]，TIM[2]，SIM[3]，DIM[4]，Logit[5]，SU[6]）和基于生成的多目标攻击 C-GSP[7]。

▲ 表1. 针对ImageNet NeurIPS验证集上常规训练模型的多目标攻击成功率

从表 1 中可以看出，与之前的方法相比，CGNC 始终取得了显著的改进。具体而言，以 Res-152 和 Inc-v3 作为代理模型时，CGNC 比 C-GSP 的攻击成功率平均提高了 17.88% 和 10.08%，体现了利用 CLIP 文本嵌入的丰富先验知识的优越性，而特定于实例的方法由于对白盒代理模型过拟合，在黑盒迁移性上表现较差。

▲ 表2. 针对ImageNet NeurIPS验证集上对抗训练模型的多目标攻击成功率

▲ 表3. 在不同防御策略下的攻击成功率

为了进行更充分的分析和比较，我们测试了几种广泛使用的防御方法下的攻击成功率。首先，如表 2 所示，CGNC 依然能有效地欺骗对抗训练的模型，且显著地优于先前的方法。再者，我们评估了不同方法在基于输入预处理的防御方法下的性能，包括图像平滑操作和 JPEG 压缩，如表 3 所示，尽管这些防御方法消除了对抗样本中的某些有效信息，但 CLIP 指导的 CGNC 在攻击迁移性方面仍然表现出良好的能力。

▲ 图3. 不同目标类别对不同输入图像的扰动可视化图

在图 3 中我们给出了对抗扰动的可视化图，从图中可以看出，生成的扰动主要集中在输入图像的语义区域上，并且蕴含了目标类别的丰富的语义信息。例如，当条件是“a photo of a sea lion”时，产生的扰动中确实蕴含着丰富的海狮图案，同时，模式随着文本提示的变化而变化，这也验证了 CLIP 编码的文本嵌入的调节机制。

▲ 表4. CGNC及其变体的消融实验

为了验证所提技术的有效性，我们开展了相应的消融实验。具体而言，我们提出了 CGNC 的两种变体：CGNC-CA 从原始生成器网络中删除了交叉注意力模块；而 CGNC-CA-t 将 CLIP的文本嵌入替换为目标类别的独热向量。从表 4 中可以看出，上述每种技术都有利于对抗迁移性的提升，此外，从 CGNC-CA 到 CGNC 的显著改进也证实了解码器中的交叉注意力模块可以更好地利用 CLIP 模型提供的文本指导，增强攻击的可转移性。

▲ 表5. CGNC变体与单目标攻击方法的比较

参考文献

[1]Dong Y, Liao F, Pang T, et al. Boosting adversarial attacks with momentum[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 9185-9193.

[2]Dong Y, Pang T, Su H, et al. Evading defenses to transferable adversarial examples by translation-invariant attacks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 4312-4321.

[3]Lin J, Song C, He K, et al. Nesterov accelerated gradient and scale invariance for adversarial attacks[J]. arXiv preprint arXiv:1908.06281, 2019.

[4]Xie C, Zhang Z, Zhou Y, et al. Improving transferability of adversarial examples with input diversity[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 2730-2739.

[5]Zhao Z, Liu Z, Larson M. On success and simplicity: A second look at transferable targeted attacks[J]. Advances in Neural Information Processing Systems, 2021, 34: 6115-6128.

[6]Wei Z, Chen J, Wu Z, et al. Enhancing the self-universality for transferable targeted attacks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023: 12281-12290.

[7]Yang X, Dong Y, Pang T, et al. Boosting transferability of targeted adversarial examples via hierarchical generative networks[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 725-742.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

PaperWeekly

向上滑动看下一个

陈佩斯，这次真悬了！

微博遗存之七

刚刚，我国DUV光刻机实现里程碑式突破！

2年翻10倍？万众期待的2025《山西文物日历》终于来了！一览千年壁画之美

微博遗存之六

ECCV 2024 | 清华等提出扰动生成器网络，用CLIP提升有目标对抗攻击迁移性

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

微博遗存之七

刚刚，我国DUV光刻机实现里程碑式突破！

2年翻10倍？万众期待的2025《山西文物日历》终于来了！一览千年壁画之美

微博遗存之六

生成图片，分享到微信朋友圈

ECCV 2024 | 清华等提出扰动生成器网络，用CLIP提升有目标对抗攻击迁移性

您可能也对以下帖子感兴趣