艾巴生活网

您现在的位置是:主页>科技 >内容

科技

对抗性样本真的是不自然且无意义的吗为什么(对抗性样本真的是不自然且无意义的吗)

2024-05-28 08:34:50科技帅气的蚂蚁
到目前为止,业内流行的观点是,对抗样本源于模型的“怪癖”,一旦在训练算法和数据收集方面取得足够的进展,它们最终会消失。其他常见的观

对抗性样本真的是不自然且无意义的吗为什么(对抗性样本真的是不自然且无意义的吗)

到目前为止,业内流行的观点是,对抗样本源于模型的“怪癖”,一旦在训练算法和数据收集方面取得足够的进展,它们最终会消失。其他常见的观点还包括对抗样本要么是输入空间的高维结果之一,要么是由于有限样本现象。

最近,来自麻省理工学院的几位研究人员刚刚完成了一项最新研究,这项研究为应对样本生成的原因提供了一个新的视角。而且,很有文学素养的研究者试图通过一个微妙的故事把这个研究告诉大家。

我们来听听这个关于对抗样本的小故事。

一个叫Erm的星球

故事从Erm开始,一个遥远的星球上居住着一个叫做Nets的古老外星物种。

网虫是一个神奇的物种;每个人在社会等级体系中的地位取决于将奇怪的3232像素图像(对Nets一家来说毫无意义)分成十个完全任意的类别的能力。

这些图像来自一个绝密的数据集。除了这些神奇的像素化图像,Nets的生活可以说是完全盲目的。

慢慢地,随着网络变得越来越老,越来越聪明,它们开始在See-Far中发现越来越多的信号模式。他们发现的每个新模式都可以帮助他们更准确地对数据集进行分类。由于提高分类准确率的巨大社会价值,外星人给最具预测性的图像模式起了名字,如下图:

Togit,一个高度指示“1”的图像,网络对togit极其敏感。

最强大的外星人非常善于发现这些模式,因此他们对自己在远看图像中的出现也非常敏感。

不知何故(也许是在寻找看得远的分类提示),一些外星人拿到了人类写的机器学习论文,尤其是其中一张图片引起了外星人的注意:

一个对抗样本?

这张图还是比较简单的。他们认为:“2”在左边,然后中间有一个GAB图案。大家都知道是“4”的意思。因此,正如所料,向左边的图像添加GAB会产生一个新图像,它(对Nets来说)看起来与对应于“4”类别的图像完全相同。

但是Nets无法理解为什么原始和最终图像完全不同,但是根据论文应该是同一个分类。带着疑问,Nets通读了论文,想知道人类还忘记了哪些有用的模式。

我们从企业风险管理中学到了什么

正如故事中的名字所暗示的那样,这个故事不仅仅是关于外星人和他们神奇的社会结构:Nets的开发方式是为了提醒我们机器学习模型是如何训练的。特别是尽量提高准确率,但不加入关于分类所在物理世界的背景知识或其他人类相关概念。故事的结果是,外星人意识到,人类认为毫无意义的对抗性扰动,实际上是视远分类的至关重要的模型。因此,网队的故事应该让我们思考:

对抗真的不自然,没有意义吗?

一个简单的实验

为了理解这个问题,我们先进行一个简单的实验:

从标准数据集(例如CIFAR10)的训练集中的图片开始:

我们通过合成目标对抗样本(在标准预训练模型上),将每个(x,y)样本目标改变为下一个类别“y 1”(如果y是最后一个类别,则为0):

因此,通过以这种方式改变样本目标来构建新的训练集:

现在,得到的训练集只受到原始数据集的轻微扰动,它的标签改变了——,但它的标签对人来说是完全错误的。其实这种误贴符合“替代”的假设(即每只狗都被贴上猫的标签,每只猫都被贴上鸟的标签)。

然后,我们在这个错误标记的数据集上训练一个新的分类器(不一定与第一个具有相同的结构)。那么这个分类器在原始的(未改变的)测试集(即标准的CIFAR-10测试集)上会有怎样的表现呢?

令人惊讶的是,新的分类器在测试集上具有相当好的准确性(在CIFAR上为44%)!虽然训练输入仅通过轻微的干扰与其“真实”标签相关,但它通过所有可见特征与不同的标签(现在不正确)相关。

这是为什么呢?

我们对抗样本的概念模型

在刚才描述的实验中,我们把标准模型的抗干扰性作为目标类预测模型,并得到了一定的推广。也就是说,只有训练集中的对抗性扰动才能适度准确地预测测试集。鉴于此,人们可能会想:也许这些图案和人类用来分类图像的图案(比如耳朵、胡须、鼻子)并没有本质上的区别!这正是我们的假设:许多输入特征可以用来预测标签,但其中只有一部分是人类可以检测到的。

更准确地说,我们认为数据的预测特性可以分为稳健特性和不稳定特性。鲁棒特征对应于可以预测真实标签的模式,即使在一些人为定义的干扰集下(例如2ball).相反,非稳健特征对应于可以被预设扰动集“翻转”的特征,以指示预测期间的误差类别。

因为我们总是只考虑不影响人类分类的扰动集,所以希望人类完全依靠鲁棒特征来判断。然而,当目标是最大化(标准)测试集的准确性时,非健壮特征可以和健壮特征一样有用。事实上,这两种类型的功能是完全可以互换的。如下图所示:

从这个角度来说,上面的实验其实很简单。也就是说,在原始训练集中,输入鲁棒特征和非鲁棒特征都可以用于预测标签。然而,当采取细微的扰动时,鲁棒特征(根据定义)不会受到显著影响,但是不稳定特征仍然可能被反转。

比如每只狗的形象都保留了狗的健壮特征(所以在我们看来还是狗),但具有猫的非健壮特征。在训练集被重新标记后,鲁棒特征实际上指向了错误的方向(即具有鲁棒“狗”特征的图片被标记为猫),因此在实际泛化中只有非鲁棒特征提供正确的指导。

总之,鲁棒和非鲁棒特征都可以预测训练集,但只有非鲁棒特征可以产生原始测试集的泛化:

因此,该数据集上的训练模型可以扩展到标准测试集的事实表明:( a)存在非鲁棒特征,并且可以实现良好的泛化;( b)深度神经网络确实依赖于这些非鲁棒特征,即使存在也可以用于预测的鲁棒特征。

健壮模型能学习健壮特征吗?

实验表明,对抗性干扰不是无意义的人为现象,而是与推广所必需的干扰特征直接相关。同时,我们之前关于对抗样本的博文表明,通过使用robustoptimization,我们可以获得一个更不容易受到对抗样本影响的稳健模型。

因此,很自然地要问:我们能验证鲁棒模型实际上依赖于鲁棒特性吗?为了验证这一点,我们提出了限制模型敏感特征输入的方法(对于深度神经网络,对应的是倒数第二层的激活特征)。使用这种方法,我们创建一个新的训练集,它只包含被训练的健壮模型使用的特征:

此后,在没有对抗训练情况下,在获得的数据集上训练模型。发现得到的模型具有较高的精度和鲁棒性!这与标准训练集形成了鲜明的对比,标准训练集导致了精确但脆弱的模型。

并在CIFAR-10测试套件(DD)上进行测试。培训:

左:正常训练中的CIFAR-10:对抗训练中的CIFAR-10正确:正常训练中的构造数据集。

结果表明,健壮性(或非健壮性)实际上可以作为数据集本身的一个属性出现。特别地,当我们从原始训练集中删除非鲁棒性特征时,我们可以通过标准(非对抗性)训练来获得鲁棒性模型。这进一步证明了对抗样本是由于非鲁棒性特征产生的,与标准训练框架没有必然联系。

流动性

《新视角》这一变化的直接后果是,对抗样本的流动性(一直以来的一个神秘现象:一个模型的扰动通常是与其他模型对立的)不再需要单独解释。具体来说,由于反漏洞被视为从数据集生成的特征的直接产物(而不是单一模型训练中的缺陷),因此希望类似的表达模型能够发现并使用这些特征来提高分类精度。

为了进一步探索,我们研究了不同架构学习相似非鲁棒特征的倾向如何与样本在它们之间的可转移性相关:

上图中,我们已经生成了第一个实验中描述的数据集(对抗样本的训练集用目标类标记),对抗样本用ResNet-50构造。因此,结果数据集可以视为将ResNet-50的所有非健壮特性“翻转”到目标类。然后在上图所示的五个网络模型上对这个数据集进行训练,在真实的测试集上记录它们的泛化:即模型的泛化只使用了ResNet-50的不稳定特征。

在分析结果时,我们可以看到,正如对抗模型的新观点所示,模型获得由ResNet-50引入的非鲁棒特征的能力与ResNet-50和各种标准模型之间的对抗迁移密切相关。

启发

我们的讨论还包括实验,以确定对抗样本是一个纯粹以人为中心的现象。因为从分类性能的角度来看,模型没有理由偏好鲁棒性而非非鲁棒性特征。

毕竟鲁棒性这个概念是针对人类的。因此,如果我们希望模型主要依赖于健壮的特性,我们需要通过将先验知识集成到架构或训练过程中来明确这一点。从这个角度来看,对抗性训练(以及更广泛的鲁棒优化)可以说是一种将所需的不变性结合到学习模型中的方法。例如,鲁棒优化可以被视为试图通过不断“翻转”非鲁棒特征来破坏非鲁棒特征的可预测性,从而引导训练模型不依赖于它们。

同时,在设计可解释的方法时,还需要考虑标准模型对非鲁棒性(人类无法理解)的依赖。特别是,对标准训练模型预测的任何“解释”都应该突出这些不稳定的特征(这些特征对人类并不完全有意义)或者隐藏它们(这些特征并不完全忠于模型决策过程)。因此,如果我们想要一种人类可以理解,同时又忠于模型的可解释方法,仅仅依靠训练后的处理是不够的,还需要在训练过程中进行干预。