基于反击的迭代对抗性攻击检测

小编:小编发布日期:2024-05-02浏览量:111

摘要

深度神经网络(dnn)已被证明是处理非结构化数据的强大工具。然而,对于像图像这样的高维数据,它们天生就容易受到对抗性攻击。添加到输入的几乎看不见的小扰动可以用来欺骗dnn。近年来,各种攻击、加固方法和检测方法层出不穷。众所周知,通过迭代最小化计算的Carlini-Wagner (CW)型攻击属于最难检测的攻击。在这项工作中,我们概述了一个数学证明,证明连续波攻击本身可以用作检测器。即在一定的假设条件下,在攻击迭代次数的限制下,该检测器提供原始图像与被攻击图像的渐近最优分离。在数值实验中,我们实验验证了这一说法,并进一步在CIFAR10和ImageNet上获得了高达\(99.73% \)的AUROC值。这是目前最先进的化武攻击检测率的上限。

1 介绍

对于许多应用来说,深度学习的性能已经远远超过并行机器学习方法[14,18,35]。特别是,当处理高维输入数据(如图像)时,深度神经网络(dnn)显示出令人印象深刻的结果。正如[37]所发现的那样,这种卓越的表现也有缺点。在输入图像中添加非常小的(类似噪声的)扰动会导致高置信度的错误预测[10,37]。这种对抗性攻击通常是通过执行投影梯度下降方法来解决约束优化问题。优化问题被表述为输入图像的最小变化,从而产生DNN预测的类的变化。新职业可以是一个可选择的职业(目标攻击),也可以是一个任意但不同的职业(非目标攻击)。许多其他类型的攻击,如快速签名梯度方法[10]和DeepFool[26]已经被引入,但这些方法不能可靠地欺骗dnn。Carlini & Wagner (CW)对[37]进行了扩展,提出了一种可靠地攻击深度神经网络的方法,同时控制了攻击的重要特征,如稀疏性和所有像素的最大大小,参见[3]。该方法旨在寻找目标攻击或非目标攻击,其中攻击图像与原始图像之间的距离相对于选定的距离最小。在cw型框架内的选择距离大多为。的混合物也被[5]提出。除了距离之外,这些攻击在感知上极其难以检测,参见图2。距离的最小化减少了改变的像素数量,但也最大限度地改变了这些像素,由此产生的尖峰很容易检测到。这对于。通常,可以区分三种不同的攻击场景。白盒攻击:攻击者可以访问DNN的参数/整个框架,包括防御策略。黑盒攻击:攻击者不知道DNN的参数/整个框架包括防御策略。灰盒攻击:介于白盒和黑盒之间,例如,攻击者可能知道框架,但不知道使用的参数。CW攻击是目前最有效的白盒攻击之一。

1.1 防御方法

已经提出了几种防御机制来强化神经网络或检测对抗性攻击。其中一种硬化方法是所谓的防御蒸馏[28]。该方法只需要进行一次重新训练,安全性较强,但不能抵御连续攻击。通过对抗性训练进行鲁棒性训练是另一种流行的防御方法,参见[10,19,24,25,39]。参见[30]了解有关防御方法的概述。这些方法大多不能处理像CW攻击这样基于约束最小化迭代方法的攻击。在白盒设置中,加固的网络仍然容易被欺骗。

1.2 检测方法

对抗性攻击有许多检测方法。在许多工作中,已经观察到并利用了对抗性攻击对随机噪声的鲁棒性不如未受攻击的干净样本,参见[2,31,38,42]。检测和防御方法可以利用这个健壮性问题。在[31]中,对白盒设置提出了统计检验。在输入的随机损坏和观察相应的softmax概率分布的情况下获得统计数据。[21]中提出了一种用于检测对抗样本的自适应降噪方法。JPEG压缩[22,29],类似的输入变换[13]和其他过滤技术[20]也被证明可以过滤掉许多类型的对抗性攻击。一些方法还可以使用多个图像或图像序列来检测对抗性图像,例如[6,12]。[4,45]中引入了不仅考虑输入或输出层,而且考虑隐含层统计的方法。辅助模型的鲁棒性训练和装备用于检测对抗的例子在[44]中提出。最近,gan已经证明可以很好地保护dnn免受对抗性攻击,参见[32]。这种方法称为防御- gan迭代过滤掉对抗性扰动。然后将过滤后的结果呈现给原始分类器。图像分类任务中的语义概念预先选择图像数据,这些数据仅覆盖rgb图像的一小部分表达能力。因此,训练数据集可以嵌入到低维流形中,dnn只使用流形内的数据进行训练,并且在垂直方向上表现任意。这些也是对抗性扰动所使用的方向。因此,在[16]中,对抗性样例的流形距离可以作为检测标准。与许多对抗性训练和强化方法相反,本段提到的大多数工作都能够检测AUROC值高达99%的连续武器攻击[23]。关于概述,我们参考[43]。

通过对受攻击和未受攻击的数据(图像和文本)应用另一种攻击(反击)来检测对抗性攻击的想法,而不是像前面讨论的那样应用随机扰动,在[40,41]中首次提出(称为),并由[46]重新发明(称为卧底攻击)。这个想法是在给定的范数中测量反击的扰动强度,然后区分之前被攻击的图像和仍然是原始(未被攻击)的图像的扰动范数。这种方法的动机与利用随机噪声的动机相似,即受攻击的图像对对抗性攻击的鲁棒性往往不如原始图像。实际上,[40,41]和[46]提出的方法之间存在差异。前者在输入空间上度量反击摄动范数,后者在softmax概率空间上度量反击摄动范数。所有这三个工作都是经验性的,并提供了一系列攻击方法(包括FGSM和CW)的结果,其中他们在另一次应用相同的攻击(对受攻击和未受攻击的数据),也执行交叉方法攻击,在许多测试中实现了最先进的检测精度。与许多其他类型的检测方法相反,反击方法往往比弱攻击更可靠地检测到强攻击,如CW攻击。这里,强指的是在产生非常小的扰动的同时可靠地欺骗dnn的攻击。

1.3 我们的贡献

本文建立了连续攻击的理论和用于连续攻击的反击框架[40,41]。与其他类型的攻击(不基于约束优化)相反,CW攻击的固有属性构成了反击方法的另一种动机,结果导致可证明的检测:

图1
figure 1

反击的动作草图,是第一次攻击的静止点,第一次攻击的最终迭代和第二次攻击的最终迭代

连续波攻击使所选范数中的扰动最小化,从而使类预测发生变化。因此,迭代序列应该在决策边界后面终止。这也适用于反击。因此,从统计意义上讲,反击应该对已经攻击的图像产生比原始图像小得多的扰动,参见图1。这种观点并不一定适用于不基于约束优化的其他类型的攻击。通过这项工作,我们首次从数学上证明了CW攻击的以下结果:

  • 对于惩罚项的特定选择,连续攻击收敛于一个静止点。如果连续波攻击成功(被攻击图像的预测类别与原始图像的预测类别不同),则连续波攻击收敛到类别边界上的一个平稳点。

  • 如果反击是在第一次攻击的迭代中开始的,该迭代足够接近攻击序列的极限点,反击则通过摄动强度(即反击产生的摄动的范数)渐近地完美分离攻击和非攻击图像。

因此,我们能够解释[40,41,46]中发现的许多结果。正是CW攻击的最优性在被攻击数据中留下了危险的足迹。注意,我们并不是说反击也不能被绕过;然而,我们的工作有助于了解化武攻击的性质和相应的反击。

我们通过二维实例的数值实验来补充数学理论,其中我们的证明假设得到满足,并研究了相关参数,如主攻击的迭代次数,次攻击的初始学习率等。我们连续一步放宽假设,表明以接收算子曲线下面积(AUROC)表示的检测精度仍然接近。这与对问题维度依赖性的研究相辅相成。最后,我们给出了在CIFAR10和ImageNet中使用默认参数的CW (counter)攻击的数值结果,扩展了[40,41,46]中的研究。我们再次研究了对主攻击迭代次数的依赖性,并进一步对保持高达的高AUROC值的不同规范执行交叉攻击。

目录

摘要 1 介绍 2 反击检测 3.数值实验 4 有限公司 结论与展望 笔记 参考文献 致谢 作者信息 关于理论的补充材料 搜索 导航 #####

2 反击检测

在本节中,我们首先介绍了在实践中广泛使用的具有ReLU激活函数的深度神经网络,并概述了如果最终网络层配备线性激活函数,为什么这种网络会产生分段仿射函数。随后,我们介绍了连续攻击及其反击,并提供了它们收敛到静止点的理论见解。这些理论洞察力依赖于由分段仿射函数引起的几何。

2.1 分段仿射函数的ReLU网络

我们概述了如果最终层的激活函数是线性的,为什么ReLU网络产生分段仿射函数。我们与[15]进行类似的处理,并参考[1]了解更多细节。如果存在一个有限的多面体集(也称为h的线性区域),使得h是一个仿射函数,则称为分段仿射函数。使用分段仿射激活函数,如ReLU或LeakyReLU,输出层线性的前馈神经网络产生连续的分段仿射函数[1]。例如,这包括全连接层和卷积层以及最大池化。

在这里,我们将自己限制在一个具有一维输出的网络中,扩展到c输出以组件方式工作并且是直接的。由于卷积层是完全连接层的一种特殊情况,我们在下面使用完全连接层。我们用ReLU激活函数和网络层数表示。对于第1层,,权重矩阵和偏置向量分别由和给出。我们初始化and for。每一层的输出定义为

(1)

整个网络的输出由

(2)

随它去吧,

(3)

而且,

(4)

两个对角矩阵。因此,可以写成仿射函数的复合

(5)

这个方程可以化简为,

(6)

而且,

(7)

多面体Q(x)表征为M个半空间的交集,其中(也为给定ReLU网络的隐藏神经元数量),

(8)

半空间是由什么给出的

(9)

h到Q(x)的仿射限制可以写成

(10)

它对Q(x)是仿射的。注意,这种多面体的数目Q(x)的上限为。

2.2 CW攻击

令表示不同类的集合,令表示闭单位区间。图像是一种元素。设一个连续函数,由ReLU-DNN给出,几乎处处可微,将x映射到一个概率分布。请注意,这包括卷积层(以及其他层),因为它们可以被视为具有权重共享和稀疏性的完全连接层。更进一步,表示产生相应类索引的映射,即

(11)

这是对这个函数的一个轻微的修改,因为它给出了所有由i类预测的成员的集合,因为我们得到了关于的所有类边界的集合。给定,“规范”定义如下:for,, for,,和for,。

对应的距离测度为,具有半径和中心点的n维开邻域为。

对于任意图像,[3]中引入的连续波攻击可表示为以下优化问题:

(12)

[3]中提出了问题(12)的几种重新表述。该条件被下一节进一步指定的连续函数f(x)所取代。我们在这里采用的(12)的重新表述是基于惩罚方法。(12)中的目标被for取代,而for保持不变。因此,我们从现在开始考虑的问题是

(13)

惩罚参数A足够大。在他们的实验中,Carlini和Wagner对常数a进行二分搜索,这样在最后的迭代之后几乎总是满意的。关于进一步的算法细节,我们参考[3]。图2给出了受攻击图像的两个示例。特别是,对于ImageNet数据集来说,即使是扰动本身也是难以察觉的。

图2
figure 2

CIFAR10(左)和ImageNet2012(右)的攻击图像说明。每包三张图像从左到右依次包含:输入图像、攻击图像和生成的对抗图像

2.3 CW反击

连续攻击的目标是在x超出边界的约束下,找到到最近的类边界的距离的最小值。攻击者越渴望最小化所选p-范数中的扰动,在最小化过程中获得的迭代点越有可能靠近类边界。因此,在进行另一次连续攻击来估计到最近的类边界的距离时,期望以起始点为起点,生成一个迭代序列,表示为

(14)

当j足够大时,参见图1。这激发了我们的主张,即连续波攻击本身就是一个很好的连续波攻击检测器。一个未被攻击的图像可能比一个已经被连续攻击的图像离最近的类边界有更大的距离。在实践中,不能保证连续攻击找到的点是(13)的最小值,因此我们不能保证(的近似值)接近类边界。然而,我们可以证明我们可以找到问题(13)的平稳点,并且在成功攻击的情况下()保证位于决策边界上。

2.4 理论的考虑

在本节中,我们将证明1.3节中所宣布的内容,并分三步进行:

  1. 1.

    首先,我们证明了连续攻击收敛于一个平稳点,并且在成功攻击的情况下(改变预测类)位于决策边界上。

  2. 2.

    其次,如果最终迭代与最大数之间的欧氏距离足够小,那么反击就不会留下一个球。

  3. 3.

    最后,我们利用之前的结果并将其转化为一个统计论据,证明在极限下,我们实现了攻击和非攻击图像的渐近完全可分性。

2.4.1 有限公司化武攻击的汇合

设为神经网络对输入预测的原始类。我们假设从现在开始和表示和。此外,我们为f固定了一个选项,它是

(15)

式中,Z为神经网络,但没有最终的softmax激活函数。注意,f in(15)是用于非目标攻击的构造。为目标攻击选择惩罚项并不影响本节提供的论证,CW攻击收敛到一个静止点只需要对目标攻击和非目标攻击的几何形状都满足的假设。令为(13)的可行域,为不可行域,表示与之间的类边界。注意,根据(11)的定义,两者都是相对于的开集。和的不结合产生。此外,暗示而暗示或暗示,也参见图3。

图3
figure 3

f for的一个例子。这个例子包含三个多面体相交于。当两个多面体相交时,则包含两个梯度。它们都正交于

如2.1节所述,对于ReLU-DNN,输入空间可以分解为有限数量的多面体,使得Z在每个多面体上都是仿射的,参见[8,34]。在[8]中,每个多面体由一组线性约束表示,因此是凸的。对于局部Lipschitz函数g, Clarke广义梯度定义为

(16)

其中表示一组向量的凸包。设S为问题(13)的平稳集,

(17)

式中为所有广义梯度的集合,为点x处集合的法锥。一般来说,计算广义梯度集不是一件容易的事情,但是考虑到f -分段线性的特殊结构,在这种情况下,它可以相对容易地完成。即,该集合是在点x处活动的线性函数的梯度的凸包,[33]。因此,通过[7](推论2,第39页),F(x)的广义梯度G(x)具有

(18)

投影广义梯度法[36]定义如下:设P(x)表示x在给定一个非递增的学习计划上的正交投影

(19)

迭代序列生成为

(20)

对。在本文中,我们添加了一个条件,该条件加强了条件(19),并且不改变[36]中的陈述。

话2.1

我们现在详细说明一个观察结果,后面将多次用到它。给出的流形是一个n维流形。其中,是由满足条件的各维度仿射超平面的截面组成,参见(15)。如果多面体与和相交为-维,则(和,)的梯度正交于,因为后者是f的等高线。同样,如果包含多个梯度对应于不同的多面体,并且每个多面体都是-维,则所有的梯度正交于。由于Z和f依赖于在随机优化中学习的神经网络的权重,如果它是非空的,则不太可能小于-维。因此,在下文中,我们将不考虑这种情况。为了简洁起见,我们也可以这样说,在这里没有多面体边界,我们从现在开始假设。的情况下f的几何图形,见图3。

我们现在准备两份关于化武攻击趋同的声明。第一个是方程中所有的平稳点都是孤立的。第二,所有访问无限次的序列都在

(21)

a足够小,a足够大。

现在我们对静止点的孤立性的陈述作一些预备说明。由于神经网络的权重以及定义多面体边界的-维超平面是梯度下降过程的结果,例如在2D情况下,不太可能有两个以上的1D超平面在同一点相交。类似地,n维超平面的交集是一个点,它同样不可能包含在另一个维超平面中。因此,我们可以假设最多的梯度是独立的,而不需要做很强的假设。我们类似地论证了一个由有符号的规范基向量张成的维度的正常锥(具有相应的符号,使得它们指向我们在这里没有明确说明的地方)。它们在后续定理的证明中所扮演的角色与。我们现在修正一些符号。为简洁起见,设f对应于多面体内部某点的唯一梯度,即:

(22)

。更进一步,令,表示其中每个,的封闭面。注意这一点。

对于任意,我们定义活动集w.r.t.和by

(23)

分别由包含x的多面体和边界面的指标组成。

对于一般的平稳点,存在系数和,使得

(24)

我们引入关于系数和的活动集,即,

(25)

显然,我们可以逐渐替换(24)。和也是线性无关的。

定理2.1

设(13)为驻点。也就是说,。假设它们是线性无关的或者张成整体。当A足够大时,它是孤立的。

证明

一个平稳点是孤立的,如果存在这样的一个平稳点。为简洁起见,让

(26)

以及

(27)

For和。

我们继续考虑两种情况:和。

案例1:让我们先假设。然后

(28)

和。注意它是空if。

让我们考虑两种子情况:1.1)线性无关,1.2)向量张成整体。

情形1.1:让我们进一步假设它们是线性无关的。由于,我们可以写

(29)

注意(29)的第二个和在。现在假设它不是孤立的,也就是说,存在一个驻点。注意函数是连续的。

可能有三种情况:、或。在这些集合中至少有一个,会有无限多个as。因此,我们可以假设w.l.o.g.总是在这个集合中被选中。我们考虑以下两种情况,第三种情况将由后面的引理2.2来处理。

同样为了简洁,让

(30)

以及

(31)

For和。

案例1.1.1:让我们假设它成立。让它足够小,并且

(32)

与。它是静止的,我们得到

(33)

我们考虑

(34)

并得出结论

(35)

With for和for。因此,

(36)

因为我们从它的线性无关性中得出结论

(37)

For和。既然如此,那就顺理成章了

(38)

另参见评注2.1。我们通过(37)得到

(39)

因为足够小。因此,

(40)

这意味着

(41)

产生矛盾的

此案仍在审理中。这种情况将由后面的引理2.2来处理。

情形1.1.2:现在假设,是一个驻点。如果很明显,它不可能是一个静止点。这是由于,只有当,但是才会消失。因此,这意味着(32)和式(33)成立,即:

(42)

因此,我们可以用any重复案例1.1.1的推理。然而,对于足够小的,我们得到的是一个矛盾。

情形1.2:现在假设。让我们分别考虑活动集,其中最多存在一个活动集和不同的活动集。因此,对于一个序列来说,这些选择中至少有一个必须无限频繁地出现。因此,如果足够小,我们可以假设w.l.o.g.和是常数。对于足够大的A,我们可以这样写

(43)

如果向量是线性无关的,我们就符合情形1.1。如果是线性相关的,我们选择和的子集,使得前面的方程成立,并且相应的子集仍然是线性无关的,并且张成一个维子空间。注意这是最大的维度,因为所有的和都是正交的。因此,我们可以再次重复案例1.1的推理。对于前面的论证,重要的是要认识到前面的情形1.1.1和1.1.2不需要非负系数,。只要求所有相应向量和的集合线性无关。

情形2:用与情形相似的论证,可以证明在。注:根据情形1.1.2的考虑,不动点是孤立的。

通过上述定理,我们分析了平稳点的性质,这将有助于我们使用[36]的结果来证明我们感兴趣的序列的投影子梯度方法的收敛性。特别地,我们对k大于一些的序列不感兴趣,因为它们不能被认为是成功的对抗性攻击。

连续波攻击是投影次梯度法的一种特殊类型。将一般方法简化为两点:

  • 它假定no包含在(至少两个)多面体的交集中。这是可能的,因为这些交叉点可能是低维子空间的部分,回想2.1。

  • 它不考虑正常的锥体,尽管我们包括了它。

前者意味着只考虑一个梯度就足够了。然而,理论分析还需要处理广义梯度,因为稳定点很可能位于多面体边界。因此,我们对定理2.1中的平稳点的分析是针对一般情况进行的,但在随后的考虑中,我们将使用单梯度。连续波攻击不考虑法锥的事实允许我们将其排除在进一步的考虑之外,并且连续波攻击不会收敛到中的任何定定点。在实践中,我们可以有效地过滤掉非常接近的平稳点,因为对应于原始数据点的概率分布有一个度量为零的on。此外,在接下来的内容中,我们将省略投影P,因为很明显

(44)

为了描述感兴趣的序列并确定它们的性质,我们在下面提出了两个进一步的陈述。对于后面的引理,let和let

(45)

是包含x的所有多面体(包括边界)的集合。同理,是与x相交的多面体对应的所有指标的集合。也就是说,

(46)

引理2.1

(47)

最大球半径是,所有与球相交的多边形至少有一个交点,那么它就成立。

引理2.1和2.2的证明在附录A中给出。

引理2.2

设如引理2.1和,即小于与可行集边界不相交的任何多面体之间的最小距离。让,,。那么,让我们

(48)

如果A足够大,足够小。

定义2.1

如果连续波攻击序列有无限多个k,则称为成功序列。

回忆(21),即。前面的引理表明对于任何成功的攻击A足够大,足够小,k足够大。我们也证明了所有的平稳点都是孤立的。根据引理2.2的归纳步骤,当足够小时,在。我们已经证明了所有的in点都被on点吸引。由此,我们得出,所有的平稳点都是孤立的。因此,我们可以利用[36]对投影梯度下降法的收敛结果,并将其应用于成功的连续波攻击族:

定理2.2

让攻击成功。然后,当足够小时,所有平稳点的集合,即,无处密集,连续波攻击收敛于。

根据引理2.2,k足够大和足够小的序列。由于无处稠密,故满足[36,定理4.1]的条件,并给出前定理的证明。事实证明,所有成功的连续攻击都以边界为终点。如果序列收敛于和,我们说连续攻击成功。

引理2.3

任何成功的连续波攻击都收敛于可行集边界上的一个平稳点。

这个引理的证明在附录A中给出。

2.4.2 反击的边界性

现在让我们考虑反击,因此让我们表示反击的可行区域和不可行区域。我们寻求最小化函数

(49)

其中为主要攻击的最终迭代,B是合适的选择。这个案子再次被考虑。判罚如式(15)所示,但有。设w.l.o.g是所有满足的多面体的集合。我们假设第一次攻击是成功的,并且已经迭代了足够长的时间,以至于第一次攻击的最终迭代非常接近其静止点。对于求解(49),我们将考虑与之前相同的迭代方法,即我们将假设迭代序列定义为

(50)

是上的正交投影。

定理2.3

考虑前面的假设,并进一步假设内部没有零梯度,并且在处没有多面体边界。反击由式(49)定义,当达到时停止,使用足够小的初始步长和足够大的b,反击迭代保持在任何

图4
figure 4

反击中出现的情况。通过从下面跳起,我们证明在给定的假设下,当执行梯度下降步骤时,x减少了它的距离。因此,x永远不会离开

证明

从现在开始,让和

(51)

请注意,这些符号以前用于第一次攻击,但从现在开始将用于反击。用(50)的任意迭代表示,并带有相应的学习系数。我们会证明这一点,所以整个迭代序列属于已知的对于我们所有的我们可以从现在开始省略投影算子。让我们分别考虑两种情况,第一种是,第二种是

设和为给定多面体(包含x)上任意具有对应常数的梯度。我们可以这样假设,因为我们没有这样做。更进一步,设与之间的夹角(参见图4)。鉴于我们有

(52)

因为,我们得到

(53)

注意,是垂直于上升方向的。后者持有,由于这意味着和事实,以及。因此,可以由上限界为:

(54)

因此,执行梯度下降步骤时距离的差值为

(55)

如果步长调度足够小,则后一表达式大于零,即,因此,到的距离减小。

在第二种情况下,我们需要确保一个简单的推导表明,这个条件导致上的一个较弱的界。证明到此结束。

请注意,前面的定理和证明并不取决于我们选择第一次攻击是有目标的还是无目标的。

2.4.3 渐近完全分离

我们现在考虑随机效应,它源于选择由随机变量x表示的任意初始图像,设k为原始CW攻击的迭代次数,设k为迭代后的最终迭代,从。对于任意随机变量Y, Z,其值在let中

(56)

,这意味着第k次迭代是一次成功的攻击。对于,我们定义了对应于随机变量D(表示随机距离)的累积密度函数,其中Borel -代数中所有E的推进度量。

图5
figure 5

AUROC的信息理论定义概述。表示横轴上的一段。从黎曼积分的极限,我们得到(57)

和的接收算子特征曲线下面积(AUROC)是一种综合量化随机变量的值和可以被不同阈值分离的程度的度量。更准确地说,假设统计上小于,那么,对于给定的阈值,真阳性率为,而假阳性率为。因此,由given by诱导的ROC曲线上的一个点测量了阈值将值与值分离的程度,参见图5。由于和是非负的,所以AUROC由

(57)

下面的引理是在现实的假设下形式化的,当我们不断迭代初始的CW攻击时,我们得到和的完全可分性,即。

引理2.4

让法律弱与弱。然后,

(58)

证明

设0点的狄拉克测度带分布函数。根据Helly-Bray引理[9]在律上弱收敛的表征,对于所有连续的地方。这是所有人的情况。这意味着——几乎可以肯定。此外,它认为。因此,根据勒贝格的优势收敛定理

(59)

因为是假设。

现在,设X是一个具有连续密度的随机输入图像。假设神经网络的决策边界勒贝格测度为零,几乎可以肯定,因此,几乎可以肯定,这样确实成立。更进一步,设从x开始的连续攻击的第k次迭代,在攻击成功的条件下,我们得到,有

(60)

几乎可以肯定的是条件概率度量,我们将其作为基础度量。现在存在一个学习率计划和惩罚参数a,使得反击的所有步骤,从距离开始

(61)

几乎可以肯定。注意后一个不等式成立,因为我们可以在定理2.3中选择,这样,然后通过三角形不等式获得常数。让我们进行第一次CW反击。我们考虑

(62)

几乎可以肯定。因此,将引理2.4应用于(62)得到:

定理2.4

在上述假设下,我们得到了连续波反击距离度量分布与原连续波攻击距离度量分布的完美分离,即

(63)

在实践中,上述定理有如下结果:攻击者越渴望最小化施加到原始图像上的攻击扰动(即k越大),反击就越容易检测到攻击。这是由攻击距离和反攻击距离的渐近完全可分性所暗示的。

3.数值实验

现在我们将演示我们的理论考虑如何应用于数值实验。首先,我们引入了一个二维分类问题,我们以这样一种方式构建,即严格尊重理论假设,并说明了我们在主攻击的大迭代极限下证明完全可分性的机制。

图6
figure 6

左上:测试数据集的两个卫星示例的分类结果。右上:用决策边界(黑线)将ReLU网络分解为一组多边形。左下:0类损失函数f(x)(15)的曲面图。右下角:作为迭代次数函数的值的分位数(对数缩放)

3.1 用2D实例进行实验

对于2D情况,我们基于两个卫星的例子创建一个数据集。我们使用数据点来训练分类器,并使用300个数据点作为测试集,测试精度为。测试数据集和相应的类预测如图6(左上)所示。作为分类器,我们考虑了一个包含8个神经元的隐藏层的浅ReLU网络。图6(右上)给出了将该网络分解为有限多面体集的过程。f(x)对应的曲面图如图6(左下)所示。

静止点需要满足

(64)

其中为第i个多面体的梯度,W.L.O.G.,,。因此,惩罚强度a是足够的,如果它满足

(65)

其中n为输入维数,c(51)为与决策边界相交的所有多面体的最小梯度范数。由此得出

(66)

足够大。因此,主攻击的惩罚强度和学习率调度定义为

(67)

分别。后一种选择允许我们在实验中控制。对于输入维度,我们考虑了主要攻击的迭代,并进行了调整。我们选择了主攻。对于反击,我们使用参数

(68)

满足定理2.3的假设。对于数值实验,我们需要推导出一个下界。

图7
figure 7

左:AUROC值作为和之间分类迭代次数的函数。右图:两个月亮示例的回报率与迭代次数

在我们的实验中,我们使用CleverHans框架[27]。不幸的是,这个框架不允许轻松访问神经网络的权重(这将有助于计算多面体)。因此,我们必须将域离散到一个数量级,并通过网络推理计算决策和多面体边界。因此,本节中提供的所有数字仅准确到离散误差。因此,我们为每个数据点单独选择。不同迭代次数下计算值的分位数如图6(右下)所示。反击执行迭代(与主攻击的迭代次数无关),并在第一次(实现)时停止迭代。对于所有测试,我们将测试集随机分成两个大小相等且不同的部分和。因为,我们运行一个主攻击和反攻击生成值和。因为,我们只有进行反击而获得。我们使用了CleverHans框架[27],其中包括CW攻击。实现包含一个置信度参数,将式(15)重新表述为。根据我们的理论,我们认为,恢复(15)。

为了从经验上验证定理2.3中的陈述,我们构造相应的并使用满足with的所有数据点。图6(右下)表明,由于尚未达到平稳性,可以考虑更多的迭代。然而,连续攻击对于迭代来说已经是计算成本很高了。尽管如此,我们在图7(左)中观察到,考虑的迭代次数足以在AUROC方面进行完美的检测。我们还记录了回报率,即我们获得的成功的主要攻击的案例百分比。在两类设置中,这保证了所有成功的主攻击都足够接近决策边界。图7(右)显示,随着迭代次数的增加,回报率确实趋于100%。我们在测试中观察到,独立于主要攻击的迭代次数,这意味着所有数据点。而且当条件被违反的时候,我们就停止了。

3.2 CIFAR10和ImageNet2012实验

在下文中,我们评估了对主攻击迭代次数的依赖性,并对CIFAR10和ImageNet2012数据集执行不同规范的交叉攻击。在第3.2.1节中,我们使用CleverHans研究了CIFAR10数据集[17]的主要攻击迭代,该数据集由来自10个类的微小rgb图像组成,包含50k训练图像和10k测试图像。我们训练了一个由7个卷积层组成的CNN,测试精度为。由于CleverHans只提供攻击,我们也部署了[3]提供的框架来研究不同规范下的可分性。对于可分离性和针对性攻击的进一步实验,考虑[3]中提出的框架,包括预训练模型,并将其应用于CIFAR10和ImageNet2012两个数据集。对于CIFAR10数据集,我们使用了一个包含4个卷积层和2个密集层的网络,并在代码中默认使用。对于ImageNet2012高分辨率rgb图像,我们使用了预训练的Inception网络([11],在类的标准子集上训练)。所有网络都使用默认的训练/val/测试分割进行训练。

与3.1节中的二维实验相反,我们不能再计算更高维度的驻点,因为这在计算上是禁止的。因此,我们独立于所选择的框架调整以下参数:对于参数A和B,我们在0到(这两个框架的默认值)范围内运行二进制搜索。如果没有说明,我们执行1000次攻击和反击迭代。对于反击,我们设置初始学习率(与主要攻击的值相同)。在CleverHans框架中,我们修改了(67)中定义的primary和counter的学习率调度,而在另一个框架中,Adam优化器被用作默认值。对于CIFAR10和ImageNet2012这两个数据集,我们将测试集随机分成两个大小相等的部分和。对于一部分,我们计算值,对于另一部分,我们计算值,这样它们就引用了两组不同的原始图像。由于连续攻击的计算要求很高,我们选择了表1所示的和的样本大小。这个实验设置产生了一个连续攻击,当执行1000次攻击迭代时,对所有被攻击的图像都成功。

3.2.1之上主要攻击迭代和可分离性

使用CleverHans框架在CIFAR10数据集上进行实验,类似于第3.1节中提供的2D示例的实验,我们观察到与图7类似的行为,参见图8,尽管我们无法检查我们的理论假设是否成立。由于连续攻击的计算成本,我们执行了最多的反击迭代。对于主攻击迭代,只有5个例子没有返回到原来的类,其中3个仍然在主攻击的类中,2个移动到不同的类。

图8
figure 8

左:AUROC值作为主攻击迭代次数的函数,用于在和之间进行分类。右图:回报率与CIFAR10的迭代次数

和中的图像个数/数据点个数

3.2.2 CIFAR10和ImageNet2012上不同距离测度的可分性

为了讨论距离度量和不同范数,我们现在改变符号。为映射到被攻击的对应函数的函数。为了证明和在二次攻击下的可分性,我们计算了两个标量集

(69)

对。如前所述,我们将代码修改为[3]提供的代码。除了CIFAR10,我们还考虑使用高分辨率rgb图像的ImageNet2012Footnote 2。从现在起,我们分别使用默认参数并对这两种攻击执行迭代。所用映像的数量见表1。由于在我们的测试中使用的规范是等价的,除了,我们期望交叉攻击,也就是说,这种情况应该产生一个很好的和分离(参见(69))。表2显示了AUROC值为的交叉攻击结果。每一列显示一个规范的检测性能。在这两种情况下,对于CIFAR10和ImageNet2012,当比较两个图的不同列时,我们观察到规范的优越性。在我们的测试中,我们观察到规范也需要最少的计算量,因此规范可能从两个角度都是有利的。值得注意的是,当从CIFAR10到ImageNet2012时,也只有轻微的性能下降,尽管攻击带来的扰动,特别是对于,几乎难以察觉,参见图2。攻击的劣势可能是由于较少的粒度迭代步骤,最大限度地改变像素值。在表3中,我们报告了返回示例的数量和回报率。对于这两个数据集,我们观察到很强的回报率,尽管在多类设置中没有理论保证。为了进一步了解距离分布,我们包括小提琴图可视化和的分布,即,在这种情况下,见图9和图10。对于这两个数据集,和的分布在视觉上也可以很好地分离。

表2 AUROC值为不同的交叉攻击执行分离和,规范是用于检测
表3回国人数及回国率
图9
figure 9

小提琴图显示了ImageNet数据集从(69)到(上)的距离分布,按从左到右升序排列。垂直的红线表示最佳分离阈值

图10
figure 10

小提琴图显示了ImageNet数据集从(69)到(上)的距离分布,按从左到右升序排列。垂直的红线表示最佳分离阈值

3.2.3 针对CIFAR10的针对性攻击

到目前为止,所提供的所有结果都是针对非目标攻击计算的。原则上,一个目标攻击只会增加距离,而对应于另一个非目标攻击的距离测量应该不受影响。因此,有针对性的攻击应该更容易被发现,如图11所示。然而,直觉上,反击在返回到原始类时可能比在非目标情况下更不成功。对于CIFAR10的无目标主攻击,我们得到的回报率为(参见表3);当执行有针对性的主攻击时,这个数字确实减少了。

图11
figure 11

CIFAR10数据中第一次攻击被定位和一次未被定位的检测的ROC曲线和AUROC值

3.3 与最先进防御方法的比较

表4与最新检测方法的比较

最近的工作报告了他们的数字在一个高度异构w.r.t.考虑攻击,评估指标和数据集。这使得清晰的比较变得困难。表4总结了与最新检测方法的比较。我们的方法位于光谱的上半部分。PDG表示投影梯度下降法,在某种意义上,梯度是归一化的,见[24]。测试中经常考虑这种攻击;然而,对于大多数检测方法来说,PDG可能比连续波攻击更容易检测,因为PDG的目标不是最小化扰动强度。对于与我们相似的攻击检测(DBA)方法[46],经验观察到,像CW这样的渴望攻击比其他攻击更容易被检测到。根据我们的理论陈述,这种观察是可以预料到的。[40,41]给出的结果仅限于MNIST,其中攻击检测更简单。他们的发现与[46]一致,对于两种攻击都是CW攻击的设置,[40,41]的作者表示回报率为99.6%,这与我们观察到的结果一致。对于基于不同于连续攻击的反击的其他有趣的数值比较,我们参考[40,41,46]。

下载原文档:https://link.springer.com/content/pdf/10.1007/s10957-023-02273-6.pdf

文章链接:https://www.480520.com/news/show/107867/
文章来源:https://www.480520.com/    
 
 
更多>同类资讯