一种基于可学习元评估网络的对抗性训练方法
未命名
09-20
阅读:93
评论:0

1.本发明属于对抗训练技术领域,更为具体地讲,涉及一种基于可学习元评估网络的对抗性训练方法。
背景技术:
2.对抗训练是一种应用于深度学习模型的防御方法,旨在提高深度学习模型的对抗攻击鲁棒性。现有的对抗训练方法主要分为两种类型。
3.第一种类型的方法是采用单一攻击策略来生成对抗样本,并将其与干净样本一起用于训练目标模型。通常采用pgd(projected gradient descent)对抗攻击方法生成对抗样本。pgd攻击使用一组超参数,包括迭代次数、步长和扰动值大小,这些参数组成了生成对抗样本的攻击策略。传统对抗训练方法使用固定的攻击策略来生成对抗样本,并用于对抗训练以提高模型的鲁棒性。
4.第二种类型的对抗训练方法是使用多种攻击策略生成对抗样本。该方法首先借助于人工制定的规则或策略网络学习,以产生当前时刻的攻击策略。然后,根据这些攻击策略生成相应的对抗样本,用于对抗训练以提高模型的鲁棒性。
5.现有的对抗攻击方法大多使用固定的或人为制定规则产生的攻击策略生成对抗样本。(1)使用固定的攻击策略,在模型训练前期生成难度较大的对抗样本,导致目标模型崩塌,在训练后期生成的对抗样本难度不够,使得目标模型鲁棒性提升有限,(2)使用人为制定规则产生攻击策略,需要大量领域经验,以及模型鲁棒性提升有限,不适用于实际应用;
6.现有的方法基于规则或强化学习得到的策略网络,在目标模型训练的不同阶段生成多种攻击策略。现有的多种攻击策略方法虽然在模型鲁棒性上效果不错,但是它们都很少关注生成对抗样本的质量。多种攻击策略生成对抗样本质量不一定高,深度学习模型倾向于过度拟合低质量有偏见的对抗样本,这通常会导致模型在干净样本上的准确性下降,鲁棒性提升有限。
技术实现要素:
7.本发明的目的在于克服现有技术的不足,提供一种基于可学习元评估网络的对抗性训练方法,在不降低对抗文本质量的同时,提升目标模型的鲁棒性。
8.为实现上述发明目的,本发明基于可学习元评估网络的对抗性训练方法,其特征在于,包括以下步骤:
9.(1)、设置迭代次数阈值为t,初始化迭代次数t=1;
10.(2)、更新可学习元评估网络
11.2.1)、从元数据集中选取n张图像作为干净样本,然后,再对干净样本进行投影梯度下降即pgd攻击,生成对抗扰动添加到干净样本形成对抗样本
12.2.2)、将复制目标模型f
θ
并作为元模型,将对抗样本送入元模型,得到分类预测值并计算元损失其中,f
θ
表示参数为θ的目标模型,是对抗样本的真实分类标签;
13.2.3)、将元损失送入可学习元评估网络,得到对抗样本的难度即权重值
[0014][0015]
其中,h
ω
表示参数为ω的可学习元评估网络;
[0016]
2.4)、更新可学习元评估网络参数ω:
[0017][0018]
其中,ω*是更新后可学习元评估网络参数,β为学习率;
[0019]
(3)、更新目标模型
[0020]
3.1)、从训练集中选取n张图像xi,i=1,2,
…
,n作为干净样本,然后,再对干净样本进行投影梯度下降即pgd攻击,生成对抗扰动添加到干净样本形成对抗样本x
adv_i
;
[0021]
3.2)、将对抗样本x
adv_i
送入目标模型,得到分类预测值f
θ
(x
adv_i
),并计算训练损失其中,表示参数为θ的目标模型,yi是对抗样本x
adv_i
的真实分类标签;
[0022]
3.3)、将训练损失送入参数更新后的可学习元评估网络,得到对抗样本x
adv_i
的难度即权重值wi:
[0023][0024]
其中,表示参数为ω
*
的可学习元评估网络;
[0025]
3.4)、更新目标模型的参数θ:
[0026][0027]
其中,θ
*
为更新后目标模型的参数,α为学习率;
[0028]
(4)、判断迭代次数t是否等于迭代次数阈值t,如果等于,结束目标模型的训练,否则,t=t+1,ω=ω
*
,θ=θ
*
,返回步骤(2)。
[0029]
本发明的目的是这样实现的:
[0030]
本发明基于可学习元评估网络的对抗性训练方法,在对抗性训练一个轮次中,交替更新可学习元评估网络和目标模型,在整个对抗性训练过程中,同时更新可学习元评估网络和目标模型。此外,为了保持公平性,元数据仅用于训练可学习元评估网络。在每个迭代中,首先一个复制目标模型为元模型,然后更新可学习元评估网络,在学习元评估网络的参数之后,冻结元模型参数,并且使用参数更新后的可学习元评估网络以训练目标模型。本发明通过构建一个基于元学习的可学习评估网络来评估对抗样本难度并生成相应权重来对对抗训练的损失函数重新加权来帮助对抗训练,这样调整对抗样本难度以适应模型的当前状态,这样不需要过度拟合低质量有偏见的对抗样本,因此,本发明在不降低对抗文本质量的同时,提升了目标模型的鲁棒性。
附图说明
[0031]
图1是本发明基于可学习元评估网络的对抗性训练方法一种具体实施方式的流程图;
[0032]
图2是本发明基于可学习元评估网络的对抗性训练方法一种具体实施方式的原理示意图;
[0033]
图3是对抗样本识别示意图。
具体实施方式
[0034]
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
[0035]
为了有效学习可学习元评估网络中的参数ω,本发明引入了一种元学习机制,该机制使用内层循环来更新可学习元评估网络,并使用外层循环来更新目标模型。具体而言,在本实施例中,如图1、2所示,本发明基于可学习元评估网络的对抗性训练方法包括以下步骤:
[0036]
步骤s1:初始化
[0037]
设置迭代次数阈值为t,初始化迭代次数t=1。
[0038]
步骤s2:更新可学习元评估网络
[0039]
为了评估对抗样本难度,并调整对抗样本难度以适应模型的当前状态,本发明提出了一个新的对抗训练框架来学习一个元评估网络即可学习元评估网络。将这个可学习元评估网络的学习问题形式化成一个元学习问题,可学习元评估网络元用于在每次迭代时进行更新,重新调整对抗样本的攻击强度,以适应当前目标模型的状态,具体而言,更新可学习元评估网络为:
[0040]
步骤s2.1:生成对抗样本
[0041]
从元数据集中选取n张图像作为干净样本,然后,再对干净样本进行投影梯度下降即pgd攻击,生成对抗扰动添加到干净样本形成对抗样本
[0042]
步骤s2.2:复制目标模型作为元模型,得到对抗样本的元损失
[0043]
将复制目标模型f
θ
并作为元模型,将对抗样本送入元模型,得到分类预测值并计算元损失其中,f
θ
表示参数为θ的目标模型,是对抗样本的真实分类标签。
[0044]
步骤s2.3:对抗样本的元损失送入可学习元评估网络得到其难度
[0045]
将元损失送入可学习元评估网络,得到对抗样本的难度即权重值
[0046][0047]
其中,h
ω
表示参数为ω的可学习元评估网络;
[0048]
在本发明中,引入一个元损失来学习在元数据集上可学习元评估网络的最优参数ω*。可学习元评估网络将对抗样本的元损失作为输入,并输出一个权重值来反映对抗样本的难度,以便后续目标模型更新时,重新调整对抗样本的攻击强度,以适应当前目标模型的状态。
[0049]
在本实施例中,使用全连接层作为可学习元评估网络,并在通过元学习训练目标网络的同时更新元可学习评估网络的参数。
[0050]
步骤s2.4:更新可学习元评估网络参数ω:
[0051][0052]
其中,ω*是更新后可学习元评估网络参数,β为学习率。
[0053]
步骤s3:更新目标模型
[0054]
步骤s3.1:生成对抗样本x
adv_i
[0055]
从训练集中选取n张图像xi,i=1,2,
…
,n作为干净样本,然后,再对干净样本进行投影梯度下降即pgd攻击,生成对抗扰动添加到干净样本形成对抗样本x
adv_i
;
[0056]
步骤s3.2:计算训练损失
[0057]
将对抗样本x
adv_i
送入目标模型,得到分类预测值f
θ
(x
adv_i
),并计算训练损失其中,表示参数为θ的目标模型,yi是对抗样本x
adv_i
的真实分类标签;
[0058]
步骤s3.3:将训练损失送入参数更新后的可学习元评估网络,得到对抗样本x
adv_i
的难度即权重值wi:
[0059][0060]
其中,表示参数为ω
*
的可学习元评估网络;
[0061]
步骤s3.4:更新目标模型的参数θ:
[0062][0063]
其中,θ
*
为更新后目标模型的参数,α为学习率。
[0064]
步骤s4:判断迭代次数t是否等于迭代次数阈值t,如果等于,结束目标模型的训练,否则,t=t+1,ω=ω
*
,θ=θ
*
,返回步骤s2。
[0065]
对抗样本识别
[0066]
如图3所示,当训练好目标模型后,对根据目标模型使用对抗攻击方法(比如pgd,c&w和aa)生成的对抗样本进行识别过程如下:
[0067]
1、对一张给定的图像x,根据训练好的目标模型参数用对抗攻击方法(比如pgd,c&w和aa)生成对抗样本x
adv
。
[0068]
2、将生成的对抗样本x
adv
输入到目标模型中输出logits值。
[0069]
3、对logits值送入softmax函数后c类个值中最大的值就是模型判别对抗样本所属的类别。
[0070][0071]
4)、将f
θ
(x
adv
)与原图x标签y比较,如果相等表明目标模型在对抗攻击方法生成的
这个对抗样本上防御成功,否则失败。
[0072][0073]
实例
[0074]
在本实例中,采用干净样本的准确率和对抗攻击方法的鲁棒准确率来在传统pgd对抗训练方法之上使用本发明训练得到的目标模型。对抗攻击方法中pgd、c&w和aa是最常用的对抗攻击方法。为了评估本发明的稳健性,本实例中,在三个广泛使用的数据集上进行了大量实验:cifar-10、cifar-100和tiny imagenet。cifar-10数据集包括60000个32
×
32彩色图像,分为10类,每类包含6000个图像。该数据集分为50000个训练图像和10000个测试图像。cifar-100包含100个类,每个类中有600个图像。每个类有500个训练图像和100个测试图像。tiny imagenet是imagenet数据集的缩小版,具有更复杂的数据。它由200个类组成,每个类有500个训练图像和50个验证图像,每个图像大小为64
×
64。在测试时,选择pgd方法中不同迭代次数,来生成对抗样本训练模型,这样可以体现本发明使用于不同对抗样本生成方法。
[0075]
两种设定下的测试结果如表1、2、3所示。
[0076][0077]
表1
[0078][0079]
表2
[0080][0081]
表3
[0082]
从以上三个表格可以看出,在传统pgd对抗训练方法之上使用本发明的方法(ours)训练得到的模型在所有的测试集上均优于之前的方法。
[0083]
在cifar-10、cifar-100和tiny imagenet数据集上,对于不同的扰动预算,例如,当迭代次数为2、4、6、8和10时,本发明的方法在所有情况下都优于基本方法pgd-at。具体而言,在cifar-10数据集上,当迭代次数为10时,我们的方法在干净精度上超过了pgd-at,并在pgd-10、c&w和aa攻击下分别提高了1.62%、1.24%和1.48%的鲁棒精度。在cifar-100数据集上,当迭代次数为10时,本发明的方法在pgd-10、c&w和aa攻击下分别比基本模型pgd-at高出约1.74%、1.03%和1.26%。此外,本发明的方法在不同的攻击场景中都优于当前最先进的方法las-at,后者使用强化学习来自适应地设置攻击策略。在tiny imagenet数据集上,本发明的方法在pgd-10、pgd-20、pgd-50、c&w和aa攻击下的鲁棒准确率分别超过pgd-at约2.26%、2.27%、2.17%、1.96%和3.06%。并且,本发明的方法优于当前的sota模型las-at。这些现象证明了本发明的方法的有效性和优越性。
[0084]
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
技术特征:
1.一种基于可学习元评估网络的对抗性训练方法,其特征在于,包括以下步骤:(1)、设置迭代次数阈值为t,初始化迭代次数t=1;(2)、更新可学习元评估网络2.1)、从元数据集中选取n张图像作为干净样本,然后,再对干净样本进行投影梯度下降即pgd攻击,生成对抗扰动添加到干净样本形成对抗样本2.2)、将复制目标模型f
θ
并作为元模型,将对抗样本送入元模型,得到分类预测值并计算元损失其中,f
θ
表示参数为θ的目标模型,是对抗样本的真实分类标签;2.3)、将元损失送入可学习元评估网络,得到对抗样本的难度即权重值权重值其中,h
ω
表示参数为ω的可学习元评估网络;2.4)、更新可学习元评估网络参数ω:其中,ω*是更新后可学习元评估网络参数,β为学习率;(3)、更新目标模型3.1)、从训练集中选取n张图像x
i
,i=1,2,
…
,n作为干净样本,然后,再对干净样本进行投影梯度下降即pgd攻击,生成对抗扰动添加到干净样本形成对抗样本x
adv_i
;3.2)、将对抗样本x
adv_i
送入目标模型,得到分类预测值f
θ
(x
adv_i
),并计算训练损失其中,表示参数为θ的目标模型,y
i
是对抗样本x
adv_i
的真实分类标签;3.3)、将训练损失送入参数更新后的可学习元评估网络,得到对抗样本x
adv_i
的难度即权重值w
i
:其中,表示参数为ω
*
的可学习元评估网络;3.4)、更新目标模型的参数θ:其中,θ
*
为更新后目标模型的参数,α为学习率;(4)、判断迭代次数t是否等于迭代次数阈值t,如果等于,结束目标模型的训练,否则,t=t+1,ω=ω
*
,θ=θ
*
,返回步骤(2)。
技术总结
本发明公开了一种基于可学习元评估网络的对抗性训练方法,在对抗性训练一个轮次中,交替更新可学习元评估网络和目标模型,在整个对抗性训练过程中,同时更新可学习元评估网络和目标模型。此外,为了保持公平性,元数据仅用于训练可学习元评估网络。在每个迭代中,首先一个复制目标模型为元模型,然后更新可学习元评估网络,在学习元评估网络的参数之后,直接丢弃元模型,并且使用参数更新后的可学习元评估网络以训练目标模型。本发明通过构建一个基于元学习的可学习评估网络来评估对抗样本难度并生成相应权重来对对抗训练的损失函数重新加权来帮助对抗训练,这样调整对抗样本难度以适应模型的当前状态,这样不需要过度拟合低质量有偏见的对抗样本,因此,本发明在不降低对抗文本质量的同时,提升了目标模型的鲁棒性。性。性。
技术研发人员:杨阳 位纪伟 陈彤 徐行
受保护的技术使用者:电子科技大学
技术研发日:2023.06.29
技术公布日:2023/9/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种散热器及户外电源的制作方法 下一篇:一种矿山石场生态修复绿化装置的制作方法