一种基于渲染的对抗样本生成方法

未命名 10-14 阅读:137 评论:0


1.本发明涉及人工智能领域,具体涉及一种基于渲染的对抗样本生成方法。


背景技术:

2.对抗样本是指:在输入的样本中进行修改,使得模型高概率给出错误的输出结果的同时,样本依然能被人类使用者正确的理解和使用。在图像领域已经存在许多对抗样本的探索,但是在文本领域构建对抗样本在目前还存在挑战:首先,由于文本空间是离散的,采用图像沿梯度方向进行扰动方法的难度很高;其次,现有的文本对抗样本生成方法多对字和词语使用插入、删除、替换的手段,或者是句子级别的转述方法。这些方法难以保证生成样本的流畅性,使样本产生人类可以感知的语义和视觉信息变化,使人类容易曲解样本含义,从而影响人类使用者还原样本信息。
3.unicode支持大部分语言,可以使得相同的渲染呈现效果由各种不同的编码序列表示,也使得其暴露出一些安全问题如同形异议,双向显示,以及数字歧义等。而这些基于渲染的问题现有的文本分类模型在编码时少有考虑。


技术实现要素:

4.本发明旨在提供一种基于渲染的对抗样本生成方法,利用unicode的这一特点可以在保留样本语义和视觉信息的条件下制作有效的对抗样本,极大的提升对抗样本的质量。
5.本发明的技术方案是:一种基于渲染的对抗样本生成方法,包括:
6.s1,采用置信度方法,对训练集中每条样本中的每个词语评分,以评估各个词语对于文本分类模型输出结果的影响力;选择对模型有一定影响力的词语分类存储,生成各类重点词表;
7.s2,基于重点词表,对于一段文本首先处理文本标题中的内容,采用基于视觉无察觉的插入的修改方式,匹配样本标题中包含的修改表中的词语作为被插入词,在插入词的每个字或字符后面各插入一个不可见的退格控制字符;
8.s3,基于重点词表,对于多段落文本开头段和结尾段中的内容,采用基于视觉无察觉的分隔修改方式,匹配样本开头段和结尾段中包含的修改表中的词语作为被分隔词,将零宽空格字符随机插入到分隔词除首尾外的任意位置;
9.s4,基于重点词表,对于多段落文本的中间段和单段落文本的段首句、段尾句中的内容,采用基于视觉无察觉的逆序修改方式,匹配样本中间段和单段落段首句、段尾句中包含的修改表中的词语作为被逆序词,使用不可见控制字符完成逆序;
10.s5,基于重点词表,对于多段落文本的中间段和单段落文本除首尾外的中间句中内容,采用基于视觉无察觉的替换修改方式,匹配样本中间段和单段落文本除首尾外的中间句中包含的修改表中的词语作为被替换词,使用形近字替换。
11.优选地,s1具体包括:
12.s11,将训练集中的每条样本作为探测样本,对于每一个输入模型的探测样本,通过模型输出判断探测样本类别,并采用置信度评估方法得到的样本中每个词语对于文本分类模型贡献程度的得分cf;
13.s12,以对于模型的贡献程度分数从大到小的顺序排列探测样本中的词语,并从每个样本中,提取出得分最高的三个词语,存入样本对应类别的初始词表;
14.s13,处理所有的探测样本,分别对得到的各个类别的初始词表进行去重;并在每个类别的初始词表中,只存储该初始词表与其他类别初始词表的差集,构成各类重点词表,其中存储的全部是对各类数据分类置信度贡献重大的词语。
15.优选地,s11中每个词语对于文本分类模型贡献程度的得分cf具体计算包括:
[0016][0017]
其中,f表示模型,xi表示第i个原始样本,yi为第i个样本的类别标签,wk为样本的第k个词语,表示去除第k个词语的样本。
[0018]
优选地,s2具体包括:
[0019]
s21,匹配样本标题中包含的修改表中的词语作为被插入词,从非样本所属类重点词表中随机选择一个词语作为插入词,在插入词的每个字或字符后面各插入一个不可见的退格控制字符(bs字符),构成退格词;
[0020]
s22,将退格词随机插入到原样本中被插入词的前面或后面,使插入的词在渲染上不可察觉。
[0021]
优选地,s3具体包括:
[0022]
将零宽空格字符(zwsp字符)随机插入到被分隔词除首尾外的任意位置。
[0023]
优选地,s4中不可见控制字符具体包括:嵌入和重写终止字符(pdf字符)、从左到右重写字符(lro字符)、从右到左重写字符(rlo字符)、从左到右隔离字符(lri字符)、隔离终止字符(pdi字符);其中,从左到右重写字符(lro字符)、从右到左重写字符(rlo字符)会强制将控制符后的字符的方向属性覆盖为对应的方向;嵌入和重写终止字符(pdf字符)是结束标记,用于结束从左到右重写字符(lro字符)、从右到左重写字符(rlo字符)的作用范围;从左到右隔离字符(lri字符)用来使其后的字符串脱离父元素的全局方向;隔离终止字符(pdi字符)用于结束从左到右隔离字符(lri字符)的作用范围;
[0024]
优选地,不可见控制字符的具体操作步骤为:
[0025]
s41,将原样本中的被逆序词取出并将其中字或字符的排列顺序变为原来的倒序;
[0026]
s42,将从左到右重写字符(lro字符)、从左到右隔离字符(lri字符)、从右到左重写字符(rlo字符)按照顺序添加到已经倒序的被逆序词之前,将嵌入和重写终止字符(pdf字符)、隔离终止字符(pdi字符)、嵌入和重写终止字符(pdf字符)添加到已经倒序的被逆序词之后,与添加在词语之前的三个不可见控制字符成对使用,用于结束它们的作用范围,构成逆序字符串;
[0027]
s43,将逆序字符串放回样本中原来的位置,使得编码顺序为逆序的词语在视觉上正确渲染。
[0028]
本发明的有益效果在于:基于渲染的对抗样本生成方法,直观地展现了文本分类模型文本编码上的安全威胁和脆弱性,从而提出了有效的对抗样本生成方法,为文本对抗
样本生成的视觉不可区分性和语义保留提供了有效的技术。
附图说明
[0029]
图1为本发明实施例提供的一种基于渲染的对抗样本生成方法总体示意图;
[0030]
图2为本发明实施例提供的一种基于渲染的对抗样本生成方法中采用置信度方法衡量词语影响力的示意图;
[0031]
图3为本发明实施例提供的一种基于渲染的对抗样本生成方法中给定文本样本基于渲染生成对抗样本的具体流程示意图。
具体实施方式
[0032]
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好的理解本发明并能予以实施,本发明的实施方式不限于此。
[0033]
实施例1
[0034]
本发明分成了两个模块进行,包括:词语重要性评估模块,采用置信度方法对训练集中每条样本中的每个词语评分,以评估各个词语对于文本分类模型输出结果的影响力。选择对模型有一定影响力的词语分类存储,生成各类重点词表;对抗样本生成模块:基于重点词表,根据样本中词语所在的不同位置,自动在多个基于视觉无察觉的修改方法中选择该位置对应的方法,对样本中的相关词语进行修改,生成对抗样本。
[0035]
如图1所示,一种基于渲染的对抗样本生成方法,包括:
[0036]
s1,采用置信度方法,对训练集中每条样本中的每个词语评分,以评估各个词语对于文本分类模型输出结果的影响力;选择对模型有一定影响力的词语分类存储,生成各类重点词表;
[0037]
s2,基于重点词表,对于一段文本首先处理文本标题中的内容,采用基于视觉无察觉的插入的修改方式,匹配样本标题中包含的修改表中的词语作为被插入词,在插入词的每个字或字符后面各插入一个不可见的退格控制字符;
[0038]
s3,基于重点词表,对于多段落文本开头段和结尾段中的内容,采用基于视觉无察觉的分隔修改方式,匹配样本开头段和结尾段中包含的修改表中的词语作为被分隔词,将零宽空格字符随机插入到分隔词除首尾外的任意位置;
[0039]
s4,基于重点词表,对于多段落文本的中间段和单段落文本的段首句、段尾句中的内容,采用基于视觉无察觉的逆序修改方式,匹配样本中间段和单段落段首句、段尾句中包含的修改表中的词语作为被逆序词,使用不可见控制字符完成逆序;
[0040]
s5,基于重点词表,对于多段落文本的中间段和单段落文本除首尾外的中间句中内容,采用基于视觉无察觉的替换修改方式,匹配样本中间段和单段落文本除首尾外的中间句中包含的修改表中的词语作为被替换词,使用形近字替换。
[0041]
s1具体包括:
[0042]
s11,将训练集中的每条样本作为探测样本,对于每一个输入模型的探测样本,通过模型输出判断探测样本类别,并采用置信度评估方法得到的样本中每个词语对于文本分类模型贡献程度的得分cf;
[0043]
s12,以对于模型的贡献程度分数从大到小的顺序排列探测样本中的词语,并从每
个样本中,提取出得分最高的三个词语,存入样本对应类别的初始词表;
[0044]
s13,处理所有的探测样本,分别对得到的各个类别的初始词表进行去重;并在每个类别的初始词表中,只存储该初始词表与其他类别初始词表的差集,构成各类重点词表,其中存储的全部是对各类数据分类置信度贡献重大的词语。
[0045]
s2具体包括:
[0046]
s21,匹配样本标题中包含的修改表中的词语作为被插入词,从非样本所属类重点词表中随机选择一个词语作为插入词,在插入词的每个字或字符后面各插入一个不可见的退格控制字符(bs字符),构成退格词;例如词语“科学”,之后在其后添加“体育”,并在“体”和“育”后各加一个bs,即添加形如:“体+bs育+bs”的退格词。
[0047]
s22,将退格词随机插入到原样本中被插入词的前面或后面,使插入的词在渲染上不可察觉。例如插入退格词后的文本输入模型时,模型会按照词语的编码理解词语,即“科学体育”,而人的视觉上依然是“科学”;完成人眼不可见,仅模型可见的插入,在完整保留语义和视觉信息的情况下使文本分类模型失效。
[0048]
s3具体包括:
[0049]
将零宽空格字符(zwsp字符)随机插入到被分隔词除首尾外的任意位置。例如在“运动员”,的“运”字后插入一个zwsp字符,形成如“运+zwsp动员”的字符串;当扰动后的词语输入模型时,模型会按照词语的编码理解词语,即从模型视角来看,“运”和“动员”被分割,成为两个不同的动词,而人的视觉上依然是名词“运动员”,从人类角度来看,没有对语义造成任何影响;完成渲染不可见,仅模型可见的分隔,使模型的理解出现错误,在完整保留语义和视觉信息的情况下使文本分类模型失效。
[0050]
s4中不可见控制字符具体包括:嵌入和重写终止字符(pdf字符)、从左到右重写字符(lro字符)、从右到左重写字符(rlo字符)、从左到右隔离字符(lri字符)、隔离终止字符(pdi字符);其中,从左到右重写字符(lro字符)、从右到左重写字符(rlo字符)会强制将控制符后的字符的方向属性覆盖为对应的方向;嵌入和重写终止字符(pdf字符)是结束标记,用于结束从左到右重写字符(lro字符)、从右到左重写字符(rlo字符)的作用范围;从左到右隔离字符(lri字符)用来使其后的字符串脱离父元素的全局方向;隔离终止字符(pdi字符)用于结束从左到右隔离字符(lri字符)的作用范围;
[0051]
不可见控制字符的具体操作步骤为:
[0052]
s41,将原样本中的被逆序词取出并将其中字或字符的排列顺序变为原来的倒序;例如词语“节气”,先将其中的字排列为原来的倒序,即“气节”。
[0053]
s42,将从左到右重写字符(lro字符)、从左到右隔离字符(lri字符)、从右到左重写字符(rlo字符)按照顺序添加到已经倒序的被逆序词之前,将嵌入和重写终止字符(pdf字符)、隔离终止字符(pdi字符)、嵌入和重写终止字符(pdf字符)添加到已经倒序的被逆序词之后,与添加在词语之前的三个不可见控制字符成对使用,用于结束它们的作用范围,构成逆序字符串;例如将不可见的方向控制字符添加到被逆序的词语周围,形成如:“lro+lri+rlo+气节+pdf+pdi+pdf”的逆序字符串。
[0054]
s43,将逆序字符串放回样本中原来的位置,使得编码顺序为逆序的词语在视觉上正确渲染。例如逆序字符串输入模型时,模型会按照编码顺序理解词语,即“气节”,而人的视觉上是正确的“节气”;使词语完成人眼不可见,仅模型可见的逆序;从而在不改变数据视
[0063]
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的流程并不一定是实施本发明所必须的。

技术特征:
1.一种基于渲染的对抗样本生成方法,其特征在于,包括:s1,采用置信度方法,对训练集中每条样本中的每个词语评分,以评估各个词语对于文本分类模型输出结果的影响力;选择对模型有一定影响力的词语分类存储,生成各类重点词表;s2,基于重点词表,对于一段文本首先处理文本标题中的内容,采用基于视觉无察觉的插入的修改方式,匹配样本标题中包含的修改表中的词语作为被插入词,在插入词的每个字或字符后面各插入一个不可见的退格控制字符;s3,基于重点词表,对于多段落文本开头段和结尾段中的内容,采用基于视觉无察觉的分隔修改方式,匹配样本开头段和结尾段中包含的修改表中的词语作为被分隔词,将零宽空格字符随机插入到分隔词除首尾外的任意位置;s4,基于重点词表,对于多段落文本的中间段和单段落文本的段首句、段尾句中的内容,采用基于视觉无察觉的逆序修改方式,匹配样本中间段和单段落段首句、段尾句中包含的修改表中的词语作为被逆序词,使用不可见控制字符完成逆序;s5,基于重点词表,对于多段落文本的中间段和单段落文本除首尾外的中间句中内容,采用基于视觉无察觉的替换修改方式,匹配样本中间段和单段落文本除首尾外的中间句中包含的修改表中的词语作为被替换词,使用形近字替换。2.根据权利要求1所述的一种基于渲染的对抗样本生成方法,其特征在于,s1具体包括:s11,将训练集中的每条样本作为探测样本,对于每一个输入模型的探测样本,通过模型输出判断探测样本类别,并采用置信度评估方法得到的样本中每个词语对于文本分类模型贡献程度的得分c
f
;s12,以对于模型的贡献程度分数从大到小的顺序排列探测样本中的词语,并从每个样本中,提取出得分最高的三个词语,存入样本对应类别的初始词表;s13,处理所有的探测样本,分别对得到的各个类别的初始词表进行去重;并在每个类别的初始词表中,只存储该初始词表与其他类别初始词表的差集,构成各类重点词表,其中存储的全部是对各类数据分类置信度贡献重大的词语。3.根据权利要求2所述的一种基于渲染的对抗样本生成方法,其特征在于,s11中每个词语对于文本分类模型贡献程度的得分c
f
具体计算包括:其中,f表示模型,x
i
表示第i个原始样本,y
i
为第i个样本的类别标签,w
k
为样本的第k个词语,表示去除第k个词语的样本。4.根据权利要求1所述的一种基于渲染的对抗样本生成方法,其特征在于,s2具体包括:s21,匹配样本标题中包含的修改表中的词语作为被插入词,从非样本所属类重点词表中随机选择一个词语作为插入词,在插入词的每个字或字符后面各插入一个不可见的退格控制字符(bs字符),构成退格词;s22,将退格词随机插入到原样本中被插入词的前面或后面,使插入的词在渲染上不可察觉。
5.根据权利要求1所述的一种基于渲染的对抗样本生成方法,其特征在于,s3具体包括:将零宽空格字符(zwsp字符)随机插入到被分隔词除首尾外的任意位置。6.根据权利要求1所述的一种基于渲染的对抗样本生成方法,其特征在于,s4中不可见控制字符具体包括:嵌入和重写终止字符(pdf字符)、从左到右重写字符(lro字符)、从右到左重写字符(rlo字符)、从左到右隔离字符(lri字符)、隔离终止字符(pdi字符);其中,从左到右重写字符(lro字符)、从右到左重写字符(rlo字符)会强制将控制符后的字符的方向属性覆盖为对应的方向;嵌入和重写终止字符(pdf字符)是结束标记,用于结束从左到右重写字符(lro字符)、从右到左重写字符(rlo字符)的作用范围;从左到右隔离字符(lri字符)用来使其后的字符串脱离父元素的全局方向;隔离终止字符(pdi字符)用于结束从左到右隔离字符(lri字符)的作用范围。7.根据权利要求6所述的一种基于渲染的对抗样本生成方法,其特征在于,不可见控制字符的具体操作步骤为:s41,将原样本中的被逆序词取出并将其中字或字符的排列顺序变为原来的倒序;s42,将从左到右重写字符(lro字符)、从左到右隔离字符(lri字符)、从右到左重写字符(rlo字符)按照顺序添加到已经倒序的被逆序词之前,将嵌入和重写终止字符(pdf字符)、隔离终止字符(pdi字符)、嵌入和重写终止字符(pdf字符)添加到已经倒序的被逆序词之后,与添加在词语之前的三个不可见控制字符成对使用,用于结束它们的作用范围,构成逆序字符串;s43,将逆序字符串放回样本中原来的位置,使得编码顺序为逆序的词语在视觉上正确渲染。

技术总结
本发明提供了一种基于渲染的对抗样本生成方法,包括:S1,评估各个词语对于文本分类模型输出结果的影响力;选择对模型有一定影响力的词语分类存储,生成各类重点词表;S2,对于文本标题中的内容,采用基于视觉无察觉的插入的修改方式;S3,对于多段落文本开头段和结尾段中的内容,采用基于视觉无察觉的分隔修改方式;S4,对于多段落文本的中间段和单段落文本的段首句、段尾句中的内容,采用基于视觉无察觉的逆序修改方式;S5,对于多段落文本的中间段和单段落文本除首尾外的中间句中内容,采用基于视觉无察觉的替换修改方式。本发明为文本对抗样本的语义保留和不可区分性,以及提高文本分类模型的安全性提供了有益的参考。本分类模型的安全性提供了有益的参考。本分类模型的安全性提供了有益的参考。


技术研发人员:李强 李昊聪 张浩宇 王伟
受保护的技术使用者:北京交通大学
技术研发日:2023.07.21
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐