一种基于对比学习的文本摘要生成方法及系统

未命名 09-15 阅读:91 评论:0


1.本发明属于自然语言处理技术领域,具体涉及一种基于对比学习的文本摘要生成方法及系统。


背景技术:

2.目前,基于深度学习的生成式文本摘要通常视为为序列到序列(seq2seq)问题,以自回归方式生成摘要。此类模型通常使用极大似然估计(mle)基于teacher-forcing的方式进行训练。这在损失函数和评估指标之间引入了差距,因为损失函数是基于局部的token级别预测,而评估指标需要比较参考摘要和模型输出之间的整体相似性。此外,在测试阶段,模型需要自回归生成输出,这意味着上一步所产生的错误会累积。训练和测试之间的这种差距在之前的工作中被称为曝光偏差。
3.使用对比学习方法预训练的卷积神经网络促进了计算机视觉目标检测和图像分割的发展。最近,对比学习被引入几个条件文本生成任务,例如机器翻译、文本摘要。对比学习着重于学习同类实例之间的共同特征,区分非同类实例之间的不同之处。与生成式学习比较,对比式学习不需要关注实例上繁琐的细节,只需要在抽象语义级别的特征空间上学会对数据的区分即可,因此模型以及其优化变得更加简单,且泛化能力更强。


技术实现要素:

4.本发明的目的在于提供基于对比学习的文本摘要生成方法及系统,以解决现有技术中生成式文本摘要中存在曝光偏差的技术问题。
5.为实现上述目的,本发明提供如下技术方案:
6.第一方面,本发明提供了一种基于对比学习的文本摘要生成方法,包括:
7.s1:获取生成文本摘要所需的数据集,对数据集中样本进行预处理;
8.s2:将预处理后的样本载入预设的模型进行微调;
9.s3:对微调后的模型进行迭代训练得到最终模型;
10.s4:将文本输入最终模型中,生成文本摘要。
11.可选的,所述数据集包括若干个样本,每个样本均包含文本及参考摘要,对每个样本进行预处理,得到预处理后的训练集、测试集及验证集。
12.可选的,所述对数据集中样本进行预处理,具体包括:
13.对样本进行sub-word分词,建立相应的词汇表;
14.在参考摘要起始位置插入起始标志,结尾插入结束标志,对长度大于512长度的样本进行截断处理,长度不足512的进行填充;
15.对文本和其参考摘要进行编码,得到编码表示。
16.可选的,所述预设的模型基于transformer架构,由编码器及解码器构建,所述将训练集及验证集载入预设的模型中进行训练验证,包括:
17.将预处理后的训练集载入预设的模型中,根据验证集对预设的模型基于最大似然
估计进行微调,具体为:
18.将读取的训练集中的原文文档输入至编码器得到其上下文表征,将得到的上下文表征和参考摘要输入至解码器,得到其解码器的隐藏状态;
19.再将解码器经过一层全连接层和softmax函数计算后得到词汇的分布概率,再与参考摘要做交叉熵函数计算得到最终的mle损失函数;
20.通过训练集及验证集对模型基于mle损失函数做迭代训练,得到微调后的模型。
21.可选的,所述对微调后的模型进行迭代训练得到最终模型,还包括:
22.加载微调后的模型,读取训练集,对训练集每个样本由模型生成得到多个候选者,对每个候选者按照与参考摘要通过序列级别评价指标进行排序,得到排序后的候选摘要;
23.将每个样本经由模型的编码器得到样本的编码器的隐藏状态,将每个样本对应的排序后的候选摘要和样本的隐藏状态输入至模型的解码器,计算得到候选摘要的得分,结合候选摘要的排序,得到样本的对比损失函数;
24.通过训练集及验证集结合对比损失函数和mle损失函数对模型进行迭代训练。
25.可选的,所述结合对比损失函数和mle损失函数对模型进行迭代训练,包括:
26.通过测试集对最终的损失函数做多次迭代训练,得到最终的模型,其中,最终的损失函数为对比损失和mle损失相加的结果。
27.可选的,所述排序后的候选摘要通过以下方式得到:
28.模型生成过程中通过多样化集束搜索得到多个候选摘要,选取为rouge-1和rouge-2的平均值作为评价指标对候选摘要进行排序。
29.可选的,所述候选摘要的得分通过以下方式得到:
30.将候选摘要输入至解码器中;
31.在解码器中经由一层全连接层并通过softmax函数计算得到概率分布,再与候选摘要做交叉熵函数计算得到候选摘要的得分。
32.可选的,将文本输入训练好的最终模型中,采用多样化集束搜索由模型自回归生成并选取最优文本摘要。
33.第二方面,本发明还提供了一种基于对比学习的文本摘要生成系统,其特征在于,包括:数据集样本预处理模块、文本摘要生成模块及文本摘要输出模块;其中:
34.数据集样本预处理模块,用于获取文本摘要所需的数据集,并对数据集中样本进行预处理;
35.文本摘要生成模块:用于将文本输入最终模型中,生成文本摘要;
36.文本摘要输出模块:用于对生成的文本摘要进行输出。
37.本发明的有益效果和优点:
38.该基于对比学习的文本摘要生成方法通过对预训练模型进行微调,然后将模型作为重排序器对模型生成的候选摘要对评价指标进行排序得到对比损失,采用多任务学习的方式结合mle损失和对比损失对模型进行优化,通过mle损失来确保词级预测准确度的同时,通过对比损失使得模型给具有更高评价指标得分的候选摘要分配有更高的生成概率。此外,在对比学习阶段采用在线采样的方式来生成候选摘要,以确保模型作为生成模型和重排序器的一致性,同时能够不断提升候选摘要的质量来确保排序任务目标的可学习性。
附图说明
39.图1为本发明的流程示意图;
40.图2为本发明的模型的训练两阶段训练示意图;
41.图3为本发明的实施例中各模型在rouge指标上的实验结果示意图。
具体实施方式
42.下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
43.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
44.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
45.一种实施例,如图1至图3所示,提供了一种基于对比学习的文本摘要生成方法,包括通过如下步骤缓解生成式文本摘要中曝光偏差的问题:
46.s1:获取生成文本摘要所需的数据集,对数据集中样本进行预处理;
47.s2:将预处理后的样本载入预设的模型进行微调;
48.s3:对微调后的模型进行迭代训练得到最终模型;
49.s4:将文本输入最终模型中,生成文本摘要。
50.参考图1及图2所示,本实施例中,首先获取英文文本摘要数据集(xsum),其中数据集包括若干个样本,每个样本均包含文本及参考摘要,对每个样本进行预处理,得到预处理后的训练集、测试集及验证集;
51.其中预处理包括:对样本进行sub-word分词,建立相应的词汇表,在参考摘要起始位置插入起始标志,结尾插入结束标志,对长度大于512的样本进行截断处理,长度小于512的样本进行填充,得到预处理后的文件;
52.然后下载并加载预训练模型,本实施例中预训练模型优选为基于transformer架构,由编码器及解码器构建,将预处理后的训练集及验证集载入预训练模型,对预训练模型基于最大似然估计进行微调;
53.将预处理后的文件中的训练集源文档记作x,参考摘要为y,记为参考摘要长度,记编码器为t
encoder
,解码器为t
decoder
,将源文档输入至编码器t
encoder
,得到隐藏状态h=t
encoder
,将隐藏状态h
enc
和参考摘要输至解码器t
decoder
,t时刻,其中(0<=t<leny),所预测
的词汇的概率分布:
[0054][0055]
式中:w和b为全连接层的参数,y
<t
为参考摘要中t时刻前的词汇;
[0056]
概率分布为得到最终mle损失为l
mle
=crossentrypy(p
vocb
,y),然后基于l
mle
进行多次迭代训练得到微调后的模型;
[0057]
将微调后训练所得的模型载入,对预处理后文件中的每个源文档x通过多样化集束搜索得到n个候选摘要s
cans
={s1,s2,..sn},记第i个候选摘要rouge-1,rouge-2的值为r
1i
,r
2i
,总评分为ri=(r
1i
+r
2i
)/2,按照ri的大小对候选摘要进行排序,得到排序后的候选摘要其中ki表示s
sorted_cans
中第i个候选摘要在原候选摘要集合中的下标;
[0058]
将源文档x通过模型编码器得到编码器隐藏状态h
enc
=t
encoder
(x),对排序后的每个候选摘要和h
enc
经由t
decoder
得到解码器的隐藏状态h
dec
=t
decoder
(y,h
enc
),计算最终的得分为:
[0059][0060]
其中表示长度惩罚,的长度,α为超参数,w和b分别为全连接层参数,候选摘要得分集合为对比学习损失函数为:
[0061][0062]
其中γ为超参数;
[0063]
结合上述中的l
mle
,最终的损失函数为:
[0064]
l
tot
=l
mle
+βl
ctr
[0065]
对最终的损失函数l
tot
做多次迭代训练,得到最终的模型并保存;
[0066]
将文本输入至最终保存的模型中,采用多样化集束搜索由模型自回归生成并选取生成最优摘要。
[0067]
本实施例还公开了一种基于对比学习的文本摘要生成系统,包括:数据集样本预处理模块、文本摘要生成模块及文本摘要输出模块;其中:
[0068]
数据集样本预处理模块,用于获取文本摘要所需的数据集,并对数据集中样本进行预处理;
[0069]
文本摘要生成模块:用于将文本输入最终模型中,生成文本摘要;
[0070]
文本摘要输出模块:用于对生成的文本摘要进行输出。
[0071]
其中,数据集样本预处理模块、文本摘要生成模块及文本摘要输出模块具体的工作流程及结构已在前面进行了详细描述,故在此不在赘述。
[0072]
参考图2所示,通过在第一阶段模型基于mle损失函数微调,来提升模型的生成的词级别的预测精度,在第二阶模型首先作为生成模型来在线采样生成候选摘要,然后,模型
作为重排序器来对候选摘要进行排序,结合候选摘要的评价指标得分和对比损失函数,最后,结合mle损失函数和对比损失函数对模型进行迭代训练。
[0073]
为了说明本发明的适用性和优越性,实验选取了公开的英文数据集xsum作为实验数据,该数据集由bbc文章和单句摘要组成,训练集、验证集和测试集中分别包含204,045(90%)、11,332(5%)和11,334(5%)个文档。
[0074]
本发明模型采用基于transformer结构的t5-small作为模型的编码器和解码器,对于编码器的输入长度限制为512,解码器的输出长度不超过128;
[0075]
在模型训练的第一阶段,使用adafactor优化器,学习率设置为2
×
1e-5
大小,迭代轮次设置为60,批次大小为32。在训练的第二阶段,采用相同的优化器,学习率设置为1e-5
,采样大小为8,迭代轮次设置为15,批次大小为6,γ设置为0.075;
[0076]
在推理阶段,设置模型长度惩罚为0.6,采用多样化集束搜索作为解码策略,设置集束搜索大小为8。
[0077]
实验采用自动摘要评价算法rouge作为评价指标,该指标通过计算待评价的自动摘要与标准的人工摘要在n-gram上的重叠度来衡量计算机生成的文本摘要的质量;
[0078]
rouge-n的计算方式如下所述:
[0079][0080]
式中:count
match(n-gram)
代表n-gram既存在于计算机自动获得的文本摘要又存在于标准的人工摘要内的频数,与之相对应的是count(n-gram)代表n-gram仅存在于标准的参考摘要内的次数。
[0081]
实验所采用的对比模型如下所述:
[0082]
t5-mle:采用与模型相同的模型结构的预训练模型,基于mle损失进行微调;
[0083]
t5-consum:对比学习方案,通过生成离线采样的方式生成候选摘要,将候选摘要和参考摘要分别作为负样本和正样本来优化模型。原文是基于bart实现,本发明为保持验证对比的一致性,采用t5-small模型进行了实现;
[0084]
ours:本发明所提出的方案;
[0085]
各模型在rouge评价指标上的实验结果如图3所示,可以看出本发明所提出的模型在rouge-1、rouge-2、rouge-l上均取得了最优的结果。
[0086]
综上,本发明提出了一种基于对比学习的生成式文本摘要方法用于改善生成式文本摘要中的暴露偏差问题,模型首先作为生成模型基于极大似然估计(mle)损失进行微调,然后将模型作为重排序器对模型生成的候选摘要对评价指标进行排序得到对比损失,采用多任务学习的方式结合mle损失函数和对比损失函数对模型进行优化。
[0087]
该方法的主要思想是通过mle损失函数来确保词级预测准确度的同时,通过对比损失函数使得模型更具有更高评价指标得分的候选摘要分配有更高的生成概率,此外,在对比学习阶段本发明采用在线采样的方式来生成候选摘要,以确保模型作为生成模型和重排序器的一致性,同时能够不断提升候选摘要的质量来确保排序任务目标的可学习性,实验结果验证了本文提出的方案可行性和优越性。
[0088]
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

技术特征:
1.一种基于对比学习的文本摘要生成方法,其特征在于:包括:s1:获取生成文本摘要所需的数据集,对数据集中样本进行预处理;s2:将预处理后的样本载入预设的模型进行微调;s3:对微调后的模型进行迭代训练得到最终模型;s4:将文本输入最终模型中,生成文本摘要。2.根据权利要求1所述的一种基于对比学习的文本摘要生成方法,其特征在于:所述数据集包括若干个样本,每个样本均包含文本及参考摘要,对每个样本进行预处理,得到预处理后的训练集、测试集及验证集。3.根据权利要求2所述的一种基于对比学习的文本摘要生成方法,其特征在于:所述对数据集中样本进行预处理,具体包括:对样本进行sub-word分词,建立相应的词汇表;在参考摘要起始位置插入起始标志,结尾插入结束标志,对长度大于512长度的样本进行截断处理,长度不足512的进行填充;对文本和其参考摘要进行编码,得到编码表示。4.根据权利要求3所述的一种基于对比学习的文本摘要生成方法,其特征在于:所述预设的模型基于transformer架构,由编码器及解码器构建,将训练集及验证集载入预设的模型中进行训练验证,包括:将预处理后的训练集载入预设的模型中,根据验证集对预设的模型基于最大似然估计进行微调,具体为:将读取的训练集中的原文文档输入至编码器得到其上下文表征,将得到的上下文表征和参考摘要输入至解码器,得到其解码器的隐藏状态;再将解码器经过一层全连接层和softmax函数计算后得到词汇的分布概率,再与参考摘要做交叉熵函数计算得到最终的mle损失函数;通过训练集及验证集对模型基于mle损失函数做迭代训练,得到微调后的模型。5.根据权利要求4所述的一种基于对比学习的文本摘要生成方法,其特征在于:所述对微调后的模型进行迭代训练得到最终模型,还包括:加载微调后的模型,读取训练集,对训练集每个样本由模型生成得到多个候选者,对每个候选者按照与参考摘要通过序列级别评价指标进行排序,得到排序后的候选摘要;将每个样本经由模型的编码器得到样本的编码器的隐藏状态,将每个样本对应的排序后的候选摘要和样本的隐藏状态输入至模型的解码器,计算得到候选摘要的得分,结合候选摘要的排序,得到样本的对比损失函数;通过训练集及验证集结合对比损失函数和mle损失函数对模型进行迭代训练。6.根据权利要求5所述的一种基于对比学习的文本摘要生成方法,其特征在于:所述结合对比损失函数和mle损失函数对模型进行迭代训练,包括:通过测试集对最终的损失函数做多次迭代训练,得到最终的模型,其中,最终的损失函数为对比损失函数和mle损失函数相加的结果。7.根据权利要求5或6所述的一种基于对比学习的文本摘要生成方法,其特征在于:所述排序后的候选摘要通过以下方式得到:模型生成过程中通过多样化集束搜索得到多个候选摘要,选取为rouge-1和rouge-2的
平均值作为评价指标对候选摘要进行排序。8.根据权利要求7所述的一种基于对比学习的文本摘要生成方法,其特征在于:所述候选摘要的得分通过以下方式得到:将候选摘要输入至解码器中;在解码器中经由一层全连接层并通过softmax函数计算得到概率分布,再与候选摘要做交叉熵函数计算得到候选摘要的得分。9.根据权利要求1或8所述的一种基于对比学习的文本摘要生成方法,其特征在于:将文本输入训练好的最终模型中,采用多样化集束搜索由模型自回归生成并选取最优文本摘要。10.一种基于对比学习的文本摘要生成系统,其特征在于,包括:数据集样本预处理模块、文本摘要生成模块及文本摘要输出模块;其中:数据集样本预处理模块,用于获取文本摘要所需的数据集,并对数据集中样本进行预处理;文本摘要生成模块:用于将文本输入最终模型中,生成文本摘要;文本摘要输出模块:用于对生成的文本摘要进行输出。

技术总结
本发明公开了一种基于对比学习的文本摘要生成方法及系统,方法包括:S1:获取生成文本摘要所需的数据集,对数据集中样本进行预处理;S2:将预处理后的样本载入预设的模型进行微调;S3:对微调后的模型进行迭代训练得到最终模型;S4:将文本输入最终模型中,生成文本摘要。本发明作为生成模型基于极大似然估计(MLE)损失进行微调,然后将模型作为重排序器对模型生成的候选摘要对评价指标进行排序得到对比损失,采用多任务学习的方式结合MLE损失和对比损失对模型进行优化,通过MLE损失来确保词级预测准确度的同时,通过对比损失使得模型给具有更高评价指标得分的候选摘要分配有更高的生成概率。有更高的生成概率。有更高的生成概率。


技术研发人员:周国强 胡波
受保护的技术使用者:南京邮电大学
技术研发日:2023.06.19
技术公布日:2023/9/13
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐