一种无监督句子表示方法及装置
未命名
09-08
阅读:111
评论:0

1.本发明涉及自然语言处理技术领域,特别是指一种无监督句子表示方法及装置。
背景技术:
2.句子表示学习技术希望训练一个深度学习模型将文本句子映射为固定长度的低维深度学习表征,使其能够表示丰富的语义,即含有相似语义的句子的深层表征也能相近,这是自然语言处理社区的一个最基本的任务。句子表示方法也大部分关注于无监督的句子表示,即只使用大量的无手工标注的句子训练深度学习模型。如今无监督句子表示方法大多依赖于最近涌现的预训练语言模型(pre-trained language models,plms)。这个语言模型可以捕获句子中的长距离依赖,以此生成句子中的每个单词的深层表示,并对于每个句子将这些词表示进行平均,得到最终的句子表示。而如何更好地优化训练预训练语言模型也成为亟待解决的问题。
技术实现要素:
3.本发明实施例提供了一种无监督句子表示方法及装置。所述技术方案如下:
4.一方面,提供了一种无监督句子表示方法,该方法由电子设备实现,该方法包括:
5.输入待表示的文本句子;
6.使用优化策略优化训练完成的预训练语言模型,对所述待表示的文本句子进行无监督句子表示,所述优化策略包括:基于对抗训练的策略和基于信息理论的不完整句子检测策略的策略。
7.可选地,所述基于对抗训练的策略包括:
8.训练无监督句子表示的数据为n个无标注的句子每个句子包含|si|个单词,基于预训练语言模型将句子si中的每个词表示为低维的向量形式d是每个单词的向量表示维度,在此基础上,句子表示使用如下的平均池化的操作计算:
[0009][0010]
其中h
ij
表示hi中的每个行向量;
[0011]
使用一个相似性判别器来得到每个单词的频率预测所述相似性判别器为经典的基于神经网络的多层感知机mlp结构,为所述相似性判别器中的神经网络参数,对抗训练的思想期望所述预训练语言模型得到的词表示能够使所述相似性判别器不能准确地预测频率标签,根据这一期望,提出如下的第一目标函数:
[0012]
[0013][0014]
其中l
ce
(
·
,
·
)为交叉熵损失函数,为单词的真实频率标签,所述第一目标函数的目的是通过优化相似性判别器参数使相似性判别器得到更准确的频率预测,优化预训练语言模型参数π使判别器得到更差的频率预测,通过这一对抗过程,使预训练语言模型能输出频率无关的词表示。
[0015]
可选地,所述基于信息理论的不完整句子检测策略的策略包括:
[0016]
对于每个句子si,通过随机掩码一些低频词生成它的不完整版本句子
[0017]
如果原始完整版的句子si和不完整版的句子更容易被区分,则低频词在句子中的信息量越高,设计一个信息判别器来实现这一目的,所述信息判别器为经典的基于神经网络的多层感知机mlp结构,为所述信息判别器中的神经网络参数,提出如下的第二目标函数为:
[0018][0019][0020][0021]
其中表示句子为原始完整版的句子还是不完整版的句子;
[0022]
所述第二目标函数的目的是通过联合优化预训练语言模型参数п和信息判别器参数使预训练语言模型得到更容易区分的原始完整版的句子si和不完整版的句子从而强调被掩码的低频词在整个句子中的重要性。
[0023]
可选地,所述方法还包括:提出第三目标函数,所述第三目标函数为基于对比学习目标函数采用下述方式得到所述第三目标函数:
[0024]
基于原始句子si,生成两个数据增强版本和数据增强指的是对句子中的单词进行删除、增加或替换操作,两个增强版本经过预训练语言模型得到的深层表示为和使用平均池化得到它们的句子表示和对比学习目标函数的目的是使一个句子的两个增强句子表示的距离更近,与不同的句子表示之间的距离更远,对比学习目标函数被表示如下:
[0025][0026][0027]
其中b为预训练语言模型训练时的批量的大小;ω表示训练的批次;代表不包括句子si本身的增强版本的子集,hk是所述子集中的句子的向量表示;sim(
·
,
·
)是相似度度量函数;τ表示对比学习函数中的温度系数,是一个可控超参数,用于控制所述对比学习目标函数的优化强度;
[0028]
基于以上的方法,最终对于预训练语言模型的总体优化目标为:
[0029][0030]
α和β为平衡损失之间的优化比例的可控超参数。
[0031]
可选地,所述方法还包括:
[0032]
使用min-max交替优化的方式对所述总体优化目标进行优化;
[0033]
或者使用梯度反转层grl实现所述总体优化目标的优化。
[0034]
另一方面,提供了一种无监督句子表示装置,所述装置包括:
[0035]
输入模块,用于输入待表示的文本句子;
[0036]
表示模块,用于使用优化策略优化训练完成的预训练语言模型,对所述待表示的文本句子进行无监督句子表示,所述优化策略包括:基于对抗训练的策略和基于信息理论的不完整句子检测策略的策略。
[0037]
可选地,所述基于对抗训练的策略包括:
[0038]
训练无监督句子表示的数据为n个无标注的句子每个句子包含|si|个单词,基于预训练语言模型将句子si中的每个词表示为低维的向量形式d是每个单词的向量表示维度,在此基础上,句子表示使用如下的平均池化的操作计算:
[0039][0040]
其中h
ij
表示hi中的每个行向量;
[0041]
使用一个相似性判别器来得到每个单词的频率预测所述相似性判别器为经典的基于神经网络的多层感知机mlp结构,为所述相似性判别器中的神经网络参数,对抗训练的思想期望所述预训练语言模型得到的词表示能够使所述相似性判别器不能准确地预测频率标签,根据这一期望,提出如下的第一目标函数:
[0042][0043][0044]
其中l
ce
(
·
,
·
)为交叉熵损失函数,为单词的真实频率标签,所述第一目标函数的目的是通过优化相似性判别器参数使相似性判别器得到更准确的频率预测,优化预训练语言模型参数∏使判别器得到更差的频率预测,通过这一对抗过程,使预训练语言模型能输出频率无关的词表示。
[0045]
可选地,所述基于信息理论的不完整句子检测策略的策略包括:
[0046]
对于每个句子si,通过随机掩码一些低频词生成它的不完整版本句子
[0047]
如果原始完整版的句子si和不完整版的句子更容易被区分,则低频词在句子中的信息量越高,设计一个信息判别器来实现这一目的,所述信息判别器为经典的基于神经网络的多层感知机mlp结构,为所述信息判别器中的神经网络参数,提出如下的
第二目标函数为:
[0048][0049][0050][0051]
其中表示句子为原始完整版的句子还是不完整版的句子;
[0052]
所述第二目标函数的目的是通过联合优化预训练语言模型参数π和信息判别器参数使预训练语言模型得到更容易区分的原始完整版的句子si和不完整版的句子从而强调被掩码的低频词在整个句子中的重要性。
[0053]
可选地,所述装置还包括:第三目标函数提出模块,用于提出第三目标函数,所述第三目标函数为基于对比学习目标函数采用下述方式得到所述第三目标函数:
[0054]
基于原始句子si,生成两个数据增强版本和数据增强指的是对句子中的单词进行删除、增加或替换操作,两个增强版本经过预训练语言模型得到的深层表示为和使用平均池化得到它们的句子表示和对比学习目标函数的目的是使一个句子的两个增强句子表示的距离更近,与不同的句子表示之间的距离更远,对比学习目标函数被表示如下:
[0055][0056][0057]
其中b为预训练语言模型训练时的批量的大小;ω表示训练的批次;代表不包括句子si本身的增强版本的子集,hk是所述子集中的句子的向量表示;sim(
·
,
·
)是相似度度量函数;τ表示对比学习函数中的温度系数,是一个可控超参数,用于控制所述对比学习目标函数的优化强度;
[0058]
基于以上的方法,最终对于预训练语言模型的总体优化目标为:
[0059][0060]
α和β为平衡损失之间的优化比例的可控超参数。
[0061]
可选地,所述装置还包括:优化模块,用于:
[0062]
使用min-max交替优化的方式对所述总体优化目标进行优化;
[0063]
或者使用梯度反转层grl实现所述总体优化目标的优化。
[0064]
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述无监督句子表示方法。
[0065]
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述无监督句子表示方法。
[0066]
本发明实施例提供的技术方案带来的有益效果至少包括:
[0067]
采用本发明,能够克服预训练语言模型因为存在各项异性问题而导致的无监督句子表示的相似性偏差和信息偏差的问题,更好地进行无监督句子表示。
附图说明
[0068]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0069]
图1是本发明实施例提供的一种无监督句子表示方法流程图;
[0070]
图2是现有的预训练语言模型因为存在各项异性问题而导致的无监督句子表示的相似性偏差和信息偏差的问题示意图;
[0071]
图3是本发明实施例提供的预训练语言模型的训练过程示意图;
[0072]
图4是本发明实施例提供的一种无监督句子表示方法的效果示意图;
[0073]
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
[0074]
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0075]
本发明实施例提供了一种无监督句子表示方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的一种无监督句子表示方法流程图,该方法的处理流程可以包括如下的步骤:
[0076]
s1、输入待表示的文本句子;
[0077]
s2、使用优化策略优化训练完成的预训练语言模型,对所述待表示的文本句子进行无监督句子表示,所述优化策略包括:基于对抗训练的策略和基于信息理论的不完整句子检测策略的策略。
[0078]
现有的预训练语言模型都存在各向异性问题,即高频词的表示聚堆,而低频词的表示较稀疏。因为句子的表示是由单词的表示平均所得,因此本发明实施例经过分析认为这一现象将导致无监督的句子表示存在图2的相似性偏差和信息偏差的问题。具体地,相似性偏差指的是语义上相关的单词,会因为各向异性而产生较远的表示。例如图2中(a),“喜欢”和“倾向于”表示相似的语义,而它们的表示相距较远,导致两个有相似语义的句子s1和s2也不能得到相似的表示;信息偏差指的是一句话中信息量较高的往往是词频较低的单词,而一些代词、连词等高频词往往含有较低的信息量,但是因为词频导致的各向异性问题,句子的表示往往如图2中(b)趋向于高频词,而没有考虑到低频词的信息量问题,导致了语义信息的损失。本发明实施例分别设计了两个训练优化策略解决这两个偏差问题,下面详细介绍本发明实施例的一种无监督句子表示方法:
[0079]
s1、输入待表示的文本句子;
[0080]
s2、使用优化策略优化训练完成的预训练语言模型,对所述待表示的文本句子进行无监督句子表示,所述优化策略包括:基于对抗训练的策略和基于信息理论的不完整句子检测策略的策略。
[0081]
可选地,所述基于对抗训练的策略包括:
[0082]
训练无监督句子表示的数据为n个无标注的句子每个句子包含|si|个单词,基于预训练语言模型将句子si中的每个词表示为低维的向量形式d是每个单词的向量表示维度,在此基础上,句子表示使用如下的平均池化的操作计算:
[0083][0084]
其中h
ij
表示hi中的每个行向量,即每个单词的低维向量;
[0085]
因为各向异性是由词频引发的,因此本发明实施例为了解决相似性偏差问题,希望得到频率无关的词表示。受到对抗训练的启发,本发明实施例使用一个相似性判别器来得到每个单词的频率预测所述相似性判别器为经典的基于神经网络的多层感知机mlp结构,为所述相似性判别器中的神经网络参数,对抗训练的思想期望所述预训练语言模型得到的词表示能够使所述相似性判别器不能准确地预测频率标签,根据这一期望,提出如下的第一目标函数:
[0086][0087][0088]
其中l
ce
(
·
,
·
)为交叉熵损失函数,为单词的真实频率标签,所述第一目标函数的目的是通过优化相似性判别器参数使相似性判别器得到更准确的频率预测,优化预训练语言模型参数π使判别器得到更差的频率预测,通过这一对抗过程,使预训练语言模型能输出频率无关的词表示。
[0089]
为了解决信息偏差问题,本发明实施例期待低频词能够在句子表示中占据更大的比重。可选地,所述基于信息理论(低频词在句子中的信息量越高)的不完整句子检测策略的策略包括:
[0090]
对于每个句子si,通过随机掩码一些低频词生成它的不完整版本句子
[0091]
如果原始完整版的句子si和不完整版的句子更容易被区分,则低频词在句子中的信息量越高,设计一个信息判别器来实现这一目的,所述信息判别器为经典的基于神经网络的多层感知机mlp结构,为所述信息判别器中的神经网络参数,提出如下的第二目标函数为:
[0092][0093][0094][0095]
其中表示句子为原始完整版的句子还是不完整版的句子;
[0096]
所述第二目标函数的目的是通过联合优化预训练语言模型参数п和信息判别器参数使预训练语言模型得到更容易区分的原始完整版的句子si和不完整版的句子从而强调被掩码的低频词在整个句子中的重要性。
[0097]
可选地,所述方法还包括:提出第三目标函数,所述第三目标函数为基于对比学习目标函数采用下述方式得到所述第三目标函数:
[0098]
基于原始句子si,生成两个数据增强版本和数据增强指的是对句子中的单词进行删除、增加或替换操作,两个增强版本经过预训练语言模型得到的深层表示为和使用平均池化得到它们的句子表示和对比学习目标函数的目的是使一个句子的两个增强句子表示的距离更近,与不同的句子表示之间的距离更远,对比学习目标函数被表示如下:
[0099][0100][0101]
其中b为预训练语言模型训练时的批量的大小;ω表示训练的批次;代表不包括句子si本身的增强版本的子集,hk是所述子集中的句子的向量表示;sim(
·
,
·
)是相似度度量函数;τ表示对比学习函数中的温度系数,是一个可控超参数,用于控制所述对比学习目标函数的优化强度;
[0102]
基于以上的方法,最终对于预训练语言模型的总体优化目标为:
[0103][0104]
α和β为平衡损失之间的优化比例的可控超参数。
[0105]
可选地,所述方法还包括:
[0106]
使用min-max交替优化的方式对所述总体优化目标进行优化;
[0107]
或者使用梯度反转层(gradient reversal layer,grl)实现所述总体优化目标的优化。
[0108]
梯度反转层grl是一种特殊的神经网络结构,在使用反向传播梯度下降策略进行网络参数的随机优化时,经过该网络层的梯度将强制改为它的相反数,即令该网络结构前的网络参数向与优化目标相反的方向进行优化。本发明实施例将梯度反转层置于相似性判别器前,从而简单地实现m in-max共同优化。
[0109]
如图3所示,下面介绍本发明实施例的预训练语言模型的训练过程:
[0110]
假设:
[0111]
原句子:他会参加这场会议;
[0112]
随机掩码一些低频词生成它的不完整版本句子:他会参加这场[mask];
[0113]
增强句子:他会参加这场宴会;
[0114]
将原句子输入预训练语言模型后,将得到的词表示输入相似性判别器,根据高/低频词标签,使用第一目标函数优化训练得到高/低频词预测;
[0115]
将原句子、不完整版句子输入预训练语言模型后,将得到的词表示平均池化得到
的句子表示输入信息判别器,根据原始/不完整句子标签,使用第二目标函数优化训练得到原始/不完整句子预测;
[0116]
将原句子、增强句子输入预训练语言模型后,将得到的词表示平均池化得到的句子表示,使用第三目标函数进行优化训练。
[0117]
最终得到使用优化策略优化训练完成的预训练语言模型。之后可以使用所述优化策略优化训练完成的预训练语言模型,对待表示的文本句子进行无监督句子表示。
[0118]
本发明实施例的相似性判别器可以在文本相似度任务上进行验证,即给定一些句子对,它们的标签为句子对之间的相似度,从1到5对该相似度进行打分。如“他会参加这场宴会”与“他将出席这次晚宴”表示相似的语义,因此该句子对的相似度评分为5。本发明实施例可以为插件式的方法,可以被用于各类基于对比学习的无监督句子表示方法中,具体地,在这些模型增加了本发明实施例提出的方法后,在皮尔逊系数上的表现均提升了约1.5。
[0119]
而为了验证本发明实施例提出的信息判别器的结果,本发明实施例将预训练语言模型中的注意力机制评分可视化为下图,更高的注意力机制评分的单词,代表模型给予它更高的重视。图4中(a)表示未使用本发明实施例的方法的预训练语言模型bert结果。图4中(b)(c)(d)分别表示在该模型的基础上依次增加本发明实施例提出的对比学习正则项相似性偏差损失和信息偏差损失可以看出本发明实施例的方法可以明显地提高预训练语言模型对于低频词,如“竹”“笛”的注意力权重。
[0120]
本发明实施例还提供了一种无监督句子表示装置,所述装置包括:
[0121]
输入模块,用于输入待表示的文本句子;
[0122]
表示模块,用于使用优化策略优化训练完成的预训练语言模型,对所述待表示的文本句子进行无监督句子表示,所述优化策略包括:基于对抗训练的策略和基于信息理论的不完整句子检测策略的策略。
[0123]
可选地,所述基于对抗训练的策略包括:
[0124]
训练无监督句子表示的数据为n个无标注的句子每个句子包含|si|个单词,基于预训练语言模型将句子si中的每个词表示为低维的向量形式d是每个单词的向量表示维度,在此基础上,句子表示使用如下的平均池化的操作计算:
[0125][0126]
其中h
ij
表示hi中的每个行向量;
[0127]
使用一个相似性判别器来得到每个单词的频率预测所述相似性判别器为经典的基于神经网络的多层感知机mlp结构,为所述相似性判别器中的神经网络参数,对抗训练的思想期望所述预训练语言模型得到的词表示能够使所述相似性判别器不能准确地预测频率标签,根据这一期望,提出如下的第一目标函数:
[0128]
[0129][0130]
其中l
ce
(
·
,
·
)为交叉熵损失函数,为单词的真实频率标签,所述第一目标函数的目的是通过优化相似性判别器参数使相似性判别器得到更准确的频率预测,优化预训练语言模型参数∏使判别器得到更差的频率预测,通过这一对抗过程,使预训练语言模型能输出频率无关的词表示。
[0131]
可选地,所述基于信息理论的不完整句子检测策略的策略包括:
[0132]
对于每个句子si,通过随机掩码一些低频词生成它的不完整版本句子
[0133]
如果原始完整版的句子si和不完整版的句子更容易被区分,则低频词在句子中的信息量越高,设计一个信息判别器来实现这一目的,所述信息判别器为经典的基于神经网络的多层感知机mlp结构,为所述信息判别器中的神经网络参数,提出如下的第二目标函数为:
[0134][0135][0136][0137]
其中表示句子为原始完整版的句子还是不完整版的句子;
[0138]
所述第二目标函数的目的是通过联合优化预训练语言模型参数∏和信息判别器参数使预训练语言模型得到更容易区分的原始完整版的句子si和不完整版的句子从而强调被掩码的低频词在整个句子中的重要性。
[0139]
可选地,所述装置还包括:第三目标函数提出模块,用于提出第三目标函数,所述第三目标函数为基于对比学习目标函数采用下述方式得到所述第三目标函数:
[0140]
基于原始句子si,生成两个数据增强版本和数据增强指的是对句子中的单词进行删除、增加或替换操作,两个增强版本经过预训练语言模型得到的深层表示为和使用平均池化得到它们的句子表示和对比学习目标函数的目的是使一个句子的两个增强句子表示的距离更近,与不同的句子表示之间的距离更远,对比学习目标函数被表示如下:
[0141][0142][0143]
其中b为预训练语言模型训练时的批量的大小;ω表示训练的批次;代表不包括句子si本身的增强版本的子集,hk是所述子集中的句子的向量表示;sim(
·
,
·
)是相似度度量函数;τ表示对比学习函数中的温度系数,是一个可控超参数,用于控制所述对比学习目标函数的优化强度;
[0144]
基于以上的方法,最终对于预训练语言模型的总体优化目标为:
[0145][0146]
α和β为平衡损失之间的优化比例的可控超参数。
[0147]
可选地,所述装置还包括:优化模块,用于:
[0148]
使用min-max交替优化的方式对所述总体优化目标进行优化;
[0149]
或者使用梯度反转层grl实现所述总体优化目标的优化。
[0150]
本发明实施例提供的一种无监督句子表示装置,其功能结构与本发明实施例提供的一种无监督句子表示方法相对应,在此不再赘述。
[0151]
图5是本发明实施例提供的一种电子设备500的结构示意图,该电子设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)501和一个或一个以上的存储器502,其中,所述存储器502中存储有至少一条指令,所述至少一条指令由所述处理器501加载并执行以实现上述无监督句子表示方法的步骤。
[0152]
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述无监督句子表示方法。例如,所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0153]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0154]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种无监督句子表示方法,其特征在于,所述方法包括:输入待表示的文本句子;使用优化策略优化训练完成的预训练语言模型,对所述待表示的文本句子进行无监督句子表示,所述优化策略包括:基于对抗训练的策略和基于信息理论的不完整句子检测策略的策略。2.根据权利要求1所述的方法,其特征在于,所述基于对抗训练的策略包括:训练无监督句子表示的数据为n个无标注的句子每个句子包含|s
i
|个单词,基于预训练语言模型将句子s
i
中的每个词表示为低维的向量形式d是每个单词的向量表示维度,在此基础上,句子表示使用如下的平均池化的操作计算:其中h
ij
表示h
i
中的每个行向量;使用一个相似性判别器来得到每个单词的频率预测所述相似性判别器为经典的基于神经网络的多层感知机mlp结构,为所述相似性判别器中的神经网络参数,对抗训练的思想期望所述预训练语言模型得到的词表示能够使所述相似性判别器不能准确地预测频率标签,根据这一期望,提出如下的第一目标函数:别器不能准确地预测频率标签,根据这一期望,提出如下的第一目标函数:其中l
ce
(
·
,
·
)为交叉熵损失函数,为单词的真实频率标签,所述第一目标函数的目的是通过优化相似性判别器参数使相似性判别器得到更准确的频率预测,优化预训练语言模型参数π使判别器得到更差的频率预测,通过这一对抗过程,使预训练语言模型能输出频率无关的词表示。3.根据权利要求2所述的方法,其特征在于,所述基于信息理论的不完整句子检测策略的策略包括:对于每个句子s
i
,通过随机掩码一些低频词生成它的不完整版本句子如果原始完整版的句子s
i
和不完整版的句子更容易被区分,则低频词在句子中的信息量越高,设计一个信息判别器来实现这一目的,所述信息判别器为经典的基于神经网络的多层感知机mlp结构,为所述信息判别器中的神经网络参数,提出如下的第二目标函数为:目标函数为:目标函数为:
其中表示句子为原始完整版的句子还是不完整版的句子;所述第二目标函数的目的是通过联合优化预训练语言模型参数π和信息判别器参数使预训练语言模型得到更容易区分的原始完整版的句子s
i
和不完整版的句子从而强调被掩码的低频词在整个句子中的重要性。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:提出第三目标函数,所述第三目标函数为基于对比学习目标函数采用下述方式得到所述第三目标函数:基于原始句子s
i
,生成两个数据增强版本和数据增强指的是对句子中的单词进行删除、增加或替换操作,两个增强版本经过预训练语言模型得到的深层表示为和使用平均池化得到它们的句子表示和对比学习目标函数的目的是使一个句子的两个增强句子表示的距离更近,与不同的句子表示之间的距离更远,对比学习目标函数被表示如下:习目标函数被表示如下:其中b为预训练语言模型训练时的批量的大小;ω表示训练的批次;代表不包括句子s
i
本身的增强版本的子集,h
k
是所述子集中的句子的向量表示;sim(
·
,
·
)是相似度度量函数;τ表示对比学习函数中的温度系数,是一个可控超参数,用于控制所述对比学习目标函数的优化强度;基于以上的方法,最终对于预训练语言模型的总体优化目标为:α和β为平衡损失之间的优化比例的可控超参数。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:使用min-max交替优化的方式对所述总体优化目标进行优化;或者使用梯度反转层grl实现所述总体优化目标的优化。6.一种无监督句子表示装置,其特征在于,所述装置包括:输入模块,用于输入待表示的文本句子;表示模块,用于使用优化策略优化训练完成的预训练语言模型,对所述待表示的文本句子进行无监督句子表示,所述优化策略包括:基于对抗训练的策略和基于信息理论的不完整句子检测策略的策略。7.根据权利要求6所述的装置,其特征在于,所述基于对抗训练的策略包括:训练无监督句子表示的数据为n个无标注的句子每个句子包含|s
i
|个单词,基于预训练语言模型将句子s
i
中的每个词表示为低维的向量形式d是每个单词的向量表示维度,在此基础上,句子表示使用如下的平均池化的操作计算:
其中h
ij
表示h
i
中的每个行向量;使用一个相似性判别器来得到每个单词的频率预测所述相似性判别器为经典的基于神经网络的多层感知机mlp结构,为所述相似性判别器中的神经网络参数,对抗训练的思想期望所述预训练语言模型得到的词表示能够使所述相似性判别器不能准确地预测频率标签,根据这一期望,提出如下的第一目标函数:别器不能准确地预测频率标签,根据这一期望,提出如下的第一目标函数:其中l
ce
(
·
,
·
)为交叉熵损失函数,为单词的真实频率标签,所述第一目标函数的目的是通过优化相似性判别器参数使相似性判别器得到更准确的频率预测,优化预训练语言模型参数π使判别器得到更差的频率预测,通过这一对抗过程,使预训练语言模型能输出频率无关的词表示。8.根据权利要求7所述的装置,其特征在于,所述基于信息理论的不完整句子检测策略的策略包括:对于每个句子s
i
,通过随机掩码一些低频词生成它的不完整版本句子如果原始完整版的句子s
i
和不完整版的句子更容易被区分,则低频词在句子中的信息量越高,设计一个信息判别器来实现这一目的,所述信息判别器为经典的基于神经网络的多层感知机mlp结构,为所述信息判别器中的神经网络参数,提出如下的第二目标函数为:目标函数为:目标函数为:其中表示句子为原始完整版的句子还是不完整版的句子;所述第二目标函数的目的是通过联合优化预训练语言模型参数π和信息判别器参数使预训练语言模型得到更容易区分的原始完整版的句子s
i
和不完整版的句子从而强调被掩码的低频词在整个句子中的重要性。9.根据权利要求8所述的装置,其特征在于,所述装置还包括:第三目标函数提出模块,用于提出第三目标函数,所述第三目标函数为基于对比学习目标函数采用下述方式得到所述第三目标函数:基于原始句子s
i
,生成两个数据增强版本和数据增强指的是对句子中的单词进行删除、增加或替换操作,两个增强版本经过预训练语言模型得到的深层表示为和使用平均池化得到它们的句子表示和对比学习目标函数的目的是使一个句子的两个增强句子表示的距离更近,与不同的句子表示之间的距离更远,对比学
习目标函数被表示如下:习目标函数被表示如下:其中b为预训练语言模型训练时的批量的大小;ω表示训练的批次;代表不包括句子s
i
本身的增强版本的子集,h
k
是所述子集中的句子的向量表示;sim(
·
,
·
)是相似度度量函数;τ表示对比学习函数中的温度系数,是一个可控超参数,用于控制所述对比学习目标函数的优化强度;基于以上的方法,最终对于预训练语言模型的总体优化目标为:α和β为平衡损失之间的优化比例的可控超参数。10.根据权利要求9所述的装置,其特征在于,所述装置还包括:优化模块,用于:使用min-max交替优化的方式对所述总体优化目标进行优化;或者使用梯度反转层grl实现所述总体优化目标的优化。
技术总结
本发明涉及自然语言处理,特别是指一种无监督句子表示方法及装置,所述方法包括:输入待表示的文本句子;使用优化策略优化训练完成的预训练语言模型,对所述待表示的文本句子进行无监督句子表示,所述优化策略包括:基于对抗训练的策略和基于信息理论的不完整句子检测策略的策略。采用本发明,能够克服预训练语言模型因为存在各项异性问题而导致的无监督句子表示的相似性偏差和信息偏差的问题,更好地进行无监督句子表示。地进行无监督句子表示。地进行无监督句子表示。
技术研发人员:李熙铭 王兵 李长春 王一鸣
受保护的技术使用者:吉林大学
技术研发日:2023.06.05
技术公布日:2023/9/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种光学表面面型检测轮廓仪的制作方法 下一篇:一种海上平台管道连接器的制作方法