用于复杂语境的言论抽取模型训练方法、装置和电子设备与流程

未命名 09-13 阅读:145 评论:0


1.本发明涉及语言智能处理技术领域,尤其涉及一种用于复杂语境的言论抽取模型训练方法、装置和电子设备。


背景技术:

2.言论抽取的目标是从文本中抽取出言论三元组:言论持有者(source),触发词(cue)和言论内容(content)。比如说,对于给定文本,“yetforallthesymbolismandfeel-goodvalueofsuchan appointment,somedemocratsprivatelyexpressreservationsabout entrustingaseatthatcoulddecidethebalanceofpowerintheclosely dividedsenatetoacandidatewhohasneverwonstatewide,isconsidered lessthandynamicandhasbeenananemicfundraiser.”,抽取到的言论持有者为“somedemocrats”,触发词为“privatelyexpress”,言论内容为“reservationsaboutentrustingaseatthatcoulddecidethebalanceof powerinthecloselydividedsenatetoacandidatewhohasneverwon statewide,isconsideredlessthandynamicandhasbeenananemic fundraiser.”。在该实例中,由于言论内容结构复杂,且长度是变化的,给言论抽取工作带来了很多挑战。言论内容一般会超过10个单词,甚至经常会超过50个单词,超过100个单词的也有,即言论内容的长度经常会比较长,为变长文本。此外,言论内容的句法形式变化多端,也增加了言论抽取工作的困难。比如,言论内容可以是一个具有完整的主语、谓语和宾语的句子,而主语、谓语很容易与言论持有者、触发词相混淆。以上这些情况都增加了言论三元组抽取的难度。
3.目前,言论抽取的方法主要是基于规则的方法。该方法在实施过程中主要有两种方式。一种方式是针对直接言论和间接言论。一般来说,言论包括直接言论和间接言论两种,区别在于直接言论采用引号标识,其边界十分明显。因此直接言论可以很容易被采用规则的方式提取。而间接言论没有明显的边界,不适宜采用规则的方式提取。但是,间接言论在实际文本中的占比却很大,这就导致基于规则的方法覆盖率低。另一种基于规则的实施方式是先识别触发词,再去抽取言论持有者和言论内容。但是,基于规则的方式提取的触发词准确率低。识别触发词后采用搜索的方法查找最接近的名词作为言论持有者。显然,言论持有者的准确率也会很低。因此,基于规则的方法只能覆盖到有限的例子,造成严重的低召回率问题。
4.除了基于规则的方法,还有一种方法是将言论抽取任务形式转化为序列标注问题。但是,该方法忽略了言论内容的长度变大(变长)的特性以及言论内容的结构复杂性。因此,目前的序列标注方法在言论内容抽取上的表现也不能满足要求。


技术实现要素:

5.为了解决现有技术中存在的问题,本发明提供了如下技术方案。
6.本发明第一方面提供了一种用于复杂语境的言论抽取模型训练方法,包括:
7.构建训练数据,所述训练数据为标注有标签的言论内容变长文本;
8.利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签;
9.利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得到训练好的言论抽取模型。
10.优选地,所述利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签包括:
11.对所述变长文本进行编码,得到所述所述变长文本中各个单词的隐变量表示;
12.对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示;
13.利用所述变长文本的语义表示计算各个单词的标签概率分布,并基于标签概率分布选择标签。
14.优选地,所述对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示包括:
15.利用输入加强层对各个单词的隐变量表示进行格式化得到格式化信息,所述格式化信息包括当前单词的隐变量表示、当前单词前文的隐藏层状态、当前单词后文的隐藏层状态以及当前单词前文单词的标签;
16.对所述格式化信息依次进行门控制和注意力控制,以得到所述变长文本的语义表示。
17.优选地,所述对所述格式化信息依次进行门控制和注意力控制,以得到所述变长文本的语义表示包括:
18.利用门控制层使用门机制控制所述格式化信息并将结果输入至注意力控制层;
19.利用所述注意力控制层使用注意力机制在向量级别对所述格式化信息进行加权,得到所述变长文本的语义表示。
20.优选地,所述利用输出的标签与标注的标签优化所述言论抽取模型的参数包括:采用交叉熵损失函数对所述变长文本的各个单词的标签进行评估。
21.优选地,所述采用交叉熵损失函数对所述变长文本的各个单词的标签进行评估包括:
[0022][0023]
公式中,表示单词i在标签j上的真实值,表示所述模型的预测值,θ表示模型参数集合,l(θ)表示评估值。
[0024]
本发明第二方面提供了一种用于复杂语境的言论抽取方法,包括:
[0025]
将待抽取言论内容的文本输入到训练好的言论抽取模型中,抽取到言论内容;
[0026]
其中,所述训练好的言论抽取模型预先采用如第一方面所述的言论抽取模型训练方法训练得到。
[0027]
本发明第三方面提供了一种用于复杂语境的言论抽取模型训练装置,包括:
[0028]
训练数据构建模块,用于构建训练数据,所述训练数据为标注有标签的言论变长文本;
[0029]
训练模块,用于利用所述训练数据对言论抽取模型进行训练,通过学习变长文本
的语义表示以输出所述变长文本中每个单词的标签;
[0030]
优化模块,用于利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得到训练好的言论抽取模型。
[0031]
本发明第四方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的言论抽取模型训练方法,或如第二方面所述的言论抽取方法。
[0032]
本发明第五方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如如第一方面所述的言论抽取模型训练方法,或如第二方面所述的言论抽取方法。
[0033]
本发明的有益效果是:本发明提供的训练方法,通过对变长文本进行语义学习,考虑单词的上下文联系,使得训练得到的言论抽取模型能够在编码的词表示之上以一种更连续的方式适应具有不同结构的长跨度文本,不仅能够解决言论内容结构复杂和变长带来的抽取召回率和准确率低的问题,而且对于直接言论和间接言论的抽取都具有较高的召回率,模型的性能可以达到工业界可以实际使用的程度。
附图说明
[0034]
图1为本发明所述用于复杂语境的言论抽取模型训练方法的流程示意图;
[0035]
图2为本发明所述言论抽取模型的结构示意图;
[0036]
图3为本发明所述用于复杂语境的言论抽取模型训练装置的功能结构示意图。
具体实施方式
[0037]
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
[0038]
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
[0039]
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
[0040]
存储器可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。存储器可用于存储指令、程序、代码、代码集或指令。
[0041]
显示屏用于显示各个应用程序的用户界面。
[0042]
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
[0043]
实施例一
[0044]
如图1所示,本发明实施例提供了一种用于复杂语境的言论抽取模型训练方法,包括:s101,构建训练数据,所述训练数据为标注有标签的言论内容变长文本;s102,利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签;s103,利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得
到训练好的言论抽取模型。
[0045]
目前,在言论抽取任务中,比较具有难度和挑战的部分在于抽取具备复杂结构、文本内容较长的言论内容。因此,本发明提供的技术方案,目的是训练一个模型,然后利用该模型抽取言论内容,使其在直接言论和间接言论的抽取上都可以适用且具有较高的召回率;同时对于结构复杂和变长的言论内容抽取时,能够提高其准确率和召回率;以解决现有技术中存在的如下问题:对间接言论的召回率低,对结构复杂和变长的言论内容准确率低。
[0046]
本发明提供的模型训练方法,首先对文本中的单词进行编码得到单词的隐变量表示,然后通过对隐变量表示的文本进行语义学习,通过考虑单词的上下文联系,使得模型能够在编码的词表示之上以一种更连续的方式适应具有不同结构的长跨度文本,解决言论内容结构复杂和变长带来的抽取召回率和准确率低的问题。
[0047]
具体的,执行步骤s102,利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签包括:对所述变长文本进行编码,得到所述所述变长文本中各个单词的隐变量表示;对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示;利用所述变长文本的语义表示计算各个单词的标签概率分布,并基于标签概率分布选择标签。
[0048]
所述言论抽取模型可以包括文本编码器、加强单元和标签分配器;其中,文本编码器可以用于对所述变长文本进行编码;加强单元可以用于各个单词的隐变量表示进行语义学习;标签分配器可以用于利用所述变长文本的语义表示计算各个单词的标签概率分布。
[0049]
进一步地,所述文本编码器可以采用预训练模型,包括lstm、gru、cnn和bert中的任意一种。实践结果证明,采用预训练模型(大模型),取得的效果很好。
[0050]
文本编码可以表示为:
[0051]
{h1,h2,...,hn}=encoder({x1,x2,...,xn}),
[0052]
其中,xi表示输入的第i个单词,xi=x1,x2,
……
,xn;encoder表示文本编码器;hi表示第i个单词xi经过编码处理后得到的隐变量表示,hi=h1,h2,
……
,hn。
[0053]
在本发明的一个优选实施例中,所述对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示包括:利用输入加强层对各个单词的隐变量表示进行格式化得到格式化信息,所述格式化信息包括当前单词的隐变量表示、当前单词前文的隐藏层状态、当前单词后文的隐藏层状态以及当前单词前文单词的标签;对所述格式化信息依次进行门控制和注意力控制,以得到所述变长文本的语义表示,包括:利用门控制层使用门机制控制所述格式化信息并将结果输入至注意力控制层;利用所述注意力控制层使用注意力机制在向量级别对所述格式化信息进行加权,得到所述变长文本的语义表示。
[0054]
本发明中提供的加强单元包括:输入加强层、门控制层和注意力控制层。利用该三层结构的加强单元学习变长文本的语义表示。同时,也可以利用上下文信息和预测的标签。
[0055]
如图2所示,在加强单元的输入加强层中输入单词的隐变量表示之后,对输入信息进行格式化,将当前单词的隐变量表示、当前单词前文的隐藏层状态、当前单词后文的隐藏层状态以及当前单词前文单词的标签都包含进来,得到格式化信息。其中,当前单词i的前文单词i-k,

,i-1的标签可以表示为y
i-k
,...,y
i-1
,当前单词前文的隐藏层状态可以表示为h
i-m
,...,h
i-1
,当前单词的隐变量表示为hi,当前单词后文的隐藏层状态可以表示为h
i+1
,...,h
i+n
。通过这样的方式将输入信息进行格式化,可以使得言论抽取模型能够在编码
的词表示之上以一种更连续的方式考虑具有不同结构的长跨度。在加强单元中,利用门控制层使用门机制控制所述格式化信息并将结果输入至注意力控制层;利用所述注意力控制层使用注意力机制在向量级别对所述格式化信息进行加权,得到所述变长文本的语义表示。具体可以为:前文的标签信息与当前单词的因变量表示分别经过线性映射和gelu激活操作后进行再次连接,作为门控的依据再次分别经过四个线性映射和sigmoid激活后生成四个门控信号作用于所述的四个格式化信息,得到四个向量表示作为输出。门控制层中提到的门控依据信息经过线性映射后进行softmax激活,生成和为1的权重分布,分别作用于门控制层的输出得到加权和ri也即所述变长文本的语义表示。
[0056]
图2中,text encoder表示文本编码器,enhanced cell和e表示加强单元,l表示标签分配器,composer layer表示输入加强层,gate layer表示门控制层,attention layer表示注意力控制层。在加强单元中,各w(包括wy、wf、wc、w
l
、和ww)分别表示各线性映射层的参数,gelu、sigmoid、softmax表示各处计算使用的不同的激活函数。各α(包括αy、αf、αc和α
l
)表示注意力机制输出的权重。
[0057]
一般来说,不同的输入信息具有不同的影响,为此,本发明提供的加强单元使用门机制来控制每个输入的格式化信息,并使用注意力机制在向量级别对每个输入的格式化信息进行加权。通过这两种机制,可以得到一个精细化的语义表示,也因此可以更好地处理具有复杂结构的变长文本。
[0058]
在获取了当前单词的隐藏层表示之后,可以使用标签分配器计算当前单词的标签概率分布。具体的,在标签分配器中,可以使用softmax分类器计算当前单词的标签概率分布。而后基于标签概率分布进行标签选择。
[0059]
执行步骤s103,利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得到训练好的言论抽取模型。在优化参数过程中,可以采用交叉熵损失函数对所述变长文本的各个单词的标签进行评估。具体可以采用如下公式:
[0060][0061]
公式中,各字母的含义为:表示单词i在标签j上的真实值,表示所述模型的预测值,θ表示模型参数集合,l(θ)表示评估值。
[0062]
实施例二
[0063]
本发明实施例提供了一种用于复杂语境的言论抽取方法,包括:将待抽取言论内容的文本输入到训练好的言论抽取模型中,抽取到言论内容;其中,所述训练好的言论抽取模型预先采用实施例一所述的言论抽取模型训练方法训练得到。
[0064]
实施例三
[0065]
如图3所示,本发明实施例还提供了一种用于复杂语境的言论抽取模型训练装置,包括:训练数据构建模块301,用于构建训练数据,所述训练数据为标注有标签的言论变长文本;训练模块302,用于利用所述训练数据对言论抽取模型进行训练,通过学习变长文本
的语义表示以输出所述变长文本中每个单词的标签;优化模块303,用于利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得到训练好的言论抽取模型。
[0066]
进一步地,在所述训练模块中,所述利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签包括:对所述变长文本进行编码,得到所述所述变长文本中各个单词的隐变量表示;对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示;利用所述变长文本的语义表示计算各个单词的标签概率分布,并基于标签概率分布选择标签。
[0067]
其中,所述文本编码器采用预训练模型,包括lstm、gru、cnn和bert中的任意一种。
[0068]
进一步地,所述对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示包括:利用输入加强层对各个单词的隐变量表示进行格式化得到格式化信息,所述格式化信息包括当前单词的隐变量表示、当前单词前文的隐藏层状态、当前单词后文的隐藏层状态以及当前单词前文单词的标签;对所述格式化信息依次进行门控制和注意力控制,以得到所述变长文本的语义表示。
[0069]
更进一步地,所述对所述格式化信息依次进行门控制和注意力控制,以得到所述变长文本的语义表示包括:利用门控制层使用门机制控制所述格式化信息并将结果输入至注意力控制层;利用所述注意力控制层使用注意力机制在向量级别对所述格式化信息进行加权,得到所述变长文本的语义表示。
[0070]
进一步地,在所述训练模块中,所述标签分配器采用softmax分类器。
[0071]
进一步地,在所述优化模块中,所述利用输出的标签与标注的标签优化所述言论抽取模型的参数包括:采用交叉熵损失函数对所述变长文本的各个单词的标签进行评估。
[0072]
进一步地,所述采用交叉熵损失函数对所述变长文本的各个单词的标签进行评估包括:
[0073][0074]
公式中,表示单词j在标签j上的真实值,表示所述模型的预测值,θ表示模型参数集合,l(θ)表示评估值。
[0075]
该装置可通过上述实施例一提供的言论抽取模型训练方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
[0076]
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的言论抽取模型训练方法,或如实施例二所述的言论抽取方法。
[0077]
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的言论抽取模型训练方法,或如实施例二所述的言论抽取方法。
[0078]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

技术特征:
1.一种用于复杂语境的言论抽取模型训练方法,其特征在于,包括:构建训练数据,所述训练数据为标注有标签的言论内容变长文本;利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签;利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得到训练好的言论抽取模型。2.如权利要求1所述的用于复杂语境的言论抽取模型训练方法,其特征在于,所述利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签包括:对所述变长文本进行编码,得到所述所述变长文本中各个单词的隐变量表示;对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示;利用所述变长文本的语义表示计算各个单词的标签概率分布,并基于标签概率分布选择标签。3.如权利要求2所述的用于复杂语境的言论抽取模型训练方法,其特征在于,所述对各个单词的隐变量表示进行语义学习,得到所述变长文本的语义表示包括:利用输入加强层对各个单词的隐变量表示进行格式化得到格式化信息,所述格式化信息包括当前单词的隐变量表示、当前单词前文的隐藏层状态、当前单词后文的隐藏层状态以及当前单词前文单词的标签;对所述格式化信息依次进行门控制和注意力控制,以得到所述变长文本的语义表示。4.如权利要求3所述的用于复杂语境的言论抽取模型训练方法,其特征在于,所述对所述格式化信息依次进行门控制和注意力控制,以得到所述变长文本的语义表示包括:利用门控制层使用门机制控制所述格式化信息并将结果输入至注意力控制层;利用所述注意力控制层使用注意力机制在向量级别对所述格式化信息进行加权,得到所述变长文本的语义表示。5.如权利要求1所述的用于复杂语境的言论抽取模型训练方法,其特征在于,所述利用输出的标签与标注的标签优化所述言论抽取模型的参数包括:采用交叉熵损失函数对所述变长文本的各个单词的标签进行评估。6.如权利要求5所述的用于复杂语境的言论抽取模型训练方法,其特征在于,所述采用交叉熵损失函数对所述变长文本的各个单词的标签进行评估包括:公式中,表示单词i在标签j上的真实值,表示所述模型的预测值,θ表示模型参数集合,l(θ)表示评估值。7.一种用于复杂语境的言论抽取方法,其特征在于,包括:将待抽取言论内容的文本输入到训练好的言论抽取模型中,抽取到言论内容;其中,所述训练好的言论抽取模型预先采用如权利要求1-6任一项所述的言论抽取模型训练方法训练得到。8.一种用于复杂语境的言论抽取模型训练装置,其特征在于,包括:
训练数据构建模块,用于构建训练数据,所述训练数据为标注有标签的言论变长文本;训练模块,用于利用所述训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签;优化模块,用于利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得到训练好的言论抽取模型。9.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-6任一项所述的言论抽取模型训练方法,或如权利要求7所述的言论抽取方法。10.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-6任一项所述的言论抽取模型训练方法,或如权利要求7所述的言论抽取方法。

技术总结
本发明公开了用于复杂语境的言论抽取模型训练方法、装置和电子设备,属于语言智能处理技术领域。训练方法包括:构建标注有标签的言论内容变长文本为训练数据;利用训练数据对言论抽取模型进行训练,通过学习变长文本的语义表示以输出所述变长文本中每个单词的标签;利用输出的标签与标注的标签优化所述言论抽取模型的参数,以得到训练好的言论抽取模型。训练好的言论抽取模型能够在编码的词表示之上以一种更连续的方式适应具有不同结构的长跨度文本,不仅能够解决言论内容结构复杂和变长带来的抽取召回率和准确率低的问题,而且对于直接言论和间接言论的抽取都具有较高的召回率,模型的性能可以达到工业界可以实际使用的程度。的程度。的程度。


技术研发人员:王业全 李响 姜鑫
受保护的技术使用者:北京智源人工智能研究院
技术研发日:2023.06.08
技术公布日:2023/9/12
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐