一种基于泛化因果网络的语言模型生成方法、设备及介质与流程
未命名
09-13
阅读:51
评论:0

1.本技术涉及语法分析技术领域,尤其涉及一种基于泛化因果网络的语言模型生成方法、设备及介质。
背景技术:
2.语言模型是根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。语言模型与语言客观事实之间的关系,如同数学上的抽象直线与具体直线之间的关系。语言模型是一个单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的描述,比较适合于电子计算机进行自动处理,因而语言模型对于自然语言的信息处理具有重大的意义。
3.目前,语言模型自身并未实现因果事件推理能力,若要使语言模型实现因果事件推理,需要将与因果事件对应的模型与语言模型进行联合任务,从而使语言模型能够进行一定地因果事件推理。然而,外部因果事件模型知识引入语言模型,只是起到对语言模型的微调作用,即在语言模型使用前,根据外部因果事件模型,对语言模型的权重参数进行调整,若在将语言模型应用一全新的文本,需要通过新的外部因果事件模型,对语言模型重新微调。
4.一方面,上述微调过程需要将两个不同模型进行联合,联合过程繁琐,联合后的模型准确性无法保障,语言模型使用任务可能产生用户等待期,用户体验度差;再一方面,执行新的任务时,语言模型内部权重参数,可能需要重新调参,可能会使语言模型调参频繁,并增大语言模型的资源占用量,且调参过程也会使得语言模型生成并应用的效率低。
技术实现要素:
5.本技术实施例提供了一种基于泛化因果网络的语言模型生成方法、设备及介质,用于解决当前语言模型完成因果推理,需要进行微调,微调过程繁琐,且过程耗时,影响语言模型使用人员的使用体验及利用模型完成任务的效率的技术问题。
6.一方面,本技术实施例提供了一种基于泛化因果网络的语言模型生成方法,该方法包括:
7.获取若干训练文本集合;其中,所述训练文本集合包括若干待处理语句;所述待处理语句至少包括具有谓语语法依赖关系的句子;
8.对所述待处理语句进行事件预处理,以得到相应的共指消解数据;其中,所述事件预处理至少用于确定共指消解的实体、实体的所述谓语语法依赖关系及共指消解的事件;所述谓语语法依赖关系是基于所述共指消解的实体中名词词语出现频率及名词出现位置确定的;所述共指消解数据包括共指消解的实体及事件;
9.基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列;
10.将所述待处理语句相应的token序列及所述事件序列进行对齐处理,以使所述token序列与所述共指消解数据映射至同一向量空间,得到初始泛化因果语言模型;
11.基于语言模型mlm及学习上下文关系nsp,对所述初始泛化因果语言模型进行预训练,以将预训练完成的泛化因果网络增强语言模型的调用接口标识,发送至用户终端,以便用户通过所述用户终端,调用所述泛化因果网络增强语言模型进行文本预测任务。
12.在本技术的一种实现方式中,对待处理语句进行事件预处理,以得到相应的共指消解数据之前,所述方法还包括:
13.通过预设自然语言处理工具,将原语料进行执行自然语言处理nlp任务,以得到所述待处理语句;其中,所述nlp任务处理至少包括:分句、分词、事件抽取、依存句法解析、词性标注、谓语语法依赖关系抽取;所述分句、所述分词基于opennlp执行。
14.在本技术的一种实现方式中,基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列,具体包括:
15.通过深度游走deepwalk算法,生成所述待处理语句相应的所述预置事件词典;其中,所述预置事件词典包括事件、事件序列值;
16.根据所述共指消解数据中的所述谓语语法依赖关系及所述事件词典逻辑优先级列表,确定相应的事件词典优先级;其中,所述谓语语法依赖关系至少包括:包含介词短语、主语包含共指消解实体、宾语包含共指消解实体、没有宾语、没有主语;
17.根据所述谓语语法依赖关系及所述事件词典优先级,匹配所述预置事件词典中所述待处理语句相应的事件序列。
18.在本技术的一种实现方式中,将所述待处理语句相应的token序列及所述事件序列进行对齐处理,具体包括:
19.根据所述token序列的词嵌入数据、位置嵌入数据、段嵌入数据,确定第一语义序列;
20.将所述第一语义序列、所述事件序列依次输入预先训练的融合编码器,以通过预设对齐函数,将所述待处理语句相应的token序列及所述事件序列进行对齐处理;其中,所述对齐处理后的所述事件序列与所述第一语义序列的序列长度相等。
21.在本技术的一种实现方式中,将所述待处理语句相应的token序列及所述事件序列进行对齐处理之后,所述方法还包括:
22.将对齐处理后的所述待处理语句相应的token序列及所述事件序列,作为第一对齐序列;
23.通过所述融合编码器的多层自注意力模型,将各层所述第一对齐序列进行叠加、递归处理,并将高斯误差线性单元gelu作为激活函数,以得到所述初始泛化因果语言模型。
24.在本技术的一种实现方式中,基于语言模型mlm及学习上下文关系nsp,对所述初始泛化因果语言模型进行预训练,具体包括:
25.通过所述mlm,将预训练样本数据进行随机映射,以对所述预训练样本数据进行遮掩;
26.将遮掩后的所述预训练样本数据输入所述初始泛化因果语言模型,以将第一维度的token序列压缩为第二维度;所述第二维度为实体嵌入的隐藏层维度;以及
27.确定所述第二维度的token序列与共指消解实体的对应分值;
28.基于所述对应分值,确定所述初始泛化因果语言模型相应的损失函数值。
29.在本技术的一种实现方式中,基于语言模型mlm及学习上下文关系nsp,对所述初始泛化因果语言模型进行预训练,具体包括:
30.通过所述nsp,确定所述预训练样本数据的句子关系数据;
31.基于所述mlm及所述句子关系数据,对所述初始泛化因果语言模型进行预训练。
32.在本技术的一种实现方式中,所述方法还包括:
33.通过所述调用接口标识相应的调用接口,获取来自所述用户终端的所述文本预测任务中股票新闻文本及其事件链中多个事件;
34.将所述多个事件输入至预训练完成的所述泛化因果网络增强语言模型;
35.将所述泛化因果网络增强语言模型输出的预测结果,发送至用户终端。
36.另一方面,本技术实施例还提供了一种基于泛化因果网络的语言模型生成设备,所述设备包括:
37.至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
38.获取若干训练文本集合;其中,所述训练文本集合包括若干待处理语句;所述待处理语句至少包括具有谓语语法依赖关系的句子;
39.对所述待处理语句进行事件预处理,以得到相应的共指消解数据;其中,所述事件预处理至少用于确定共指消解的实体、实体的所述谓语语法依赖关系及共指消解的事件;所述谓语语法依赖关系是基于所述共指消解的实体中名词词语出现频率及名词出现位置确定的;所述共指消解数据包括共指消解的实体及事件;
40.基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列;
41.将所述待处理语句相应的token序列及所述事件序列进行对齐处理,以使所述token序列与所述共指消解数据映射至同一向量空间,得到初始泛化因果语言模型;
42.基于语言模型mlm及学习上下文关系nsp,对所述初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端,以便用户通过所述用户终端,调用所述泛化因果网络增强语言模型进行文本预测任务。
43.再一方面,本技术实施例还提供了一种基于泛化因果网络的语言模型生成非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
44.获取若干训练文本集合;其中,所述训练文本集合包括若干待处理语句;所述待处理语句至少包括具有谓语语法依赖关系的句子;
45.对所述待处理语句进行事件预处理,以得到相应的共指消解数据;其中,所述事件预处理至少用于确定共指消解的实体、实体的所述谓语语法依赖关系及共指消解的事件;所述谓语语法依赖关系是基于所述共指消解的实体中名词词语出现频率及名词出现位置确定的;所述共指消解数据包括共指消解的实体及事件;
46.基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列;
47.将所述待处理语句相应的token序列及所述事件序列进行对齐处理,以使所述
token序列与所述共指消解数据映射至同一向量空间,得到初始泛化因果语言模型;
48.基于语言模型mlm及学习上下文关系nsp,对所述初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端,以便用户通过所述用户终端,调用所述泛化因果网络增强语言模型进行文本预测任务。
49.通过上述技术方案,本技术将token序列与事件序列对齐处理,进而token序列与共指消解数据映射至同一向量空间,并通过mlm及nsp的预训练得到泛化因果网络增强语言模型。使得泛化因果网络增强语言模型具有因果推理能力,并能够精准地对事件进行预测,提升语言模型对事件推理的准确率。本技术不需要外部因果事件模型进行微调语言模型,降低了语言模型复杂度及用户使用的繁琐程度,提高了用户对语言模型的使用体验。解决了当前语言模型完成因果推理,需要进行微调,微调过程繁琐,且过程耗时,影响语言模型使用人员的使用体验及利用模型完成任务的效率的技术问题。
50.此外,本技术提供的技术方案,训练所需时间及训练数量集少,能够高效地得到泛化因果网络增强语言模型。针对特定nlp任务增加新的微调(fine-tune)训练目标进行训练即可,在训练成本开销上也比较低。模型利用知识增强来解决实际的问题,可以有效解决样本数量不足的情况,提高模型对领域的先验知识利用率。
附图说明
51.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
52.图1为本技术实施例中一种基于泛化因果网络的语言模型生成方法的一种流程示意图;
53.图2为本技术实施例中一种基于泛化因果网络的语言模型生成设备的结构示意图。
具体实施方式
54.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
55.本技术实施例提供了一种基于泛化因果网络的语言模型生成方法、设备及介质,用来克服当前语言模型缺少因果推理能力,对于事件预测准确率低的问题。
56.以下结合附图,详细说明本技术的各个实施例。
57.本技术实施例提供了一种基于泛化因果网络的语言模型生成方法,如图1所示,该方法可以包括步骤s101-s104:
58.s101,服务器获取若干训练文本集合,并对训练文本集合中的待处理语句进行事件预处理,以得到相应的共指消解数据。
59.其中,训练文本集合包括若干待处理语句;待处理语句至少包括具有谓语语法依赖关系的句子。事件预处理至少用于确定共指消解的实体、实体的谓语语法依赖关系及共
指消解的事件;谓语语法依赖关系是基于共指消解的实体中名词词语出现频率及名词出现位置确定的;共指消解数据包括共指消解的实体及事件。
60.需要说明的是,服务器作为基于泛化因果网络的语言模型生成方法的执行主体,仅为示例性存在,执行主体不仅限于服务器,本技术对此不作具体限定。
61.在本技术实施例中,对待处理语句进行事件预处理,以得到相应的共指消解数据之前,方法还包括:
62.服务器通过预设自然语言处理工具,将原语料进行执行自然语言处理(natural language processing,nlp)任务,以得到待处理语句。其中,nlp任务处理至少包括:分句、分词、事件抽取、依存句法解析、词性标注、谓语语法依赖关系抽取。分句、分词基于opennlp执行。
63.本技术采用无监督的叙事事件链的抽取方式,进行事件抽取,并使用opennlp的分句及分词模型进行分句、分词处理。服务器还可以通过opennlp对分词后的语料进行依存句法解析处理,接着通过词性标注工具(如clark和curran 2007年提出的标准解析模型)进行词性标注,以及谓语语法依赖关系predicate-gr的抽取。
64.进一步地,服务器调用opennlp的共指消解,对待处理语句进行事件预处理,得到共指消解后的实体,并基于实体中名词词语出现频率及名词出现位置,确定谓语语法依赖关系,如predicate-gr中是主谓predicate_subj还是宾谓predicate_obj。接着,服务器确定执行共指消解后的事件。
65.s102,服务器基于待处理语句、共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中待处理语句相应的事件序列。
66.在本技术实施例中,基于待处理语句、共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中待处理语句相应的事件序列,具体包括:
67.首先,服务器通过深度游走deepwalk算法,生成待处理语句相应的预置事件词典。其中,预置事件词典包括事件、事件序列值。
68.换言之,服务器使用deepwalk构建event事件词典,例如原语料为“tributes sepsepsep poured sepsepsep in from around the world”,通过deepwalk算法得到动词poured对应的事件词典,具体如表1所示:
69.表1
70.事件序列值事件69190poured_obj69191poured_prep_as69192poured_prep_at69193poured_prep_for69194poured_prep_from69195poured_prep_in69196poured_prep_into69197poured_prep_of69198poured_prep_on69199poured_prep_onto
71.随后,服务器根据共指消解数据中的谓语语法依赖关系及事件词典逻辑优先级列表,确定相应的事件词典优先级。
72.其中,谓语语法依赖关系至少包括:包含介词短语、主语包含共指消解实体、宾语包含共指消解实体、没有宾语、没有主语。
73.本技术利用的共指消解的实体都具有相对重要的作用,其会在语料的上下文中被反复提及,会被作为判定predicate-gr中predicate subj还是predicate obj的重要依据。
74.服务器从与服务器连接的数据库中,获取事件词典逻辑优先级列表,并可以根据已经确定的谓语语法依赖关系,得到事件词典优先级。事件词典逻辑优先级列表具体如下表2:
75.表2
[0076][0077][0078]
上述原事件对应于共指消解实体中的谓语语法依赖关系。
[0079]
随后,服务器根据谓语语法依赖关系及事件词典优先级,匹配预置事件词典中待处理语句相应的事件序列。
[0080]
服务器通过上述谓语语法依赖关系及得到的事件词典优先级,查表1即可得到事件序列,包含至少一个事件序列值。
[0081]
s103,服务器将待处理语句相应的token序列及事件序列进行对齐处理,以使token序列与共指消解数据映射至同一向量空间,得到初始泛化因果语言模型。
[0082]
假设token序列为{t1,t2,t3,t4……
tn},n为token序列的长度,对应的事件序列为{e1,e2,e3,e4……em
},m为事件序列的长度。在大多数情况下n不等于m,也就是说不是每一个token对应一个事件,因此需要进行对齐。
[0083]
在本技术实施例中,将待处理语句相应的token序列及事件序列进行对齐处理,具体包括:
[0084]
服务器根据token序列的词嵌入数据、位置嵌入数据、段嵌入数据,确定第一语义序列。将第一语义序列、事件序列依次输入预先训练的融合编码器,以通过预设对齐函数,
将待处理语句相应的token序列及事件序列进行对齐处理。其中,对齐处理后的事件序列与第一语义序列的序列长度相等。
[0085]
也就是说,token序列包含词嵌入数据、位置嵌入数据、段嵌入数据,如word embeddings、position embeddings、token type embeddings,本技术将词嵌入数据、位置嵌入数据、段嵌入数据相应序列进行求和,得到第一语义序列{t1,t2,t3,t4……
tn}。然后,服务器将第一语义序列输入到融合编码器fusion encoder。该融合编码器包含多层双向注意力模型,其中的多层token层及实体层entity layer均包含自注意力模型。第一语义序列经过token层后得到t-encoder(编码器),接着与经过预设对齐函数的事件序列,一同经过混合层及实体层,得到e-encoder,从而使token序列与事件序列完成融合。
[0086]
其中,对齐函数为f
alignment
({e1,e2,e3,e4……em
})={e1,e2,e3,e4……en
}。
[0087]
在服务器将待处理语句相应的token序列及事件序列进行对齐处理之后,方法还包括:
[0088]
将对齐处理后的待处理语句相应的token序列及事件序列,作为第一对齐序列。通过融合编码器的多层自注意力模型,将各层第一对齐序列进行叠加、递归处理,并将高斯误差线性单元(gaussian error linerar unit,gelu)作为激活函数,以得到初始泛化因果语言模型。
[0089]
也就是说,在得到上述融合后的token序列与事件序列的情况下,服务器通过n层layer进行叠加,递归调用,将token与实体的信息整合,并使用gelu进行输出各层的token序列及事件序列。
[0090]
s104,服务器基于语言模型(marked language model,mlm)及学习上下文关系(next sentence prediction,nsp),对初始泛化因果语言模型进行预训练,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端,以便用户通过用户终端,调用泛化因果网络增强语言模型进行文本预测任务。
[0091]
对初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端。损失函数值为预训练过程中的损失函数的函数值,预设值为用户在实际使用过程中设定的,本技术对此不作具体限定。
[0092]
在本技术实施例中,基于语言模型mlm及学习上下文关系nsp,对初始泛化因果语言模型进行预训练,具体包括:
[0093]
首先,服务器通过mlm,将预训练样本数据进行随机映射,以对预训练样本数据进行遮掩。
[0094]
mlm就是随机对样本数据中的部分单次进行遮掩,然后使用模型在给定的词典中预测该位置的词,并计算被遮掩的词的损失。
[0095]
具体地,对输入x通过随机映射(stochasitc mapping)进行遮挡得到在实验中,使用如下的遮掩形式,对于每一个输入x,给定一个遮掩的随机比例v,将被遮掩到的值完全移除掉,剩下的保持不变。遮掩后的输入通过自编码器映射到y,进一步重建与y相应的z,并构建x与z的平方误差损失。
[0096]
需要说明的是,重建后的z应该尽可能与原样本输入x接近,但z不是x的函数,而是
x的随机映射的确定性函数。
[0097]
接着,服务器将遮掩后的预训练样本数据输入初始泛化因果语言模型,以将第一维度的token序列压缩为第二维度。第二维度为实体嵌入的隐藏层维度。
[0098]
在本技术实施例中,本技术采用了遮掩策略:
[0099]
1)80%概率保持原样。
[0100]
2)10%概率将和token对齐的共指消解的实体entity遮掩,设置为-1,期望模型能够校正没有被抽取出来的entity。
[0101]
3)10%概率将token对齐的实体entity替换为其他entity,期望模型具备一定的纠错能力。
[0102]
将第一维度如768维的token序列压缩为实体嵌入的隐藏层维度,第二维度如128维度。
[0103]
随后,服务器确定第二维度的token序列与共指消解实体的对应分值。
[0104]
服务器可以通过计算点乘的方式,得到token序列与共指消解实体的对应分值。
[0105]
随后,服务器基于对应分值,确定初始泛化因果语言模型相应的损失函数值。
[0106]
其中,服务器可以通过调用对数交叉熵,进行计算最终的重构损失。
[0107]
在本技术实施例中,基于语言模型mlm及学习上下文关系nsp,对初始泛化因果语言模型进行预训练,具体包括:
[0108]
服务器通过nsp,确定预训练样本数据的句子关系数据。基于mlm及句子关系数据,对初始泛化因果语言模型进行预训练。
[0109]
通过引入nsp作为联合训练任务,使得预训练样本数据增加句子之间的联系,从而更便于事件推理。
[0110]
本技术通过上述mlm遮掩方案的预训练模型,可以避免预训练目标和语言模型微调的目标偏差。
[0111]
在本技术的一个实施例中,上述技术方案可以应用与股票预测,例如以某一天股票新闻文本,预测其后一天的股票价格,具体如下:
[0112]
服务器通过调用接口,获取来自用户终端的文本预测任务中股票新闻文本及其事件链中多个事件。将多个事件输入至预训练完成的泛化因果网络增强语言模型。将泛化因果网络增强语言模型输出的预测结果,发送至用户终端。
[0113]
换言之,通过本技术的泛化因果网络增强语言模型,进行股票新闻文本相应的股票价格进行预测时,需要利用若干股票新闻文本及相应的股票价格标签,对泛化因果网络增强语言模型进行训练。由于该模型结合泛化因果网络,能够使股票新闻文本与股票价格标签之间存在因果事件推理关系,从而在后续预测时,更加准确地预测股票新闻文本相应的预测结果。
[0114]
本技术通过上述技术方案,将token序列与事件序列对齐处理,进而token序列与共指消解数据映射至同一向量空间,并通过mlm及nsp的预训练得到泛化因果网络增强语言模型。使得泛化因果网络增强语言模型具有因果推理能力,并能够精准地对事件进行预测。此外,本技术提供的技术方案,训练所需时间及训练数量集少,能够高效地得到泛化因果网络增强语言模型。本技术不需要外部因果事件模型进行微调语言模型,降低了语言模型复杂度及用户使用的繁琐程度,提高了用户对语言模型的使用体验。解决了当前语言模型完
成因果推理,需要进行微调,微调过程繁琐,且过程耗时,影响语言模型使用人员的使用体验及利用模型完成任务的效率的问题。
[0115]
图2为本技术实施例提供的一种基于泛化因果网络的语言模型生成设备的结构示意图,如图2所示,设备包括:
[0116]
至少一个处理器;以及,与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
[0117]
获取若干训练文本集合。其中,训练文本集合包括若干待处理语句。待处理语句至少包括具有谓语语法依赖关系的句子。对待处理语句进行事件预处理,以得到相应的共指消解数据。其中,事件预处理至少用于确定共指消解的实体、实体的谓语语法依赖关系及共指消解的事件。谓语语法依赖关系是基于共指消解的实体中名词词语出现频率及名词出现位置确定的。共指消解数据包括共指消解的实体及事件。基于待处理语句、共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中待处理语句相应的事件序列。将待处理语句相应的token序列及事件序列进行对齐处理,以使token序列与共指消解数据映射至同一向量空间,得到初始泛化因果语言模型。基于语言模型mlm及学习上下文关系nsp,对初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端。
[0118]
本技术实施例还提供了一种基于泛化因果网络的语言模型生成非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
[0119]
获取若干训练文本集合。其中,训练文本集合包括若干待处理语句。待处理语句至少包括具有谓语语法依赖关系的句子。对待处理语句进行事件预处理,以得到相应的共指消解数据。其中,事件预处理至少用于确定共指消解的实体、实体的谓语语法依赖关系及共指消解的事件。谓语语法依赖关系是基于共指消解的实体中名词词语出现频率及名词出现位置确定的。共指消解数据包括共指消解的实体及事件。基于待处理语句、共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中待处理语句相应的事件序列。将待处理语句相应的token序列及事件序列进行对齐处理,以使token序列与共指消解数据映射至同一向量空间,得到初始泛化因果语言模型。基于语言模型mlm及学习上下文关系nsp,对初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端。
[0120]
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0121]
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用
于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0122]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0123]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0124]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0125]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0126]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0127]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0128]
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0129]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0130]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来
执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0131]
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
技术特征:
1.一种基于泛化因果网络的语言模型生成方法,其特征在于,所述方法包括:获取若干训练文本集合;其中,所述训练文本集合包括若干待处理语句;所述待处理语句至少包括具有谓语语法依赖关系的句子;对所述待处理语句进行事件预处理,以得到相应的共指消解数据;其中,所述事件预处理至少用于确定共指消解的实体、实体的所述谓语语法依赖关系及共指消解的事件;所述谓语语法依赖关系是基于所述共指消解的实体中名词词语出现频率及名词出现位置确定的;所述共指消解数据包括共指消解的实体及事件;基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列;将所述待处理语句相应的token序列及所述事件序列进行对齐处理,以使所述token序列与所述共指消解数据映射至同一向量空间,得到初始泛化因果语言模型;基于语言模型mlm及学习上下文关系nsp,对所述初始泛化因果语言模型进行预训练,以将预训练完成的泛化因果网络增强语言模型的调用接口标识,发送至用户终端,以便用户通过所述用户终端,调用所述泛化因果网络增强语言模型进行文本预测任务。2.根据权利要求1所述方法,其特征在于,对所述待处理语句进行事件预处理,以得到相应的共指消解数据之前,所述方法还包括:通过预设自然语言处理工具,将原语料进行执行自然语言处理nlp任务,以得到所述待处理语句;其中,所述nlp任务处理至少包括:分句、分词、事件抽取、依存句法解析、词性标注、谓语语法依赖关系抽取;所述分句、所述分词基于opennlp执行。3.根据权利要求1所述方法,其特征在于,基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列,具体包括:通过深度游走deepwalk算法,生成所述待处理语句相应的所述预置事件词典;其中,所述预置事件词典包括事件、事件序列值;根据所述共指消解数据中的所述谓语语法依赖关系及所述事件词典逻辑优先级列表,确定相应的事件词典优先级;其中,所述谓语语法依赖关系至少包括:包含介词短语、主语包含共指消解实体、宾语包含共指消解实体、没有宾语、没有主语;根据所述谓语语法依赖关系及所述事件词典优先级,匹配所述预置事件词典中所述待处理语句相应的事件序列。4.根据权利要求1所述方法,其特征在于,将所述待处理语句相应的token序列及所述事件序列进行对齐处理,具体包括:根据所述token序列的词嵌入数据、位置嵌入数据、段嵌入数据,确定第一语义序列;将所述第一语义序列、所述事件序列依次输入预先训练的融合编码器,以通过预设对齐函数,将所述待处理语句相应的token序列及所述事件序列进行对齐处理;其中,所述对齐处理后的所述事件序列与所述第一语义序列的序列长度相等。5.根据权利要求4所述方法,其特征在于,将所述待处理语句相应的token序列及所述事件序列进行对齐处理之后,所述方法还包括:将对齐处理后的所述待处理语句相应的token序列及所述事件序列,作为第一对齐序列;
通过所述融合编码器的多层自注意力模型,将各层所述第一对齐序列进行叠加、递归处理,并将高斯误差线性单元gelu作为激活函数,以得到所述初始泛化因果语言模型。6.根据权利要求1所述方法,其特征在于,基于语言模型mlm及学习上下文关系nsp,对所述初始泛化因果语言模型进行预训练,具体包括:通过所述mlm,将预训练样本数据进行随机映射,以对所述预训练样本数据进行遮掩;将遮掩后的所述预训练样本数据输入所述初始泛化因果语言模型,以将第一维度的token序列压缩为第二维度;所述第二维度为实体嵌入的隐藏层维度;以及确定所述第二维度的token序列与共指消解实体的对应分值;基于所述对应分值,确定所述初始泛化因果语言模型相应的损失函数值。7.根据权利要求6所述方法,其特征在于,基于语言模型mlm及学习上下文关系nsp,对所述初始泛化因果语言模型进行预训练,具体包括:通过所述nsp,确定所述预训练样本数据的句子关系数据;基于所述mlm及所述句子关系数据,对所述初始泛化因果语言模型进行预训练。8.根据权利要求1所述方法,其特征在于,所述方法还包括:通过所述调用接口标识相应的调用接口,获取来自所述用户终端的所述文本预测任务中股票新闻文本及其事件链中多个事件;将所述多个事件输入至预训练完成的所述泛化因果网络增强语言模型;将所述泛化因果网络增强语言模型输出的预测结果,发送至用户终端。9.一种基于泛化因果网络的语言模型生成设备,其特征在于,所述设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取若干训练文本集合;其中,所述训练文本集合包括若干待处理语句;所述待处理语句至少包括具有谓语语法依赖关系的句子;对所述待处理语句进行事件预处理,以得到相应的共指消解数据;其中,所述事件预处理至少用于确定共指消解的实体、实体的所述谓语语法依赖关系及共指消解的事件;所述谓语语法依赖关系是基于所述共指消解的实体中名词词语出现频率及名词出现位置确定的;所述共指消解数据包括共指消解的实体及事件;基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列;将所述待处理语句相应的token序列及所述事件序列进行对齐处理,以使所述token序列与所述共指消解数据映射至同一向量空间,得到初始泛化因果语言模型;基于语言模型mlm及学习上下文关系nsp,对所述初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端,以便用户通过所述用户终端,调用所述泛化因果网络增强语言模型进行文本预测任务。10.一种基于泛化因果网络的语言模型生成非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
获取若干训练文本集合;其中,所述训练文本集合包括若干待处理语句;所述待处理语句至少包括具有谓语语法依赖关系的句子;对所述待处理语句进行事件预处理,以得到相应的共指消解数据;其中,所述事件预处理至少用于确定共指消解的实体、实体的所述谓语语法依赖关系及共指消解的事件;所述谓语语法依赖关系是基于所述共指消解的实体中名词词语出现频率及名词出现位置确定的;所述共指消解数据包括共指消解的实体及事件;基于所述待处理语句、所述共指消解数据及预设的事件词典逻辑优先级列表,匹配预置事件词典中所述待处理语句相应的事件序列;将所述待处理语句相应的token序列及所述事件序列进行对齐处理,以使所述token序列与所述共指消解数据映射至同一向量空间,得到初始泛化因果语言模型;基于语言模型mlm及学习上下文关系nsp,对所述初始泛化因果语言模型进行预训练,直至相应的损失函数值小于预设值,以将预训练完成的泛化因果网络增强语言模型的调用接口,发送至用户终端,以便用户通过所述用户终端,调用所述泛化因果网络增强语言模型进行文本预测任务。
技术总结
本申请提供了一种基于泛化因果网络的语言模型生成方法、设备及介质,属于语法分析技术领域。该方法对待处理语句进行事件预处理,以得到共指消解数据。基于待处理语句、共指消解数据及预设的事件词典逻辑优先级列表,匹配得到事件序列;将Token序列及事件序列进行对齐处理,以使Token序列与共指消解数据映射至同一向量空间,得到初始泛化因果语言模型。基于语言模型MLM及学习上下文关系NSP,对初始泛化因果语言模型进行预训练,以将模型使用的调用接口标识发送至用户终端。解决当前语言模型完成因果推理,需要进行微调,微调过程繁琐,且过程耗时,影响语言模型使用人员的使用体验及利用模型完成任务的效率的技术问题。利用模型完成任务的效率的技术问题。利用模型完成任务的效率的技术问题。
技术研发人员:王华杰
受保护的技术使用者:济南云微软件科技有限公司
技术研发日:2023.05.10
技术公布日:2023/9/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/