一种基于XLNet和Longformer的集体实体消歧方法
未命名
08-01
阅读:141
评论:0

一种基于xlnet和longformer的集体实体消歧方法
技术领域
1.本发明属于自然语言处理技术领域,具体涉及到一种基于xlnet和longformer的集体实体消歧方法。
背景技术:
2.随着信息技术的飞速发展,网络文本数量激增,大量的数据以非结构化的自然语言形式呈现在网络上。但是这些文本资源具有高度的歧义性,尤其是一些高频使用的词,会出现一词多义和一义多词的问题。面对包含海量信息的各类网络文本,如何利用计算机技术消除其中广泛存在的歧义,成为至关重要问题。实体消歧通过将文本中的提及链接到知识库中对应的实体来消除同名实体可能引起的混淆和误解。
3.传统实体消歧方法大多为局部法,即利用提及周围的上下文信息单独地为每个提及进行消歧,而忽略了同一文档中所有实体的主题一致性。集体实体消歧则是在整个文本集合中同时解决所有实体的歧义问题,可以跨越文本边界,同时考虑多篇文本中出现的相同或类似实体。相比于局部实体消歧,集体实体消歧更加困难,因为它需要考虑多个文本中实体的关系。例如,一个人物可能在不同的新闻报道中以不同的称呼出现。因此,集体实体消歧需要对多个文本进行联合消歧,以识别这些不同称呼所表示的同一实体。在新闻数据上,集体实体消歧可以应用于舆情分析、事件检测、新闻推荐等多个方面。
4.集体实体消歧方法通过引入一个全局项(协同策略),考虑文档内所有提及之间的一致性,对所有提及进行联合建模,能够获得更全面的语义信息。基于图的方法、基于pair-linking的方法和基于深度学习的方法都是常用全局实体消歧方法,基于图的方法是通过构建一个图模型,节点由所有提及的候选实体构成,边由提及之间的关系构成,然后在图上执行实体消歧算法,为所有提及选择一组可能性最高的实体组合作为目标实体集合。该方法虽然准确率较高,但也存在一定的缺陷:若是在包含大量提及的长文档中,基于图的联合推理机制导致计算量极大,很难与局部方法结合起来,泛化能力较低。现有的全局实体消歧方法基于这样的假设:文档中的所有提及都是高度相关的;然而这一假设在拥有多个主题的长文档中并不一定成立,而且计算复杂度过高;pair-linking方法是一种基于局部实体对匹配的方法,其目的是减少全局实体消歧方法中计算量大的问题。这种方法需要对所有可能的实体对进行比较,因此计算复杂度随着实体数量的增加呈指数级增长,这对于大规模实体链接任务来说是不可行的。基于深度学习的方法,通过对局部和全局信息进行联合编码,可以提高全局实体消歧的效率。然而,关注全文档信息可能会引入噪声,提高计算成本。
5.目前主流的集体实体消歧模型存在以下问题:一是在执行集体实体消歧时不考虑消歧顺序,直接按照提及出现的顺序执行消歧,极易造成错误传播。二是忽略了已消歧实体中包含的丰富知识。三是传统的集体实体消歧方法由于输入长度限制而无法处理超长文本,只能对文本进行拆分或者截断,无法完整利用全局信息。
技术实现要素:
6.为提高局部特征和全局特征一致性,本发明提供了一种基于xlnet和longformer的集体实体消歧方法,提高了现有集体实体消歧的性能。
7.为实现上述目的,本技术的技术方案为:一种基于xlnet和longformer的集体实体消歧方法,包括:
8.生成候选实体:对于给定的一个提及,从知识库中生成包含若干个候选实体的候选实体集{c1,c2,...,ck},以此来控制候选实体的数量;
9.获取消歧序列:将所有待消歧提及按照消歧难易程度进行排序,形成消歧序列seq={m1,m2,...,mn};
10.执行序列消歧:将消歧序列seq={m1,m2,...,mn}中的提及依次解析得到对应的目标实体。
11.进一步的,采用基于命名字典方式生成候选实体集;利用维基百科中的信息构建命名字典,包括实体页面、重定向页面和消歧页面等。
12.进一步的,实体页面:维基百科中的每个实体页面通常都描述了单一的实体及其相关信息。将实体页面中的标题加入命名字典的“标签”中,实体描述加到“描述”中,实体类型加到“类型”中,先验概率加到“先验概率”中。
13.进一步的,重定向页面:包含实体别名和对应的实体页面链接的页面。为了让别名和实体建立关联,需要将重定向页面的标题添加到“标签”中,并将指向的实体添加到“描述”中。这样,在搜索或查询时,用户可以根据别名找到对应的实体。
14.进一步的,消歧页面:消歧页面的作用是区分维基百科中存在的许多相同提及,该页面由多个可能与该提及相关联的实体的实体页面链接组成。通过访问消歧页面,用户可以找到所需的特定实体。例如,在li na对应的消歧页上,既包含tennis player li na对应的实体页面链接,也包含singer li na对应的实体页面链接。将消歧页面中的标题加入“标签”中,实体描述加到“描述”中,实体类型加到“类型”中,先验概率加到“先验概率”中。
15.先验概率pem是指在不考虑上下文信息的情况下,将提及映射到实体的概率,先验概率作为先验知识在消除歧义方面往往非常有用。例如,当我们问“how high is yao ming?”时,大概率问的是“basketball player yao ming”而不是其他不知名的“yao ming”。尽管上下文根本不包含篮球运动员的信息,但在大多数情况下,根据“yao ming”到“basketball player yao ming”的最高先验概率,选择它作为目标实体将是一个很好的答案。因此选择表中先验概率top100的实体作为候选实体加入候选实体集,并保留相应的实体描述、实体类型信息,以便进行下一步计算。
16.更进一步的,将所有待消歧提及按照消歧难易程度进行排序,形成消歧序列,具体为:
17.利用xlnet将提及上下文和实体描述进行联合编码以实现彼此间的深度交叉注意。具体来说,首先给定提及m及其候选实体e∈c,使用[cls]和[sep]两个特殊标记将提及上下文cm和候选实体描述de进行拼接,作为xlnet的输入文本序列,其中[cls]表示文本序列的开始,[sep]作用是将不同的字段分隔开;从经过xlnet以后的[cls]中得到提及上下文-候选实体描述对的表示然后利用获取相似度得分;接着,将实体先验概率与相似度得分输入至前馈神经网络,得到候选实体的排名得分;依照该排名分数由高到低地
选择候选实体对应的提及组成消歧序列seq={m1,m2,...,mn};消歧序列中的元素顺序很可能与最初给定的提及序列中元素顺序不同。
[0018]
更进一步的,将消歧序列seq={m1,m2,...,mn}中的提及依次解析得到对应的目标实体,具体为:
[0019]
采用与bert的masked language model(mlm)类似的longformer来执行预测。具体来说,对于每个词和实体,将标记嵌入、位置嵌入和类型嵌入求和作为输入表示;
[0020]
标记嵌入:标记的嵌入,词和实体嵌入矩阵分别表示为和h为longformer隐藏层大小,vw和ve分别是单词字典和实体字典的条目数;
[0021]
位置嵌入:标记在文本中的位置,分别用mi和ei表示单词和实体在句中第i个位置上;如果一个词或实体由多个词组成,那么它的位置嵌入就表示为对应位置的平均,如(e1+e2)/2。
[0022]
类型嵌入:标记类型的嵌入,分为单词类型嵌入t
word
和实体类型嵌入t
entity
;
[0023]
用[mask]替换所有实体,将单词和实体输入longformer;然后按照消歧序列seq中的顺序,使用softmax函数预测序列中第一个提及的目标实体,并将已消歧实体作为已知知识加入下一轮消歧决策中,重复此步骤,直至序列中所有的提及都链接到对应的目标实体。
[0024]
更进一步的,将消歧序列seq={m1,m2,...,mn}中的提及依次解析得到对应的目标实体,还包括:
[0025]
使用pytorch和hugging face transformer训练,并使用adam,通过最大化对数似然来进行优化。具体来说,采用2018年12月版本的维基百科作为训练词嵌入的语料库,其中约包含35亿单词和1100万个实体注释。xlong-ced模型基于longformer
base
,与longformer共享的参数使用longformer初始化,其他参数随机初始化。利用longformer分词器对输入文本进行分词,该分词器的词汇表由vw=50000个单词组成。本发明构建了一个包含ve=500000个实体的实体词表。为了稳定训练,只更新在第一个epoch随机初始化的参数,并在其余六个epoch中更新所有参数。
[0026]
本发明采用的以上技术方案,与现有技术相比,具有的优点是:本发明利用xlnet对提及上下文和候选实体进行深度编码,计算它们之间的相似性,由此决定消歧顺序。同时使用能够处理长文档的longformer进行实体预测,有效提高了集体实体消歧的准确性和可靠性。
附图说明
[0027]
此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中,相同的参考符号表示相同的部件。图1为本发明实施例中一种基于xlnet和longformer的集体实体消歧方法流程图;
[0028]
图2为本发明实施例中的命名字典d的示意图;
[0029]
图3为本发明实施例中的消歧序列计算模块架构示意图;
[0030]
图4为本发明实施例中的执行序列消歧模块架构示意图;
[0031]
图5为本发明实施例中的执行集体实体消歧的推理过程示意图。
具体实施方式
[0032]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0033]
如图1所示,本实施例提供一种基于xlnet和longformer的集体实体消歧方法,包括生成候选实体步骤、获取消歧序列步骤、执行序列消歧步骤。
[0034]
步骤1.生成候选实体
[0035]
如图2所示,首先,从文本“li na beatschiavone at the open”中提取待消歧的提及“li na”、“schiavone”、“open”,通过基于命名字典方式为它们生成候选实体集。命名字典中保留了候选实体的标签、描述、类型以及先验概率信息。
[0036]
步骤2.获取消歧序列
[0037]
如图3所示,分别将提及“li na”、“schiavone”、“open”的所有候选实体描述与“li na beatschiavone at the open”输入xlnet进行联合编码以实现提及上下文c
m-候选实体描述de之间的深度交叉注意,得到它们的表示然后利用该表示计算候选实体与提及的相似度得分式中[cls]和[sep]的作用分别是表示序列的开始和分隔不同的字段,w1是学习参数向量。将命名字典组成的候选实体信息表中的提及-实体先验概率pem与上下文相似度得分s
txt
(m,e),输入前馈神经网络ffnn,得到候选实体的排名得分s(m,e)=ffnn(pem,s
txt
(m,e))。依照该排名分数由高到低地选择候选实体对应的提及组成消歧序列seq={“schiavone”,“open”,“li na”}。
[0038]
步骤3.执行序列消歧
[0039]
如图4所示,将提及上下文单词“li”、“na”、“beat”、“schiavone”、“at”、“the”、“open”,以及特殊标记“《s》”、“《/s》”、“[mask]”的嵌入表示输入longformer。《s》和《/s》的分别表示序列的开始和结束,用[mask]替换所有实体。它们的嵌入表示由标记嵌入、位置嵌入和类型嵌入加和得到。在位置嵌入中,“li”和“na”共同组成一个实体,该位置嵌入就表示为对应位置的平均:(e1+e2)/2。类型嵌入分为单词类型嵌入和实体类型嵌入。按照消歧序列seq中的顺序,使用softmax函数预测第一个待消歧提及“schiavone”的目标实体:me=layernorm(gelu(wre+b1)),其中,是[mask]的longformer输出,为权重矩阵,和为偏置向量,gelu(
·
)为激活函数,layernorm(
·
)为层归一化函数。
[0040]
如图5所示,将提及“li na”、“schiavone”、“open”按照消歧序列seq={“schiavone”,“open”,“li na”}中的顺序依次链接到它们的目标实体,并在每一步推理过程中将已消歧实体作为已知知识参与到下一实体的消歧过程中,增强消歧决策。
[0041]
通过最大化的对数似然来进行优化:其中ei表示第i个提及对应的目标实体,表示预测的结果。
[0042]
训练时,采用2018年12月版本的维基百科作为训练词嵌入的语料库,参数设置如下:学习率为5e-5,隐藏层层数为12,最大位置嵌入为4098,衰减率为0.01,为防止过拟合采用dropout(0.1),优化器为adam,使用micro-f1作为评判指标。
[0043]
本实施例利用先验概率,结合xlnet计算上下文相似度得分,获得文档中所有提及的消歧序列;将提及上下文和实体的嵌入表示输入能够解决序列长度二次依赖限制问题且将局部注意和稀疏的全局注意结合在一起的longformer,获得消歧序列中第一个提及对应的目标实体;利用解析后的实体作为下一轮的输入,得到消歧序列中下一个待消歧提及的目标实体,重复此步骤,直至获得所有提及的消歧结果。本发明基于xlnet和longformer构建了一个集体实体消歧模型,将实体消歧视为序列决策任务,同时结合局部特征和全局一致性,并利用已消歧实体所包含的丰富知识实现集体实体消歧,实现了更高的性能和更快的推理速度。
[0044]
以上所述实施例仅表达了本技术的实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
技术特征:
1.一种基于xlnet和longformer的集体实体消歧方法,其特征在于,包括:对于给定的一个提及,从知识库中为其生成包含若干个候选实体的候选实体集{c1,c2,...,c
k
};将所有待消歧提及按照消歧难易程度进行排序,形成消歧序列seq={m1,m2,...,m
n
};将消歧序列seq={m1,m2,...,m
n
}中的所有提及依次解析得到对应的目标实体。2.根据权利要求1所述一种基于xlnet和longformer的集体实体消歧方法,其特征在于,采用基于命名字典方式生成候选实体集;利用维基百科中的信息构建命名字典,包括实体页面、重定向页面和消歧页面。3.根据权利要求2所述一种基于xlnet和longformer的集体实体消歧方法,其特征在于,将实体页面中的标题加入命名字典的“标签”中,实体描述加到“描述”中,实体类型加到“类型”中,先验概率加到“先验概率”中。4.根据权利要求2所述一种基于xlnet和longformer的集体实体消歧方法,其特征在于,重定向页面包含实体别名和对应的实体页面链接的页面,将重定向页面的标题添加到“标签”中,并将指向的实体添加到“描述”中。5.根据权利要求2所述一种基于xlnet和longformer的集体实体消歧方法,其特征在于,将消歧页面中的标题加入“标签”中,实体描述加到“描述”中,实体类型加到“类型”中,先验概率加到“先验概率”中。6.根据权利要求1所述一种基于xlnet和longformer的集体实体消歧方法,其特征在于,将所有待消歧提及按照消歧难易程度进行排序,形成消歧序列,具体为:首先使用[cls]和[sep]两个标记将提及上下文和候选实体描述进行拼接,作为xlnet的输入文本序列,得到提及上下文-候选实体描述对的表示,并根据该表示获取它们之间的相似度得分;接着,将实体先验概率与相似度得分输入前馈神经网络,得到候选实体的排名得分;依照该排名分数由高到低地选择候选实体对应的提及组成消歧序列seq={m1,m2,...,m
n
}。7.根据权利要求1所述一种基于xlnet和longformer的集体实体消歧方法,其特征在于,将消歧序列seq={m1,m2,...,m
n
}中的所有提及依次解析得到对应的目标实体,具体为:首先对于每个词和实体,将标记嵌入、位置嵌入和类型嵌入求和作为嵌入表示;接着用[mask]替换所有实体,将单词和实体的嵌入表示输入longformer;然后按照消歧序列中的顺序,使用softmax函数预测序列中第一个提及的目标实体,并将已消歧实体作为已知知识加入下一轮消歧决策中,重复此步骤,直至序列中所有的提及都链接到对应的目标实体。8.根据权利要求7所述一种基于xlnet和longformer的集体实体消歧方法,其特征在于,标记嵌入:词和实体嵌入矩阵分别表示为和h为longformer隐藏层大小,v
w
和v
e
分别是单词字典和实体字典的条目数;位置嵌入:标记在句中的位置,如果一个词或实体由多个词组成,那么它的位置嵌入就表示为对应位置的平均;类型嵌入:分为单词类型嵌入和实体类型嵌入。9.根据权利要求1所述一种基于xlnet和longformer的集体实体消歧方法,其特征在于,采用2018年12月版本的维基百科作为训练词嵌入的语料库,参数设置:学习率为5e-5,隐藏层层数为12,最大位置嵌入为4098,衰减率为0.01,为防止过拟合采用dropout(0.1),
优化器为adam,将micro-f1作为评判指标。
技术总结
本发明公开了一种基于XLNet和Longformer的集体实体消歧方法,包括生成候选实体步骤:对于给定的一个提及,从知识库中生成包含若干个候选实体的候选实体集,以此来控制候选实体的数量。获取消歧序列步骤:将所有待消歧提及按照消歧难易程度进行排序,形成消歧序列;执行序列消歧步骤:将消歧序列中的提及依次解析得到对应的目标实体。本发明基于XLNet和Longformer构建了一个集体实体消歧模型,将实体消歧视为序列决策任务,同时结合局部特征和全局一致性,并利用已消歧实体所包含的丰富知识实现集体实体消歧,实现了更高的性能和更快的推理速度。的推理速度。的推理速度。
技术研发人员:钟兆前 车超 杨思雨
受保护的技术使用者:大连大学
技术研发日:2023.03.30
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:自动化冲切设备的制作方法 下一篇:一种自动化短信精准营销闭环管理方法及系统与流程