一种结合知识图谱实体关联度的BERT模型优化方法
未命名
09-11
阅读:110
评论:0

一种结合知识图谱实体关联度的bert模型优化方法
技术领域
1.本发明涉及自然语言处理领域的预训练语言模型,具体涉及一种结合知识图谱实体关联度的bert模型优化方法。
背景技术:
2.近年来,自然语言处理技术有了长足的发展。其中,预训练模型bert(基于transformer的双向编码器结构,是一种预训练语言模型)因为其出色的任务表现和对任务的普适性,为解决自然语言处理领域的下游任务提供了强有力的支持,是自然语言处理领域研究和应用的重要基础。
3.现有的研究工作主要先基于多头注意力进行bert模型针对下游任务的训练再处理该下游任务,该方法的缺点是多头注意力对文本数据中实体知识的关注是无知的和忽视的,忽略了实体间的关联,训练过程中无法根据实体间的关联程度进行注意力的分配,使bert模型仍然没有得到充分的学习,不能充分发挥bert模型处理下游任务的效果。
技术实现要素:
4.针对以上问题,本发明提出一种结合知识图谱实体关联度的bert模型优化方法,首先根据知识图谱和文本数据集进行实体链接得到实体集合,并根据实体集合中实体之间的最短路径长度计算实体间的关联度,然后将文本数据集作为训练样本输入到bert模型,利用bert模型内部的损失函数进行训练,并在训练过程中根据实体间的关联度优化文本数据中对应实体部分在bert模型中的多头注意力下的注意力分布,使bert模型得到充分学习,进而充分发挥bert模型处理下游任务的效果。
5.本发明所提出的一种结合知识图谱实体关联度的bert模型优化方法具体内容如下:
6.s1、根据知识图谱和文本数据集进行实体链接得到实体集合。
7.s2、根据实体集合中各实体之间在知识图谱上的最短路径长度,计算各实体间的关联度。
8.s3、将文本数据集作为bert模型的输入,利用bert模型内部的损失函数进行训练,并在训练过程中,根据实体间的关联度优化文本数据中对应实体部分,在bert模型的多头注意力下的注意力分布,得到优化后的bert模型。
9.s4、利用优化之后的bert模型处理下游任务。
10.作为优选方案,步骤s1通过将文本数据集t内的文本内容链接到知识图谱中对应的实体,得到实体集合es。
11.作为优选方案,步骤s2所述是基于步骤(1)中的实体集合es,其具体过程为:
12.(2-1)从es抽取一个实体作为目标实体,计算目标实体与其它实体间的最短路径长度和平均最短路径长度:
13.e,avg=dij(m,n)
14.其中,m表示目标实体,n表示除目标实体外的其它实体,dij()表示计算最短路径长度的算法,e表示为目标实体与其它实体间的最短路径长度构成的向量,avg表示为目标实体与其它实体间的最短路径长度的平均值。
15.(2-2)将最短路径长度的平均值与各实体对于目标实体的最短路径长度的比值组成向量,并使用归一化技术将向量各维度的值映射到[0,1]区间:
[0016][0017]
其中,normalization()为归一化函数。最终得到集合es中各实体对应的关联度集合r。
[0018]
(2-3)从es抽取下一个实体作为目标实体,重复步骤(2-2)和(2-2),直到es内的实体全都被遍历到,并将所有目标实体与其它实体间的关联度集合,构建为所有实体间的关联度集合rt。
[0019]
作为优选方案,步骤s3所述是基于步骤(1)中的文本数据集t和步骤(2)中的关联度集合rt,其具体过程为:
[0020]
(3-1)对于集合t,将其中的文本数据作为bert模型的输入,利用bert模型内部的损失函数进行训练,将bert模型的参数向着以损失减小的目标进行训练。
[0021]
(3-2)对于bert模型训练过程中涉及的步骤(1)的集合t中的每条文本数据,其由若干单词构成,其中某些单词即实体。按长度n构建一个大小为n
×
n的关联度矩阵s,在s中包含了文本数据中所有单词之间的关联度。具体地说,对于文本数据中的任意两个词,若两者相同,则这两个词之间的关联度为1。否则,若两者不相同且其中至少存在一个不为知识图谱中的实体,那么这两个词之间的关联度为0。关联度矩阵s中其余部分的关联度则由集合rt确定。
[0022]
(3-3)根据关联度矩阵s,优化bert模型中的多头注意力下的注意力分布,得到优化后的bert模型。具体地说,注意力分布由注意力权重构成,首先将关联度矩阵s基于哈达玛积调整优化前的注意力权重,再与优化前的注意力权重进行融合,最后经过注意力分布的计算函数得到优化后的注意力分布:
[0023][0024][0025]
其中,
⊙
表示哈达玛积,指的是两矩阵逐元素相乘,score为融合知识图谱关联度和语义相关性的结果,q、k、v分别为bert模型内部的多头注意力下的注意力分布所涉及的查询、键、值的参数矩阵,qk
t
为优化前的注意力权重,dk为矩阵q、k的行向量的维度,softmax为概率分布函数,multiattention表示多头注意力下注意力分布的计算函数。
[0026]
有益效果:本发明提出的结合知识图谱实体关联度的bert模型优化方法首先根据知识图谱和文本数据集进行实体链接得到实体集合,并根据实体集合中各实体之间在知识图谱上的最短路径长度计算实体间的关联度,然后将文本数据集作为训练样本输入到bert模型,利用bert模型内部的损失函数进行训练,并在训练过程中根据实体间的关联度优化
文本数据中对应实体部分在bert模型中的多头注意力下的注意力分布,从而使bert模型在训练过程中能够根据实体间的关联程度进行注意力的分配,将注意力聚焦于具有更高关联度的实体,进而有效提升了bert模型处理下游任务的效果。
附图说明
[0027]
图1是本发明的流程图;
[0028]
图2是本发明的具体实例示意图。
具体实施方式
[0029]
一种结合知识图谱实体关联度的bert模型优化方法具体流程如图1所示,包括以下具体步骤:
[0030]
1.根据知识图谱和文本数据集进行实体链接得到实体集合。
[0031]
2.根据实体集合中各实体之间在知识图谱上的最短路径长度,计算实体间的关联度。
[0032]
3.将文本数据集作为bert模型的输入,进行训练,并在训练过程中根据实体间的关联度优化文本数据中对应实体部分在bert模型的多头注意力下的注意力分布,得到优化后的bert模型。
[0033]
4.利用优化后的bert模型处理下游任务。
[0034]
为使本发明的目的、技术方案及效果更加清楚和明确,以下对本发明附图进一步详细说明,具体内容如下:
[0035]
实施例1:
[0036]
如图2所示,本发明处理语义匹配任务,主要包括以下步骤:
[0037]
(1)根据同义词知识图谱和文本数据集t进行实体链接得到实体集合,其中文本数据集t中每条记录表示为三元组《r,r
+
,r-》,分别代表语义匹配任务的一条样本数据、该样本数据的正样本数据和负样本数据,将文本数据集与同义词知识图谱进行实体链接,得到语义匹配任务对应的实体集合es。
[0038]
(2)根据实体集合es中各实体之间在同义词知识图谱上的最短路径长度计算各实体间在语义匹配任务下的关联度,具体过程为:
[0039]
(2-1)从es抽取一个实体作为目标实体,计算目标实体与其它实体间的最短路径长度和平均最短路径长度:
[0040]
e,avg=dij(m,n)
[0041]
其中,m表示目标实体,n表示除目标实体外的其它实体,dij()表示计算最短路径长度的算法,e表示为目标实体与其它实体间的最短路径长度构成的向量,avg表示为目标实体与其它实体间的最短路径长度的平均值。
[0042]
(2-2)最短路径长度的平均值与各实体对于目标实体的最短路径长度的比值组成向量,并使用归一化技术将向量各维度的值映射到[0,1]区间:
[0043][0044]
其中,normalization()为归一化函数。得到集合es中各实体对应的关联度集合r。
[0045]
(2-3)es抽取下一个实体作为目标实体,重复上述步骤直到es内的实体全都被遍历到,并将所有目标实体与其它实体间的关联度集合合并为所有实体间的关联度集合rt。
[0046]
(3)将文本数据集t作为bert模型的输入,使用三元组损失triplet loss作为bert模型针对语义匹配任务进行训练时的损失函数,并在训练过程中根据实体间的关联度优化文本数据中对应实体部分在bert模型的多头注意力下的注意力分布,得到针对语义匹配任务优化后的bert模型。
[0047]
(3-1)对于集合t,将其中的所有记录中的所有样本数据作为bert模型的输入,然后在训练过程中利用triplet loss损失函数分别计算样本与其正负样本之间的余弦距离,拉近样本与其正样本,并将样本与其负样本推远,将bert模型的参数向着以triplet loss损失减小的目标进行训练:
[0048][0049]
其中m是超参数,默认m的值为1,d是余弦距离函数,p为样本数据,p
+
为p的正样本数据,p-为p的负样本数据。
[0050]
(3-2)对于bert模型训练过程中涉及的步骤(1)的集合t中的每条文本数据,其由若干单词构成,其中某些单词也为步骤(1)的知识图谱中的实体。按长度n构建一个大小为n
×
n的关联度矩阵s。在s中包含了文本数据中所有单词之间的关联度(即不只是包含实体间的关联度)。具体地说,对于文本数据中的任意两个词,若两者相同,则这两个词之间的关联度为1。否则,若两者不相同且其中至少存在一个不为知识图谱中的实体,那么这两个词之间的关联度为0。关联度矩阵s中其余部分的关联度则由集合rt确定。
[0051]
(3-3)根据关联度矩阵s,优化bert模型中的多头注意力下的注意力分布,得到优化后的bert模型。具体地说,注意力分布由注意力权重构成,首先将关联度矩阵s基于哈达玛积调整原本的注意力权重,再与原本的注意力权重进行融合,最后经过注意力分布的计算函数得到优化后的注意力分布:
[0052][0053][0054]
其中,
⊙
表示哈达玛积,指的是两矩阵逐元素相乘,score为融合知识图谱关联度和语义相关性的结果,q、k、v分别为bert模型内部的多头注意力下的注意力分布所涉及的查询、键、值的参数矩阵,qk
t
为原本的注意力权重,dk为矩阵q、k的行向量的维度,softmax为概率分布函数,multiattention表示多头注意力下注意力分布的计算函数。
[0055]
表1
[0056] 准确率f1bert87.6%95.8%本发明89.6%97.2%
[0057]
bert模型与优化后的bert模型(即bert(our))在语义匹配任务下的实验效果对比如表1所示,相比于原始的bert模型,由本发明提出的结合知识图谱实体关联度的bert模型优化方法优化得到的bert模型的效果在各项指标(准确率和召回率f1)中均有显著的效果
提升。
技术特征:
1.一种结合知识图谱实体关联度的bert模型优化方法,其特征在于,包括如下步骤:s1、根据知识图谱和文本数据集进行实体链接,得到实体集合;s2、根据实体集合中各实体之间在知识图谱上的最短路径长度,计算各实体间的关联度;s3、将文本数据集作为bert模型的输入,进行训练;在训练过程中,根据实体间的关联度,优化文本数据中对应实体部分在bert模型的多头注意力下的注意力分布,得到优化后的bert模型;s4、利用优化之后的bert模型处理下游任务。2.根据权利要求1所述的一种结合知识图谱实体关联度的bert模型优化方法,其特征在于,步骤s1具体过程如下:通过将文本数据集t内的文本内容链接到知识图谱中对应的实体,得到实体集合es。3.根据权利要求2所述的一种结合知识图谱实体关联度的bert模型优化方法,其特征在于,步骤s2具体过程为:s2.1、从es抽取一个实体作为目标实体,计算目标实体与其它实体间的最短路径长度和平均最短路径长度:e,avg=dij(m,n)其中,m表示目标实体,n表示除目标实体外的其它实体,dij()表示计算最短路径长度的算法,e表示为目标实体与其它实体间的最短路径长度构成的向量,avg表示为目标实体与其它实体间的最短路径长度的平均值;s2.2、将最短路径长度的平均值与各实体对于目标实体的最短路径长度的比值组成向量,并通过归一化将向量各维度的值映射到[0,1]区间:其中,normalization()为归一化函数;得到es中各实体对应的关联度集合r;s2.3、从es抽取下一个实体作为目标实体,重复s2.1和s2.2,直到es内的实体全都被遍历到,并将所有目标实体与其它实体间的关联度集合,构建为所有实体间的关联度集合rt。4.根据权利要求3所述的一种结合知识图谱实体关联度的bert模型优化方法,其特征在于,步骤s3其具体过程为:s3.1、对于文本数据集t,将其中的文本数据作为bert模型的输入,利用bert模型内部的损失函数进行训练;s3.2、文本数据集t中的每条文本数据,由若干单词构成,所述实体即其中的部分单词;按长度n构建一个大小为n
×
n的关联度矩阵s,在s中包含了文本数据中所有单词之间的关联度;s3.3、根据关联度矩阵s,优化bert模型中的多头注意力下的注意力分布,得到优化后的bert模型。5.根据权利要求4所述的一种结合知识图谱实体关联度的bert模型优化方法,其特征在于,步骤s3.2中所述关联度矩阵s具体构建过程如下:对于文本数据中的任意两个词,若两者相同,则这两个词之间的关联度为1;否则,若两者不相同且其中至少存在一个不为知识图谱中的实体,那么这两个词之间的关联度为0;关联度矩阵s中其余部分的关联度则由
集合rt确定。6.根据权利要求4或5所述的一种结合知识图谱实体关联度的bert模型优化方法,其特征在于,步骤s3.3所述优化bert模型中的多头注意力下的注意力分布,具体过程如下:注意力分布由注意力权重构成,首先将关联度矩阵s基于哈达玛积调整优化前的注意力权重,再与优化前的注意力权重进行融合,最后经过注意力分布的计算函数得到优化后的注意力分布:布:其中,
⊙
表示哈达玛积,指的是两矩阵逐元素相乘,score为融合知识图谱关联度和语义相关性的结果,q、k、v分别为bert模型内部的多头注意力下的注意力分布所涉及的查询、键、值的参数矩阵,qk
t
为优化前的注意力权重,d
k
为矩阵q、k的行向量的维度,softmax为概率分布函数,multiattention表示多头注意力下注意力分布的计算函数。
技术总结
本发明公开了一种结合知识图谱实体关联度的BERT模型优化方法。该方法首先根据知识图谱和文本数据集进行实体链接得到实体集合,并根据实体集合中实体之间在知识图上的最短路径长度计算实体间的关联度,然后将文本数据集作为训练样本输入到BERT模型,利用BERT模型内部的损失函数进行训练,并在训练过程中根据实体间的关联度优化文本数据中对应实体部分在BERT模型中的多头注意力下的注意力分布,得到优化之后的BERT模型,并应用于处理下游任务。本发明通过知识图谱实体关联度来引导BERT模型的训练,有效提升了BERT模型处理下游任务的效果。效果。效果。
技术研发人员:徐小良 孙浩
受保护的技术使用者:杭州电子科技大学
技术研发日:2023.06.21
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/