基于异质子图三重语义聚合的知识图谱补全方法及系统

未命名 10-09 阅读:54 评论:0


1.本发明涉及知识图谱特征学习领域,具体涉及基于异质子图三重语义聚合的知识图谱补全方法及系统。


背景技术:

2.随着互联网的发展,数据量呈现爆炸式的增长。这些数据包含了丰富的知识和信息,但是数据的结构和语义千差万别,难以直接应用。因此,需要对数据进行处理和分析,从而构建出一张具有结构化信息和语义关系的知识图谱。目前随着自然语言处理技术的发展,已经可以将自然语言转化为结构化的知识图谱数据,通过对大量的数据进行提取,从而可以归纳出数据之间的关系,然而这些知识图谱往往存在数据稀疏,数据不完整的问题。
3.通过对知识图谱补全有助于提高知识图谱的完整性,从而提高基于知识图谱的搜索引擎的效率和准确性、提升智能客服、个性化推荐的服务质量。
4.现有的相关技术中,基于三元组的方法在知识图补全方面受到了人们的广泛关注,这些方法直接对具有实体和关系的三元组进行推理,例如公布号为cn115809346a的现有发明专利申请文献《一种基于多视图语义增强的小样本知识图谱补全方法》通过结合结构视图、文本视图以生成实体及关系的嵌入表示,通过自适应注意力机制解决实体隐含的常识知识对三元组的影响,然后考虑实体在不同关系下拥有不同的常识信息来聚合实体的邻域信息;内外优化复杂关系处理通过常识语义约束,将具有相同/不同常识知识的嵌入定位到相同/不同的语义空间中,然后在内部优化过程中利用常识视图和复杂关系的特点,对负采样过程实现监督以生成有效且高质量的负样本,并学习复杂关系的表示和超平面参数,之后在外部优化过程更新全部参数以使模型获得更优的结果;通过常识视图过滤掉候选实体中不符合常识知识的实体,输出最终的候选实体排名。前述现有技术由于对三元组是独立学习的,所以无法捕获三元组周围的局部结构。
5.因此基于路径的方法被提出,通过对实体间的所有关系路径进行采样,并使用注意力机制加权不同路径,其可以一定程度上捕获结构信息。然而在捕获结构信息时,子图显然比路径更能反映结构信息。
6.公布号为cn115438197a的现有发明专利申请文献《一种基于双层异质图的事理知识图谱关系补全方法及系统》该方法包括:s1、从已知的事理知识图谱中,获取全部事件中的对应关系,其中,所述对应关系包括:所述全部事件包含的所有实体构成的异质图;s2、对所述异质图进行表示学习,据以获得每个实体节点的向量表示,以得到子图结构嵌入特征表示,据以获取预训练模型,其中,所述步骤s2还包括:s21、获取并利用预置逻辑表示元路径;s22、根据所述元路径的节点嵌入聚合得到元路径嵌入表示,据以构造语义嵌入矩阵,融合处理一个事件中的不少于2个的所述元路径,以得到所述事件在所述异质图上的子图语义特征;s23、根据原始异质子图的节点特征和语义特征,分别生成异质子图,融合所述异质子图与所述原始异质子图,以得到第一融合新异质子图;s24、根据所述第一融合新异质子图中的每个所述事件映射一个子图,与该子图的所述节点特征和所述语义特征进行融合处
理,据以得到第二融合新异质子图;s25、将所述第二融合新异质子图输入到图神经网络模型gnn和预置正则化器中,以通过双层异质图联合学习,优化所述第二融合新异质子图的图结构和gnn参数,以得到所述预训练模型;s3、结合所述预训练模型,提取所述事理知识图谱中的事件语义特征;s4、结合所述子图结构嵌入特征表示以及所述事件语义特征,据以进行异质图联合学习,据以得到事理知识图谱关系预测模型;s5、获取并利用新事件实体,根据所述事理知识图谱关系预测模型,对基本异质图进行扩展补全,以得到更新异质图,利用所述更新异质图更新所述子图结构嵌入特征表示,据以补全所述事理知识图谱,其中,所述事理知识图谱关系预测模型包括:transr模型。前述现有的基于gnn的子图学习方法,虽然取得了一定的成功但是其不能区分邻居的结构依赖性,而且无法解释。除此之外,还有一些基于封闭子图的方法,由于是对封闭子图进行学习,其效率和有效性较低。
7.综上,现有技术存在难以有效学习子图结构、知识图谱特征学习的可解释性较低的技术问题。


技术实现要素:

8.本发明所要解决的技术问题在于如何解决现有技术难以有效学习子图结构、知识图谱特征学习的可解释性较低的技术问题。
9.本发明是采用以下技术方案解决上述技术问题的:基于异质子图三重语义聚合的知识图谱补全方法包括:
10.s1、根据事理知识图谱中,构成事理知识图谱的所有事件以及事件的所有实体和关系,以实体为节点,以关系为边,构建异质图;
11.s2、根据实体及关系的查询参数,从异质图中获取邻边和邻节点,据以构造关系路径有向子图r;
12.s3、在执行步骤s2时,以不少于2种的方式,将查询参数中的关系向量特征融入邻边和邻节点,以得到融合特征向量,计算融合后特征向量的注意力值,据以进行消息聚合,以得到当前的层嵌入表示,循环执行步骤s3,直至达到设定层数l,判定构造获取关系路径有向子图r的嵌入表示;
13.s4、训练关系路径有向子图r的嵌入表示,以得到适用模型;
14.s5、通过加入新实体,补全原异质图,以得到新异质图,利用适用模型学习新异质图,据以完成事理知识图谱的补全。
15.本发明通过提出的基于节点与关系、关系与邻边、节点关系邻边,三种级别的语义消息聚合方法对知识图谱中抽取出的由关系路径构成的有向图的学习,增强对于知识图谱结构和语义特征的学习从而实现知识图谱节点补全。
16.在更具体的技术方案中,步骤s1包括:
17.s11、获取事理知识图谱中的实体、关系和事实三元组的集合;
18.s12、以三元组构成事理知识图谱中的每个实体,其中,实体包括头实体和尾实体;
19.s13、从预置文本中抽取所有事件的实体及其关系;
20.s14、通过加入三元组逆关系增加数据量,以得到扩增三元组,以扩增三元组中的实体为节点,关系为边构建异质图。
21.在更具体的技术方案中,步骤s2包括:
22.s21、获取st分层路径图,其包括:一个源节点eq和一个汇聚节点ea,其中,st分层路径图中所有的边连接连续层之间的节点,从第l-1层指向第l层;
23.s22、将源节点eq以及汇聚节点ea之间,所有长度小于或等于l的路径,表示为长度为l的关系路径:eq→
r1·

r2…→rl
ea;
24.s23、将分层元路径子图定义为其中,分层元路径子图包括:源实体和汇聚实体,同一层中的实体各不相同路径子图r中,从源实体到汇聚实体的任何路径都是关系路径:eq→
r1·

r2…→rl
ea;
25.s24、构建元路径子图r,首先提取源实体和l层的汇聚实体的邻域,以计算邻域的交集,在使用不同的汇聚实体:ea∈v,使用相同的查询参数(eq,rq,?)来评估(eq,rq,ea)时,共享源实体相邻的边
26.s25、在源实体eq和所述汇聚实体ea之间没有关系路径时,令
27.本发明提出了一种新的基于注意力机制的节点与关系、关系与邻边、节点关系邻边,三种级别的语义消息聚合方法,对这种由两节点间路径构成的,有向子图结构进行学习。由于图中的任意两点间的路径可能是另外两节点间路径的子集,因此我们分层的对这种子图进行消息传递,并且运用了动态规划的思想简化了计算过程,优化了对子图结构的学习效果。
28.在更具体的技术方案中,步骤s3包括:
29.s31、对于一个查询参数(eq,rq,?),在构建有向图的过程中,运行不少于2个级别的点和边消息传递,其中,点和边的消息传递包括:节点与关系级、关系与邻边级以及节点关系邻边级语义消息聚合;
30.s32、初始化矩阵:
[0031][0032]
以作为各层间消息传递的介质,式中,上标0表示层,eq(eq,rq)表示以eq为起始节点,以(eq,rq)为查询;
[0033]
s33、在获取源节点ea和汇聚节点ea的邻域构成路径子图时,在构建关系路径有向子图r时,将三种级别的注意力系数赋予每一节点和边,据以计算得到目标节点的重要路径节点以及重要边,以作为三种级别的注意力机制的计算结果;
[0034]
s34、聚合三种注意力机制的计算结果,以得到当前层聚合消息:
[0035][0036]
前述公式中:
[0037]
式中,s
hr
表示节点与关系聚合,表示关系与邻边聚合,表示节点关系邻边聚合其上系数l表示第l层,θ为sigmoid激活函数,wm∈r
n*n
为线性变换矩阵,n为维度大小;
[0038]
s35、再结合gru模型,捕捉长序列之间的语义关联,同时缓解梯度消失或爆炸现象处理当前层聚合消息具体计算方法为:
[0039]zt
=θ(wz·
[h
t-1
,x
t
])
[0040]rt
=θ(wr·
[h
t-1
,x
t
])
[0041][0042][0043]
其中:h
t-1
和x
t
为gru模型的输入,使h
t-1
等于x
t
为初始化的隐层张量,θ为sigmoid激活函数,σ为激活函数tanh,wz、wr、w都为线性变换矩阵,h
t
为gru模型输出也即处理后的
[0044]
在更具体的技术方案中,步骤s33中,三种级别的语义消息聚合计算方式分别为:
[0045]
节点与关系级:
[0046][0047]
式中,当前查询集合:
[0048]
qi={(hi,ri)|(hi,ri,hi)∈t
tra
},t
tra
表示数据集中的三元组集合;(hi,ri)表示当前第i批次的查询(eq,rq,?);
[0049]nl
表示第l层获取到的邻边的集合,hr为获取到的邻边的嵌入表示,σ为激活函数tanh。w
hr
∈r
n*n
为线性变换矩阵,n为维度大小,是节点与关系的注意力系数;
[0050]
关系与邻边级:
[0051][0052]
式中,查询集合qi={(hi,ri)|(hi,ri,hi)∈t
tra
},t
tra
表示数据集中的三元组集合,(hi,ri)表示当前第i批次的查询(hi,ri),(hi,ri)表示当前第i批次的查询(eq,rq,?),nl表示第l层获取到的邻边的集合,hr为获取到的邻边的嵌入表示,σ为激活函数tanh。为线性变换矩阵,n为维度大小,是节点与关系的注意力系数;
[0053]
节点关系邻边级:
[0054][0055]
式中,查询集合qi={(hi,ri)|(hi,ri,hi)∈t
tra
},t
tra
表示数据集中的三元组集合,(hi,ri)表示当前第i批次的查询(eq,rq,?),n
l
表示第l层获取到的邻边的集合,hr为获取到的邻边的嵌入表示,σ为激活函数tanh。为线性变换矩阵,n为维度大小,是节点与关系的注意力系数。
[0056]
在更具体的技术方案中,步骤s34中,利用下述逻辑,聚合三种级别消息的计算结果,以得到当前层聚合消息:
[0057][0058]
其中:
[0059]
式中,s
hr
表示节点与关系聚合,表示关系与邻边聚合,表示节点关系邻
边聚合其上系数l表示第l层,θ为sigmoid激活函数,wm∈r
n*n
为线性变换矩阵,n为维度大小。
[0060]
本发明中的元路径是异质图中一个实体到另外一个实体所要走的路径,通常有多条,这些路径可以共同构成一种新的子图结构。路径由节点和边构成,多条路径共同构成子图,在此基础上,若在通过已知节点获取邻节点、邻边时,为每个邻边和邻节点赋予注意力系数,这样我们可以在这种子图结构构造的过程中,得知已知邻节点和已知邻边对于推理出目标节点的影响力即注意力系数,从而提高知识图谱特征学习的可解释性。
[0061]
在更具体的技术方案中,步骤s4包括:
[0062]
s41、通过损失函数优化关系路径有向子图r的嵌入表示,根据查询参数及邻域语义结构信息,计算每个节点和边的权重,以得到适用节点和适用边,据以学习获取关系路径有向子图r的结构特征;
[0063]
s42、在这里设置预测结果的得分函数为:
[0064][0065]
s43、利用损失函数通过反向传播更新参数,以训练得到适用模型。
[0066]
在更具体的技术方案中,步骤s43中的损失函数采用multi-class函数:
[0067][0068]
在更具体的技术方案中,步骤s5包括:
[0069]
s51、基于嵌入表示,确定新节点是否适于加入当前的异质图;
[0070]
s52、将新节点加入到原异质图中,补全并更新原异质图,以得到新异质图;
[0071]
s53,学习新异质图,获取新嵌入表示,据以补全事理知识图谱。
[0072]
本发明中,随着实体数量和关系的增加,原异质图得到了完善。同时由反馈给原异质图提升了知识图谱的信息量。最终通过这种不断的自我增强使得知识图谱越加完善,模型补全准确性也得到了提升。
[0073]
在更具体的技术方案中,基于异质子图三重语义聚合的知识图谱补全系统包括:
[0074]
异质图构建模块,用以根据事理知识图谱中,构成事理知识图谱的所有事件以及事件的所有实体和关系,以实体为节点,以关系为边,构建异质图;
[0075]
有向子图构建模块,用以根据实体及关系的查询参数,从异质图中获取邻边和邻节点,据以构造关系路径有向子图r,有向子图构建模块与异质图构建模块连接;
[0076]
多注意力嵌入表示模块,用于以不少于2种的方式,将查询参数中的关系向量特征融入邻边和邻节点,以得到融合特征向量,计算融合后特征向量的注意力值,据以进行消息聚合,以得到当前的层嵌入表示,直至达到设定层数l,判定构造获取关系路径有向子图r的嵌入表示,多注意力嵌入表示模块与有向子图构建模块连接;
[0077]
嵌入表示训练模块,用以训练关系路径有向子图r的嵌入表示,以得到适用模型,嵌入表示训练模块与多注意力嵌入表示模块连接;
[0078]
知识图谱补全模块,用以通过加入新实体,补全原异质图,以得到新异质图,利用适用模型再学习新异质图,完成事理知识图谱的补全,知识图谱补全模块与嵌入表示训练模块连接。
[0079]
本发明相比现有技术具有以下优点:本发明通过提出的节点与关系级、关系与邻
边级以及节点关系邻边级语义消息聚合对知识图谱中抽取出的由关系路径构成的有向图的学习,增强对于知识图谱结构和语义特征的学习从而实现知识图谱节点补全。
[0080]
本发明提出了一种新的基于注意力机制的节点与关系级、关系与邻边级、以及节点关系邻边级语义消息聚合方法,对这种由两节点间路径构成的,有向子图结构进行学习。由于图中的任意两点间的路径可能是另外两节点间路径的子集,因此我们分层的对这种子图进行消息传递,并且运用了动态规划的思想简化了计算过程,优化了对子图结构的学习效果。
[0081]
本发明中的元路径是异质图中一个实体到另外一个实体所要走的路径,通常有多条,这些路径可以共同构成一种新的子图结构。路径由节点和边构成,多条路径共同构成子图,在此基础上,若在通过已知节点获取邻节点、邻边时,为每个邻边和邻节点赋予注意力系数,这样我们可以在这种子图结构构造的过程中,得知已知邻节点和已知邻边对于推理出目标节点的影响力即注意力系数,从而提高知识图谱特征学习的可解释性。
[0082]
本发明中,随着实体数量和关系的增加,原异质图得到了完善。同时由反馈给原异质图提升了知识图谱的信息量。最终通过这种不断的自我增强使得知识图谱越加完善,模型补全准确性也得到了提升。本发明解决了现有技术中存在的难以有效学习子图结构、知识图谱特征学习的可解释性较低的技术问题。
附图说明
[0083]
图1为本发明实施例1的基于异质子图三重语义聚合的知识图谱补全方法基本步骤示意图;
[0084]
图2为本发明实施例1的异质图构建具体步骤示意图;
[0085]
图3为本发明实施例1的关系路径有向子图构造示意图;
[0086]
图4为本发明实施例1的三种级别的语义消息聚合处理逻辑示意图;
[0087]
图5为本发明实施例1的路径子图构建过程示意图;
[0088]
图6为本发明实施例1的关系路径子图的嵌入表示构建具体步骤示意图;
[0089]
图7为本发明实施例1的gru模型示意图;
[0090]
图8为本发明实施例1的有向图r,以及有向图r在整体有向图中递归编码示意图;
[0091]
图9为本发明实施例1的关系路径有向子图嵌入表示及训练具体步骤示意图;
[0092]
图10为本发明实施例1的知识图谱补全具体步骤示意图。
具体实施方式
[0093]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0094]
实施例1
[0095]
如图1所示,本发明提供的基于异质子图三重语义聚合的知识图谱补全方法,包括以下基本步骤:
[0096]
s1:已知构成事理知识图谱的所有事件以及所有事件包含的所有实体和关系,以
实体为节点关系为边构建异质图;
[0097]
s2:根据查询实体和关系,从异质图中获取邻边和邻节点,开始构造关系路径有向子图r;
[0098]
在本实施例中,已知的事理知识图谱包含大量由事件构成的实体和实体间关系,这些用来代表事件的实体共同构成一个基本的异质图,元路径是异质图中一个实体到另外一个实体所要走的路径,通常有多条,这些路径可以共同构成一种新的子图结构。既然是基于路径构成的子图结构,如果我们在节点获取邻节点的时候,给每个邻边和邻节点加上注意力系数,这样我们可以在这种子图结构构造的过程中,得知已知邻节点和已知邻边对于推理出目标节点更有意义。
[0099]
s3:在构造关系路径有向子图r时,为邻边和邻节点通过三种方式融入查询中的关系向量特征,并计算融合后特征向量的注意力值,再进行消息聚合得到该层嵌入表示,循环该步骤直到达到设定的层数l,构造完成得到关系路径子图的嵌入表示;
[0100]
在本实施例中,对于查询(eq,rq,?)(其中eq代表查询三元组中的头节点,rq表示查询三元组中的关系)若首先通过随机选定构成知识图谱的部分三元组且以这些三元组的头节点为路径起点。然后从三元组构成的异质图中获取到这些节点固定跳数范围的邻边和邻节点,头节点在子图构造的一开始就已经融入进特征了,但是查询中rq并未与后继邻边邻节点产生相关性,因此我们在构造有向图的各层时将rq融入进邻边邻节点特征中。然后为融入后的特征进行基于注意力机制的计算即节点与关系级、关系与邻边级、以及节点关系邻边级语义特征消息聚合,最终得到子图的特征嵌入。
[0101]
s4:对构造完成后的关系路径有向子图嵌入表示,进行训练;
[0102]
s5:通过加入新实体对原异质图进行补全,利用新异质图再学习,提升模型准确度,即可实现对知识图谱的补全。
[0103]
在本实施例中,然后以查询中的三元组中的尾节点为预测目标来训练(查询(eq,rq,?)是由训练集中随机选定的三元组头节点和关系组成的,尾节点在模型训练时是已知的,但不作为模型输入的条件)。通过这种方式,可以学习到异质图元路径中已知节点对于目标节点的重要程度,从而得到目标节点的一种基于注意力机制的嵌入表示。实现对事理知识图谱的节点补全。
[0104]
如图2所示,在本实施例中,s1步骤还包括以下具体步骤:
[0105]
s11:已知事理知识图谱kg以k={v,r,f}形式存在,其中v,r,f={(es,r,eo)|es,en∈v,r∈r}分别是实体、关系和事实三元组的集合;
[0106]
s12:事理知识图谱中的每个事实由三元组构成;在本实施例中,三元组中的实体用es,eo(es为头实体,eo为尾实体)表示,关系用r表示。
[0107]
s13:构成异质图的三元组中的实体es,eo和关系r是从新闻,电子书等包含知识事实的文本中抽取的;在本实施例中,实体es,eo类型包括人物、事物、地点等,每个事实都会包含实体及其之间的关系,抽取所有事件的实体及其关系。
[0108]
s14:加入三元组逆关系增加数据量,以扩增后三元组中实体为节点,关系为边构建异质图。
[0109]
在本实施例中,逆关系指将事实三元组头实体和尾实体交换形成新三元组,在本实施例中,异质图包括但不限于:多种类型节点和关系的图。
[0110]
如图3所示,在本实施例中,s2步骤还包括以下具体步骤:
[0111]
s21:st分层路径图是一种有向图,恰好只有一个源节点eq和一个汇聚节点ea,所有的边都是定向的可以连接连续层之间的节点,并从第l-1层指向第l层;
[0112]
s22:eq和ea之间所有长度小于或等于l的路径,表示为长度为l的关系路径eq→
r1·

r2…→rl
ea;
[0113]
s23:元路径子图r定义为是一个包含源实体eq和汇聚实体ea的分层路径图,同一层中的实体各不相同路径子图r中从eq到ea的任何路径都是关系路径eq→
r1·

r2…→rl
ea;在本实施例中,这里r
l
连接l-1层的一个实体和l层的一个实体。
[0114]
s24:构建元路径子图r,首先提取eq和eal的邻域,然后计算eq和ea邻域的交集,当使用不同的ea∈v,但是使用相同的查询(eq,rq,?)来评估(eq,rq,ea)时,eq相邻的边被共享。
[0115]
如图5所示,在本实施例中,根据动态规划的方法来节省重叠子问题计算成本,递归地构造eq和任何实体eo之间的有向图,得到有向图
[0116]
s25:如果eq和ea之间没有关系路径令,
[0117]
如图6所示,在本实施例中,s3步骤还包括以下具体步骤:
[0118]
s31:对于一个查询(eq,rq,?)在构建有向图的过程中即运行三种级别的基于注意力机制的对于点和边的消息传递;在本实施例中,基于注意力机制的对于点和边的消息传递包括但不限于:分别是节点与关系级、关系与邻边级、以及节点关系邻边级语义聚合。
[0119]
s32:已知查询(eq,rq,?)的情况下,初始化一个矩阵作为各层间消息传递的介质,其中上标0表示层,eq(eq,rq)表示以eq为起始节点,以(eq,rq)为查询;
[0120]
s33:由于是基于元路径构成的子图结构,在获取eq和ea的邻域构成路径子图时,赋予每一个节点和边三种级别的注意力系数。在构成路径子图的过程中计算出对于目标节点更重要的路径节点和边。
[0121]
如图4所示,在本实施例中,三种级别的语义消息特征计算方式分别为:
[0122]
(1)节点与关系级:
[0123][0124]
其中当前查询集合qi={(hi,ri)|(hi,ri,hi)∈t
tra
},
[0125]
t
tra
表示数据集中的三元组集合,(hi,ri)表示当前第i批次的查询(eq,rq,?),n
l
表示第l层获取到的邻边的集合,hr为获取到的邻边的嵌入表示,σ为激活函数tanh。w
hr
∈r
n*n
为线性变换矩阵,n为维度大小,是节点与关系的注意力系数。
[0126]
在本实施例中,的具体计算方法为:
[0127][0128]
其中w∈r
n*n
为可学习矩阵,n为维度大小,hi,ri表示第i批查询(eq,rq,?)中的头节
点eq、关系rq的嵌入表示。
[0129]
(2)关系与邻边级:
[0130][0131]
其中查询集合qi={(hi,ri)|(hi,ri,hi)∈t
tra
},t
tra
表示数据集中的三元组集合,(hi,ri)表示当前第i批次的查询(eq,rq,?),n
l
表示第l层获取到的邻边的集合,hr为获取到的邻边的嵌入表示,σ为激活函数tanh。为线性变换矩阵,n为维度大小,是节点与关系的注意力系数。
[0132]
在本实施例中,的具体计算方法为:
[0133][0134]
其中w∈r
n*n
为可学习矩阵,n为维度大小,hi,ri表示第i批查询(eq,rq,?)中的头节点eq、关系rq的嵌入表示,表示第l层获取到的邻边的嵌入表示。
[0135]
(3)节点关系邻边级:
[0136][0137]
其中查询集合qi={(hi,ri)|(hi,ri,hi)∈t
tra
},t
tra
表示数据集中的三元组集合,(hi,ri)表示当前第i批次的查询(eq,rq,?),n
l
表示第l层获取到的邻边的集合,hr为获取到的邻边的嵌入表示,σ为激活函数tanh。为线性变换矩阵,n为维度大小,是节点与关系的注意力系数。
[0138]
在本实施例中,的具体计算方法为:
[0139][0140]
其中w∈r
n*n
为可学习矩阵,n为维度大小,hi,ri表示第i批查询(eq,rq,?)中的头节点eq、关系rq的嵌入表示,表示第l层获取到的邻边的嵌入表示。
[0141]
s34:将三种注意力机制计算的结果通过相加的方式聚合得到该层消息:
[0142][0143]
在本实施例中:
[0144]
其中s
hr
表示节点与关系聚合,表示关系与邻边聚合,表示节点关系邻边聚合其上系数l表示第l层,θ为sigmoid激活函数,wm∈r
n*n
为线性变换矩阵,n为维度大小。
[0145]
s35:再结合gru模型对于聚合得到的消息传递进行取舍过滤。
[0146]
如图7所示,在本实施例中,捕捉长序列之间的语义关联,通过下述公式处理当前层聚合消息,以缓解梯度消失或爆炸现象。在本实施例中,当前层聚合消息的具体处理方
法,包括:
[0147]zt
=θ(wz·
[h
t-1
,x
t
])
[0148]rt
=θ(wr·
[h
t-1
,x
t
])
[0149][0150][0151]
其中:h
t-1
和x
t
为gru模型的输入,使h
t-1
等于x
t
为初始化的隐层张量,θ为sigmoid激活函数,σ为激活函数tanh,wz、wr、w都为线性变换矩阵,h
t
为gru模型输出也即处理后的
[0152]
如图8所示,在本实施例中,再继续进行下一层获取邻域,计算三重注意力,得到所有实体ea对于图的编码表示
[0153]
如图9所示,在本实施例中,s4步骤还包括以下具体步骤:
[0154]
s41:对s3中计算得到的路径子图r的消息嵌入通过损失函数进行优化。该消息嵌入在优化的过程中可以给每个节点和边基于查询(eq,rq,?)和邻域的语义信息以及结构信息计算权重,从而得到对于推理出结果最有用的节点和边,学习到了路径子图的结构特征;
[0155]
s42:在这里设置预测结果的得分函数为:
[0156][0157]
s43:损失函数采用multi-class函数,即:
[0158][0159]
在本实施例中,第一部分是包含了t
tra
(训练集)中三元组(eq,rq,ea)的分数第二部分是包含了具有相同查询(eq,rq,?)的所有三元组的分数。
[0160]
s44:利用损失函数通过反向传播更新参数即可通过训练得到模型,可以对事理知识图谱进行链接预测,同理可对缺失尾实体的三元组进行补全。
[0161]
如图10所示,s5步骤包括以下具体步骤:
[0162]
s51:新实体如果加入当前异质图,新实体在知识图谱中还属于孤立状态,未与其他事件建立关系。基于已经从训练集中学习到以查询(eq,rq,?)为条件的基于注意力的嵌入表示,从而确定新节点是否可以加入当前异质图。
[0163]
s52:当确定了新的实体可以与原实体构成关系后,我们将新实体加入到原异质图中,并对原异质图进行补全更新。
[0164]
s53:由于原异质图加入了新的节点,原异质图得到了更新,因此由其抽取出的元路径子图也发生了更新。我们将对这个包含了新信息的子图进一步学习,获取新的嵌入表示。
[0165]
s54:经过判断新节点是否属于原异质图,再将新节点加入原异质图,拓展更新了原异质图。随着实体数量和关系的增加,原异质图得到了完善。同时由反馈给原异质图提升了知识图谱的信息量。最终通过这种不断的自我增强使得知识图谱越加完善,模型补全准
确性也得到了提升。
[0166]
综上,本发明通过提出的节点与关系级、关系与邻边级以及节点关系邻边级语义消息聚合对知识图谱中抽取出的由关系路径构成的有向图的学习,增强对于知识图谱结构和语义特征的学习从而实现知识图谱节点补全。
[0167]
本发明提出了一种新的基于注意力机制的节点与关系级、关系与邻边级、以及节点关系邻边级语义消息聚合方法,对这种由两节点间路径构成的,有向子图结构进行学习。由于图中的任意两点间的路径可能是另外两节点间路径的子集,因此我们分层的对这种子图进行消息传递,并且运用了动态规划的思想简化了计算过程,优化了对子图结构的学习效果。
[0168]
本发明中的元路径是异质图中一个实体到另外一个实体所要走的路径,通常有多条,这些路径可以共同构成一种新的子图结构。路径由节点和边构成,多条路径共同构成子图,在此基础上,若在通过已知节点获取邻节点、邻边时,为给每个邻边和邻节点赋予注意力系数,这样我们可以在这种子图结构构造的过程中,得知已知邻节点和已知邻边对于推理出目标节点的影响力即注意力系数,从而提高知识图谱特征学习的可解释性。
[0169]
本发明中,随着实体数量和关系的增加,原异质图得到了完善。同时由反馈给原异质图提升了知识图谱的信息量。最终通过这种不断的自我增强使得知识图谱越加完善,模型补全准确性也得到了提升。本发明解决了现有技术中存在的难以有效学习子图结构、知识图谱特征学习的可解释性较低的技术问题。
[0170]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.基于异质子图三重语义聚合的知识图谱补全方法,其特征在于,所述方法包括:s1、根据事理知识图谱中,构成所述事理知识图谱的所有事件以及所述事件的所有实体和关系,以所述实体为节点,以所述关系为边,构建异质图;s2、根据所述实体及所述关系的查询参数,从所述异质图中获取邻边和邻节点,据以构造关系路径有向子图r;s3、在执行所述步骤s2时,以不少于2种的方式,将所述查询参数中的关系向量特征融入所述邻边和所述邻节点,以得到融合特征向量,计算所述融合后特征向量的注意力值,据以进行消息聚合,以得到当前的层嵌入表示,循环执行所述步骤s3,直至达到设定层数l,判定构造获取所述关系路径有向子图r的嵌入表示;s4、训练所述关系路径有向子图r的嵌入表示,以得到适用模型;s5、通过加入新实体,补全原异质图,以得到新异质图,利用所述适用模型学习所述新异质图,据以完成所述事理知识图谱的补全。2.根据权利要求1所述的基于异质子图三重语义聚合的知识图谱补全方法,其特征在于,所述步骤s1包括:s11、获取所述事理知识图谱中的实体、关系和事实三元组的集合;s12、以所述三元组构成所述事理知识图谱中的每个实体,其中,所述实体包括头实体和尾实体;s13、从预置文本中抽取所有事件的所述实体及其关系;s14、通过加入三元组逆关系增加数据量,以得到扩增三元组,以所述扩增三元组中的所述实体为节点,所述关系为边构建所述异质图。3.根据权利要求1所述的基于异质子图三重语义聚合的知识图谱补全方法,其特征在于,所述步骤s2包括:s21、获取st分层路径图,其包括:一个源节点e
q
和一个汇聚节点e
a
,其中,所述st分层路径图中所有的边连接连续层之间的节点,从第l-1层指向第l层;s22、将所述源节点e
q
以及所述汇聚节点e
a
之间,所有长度小于或等于l的路径,表示为长度为l的关系路径:e
q

r1·

r2···

r
l
e
a
;s23、将分层元路径子图定义为其中,所述分层元路径子图包括:源实体和汇聚实体,同一层中的实体各不相同路径子图r中,从所述源实体到所述汇聚实体的任何路径都是关系路径:e
q

r1·

r2···

r
l
e
a
;s24、构建元路径子图r,首先提取所述源实体和l层的所述汇聚实体的邻域,以计算所述邻域的交集,在使用不同的所述汇聚实体:e
a
∈v,使用相同的所述查询参数(e
q
,r
q
,?)来评估(e
q
,r
q
,e
a
)时,共享所述源实体相邻的边s25、在所述源实体e
q
和所述汇聚实体e
a
之间没有关系路径时,令4.根据权利要求1所述的基于异质子图三重语义聚合的知识图谱补全方法,其特征在于,所述步骤s3包括:s31、对于一个所述查询参数(e
q
,r
q
,?),在构建有向图的过程中,运行不少于2个级别的点和边消息传递,其中,所述点和边的消息传递包括:节点级聚合、点边级聚合以及综合聚合:节点与关系级、关系与邻边级以及节点关系邻边级语义消息聚合;
s32、初始化矩阵:以作为各层间消息传递的介质,式中,上标0表示层,e
q
(e
q
,r
q
)表示以e
q
为起始节点,以(e
q
,r
q
)为查询;s33、在获取源节点e
q
和汇聚节点e
a
的邻域构成路径子图时,在构建所述关系路径有向子图r时,将三种级别的注意力系数赋予每一节点和边,据以计算得到目标节点的重要路径节点以及重要边,以作为三种级别的注意力机制的计算结果;s34、聚合所述三种注意力机制的计算结果,以得到当前层聚合消息:前述公式中:式中,s
hr
表示节点与关系聚合,表示关系与邻边聚合,表示节点关系邻边聚合其上系数l表示第l层,θ为sigmoid激活函数,w
m
∈r
n*n
为线性变换矩阵,n为维度大小;s35、再结合gru模型,捕捉长序列之间的语义关联,利用下述逻辑处理所述当前层聚合消息:z
t
=θ(w
z
·
[h
t-1
,x
t
])r
t
=θ(w
r
·
[h
t-1
,x
t
])])其中:h
t-1
和x
t
为gru模型的输入,使h
t-1
等于x
t
为初始化的隐层张量,θ为sigmoid激活函数,σ为激活函数tanh,w
z
、w
r
、w都为线性变换矩阵,h
t
为gru模型输出也即处理后的5.根据权利要求4所述的基于异质子图三重语义聚合的知识图谱补全方法,其特征在于,所述步骤s33中,所述三种级别的语义消息的聚合计算方式包括:节点与关系级、关系与邻边级以及节点关系邻边级,其中:利用下述逻辑,在所述节点与所述关系级,聚合计算所述语义消息:式中,当前查询集合q
i
={(h
i
,r
i
)|(h
i
,r
i
,h
i
)∈t
tra
},t
tra
表示数据集中的三元组集合,(h
i
,r
i
)表示当前第i批次的查询(e
q
,r
q
,?),n
l
表示第l层获取到的邻边的集合,h
r
为获取到的邻边的嵌入表示,σ为激活函数tanh。w
hr
∈r
n*n
为线性变换矩阵,n为维度大小,是节点与关系的注意力系数;利用下述逻辑,在所述关系与所述邻边级,聚合计算所述语义消息:式中,查询集合q
i
={(h
i
,r
i
)|(h
i
,r
i
,h
i
)∈t
tra
},t
tra
表示数据集中的三元组集合,(h
i
,r
i
)表示当前第i批次的查询(e
q
,r
q
,?),n
l
表示第l层获取到的邻边的集合,h
r
为获取到的邻
边的嵌入表示,σ为激活函数tanh。为线性变换矩阵,n为维度大小,是节点与关系的注意力系数;利用下述逻辑,在所述节点关系邻边级,聚合计算所述语义消息:式中,查询集合q
i
={(h
i
,r
i
)|(h
i
,r
i
,h
i
)∈t
tra
},t
tra
表示数据集中的三元组集合,(h
i
,r
i
)表示当前第i批次的查询(e
q
,r
q
,?),n
l
表示第l层获取到的邻边的集合,h
r
为获取到的邻边的嵌入表示,σ为激活函数tanh,为线性变换矩阵,n为维度大小,是节点与关系的注意力系数。6.根据权利要求4所述的基于异质子图三重语义聚合的知识图谱补全方法,其特征在于,所述步骤s34中,利用下述逻辑,聚合所述三种级别消息的计算结果,以得到所述当前层聚合消息:其中:式中,s
hr
表示节点与关系聚合,表示关系与邻边聚合,表示节点关系邻边聚合其上系数l表示第l层,θ为sigmoid激活函数,w
m
∈r
n*n
为线性变换矩阵,n为维度大小。7.根据权利要求1所述的基于异质子图三重语义聚合的知识图谱补全方法,其特征在于,所述步骤s4包括:s41、通过损失函数优化所述所述关系路径有向子图r的嵌入表示,根据所述查询参数及邻域语义结构信息,计算每个节点和边的权重,以得到适用节点和适用边,据以学习获取所述关系路径有向子图r的结构特征;s42、在这里设置预测结果的得分函数为:s43、利用所述损失函数通过反向传播更新参数,以训练得到适用模型。8.根据权利要求1所述的基于异质子图三重语义聚合的知识图谱补全方法,其特征在于,所述步骤s43中的所述损失函数采用multi-class函数:9.根据权利要求1所述的基于异质子图三重语义聚合的知识图谱补全方法,其特征在于,所述步骤s5包括:s51、基于所述嵌入表示,确定新节点是否适于加入当前的所述异质图;s52、将所述新节点加入到原异质图中,补全并更新所述原异质图,以得到新异质图;s53,学习所述新异质图,获取新嵌入表示,据以补全所述事理知识图谱。10.基于异质子图三重语义聚合的知识图谱补全系统,其特征在于,所述系统包括:异质图构建模块,用以根据事理知识图谱中,构成所述事理知识图谱的所有事件以及所述事件的所有实体和关系,以所述实体为节点,以所述关系为边,构建异质图;有向子图构建模块,用以根据所述实体及所述关系的查询参数,从所述异质图中获取
邻边和邻节点,据以构造关系路径有向子图r,所述有向子图构建模块与所述异质图构建模块连接;多注意力嵌入表示模块,用于以不少于2种的方式,将所述查询参数中的关系向量特征融入所述邻边和所述邻节点,以得到融合特征向量,计算所述融合后特征向量的注意力值,据以进行消息聚合,以得到当前的层嵌入表示,直至达到设定层数l,判定构造获取所述关系路径有向子图r的嵌入表示,所述多注意力嵌入表示模块与所述有向子图构建模块连接;嵌入表示训练模块,用以训练所述关系路径有向子图r的嵌入表示,以得到适用模型,所述嵌入表示训练模块与所述多注意力嵌入表示模块连接;知识图谱补全模块,用以通过加入新实体,补全原异质图,以得到新异质图,利用所述适用模型再学习所述新异质图,完成所述事理知识图谱的补全,所述知识图谱补全模块与所述嵌入表示训练模块连接。

技术总结
本发明提供基于异质子图三重语义聚合的知识图谱补全方法及系统,方法包括:已知构成事理知识图谱的所有事件以及所有事件包含的所有实体和关系,以实体为节点关系为边构建异质图;从异质图中获取邻边和邻节点,构造关系路径有向子图R;为邻边和邻节点融入查询中的关系向量特征,并计算融合后特征向量的注意力值,再进行消息聚合得到该层嵌入表示,循环该步骤直到达到设定的层数L,构造完成得到关系路径子图的嵌入表示;对构造完成后的关系路径有向子图嵌入表示,进行训练;通过加入新实体对原异质图进行补全,利用新异质图再学习,补全知识图谱。本发明解决了难以有效学习子图结构、知识图谱特征学习的可解释性较低的技术问题。题。题。


技术研发人员:张以文 余磊
受保护的技术使用者:安徽大学
技术研发日:2023.04.24
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐