知识图谱补全方法及相关设备与流程
未命名
10-19
阅读:102
评论:0

1.本公开涉及知识图谱技术领域,尤其涉及一种知识图谱补全方法及相关设备。
背景技术:
2.知识图谱在很多人工智能应用上发挥着重要的作用,例如智能问答、信息推荐、网页搜索等。知识图谱是一个结构化的语义网络,存储着大量的事实三元组(头实体,关系,尾实体),通常简化为(h,r,t)。但是,随着知识图谱规模的逐渐扩大,数据类型逐渐多样化,实体与实体之间的关系越来越复杂,传统基于符号和逻辑的方法,由于其计算低效性,使得知识图谱应用面临挑战。
3.现有技术中,在当前领域知识图谱表示学习模型可以分为三类,tran系列模型、双线性模型与基于神经网络的模型。tran系列模型将关系描述为从源实体到目标实体的平移,双线性模型在向量空间中基于矩阵匹配实体与关系。现有知识图嵌入模型通过对关系的连接模式进行建模,如将关系表示为平移的transe可以对反转和组合进行建模;distmult可以对对称进行建模;rotate将实体表示为复杂空间中的点,将关系表示为旋转,可以对对称、反对称、反转和组合进行建模。但是,这些现有的模型无法在不提供额外的数据以获得层次结构信息的情况下,知识表示学习模型的表达准确性较低,无法有效地对语义层次和业务层次进行建模。
4.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:
5.本公开提供一种知识图谱补全方法及相关设备,至少在一定程度上克服相关技术中对知识表示学习模型的表达准确性较低影响建模的问题。
6.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
7.根据本公开的一个方面,提供了一种一种知识图谱补全方法,包括:获取知识图谱中三元组数据,其中,所述三元组数据包括头实体、关系和尾实体;提取所述三元组数据中的头实体和尾实体,确定实体集合;根据球坐标表示实体集合,确定实体分层数据,其中,实体分层数据由模长、方位角相位和极角相位表示;将所述实体分层数据和关系输入预先训练好的模型中,输出所述知识图谱中实体与关系之间的分布式向量表示。
8.在一些实施例中,在所述将所述实体分层数据和关系输入预先训练好的模型中,输出所述知识图谱中实体与关系之间的分布式向量表示之前,所述方法还包括:将所述实体集合通过对应的词语转换为实体向量,通过聚类算法得到实体预训练聚类特征向量;将所述实体分层数据结合实体预训练聚类特征向量,确定实体结合数据;将所述关系通过对应的词语转换为关系向量,通过聚类算法得到关系预训练聚类特征向量;将所述关系结合关系预训练聚类特征向量,确定关系结合数据;其中,所述将所述分层实体和关系输入预先
训练好的模型中,输出所述知识图谱中实体与关系之间的分布式向量表示包括:将所述实体结合数据和关系结合数据输入预先训练好的模型中,输出所述知识图谱中实体与关系之间的分布式向量表示。
9.在一些实施例中,所述根据球坐标表示实体集合,确定实体分层数据包括:根据球坐标表示实体集合中每一个实体,确定实体分层数据,其中,每个实体由模长、方位角相位和极角相位表示确定,球坐标的模长表示实体的语义分层和业务分层。
10.在一些实施例中,所述方法还包括:从三元组中获取实体的径向距离属性,将所述关系作为实体间的平移,使存在关系的两个实体的径向距离与平移间隔相等。
11.在一些实施例中,所述方法还包括:从三元组中获取实体的径向距离属性,将关系作为实体间的相位转移,使存在关系的两个实体的相位差值与相位转移等价。
12.在一些实施例中,所述预先训练好的模型包括:获取元数据集,其中,所述元数据集的数据形式是头实体、尾实体和关系都明确的正确三元组;根据所述元数据集,构造负例三元组,其中,所述负例三元组由所述元数据集中正确三元组随机替换头实体、尾实体或关系中的任意一项确定;将包括所述正确三元组和所述负例三元组的数据集,随机按照预设比例分成训练集、验证集和测试集,对模型进行训练,得到预先训练好的模型。
13.在一些实施例中,所述方法还包括:通过评估策略对所述模型进行评估。
14.根据本公开的另一个方面,还提供了一种知识图谱补全装置,包括:三元组数据获取模块,用于获取知识图谱中三元组数据,其中,所述三元组数据包括头实体、关系和尾实体;实体集合确定模块,用于提取所述三元组数据中的头实体和尾实体,确定实体集合;实体分层模块,用于根据球坐标表示实体集合,确定实体分层数据,其中,实体分层数据由模长、方位角相位和极角相位表示;向量表示模块,用于将所述实体分层数据和关系输入预先训练好的模型中,输出所述知识图谱中实体与关系之间的分布式向量表示。
15.根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的知识图谱补全方法。
16.根据本公开的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的知识图谱补全方法。
17.根据本公开的另一个方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任意一项的知识图谱补全方法。
18.本公开的实施例中提供的知识图谱补全方法,通过获取知识图谱中三元组数据,其中,三元组数据包括头实体、关系和尾实体;提取三元组数据中的头实体和尾实体,确定实体集合;根据球坐标表示实体集合,确定实体分层数据,其中,实体分层数据由模长、方位角相位和极角相位表示;将实体分层数据和关系输入预先训练好的模型中,输出知识图谱中实体与关系之间的分布式向量表示。本公开通过对三元组数据进行三维层面的分层,不需要借助额外的层次结构信息,来实现知识图谱的分层,提高了知识表示学习模型的表达准确性,能够实现根据知识图谱准确地对实体进行建模。
19.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
20.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1示出本公开实施例中一种知识图谱补全系统结构的示意图;
22.图2示出本公开实施例中一种知识图谱补全方法流程图;
23.图3示出本公开实施例中一种知识图谱补全方法一具体实例的流程图;
24.图4示出本公开实施例中一种知识图谱补全方法另一具体实例的流程图;
25.图5示出本公开实施例中一种word2vec背景下的k-means聚类指标与球坐标结合的实体语义分层和业务分层系统一具体实例的示意图;
26.图6示出本公开实施例中一种知识图谱补全装置示意图;
27.图7示出本公开实施例中一种计算机设备的结构框图。
具体实施方式
28.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
29.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
30.下面结合附图,对本公开实施例的具体实施方式进行详细说明。
31.图1示出了可以应用本公开实施例中知识图谱补全方法的示例性应用系统架构示意图。如图1所示,该系统架构可以包括终端设备101、网络102和服务器103。
32.网络102用以在终端设备101和服务器103之间提供通信链路的介质,可以是有线网络,也可以是无线网络。
33.可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(local area network,lan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(hyper text mark-up language,html)、可扩展标记语言(extensible markuplanguage,xml)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(secure socket layer,ssl)、传输层安全(transport layer security,tls)、虚拟专用网络(virtual private network,vpn)、网际协议安全(internet protocolsecurity,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
34.终端设备101可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、增强现实设备、虚拟现实设备等。
35.终端设备101可以接收服务器发送的知识图谱中实体与关系之间的分布式向量表示信息。
36.可选地,不同的终端设备101中安装的应用程序的客户端是相同的,或基于不同操作系统的同一类型应用程序的客户端。基于终端平台的不同,该应用程序的客户端的具体形态也可以不同,比如,该应用程序客户端可以是手机客户端、pc客户端等。
37.服务器103可以是提供各种服务的服务器,例如对用户利用终端设备101所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
38.可选地,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
39.本领域技术人员可以知晓,图1中的终端设备、网络和服务器的数量仅仅是示意性的,根据实际需要,可以具有任意数目的终端设备、网络和服务器。本公开实施例对此不作限定。
40.在上述系统架构下,本公开实施例中提供了一种知识图谱补全方法,该方法可以由任意具备计算处理能力的电子设备执行。
41.在上述系统架构下,本公开实施例中提供了一种知识图谱补全方法,该方法可以由任意具备计算处理能力的电子设备执行。
42.在一些实施例中,本公开实施例中提供的知识图谱补全方法可以由上述系统架构的终端设备执行;在另一些实施例中,本公开实施例中提供的知识图谱补全方法可以由上述系统架构中的服务器执行;在另一些实施例中,本公开实施例中提供的知识图谱补全方法可以由上述系统架构中的终端设备和服务器通过交互的方式来实现。
43.图2示出本公开实施例中一种知识图谱补全方法流程图,如图2所示,本公开实施例中提供的知识图谱补全方法包括如下步骤:
44.s202,获取知识图谱中三元组数据,其中,三元组数据包括头实体、关系和尾实体。
45.需要说明的是,上述知识图谱(kg,knowledge graph)可以是知识表征的一种形式,例如,知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识存储在三元组(triples)中,三元组按照(head,relation,tail)的方式构成,对实体(entities)之间的相互作用建模。
46.例如,直接获取三元组形式的知识图谱。
47.s204,提取三元组数据中的头实体和尾实体,确定实体集合。
48.需要说明的是,上述头实体可以是三元组的构成方式中head部分。上述尾实体可以是三元组的构成方式中tail部分。
49.例如,从原始数据中的三元组分别提取出所有的头实体和尾实体,然后将头实体和尾实体取并集,得到一个实体的集合,此实体的集合可以视为构建的图模型的节点的集合;再抽取三元组中的关系,每个实体关系均由一个模长、多个相位和聚类结果共同表示,描述指标分别记为:ρ、θ1、
···
、θn、c。
50.s206,根据球坐标表示实体集合,确定实体分层数据,其中,实体分层数据由模长、方位角相位和极角相位表示。
51.例如,采用树的思想对实体进行语义分层和业务分层,将实体根据语义分为不同层次,引入球坐标来表示每一个实体,每个实体由一个模长和两个相位(方位角相位和极角相位)唯一确定,其中,球坐标的模长表示实体的语义分层和业务分层。将三元组中的所有实体(相当于上述实体集合)根据树的思想进行分层,父节点表示更抽象、覆盖更广的实体,子节点表示更为具体、覆盖内容更小的实体,兄弟节点则表示它们处于同一层语义中。
52.需要说明的是,上述球坐标可以是三维笛卡尔坐标系。例如,球面坐标。
53.s208,将实体分层数据和关系输入预先训练好的模型中,输出知识图谱中实体与关系之间的分布式向量表示。
54.例如,将实体分层数据和关系作为模型的输入,将关系视为实体间的平移,对存在关系的源实体和目标实体最小化源实体结合关系后与目标实体的模数差异,对不存在关系的源实体和目标实体最大化源实体结合关系后与目标实体的模数差异,实现区分不同语义层次(相位)和业务层次(模长)的实体。
55.本公开通过通过对三元组数据进行三维层面的分层,不需要借助额外的层次结构信息,来实现知识图谱的分层,提高了知识表示学习模型的表达准确性,能够实现根据知识图谱准确地对实体进行建模。
56.在本公开的一个实施例中,如图3所示,本公开实施例中提供的知识图谱补全方法可以通过如下步骤来对实体和关系进行一个预先的分类,能够提升输入模型参数的准确性,进一步提高知识表示学习模型的表达准确性:
57.s302,将实体集合通过对应的词语转换为实体向量,通过聚类算法得到实体预训练聚类特征向量;
58.s304,将实体分层数据结合实体预训练聚类特征向量,确定实体结合数据;
59.s306,将关系通过对应的词语转换为关系向量,通过聚类算法得到关系预训练聚类特征向量;
60.s308,将关系结合关系预训练聚类特征向量,确定关系结合数据。
61.其中,将分层实体和关系输入预先训练好的模型中,输出知识图谱中实体与关系之间的分布式向量表示包括:
62.将实体结合数据和关系结合数据输入预先训练好的模型中,输出知识图谱中实体与关系之间的分布式向量表示。
63.例如,对实体和关系首先预处理的数据也同时作为输入,输入到word2vec模型(相当于上述词语转换)中,通过k-means聚类算法(相当于上述聚类算法),对已经输入的实体和关系进行一个预先的分类,分类结果作为描述参数,与前一步的球坐标参数合并,共同作为新模型中实体和关系的描述参数。
64.本公开通过引入word2vec和k-means聚类的思想方法与球坐标相结合,实现更全
面的实体关系描述,达到更好的分类和预测效果。
65.在一个具体的实例中,本公开提供的知识图谱补全方法还包括:根据球坐标表示实体集合,确定实体分层数据包括:根据球坐标表示实体集合中每一个实体,确定实体分层数据,其中,每个实体由模长、方位角相位和极角相位表示确定,球坐标的模长表示实体的语义分层和业务分层。
66.在一个具体的实例中,本公开提供的知识图谱补全方法还包括:从三元组中获取实体的径向距离属性,将关系作为实体间的平移,使存在关系的两个实体的径向距离与平移间隔相等。
67.例如,语义和业务层次感知的知识图嵌入首先建立球坐标,从三元组中获取实体的径向距离属性,将关系作为实体间的平移,存在关系的两个实体的径向距离与平移间隔相等,实现区分不同层次的实体。
68.在一个具体的实例中,本公开提供的知识图谱补全方法还包括:从三元组中获取实体的径向距离属性,将关系作为实体间的相位转移,使存在关系的两个实体的相位差值与相位转移等价。
69.例如,语义层次感知的知识图嵌入球坐标的径向坐标中,从三元组中获取实体的径向距离属性,将关系作为实体间的相位转移,存在关系的两个实体的相位差值与相位转移等价,区分相同层次的实体。
70.在本公开的一个实施例中,如图4所示,本公开实施例中提供的知识图谱补全方法可以通过如下步骤来训练模型,能够实现更全面的实体关系描述,达到更好的分类和预测效果:
71.s402,获取元数据集,其中,元数据集的数据形式是头实体、尾实体和关系都明确的正确三元组;
72.s404,根据元数据集,构造负例三元组,其中,负例三元组由元数据集中正确三元组随机替换头实体、尾实体或关系中的任意一项确定;
73.s406,将包括正确三元组和负例三元组的数据集,随机按照预设比例分成训练集、验证集和测试集,对模型进行训练,得到预先训练好的模型。
74.例如,数据来源于电信元数据集,数据形式是头实体、尾实体和关系都明确的一个个三元组。因为在训练时不但需要正确的三元组还需要错误的三元组,所以采用如下的方法来构造负例:将一个正确的三元组,随机替换其头实体、尾实体和关系中的任一一个来得到一个负例。构造负例完成之后,再把构造好的同时含有正确三元组和错误三元组的数据集随机分成训练集、验证集和测试集,其比例为8:1:1。
75.模长部分(树中节点的深度)通过下述公式(1)表示:
76.h
ρ
+r
ρ
≈t
ρ
;
ꢀꢀꢀ
(1)
77.其中,h表示头实体,r表示关系,t表示尾实体,h
ρ
表示头实体的模长特征向量,r
ρ
表示关系的模长特征向量,t
ρ
表示尾实体的模长特征向量,≈表示逼近(可以是无限逼近近似于等于),ρ表示模长特征向量。
78.模长距离函数通过下述公式(2)表示:
79.ρ
score
=|h
ρ
+r
ρ-t
ρ
|2;
ꢀꢀꢀ
(2)
80.其中,ρ
score
表示模长部分的得分函数,||2表示l2范数。
81.相位部分通过下述公式(3)表示:
[0082][0083]
其中,θi表示第i个相位,表示头实体的第i个相位的特征向量,表示关系的第i个相位的特征向量,表示尾实体的第i个相位的特征向量。
[0084]
相位距离函数通过下述公式(4)表示:
[0085][0086]
其中,表示第n个相位的得分函数,n为正整数。
[0087]
k-means聚类部分通过下述公式(5)表示:
[0088]cscore
=|hc+r
c-tc|2;
ꢀꢀꢀ
(5)
[0089]
其中,c
score
表示预训练聚类部分的得分函数,c表示聚类结果。
[0090]
综合考虑训练目标函数通过下述公式(6)表示:
[0091][0092][0093]
其中,λ,α1、α2···
αn分别代表各部分的权重系数,为超参。
[0094]
损失函数通过下述公式(7)表示:
[0095]
l=-logσ(r-fr(h,t))-logσ(fr(h
′i,t
′i)-r);
ꢀꢀꢀ
(7)
[0096]
此处的r为我们初始设定的一个值,为超参,σ()表示sigmoid函数,f()表示二元函数。
[0097]
在一个具体的实例中,本公开提供的知识图谱补全方法还包括:通过评估策略对模型进行评估。
[0098]
需要说明的是,评估策略可以包括平均排名(mean rank,mr)、平均倒数排名(mean reciprocal rank,mrr)和平均占比排名(hits@n)中的任意一个或者多个组合。
[0099]
例如,在评价模型在知识图谱关系链接预测部分效果方面,可以采用两个指标来衡量,一个是hits@n,一个是mr;hits@n指标的意思是计算所有正确三元组中排序后的位置小于top n的比例,得到的值就是hits@n;记录每个正确三元组最终排序的位置取平均数,得到的值就是mean rank。
[0100]
图5示出本公开实施例中一种word2vec背景下的k-means聚类指标与球坐标结合的实体语义分层和业务分层系统一具体实例的示意图。
[0101]
如图5所示,上述系统包括word2vec model(word2vec模型)501,cluster model(聚类模型)502,concatenate(连接)模块503,embedding model(embedding模型)504,输入层505,输出层506。
[0102]
其中,entity和relation分别对应输入的实体和关系的向量化表示,通过输入层输入;
[0103]
entity_cluster和relation_cluster分别表示实体预训练聚类特征向量和关系
预训练聚类特征向量。concatenate(连接)模块503用于向量的拼接操作,将拼接后的向量输入embedding model504。
[0104]
输出层506输出entity represent,entity represent包括entity_cluster,entity_ρ,entity_θ,entity_φ,relation represent。
[0105]
输出层506输出relation represent,relation represent包括relation_cluster,relation_ρ,relation_θ,relation_φ。
[0106]
entity_ρ,entity_θ,entity_φ分别代表实体的模长特征向量,实体θ相位特征向量和实体φ相位特征向量;
[0107]
relation_ρ,relation_θ,relation_φ分别代表关系的模长特征向量,关系θ相位特征向量和实体φ相位特征向量。
[0108]
entity represent和relation represent分别表示实体特征向量表示和关系特征向量表示。
[0109]
系统运行时,首先,直接获取三元组形式的知识图谱;其次,语义和业务层次感知的知识图嵌入首先建立球坐标,从三元组中获取实体的径向距离属性,将关系作为实体间的平移,存在关系的两个实体的径向距离与平移间隔相等,实现区分不同层次的实体;然后,语义层次感知的知识图嵌入上一步(球坐标)的径向坐标中,从三元组中获取实体的径向距离属性,将关系作为实体间的相位转移,存在关系的两个实体的相位差值与相位转移等价,区分相同层次的实体;接着,将三元组进行word2vec和聚类预处理,返回word2vec聚类属性指标,作为实体间区分的辅助参数;最后,将三元组在球坐标中的径向距离属性与角度属性以及word2vec和聚类项属性作为模型训练模块的输入,使用负采样损失函数与自对抗训练,最终使用hits@10和mrr指标来评估性能。
[0110]
本公开模型,融合word2vec及k-means聚类在球坐标下效果相比其他模型对比(基于电信数据集),如下表一所示:
[0111]
表1
[0112][0113]
本公开针对实体语义量级不匹配导致的知识图谱构建准确率偏低的问题提出了知识图谱中实体语义分层和业务分层的思想。
[0114]
本公开引入树的思想和方法对根据语义对实体进行了不同层级的划分,并且通过球坐标的模长和多个相位来进一步量化表示实体。
[0115]
本公开引入word2vec和k-means聚类的思想方法与球坐标相结合,实现更全面的
实体关系描述,达到更好的分类和预测效果。
[0116]
本公开使用一种端到端的模型在同时考量了实体语义分层和业务分层以及词向量平移不变性的基础上有效实现了知识的分布式表示学习。
[0117]
本公开能够有效地在知识图中对语义层次和业务层次的不同层次和相同层次上对实体进行建模,处理知识图中的链接预测问题。
[0118]
基于同一发明构思,本公开实施例中还提供了一种知识图谱补全装置,如下面的实施例所述。由于该装置实施例解决问题的原理与上述方法实施例相似,因此该装置实施例的实施可以参见上述方法实施例的实施,重复之处不再赘述。
[0119]
图6示出本公开实施例中一种知识图谱补全装置示意图,如图6所示,该装置包括:三元组数据获取模块61,实体集合确定模块62,实体分层模块63,向量表示模块64,转换聚类模块65,模型训练模块66和模型评估模块67。
[0120]
其中,三元组数据获取模块61,用于获取知识图谱中三元组数据,其中,三元组数据包括头实体、关系和尾实体;
[0121]
实体集合确定模块62,用于提取三元组数据中的头实体和尾实体,确定实体集合;
[0122]
实体分层模块63,用于根据三维坐标表示实体集合,确定实体分层数据,其中,实体分层数据由模长、方位角相位和极角相位表示;
[0123]
向量表示模块64,用于将实体分层数据和关系输入预先训练好的模型中,输出知识图谱中实体与关系之间的分布式向量表示。
[0124]
在本公开的一个实施例中,上述知识图谱补全装置还包括转换聚类模块65:用于将实体集合通过对应的词语转换为实体向量,通过聚类算法得到实体预训练聚类特征向量;将实体分层数据结合实体预训练聚类特征向量,确定实体结合数据;将关系通过对应的词语转换为关系向量,通过聚类算法得到关系预训练聚类特征向量;将关系结合关系预训练聚类特征向量,确定关系结合数据;其中,将分层实体和关系输入预先训练好的模型中,输出知识图谱中实体与关系之间的分布式向量表示包括:将实体结合数据和关系结合数据输入预先训练好的模型中,输出知识图谱中实体与关系之间的分布式向量表示。
[0125]
在本公开的一个实施例中,上述实体分层模块63还用于:根据球坐标表示实体集合中每一个实体,确定实体分层数据,其中,每个实体由模长、方位角相位和极角相位表示确定,球坐标的模长表示实体的语义分层和业务分层。
[0126]
在本公开的一个实施例中,上述实体分层模块63还用于:从三元组中获取实体的径向距离属性,将关系作为实体间的平移,使存在关系的两个实体的径向距离与平移间隔相等。
[0127]
在本公开的一个实施例中,上述实体分层模块63还用于:从三元组中获取实体的径向距离属性,将关系作为实体间的相位转移,使存在关系的两个实体的相位差值与相位转移等价。
[0128]
在本公开的一个实施例中,上述知识图谱补全装置还包括模型训练模块66:用于获取元数据集,其中,元数据集的数据形式是头实体、尾实体和关系都明确的正确三元组;根据元数据集,构造负例三元组,其中,负例三元组由元数据集中正确三元组随机替换头实体、尾实体或关系中的任意一项确定;将包括正确三元组和负例三元组的数据集,随机按照预设比例分成训练集、验证集和测试集,对模型进行训练,得到预先训练好的模型。
[0129]
在本公开的一个实施例中,上述知识图谱补全装置还包括模型评估模块67:用于通过评估策略对模型进行评估。
[0130]
此处需要说明的是,上述三元组数据获取模块61,三元组数据获取模块61,实体分层模块63,向量表示模块64对应于方法实施例中的s202~s208,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述方法实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
[0131]
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
[0132]
下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0133]
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。
[0134]
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
[0135]
例如,所述处理单元710可以执行上述方法实施例的如下步骤:获取知识图谱中三元组数据,其中,三元组数据包括头实体、关系和尾实体;提取三元组数据中的头实体和尾实体,确定实体集合;根据三维坐标表示实体集合,确定实体分层数据,其中,实体分层数据由模长、方位角相位和极角相位表示;将实体分层数据和关系输入预先训练好的模型中,输出知识图谱中实体与关系之间的分布式向量表示。
[0136]
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(rom)7203。
[0137]
存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0138]
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0139]
电子设备700也可以与一个或多个外部设备740(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及
数据备份存储系统等。
[0140]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
[0141]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机程序产品,该计算机程序产品包括:计算机程序,所述计算机程序被处理器执行时实现上述知识图谱补全方法。
[0142]
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质可以是可读信号介质或者可读存储介质。其上存储有能够实现本公开上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
[0143]
本公开中的计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0144]
在本公开中,计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0145]
可选地,计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0146]
在具体实施时,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0147]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0148]
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0149]
通过以上实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
[0150]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
技术特征:
1.一种知识图谱补全方法,其特征在于,包括:获取知识图谱中三元组数据,其中,所述三元组数据包括头实体、关系和尾实体;提取所述三元组数据中的头实体和尾实体,确定实体集合;根据球坐标表示实体集合,确定实体分层数据,其中,实体分层数据由模长、方位角相位和极角相位表示;将所述实体分层数据和关系输入预先训练好的模型中,输出所述知识图谱中实体与关系之间的分布式向量表示。2.根据权利要求1所述的知识图谱补全方法,其特征在于,在所述将所述实体分层数据和关系输入预先训练好的模型中,输出所述知识图谱中实体与关系之间的分布式向量表示之前,所述方法还包括:将所述实体集合通过对应的词语转换为实体向量,通过聚类算法得到实体预训练聚类特征向量;将所述实体分层数据结合实体预训练聚类特征向量,确定实体结合数据;将所述关系通过对应的词语转换为关系向量,通过聚类算法得到关系预训练聚类特征向量;将所述关系结合关系预训练聚类特征向量,确定关系结合数据;其中,所述将所述分层实体和关系输入预先训练好的模型中,输出所述知识图谱中实体与关系之间的分布式向量表示包括:将所述实体结合数据和关系结合数据输入预先训练好的模型中,输出所述知识图谱中实体与关系之间的分布式向量表示。3.根据权利要求1所述的知识图谱补全方法,其特征在于,所述根据球坐标表示实体集合,确定实体分层数据包括:根据球坐标表示实体集合中每一个实体,确定实体分层数据,其中,每个实体由模长、方位角相位和极角相位表示确定,球坐标的模长表示实体的语义分层和业务分层。4.根据权利要求3所述的知识图谱补全方法,其特征在于,所述方法还包括:从三元组中获取实体的径向距离属性,将所述关系作为实体间的平移,使存在关系的两个实体的径向距离与平移间隔相等。5.根据权利要求3所述的知识图谱补全方法,其特征在于,所述方法还包括:从三元组中获取实体的径向距离属性,将关系作为实体间的相位转移,使存在关系的两个实体的相位差值与相位转移等价。6.根据权利要求1所述的知识图谱补全方法,其特征在于,所述预先训练好的模型包括:获取元数据集,其中,所述元数据集的数据形式是头实体、尾实体和关系都明确的正确三元组;根据所述元数据集,构造负例三元组,其中,所述负例三元组由所述元数据集中正确三元组随机替换头实体、尾实体或关系中的任意一项确定;将包括所述正确三元组和所述负例三元组的数据集,随机按照预设比例分成训练集、验证集和测试集,对模型进行训练,得到预先训练好的模型。7.根据权利要求1所述的知识图谱补全方法,其特征在于,所述方法还包括:
通过评估策略对所述模型进行评估。8.一种知识图谱补全装置,其特征在于,包括:三元组数据获取模块,用于获取知识图谱中三元组数据,其中,所述三元组数据包括头实体、关系和尾实体;实体集合确定模块,用于提取所述三元组数据中的头实体和尾实体,确定实体集合;实体分层模块,用于根据球坐标表示实体集合,确定实体分层数据,其中,实体分层数据由模长、方位角相位和极角相位表示;向量表示模块,用于将所述实体分层数据和关系输入预先训练好的模型中,输出所述知识图谱中实体与关系之间的分布式向量表示。9.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的知识图谱补全方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的知识图谱补全方法。
技术总结
本公开提供了一种知识图谱补全方法及相关设备,涉及知识图谱技术领域。该方法包括,通过获取知识图谱中三元组数据,其中,三元组数据包括头实体、关系和尾实体;提取三元组数据中的头实体和尾实体,确定实体集合;根据球坐标表示实体集合,确定实体分层数据,其中,实体分层数据由模长、方位角相位和极角相位表示;将实体分层数据和关系输入预先训练好的模型中,输出知识图谱中实体与关系之间的分布式向量表示。本公开通过对三元组数据进行三维层面的分层,提高了知识表示学习模型的表达准确性。性。性。
技术研发人员:张凯程 王涵
受保护的技术使用者:中国电信股份有限公司
技术研发日:2023.07.14
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/