知识图谱的实体摘要确定方法、装置及电子设备与流程

未命名 09-17 阅读:67 评论:0


1.本技术涉及知识图谱技术领域,可用于金融领域,特别涉及知识图谱的实体摘要确定方法、装置及电子设备。


背景技术:

2.知识图谱用图的形式描述客观事物,这里的图指的是数据结构中的图,也就是由节点和边组成的。知识图谱中的节点表示概念和实体,概念是抽象出来的事物,实体是具体的事物;边表示事物的关系和属性,事物的内部特征用属性来表示,外部联系用关系来表示。很多时候,人们简化了对知识图谱的描述,将实体和概念统称为实体,将关系和属性统称为关系,这样就可以说知识图谱就是描述实体以及实体之间的关系。实体可以是人,地方,组织机构,概念等等,关系的种类更多,可以是人与人之间的关系,人与组织之间的关系,概念与某个物体之间的关系等等。知识图谱能够为知识创新、知识优化等应用提供更好的支撑,进一步在银行风险控制领域发挥巨大价值。但是由于知识图谱规模的不断变大,其中本体概念和实体的数量都成倍增长,本体概念与本体概念之间、实体与实体之间、本体概念与实体之间的连接都更加错综复杂,给知识图谱的理解和快速应用都带来了新的挑战。实体摘要能够生成便于用户理解的原始知识图谱的精简版本,这为快速理解知识图谱提供了便利。通过实体摘要技术,可以实现对知识图谱的高效浏览。
3.现有技术通常根据各种指标来寻找知识图谱实体中的关键实体,例如,集成密度和覆盖率的拓扑度量来进行实体摘要,或者结合实体相关性与用户自定义参数进行个性化实体摘要。也即,现有技术基本是实体的拓扑结构角度确定关键实体,并基于关键实体生成实体摘要。
4.然而,现有技术所确定的实体摘要中容易缺失重要实体。


技术实现要素:

5.本说明书提供一种知识图谱的实体摘要确定方法、装置及电子设备,以解决现有技术确定的实体摘要中容易缺失重要实体的问题。
6.为解决上述技术问题,本说明书第一方面提供一种知识图谱的实体摘要确定方法,包括:根据所述知识图谱中各实体的文本表述,计算各实体的外延参数;根据各实体的出度和入度,计算实体的结构参数;结合所述外延参数和所述结构参数,从所述知识图谱的多个实体中筛选出目标实体;根据所述目标实体确定所述知识图谱的实体摘要;所述实体摘要用于代替所述知识图谱呈现给用户或者被计算机处理。
7.在一些实施例中,所述知识图谱中的每个节点表示用户账户,节点之间的连线表示用户账户之间的交易。
8.在一些实施例中,结合所述外延参数和所述结构参数,从所述知识图谱的多个实体中筛选出目标实体,包括:结合所述外延参数和所述结构参数,计算各实体的重要度;筛选出重要度参数大于预定阈值的实体,作为候选实体集;从所述候选实体集选择目标实体。
9.在一些实施例中,一个实体的外延参数与所述实体的文本表述中的词语的数量呈反比例关系。
10.在一些实施例中,一个实体的结构参数正比于所述实体的出度和入度的加权和。
11.在一些实施例中,从所述候选实体集选择目标实体,包括:对候选实体集中的各实体进行聚类,得到多个簇;分别从每个簇中筛选出实体作为目标实体。
12.在一些实施例中,分别从每个簇中筛选出实体作为目标实体,包括:将离簇心最近的n个实体作为目标实体,其中,n为自然数。
13.在一些实施例中,所述n是根据簇中实体的数量确定的。
14.在一些实施例中,分别从每个簇中筛选出实体作为目标实体,包括:从每个簇中筛选出与簇心之间的距离在预定距离范围内的实体作为目标实体。
15.在一些实施例中,对候选实体集中的各实体进行聚类,得到多个簇,包括:分别将各实体的文本表述输入bert模型,将所述bert模型输出的向量作为实体的向量;采用各实体的向量进行聚类,得到多个簇。
16.本说明书第二方面提供一种知识图谱的实体摘要确定装置,包括:第一计算单元,用于根据所述知识图谱中各实体的文本表述,计算各实体的外延参数;第二计算单元,用于根据各实体的出度和入度,计算实体的结构参数;筛选单元,用于结合所述外延参数和所述结构参数,从所述知识图谱的多个实体中筛选出目标实体;确定单元,用于根据所述目标实体确定所述知识图谱的实体摘要;所述实体摘要用于代替所述知识图谱呈现给用户或者被计算机处理。
17.在一些实施例中,所述知识图谱中的每个节点表示用户账户,节点之间的连线表示用户账户之间的交易。
18.在一些实施例中,所述筛选单元包括:第一计算子单元,用于结合所述外延参数和所述结构参数,计算各实体的重要度;第一筛选子单元,用于筛选出重要度参数大于预定阈值的实体,作为候选实体集;选择子单元,用于从所述候选实体集选择目标实体。
19.在一些实施例中,一个实体的外延参数与所述实体的文本表述中的词语的数量呈反比例关系。
20.在一些实施例中,一个实体的结构参数正比于所述实体的出度和入度的加权和。
21.在一些实施例中,所述选择子单元包括:第一聚类子单元,用于对候选实体集中的各实体进行聚类,得到多个簇;第二筛选子单元,用于分别从每个簇中筛选出实体作为目标实体。
22.在一些实施例中,第二筛选子单元包括:第一确定子单元,用于将离簇心最近的n个实体作为目标实体,其中,n为自然数。
23.在一些实施例中,所述n是根据簇中实体的数量确定的。
24.在一些实施例中,第二筛选子单元包括:第二确定子单元,用于从每个簇中筛选出与簇心之间的距离在预定距离范围内的实体作为目标实体。
25.在一些实施例中,所述第一聚类子单元包括:处理子单元,用于分别将各实体的文本表述输入bert模型,将所述bert模型输出的向量作为实体的向量;第二聚类子单元,用于采用各实体的向量进行聚类,得到多个簇。
26.本说明书第三方面提供一种电子设备,包括:存储器和处理器,所述处理器和所述
存储器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而实现第一方面任一项所述方法的步骤。
27.本说明书第四方面提供一种计算机存储介质,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现第一方面任一项所述方法的步骤。
28.本说明书第五方面提供一种计算机程序产品,包含有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述方法的步骤。
29.本说明书提供的知识图谱的实体摘要确定方法、装置及电子设备,结合根据文本表述计算得到的外延参数、根据出度和入度计算得到的结构参数,从知识图谱的多个实体中筛选出目标实体,然后根据目标实体确定实体摘要。本方案充分利用了实体的文本表述的语音信息,从语义和拓扑结构两个方面确定用于生成实体摘要的目标实体,能够使得知识图谱中保留虽然关联节点不多、但描述范围较大的重要实体,从而解决现有技术确定的实体摘要中容易缺失重要实体的问题。
附图说明
30.为了更清楚地说明本技术实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
31.图1示出了本说明书提供的一种知识图谱的实体摘要确定方法的流程图;
32.图2示出了本说明书提供的另一种知识图谱的实体摘要确定方法的流程图;
33.图3示出了本说明书提供的一种知识图谱的实体摘要确定方法的示意图;
34.图4示出了本说明书提供的一种知识图谱的实体摘要确定装置的原理框图;
35.图5示出了本说明书提供的电子设备的结构示意图。
具体实施方式
36.为了使本技术领域的人员更好地理解本技术中的技术方案,下面将结合本技术实施方式中的附图,对本技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本技术一部分实施方式,而不是全部的实施方式。基于本技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都应当属于本技术保护的范围。
37.本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
38.发明人发现,现有技术所确定的实体摘要中容易缺失的重要实体具有以下特点:在知识图谱中的拓扑结构中,虽然该重要实体所关联的节点不多,但是该重要实体所描述的范围较大,也即,该重要实体理解知识图谱拓扑结构的重要组成部分。
39.基于此,本说明书提供一种知识图谱的实体摘要确定方法。该方法将实体的文本表述作为选取重要实体的一个参数,结合知识图谱中各实体的拓扑结构和实体的文本表述确定知识图谱中的重要实体,并基于这些重要实体生成知识图谱的实体摘要。
40.本说明书中的知识图谱可以是金融领域的知识图谱,其中每个实体(即知识图谱
中的每个节点)可以表示一个用户账户,实体与实体之间的连线可以表示两个用户账户之间的交易。
41.本说明书所提供的知识图谱的实体摘要确定方法,可以采用具有计算能力的电子设备实现,也可以采用计算机集群来实现。
42.如图1所示,本说明书所提供的知识图谱的实体摘要确定方法包括如下步骤:
43.s10:根据所述知识图谱中各实体的文本表述,计算各实体的外延参数。
44.按照逻辑学的知识,词语的内涵和外延是相互制约的,一个词语所表达的内涵越多,那么对事物所具有的特质、属性的限制就越多,从而导致事物类的成员数量减小,因此它的外延就越小,反之,它的外延就越大。实体的语言形式是词或词组,由语言学的命名规则可知,外延参数具体体现为实体中限定词的数量,限定词越少,该实体所描述的范围就越大,这样的实体就具有更好的概括性。
45.基于此,一个实体的外延参数可以与该实体的文本表述中的词语的个数呈反比例关系。例如,extensionality(ci)=1-c(num-1)或者其中,extensionality(ci)表示实体ci的外延参数,num表示实体ci的单词个数,c是一个常量,在本方法中令c=0.3。当然外延参数还可以采用其他呈反比例关系的表达式来计算,本说明书不再一一例举。
46.s20:根据各实体的出度和入度,计算实体的结构参数。
47.知识图谱作为结构化的数据,其结构也包含了信息。一个实体的结构参数是由与该实体相连的边的数量决定。知识图谱作为有向图,具有有向图所具有的出度和入度。
48.在知识图谱中,以一个实体为起点(或头)的有向边的数目称为该实体的出度。即,cdout(ci)=numberof(outgoing)edges(ci),其中,cdout(ci)表示实体ci的出度,edges(ci)表示实体所连接的边。
49.在知识图谱中,以一个实体为终点(或尾)的有向边的数目称为该实体的入度。即,cdin(ci)=numberof(incoming)edges(ci),其中,cdin(ci)表示实体ci的入度,edges(ci)表示实体所连接的边。
50.实体的结构参数,可以与该实体的出度呈正比例关系,与该实体的入度呈正比例关系,在一些实施例中,实体的结构参数可以正比于出度和入度的乘积或和。
51.而在一些实施例中,实体的结构参数也可以正比于出度和入度的加权和,例如,cd(ci)=(0.3*cdin(ci)+0.7*cdout(ci))/(n+1),其中,cd(ci)表示实体ci的结构参数,cdin(ci)表示实体ci的入度,cdout(ci)表示实体ci的出度,n表示与节点相连接的边的总数,0.3和0.7表示权重,权重还可以采用其他取值,本说明书仅仅是给出了权重取值的一个示例。
52.s30:结合所述外延参数和所述结构参数,从所述知识图谱的多个实体中筛选出目标实体。
53.在计算得到各实体的外延参数和结构参数之后,可以先初步过滤外延参数的取值小于第一预定阈值的实体,过滤结构参数的取值小于第二预定阈值的实体。外延参数、结构参数取值过小表示实体的文本表述范围较小、处于知识图谱的边缘、与其他实体关系不紧密等。
54.在一些实施例中,如图2所示,s30可以进一步包括如下步骤:
55.s31:结合外延参数和结构参数计算过滤后剩余的实体的重要度。
56.在度量实体节点的重要性时,可以将外延参数和结构参数进行加权求和得到实体的重要度,基于该重要度参数,设定门限值t,依据该门限值挑选满足条件的实体节点,得到候选实体节点集。
57.一个实体的重要度参数可以与外延参数呈正比例关系,且与结构参数呈正比例关系,也即一个实体的重要度参数可以与表示实体ci的单词个数呈反比例关系、与该实体的出度呈正比例关系、与该实体的入度呈正比例关系。
58.s32:筛选出重要度大于预定阈值的实体作为候选实体集。
59.例如,w1*extensionality(ci)+w2*cd(ci)》t,其中,“》”的左边表示重要度参数的表达式,w1、w2为权重,extensionality(ci)表示实体ci的外延参数,cd(ci)表示实体ci的结构参数,t为针对重要度参数设置的预定阈值。其中,相关参数的取值可以为:w1=0.2,w2=0.8,t=0.148。
60.s33:从候选实体集中选择目标实体。
61.这里的目标实体也即上述重要实体,目标实体用于生成知识图谱的实体摘要。
62.在一些实施例中,可以将候选实体集中的所有实体作为目标实体。
63.在另一些实施例中,可以从候选实体集中进行进一步筛选,得到目标实体。例如,如图3所示,对候选实体集中的各实体进行聚类,得到多个簇,然后分别从每个簇中筛选出实体作为目标实体。
64.从每个簇中筛选出目标实体的方法,可以是筛选出与簇心之间的距离在预定距离范围内的实体(包括簇心)作为目标实体;也可以是将离簇心最近的n(n为自然数)个实体作为目标实体。这里的n,可以是每个簇对应的n是相同的,也可以是不同的n取值不同。例如,n的数值可以根据簇中实体的数量来确定,例如每个簇对应的比例值是相同的,每个簇对应的n为簇中实体的总数与该比例值的乘积。
65.上述聚类操作可以采用任意一种聚类算法。例如,k-means、k-means++等。
66.k-means++算法是在k-means算法基础上改进的算法,该算法通过在随机选择了第一个初始聚类点之后,选择距离该随机初始聚类点尽可能远的点作为下一个聚类点的方式,有效改善了k-means算法随机选择初始聚类点而导致聚类效果不好的缺点。将实体作为节点,根据实体向量计算各个实体间的欧式距离,聚类方法可以如下所述的步骤1-6:
67.步骤1:任意选取某一个节点作为第一个聚类中心。
68.步骤2:计算其他点到聚类中心的最短距离(即与最近的聚类中心的距离),距离越远的点作为其他聚类中心的概率最大,以此选出下一个聚类中心。
69.步骤3:重复步骤2,直到选出k个聚类中心。
70.步骤4:计算每个节点与k聚类中心的距离,将节点归入距离最近的聚类中心所在的类。
71.步骤5:对于每种分类,重新计算该类别的聚类中心。
72.步骤6:重复步骤4、5,直到聚类中心不再发生变化。
73.上述通过聚类算法,将实体进行分组,使得语义相似性较高实体被分为一类,不同类之间具有较大的语义差别,距离聚类中心最近的实体作为重要实体被选出,其余实体则
为不重要实体。一方面,重要实体能很好地概括同类的不重要实体,而重要实体之间的距离足够远,使得它们之间没有明显的语义交叉;另一方面,通过这种方法得到的重要实体在整个知识图谱中的分布是均匀的、能够完整地概括该知识图谱的各个方面,不会存在只选出某个分支中的实体,而忽略了不那么密集但对整个知识图谱描述具有贡献的实体的情况。
74.上述对候选实体集中的各实体进行聚类之前,需要先将实体的文本表述转换成向量表述。具体地,如图3所示,可以分别将各实体的文本表述输入预先训练的bert模型,将所述bert模型输出的向量作为实体的向量表达。然后,基于实体的向量表达进行聚类操作。
75.由于实体是词或词组,基于语义的实体摘要首先要把实体转换成语义表征。本方法提出基于bert预训练语言模型将知识图谱中的实体投射到语义向量空间。
76.bert模型在文本前添插入一个cls标记,经过bert模型处理后,将该标记对应的向量输出作为该句子的语义表征。对于实体来说,与实体中已有的其它词相比,这个无明显语义信息的符号会更平衡且完善地融合实体中每个词的语义信息。
77.s40:根据所述目标实体确定所述知识图谱的实体摘要;所述实体摘要用于代替所述知识图谱呈现给用户或者被计算机处理。
78.根据筛选出的目标实体(即重要实体)确定知识图谱的实体摘要是现有技术,本说明书不再赘述。
79.本说明书提供的知识图谱的实体摘要确定方法,结合根据文本表述计算得到的外延参数、根据出度和入度计算得到的结构参数,从知识图谱的多个实体中筛选出目标实体,然后根据目标实体确定实体摘要。本方案充分利用了实体的文本表述的语音信息,从语义和拓扑结构两个方面确定用于生成实体摘要的目标实体,能够使得知识图谱中保留虽然关联节点不多、但描述范围较大的重要实体,从而解决现有技术确定的实体摘要中容易缺失重要实体的问题。
80.本说明书提供一种知识图谱的实体摘要确定装置,可以用于实现上述知识图谱的实体摘要确定方法。如图4所示,该装置包括第一计算单元10、第二计算单元20、筛选单元30和确定单元40。
81.第一计算单元10用于根据所述知识图谱中各实体的文本表述,计算各实体的外延参数。
82.第二计算单元20用于根据各实体的出度和入度,计算实体的结构参数。
83.筛选单元30用于结合所述外延参数和所述结构参数,从所述知识图谱的多个实体中筛选出目标实体。
84.确定单元40用于根据所述目标实体确定所述知识图谱的实体摘要;所述实体摘要用于代替所述知识图谱呈现给用户或者被计算机处理。
85.在一些实施例中,所述知识图谱中的每个节点表示用户账户,节点之间的连线表示用户账户之间的交易。
86.在一些实施例中,所述筛选单元包括:第一计算子单元,用于结合所述外延参数和所述结构参数,计算各实体的重要度;第一筛选子单元,用于筛选出重要度参数大于预定阈值的实体,作为候选实体集;选择子单元,用于从所述候选实体集选择目标实体。
87.在一些实施例中,一个实体的外延参数与所述实体的文本表述中的词语的数量呈反比例关系。
88.在一些实施例中,一个实体的结构参数正比于所述实体的出度和入度的加权和。
89.在一些实施例中,所述选择子单元包括:第一聚类子单元,用于对候选实体集中的各实体进行聚类,得到多个簇;第二筛选子单元,用于分别从每个簇中筛选出实体作为目标实体。
90.在一些实施例中,第二筛选子单元包括:第一确定子单元,用于将离簇心最近的n个实体作为目标实体,其中,n为自然数。
91.在一些实施例中,所述n是根据簇中实体的数量确定的。
92.在一些实施例中,第二筛选子单元包括:第二确定子单元,用于从每个簇中筛选出与簇心之间的距离在预定距离范围内的实体作为目标实体。
93.在一些实施例中,所述第一聚类子单元包括:处理子单元,用于分别将各实体的文本表述输入bert模型,将所述bert模型输出的向量作为实体的向量;第二聚类子单元,用于采用各实体的向量进行聚类,得到多个簇。
94.上述各装置的描述及功能可以参阅知识图谱的实体摘要确定方法部分的内容理解,不再赘述。
95.本发明实施例还提供了一种电子设备,如图5所示,该电子设备可以包括处理器501和存储器502,其中处理器501和存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。
96.处理器501可以为中央处理器(central processing unit,cpu)。处理器501还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
97.存储器502作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的知识图谱的实体摘要确定方法对应的程序指令/模块(例如,图4所示的第一计算单元10、第二计算单元20、筛选单元30和确定单元40)。处理器501通过运行存储在存储器502中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的知识图谱的实体摘要确定方法。
98.存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器501所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至处理器501。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
99.所述一个或者多个模块存储在所述存储器502中,当被所述处理器501执行时,执行如图1所示实施例中的知识图谱的实体摘要确定方法。
100.上述电子设备具体细节可以对应参阅图1的实施例中对应的相关描述和效果进行理解,此处不再赘述。
101.本说明书还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序指
令,所述计算机程序指令被执行时实现上述知识图谱的实体摘要确定方法的步骤。
102.本说明书还提供一种计算机程序产品,包含有计算机程序,所述计算机程序被处理器执行时实现上述知识图谱的实体摘要确定方法的步骤。
103.本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
104.本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。
105.上述实施方式阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
106.为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
107.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施方式的某些部分的方法。
108.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
109.本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
110.虽然通过实施方式描绘了本技术,本领域普通技术人员知道,本技术有许多变形和变化而不脱离本技术的精神,希望所附的权利要求包括这些变形和变化而不脱离本技术的精神。

技术特征:
1.一种知识图谱的实体摘要确定方法,其特征在于,包括:根据所述知识图谱中各实体的文本表述,计算各实体的外延参数;根据各实体的出度和入度,计算实体的结构参数;结合所述外延参数和所述结构参数,从所述知识图谱的多个实体中筛选出目标实体;根据所述目标实体确定所述知识图谱的实体摘要;所述实体摘要用于代替所述知识图谱呈现给用户或者被计算机处理。2.根据权利要求1所述的方法,其特征在于,所述知识图谱中的每个节点表示用户账户,节点之间的连线表示用户账户之间的交易。3.根据权利要求1所述的方法,其特征在于,结合所述外延参数和所述结构参数,从所述知识图谱的多个实体中筛选出目标实体,包括:结合所述外延参数和所述结构参数,计算各实体的重要度;筛选出重要度参数大于预定阈值的实体,作为候选实体集;从所述候选实体集选择目标实体。4.根据权利要求1所述的方法,其特征在于,一个实体的外延参数与所述实体的文本表述中的词语的数量呈反比例关系。5.根据权利要求1所述的方法,其特征在于,一个实体的结构参数正比于所述实体的出度和入度的加权和。6.根据权利要求3所述的方法,其特征在于,从所述候选实体集选择目标实体,包括:对候选实体集中的各实体进行聚类,得到多个簇;分别从每个簇中筛选出实体作为目标实体。7.根据权利要求6所述的方法,其特征在于,分别从每个簇中筛选出实体作为目标实体,包括:将离簇心最近的n个实体作为目标实体,其中,n为自然数。8.根据权利要求7所述的方法,其特征在于,所述n是根据簇中实体的数量确定的。9.根据权利要求7所述的方法,其特征在于,分别从每个簇中筛选出实体作为目标实体,包括:从每个簇中筛选出与簇心之间的距离在预定距离范围内的实体作为目标实体。10.根据权利要求1所述的方法,其特征在于,对候选实体集中的各实体进行聚类,得到多个簇,包括:分别将各实体的文本表述输入bert模型,将所述bert模型输出的向量作为实体的向量;采用各实体的向量进行聚类,得到多个簇。11.一种知识图谱的实体摘要确定装置,其特征在于,包括:第一计算单元,用于根据所述知识图谱中各实体的文本表述,计算各实体的外延参数;第二计算单元,用于根据各实体的出度和入度,计算实体的结构参数;筛选单元,用于结合所述外延参数和所述结构参数,从所述知识图谱的多个实体中筛选出目标实体;确定单元,用于根据所述目标实体确定所述知识图谱的实体摘要;所述实体摘要用于代替所述知识图谱呈现给用户或者被计算机处理。
12.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器和所述存储器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而实现权利要求1至10任一项所述方法的步骤。13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现权利要求1至10任一项所述方法的步骤。14.一种计算机程序产品,其特征在于,包含有计算机程序,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述方法的步骤。

技术总结
本说明书公开了知识图谱的实体摘要确定方法、装置及电子设备,其中方法包括:根据所述知识图谱中各实体的文本表述,计算各实体的外延参数;根据各实体的出度和入度,计算实体的结构参数;结合所述外延参数和所述结构参数,从所述知识图谱的多个实体中筛选出目标实体;根据所述目标实体确定所述知识图谱的实体摘要;所述实体摘要用于代替所述知识图谱呈现给用户或者被计算机处理。本方案充分利用了实体的文本表述的语音信息,从语义和拓扑结构两个方面确定用于生成实体摘要的目标实体,能够使得知识图谱中保留虽然关联节点不多、但描述范围较大的重要实体,从而解决现有技术确定的实体摘要中容易缺失重要实体的问题。体摘要中容易缺失重要实体的问题。体摘要中容易缺失重要实体的问题。


技术研发人员:吴子仪
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2023.05.30
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐