电力行业的实体消歧方法及装置与流程
未命名
08-05
阅读:80
评论:0

1.本公开涉及人工智能技术领域,尤其涉及大数据、知识图谱技术领域。
背景技术:
2.电力行业中的实体不仅仅有电力设备,还包含多种类型的知识节点,比如电力设备运维知识、事故处理知识和电力设备检修知识等。这些知识来源于电力行业的操作记录文档,难免会出现相同知识点的不同表述,故而需要通过消歧来避免知识图谱中出现歧义。
技术实现要素:
3.本公开提供了电力行业的实体消歧方法及装置。
4.根据本公开的一方面,提供了一种相似度打分模型的训练方法,包括:
5.将至少两个样本电力实体的样本数据输入待训练的相似度打分模型,由待训练的相似度打分模型输出至少两个样本电力实体的预测相似度;
6.将预测相似度与至少两个样本电力实体的相似度标签进行比较,根据比较结果调整待训练的相似度打分模型的参数,以得到训练完成的相似度打分模型;其中,
7.待训练的相似度打分模型包括至少两个文本嵌入表示模块和相似度打分模块,各个文本嵌入表示模块的输出端分别连接相似度打分模块的输入端。
8.根据本公开的另一方面,提供了一种电力行业的实体消歧方法,包括:
9.获取至少两个电力行业候选数据;
10.将至少两个电力行业候选数据输入预先训练的相似度打分模型,由相似度打分模型输出至少两个候选电力实体的相似度;
11.根据相似度对至少两个候选电力实体进行消歧处理;
12.其中,相似度打分模型采用相似度打分模型的训练方法训练得到。
13.根据本公开的另一方面,提供了一种相似度打分模型的训练装置,包括:
14.相似度预测模块,用于将至少两个样本电力实体的样本数据输入待训练的相似度打分模型,由待训练的相似度打分模型输出至少两个样本电力实体的预测相似度;
15.调整模块,用于将预测相似度与至少两个样本电力实体的相似度标签进行比较,根据比较结果调整待训练的相似度打分模型的参数,以得到训练完成的相似度打分模型;其中,
16.待训练的相似度打分模型包括至少两个文本嵌入表示模块和相似度打分模块,各个文本嵌入表示模块的输出端分别连接相似度打分模块的输入端。
17.根据本公开的另一方面,提供了一种电力行业的实体消歧装置,包括:
18.第二获取模块,用于获取至少两个电力行业候选数据;
19.相似度确定模块,用于将至少两个电力行业候选数据输入预先训练的相似度打分模型,由相似度打分模型输出至少两个候选电力实体的相似度;
20.消歧模块,用于根据相似度对至少两个候选电力实体进行消歧处理;
21.其中,相似度打分模型采用相似度打分模型的训练装置训练得到。
22.根据本公开的另一方面,提供了一种电子设备,包括:
23.至少一个处理器;以及
24.与该至少一个处理器通信连接的存储器;其中,
25.该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法。
26.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
27.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
28.本公开实施例提出一种相似度打分模型的训练方法,该模型用于预测两个或多个电力实体之间的相似度;由于采用样本电力实体的相似度标签作为训练模型时使用的标注数据,本公开实施例无需大量与任务相关的标注数据就能够对模型进行训练,因此能够提高训练效率和效果,提高判断电力实体相似度的准确度。
29.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
30.附图用于更好地理解本方案,不构成对本公开的限定。其中:
31.图1是本公开实施例提出的相似度打分模型的训练方法的应用场景示意图;
32.图2是本公开实施例提出的一种电力行业的实体消歧方法的示意性流程图;
33.图3是本公开实施例提出的一种电力行业的实体消歧方法的整体性示意图;
34.图4是根据本公开实施例的相似度打分模型的示意图;
35.图5是根据本公开实施例提出的相似度打分模型的训练方法;
36.图6是根据本公开实施例的相似度打分模型的结构示意图;
37.图7是根据本公开实施例的文本嵌入表示模块的训练方法的流程示意图;
38.图8a是根据本公开实施例提出的掩码预训练文本的示意图一;
39.图8b是根据本公开实施例提出的掩码预训练文本的示意图二;
40.图9是根据本公开一实施例的相似度打分模型的训练装置900的结构示意图;
41.图10是根据本公开一实施例的相似度打分模型的训练装置1000的结构示意图;
42.图11是根据本公开一实施例的电力行业的实体消歧装置1100的结构示意图;
43.图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。
具体实施方式
44.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
45.面向电力行业实体消歧方法是为了解决电力行业的知识图谱中实体的歧义问题。
以下展示了相同设备运维知识点的两种不同描述。
46.描述1:
[0047][0048][0049]
描述2:
[0050][0051]
从上述两种描述内容可见,虽然这两个描述中“工作要求”的描述有所差异,但是实际上都对应同一设备的运维知识,所以需要通过实体消歧来发现这种具有多样性描述的知识点。
[0052]
本公开实施例提出的方案可以应用于人工智能、大数据、知识图谱等领域,可以直接应用于电力行业知识图谱构建,同时也是信息检索、智能分析和辅助决策等服务的基础。以下针对本公开实施例中涉及的多种技术进行简单介绍。
[0053]
人工智能(artificial intelligence,ai)技术。是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0054]
知识图谱(knowledge graph,kg)是一种实体概念相互连接而成的语义网络,可以包括节点(实体/属性值)与边(关系/属性)。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。属性主要指对象可能具有的特征、特性、特点以及参数。属性值主要指对象指定属性的值。
[0055]
目前的实体消歧主要通过以下几种方式来进行:
[0056]
(1)基于名称词典进行精确匹配:通过为每个术语维护一个名称词典,当输入的实体/分面名称位于该名称词典中时,返回相应的实体/分面名称作为消歧结果;
[0057]
(2)基于人工定义的规则消歧:当实体/分面名称本身的内容模式比较固定时,可以通过人工预先配置n-gram匹配模板等方式,判定输入实体/分面名称与库中实体/分面的等价性,从而用于消歧;
[0058]
(3)基于机器学习方法进行消歧:基于人工特征工程,设计并提取可用于消歧的特征,然后基于支持向量机、随机森林、梯度提升树等机器学习方法进行消歧;
[0059]
(4)基于大规模监督语料上的语义相似度匹配模型进行消歧:当在行业内存在大量有标注的语义相似度语料时,可以基于长短时记忆网络(lstm,long short-term memory)、卷积神经网络(cnn,convolutional neural networks)等深度网络训练一个分类器,以判定输入实体/分面与知识库中实体/分面的等价性,从而用于消歧。
[0060]
上述方式(1)的主要问题在于:需要构建一个完备的词典集合成本较大,很难用于大规模的电力行业数据。方式(2)的问题主要在于:第一,人工定义的规则泛化性比较差,一旦出现新的术语表达方式,通过人工定义的规则很可能会失效;第二,此方法耗费的人力成本同样较大,很难用于大规模的电力行业数据。方式(3)的主要问题在于:人工设计特征的成本通常较高,而且,对于一些需要借助语义或知识才能判定等价性的情况,该方式并不能取得较好的效果。方式(4)的主要问题在于;需要大量的相似度标注数据,而电力行业数据的标注需要借助于专业的知识,成本较大。并且,常用的基于lstm和cnn等结构的深度模型往往不能充分利用大规模语料上的信息,其效果较差。
[0061]
电力行业中的实体不仅仅有电力设备,还包含多种类型的知识节点,比如电力设备运维知识、事故处理知识和电力设备检修知识等。这些知识来源于电力行业的操作记录文档,由于不同操作记录文档的记录人员和记录方式不同,难免会出现相同知识点的不同表述。针对电力行业数据,本公开实施例提出一种相似度打分模型的训练方法,该相似度打分模型用于确定不同电力行业的实体(简称电力实体)之间的相似度,从而对相似度超过阈值的不同电力实体进行消歧。并且,本公开实施例还提出一种电力行业的实体消歧方法,利用前述训练方法训练得到的相似度打分模型进行电力行业的实体消歧。
[0062]
图1是本公开实施例提出的相似度打分模型的训练方法的应用场景示意图。参见图1,本公开实施例提出的相似度打分模型的训练方法可以用于包含服务器110和终端120的系统。该服务器110与终端120存在建立有线通信连接或无线通信连接。可选地,该服务器110可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。该终端120可以是个人计算机(personal computer,pc)、车载终端、平板电脑、智能手机、可穿戴设备、智能机器人等具备数据计算、处理和存储能力的终端。
[0063]
在本公开实施例中,该系统中的终端120可以用于获取训练文本,如样本电力实体
的样本数据,并将该训练文本发送至服务器110。服务器110进而可以采用该训练文本对相似度打分模型进行训练。
[0064]
在一些实施方式中,该用于对相似度打分模型进行训练的训练文本也可以是服务器110中预先存储的。相应的,该相似度打分模型的训练系统也可以不包括终端120。
[0065]
或者,该系统还能够执行具体任务,例如可以进行电力行业的实体消歧。相应的,该系统中的终端120可以用于获取电力行业候选数据,并将该电力行业候选数据发送至服务器110进行实体消歧。服务器110中预先存储有已完成训练完成的相似度打分模型,服务器接收到电力行业候选数据之后,可以将两个或多个电力行业候选数据输入至相似度打分模型,由相似度打分模型对两个或多个电力行业候选数据进行实体消歧,并输出结果。之后,服务器110可以将实体消歧的结果发送至终端120。
[0066]
在一些示例中,该终端120中也可以存储有已完成预训练的相似度打分模型,终端120获取到两个或多个电力行业候选数据之后,可以直接将该两个或多个电力行业候选数据输入到相似度打分模型中,由相似度打分模型对输入的两个或多个电力行业候选数据进行实体消歧,并输出结果数据。相应地,该电力行业的实体消歧系统也可以不包括服务器110。
[0067]
以下结合上述技术简介和应用场景,对本公开实施例提供的相似度打分模型的训练方法、以及电力行业的实体消歧方法进行说明。该方法可以应用于计算机设备,该计算机设备可以是图1所示场景中的服务器110、也可以是图1所示场景中的终端110,或者可以是其他设备,本公开对此不做限制。
[0068]
为了表述方便,以下首先介绍本公开实施例提出的电力行业的实体消歧方法,之后介绍本公开实施例提出的相似度打分模型的训练方法。其中,电力行业的实体消歧方法中所采用的相似度打分模型可以采用该训练方法训练得到。
[0069]
图2是本公开实施例提出的一种电力行业的实体消歧方法的示意性流程图,包括:
[0070]
s210、获取至少两个电力行业候选数据;
[0071]
s220、将该至少两个电力行业候选数据输入预先训练的相似度打分模型,由该相似度打分模型输出至少两个候选电力实体的相似度;
[0072]
s230、根据该相似度对至少两个候选电力实体进行消歧处理;
[0073]
其中,该相似度打分模型本公开实施例提出的相似度打分模型的训练方法训练得到。具体的训练方式将在后续内容中介绍。
[0074]
在一些实施方式中,输入至相似度打分模型的至少两个电力行业候选数据,是对多个电力行业候选数据预先进行分组处理后、属于同一个分组中的数据。前述的“分组”也可以称为“分桶”。分组处理(或分桶处理),可以认为是对从电力行业文档提取的海量电力行业候选数据所进行的粗略分组,同一分组中可能包含重复的数据(如相似度分数大于或等于预设阈值的电力行业候选数据),也可能包含相似的非重复数据(如相似度分数小于预设阈值的电力行业候选数据),消歧处理的目的就是准确识别出其他的重复部分。
[0075]
在进行电力行业的实体消歧的过程中,引入了相似度打分模型,该相似度打分模型能够用于比较两个候选电力实体的相似度,可以在一定程度上消除相似的候选电力实体。
[0076]
图3是本公开实施例提出的一种电力行业的实体消歧方法的整体性示意图;在一
些实施方式中,如图3所示,本公开实施例提出的获取至少两个电力行业候选数据的方式可以包括:
[0077]
s310、从电力行业文档中提取多个电力行业候选数据;根据预先设定的电力行业知识点的架构(schema)文件和/或配置文件,对提取的多个电力行业候选数据进行分组处理,得到多个分组;每个分组中包括多个电力行业候选数据;
[0078]
s320、从任一分组中,获取至少两个电力行业候选数据。
[0079]
通过预先设定的电力行业知识点的schema文件和/或配置文件,对提取的多个电力行业候选数据进行分组处理能够从复杂多变的电力行业候选数据中,提取出相近的候选电力行业数据,能够降低后续对种电力行业的实体消歧所需的计算量。
[0080]
架构(schema)文件可以包括电力行业中的实体、实体对应的实体属性、以及实体属性的值类型中的至少之一。
[0081]
表1是架构(schema)文件的示例。表1中,“运维策略”是一个实体,其对应的实体属性有“维护类别”、“工作要求”、“周期ⅰ级”、“周期ⅱ级”、“设备类型”和“设备类别”。其他实体、实体对应的实体属性、以及实体属性的值类型等内容详见表1。
[0082]
表1
[0083]
类目属性/关系名称属性值类型单多值运维策略维护类别文本单运维策略工作要求文本单运维策略周期ⅰ级文本单运维策略周期ⅱ级文本单运维策略设备类型文本单运维策略设备类别文本单事故元事件事故设备文本单事故元事件保护动作文本单事故元事件部位文本单事故元事件标签文本单事故元事件事件文本单设备检修维护计划单位文本单设备检修维护计划检修维护类型文本单设备检修维护计划设备类别文本单设备检修维护计划设备类型文本单设备检修维护计划关联设备文本单设备检修维护计划检修类别文本单设备检修维护计划电压等级文本单设备检修维护计划设备型号文本单设备检修维护计划设备生产厂家文本单设备检修维护计划计划开展时间日期单设备检修维护计划实际开展时间日期单设备检修维护计划是否超期文本单
[0084]
电力行业知识点的配置文件可以包括:用于分组处理的实体属性、分组的键粒度、以及数据聚合处理时使用的预设阈值中的至少之一。
[0085]
schema文件和配置文件的具体内容能够用于确保处于同一分组的至少两个电力行业候选数据对应的候选电力实体能够具有一定的关联度,防止出现相差过大的候选电力实体对应的电力行业候选数据处于同一分组。
[0086]
仍以图3为例,在获取至少两个电力行业的候选数据后,可以将该至少两个电力行业候选数据输入预先训练的相似度打分模型;并根据该相似度打分模型输出的相似度进行消歧处理。
[0087]
具体地,如图3所示,该根据相似度对至少两个候选电力实体进行消歧处理,包括:
[0088]
s330、在相似度大于或等于预设阈值的情况下,将至少两个候选电力实体进行聚合,得到归一组;从同一归一组中的两个或多个候选电力实体中,选取第一候选电力实体,并删除其余候选电力实体;
[0089]
s340、将第一候选电力实体保存在知识图谱中,并将删除的候选电力实体作为第一候选电力实体的相关信息。
[0090]
本公开实施例提出的对至少两个候选电力实体进行消歧处理的方法,能够用于精准地预测两个或多个电力实体之间的相似度;减少由于确定出错误的两个或多个电力实体之间的相似度而产生的问题。
[0091]
例如,以分别将两个候选电力实体对应的电力行业候选数据输入相似度打分模型,且相似度打分模型输出的相似度是[0,1]范围内的任一有理数为例,如果该预设阈值为0.5,那么如果相似度打分模型输出的相似度为0.1,则认为相似度打分模型对两个候选电力实体预测结果是:两个候选电力实体不相似;如果相似度打分模型输出的相似度为0.9,则认为相似度打分模型对两个候选电力实体的预测结果是:两个候选电力实体相似,此时可以将该两个候选电力实体进行聚合,以得到归一组。
[0092]
结合上述内容,本公开实施例提出的电力行业的实体消歧方法可以将至少两个电力行业候选数据输入预先训练的相似度打分模型,再由预先训练的相似度打分模型输出至少两个候选电力实体的相似度,并根据相似度对至少两个候选电力实体进行消歧处理。
[0093]
图4是根据本公开实施例的相似度打分模型的示意图。如图4所示,该相似度打分模型包括至少两个文本嵌入表示模块和相似度打分模块,各个文本嵌入表示模块的输出端分别连接相似度打分模块的输入端。
[0094]
以图4为例,基于前述内容,将至少两个电力行业候选数据输入预先训练的相似度打分模型,可以包括:
[0095]
将各个电力行业候选数据分别输入对应的文本嵌入表示模块。
[0096]
本公开实施例提出的相似度打分模型可以利用文本嵌入表示模块,对各个电力行业候选数据进行预处理,从而能够提高后续相似度打分模块的准确度,以及降低确定各个电力实体相似度所需的时间。
[0097]
其中,该文本嵌入表示模块型由12个transformer编码器构成。
[0098]
该文本嵌入表示模块中可以包含电力行业中电力实体和属性之间的关联关系、以及电力文本的语义信息。该文本嵌入表示模型可以根据本公开实施例提出的相似度打分模型的训练方法训练得到,具体的训练方式将在后续内容中介绍。
[0099]
需要说明的是,在本公开实施例中,任一电力行业候选数据可以包括候选电力实体和候选电力实体的至少一个候选属性值。
[0100]
因此,基于前述的内容,该将电力行业候选数据输入对应的文本嵌入表示模块,包括:
[0101]
将电力行业候选数据中的至少一个候选属性值输入对应的文本嵌入表示模块。
[0102]
在一些实施方式中,任一电力行业候选数据对应的至少一个候选属性值可以用于描述电力行业候选数据中电力实体的属性信息;具体地,该属性信息该可以从现有的知识图谱中获取,也可以通过网络爬虫抓取网络中各个电力行业候选数据的非结构化数据,并从上述非结构化数据中获取。其中,抓取非结构化数据的数据源可以是具有电力实体的基本描述的网站,比如百科类、论坛类网站等。例如,若存在一个电力行业候选数据“电力变压器是一种静止的电气设备,是用来将某一数值的交流电压变成频率相同的另一种或几种数值不同的电压的设备”,那么该电力行业候选数据对应的电力实体可以包括电力变压器,而该电力行业候选数据中的候选属性值可以包括电气设备。
[0103]
文本嵌入表示模块可以根据电力行业候选数据中的至少一个候选属性值进行编码,从而使得相似度打分模块能够利用该电力行业候选数据中的至少一个候选属性值对应的编码进行打分,降低了电力行业实体消歧所需的时间。
[0104]
以上内容简单介绍了本公开实施例提出的电力行业的实体消歧方法,以及用于实现电力行业实体消歧的相似度打分模型。
[0105]
以下内容将对本公开实施例提出的相似度打分模型的训练方法进行详细的说明。其中,电力行业的实体消歧方法中所采用的相似度打分模型可以采用该训练方法训练得到。
[0106]
图5是根据本公开实施例提出的相似度打分模型的训练方法,该方法可以应用于相似度打分模型的训练装置,例如,该装置可以部署于单机、多机或集群系统中的终端或服务器或其它处理设备执行的情况下,可以实现图片、图文、视频等各类应用场景的搜索等处理。其中,终端可以为用户设备(ue,user equipment)、移动设备、个人数字处理(pda,personal digital assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图5所示,该相似度打分模型的训练方法包括:
[0107]
s510、将至少两个样本电力实体的样本数据输入待训练的相似度打分模型,由待训练的相似度打分模型输出至少两个样本电力实体的预测相似度;
[0108]
s520、将预测相似度与至少两个样本电力实体的相似度标签进行比较,根据比较结果调整待训练的相似度打分模型的参数,以得到训练完成的相似度打分模型;其中,
[0109]
待训练的相似度打分模型包括至少两个文本嵌入表示模块和相似度打分模块,各个文本嵌入表示模块的输出端分别连接相似度打分模块的输入端。
[0110]
本公开实施例提出一种相似度打分模型的训练方法,该模型用于预测两个或多个电力实体之间的相似度;由于采用样本电力实体的相似度标签作为训练模型时使用的标注数据,本公开实施例无需大量与任务相关的标注数据就能够对模型进行训练,因此能够提高训练效率和效果,提高判断电力实体相似度的准确度。
[0111]
图6是根据本公开实施例的相似度打分模型的结构示意图。如图6所示,在本公开
实施例中,样本电力实体的个数与文本嵌入表示模块的个数相等,两个样本电力实体与至少两个文本嵌入表示模块一一对应;
[0112]
将至少两个样本电力实体的样本数据输入待训练的相似度打分模型,包括:将各个样本电力实体的样本数据分别输入对应的文本嵌入表示模块。
[0113]
通过将各个样本电力实体的样本数据分别输入对应的文本嵌入表示模块,能够确保各个文本嵌入表示模块能够对各个样本电力实体的样本数据进行精确的处理,防止产生多个样本电力实体的样本数据混淆的问题。
[0114]
其中,该文本表示嵌入模块可以由12个transformer编码器构成。
[0115]
以图6为例,如果该样本电力实体的数量为两个(即图中的实体a和实体b),那么此时相似度打分模型可以包括两个文本嵌入表示模块。
[0116]
一示例中,该样本电力实体的样本数据中包括样本电力实体的至少一个样本属性值;
[0117]
结合以上内容,将各个样本电力实体的样本数据分别输入对应的文本嵌入表示模块,包括:
[0118]
针对各个样本电力实体,将样本电力实体的至少一个样本属性值输入对应的文本嵌入表示模块。
[0119]
本公开实施例提出的文本嵌入表示模块可以根据电力行业候选数据中的至少一个候选属性值进行编码,能够便于后续相似度打分模块进行打分处理,降低了电力行业实体消歧所需的时间。
[0120]
例如,如果该样本电力实体包括“电力变压器”;该样本电力实体的样本数据包括“电力变压器是一种静止的电气设备,是用来将某一数值的交流电压变成频率相同的另一种或几种数值不同的电压的设备”,那么此时该样本实体的样本数据包括样本属性值“电气设备”,此时可以将“电器设备”输入文本嵌入表示模块。
[0121]
当然,本公开实施例并不限制样本实体的样本数据具体包含的样本实体的样本属性值的具体数量,例如该样本实体的样本数据还可以包括3个和/或5个样本属性值。
[0122]
具体地,在样本电力实体的样本数据中包括样本电力实体的至少两个样本属性值的情况下,将样本电力实体的至少一个样本属性值输入对应的文本嵌入表示模块,包括:
[0123]
将样本电力实体的样本数据中的至少两个样本属性值依次连接,并在相邻样本属性值之间插入分隔符,以得到属性值序列;
[0124]
将属性值序列输入文本嵌入表示模块。
[0125]
例如,如果样本电力实体的样本数据包括“电力变压器是一种静止的电气设备;电力变压器是劳动密集型产品;电力变压器是根据电磁原理而制造的一种输变电设备”,那么该样本电力实体为“电力变压器”,该样本电力实体的样本数据中样本电力实体的样本属性值包括“电气设备”、“劳动密集型产品”和“输变电设备”;此时可以将“电气设备”、“劳动密集型产品”和“输变电设备”之间插入分隔符,该分割符可以包括[sep],因此,该样本电力实体的样本数据“电力变压器是一种静止的电气设备;电源变压器是劳动密集型产品;电力变压器是根据电磁原理而制造的一种输变电设备”所对应的属性值序列可以包括“电气设备[sep]劳动密集型产品[sep]输变电设备”,之后可以将该属性值序列输入文本嵌入表示模块。
[0126]
或者,如果样本电力实体的样本数据包括“变压器是根据电磁原理而制造的一种输变电设备;变压器是利用电磁感应的原理来改变交流电压的装置;变压器是输配电的基础设备”,那么该样本电力实体为“变压器”,该样本电力实体的样本数据中样本电力实体的样本属性值包括“输变电设备”、“改变交流电压的装置”和“基础设备”;此时可以将“输变电设备”、“改变交流电压的装置”和“基础设备”之间插入分隔符,该分割符可以包括[sep],因此,该样本电力实体的样本数据“变压器是根据电磁原理而制造的一种输变电设备;变压器是利用电磁感应的原理来改变交流电压的装置;变压器是输配电的基础设备”所对应的属性值序列可以包括“输变电设备[sep]改变交流电压的装置[sep]基础设备”,之后可以将该属性值序列输入文本嵌入表示模块。
[0127]
通过将样本电力实体对应的多个样本属性值输入文本嵌入表示模块,能够提高相似度打分模型输出的相似度的准确值,避免由于单一样本属性值而造成的输出的相似度不准确的问题。
[0128]
如图6所示,如果样本电力实体的样本数据中包含实体a的属性值1和属性值2,那么可以将样本电力实体的样本数据所对应的属性值序列,即“实体a的属性值1[sep]实体属性值2”输入文本嵌入表示模块。
[0129]
仍如图6所示,本公开实施例提出的属性值序列还可以包括[cls],该[cls]可以用于表示属性值序列的语义特征。
[0130]
在一些实施方式中,以图6为例,本公开实施例提出的相似度打分模型还可以包括相似度打分模块,该相似度打分模块可以用于确定至少两个样本实体的预测相似度。
[0131]
具体地,该待训练的相似度打分模型输出至少两个样本电力实体的预测相似度,包括:
[0132]
待训练的相似度打分模型中的各个文本嵌入表示模块分别对接收的属性值序列进行编码,以得到对应的向量表示,并将向量表示输入待训练的相似度打分模型中的相似度打分模块;
[0133]
相似度打分模块计算接收的两个或多个向量表示的相似度,以得到至少两个样本电力实体的预测相似度。
[0134]
例如,如果输入文本嵌入表示模块的属性值序列包括“电气设备[sep]劳动密集型产品[sep]输变电设备”、以及“输变电设备[sep]改变交流电压的装置[sep]基础设备”,那么此时该相似度打分模块可以针对“电气设备[sep]劳动密集型产品[sep]输变电设备”、以及“输变电设备[sep]改变交流电压的装置[sep]基础设备”分别进行编码;并采用编码得到的向量表示,确定“电气设备[sep]劳动密集型产品[sep]输变电设备”所对应的电力实体“电力变压器”,与“输变电设备[sep]改变交流电压的装置[sep]基础设备”所对应的电力实体“变压器”之间的预测相似度。
[0135]
本公开实施例提出的待训练的相似度打分模型利用接收的两个或多个向量,确定该至少两个样本电力实体的方法,能够降低相似度打分模块输出预测相似度所需的时间,节约了训练相似度方面模型所需的资源。
[0136]
在一些实施方式中,本公开实施例可以利用至少两个样本电力实体的预测相似度和该至少两个样本电力实体的相似度标签计算损失函数(即将预测相似度与至少两个样本电力实体的相似度标签进行比较),并根据损失函数(即比较结果)调整待训练的相似度打
分模型的参数。在本公开实施例中,利用损失函数(即比较结果)调整待训练的相似度打分模型的参数时,可以将至少两个样本电力实体的样本数据的一组样本,输入相似度打分模型。
[0137]
在至少两个样本电力实体对应的预测结果和该至少两个样本电力实体的相似度标签不符合的情况下,可以利用至少两个样本电力实体对应的预测结果和该至少两个样本电力实体的相似度标签计算损失函数(即比较结果)。
[0138]
举例说明,以相似度打分模型输出的预测相似度是[0,1]范围内的任一有理数为例,如果相似度打分模型针对至少两个样本电力实体的样本数据输出的预测相似度为0.1,则认为相似度打分模型对输入的至少两个样本电力实体的预测结果是:该至少两个样本电力实体不相似;如果相似度打分模型针对至少两个样本电力实体的样本数据输出的预测相似度为0.9,则认为相似度打分模型对输入的至少两个样本电力实体的预测结果是:至少两个样本电力实体相似。
[0139]
此外,如果该至少两个样本电力实体相似时,可以将该至少两个样本电力实体对应的相似度标签设置为“1”;或者,如果该至少两个样本电力实体不相似时,可以将该至少两个样本电力实体对应的相似度标签设置为“0”。
[0140]
在训练相似度打分模型时,可以将相似的至少两个样本电力实体对应的样本数据和/或不相似至少两个样本电力实体对应的样本数据输入相似度打分模型,由相似度打分模型输出针对似的至少两个样本电力实体或者不相似至少两个样本电力的预测相似度。
[0141]
例如,如果相似度打分模型针对相似的至少两个样本电力实体的样本数据输出的预测相似度为0.1,此时因此相似的至少两个样本电力实体不符合预先标注的相似度标签,这种情况下,可以根据预测相似度与相似度标签之差确定损失函数(即比较结果);
[0142]
或者,如果相似度打分模型针对相似的至少两个样本电力实体的样本数据输出的预测相似度为0.9,此时因此相似的至少两个样本电力实体符合预先标注的相似度标签,这种情况下,可以将损失函数确定为0(即比较结果为预测相似度与至少两个样本电力实体的相似度标签之差为0)。
[0143]
损失函数(即比较结果)与预测相似度与相似度标签之差相关,二者的差越大,对应的损失函数越大(即比较结果证明预测相似度与至少两个样本电力实体的相似度标签之差越大);采用这种方式确定损失函数(即比较结果),能够加快相似度打分模型的收敛,提高相似度打分模型的训练速度。
[0144]
需要说明的是,本公开实施例并不仅限于利用损失函数展示比较结果,以上仅为示例,例如,还可以直接根据比较结果(即预测相似度与至少两个样本电力实体的相似度标签之间的相似度和/或差异度)对该相似度打分模型的参数进行调整。
[0145]
结合上述内容,本公开实施例提出的相似度打分模型可以包括至少两个文本嵌入表示模块和相似度打分模块。
[0146]
因此,为了提高相似度打分模型的准确度,本公开实施例还提出了一种文本嵌入表示模块的训练方法。
[0147]
图7是根据本公开实施例的文本嵌入表示模块的训练方法的流程示意图,该方法主要包括:
[0148]
s710、获取预训练文本;
[0149]
s720、对预训练文本进行掩码处理,以使预训练文本中的至少一个词被替换为掩码;
[0150]
s730、利用掩码处理后的预训练文本,对文本嵌入表示模块进行预训练。
[0151]
其中,该预训练文本包括电力行业的公开数据,例如百度文库中电力相关文档的文本片段及其他网页提供的文档,或者该预训练文本还可以包括还需要剔除中低质量(包含大量符号、表格等无意义内容)并清洗之后的文本片段和/或文档。
[0152]
在本公开实施例中,为了使训练后的文本嵌入表示模块更好地学习电力行业领域的知识语义,可以对预训练文本进行掩码处理,该掩码处理可以包括实体掩码、关系掩码和概念掩码中的至少之一;或者可以结合实体掩码、关系掩码和概念掩码对该预训练文本进行掩码处理。
[0153]
采用对预训练文本进行掩码处理,可以获得大量用于训练文本嵌入表示模块的样本(即样本电力实体的样本数据);以及,利用大量样本对文本嵌入表示模块进行训练,能够提高获取的文本嵌入表示模块的准确度。
[0154]
电力行业中存在的已标注的文本资源稀缺,但是未标注的文本资源丰富。尤其对于特定的任务,例如电力行业的实体消歧,相关的训练样本数据非常有限,以至于相似度判断模型无法仅仅从已标注的文本资源稀缺学习总结到可用的规律。
[0155]
因此,本公开实施例提出了对预训练文本进行掩码处理,以使预训练文本中的至少一个词被替换为掩码。该方法具体包括:
[0156]
随机选择预训练文本中的词,将随机选择的词替换为掩码;和/或,
[0157]
确定预训练文本中的第一电力实体和第一电力实体对应的第一属性,将第一电力实体和第一属性替换为掩码。
[0158]
本公开实施例提出的对预训练文本进行掩码处理的方法,能够对大量未标注的数据(即预训练文本)进行标注处理,从而获得大量能够用于后续训练文本嵌入表示模块的数据(即样本电力实体的样本数据)。
[0159]
图8a是根据本公开实施例提出的掩码预训练文本的示意图一。如图8a所示,该掩码预训练文本的方法为随机选择预训练文本中的词,将随机选择的词替换为掩码的示意图。需要说明的是,采用随机选择预训练文本中的词,并将该随机选择的词替换为掩码的方法,存在无法体现实体和属性值之间相关性的问题。
[0160]
因此,本公开实施例还提出了一种对预训练文本进行掩码处理的方式。图8b是根据本公开实施例提出的掩码预训练文本的示意图二。如图8b所示,该掩码预训练文本的方法为确定预训练文本中的第一电力实体和第一电力实体对应的第一属性,将第一电力实体和第一属性替换为掩码。仍如图8b所示,该方法能够体现出实体和属性值之间相关性,由于该掩码预训练文本的方法能够体现出实体和属性值之间的关系,因此如果采用以该方式进行掩码的预训练文本对文本嵌入表示模块进行训练,能够使得该文本嵌入表示模块学习到电力行业中电力实体和属性之间的关联关系、以及电力文本的语义信息。
[0161]
因此,为了将预训练文本中第一电力实体和第一属性替换为掩码,本公开实施例中还需要确定预训练文本中的第一电力实体和第一电力实体对应的第一属性,该确定方法具体包括:
[0162]
获取电力行业的预训练文本信息,电力行业的预训练文本信息中包含预训练文本
中的电力实体和属性的关联关系;
[0163]
利用关联关系,确定预训练文本中的第一电力实体和第一电力实体对应的第一属性。
[0164]
本公开实施例提出的确定训练文本中第一电力实体和第一电力实体对应的第一属性,能够在后续对文本嵌入表示模块的训练中,提高该文本嵌入表示模块对电力行业知识的学习程度;同时,采用关联关系,确定预训练文本中的第一电力实体和第一电力实体对应的第一属性能够提高对训练文本信息中的电力实体和属性进行掩码的准确度。
[0165]
此外,为了能够使得文本嵌入表示模块获取电力行业的知识、特征和示电力实体和属性之间的相关性,本公开实施例还提出了利用掩码处理后的预训练文本,对文本嵌入表示模块进行预训练,具体包括:
[0166]
以掩码语言模型(masked language model,mlm)任务作为训练任务,利用掩码处理后的预训练文本,对文本嵌入表示模块进行预训练,以使文本嵌入表示模块学习到预训练文本中的语义信息、和/或第一电力实体与第一属性之间的关联关系。
[0167]
本公开实施例提出的文本嵌入表示模块进行预训练的方式有效利用了语言模型中的隐性语义,增加了文本嵌入表示模型在电业领域上的知识语义上的表达能力。
[0168]
本公开实施例还提出一种相似度打分模型的训练装置,图9是根据本公开一实施例的相似度打分模型的训练装置900的结构示意图,包括:
[0169]
相似度预测模块910,用于将至少两个样本电力实体的样本数据输入待训练的相似度打分模型,由待训练的相似度打分模型输出至少两个样本电力实体的预测相似度;
[0170]
调整模块920,用于将预测相似度与至少两个样本电力实体的相似度标签进行比较,根据比较结果调整待训练的相似度打分模型的参数,以得到训练完成的相似度打分模型;其中,
[0171]
待训练的相似度打分模型包括至少两个文本嵌入表示模块和相似度打分模块,各个文本嵌入表示模块的输出端分别连接相似度打分模块的输入端。
[0172]
在一些实施方式中,样本电力实体的个数与文本嵌入表示模块的个数相等,两个样本电力实体与至少两个文本嵌入表示模块一一对应;
[0173]
相似度预测模块910,用于将各个样本电力实体的样本数据分别输入对应的文本嵌入表示模块。
[0174]
在一些实施方式中,样本电力实体的样本数据中包括样本电力实体的至少一个样本属性值;
[0175]
相似度预测模块910,用于针对各个样本电力实体,将样本电力实体的至少一个样本属性值输入对应的文本嵌入表示模块。
[0176]
在一些实施方式中,在样本电力实体的样本数据中包括样本电力实体的至少两个样本属性值的情况下,相似度预测模块910,用于:
[0177]
将样本电力实体的样本数据中的至少两个样本属性值依次连接,并在相邻样本属性值之间插入分隔符,以得到属性值序列;
[0178]
将属性值序列输入文本嵌入表示模块。
[0179]
在一些实施方式中,相似度预测模块910,用于:
[0180]
待训练的相似度打分模型中的各个文本嵌入表示模块分别对接收的属性值序列
进行编码,以得到对应的向量表示,并将向量表示输入待训练的相似度打分模型中的相似度打分模块;
[0181]
相似度打分模块计算接收的两个或多个向量表示的相似度,以得到至少两个样本电力实体的预测相似度。
[0182]
图10是根据本公开一实施例的相似度打分模型的训练装置1000的结构示意图,如图10所示,在一些实施方式中,该相似度打分模型的训练装置1000,还包括:
[0183]
第一获取模块1030,用于获取预训练文本;
[0184]
掩码模块1040,用于对预训练文本进行掩码处理,以使预训练文本中的至少一个词被替换为掩码;
[0185]
预训练模块1050,用于利用掩码处理后的预训练文本,对文本嵌入表示模块进行预训练。
[0186]
在一些实施方式中,掩码模块1040,用于:
[0187]
随机选择预训练文本中的词,将随机选择的词替换为掩码;和/或,
[0188]
确定预训练文本中的第一电力实体和第一电力实体对应的第一属性,将第一电力实体和第一属性替换为掩码。
[0189]
在一些实施方式中,预训练模块1050,用于:
[0190]
以掩码语言模型任务作为训练任务,利用掩码处理后的预训练文本,对文本嵌入表示模块进行预训练,以使文本嵌入表示模块学习到预训练文本中的语义信息、和/或第一电力实体与第一属性之间的关联关系。
[0191]
在一些实施方式中,掩码模块1040,用于:
[0192]
获取电力行业的预训练文本信息,电力行业的预训练文本信息中包含预训练文本中的电力实体和属性的关联关系;
[0193]
利用关联关系,确定预训练文本中的第一电力实体和第一电力实体对应的第一属性。
[0194]
本公开实施例还提出一种电力行业的实体消歧装置,图11是根据本公开一实施例的电力行业的实体消歧装置1100的结构示意图,包括:
[0195]
第二获取模块1110,用于获取至少两个电力行业候选数据;
[0196]
相似度确定模块1120,用于将至少两个电力行业候选数据输入预先训练的相似度打分模型,由相似度打分模型输出至少两个候选电力实体的相似度;
[0197]
消歧模块1130,用于根据相似度对至少两个候选电力实体进行消歧处理;
[0198]
其中,相似度打分模型根据上述相似度打分模型的训练方法训练得到。
[0199]
在一些实施方式中,相似度打分模型包括至少两个文本嵌入表示模块和相似度打分模块,各个文本嵌入表示模块的输出端分别连接相似度打分模块的输入端;
[0200]
将相似度确定模块1120,用于将各个电力行业候选数据分别输入对应的文本嵌入表示模块。
[0201]
在一些实施方式中,任一电力行业候选数据包括候选电力实体和候选电力实体的至少一个候选属性值;
[0202]
相似度打分模型,用于将电力行业候选数据中的至少一个候选属性值输入对应的文本嵌入表示模块。
[0203]
在一些实施方式中,第二获取模块1110,用于:
[0204]
从电力行业文档中提取多个电力行业候选数据;
[0205]
根据预先设定的电力行业知识点的架构文件和/或配置文件,对提取的多个电力行业候选数据进行分组处理,得到多个分组;每个分组中包括多个电力行业候选数据;
[0206]
从任一分组中,获取至少两个电力行业候选数据。
[0207]
在一些实施方式中,电力行业知识点的架构文件包括:
[0208]
电力行业中的实体、实体对应的实体属性、以及实体属性的值类型中的至少之一。
[0209]
在一些实施方式中,电力行业知识点的配置文件包括:
[0210]
用于分组处理的实体属性、分组的键粒度、以及数据聚合处理时使用的预设阈值中的至少之一。
[0211]
在一些实施方式中,消歧模块1130,用于:
[0212]
在相似度大于或等于预设阈值的情况下,将至少两个候选电力实体进行聚合,得到归一组;
[0213]
从同一归一组中的两个或多个候选电力实体中,选取第一候选电力实体,并删除其余候选电力实体;
[0214]
将第一候选电力实体保存在知识图谱中,并将删除的候选电力实体作为第一候选电力实体的相关信息。
[0215]
本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
[0216]
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0217]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0218]
图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0219]
如图12所示,设备1200包括计算单元1201,其可以根据存储在只读存储器(rom)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(ram)1203中的计算机程序,来执行各种适当的动作和处理。在ram 1203中,还可存储设备1200操作所需的各种程序和数据。计算单元1201、rom 1202以及ram 1203通过总线1204彼此相连。输入/输出(i/o)接口1205也连接至总线1204。
[0220]
设备1200中的多个部件连接至i/o接口1205,包括:输入单元1206,例如键盘、鼠标等;输出单元1207,例如各种类型的显示器、扬声器等;存储单元1208,例如磁盘、光盘等;以及通信单元1209,例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0221]
计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算
单元1201的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理,例如电力行业的实体消歧方法。例如,在一些实施例中,电力行业的实体消歧方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由rom 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到ram 1203并由计算单元1201执行时,可以执行上文描述的电力行业的实体消歧方法的一个或多个步骤。备选地,在其他实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行电力行业的实体消歧方法。
[0222]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0223]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0224]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0225]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
[0226]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0227]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0228]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0229]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
技术特征:
1.一种相似度打分模型的训练方法,包括:将至少两个样本电力实体的样本数据输入待训练的相似度打分模型,由所述待训练的相似度打分模型输出所述至少两个样本电力实体的预测相似度;将所述预测相似度与所述至少两个样本电力实体的相似度标签进行比较,根据比较结果调整所述待训练的相似度打分模型的参数,以得到训练完成的相似度打分模型;其中,所述待训练的相似度打分模型包括至少两个文本嵌入表示模块和相似度打分模块,各个所述文本嵌入表示模块的输出端分别连接所述相似度打分模块的输入端。2.根据权利要求1所述的方法,其中,所述样本电力实体的个数与所述文本嵌入表示模块的个数相等,所述两个样本电力实体与所述至少两个文本嵌入表示模块一一对应;所述将至少两个样本电力实体的样本数据输入待训练的相似度打分模型,包括:将各个样本电力实体的样本数据分别输入对应的文本嵌入表示模块。3.根据权利要求2所述的方法,其中,所述样本电力实体的样本数据中包括所述样本电力实体的至少一个样本属性值;所述将各个样本电力实体的样本数据分别输入对应的文本嵌入表示模块,包括:针对各个样本电力实体,将所述样本电力实体的至少一个样本属性值输入对应的文本嵌入表示模块。4.根据权利要求3所述的方法,其中,在所述样本电力实体的样本数据中包括所述样本电力实体的至少两个样本属性值的情况下,所述将所述样本电力实体的至少一个样本属性值输入对应的文本嵌入表示模块,包括:将所述样本电力实体的样本数据中的至少两个样本属性值依次连接,并在相邻样本属性值之间插入分隔符,以得到属性值序列;将所述属性值序列输入所述文本嵌入表示模块。5.根据权利要求4所述的方法,其中,所述待训练的相似度打分模型输出所述至少两个样本电力实体的预测相似度,包括:所述待训练的相似度打分模型中的各个文本嵌入表示模块分别对接收的属性值序列进行编码,以得到对应的向量表示,并将所述向量表示输入所述待训练的相似度打分模型中的相似度打分模块;所述相似度打分模块计算接收的两个或多个向量表示的相似度,以得到所述至少两个样本电力实体的预测相似度。6.根据权利要求1-5中任一所述的方法,还包括:获取预训练文本;对所述预训练文本进行掩码处理,以使所述预训练文本中的至少一个词被替换为掩码;利用掩码处理后的预训练文本,对所述文本嵌入表示模块进行预训练。7.根据权利要求6所述的方法,其中,所述对所述预训练文本进行掩码处理,以使所述预训练文本中的至少一个词被替换为掩码,包括:随机选择所述预训练文本中的词,将随机选择的词替换为掩码;和/或,确定所述预训练文本中的第一电力实体和所述第一电力实体对应的第一属性,将所述第一电力实体和所述第一属性替换为掩码。
8.根据权利要求7所述的方法,其中,所述利用掩码处理后的预训练文本,对所述文本嵌入表示模块进行预训练,包括:以掩码语言模型mlm任务作为训练任务,利用所述掩码处理后的预训练文本,对所述文本嵌入表示模块进行预训练,以使所述文本嵌入表示模块学习到所述预训练文本中的语义信息、和/或所述第一电力实体与所述第一属性之间的关联关系。9.根据权利要求7或8所述的方法,其中,所述确定所述预训练文本中的第一电力实体和所述第一电力实体对应的第一属性,包括:获取电力行业的预训练文本信息,所述电力行业的预训练文本信息中包含所述预训练文本中的电力实体和属性的关联关系;利用所述关联关系,确定所述预训练文本中的所述第一电力实体和所述第一电力实体对应的第一属性。10.一种电力行业的实体消歧方法,包括:获取至少两个电力行业候选数据;将所述至少两个电力行业候选数据输入预先训练的相似度打分模型,由所述相似度打分模型输出至少两个所述候选电力实体的相似度;根据所述相似度对所述至少两个候选电力实体进行消歧处理;其中,所述相似度打分模型采用权利要求1-9中任一所述的方法训练得到。11.根据权利要求10所述的方法,其中,所述相似度打分模型包括至少两个文本嵌入表示模块和相似度打分模块,各个所述文本嵌入表示模块的输出端分别连接所述相似度打分模块的输入端;所述将所述至少两个电力行业候选数据输入预先训练的相似度打分模型,包括:将各个所述电力行业候选数据分别输入对应的文本嵌入表示模块。12.根据权利要求11所述的方法,其中,所述任一所述电力行业候选数据包括候选电力实体和所述候选电力实体的至少一个候选属性值;将所述电力行业候选数据输入对应的文本嵌入表示模块,包括:将所述电力行业候选数据中的所述至少一个候选属性值输入对应的文本嵌入表示模块。13.根据权利要求1-12中任一所述的方法,其中,所述获取至少两个电力行业候选数据,包括:从电力行业文档中提取多个电力行业候选数据;根据预先设定的电力行业知识点的架构文件和/或配置文件,对提取的多个电力行业候选数据进行分组处理,得到多个分组;每个所述分组中包括多个电力行业候选数据;从任一所述分组中,获取至少两个电力行业候选数据。14.根据权利要求13所述的方法,其中,所述电力行业知识点的架构文件包括:所述电力行业中的实体、实体对应的实体属性、以及实体属性的值类型中的至少之一。15.根据权利要求13所述的方法,其中,所述电力行业知识点的配置文件包括:用于分组处理的实体属性、分组的键粒度、以及数据聚合处理时使用的预设阈值中的至少之一。16.根据权利要求10-15中任一所述的方法,其中,所述根据所述相似度对所述至少两
个候选电力实体进行消歧处理,包括:在所述相似度大于或等于预设阈值的情况下,将所述至少两个候选电力实体进行聚合,得到归一组;从同一所述归一组中的两个或多个候选电力实体中,选取第一候选电力实体,并删除其余候选电力实体;将所述第一候选电力实体保存在知识图谱中,并将删除的候选电力实体作为所述第一候选电力实体的相关信息。17.一种相似度打分模型的训练装置,包括:相似度预测模块,用于将至少两个样本电力实体的样本数据输入待训练的相似度打分模型,由所述待训练的相似度打分模型输出所述至少两个样本电力实体的预测相似度;调整模块,用于将所述预测相似度与所述至少两个样本电力实体的相似度标签进行比较,根据比较结果调整所述待训练的相似度打分模型的参数,以得到训练完成的相似度打分模型;其中,所述待训练的相似度打分模型包括至少两个文本嵌入表示模块和相似度打分模块,各个所述文本嵌入表示模块的输出端分别连接所述相似度打分模块的输入端。18.一种电力行业的实体消歧装置,包括:第二获取模块,用于获取至少两个电力行业候选数据;相似度确定模块,用于将所述至少两个电力行业候选数据输入预先训练的相似度打分模型,由所述相似度打分模型输出至少两个所述候选电力实体的相似度;消歧模块,用于根据所述相似度对所述至少两个候选电力实体进行消歧处理;其中,所述相似度打分模型采用权利要求17中任一所述的装置训练得到。19.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-16中任一项所述的方法。21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-16中任一项所述的方法。
技术总结
本公开提供了电力行业的实体消歧方法及装置,涉及人工智能技术领域,尤其涉及大数据、知识图谱技术领域。具体实现方案为:将至少两个样本电力实体的样本数据输入待训练的相似度打分模型,由待训练的相似度打分模型输出至少两个样本电力实体的预测相似度;将预测相似度与至少两个样本电力实体的相似度标签进行比较,根据比较结果调整待训练的相似度打分模型的参数,以得到训练完成的相似度打分模型;其中,待训练的相似度打分模型包括至少两个文本嵌入表示模块和相似度打分模块,各个文本嵌入表示模块的输出端分别连接相似度打分模块的输入端。本公开能够对电力行业的实体进行消歧。歧。歧。
技术研发人员:尹从峰 章玥 史亚冰 蒋烨
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2023.04.24
技术公布日:2023/8/4
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/