一种基于多源数据融合的业务管理系统及方法与流程

未命名 09-15 阅读:80 评论:0


1.本发明涉及业务管理技术领域,特别是涉及一种基于多源数据融合的业务管理系统及方法。


背景技术:

2.科技成果是指通过科学研究与技术开发所产生的具有实用价值的成果,是人们在科学技术活动中通过复杂的智力劳动所得出的具有某种被公认的学术或者经济价值的知识产品。为了对科技成果进行管理,可以建立科技管理系统,以对科技成果进行记录和保存,并提供相应的访问接口,以供用户对科技成果进行查询和分析。
3.由于科技成果数据具有数据来源多、数据量的特点,并且各数据的表现形式也不相同,例如可能有些数据采用图像的表现形式,而有些数据采用文本的表现形式,因此,如果将科技成果以离散的形式存储在管理系统中,那么在进行数据查询时,不能保证所获取的数据的完整性和准确性。


技术实现要素:

4.鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于多源数据融合的业务管理系统及方法,能够解决在进行数据查询时存在的完整性差和准确性低的问题,达到改善用户体验的目的。
5.具体地,本发明提供了一种基于多源数据融合的业务管理方法,包括:获取多个数据源的关于技术成果的预设数据;采用基于表示学习的方法对所述预设数据进行融合处理,以得到关于所述技术成果的融合数据;采用基于本体的构建方法,根据所述融合数据构建关于所述技术成果的知识图谱。
6.根据本发明的一个实施例,所述的采用基于表示学习的方法对所述预设数据进行融合处理,包括:采用表示学习算法对各所述预设数据进行处理,以根据各所述预设数据得到各实体的特征向量;根据预设相似度对各所述实体的特征向量进行过滤,并对过滤后的所述特征向量进行拼接。
7.根据本发明的一个实施例,所述的根据预设相似度对各所述实体的特征向量进行过滤,包括:计算各所述实体对应各特征向量的余弦相似度;若有多个特征向量的余弦相似度大于所述预设相似度,则仅保留多个所述特征向量中的一个。
8.根据本发明的一个实施例,所述的采用基于本体的构建方法,根据所述融合数据
构建关于所述技术成果的知识图谱,包括:根据所述技术成果所涉及的技术领域构建相应的领域本体库,并将所述领域本体库映射为全局本体库;根据所述融合数据和所述全局本体库进行实体对齐和实体链接,以得到所述知识图谱。
9.根据本发明的一个实施例,在所述得到所述知识图谱后,还包括:采用基于协同过滤机制的方法对所述知识图谱进行补全。
10.根据本发明的一个实施例,所述的采用基于本体的构建方法,根据所述融合数据构建关于所述技术成果的知识图谱,包括:获取预训练命名实体识别模型;以及采用所述预训练命名实体识别模型进行实体的识别。
11.根据本发明的一个实施例,所述的获取预训练命名实体识别模型,包括:采用lstm对开放域和特定域进行训练,并将从所述开放域习得的中间表示迁移至所述特定域;根据所述特定域的训练数据对预设神经网络进行训练,以得到所述预训练命名实体识别模型。
12.根据本发明的一个实施例,所述的采用基于本体的构建方法,根据所述融合数据构建关于所述技术成果的知识图谱,包括:获取预训练关系抽取模型;以及采用所述预训练关系抽取模型获取各实体之间的关系。
13.根据本发明的一个实施例,所述的获取预训练关系抽取模型,包括:采用弱监督标注的方式对训练数据集中的实体之间的关系进行标注;根据标注后的所述训练数据集对预设双向lstm抽取模型进行训练,以得到所述预训练关系抽取模型。
14.另一方面,本发明还提供了一种基于多源数据融合的业务管理系统,其特征在于,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的机器可执行程序,并且所述处理器执行所述机器可执行程序时实现如上述任意一项实施例所述的基于多源数据融合的业务管理方法。
15.本发明所提供的技术方案,首先采用基于表示学习的方法对关于技术成果的预设数据进行融合处理,以将多个数据源关于技术成果的数据进行融合;然后采用基于本体的构建方法,根据各数据源的融合数据得到关于技术成果的知识图谱。由于采用基于表示学习的方法对预设数据进行融合处理时,可以将不同类型的预设数据中的实体的特征进行融合,并且通过知识图谱的形式将各数据源关于科技成果的数据进行存储,可以关联科技成果数据中各实体、概念和属性的关系,因此在用户进行查询时,可以对查询需求进行协同理解和计算,以从深入的语义层次提供完整、准确的查询结果,从而解决现有技术中的业务管理系统存在的查询结果完整性差和准确性低的问题。
16.根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
17.后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:图1是根据本发明一个实施例的基于多源数据融合的业务管理方法的示意性流程图;图2是根据本发明一个实施例的采用基于表示学习的方法对预设数据进行融合处理的示意性流程图;图3是根据本发明一个实施例的根据相似度对各实体的特征向量进行过滤的流程图;图4是根据本发明一个实施例的基于本体的构建方法构建知识图谱的过程的示意图;图5是根据本发明一个实施例的采用基于协同过滤机制的方法对该知识图谱进行补全的示意图;图6是根据本发明一个实施例的对目标数据进行实体识别的示意性流程图;图7是根据本发明一个实施例的目标数据进行关系抽取的示意性流程图。
具体实施方式
18.下面参照图1至图7来描述本发明实施例的一种基于多源数据融合的业务管理系统及方法。在本实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征,也即包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个、三个等,除非另有明确具体的限定。当某个特征“包括或者包含”某个或某些其涵盖的特征时,除非另外特别地描述,这指示不排除其它特征和可以进一步包括其它特征。
19.在本实施例的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
20.请参阅图1,图1是所示出的是本技术的一个实施例的一种基于多源数据融合的业务管理方法,该业务管理方法应用于关于科技成果的业务管理平台,采用知识图谱将技术成果的多源数据进行融合,以关联技术成果实体、概念和属性的关系。下面结合图1所示出的流程,对本实施例的基于多源数据融合的业务管理方法做详细的介绍。
21.如图1所示,本实施例的基于多源数据融合的业务管理方法包括如下步骤:步骤s1:获取多个数据源的关于技术成果的预设数据;步骤s2:采用基于表示学习的方法对上述各预设数据进行融合,以得到关于技术成果的融合数据;步骤s3:采用基于本体的构建方法,根据关于科技成果的融合数据构建关于技术
成果的知识图谱。
22.在上述步骤s1中,数据源是指用于向业务管理平台输入关于科技成果的数据的用户或者设备,各数据源所输入的关于技术成果的预设数据可以为同一类型的数据,也可以为不同类型的数据,例如各数据源的预设数据的类型可以为表格数据、文本数据或者图像数据。
23.在上述步骤s2中,可以先识别出各预设数据中的实体,然后根据各预设数据的语义,通过表示学习算法将各预设数据转化成为稠密度低维表示向量,即得到各预设数据中实体的特征向量。由于同一个实体可能在不同的预设数据中有不同的特征向量,因此,本实施例中各实体在各预设数据中的特征向量进行融合,以得到各实体的全部特征向量,进而得到关于技术成果的融合数据。
24.随着网络信息的快速增长,数据的表现形式层出不穷。标准数据获取的信息途径极为丰富,不但可以从文本中获得,还可以从图像等异质数据获得,即数据可以采用不同类型的表示方式。异质数据可以提供丰富多样的信息,使得应用场景不仅仅局限于文本应用。为了能够将多数据源的关于技术成果数据的不同类型的预设整合,将离散分布的技术成果数据连通为全局统一的知识库,为技术转移活动提供基于全网数据的技术支持,本实施例中通过分析异质数据之间的语义关联关系,采用表示学习算法将各预设数据转化为同一的表示方式表示学习具有非常强的认知基础,如针对nlp(natural language processing,自然语言处理)处理中的数据稀疏难题,通过构建低维向量表示空间,把所有对象映射到这个空间里面,就可以利用这个空间的连续性较好地处理数据稀疏问题;另外从最基础的词到句子,到文档之间的语义关联性计算,通过将这些对象映射到统一的空间中,能够非常容易地计算它们之间的语义关系。
25.在上述步骤s3中,可以将各采用基于本体的构建方法构建本体库,然后再根据该本体库进行知识的获取和融合,以得到对应的知识图谱,即得到关于技术成果的知识图谱。
26.知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。在大数据驱动的人工智能时代,知识图谱能够将原本没有联系的数据连通,将离散的数据整合在一起,从而提供更有价值的决策支持。因此知识图谱在在语义搜索、智能问答、知识发现挖掘等领域得到了广泛应用,同时其灵活可变的数据模式特性使得其非常适用于企业大数据的集成与融合。
27.综上所述,本实施例的技术方案中,首先采用基于表示学习的方法对关于技术成果的预设数据进行融合处理,以将多个数据源关于技术成果的数据进行融合;然后采用基于本体的构建方法,根据各数据源的融合数据得到关于技术成果的知识图谱。由于采用基于表示学习的方法对预设数据进行融合处理时,可以将不同类型的预设数据中的实体的特征进行融合,并且通过知识图谱的形式将各数据源关于科技成果的数据进行存储,可以关联科技成果数据中各实体、概念和属性的关系,因此在用户进行查询时,可以对查询需求进行协同理解和计算,以从深入的语义层次提供完整、准确的查询结果,从而解决现有技术中的业务管理系统存在的查询结果完整性差和准确性低的问题。
28.在本发明的一个实施例中,步骤s2的采用基于表示学习的方法对预设数据进行融合处理的流程如图2所示,包括:步骤s21:采用表示学习算法对各预设数据进行处理,以根据各预设数据得到各实体的特征向量;步骤s22:根据预设相似度对各实体的特征向量进行过滤,以滤除各实体的重复特征向量;步骤s23:对过滤后的各实体的特征向量进行拼接,以得到各实体的全部特征向量。
29.在上述步骤s21中,可以根据表示学习算法建立文本表示模型,例如可以采用嵌入词表示word2vec模型,对预设数据进行处理,以识别出各预设数据语义特征,从而从预设数据中分别得到各实体的特征向量。
30.上述的word2vec模型属于现有技术,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本,在该神经网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
31.在上述步骤s22中,以一个实体为例,首先计算出该实体的各特征向量之间的相似性,然后对其中相似性大于预设相似度的特征向量进行过滤,以滤除该实体的重复特征向量。由于相似度大于预设相似度的特征向量可以认为是该实体的同一特征,因此需要进行过滤可以避免实体的特征向量出现重复,从而减少各实体的复杂程度。
32.在上述步骤s23中,可以将根据各预设数据得到的属于同一实体的特征向量拼接到同一实体中,以对各实体的特征向量进行融合,得到各实体的全部特征向量。
33.通过本实施例的设置方式,可以根据实体各特征向量的相似度进行过滤,以滤除相似度大于预设相似度的特征向量,从而避免实体的特征向量出现重复的现象,减少各实体特征向量的复杂程度。
34.在本发明的一个实施例中,步骤s22中根据相似度对各实体的特征向量进行过滤的流程如图3所示,包括如下步骤:步骤s31:分别计算各实体对应特征向量之间的余弦相似度;步骤s32:判断各实体所对应的特征向量中是否有多个特征向量之间的余弦相似度大于预设相似度,如果大于,则仅保留该多个特征向量中一个,并删除该多个特征向量中的其他特征向量。
35.在本实施例中,特征向量之间的余弦相似度,是指根据两个特征向量之间夹角的余弦值得到的相似性,即当同一实体的两个特征向量之间夹角的余弦值大于预设余弦值时,判断为这两个特征向量之间的余弦相似度大于预设相似度。
36.通过本实施例的设置方式,可以根据特征向量之间的余弦相似度确定各实体的重复特征向量,以提高对各实体的特征向量过滤的可靠性。
37.在本发明的一个实施例中,上述步骤s3中采用基于本体的构建方法,根据科技成果的实体构建技术成果的知识图谱的方法,包括如下步骤:步骤s41:根据技术成果所涉及的技术领域,构建相应的领域本体库;
步骤s42:将各领域本体库映射为全局本体库;步骤s43:根据技术成果的融合数据和全局本体库进行实体对齐和实体链接,以得到关于技术成果的知识图谱。
38.本实施例中基于本体的构建方法构建知识图谱的过程如图4所示,在从多个数据源得到关于技术成果的预设数据后,该预设数据包括结构化数据、半结构化数据和非结构化数据,在上述步骤s41中,根据技术成果所涉及到达技术领域构建领域本体库,其中技术成果可能会涉及到多个技术领域,并且每个技术领域设置有对应的关系数据库。在本实施例中,可以从各技术领域的关系数据库中抽取关系模式,分析关系数据库中表的信息和字段信息,建立相应的概念模型;然后利用设定转换规则,将关系数据库中的关系模式转化为本体模型,最后对领域本体模型进行评估和校验,包括判断该领域本体模型是否满足预设的本体库构建原则,其中的术语是否正确,其涉及的概念和关系是否完整。若是领域本体模型通过了评估和校验,则完成领域本体库的构建。
39.在上述步骤s42中,可以首先对不同领域内的本体存在相同或者相似的概念和属性的情况,采用相似性检测规则进行检测,例如语义相似性检测、概念相似性检测、属性相似性检测、数据格式相似性检测等,以将不同领域内相同或者相似的文本进行统一;然后,采用冲突结果规则对存在相似概念或相似属性等冲突问题进行解决,以消除概念的歧义,剔除冗余和错误的概念,从而保证全局本体库的质量。最后,将剩余领域的本体经过冲突解决和实体消岐等处理,映射到全局本体库,与各个领域本体库相结合,以实现全局本体库的构建。在构建出全局本体库后,以实现关于技术成果的知识图谱的初步构建。
40.在上述步骤s43中,通过实体对齐和实体链接进行知识获取和融合,以实现关于技术成果的知识图谱的构建,其中实体对齐也称为实体匹配或实体解析,是判断相同或者不同数据集中两个实体是否指向真实世界同一对象的过程。实体对齐过程包括:首先,对于开放链接数据和行业领域的百科数据中的实体进行提取,以得到实体的同义名称集合;其次,通过实体对齐的方法,将各实体与技术成果的融合数据中的实体进行匹配,并将匹配结果作为实体合计的候选实体集;最后,对别候选实体集中各实体的上层概念,并判断各实体的上层概念是否相同;如果相同,则将其合并为同一个实体。
41.上述实体链接实质从文本中抽取实体对象,并将其链接到初步构建的知识图谱中对应的正确实体对象的操作。实体链接的思想是:首先根据给定的三元组的头部实体和关系,从知识图谱或者其他相关数据中选取一组候选实体对象,然后通过实体链接预测算法计算出正确的尾部实体;或者首先根据给定的三元组的尾部实体和关系,从知识图谱或者其他相关数据中选取一组候选实体对象,然后通过实体链接预测算法计算出正确的头部实体;最后将得到的三元组添加到相应的知识图谱中。
42.通过本实施例的设置方式,采用基于本体的构建方法构建关于科技成果的知识图谱,可以保证该知识图谱语义的正确性、有效性、可移植性和可拓展性,能够提高完成知识图谱的构建和管理的效率。
43.由于本发明的技术方案中,采用基于表示学习的方法对各关于技术成果的预设数据进行融合后,再构建关于技术成果的知识图谱,而由于基于表示学习的方法构建出的实体的特征可能存在可解释性差的问题,导致不能充分挖掘各实体之间的关系,导致技术成果知识图谱通常很难全面覆盖所有的实体和事实。因此,为了保证所得到的关于技术成果
的知识图谱的完整性,在构建出该知识图谱后,需要发现该知识图谱中未发现的三元组事实,以对该知识图谱进行补全。下面结合具体应用场景,对本技术的关于技术成果的知识图谱的补全方法做相应的介绍。
44.在本发明的一个实施例中,在得到关于技术成果的知识图谱后,采用基于协同过滤机制的方法对该知识图谱进行补全。
45.对关于技术成果的知识图谱的问题在于:如何选取待补全的候选的实体对,即如何判定哪些实体对可能存在事实关系;以及如何正确的推断出实体对之间的关系。在本实施例中,对于候选实体对的选取问题,考虑到相似的标准实体或者概念通常具有相似性的标准概念和实例,可以采用基于协同过滤的思想来利用科技成果知识图谱的邻居实体来选择候选实体对。
46.由于相似的技术成果实体或概念应有着相似的上下位词,因此,可以采用如下方法获取候选实体对:首先,基于jaccard相似性和noisy-or模型设计一种有效的词语义相似性度量;然后,基于回归模型和词语在标准概念图谱的结构特征上设计一种候选上下位词排名度量,并选取最佳的概念进行补全。
47.本实施例的采用基于协同过滤机制的方法对该知识图谱进行补全如图5所示,根据noisy-or模型可以得知实体c与实体h’、实体t1、实体t2有关系,同时实体s1与实体t1、实体t2有关系,即实体t1和实体t1同时与实体c、实体s1有关系,可以认为实体c和实体s1之间的jaccard相似性大于对应的词语相似性度量;若实体s1到实体sk中,各实体的jaccard相似性也大于对应的词语相似性度量,则将实体s1到实体sk作为推荐实体,并根据noisy-or模型得到实体s1到实体sk中各实体所关联的实体,即得到实体h1到实体hm,并且将实体h1到实体hm作为候选实体。
48.通过本实施例的设置方式,可以对科技成果的知识图谱进行补全,以保证知识图谱的完整性,从而在进行数据查询时,也可以进一步地保证所查询到的数据的准确性和完整性。
49.在上述步骤s2中采用基于表示学习的方法对预设数据进行融合处理时,以及在上述步骤s3中构建关于技术成果的知识图谱时,都需要对相应目标数据中的实体进行识别,以及对各实体间的实体关系进行抽取。例如,在上述步骤s2中需要对各预设数据中的实体进行识别;在上述步骤s3中,不仅需要对关于技术成果的融合数据中的实体进行识别和各实体之间的关系进行抽取,而且还需要对开放链数据和行业领域的百科数据中的实体进行识别和各实体之间的关系进行抽取。下面结合具体的应用场景,对目标数据中进行实体的识别方法和实体之间关系的抽取方法做详细的介绍。
50.在本发明的一个实施例中,本发明的基于多源数据融合的业务管理方法中在对实体进行识别时,所采用的识别方法的流程如图6所示,包括如下步骤:步骤s51:获取预训练命名实体识别模型;步骤s52:将目标数据输入到上述预训练命名实体识别模型中,以识别出目标数据中的实体。
51.在上述步骤s51中,预训练命名实体识别模型可以为经过训练所得到的神经网络模型,可以采用数据读取的方式获取已经训练好的命名实体识别模型,也可以采用数据训
练集对预设结构的神经网络模型进行训练,以得到预训练命名实体识别模型。
52.在上述步骤s52中,可以将如预设数据、融合数据、开放链数据或者行业领域的百科数据等目标数据输入到预训练实名实体识别模型,以识别出相应的实体。
53.通过本实施例的设置方式,可以采用预训练实体识别模型快速地识别出目标数据中的实体,以提高对实体识别的工作效率。
54.在本发明的一个实施例中,上述步骤s51的获取预训练命名实体识别模型的方法,包括:采用lstm(long short-term memory,长短记忆网络)对开放域和特定域进行训练,以使lstm习得开放域的中间表示;将从开放域习得的中间表示迁移至特定域,并采用所述特定域的训练数据对预设神经网络进行训练,以得到预训练命名实体识别模型。
55.由于技术成果图谱构建的领域训练数据匮乏,无法利用特定领域数据训练有效的命名实体识别模型。因此,本实施例中利用开放领域的数据的训练数据帮助标准领域的关系抽取。命名实体识别模型在开放域和特定域有大量类型特征,比如相同的词汇和相同的语法,并且开放域的训练数据量充足。利用迁移学习算法解决样本系数的问题,包括:利用lstm对开放域和特定域进行训练,并将开放域习得的中间表示迁移、嫁接给特定域,使得特定域能够充分利用开放域所习得的标准表示。
56.在本发明的一个实施例中,本发明的基于多源数据融合的业务管理方法中在对实体之间关系进行抽取时,所采用的抽取方法的流程如图7所示,包括如下步骤:步骤s61:获取预训练关系抽取模型;步骤s62:将目标数据输入到上述预训练关系抽取模型,识别出目标数据中各实体之间的关系。
57.在上述步骤s61中,可以采用已经训练好的预训练关系抽取模型,也可以采用数据训练集对预设的模型进行训练,以得到预训练关系抽取模型。
58.在上述步骤s62中,可以将如预设数据、融合数据、开放链数据或者行业领域的百科数据等目标数据输入上述预训练关系抽取模型,以抽取各实体之间的关系。
59.通过本实施例的设置方式,可以采用预训练关系抽取模型快速地抽取出目标数据中的各实体之间的关系,以提高对获取各实体之间关系的工作效率。
60.在本发明的一个实施例中,步骤s61通过采用训练数据集对预设双向lstm抽取模型进行训练的方法,获取预训练关系抽取模型。
61.在通过采用训练数据集对预设双向lstm抽取模型进行训练的方法时,存在的最大问题是训练数据不充分。现有技术中的训练方法采用的是监督训练的方法,即通过人工标注大量的数据来训练预设双向lstm抽取模型,但是人工标注通常需要大量的工作,不能实现大规模的关系抽取。另一种方法是自举法,即通过种子实体对获取的关系常用模板,通过各模板获取更多的实体对,以此迭代下去。但是该方法存在多轮迭代引起的语义飘逸问题,从而妨碍了关系抽取性能的提升。
62.在本实施例中,采用远程监督,即弱监督的方法对预设双向lstm抽取模型进行训练。弱监督的方法是通过知识库对齐描述实体对的句子,将这些标注的句子作为关系抽取的训练集。针对数据稀疏环境下的标准领域关系抽取任务,拟利用弱监督标注的死了为每
个标准领域的关系自动构造标注数据,为每个关系独立训练双向lstm抽取模型。
63.针对有效特征的抽取问题,本实施例采用增强训练样本的语义表述,包括语法标记、实体类型。针对标准领域的长尾关系样本稀疏问题,采用递进学习的方法合理安排不同标准领域的预设双向lstm抽取模型的训练顺序。有限训练数据量充分的预设双向lstm抽取模型,习得通用行下文的有效表示,从而降低训练过程对样本的依赖。
64.通过本实施例的设置方式,可以在样本稀疏的情况下,提高对预设双向lstm抽取模型进行有效的训练,以提高预训练关系抽取模型的准确性。
65.本实施例还提供了一种基于多源数据融合的业务管理系统,该系统包括处理器和存储器,其中处理器和存储器可以通过通信总线完成相互间的通信。处理器用于提供计算和控制能力。存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序指令。该内存储器为非易失性存储介质中的操作系统和计算机程序指令的运行提供环境。上述装置的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。本实施例所提供的基于多源数据融合的业务管理系统,其存储器用于存储计算机程序指令,该计算机程序指令被处理器执行时可以实现上述基于多源数据融合的业务管理方法的多个实施例。
66.至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

技术特征:
1.一种基于多源数据融合的业务管理方法,其特征在于,包括:获取多个数据源的关于技术成果的预设数据;采用基于表示学习的方法对所述预设数据进行融合处理,以得到关于所述技术成果的融合数据;采用基于本体的构建方法,根据所述融合数据构建关于所述技术成果的知识图谱。2.根据权利要求1所述的基于多源数据融合的业务管理方法,其特征在于,所述的采用基于表示学习的方法对所述预设数据进行融合处理,包括:采用表示学习算法对各所述预设数据进行处理,以根据各所述预设数据得到各实体的特征向量;根据预设相似度对各所述实体的特征向量进行过滤,并对过滤后的所述特征向量进行拼接。3.根据权利要求2所述的基于多源数据融合的业务管理方法,其特征在于,所述的根据预设相似度对各所述实体的特征向量进行过滤,包括:计算各所述实体对应各特征向量的余弦相似度;若有多个特征向量的余弦相似度大于所述预设相似度,则仅保留多个所述特征向量中的一个。4.根据权利要求1所述的基于多源数据融合的业务管理方法,其特征在于,所述的采用基于本体的构建方法,根据所述融合数据构建关于所述技术成果的知识图谱,包括:根据所述技术成果所涉及的技术领域构建相应的领域本体库,并将所述领域本体库映射为全局本体库;根据所述融合数据和所述全局本体库进行实体对齐和实体链接,以得到所述知识图谱。5.根据权利要求4所述的基于多源数据融合的业务管理方法,其特征在于,在所述得到所述知识图谱后,还包括:采用基于协同过滤机制的方法对所述知识图谱进行补全。6.根据权利要求1所述的基于多源数据融合的业务管理方法,其特征在于,所述的采用基于本体的构建方法,根据所述融合数据构建关于所述技术成果的知识图谱,包括:获取预训练命名实体识别模型;以及采用所述预训练命名实体识别模型进行实体的识别。7.根据权利要求6所述的基于多源数据融合的业务管理方法,其特征在于,所述的获取预训练命名实体识别模型,包括:采用lstm对开放域和特定域进行训练,并将从所述开放域习得的中间表示迁移至所述特定域;根据所述特定域的训练数据对预设神经网络进行训练,以得到所述预训练命名实体识别模型。8.根据权利要求1所述的基于多源数据融合的业务管理方法,其特征在于,所述的采用基于本体的构建方法,根据所述融合数据构建关于所述技术成果的知识图谱,包括:获取预训练关系抽取模型;以及采用所述预训练关系抽取模型获取各实体之间的关系。9.根据权利要求8所述的基于多源数据融合的业务管理方法,其特征在于,所述的获取预训练关系抽取模型,包括:采用弱监督标注的方式对训练数据集中的实体之间的关系进行标注;根据标注后的所述训练数据集对预设双向lstm抽取模型进行训练,以得到所述预训练关系抽取模型。10.一种基于多源数据融合的业务管理系统,其特征在于,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的机器可执行程序,并且所述处理器执行所述机器可执行程序时实现根据权利要求1至9任一项所述的基于多源数据融合的业务管理方法。

技术总结
本发明涉及业务管理技术领域,特别是涉及一种基于多源数据融合的业务管理系统及方法,其中方法包括:获取多个数据源的关于技术成果的预设数据;采用基于表示学习的方法对所述预设数据进行融合处理,以得到关于所述技术成果的融合数据;采用基于本体的构建方法,根据所述融合数据构建关于所述技术成果的知识图谱。本发明的技术方案,通过知识图谱的形式将各数据源关于科技成果的数据进行存储,可以关联科技成果数据中各实体、概念和属性的关系,因此在用户进行查询时,可以对查询需求进行协同理解和计算,以从深入的语义层次提供完整、准确的查询结果,从而解决现有技术中的业务管理系统存在的查询结果完整性差和准确性低的问题。统存在的查询结果完整性差和准确性低的问题。统存在的查询结果完整性差和准确性低的问题。


技术研发人员:张德杨 李哲辉 薛蕾 黄文锋 杨一帆
受保护的技术使用者:河南省科学技术情报中心
技术研发日:2023.06.01
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐