一种医疗领域知识图谱构建的方法与流程
未命名
08-07
阅读:102
评论:0

1.本发明涉及人工智能技术在医疗领域的一个实现,具体地说是一种医疗领域知识图谱构建的方法。
背景技术:
2.随着人们对健康问题的愈发重视,医疗保健费用、需求的增长与优质的医疗资源不足之间的矛盾亟待解决。由于近几年人工智能的飞速发展及精准医疗、智慧医疗的提出,医学知识图谱正受到国内外企业、学界的广泛关注,有望带来廉价、高效、精准的医疗建议和诊断。
3.现有技术中还存在着以下问题:针对医疗领域知识提取的算法太过简单,进行复杂知识提取的效果较差,知识融合只考虑到了实体的融合,没有考虑到本体的融合,缺少对图谱的推理和补全的过程,缺少对图谱的质量评估或质量评估的设计太过简单。
技术实现要素:
4.本发明的目的在于提出一种医疗领域知识图谱构建的方法,以解决上述背景技术中提出的知识提取的算法太过简单,提取效果差,知识融合缺少本体的融合,缺少图谱的推理和补全的过程,且缺少对图谱的质量评估的问题。
5.为实现上述目的,本发明提供以下技术方案:
6.一种医疗领域知识图谱构建的方法,包括s1、获取医疗领域相关数据,主要包括结构化数据、半结构化数据和非结构化数据;s2、对获取到的数据进行知识抽取和存储;s3、对已有的知识进行融合,包括本体融合和实体融合;s4、对知识图谱进行知识加工,包括本体构建、知识推理、知识更新和质量评估。
7.所述步骤s1具体包括以下内容:
8.通过接入已有的医疗相关系统数据、网络爬虫爬取医疗数据等方式获取医疗相关的结构化数据、半结构化数据和非结构化数据,并对获取到的数据进行分类和清洗;
9.其中,接入已有的医疗相关系统数据的步骤如下:
10.s1.1.1、对已有的医疗系统进行调研;
11.s1.1.2、接入已有的医疗系统数据;
12.网络爬虫爬取医疗数据的步骤如下:
13.s1.2.1、获取目标医疗数据的url;
14.s1.2.2、向对应url提交http请求;
15.s1.2.3、解析http响应;
16.s1.2.4、存储解析结果。
17.所述步骤s2具体包括结构化数据的知识提取和对半结构化和非结构化数据进行知识提取,其中结构化数据的知识提取通过利用r2rml映射语言将知识从关系数据库映射到rdf数据集中;而对半结构化和非结构化数据进行知识提取采用lstm-crf命名实体识别
模型进行实体抽取或采用pcnn分段卷积神经网络进行关系抽取;最后将抽取的知识存入到jena(apache旗下的rdf三元组数据库)中。
18.所述步骤s2中采用lstm-crf命名实体识别模型进行实体抽取时,模型的构建流程如下:
19.s2.1.1、建立embedding层,将词映射为词向量;
20.s2.1.2、建立n层的双向lstm层,学习词的前后语义信息;
21.s2.1.3、建立crf层,对各个词进行序列标注;
22.采用pcnn分段卷积神经网络进行关系抽取,模型的构建流程如下:
23.s2.2.1、建立embedding词向量提取层,将词和词的位置信息映射为词向量;
24.s2.2.2、建立卷积层,对文本进行分段卷积操作;
25.s2.2.3、建立max池化层;
26.s2.2.4、建立输出层,激活函数为softmax函数;
27.采用dmcnn动态多池化卷积神经网络进行事件抽取时,模型的构建流程如下:
28.s2.3.1、建立embedding词向量提取层,将词和词的位置信息映射为词向量;
29.s2.3.2、建立句子级特征提取层,具体包括:
30.s2.3.2.1、建立卷积层,对文本进行分段卷积操作;
31.s2.3.2.2、建立max池化层;
32.s2.3.3、建立词汇级特征提取层;
33.s2.3.4、将句子级特征提取层和词汇级特征提取层得到的向量合并;
34.s2.3.5、建立输出层,激活函数为softmax函数。
35.所述步骤s3中本体融合具体包括以下内容:
36.s3.1.1、导入待映射的本体,待映射的本体不一定都要转换为统一的本体语言格式,但是要保证本体中需要进行映射的成分能够被方便获取;
37.s3.1.2、发现映射,基于术语的本体融合算法,寻找异构本体间的联系,然后根据这些联系建立异构本体间的映射规则;
38.s3.1.3、表示映射,当本体之间的映射被找到后,需要将这些映射合理地表示起来;
39.所述步骤s3.1.2中,基于术语的本体融合算法包括以下内容:
40.术语对齐:对本体中的术语进行对齐,找出它们之间的对应关系。对齐方法采用字符串匹配、语义相似度计算;
41.术语映射:根据对齐结果,对本体中的术语进行映射,即将不同本体中的术语映射到同一个术语上;
42.结构合并:根据术语映射结果,对本体的结构进行合并,即将不同本体中的类、属性、实例等之间的关系进行合并;
43.冲突解决:在合并过程中可能会出现冲突,如类之间的继承关系等;需要采用一定的方法来解决这些冲突;
44.解决这些冲突的方法包括:
45.人工干预:将冲突的本体交由人工进行决策,选择最合适的解决方案;
46.权衡法:对于不同的解决方案进行评估,选择其中权值最大的方案;
47.合并法:将两个本体中出现冲突的部分进行合并,得到一个新的本体;
48.抛弃法:放弃其中一个本体或者某一部分的信息;
49.转换法:将冲突的信息转换成另一种形式,使得它们不再冲突。
50.所述步骤s3.1.3中,映射具体步骤如下:
51.创建映射关系:根据术语对齐结果,创建不同本体中术语之间的映射关系;映射关系可以表示为一个矩阵,其中每一行表示一组映射关系;
52.冲突解决:在创建映射关系的过程中可能会出现冲突,需要采用一定的方法来解决这些冲突;这里的方法和步骤s3.1.2中的冲突解决的方法一致;
53.优化映射关系:通过使用一些算法对映射关系进行优化,如使用随机游走算法、生成对抗网络等;
54.确定映射关系的优先级:根据不同的应用场景,确定映射关系的优先级,选择最合适的映射关系。
55.所述步骤s3中实体融合具体包括以下内容:
56.s3.2.1、数据预处理,去除实体名称上的标点符号、进行同义词扩展等;
57.s3.2.2、分块,通过启发式策略将不同知识图谱中相似实体分配到相同的块中,减少实体间两两比对的次数;
58.s3.2.3、实体对齐,其中成对对齐只根据一个实体对中的两个实体本身的信息进行匹配,本质上是一个二元分类问题,集体对齐会考虑整个知识图谱的信息进行匹配;
59.s3.2.4、特征匹配,基于文本相似度和结构相似度进行特征匹配。
60.所述步骤s4具体包括本体构建、知识推理、质量评估和知识更新;
61.其中所述本体构建具体包括:
62.s4.1.1、进行纵向概念间的并列关系计算;通过计算任意2个实体间并列关系的相似度,可以辨析它们在语义层面是否属于同一个概念;
63.s4.1.2、进行实体上下位的关系抽取,实体上下位关系抽取方法包括基于语法的抽取和基于语义的抽取两种方式;
64.s4.1.3、生成本体,对各层次得到的概念进行聚类,并为每一类的实体指定1个或多个公共上位词;
65.所述知识推理具体包括:
66.s4.2.1、基于图的算法推理,采用co-pra算法搜索图结构特征;
67.作为优选,所述步s4.2.1中采用co-pra算法搜索图结构特征,具体步骤如下:
68.s4.2.1.1、生成初步的路径,通过路径搜索算法生成以h为起点的小于长度l的路径集合ph;通过路径搜索算法生成以t为起点的小于长度l的路径集合p
t
;;
69.s4.2.2.2、通过pra计算路径特征的概率,对于路径πh∈ph,计算沿着路径πh正向地由h到达x的概率p(h
→
x;πh),以及沿着路径πh逆向地由h到达x的概率同理,对路径π
t
∈p
t
,计算沿着路径π
t
正向地由t到达x的概率p(t
→
x;π
t
),以及沿着路径π
t
逆向地由t到达x的概率并将所有的x放入常量候选集n中;
70.s4.2.2.3、生成候选的常量路径,对于每一个(x∈n,π∈p
t
)的组合,如果p(t
→
x;π
t
)》0,那么生成路径特征其中c=t,并且将路径特征对应的覆盖度值加1,即
同理,对每一个(x∈n,π∈p
t
)的组合,如果那么生成路径特征p(t
→
x;π
t
),其中c=x,并且将路径特征对应的覆盖度值加1,即coverage(p(c
→
t;π
t
))+=1;
71.s4.2.2.4、生成更长的路径特征候选集,对每一个可能的组合(x∈n,πh∈ph,π
t
∈p
t
),如果p(s
←
x;πs)》0且就生成路径并且更新其覆盖度,即同时更新其准确度,即同时更新其准确度,即反向同理。
72.s4.2.2、基于规则学习算法推理,采用amie规则学习算法,amie算法定义了3个挖掘算子,通过不断在规则中增加挖掘算子来探索图上的搜索空间,并且融入了剪枝策略;
73.s4.2.3基于表示学习算法推理,采用transr模型进行推理,transr模型将图谱做嵌入处理为向量,然后将这些向量作为算法的输入,最后可以学习到实体的一对一、一对多、多对一和多对多的关系;
74.所述质量评估具体包括:
75.s4.3.1、基于黄金标准(黄金标准包括准确性、完整性、一致性、可靠性、可用性和可解释性)进行本体的评估,得到本体的相应得分a;
76.s4.3.2基于本体任务/应用进行本体的评估,得到本体的相应得分b,这些评估包括:
77.①
检查疾病本体是否涵盖了所有重要的疾病特征和症状,以及是否能够支持疾病诊断任务的推理;
78.②
检查药物本体是否涵盖了所有重要的药物属性和作用机制,以及是否能够支持用药推荐任务的推理;
79.③
检查知识获取本体是否涵盖了所有重要的知识来源和知识类型,以及是否能够支持知识获取任务的推理;
80.s4.3.3基于数据驱动进行本体的评估,得到本体的相应得分c,这些评估包括:
81.①
通过比较疾病本体中的症状和特征与真实临床数据的差异来评估疾病本体的质量;
82.②
通过比较药物本体中的作用机制和副作用与真实临床数据的差异来评估药物本体的质量;
83.③
通过比较知识获取本体中的知识来源和知识类型与真实数据的差异来评估知识获取本体的质量;
84.s4.3.4、对上述得分进行加权平均,根据最后得分评估本体的质量,然后根据本体的质量去综合判断图谱的质量;最后得分的公式如下:
[0085][0086]
说明:a、b、c、的取值范围为0~100分,
[0087]
这里本体的质量评估和最后得分的对应关系为:
[0088]
最后得分/分质量评估
90~100优秀80~90良好70~80合格《70差
[0089]
所述知识更新具体包括:
[0090]
s4.4.1、对模式层进行更新,及对本体元素进行更新,包括概念的增加、修改、删除,概念属性的更新以及概念之间上下位关系的更新等,医疗行业是一个专业要求很高的行业,模式层的更新需要行业专家的参与;
[0091]
s4.4.2、对数据层进行更新,及对实体元素进行更新,包括实体的增加、修改、删除,以及实体的基本信息和属性值的更新。
[0092]
与现有技术相比,本发明有益效果如下:
[0093]
本发明可用于构建医疗领域的通用知识图谱,采用多种深度学习和机器学习算法进行知识提取,基于本体层和实体层2个维度进行知识的融合,采用多种算法和策略对图谱进行知识的推理和补全并且采用一种综合质量评估的方法对图谱进行质量评估,得到一个全面的、质量高的、可不断更新迭代的医疗领域的知识图谱。
附图说明
[0094]
图1为本发明整体流程图;
[0095]
图2为本发明详细流程图;
[0096]
图3为本发明采用lstm-crf命名实体识别模型进行实体抽取时模型具体结构图;
[0097]
图4为本发明采用pcnn分段卷积神经网络进行关系抽取时模型具体结构图;
[0098]
图5为本发明采用dmcnn动态多池化卷积神经网络进行事件抽取时模型具体结构图;
[0099]
图6为本发明知识融合部分流程图。
具体实施方式
[0100]
为阐明技术问题、技术方案、实施过程及性能展示,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释。本发明,并不用于限定本发明。以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0101]
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
[0102]
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
[0103]
实施例1
[0104]
如图1和图2所示,一种医疗领域知识图谱构建的方法,包括s1、获取医疗领域相关数据,主要包括结构化数据、半结构化数据和非结构化数据;s2、对获取到的数据进行知识
抽取和存储;s3、对已有的知识进行融合,包括本体融合和实体融合;s4、对知识图谱进行知识加工,包括本体构建、知识推理、知识更新和质量评估。
[0105]
所述步骤s1具体包括以下内容:
[0106]
通过接入已有的医疗相关系统数据、网络爬虫爬取医疗数据等方式获取医疗相关的结构化数据、半结构化数据和非结构化数据,并对获取到的数据进行分类和清洗;
[0107]
其中,接入已有的医疗相关系统数据的步骤如下:
[0108]
s1.1.1、对已有的医疗系统进行调研;
[0109]
s1.1.2、接入已有的医疗系统数据;
[0110]
网络爬虫爬取医疗数据的步骤如下:
[0111]
s1.2.1、获取目标医疗数据的url;
[0112]
s1.2.2、向对应url提交http请求;
[0113]
s1.2.3、解析http响应;
[0114]
s1.2.4、存储解析结果。
[0115]
所述步骤s2具体包括结构化数据的知识提取和对半结构化和非结构化数据进行知识提取,其中结构化数据的知识提取通过利用r2rml映射语言将知识从关系数据库映射到rdf数据集中;而对半结构化和非结构化数据进行知识提取采用lstm-crf命名实体识别模型进行实体抽取或采用pcnn分段卷积神经网络进行关系抽取;最后将抽取的知识存入到jena(apache旗下的rdf三元组数据库)中。
[0116]
如图3所示,所述步骤s2中采用lstm-crf命名实体识别模型进行实体抽取时,模型的构建流程如下:
[0117]
s2.1.1、建立embedding层,将词映射为词向量;
[0118]
s2.1.2、建立n层的双向lstm层,学习词的前后语义信息;
[0119]
s2.1.3、建立crf层,对各个词进行序列标注;
[0120]
如图4所示,采用pcnn分段卷积神经网络进行关系抽取,模型的构建流程如下:
[0121]
s2.2.1、建立embedding词向量提取层,将词和词的位置信息映射为词向量;
[0122]
s2.2.2、建立卷积层,对文本进行分段卷积操作;
[0123]
s2.2.3、建立max池化层;
[0124]
s2.2.4、建立输出层,激活函数为softmax函数;
[0125]
如图5所示,采用dmcnn动态多池化卷积神经网络进行事件抽取时,模型的构建流程如下:
[0126]
s2.3.1、建立embedding词向量提取层,将词和词的位置信息映射为词向量;
[0127]
s2.3.2、建立句子级特征提取层,具体包括:
[0128]
s2.3.2.1、建立卷积层,对文本进行分段卷积操作;
[0129]
s2.3.2.2、建立max池化层;
[0130]
s2.3.3、建立词汇级特征提取层;
[0131]
s2.3.4、将句子级特征提取层和词汇级特征提取层得到的向量合并;
[0132]
s2.3.5、建立输出层,激活函数为softmax函数。
[0133]
所述步骤s3中本体融合具体包括以下内容:
[0134]
一方面不同的用户和团体根据不同的应用需求和应用领域来构建或选择合适的
本体。这些本体描述的内容在语义上往往重叠或关联,且使用的本体在表示语言和表示模型上却具有差异,这便造成了本体异构。另一方面,知识图谱中的大量实例也存在异构问题,同名实例可能指代不同的实体,不同名实例可能指代同一个实体。因此需要基于本体层和实体层2个层面解决相应的异构问题。
[0135]
s3.1.1、导入待映射的本体,待映射的本体不一定都要转换为统一的本体语言格式,但是要保证本体中需要进行映射的成分能够被方便获取;
[0136]
s3.1.2、发现映射,基于术语的本体融合算法,寻找异构本体间的联系,然后根据这些联系建立异构本体间的映射规则;
[0137]
s3.1.3、表示映射,当本体之间的映射被找到后,需要将这些映射合理地表示起来;
[0138]
所述步骤s3.1.2中,基于术语的本体融合算法包括以下内容:
[0139]
术语对齐:对本体中的术语进行对齐,找出它们之间的对应关系。对齐方法采用字符串匹配、语义相似度计算;
[0140]
术语映射:根据对齐结果,对本体中的术语进行映射,即将不同本体中的术语映射到同一个术语上;
[0141]
结构合并:根据术语映射结果,对本体的结构进行合并,即将不同本体中的类、属性、实例等之间的关系进行合并;
[0142]
冲突解决:在合并过程中可能会出现冲突,如类之间的继承关系等;需要采用一定的方法来解决这些冲突;
[0143]
解决这些冲突的方法包括:
[0144]
人工干预:将冲突的本体交由人工进行决策,选择最合适的解决方案;
[0145]
权衡法:对于不同的解决方案进行评估,选择其中权值最大的方案;
[0146]
合并法:将两个本体中出现冲突的部分进行合并,得到一个新的本体;
[0147]
抛弃法:放弃其中一个本体或者某一部分的信息;
[0148]
转换法:将冲突的信息转换成另一种形式,使得它们不再冲突。
[0149]
所述步骤s3.1.3中,映射具体步骤如下:
[0150]
创建映射关系:根据术语对齐结果,创建不同本体中术语之间的映射关系;映射关系可以表示为一个矩阵,其中每一行表示一组映射关系;
[0151]
冲突解决:在创建映射关系的过程中可能会出现冲突,需要采用一定的方法来解决这些冲突;这里的方法和步骤s3.1.2中的冲突解决的方法一致;
[0152]
优化映射关系:通过使用一些算法对映射关系进行优化,如使用随机游走算法、生成对抗网络等;
[0153]
确定映射关系的优先级:根据不同的应用场景,确定映射关系的优先级,选择最合适的映射关系。
[0154]
如图6所示,所述步骤s3中实体融合具体包括以下内容:
[0155]
s3.2.1、数据预处理,去除实体名称上的标点符号、进行同义词扩展等;
[0156]
s3.2.2、分块,通过启发式策略将不同知识图谱中相似实体分配到相同的块中,减少实体间两两比对的次数;
[0157]
s3.2.3、实体对齐,其中成对对齐只根据一个实体对中的两个实体本身的信息进
行匹配,本质上是一个二元分类问题,集体对齐会考虑整个知识图谱的信息进行匹配;
[0158]
s3.2.4、特征匹配,基于文本相似度和结构相似度进行特征匹配。
[0159]
所述步骤s4具体包括本体构建、知识推理、质量评估和知识更新;
[0160]
其中所述本体构建具体包括:
[0161]
s4.1.1、进行纵向概念间的并列关系计算;通过计算任意2个实体间并列关系的相似度,可以辨析它们在语义层面是否属于同一个概念;
[0162]
s4.1.2、进行实体上下位的关系抽取,实体上下位关系抽取方法包括基于语法的抽取和基于语义的抽取两种方式;
[0163]
s4.1.3、生成本体,对各层次得到的概念进行聚类,并为每一类的实体指定1个或多个公共上位词;
[0164]
所述知识推理具体包括:
[0165]
s4.2.1、基于图的算法推理,采用co-pra算法搜索图结构特征;
[0166]
作为优选,所述步s4.2.1中采用co-pra算法搜索图结构特征,具体步骤如下:
[0167]
s4.2.1.1、生成初步的路径,通过路径搜索算法生成以h为起点的小于长度l的路径集合ph;通过路径搜索算法生成以t为起点的小于长度l的路径集合p
t
;
[0168]
s4.2.2.2、通过pra计算路径特征的概率,对于路径πh∈ph,计算沿着路径πh正向地由h到达x的概率p(h
→
x;πh),以及沿着路径πh逆向地由h到达x的概率同理,对路径π
t
∈p
t
,计算沿着路径π
t
正向地由t到达x的概率p(t
→
x;π
t
),以及沿着路径π
t
逆向地由t到达x的概率并将所有的x放入常量候选集n中;
[0169]
s4.2.2.3、生成候选的常量路径,对于每一个(x∈n,π∈p
t
)的组合,如果p(t
→
x;π
t
)》0,那么生成路径特征其中c=t,并且将路径特征对应的覆盖度值加1,即同理,对每一个(x∈n,π∈p
t
)的组合,如果那么生成路径特征p(t
→
x;π
t
),其中c=x,并且将路径特征对应的覆盖度值加1,即coverage(p(c
→
t;π
t
))+=1;
[0170]
s4.2.2.4、生成更长的路径特征候选集,对每一个可能的组合(x∈n,πh∈ph,π
t
∈p
t
),如果p(s
←
x;πs)》0且就生成路径并且更新其覆盖度,即同时更新其准确度,即同时更新其准确度,即反向同理。
[0171]
s4.2.2、基于规则学习算法推理,采用amie规则学习算法,amie算法定义了3个挖掘算子,通过不断在规则中增加挖掘算子来探索图上的搜索空间,并且融入了剪枝策略;
[0172]
s4.2.3基于表示学习算法推理,采用transr模型进行推理,transr模型将图谱做嵌入处理为向量,然后将这些向量作为算法的输入,最后可以学习到实体的一对一、一对多、多对一和多对多的关系;
[0173]
所述质量评估具体包括:
[0174]
s4.3.1、基于黄金标准(黄金标准包括准确性、完整性、一致性、可靠性、可用性和可解释性)进行本体的评估,得到本体的相应得分a;
[0175]
s4.3.2基于本体任务/应用进行本体的评估,得到本体的相应得分b,这些评估包
括:
[0176]
①
检查疾病本体是否涵盖了所有重要的疾病特征和症状,以及是否能够支持疾病诊断任务的推理;
[0177]
②
检查药物本体是否涵盖了所有重要的药物属性和作用机制,以及是否能够支持用药推荐任务的推理;
[0178]
③
检查知识获取本体是否涵盖了所有重要的知识来源和知识类型,以及是否能够支持知识获取任务的推理;
[0179]
s4.3.3基于数据驱动进行本体的评估,得到本体的相应得分c,这些评估包括:
[0180]
①
通过比较疾病本体中的症状和特征与真实临床数据的差异来评估疾病本体的质量;
[0181]
②
通过比较药物本体中的作用机制和副作用与真实临床数据的差异来评估药物本体的质量;
[0182]
③
通过比较知识获取本体中的知识来源和知识类型与真实数据的差异来评估知识获取本体的质量;
[0183]
s4.3.4、对上述得分进行加权平均,根据最后得分评估本体的质量,然后根据本体的质量去综合判断图谱的质量;最后得分的公式如下:
[0184][0185]
说明:a、b、c、的取值范围为0~100分,
[0186]
这里本体的质量评估和最后得分的对应关系为:
[0187]
最后得分/分质量评估90~100优秀80~90良好70~80合格《70差
[0188]
所述知识更新具体包括:
[0189]
s4.4.1、对模式层进行更新,及对本体元素进行更新,包括概念的增加、修改、删除,概念属性的更新以及概念之间上下位关系的更新等,医疗行业是一个专业要求很高的行业,模式层的更新需要行业专家的参与;
[0190]
s4.4.2、对数据层进行更新,及对实体元素进行更新,包括实体的增加、修改、删除,以及实体的基本信息和属性值的更新。
[0191]
本发明方法可用于构建医疗领域的通用知识图谱,通过多种渠道的数据获取、强大的知识抽取和知识推理算法、本体和实体2个维度的知识融合以及合理的质量评估和知识更新手段最后可得到一个全面的、质量高的、可不断更新迭代的医疗领域的知识图。
[0192]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
技术特征:
1.一种医疗领域知识图谱构建的方法,其特征在于,包括s1、获取医疗领域相关数据,主要包括结构化数据、半结构化数据和非结构化数据;s2、对获取到的数据进行知识抽取和存储;s3、对已有的知识进行融合,包括本体融合和实体融合;s4、对知识图谱进行知识加工,包括本体构建、知识推理、知识更新和质量评估。2.根据权利要求1所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤s1具体包括以下内容:通过接入已有的医疗相关系统数据、网络爬虫爬取医疗数据等方式获取医疗相关的结构化数据、半结构化数据和非结构化数据,并对获取到的数据进行分类和清洗;其中,接入已有的医疗相关系统数据的步骤如下:s1.1.1、对已有的医疗系统进行调研;s1.1.2、接入已有的医疗系统数据;网络爬虫爬取医疗数据的步骤如下:s1.2.1、获取目标医疗数据的url;s1.2.2、向对应url提交http请求;s1.2.3、解析http响应;s1.2.4、存储解析结果。3.根据权利要求1所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤s2具体包括结构化数据的知识提取和对半结构化和非结构化数据进行知识提取,其中结构化数据的知识提取通过利用r2rml映射语言将知识从关系数据库映射到rdf数据集中;而对半结构化和非结构化数据进行知识提取采用lstm-crf命名实体识别模型进行实体抽取或采用pcnn分段卷积神经网络进行关系抽取;最后将抽取的知识存入到jena(apache旗下的rdf三元组数据库)中。4.根据权利要求3所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤s2中采用lstm-crf命名实体识别模型进行实体抽取时,模型的构建流程如下:s2.1.1、建立embedding层,将词映射为词向量;s2.1.2、建立n层的双向lstm层,学习词的前后语义信息;s2.1.3、建立crf层,对各个词进行序列标注;采用pcnn分段卷积神经网络进行关系抽取,模型的构建流程如下:s2.2.1、建立embedding词向量提取层,将词和词的位置信息映射为词向量;s2.2.2、建立卷积层,对文本进行分段卷积操作;s2.2.3、建立max池化层;s2.2.4、建立输出层,激活函数为softmax函数;采用dmcnn动态多池化卷积神经网络进行事件抽取时,模型的构建流程如下:s2.3.1、建立embedding词向量提取层,将词和词的位置信息映射为词向量;s2.3.2、建立句子级特征提取层,具体包括:s2.3.2.1、建立卷积层,对文本进行分段卷积操作;s2.3.2.2、建立max池化层;s2.3.3、建立词汇级特征提取层;s2.3.4、将句子级特征提取层和词汇级特征提取层得到的向量合并;
s2.3.5、建立输出层,激活函数为softmax函数。5.根据权利要求1所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤s3中本体融合具体包括以下内容:s3.1.1、导入待映射的本体,待映射的本体不一定都要转换为统一的本体语言格式,但是要保证本体中需要进行映射的成分能够被方便获取;s3.1.2、发现映射,基于术语的本体融合算法,寻找异构本体间的联系,然后根据这些联系建立异构本体间的映射规则;s3.1.3、表示映射,当本体之间的映射被找到后,需要将这些映射合理地表示起来。6.根据权利要求5所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤s3.1.2中,基于术语的本体融合算法包括以下内容:术语对齐:对本体中的术语进行对齐,找出它们之间的对应关系。对齐方法采用字符串匹配、语义相似度计算;术语映射:根据对齐结果,对本体中的术语进行映射,即将不同本体中的术语映射到同一个术语上;结构合并:根据术语映射结果,对本体的结构进行合并,即将不同本体中的类、属性、实例等之间的关系进行合并;冲突解决:在合并过程中可能会出现冲突,如类之间的继承关系等;需要采用一定的方法来解决这些冲突;解决这些冲突的方法包括:人工干预:将冲突的本体交由人工进行决策,选择最合适的解决方案;权衡法:对于不同的解决方案进行评估,选择其中权值最大的方案;合并法:将两个本体中出现冲突的部分进行合并,得到一个新的本体;抛弃法:放弃其中一个本体或者某一部分的信息;转换法:将冲突的信息转换成另一种形式,使得它们不再冲突。7.根据权利要求5所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤s3.1.3中,映射具体步骤如下:创建映射关系:根据术语对齐结果,创建不同本体中术语之间的映射关系;映射关系可以表示为一个矩阵,其中每一行表示一组映射关系;冲突解决:在创建映射关系的过程中可能会出现冲突,需要采用一定的方法来解决这些冲突;这里的方法和步骤s3.1.2中的冲突解决的方法一致;优化映射关系:通过使用一些算法对映射关系进行优化,如使用随机游走算法、生成对抗网络等;确定映射关系的优先级:根据不同的应用场景,确定映射关系的优先级,选择最合适的映射关系。8.根据权利要求1所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤s3中实体融合具体包括以下内容:s3.2.1、数据预处理,去除实体名称上的标点符号、进行同义词扩展等;s3.2.2、分块,通过启发式策略将不同知识图谱中相似实体分配到相同的块中,减少实体间两两比对的次数;
s3.2.3、实体对齐,其中成对对齐只根据一个实体对中的两个实体本身的信息进行匹配,本质上是一个二元分类问题,集体对齐会考虑整个知识图谱的信息进行匹配;s3.2.4、特征匹配,基于文本相似度和结构相似度进行特征匹配。9.根据权利要求1所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步骤s4具体包括本体构建、知识推理、质量评估和知识更新;其中所述本体构建具体包括:s4.1.1、进行纵向概念间的并列关系计算;通过计算任意2个实体间并列关系的相似度,可以辨析它们在语义层面是否属于同一个概念;s4.1.2、进行实体上下位的关系抽取,实体上下位关系抽取方法包括基于语法的抽取和基于语义的抽取两种方式;s4.1.3、生成本体,对各层次得到的概念进行聚类,并为每一类的实体指定1个或多个公共上位词;所述知识推理具体包括:基于图的算法推理,采用co-pra算法搜索图结构特征;基于规则学习算法推理,采用amie规则学习算法,amie算法定义了3个挖掘算子,通过不断在规则中增加挖掘算子来探索图上的搜索空间,并且融入了剪枝策略;基于表示学习算法推理,采用transr模型进行推理,transr模型将图谱做嵌入处理为向量,然后将这些向量作为算法的输入,最后可以学习到实体的一对一、一对多、多对一和多对多的关系;所述质量评估具体包括:s4.3.1、基于黄金标准(黄金标准包括准确性、完整性、一致性、可靠性、可用性和可解释性)进行本体的评估,得到本体的相应得分a;s4.3.2基于本体任务/应用进行本体的评估,得到本体的相应得分b,这些评估包括:
①
检查疾病本体是否涵盖了所有重要的疾病特征和症状,以及是否能够支持疾病诊断任务的推理;
②
检查药物本体是否涵盖了所有重要的药物属性和作用机制,以及是否能够支持用药推荐任务的推理;
③
检查知识获取本体是否涵盖了所有重要的知识来源和知识类型,以及是否能够支持知识获取任务的推理;s4.3.3基于数据驱动进行本体的评估,得到本体的相应得分c,这些评估包括:
①
通过比较疾病本体中的症状和特征与真实临床数据的差异来评估疾病本体的质量;
②
通过比较药物本体中的作用机制和副作用与真实临床数据的差异来评估药物本体的质量;
③
通过比较知识获取本体中的知识来源和知识类型与真实数据的差异来评估知识获取本体的质量;s4.3.4、对上述得分进行加权平均,根据最后得分评估本体的质量,然后根据本体的质量去综合判断图谱的质量;最后得分的公式如下:所述知识更新具体包括:
s4.4.1、对模式层进行更新,及对本体元素进行更新,包括概念的增加、修改、删除,概念属性的更新以及概念之间上下位关系的更新等,医疗行业是一个专业要求很高的行业,模式层的更新需要行业专家的参与;s4.4.2、对数据层进行更新,及对实体元素进行更新,包括实体的增加、修改、删除,以及实体的基本信息和属性值的更新。10.根据权利要求9所述的一种医疗领域知识图谱构建的方法,其特征在于,所述步s4.2.1中采用co-pra算法搜索图结构特征,具体步骤如下:s4.2.1.1、生成初步的路径,通过路径搜索算法生成以h为起点的小于长度l的路径集合p
h
;通过路径搜索算法生成以t为起点的小于长度1的路径集合p
t
;;s4.2.2.2、通过pra计算路径特征的概率,对于路径π
h
∈p
h
,计算沿着路径π
h
正向地由h到达x的概率p(h
→
x;π
h
),以及沿着路径π
h
逆向地由h到达x的概率同理,对路径π
t
∈p
t
,计算沿着路径π
t
正向地由t到达x的概率p(t
→
x;π
t
),以及沿着路径π
t
逆向地由t到达x的概率并将所有的x放入常量候选集n中;s4.2.2.3、生成候选的常量路径,对于每一个(x∈n,π∈p
t
)的组合,如果p(t
→
x;π
t
)>0,那么生成路径特征其中c=t,并且将路径特征对应的覆盖度值加1,即同理,对每一个(x∈n,π∈p
t
)的组合,如果那么生成路径特征p(t
→
x;π
t
),其中c=x,并且将路径特征对应的覆盖度值加1,即coverage(p(c
→
t;π
t
))+=1;s4.2.2.4、生成更长的路径特征候选集,对每一个可能的组合(x∈n,π
h
∈p
h
,π
t
∈p
t
),如果p(s
←
x;π
s
)>0且就生成路径并且更新其覆盖度,即同时更新其准确度,即同时更新其准确度,即反向同理。
技术总结
本发明提供了一种医疗领域知识图谱构建的方法,其特征在于,包括一下步骤:S1、获取医疗领域相关数据,主要包括结构化数据、半结构化数据和非结构化数据;S2、对获取到的数据进行知识抽取和存储;S3、对已有的知识进行融合,包括本体融合和实体融合;S4、对知识图谱进行知识加工,包括本体构建、知识推理、知识更新和质量评估;本发明采用多种深度学习和机器学习算法进行知识提取,基于本体层和实体层2个维度进行知识的融合,采用多种算法和策略对图谱进行知识的推理和补全并且采用一种综合质量评估的方法对图谱进行质量评估,得到一个全面的、质量高的、可不断更新迭代的医疗领域的知识图谱。识图谱。识图谱。
技术研发人员:张怡 章永
受保护的技术使用者:麦博(上海)健康科技有限公司
技术研发日:2023.03.22
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/