中文命名实体识别方法、装置、电子设备及存储介质与流程
未命名
09-10
阅读:102
评论:0

1.本发明涉及医疗领域、自然语言处理领域,尤其涉及一种中文命名实体识别方法、装置、电子设备及存储介质。
背景技术:
2.命名实体识别(ner,named entity recognition)就是一种从文本中识别出与指定信息相关的命名实体的技术。随着互联网技术的高速发展,数字医疗领域的医疗文档逐步实现了电子化文档,医疗电子文档比较特殊,会存在着大量的医学名词和专业术语。
3.通常使用基于字符粒度的识别方法,对医疗电子文档的中文的嵌入特征(embedding)进行识别,得出与医疗相关的命名实体。
4.例如,在医疗领域中,患者的医疗电子文档需要在医疗机构的数据库进行建档,由于现有的识别方法识别不准确,比如将
‑“
患者直肠手术后小腹平坦,无腹痛腹胀胀不适,未见腹壁静脉曲张”,可能得到的命名实体识别“手术”、“腹痛”、“腹胀”等,从而时常发生将医疗电子文档建档错位的问题。但该基于字符粒度的识别方法在识别过程中不需要中文分词和考虑分词边界的处理步骤,直接将输入中的每个汉字表示一个标识(token),容易导致医疗电子文档中医学名词和专业术语的实体边界模糊的问题。
技术实现要素:
5.鉴于以上内容,有必要提供一种中文命名实体识别方法,其目的在于解决现有技术中基于字符粒度的命名实体识别方法存在实体边界模糊的技术问题。
6.本发明提供的中文命名实体识别方法,包括:
7.获取待识别文本的字符序列,以所述字符序列包含的每个字符作为一个节点,根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边;
8.根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,及根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边;
9.根据所有节点、所述第一边、第二边以及第三边生成所述正向图,利用预设的图神经网络的特征提取模块对所述正向图进行向量提取,得到所述正向图的第一向量特征;
10.利用所述图神经网络的识别模块对所述第一向量特征进行识别,得到所述待识别文本的命名实体结果。
11.可选的,在所述获取待识别文本的字符序列之前,该方法还包括:
12.对所述待识别文本进行字符切割,得到所述待识别文本的字符序列。
13.可选的,所述根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边,包括:
14.计算每两个相邻节点之间的第一相似度;
15.若计算得到的第一相似度的数值大于预设的词汇表对应词汇的阈值,则在所述相邻节点之间生成所述第一边。
16.可选的,所述实体词典是按以下方法得到的:
17.对未标注文本数据集进行文本标注,得到已标注文本数据集;
18.对所述已标注文本数据集进行分词和筛选,得到一个以上词组,对所有词组进行向量嵌入操作得到所述实体词典。
19.可选的,所述根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,包括:
20.计算所述第一个节点与所述其它节点的第二相似度,若计算得到的第二相似度的数值大于所述实体词典对应词组的阈值,则在所述第一个节点与对应的节点之间生成所述第二边。
21.可选的,所述根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边,包括:
22.计算所述最后一个节点与所述其它节点的第三相似度,若计算得到的第三相似度的数值大于所述实体词典对应词组的阈值,则在所述最后一个节点与对应的节点之间生成所述第三边。
23.可选的,所述利用预设的图神经网络的特征提取模块对所述正向图进行向量提取,得到所述正向图的第一向量特征,包括:
24.利用所述特征提取模块的自注意力特征提取层构建所述正向图的中继节点,利用所述中继节点对所述正向图进行更新,生成反向图;
25.利用所述特征提取模块的特征融合层将所述正向图的向量特征与所述反向图的向量特征进行拼接,得到所述第一向量特征。
26.为了解决上述问题,本发明还提供一种中文命名实体识别装置,所述装置包括:
27.第一生成模块,用于获取待识别文本的字符序列,以所述字符序列包含的每个字符作为一个节点,根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边;
28.第二生成模块,用于根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,及根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边;
29.提取模块,用于根据所有节点、所述第一边、第二边以及第三边生成所述正向图,利用预设的图神经网络的特征提取模块对所述正向图进行向量提取,得到所述正向图的第一向量特征;
30.输出模块,用于利用所述图神经网络的识别模块对所述第一向量特征进行识别,得到所述待识别文本的命名实体结果。
31.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
32.至少一个处理器;以及,
33.与所述至少一个处理器通信连接的存储器;其中,
34.所述存储器存储有可被所述至少一个处理器执行的中文命名实体识别程序,所述
中文命名实体识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述中文命名实体识别方法。
35.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有中文命名实体识别程序,所述中文命名实体识别程序可被一个或者多个处理器执行,以实现上述中文命名实体识别方法。
36.相较现有技术,本发明获取待识别文本的字符序列,以所述字符序列包含的每个字符作为一个节点,根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边;根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,及根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边;根据所有节点、所述第一边、第二边以及第三边生成所述正向图。将待识别文本转换成正向图时,将实体词典的词汇信息融入到正向图中,有利于正向图上的空间特征和把相邻节点的关系特征能够准确呈现出来。
37.利用预设的图神经网络的特征提取模块对所述正向图进行向量提取,得到所述正向图的第一向量特征;利用所述图神经网络的识别模块对所述第一向量特征进行识别,得到所述待识别文本的命名实体结果。利用图神经网络的特性,学习正向图与实体词典的融合信息,有效地解决了现有技术中基于字符粒度的识别方法下缺乏词汇信息以及词语粒度下分词边界问题的困扰。
38.能够提高对医疗电子病历或医学文本中的命名实体识别的准确率,减少医疗检索或医疗数据归档的不必要麻烦。
附图说明
39.图1为本发明一实施例提供的中文命名实体识别方法的流程示意图;
40.图2为本发明一实施例提供的中文命名实体识别装置的模块示意图;
41.图3为本发明一实施例提供的实现中文命名实体识别方法的电子设备的结构示意图;
42.本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
43.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
44.需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
45.随着数字医疗领域的快速发展,本发明提供一种中文命名实体识别方法,可以应用在数字医疗领域中,将待识别文本的字符序列和预设的实体词典的结合生成正向图,确保正向图的每个节点代表着实体词典的一个嵌套词组,有利于正向图上的空间特征和把相邻节点的关系特征能够准确呈现出来。
46.利用图神经网络的特征提取模块具有能够处理实体间的交互功能;及利用图神经网络的识别模块具有较强的表征能力和考虑全局信息,解决标注偏置的功能,对正向图的第一向量表示进行处理得到命名实体结果,能够提升实体边界的准确率。
47.在医疗领域中,电子病历纯文本文档中识别并抽取出与医学临床相关的实体提及,并将它们归类到预定义的类别,能够提高对医疗电子病历或医学文本中的命名实体识别的准确率,减少医疗检索或医疗数据归档的不必要麻烦。
48.参照图1所示,为本发明一实施例提供的中文命名实体识别方法的流程示意图。该方法由电子设备执行。
49.本实施例中,中文命名实体识别方法包括:
50.s1、获取待识别文本的字符序列,以所述字符序列包含的每个字符作为一个节点,根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边。
51.在本实施例中,待识别文本是指要进行中文命名实体识别的文档或者医疗机构或保险机构的数据库的中文电子病历;待识别文本可以包括各个领域的文档。获取待识别文本的途径包括各个领域的数据库,在此并不作限定。例如,在医疗机构a中,医生利用计算机将患者的症状输入系统后,通过预设的计算机程序将患者的症状生成待识别文本;
52.或者获取数字医疗领域在网络发表的有医学论文的文档,可以从保险/医疗等机构的数据库来获取。
53.在本实施例中可以通过将文本图片的文本内容进行文字字符识别,得到文本图片对应的待识别文本。
54.将待识别文本的文本内容转换成字符序列,获取字符序列的各个字符作为待构建的正向图的各个节点,计算相邻节点之间的预设关系(例如预设关系为相似度)生成待构建的正向图的第一边。
55.在一个实施例中,在所述获取待识别文本的字符序列之前,该方法还包括:
56.对所述待识别文本进行字符切割,得到所述待识别文本的字符序列。
57.在一个实施例中,所述对所述待识别文本进行字符切割,得到所述待识别文本的字符序列,包括:
58.对所述待识别文本执行预处理,得到文本语句;
59.依次对所述文本语句中的各个文字进行切割,得到所述字符序列。
60.预处理包括利用预设的分词算法对对待识别文本进行分词,并删除分词得到的停用词,得到文本语句。
61.分词算法的词典库也可以基于维基百科通用领域词典进行切分词语的算法,在此不作赘述。删除分词后的停用词的处理步骤时,通过分词算法的词典库查询到分词对应的停用词,并对停用词进行删除。
62.停用词是指在文本检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。通过分词算法处理后的分词能够达到更
好的自然语言处理效果,帮助计算机理解复杂的中文语言。
63.依次对文本语句中的各个文字进行切割,得到多个独立的字符,将所有的字符作为待识别文本的字符序列。
64.例如,待识别文本为“小黄,你是感冒吗”,则对该文本进行字符切割得到文本字符序列为“小-》黄-》,-》你-》有-》感-》冒-》吗-》?”。
65.或者待识别文本为“无腹痛腹胀胀不适”,则对该文本进行字符切割得到文本字符序列为“无-》腹-》痛-》腹-》胀-》胀-》不-》适”。
66.因此,本发明通过对待识别文本进行字符切割,以切割出待识别文本中所有的文字,提高后续待识别文本中字符敏感度的识别能力。
67.在一个实施例中,所述根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边,包括:
68.计算每两个相邻节点之间的第一相似度;
69.若计算得到的第一相似度的数值大于预设的词汇表对应词汇的阈值,则在所述相邻节点之间生成所述第一边。
70.计算字符序列中每两个相邻节点的第一相似度(例如,第一相似度为余弦相似度),得到多个第一相似度的数值;
71.根据计算后的每两个相邻节点,从预设的词汇表中查询与其对应词汇,若计算后的每两个相邻节点的第一相似度的数值大于该对应词汇的阈值,则在相邻节点之间生成一条连接的第一边。
72.词汇表基于前缀词典dict.txt构建的,在dict.txt应用中不能切分的未登录新词,可以自定义修改或增加词典。词汇表和dict.txt一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,词频省略时使用自动计算能保证分出该词的词频,提高判断相邻节点是否有关联性的准确率。
73.s2、根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,及根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边。
74.在本实施例中,预设的实体词典是基于大量已经标注文本数据,对该标注文本数据筛选有关键意义的词组构建的。
75.根据第一个节点与除了第一个节点之外的其它节点之间的预设关系(例如预设关系为相似度),生成第二边。根据最后一个节点与除了最后一个节点之外的其它节点之间的预设关系,生成第三边。
76.例如,根据医疗机构预设构建的实体词典,在实体词典中有人工标注的实体(包括疾病、诊断、检查、手术、药物、解剖部位等6大类,然后大类包括多个小类)。
77.根据医疗机构预设构建的实体词典的各个实体、待识别文本的字符序列为
‑“
无-》腹-》痛-》腹-》胀-》胀-》不-》适”,生成待识别文本的待构建的正向图。
78.正向图包含有医疗文本的症状关键词的知识图谱、信息检索、文本理解的信息。也就是说,通过第二边和第三边将字符序列中任意两个不邻接的节点连接,第二边和第三边代表了待识别文本潜在的可能存在有实体词典中的词组的特征,提高判断任意两个不邻接
的节点是否有关联性的准确率。
79.在一个实施例中,所述实体词典是按以下方法得到的:
80.对未标注文本数据集进行文本标注,得到已标注文本数据集;
81.对所述已标注文本数据集进行分词和筛选,得到一个以上词组,对所有词组进行向量嵌入操作得到所述实体词典。
82.通过收集预设数量(例如10万份)未标注文本数据作为未标注文本数据集,可以通过人工对少量未标注文本数据作标注,根据深度网络模型学习少量人工标注文本数据的文本语义表征后,利用训练好的深度网络模型对其它未标注文本数据进行文本标注,得到已标注文本数据集;
83.利用预设的语料库(例如ugc)对已标注文本数据集进行分词和筛选,得到有关键意义的词组,利用预设预测模型(例如autoner)对词组进行类型预测,以类型进行向量嵌入操作构建实体词典,从而扩充实体词典的检索性和实用性。
84.获取实体词典后,要根据任务特点和数据特点选择实体词典的使用方式。
85.有时候需要对实体词典做质量评估和筛选、分类,例如把歧义性高的实体组成一个词典,歧义词低的实体组成一个词典,新词组成一个词典等等,从而提高词典能够适应不同的实用场景。
86.词典的质量评估,包括词典大小、词典准确度、覆盖度、实体歧义性、实体频率...完整全面地了解词典,才能更高地选择词典的使用方式。
87.关于使用方式,可以结合到ner模型里面使用,也可以单独匹配,也可以匹配后再与模型结合。
88.在一个实施例中,所述根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,包括:
89.计算所述第一个节点与所述其它节点的第二相似度,若计算得到的第二相似度的数值大于所述实体词典对应词组的阈值,则在所述第一个节点与对应的节点之间生成所述第二边。
90.在一个实施例中,所述根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边,包括:
91.计算所述最后一个节点与所述其它节点的第三相似度,若计算得到的第三相似度的数值大于所述实体词典对应词组的阈值,则在所述最后一个节点与对应的节点之间生成所述第三边。
92.也就是说,通过第二边和第三边将字符序列中任意两个不邻接的节点连接,第二边和第三边代表了待识别文本潜在的可能存在有实体词典中的词组的特征,提高判断任意两个不邻接的节点是否有关联性的准确率。
93.s3、根据所有节点、所述第一边、第二边以及第三边生成所述正向图,利用预设的图神经网络的特征提取模块对所述正向图进行向量提取,得到所述正向图的第一向量特征。
94.在本实施例中,根据所有节点、第一边、第二边以及第三边生成正向图,也就是说,将待识别文本转换成一个正向图/有向图,待识别文本的每个字对应正向图的一个节点,每条边连接一个词的第一个字和最后一个字。
95.正向图的第i个节点的状态表示字符序列中第i个字符的特征,每条边的状态表示一个潜在的可能出现在实体词典的词组的特征。
96.图神经网络是通过医疗机构的大量训练样本(例如,这些训练样本包含5万个医疗记录)训练得到的,能够面向中文电子病历的医疗实体识别及属性抽取,从给定的电子病历纯文本文档中识别并抽取出与医学临床相关的实体提及,并将它们归类到预定义的类别。
97.特征提取模块为具有能够处理实体之间的交互信息的图神经网络,图神经网络可以采用gnn图神经网络,gnn图神经网络可以提取正向图上的空间特征(空间特征包括全局特征和局部特征),然后把相邻节点的关系特征找出来,将空间特征和关系特征进行卷积得到第一向量表示。
98.在一个实施例中,所述利用预设的图神经网络的特征提取模块对所述正向图进行向量提取,得到所述正向图的第一向量特征,包括:
99.利用所述特征提取模块的自注意力特征提取层构建所述正向图的中继节点,利用所述中继节点对所述正向图进行更新,生成反向图;
100.利用所述特征提取模块的特征融合层将所述正向图的向量特征与所述反向图的向量特征进行拼接,得到所述第一向量特征。
101.特征提取模块包括至少一个自注意力特征提取层和至少一个特征融合层;自注意力特征提取层由m个并联的基于多头自注意力的不同距离的特征提取子网络sa组成,每个特征提取子网络sa由h头自注意力模型构成。
102.利用特征提取模块的自注意力特征提取层提取正向图的相邻节点的关系特征,选取关系特征的数值最大的节点作为正向图的全局性的中继节点,中继节点可以捕捉正向图的空间特征(空间特征包括全局特征和局部特征);
103.利用中继节点将正向图的每条边和每个节点相连,以汇聚所有边和节点的信息作为全局信息,从而利用全局信息消除待识别文本的词语之间的边界模糊;
104.由于全局的中继节点的存在,正向图中任意两个不邻接的节点之间都是彼此的二阶邻居,可以通过两次节点更新来接收彼此的非局部的信息,也就是说,利用中继节点捕捉正向图的全局的上下文信息和局部信息;
105.对正向图的图结构进行转置得到一个所有边都反向的反向图,利用特征提取模块的特征融合层将正向图与反向图对应的向量特征进行卷积和拼接,得到正向图的第一向量特征。
106.现有技术中基于字符粒度的命名实体识别方法通常使用rnn模型,在使用最长匹配、最短匹配等模型时,会遇到实体边界模糊的技术问题。在步骤s3中,通过具有能够处理实体之间的交互信息的图神经网络,对正向图的图结构进行处理,能够有效地获取正向图的第一向量表示,利用正向图的图结构能够打破rnn模型序列结构的限制,使字符和词典词间有更充分的联系。解决了现有技术中基于字符粒度的命名实体识别方法,存在实体边界模糊的技术问题。
107.s4、利用所述图神经网络的识别模块对所述第一向量特征进行识别,得到所述待识别文本的命名实体结果。
108.在本实施例中,预设的图神经网络的识别模块包括长短期记忆层和条件随机场层,长短期记忆层采用具有文本特征提取功能的深度神经网络lstm模型,条件随机场层采
用具有文本解码功能的深度神经网络crf模型。
109.例如,待识别文本为“无腹痛腹胀胀不适”,则对该文本进行字符切割得到文本字符序列为“无-》腹-》痛-》腹-》胀-》胀-》不-》适”,利用图神经网络的识别模块对正向图的第一向量特征进行识别,得到待识别文本的命名实体结果为“无腹痛”、“无腹胀”、“无腹胀不适”,根据得到命名实体结果将患者的电子病历归档到医疗机构的数据库的正确分类中,能够提高对医疗电子病历或医学文本中的命名实体识别的准确率和速度,减少医疗检索或医疗数据归档的不必要麻烦。
110.stm模型可以包含至少一个lstm单元,每个lstm单元是由正向lstm层与反向lstm层组合而成,每个lstm单元包含一个输入门、一个输出门、一个遗忘门和一个记忆单元。在第一向量表示进行识别过程中,可通过lstm模型的门结构来添加或移除信息,不同神经网络都可通过单元状态上的门结构来决定去记住或遗忘哪些相关信息,从而得到待识别文本的词汇信息。在其它实施例中,可以采用其它具有文本特征提取功能的模型,在此不作限定。
111.crf模型可以解决实体标注的预测错误的问题,充分考虑标签之间的组合关系。在其它实施例中,可以采用其它具有文本解码功能的模型,在此不作限定。
112.在一个实施例中,所述识别模块包括长短期记忆层和条件随机场层,所述利用所述图神经网络的识别模块对所述第一向量特征进行识别,得到所述待识别文本的命名实体结果,包括:
113.利用所述长短期记忆层对所述第一向量表示进行词汇信息提取,将得到的词汇信息输入所述条件随机场层进行解码,得到所述待识别文本的命名实体结果。
114.在一个实施例中,所述利用所述长短期记忆层对所述第一向量表示进行词汇信息提取,包括:
115.利用所述长短期记忆层的第一网络对所述第一向量表示进行序列拆分,得到正向序列和反向序列;
116.利用所述长短期记忆层的第二网络对所述正向序列、所述反向序列进行表征处理,得到词汇信息。
117.在一个实施例中,所述利用所述长短期记忆层的第一网络对所述第一向量表示进行序列拆分,得到正向序列和反向序列,包括:
118.将所述第一向量表示输入所述第一网络的正向lstm层进行正向排序,得到所述正向序列;
119.将所述第一向量表示输入所述第一网络的反向lstm层进行反向排序,得到所述反向序列。
120.第一网络是指长短期记忆层的第一个lstm单元,该lstm单元是由正向lstm层与反向lstm层组合而成,每个lstm单元包含一个输入门、一个输出门、一个遗忘门和一个记忆单元。
121.设c表示第一网络的记忆单元,x为第一网络的输入门,f为第一网络的遗忘门,h为第一网络的输出门。构建正向的lstm层,以第一向量表示作为输入,将第一向量表示进行正向排序,得到正向序列;同理,构建反向的lstm层,以第一向量表示作为输入,将第一向量表示进行反向排序,得到正向序列。
122.在一个实施例中,所述利用所述长短期记忆层的第二网络对所述正向序列、所述反向序列进行表征处理,得到词汇信息,包括:
123.利用所述第二网络的权重矩阵分别对所述正向序列、所述反向序列进行权重计算,得到所述第一向量表示的权重值;
124.选取权重值大于或等于预设第一阈值对应的第一向量表示作为词汇信息。
125.第二网络为multi-head attention多头注意力网络,多头注意力网络是机器学习模型中嵌入的一种特殊结构,基于该网络,可以给强特征赋予更大的权重,反之,赋予弱特征较小权重,甚至0权重。
126.第二网络的权重矩阵为q,k,v的权重矩阵,q,k,v分别为输入query、key、value向量。
127.在lstm模型将第一向量表示拆分为2个单独的隐藏状态的序列后,利用第二网络的权重矩阵对正向序列的正方向语义特征或第一向量表示的历史信息的权重计算,及利用第二网络的权重矩阵对反向序列的反方向语义特征或第一向量表示的历史信息的权重计算,选取权重值大于或等于预设第一阈值(例如第一阈值为0.5)对应的第一向量表示作为文本语义信息。
128.基于识别模块结合了第一网络和第二网络(lstm+multi-head attention),能够在考虑实体上下文的语境前提下,可以通过赋予不同权重从而提取出待识别文本的实体关键信息,将待识别文本中无关的信息进行忽略,以提升获取待识别文本的特征表达的效率。
129.在一个实施例中,所述将得到的词汇信息输入所述条件随机场层进行解码,得到待识别文本的命名实体结果,包括:
130.利用所述条件随机场层的解码器对所述词汇信息进行标注处理,得到所述字符的标签;
131.计算所述标签的评分,从评分结果中选取大于预设第二阈值的标签作为所述待识别文本的识别结果。
132.在标注处理时,利用条件随机场层的状态概率矩阵测试待识别文本对应的每个词组从一个状态转移到另一个状态的概率,验证标签的组合关系是否符合标注原则(例如,标注原则为bio标,bio标注将每个元素(字)标注为“b-x”、“i-x”或者“o”。其中,“b-x”表示此元素所在的片段属于x类型并且此元素在此片段的开头,“i-x”表示此元素所在的片段属于x类型并且此元素在此片段的中间位置,“o”表示不属于任何类型),从而判断相邻标注实体之间的组合是否为正确标签或错误标签。因此,条件随机场层充分考虑标签之间的组合关中,考虑的不是一个单独的最优值,而是所有组词组成的文本的全局最优值。
133.在步骤s4中,利用识别模块的长短期记忆层和条件随机场层,也就是说,将lstm模型与crf模型的结合。利用lstm模型获取正向图的表征能力,利用crf模型能考虑全局信息,解决标注偏置的问题。
134.在步骤s1-s4中,本发明将图神经网络与实体词典相结合的技术方案,将待识别文本转换成正向图时,将实体词典的词汇信息融入到正向图中,利用图神经网络的特性,学习正向图与实体词典的融合信息,有效地解决了现有技术中基于字符粒度的识别方法下缺乏词汇信息以及词语粒度下分词边界问题的困扰。
135.如图2所示,为本发明一实施例提供的中文命名实体识别装置的模块示意图。
136.本发明所述中文命名实体识别装置100可以安装于电子设备中。根据实现的功能,所述中文命名实体识别装置100可以包括第一生成模块110、第二生成模块120、提取模块130及输出模块140。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
137.在本实施例中,关于各模块/单元的功能如下:
138.第一生成模块110,用于用于获取待识别文本的字符序列,以所述字符序列包含的每个字符作为一个节点,根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边;
139.第二生成模块120,用于根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,及根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边;
140.提取模块130,用于根据所有节点、所述第一边、第二边以及第三边生成所述正向图,利用预设的图神经网络的特征提取模块对所述正向图进行向量提取,得到所述正向图的第一向量特征;
141.输出模块140,用于利用所述图神经网络的识别模块对所述第一向量特征进行识别,得到所述待识别文本的命名实体结果。
142.在一个实施例中,在所述获取待识别文本的字符序列之前,该方法还包括:
143.对所述待识别文本进行字符切割,得到所述待识别文本的字符序列。
144.在一个实施例中,所述根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边,包括:
145.计算每两个相邻节点之间的第一相似度;
146.若计算得到的第一相似度的数值大于预设的词汇表对应词汇的阈值,则在所述相邻节点之间生成所述第一边。
147.在一个实施例中,所述实体词典是按以下方法得到的:
148.对未标注文本数据集进行文本标注,得到已标注文本数据集;
149.对所述已标注文本数据集进行分词和筛选,得到一个以上词组,对所有词组进行向量嵌入操作得到所述实体词典。
150.在一个实施例中,所述根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,包括:
151.计算所述第一个节点与所述其它节点的第二相似度,若计算得到的第二相似度的数值大于所述实体词典对应词组的阈值,则在所述第一个节点与对应的节点之间生成所述第二边。
152.在一个实施例中,所述根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边,包括:
153.计算所述最后一个节点与所述其它节点的第三相似度,若计算得到的第三相似度的数值大于所述实体词典对应词组的阈值,则在所述最后一个节点与对应的节点之间生成所述第三边。
154.在一个实施例中,所述利用预设的图神经网络的特征提取模块对所述正向图进行
向量提取,得到所述正向图的第一向量特征,包括:
155.利用所述特征提取模块的自注意力特征提取层构建所述正向图的中继节点,利用所述中继节点对所述正向图进行更新,生成反向图;
156.利用所述特征提取模块的特征融合层将所述正向图的向量特征与所述反向图的向量特征进行拼接,得到所述第一向量特征。
157.如图3所示,为本发明一实施例提供的实现中文命名实体识别方法的电子设备的结构示意图。
158.在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有中文命名实体识别程序10,所述中文命名实体识别程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及中文命名实体识别程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
159.其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的中文命名实体识别程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
160.处理器12在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行中文命名实体识别程序10等。
161.网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与终端(图中未画出)之间建立通信连接。
162.可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
163.应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
164.所述电子设备1中的所述存储器11存储的中文命名实体识别程序10是多个指令的组合,在所述处理器12中运行时,可以实现:
165.获取待识别文本的字符序列,以所述字符序列包含的每个字符作为一个节点,根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边;
166.根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,及根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边;
167.根据所有节点、所述第一边、第二边以及第三边生成所述正向图,利用预设的图神经网络的特征提取模块对所述正向图进行向量提取,得到所述正向图的第一向量特征;
168.利用所述图神经网络的识别模块对所述第一向量特征进行识别,得到所述待识别文本的命名实体结果。
169.具体地,所述处理器12对上述中文命名实体识别程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
170.进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
171.所述计算机可读存储介质上存储有中文命名实体识别程序10,所述中文命名实体识别程序10可被一个或者多个处理器执行,本发明计算机可读存储介质具体实施方式与上述中文命名实体识别方法各实施例基本相同,在此不作赘述。
172.在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
173.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
174.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
175.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
176.因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
177.此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
178.最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
技术特征:
1.一种中文命名实体识别方法,其特征在于,所述方法包括:获取待识别文本的字符序列,以所述字符序列包含的每个字符作为一个节点,根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边;根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,及根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边;根据所有节点、所述第一边、第二边以及第三边生成所述正向图,利用预设的图神经网络的特征提取模块对所述正向图进行向量提取,得到所述正向图的第一向量特征;利用所述图神经网络的识别模块对所述第一向量特征进行识别,得到所述待识别文本的命名实体结果。2.如权利要求1所述的中文命名实体识别方法,其特征在于,在所述获取待识别文本的字符序列之前,该方法还包括:对所述待识别文本进行字符切割,得到所述待识别文本的字符序列。3.如权利要求1所述的中文命名实体识别方法,其特征在于,所述根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边,包括:计算每两个相邻节点之间的第一相似度;若计算得到的第一相似度的数值大于预设的词汇表对应词汇的阈值,则在所述相邻节点之间生成所述第一边。4.如权利要求1所述的中文命名实体识别方法,其特征在于,所述实体词典是按以下方法得到的:对未标注文本数据集进行文本标注,得到已标注文本数据集;对所述已标注文本数据集进行分词和筛选,得到一个以上词组,对所有词组进行向量嵌入操作得到所述实体词典。5.如权利要求1所述的中文命名实体识别方法,其特征在于,所述根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,包括:计算所述第一个节点与所述其它节点的第二相似度,若计算得到的第二相似度的数值大于所述实体词典对应词组的阈值,则在所述第一个节点与对应的节点之间生成所述第二边。6.如权利要求1所述的中文命名实体识别方法,其特征在于,所述根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边,包括:计算所述最后一个节点与所述其它节点的第三相似度,若计算得到的第三相似度的数值大于所述实体词典对应词组的阈值,则在所述最后一个节点与对应的节点之间生成所述第三边。7.如权利要求1所述的中文命名实体识别方法,其特征在于,所述利用预设的图神经网络的特征提取模块对所述正向图进行向量提取,得到所述正向图的第一向量特征,包括:利用所述特征提取模块的自注意力特征提取层构建所述正向图的中继节点,利用所述
中继节点对所述正向图进行更新,生成反向图;利用所述特征提取模块的特征融合层将所述正向图的向量特征与所述反向图的向量特征进行拼接,得到所述第一向量特征。8.一种中文命名实体识别装置,其特征在于,所述装置包括:第一生成模块,用于获取待识别文本的字符序列,以所述字符序列包含的每个字符作为一个节点,根据所述字符序列中相邻节点之间的预设关系生成待构建的正向图的第一边;第二生成模块,用于根据预设的实体词典、所述字符序列的第一个节点,与除了所述第一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第二边,及根据所述实体词典、所述字符序列的最后一个节点,与除了所述最后一个节点之外的其它节点的预设关系,生成所述待构建的正向图的第三边;提取模块,用于根据所有节点、所述第一边、第二边以及第三边生成所述正向图,利用预设的图神经网络的特征提取模块对所述正向图进行向量提取,得到所述正向图的第一向量特征;输出模块,用于利用所述图神经网络的识别模块对所述第一向量特征进行识别,得到所述待识别文本的命名实体结果。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的中文命名实体识别程序,所述中文命名实体识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的中文命名实体识别方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有中文命名实体识别程序,所述中文命名实体识别程序可被一个或者多个处理器执行,以实现如权利要求1至7任一项所述的中文命名实体识别方法。
技术总结
本发明涉及医疗领域、自然语言处理领域,揭露一种中文命名实体识别方法,包括:根据预设的实体词典对待识别文本的字符序列的所有节点、第一边、第二边、第三边生成正向图,利用预设的图神经网络的特征提取模块对正向图进行向量提取,得到正向图的第一向量特征;利用图神经网络的识别模块对第一向量特征进行识别,得到待识别文本的命名实体结果。本发明应用在数字医疗领域中,利用图神经网络和实体词典结合,对正向图的第一向量表示处理,得到待识别文本的命名实体结果,能够提高对医疗电子病历或医学文本中的命名实体识别的准确率,减少医疗检索或医疗数据归档的不必要麻烦。少医疗检索或医疗数据归档的不必要麻烦。少医疗检索或医疗数据归档的不必要麻烦。
技术研发人员:刘羲 马英宁 舒畅 陈又新
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.16
技术公布日:2023/9/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/