嵌套命名实体识别方法、装置、设备及存储介质
未命名
08-26
阅读:139
评论:0

1.本发明涉及信息抽取技术领域,尤其涉及到一种嵌套命名实体识别方法、装置、设备及存储介质。
背景技术:
2.信息抽取的三大任务是命名实体识别、关系抽取、事件抽取。命名实体识别是指识别文本中具有特定意义的实体,包括人名、地名、机构名、专有名词等;关系抽取是指识别文本中实体之间的关系;事件抽取是指识别文本中的事件信息并以结构化的形式呈现出来。信息抽取技术被广泛应用于知识图谱的构建、机器阅读理解、智能问答和信息检索系统中。信息抽取的三大任务不是相互独立的关系,而是相互依存、彼此依赖的关系。命名实体识别是关系抽取、事件抽取的基础,关系抽取是事件抽取的基础。同时,关系抽取、事件抽取对命名实体识别任务有帮助,事件抽取对关系抽取任务有帮助,嵌套实体识别是命名实体识别中一个子问题,如今业界有以下两种解决思路:
3.第一种是基于转换的模型(transformation-based models):通过映射或分层的方法将嵌套结构转换成平面结构再使用序列标记模型进行实体类型预测。ju等人提出了多层lstm-crf(long short term memory-conditional random fields)模型,从嵌套结构中动态迭代地提取出内部实体;luo等人使用bilstm(bidirectional long short-term memory)和图卷积网络,基于词融合与跨度检测的中文嵌套命名实体识别,共同学习外层实体与内部约束关系,提出了一种二分平面图网络模型来识别嵌套实体;周俊生等人提出层叠条件随机场模型,利用低层条件随机场对实体进行识别并为高层条件随机场提供决策信息。第二种是基于跨度的模型(span based models):通过将语句中的跨度(子序列)进行分类来识别出嵌套实体。xu等人利用局部检测法对每个可能的子序列进行分类;sohrab等人提出了一种神经管道方法,该模型通过基于上下文跨度表示的枚举法来获取bilstm输出的语义信息,在识别化学领域的嵌套实体时取得了不错的成绩;yu等人利用bert(bidirectional encoder representations from transformers)获取目标跨度的上下文信息来改进嵌套语言的跨度表示;liu等人微调bert后对文本信息进行编码得到跨度表示,结合多任务学习方法将nested ner任务分为实体识别任务和实体分类任务。近年来表现比较好的模型有如下三个,globalpointer;tplinker(muti-head selection);tencent muti-head;其优势分别在于:
4.globalpointer作为乘性方法,在空间内存占用上明显优于其他方法,并且训练速度较快,能达到一个具有竞争力的效果。
5.在绝对位置编码和不加入位置编码的测试中tencent muti-head的效果明显优于tplinker而两者均差于globalpointer,但在引入相对位置信息后tencent muti-head略微超越了globalpointer,而tplinker提点显著,作为tencent muti-head的原型在最高得分上甚至可能有更好的表现。
6.传统序列标注方法无法应用于嵌套实体识别、通常错误率高,目前中文命名实体
识别模型在识别具有嵌套结构的实体时存在误差,无法准确识别。基于转换的模型需要复杂的变换与解码操作,识别过程中可能会导致错误并且计算成本高;基于跨度的模型缺乏对跨度边界的明确划分,导致产生一些不必要的跨度,如不包含实体的跨度和不是实体的跨度为不必要跨度,但其不受嵌套层数量和不同嵌套实体类别的限制且可以较容易地找出不同跨度中的实体。
技术实现要素:
7.本发明的主要目的在于提供一种嵌套命名实体识别方法、装置、设备及存储介质,旨在解决目前嵌套命名实体识别错误率高的技术问题。
8.为实现上述目的,本发明提供一种嵌套命名实体识别方法,所述方法包括以下步骤:
9.利用特征模板融合模块对目标语句进行上下文信息获取;
10.利用边界识别模块对目标语句中每个字符进行跨度边界检测,并根据跨度边界检测结果和上下文信息,为跨度进行分类并标注其类别;
11.根据跨度分类结果识别目标语句中的嵌套命名实体。
12.可选的,对目标语句进行上下文信息获取步骤,具体包括:
13.利用特征模板融合模块将目标语句中与字符最相关的词组信息注入到bert底层进行深度知识融合;
14.利用多层transformer编码器得到上下文信息。
15.可选的,利用特征模板融合模块将目标语句中与字符最相关的词组信息注入到bert底层进行深度知识融合步骤之前,所述方法还包括:为目标语句中每个字符匹配所有可能的词汇并组成词组,再将字符与词组作为特征模板融合模型的输入。
16.可选的,利用特征模板融合模块将目标语句中与字符最相关的词组信息注入到bert底层进行深度知识融合步骤,具体包括:将每个词组中的词汇按照其相应权重进行融合得到融合词向量,再与相应模板字符进行融合获得最终字词融合向量并注入到bert中。
17.可选的,所述边界识别模块包括跨度边界检测层和跨度分类层。
18.可选的,所述跨度边界检测层具有两个多层感知器,分别检测每个字符是跨度的首字符还是尾字符,并根据检测结果进行跨边界划分。
19.可选的,所述跨度分类层根据划分后的跨边界和上下文信息,对每个跨度进行分类并标注其类别。
20.此外,为了实现上述目的,本发明还提供了一种嵌套命名实体识别装置,所述嵌套命名实体识别装置包括:
21.特征模板融合模块,用于对目标语句进行上下文信息获取;
22.边界识别模块,用于对目标语句中每个字符进行跨度边界检测,并根据跨度边界检测结果和上下文信息,为跨度进行分类并标注其类别;
23.实体识别模块,用于根据跨度分类结果识别目标语句中的嵌套命名实体。
24.此外,为了实现上述目的,本发明还提供了一种嵌套命名实体识别设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的嵌套命名实体识别程序,所述嵌套命名实体识别程序被所述处理器执行时实现上述的嵌套命名实体识别方
法的步骤。
25.此外,为了实现上述目的,本发明还提供了一种存储介质,所述存储介质上存储有嵌套命名实体识别程序,所述嵌套命名实体识别程序被处理器执行时实现上述的嵌套命名实体识别方法的步骤。
26.本发明实施例提出的一种嵌套命名实体识别方法、装置、设备及存储介质,所述方法包括:利用特征模板融合模块对目标语句进行上下文信息获取;利用边界识别模块对目标语句中每个字符进行跨度边界检测,并根据跨度边界检测结果和上下文信息,为跨度进行分类并标注其类别;根据跨度分类结果识别目标语句中的嵌套命名实体。本发明通过融合了实体特征和边界检测,并将实体特征模板化,提出了fbd模型,使计算成本降低,识别准确率和召回率都有所提高;在融合词汇信息后,特征信息更加丰富,大大增强了识别性能,确能够有效增强文本特征,获得全面的上下文信息,结合边界预测准确划分出实体,有效提高了模型对实体的识别性能。
附图说明
27.图1为本发明实施例方案涉及的硬件运行环境的装置结构示意图;
28.图2为本发明嵌套命名实体识别方法实施例的流程示意图;
29.图3为本发明fbd模型架构的示意图;
30.图4为本发明实施例中一种嵌套命名实体识别装置的结构框图。
31.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
32.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
33.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
34.如图1所示,图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。
35.如图1所示,该装置可以包括:处理器1001,例如cpu,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
36.本领域技术人员可以理解,图1中示出的装置的结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
37.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及嵌套命名实体识别程序。
38.在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器
1001可以用于调用存储器1005中存储的嵌套命名实体识别程序,并执行以下操作:
39.利用特征模板融合模块对目标语句进行上下文信息获取;
40.利用边界识别模块对目标语句中每个字符进行跨度边界检测,并根据跨度边界检测结果和上下文信息,为跨度进行分类并标注其类别;
41.根据跨度分类结果识别目标语句中的嵌套命名实体。
42.本发明应用于装置的具体实施例与下述应用嵌套命名实体识别方法的各实施例基本相同,在此不作赘述。
43.本发明实施例提供了一种嵌套命名实体识别方法,参照图2,图2为本发明嵌套命名实体识别方法实施例的流程示意图。
44.本实施例中,所述嵌套命名实体识别方法包括以下步骤:
45.步骤s100,利用特征模板融合模块对目标语句进行上下文信息获取;
46.步骤s200,利用边界识别模块对目标语句中每个字符进行跨度边界检测,并根据跨度边界检测结果和上下文信息,为跨度进行分类并标注其类别;
47.步骤s300,根据跨度分类结果识别目标语句中的嵌套命名实体。
48.本实施例提供了一种嵌套命名实体识别方法,通过融合了实体特征和边界检测,并将实体特征模板化,提出了fbd模型,使计算成本降低,识别准确率和召回率都有所提高;在融合词汇信息后,特征信息更加丰富,大大增强了识别性能,确能够有效增强文本特征,获得全面的上下文信息,结合边界预测准确划分出实体,有效提高了模型对实体的识别性能。
49.为了更清楚的解释本技术,下面提供本技术在实际应用中的具体实例。
50.本实施例将中文句子的分词、基本命名实体的识别与嵌套命名实体的识别任务集成在同一个分析和处理过程中;综合利用字符层的信息与词汇层的信息,帮助完成句子中的基本命名实体与嵌套命名实体的边界与类型的决策判断;利用其中的基本命名实体预识别信息,为整个嵌套命名实体的识别提供决策支持。
51.具体而言,本实施例提供的嵌套命名实体识别模型包括特征模板融合(feature template fusion,ftf)和边界识别两部分,下面将详细介绍融合算法和边界识别算法。
52.融合算法可以同时处理文本的分词和中文嵌套命名实体识别,所以本实施例的特征模板要能够有针对性的提高分词和命名实体识别的效果。
53.首先,中文人名一般由姓和名两部分组成,姓比较稳定,可以将常用的姓氏抽取出来,加入特征模板中,提高分词的准确性。嵌套命名实体一般是结构复杂的地名和组织机构名,它们内部也包含一些常现的特征词,如组织机构名的特征词“公司、学校”,地名的特征词“省、市”等。所以本实施例选取了常用的特征词来构造特征词模板,提高识别效果。本实施例选取的常用特征词有地名特征词和组织机构名特征词。
54.其次,嵌套命名实体作为一种专有名词,具有一定的上下文语言环境。嵌套命名实体的上下文信息主要是边界词,如“位于、坐落在”常常作为地名的右边界词,“接管、任职于”常常作为组织机构名的左边界词。在自然语言处理中,互信息i(x,y)常常被用作为描述两个字或者词之间关联程度大小的度量。
55.本发明用基于互信息的方法对嵌套实体的左右边界词进行选取。本实施例主要选取了基本地名、组织机构名的左右边界词以及嵌套地名、嵌套组织机构名的左右边界词。最
后,嵌套命名实体由词和基本命名实体组成,其构成有一定的规律。通过分析语料库,总结嵌套命名实体的几种普遍的构成形式,并将其总结成一张表格,以便查找使用。
56.边界识别算法第一部分为robert,它利用注入模块将目标语句中与字符最相关的词组信息注入到bert底层进行深层知识融合,经过层层transformer编码器得到上下文信息,获取跨度表示;第二部分为跨度边界检测层(span boundary detection,sbd),它是由两个多层感知器(multi-layer perceptron,mlp)组成,分别预测每个字符是跨度的首字符还是尾字符,进行跨度边界划分;第三部分为跨度分类层(span classification,sc),它利用上层的跨度表示和跨度边界预测结果对每个跨度进行分类,并赋予对应的类别标签。
57.如图3所示为本实施例提出的fbd模型架构,模型大致分三部分:第一部分为robert,它利用ftf模块将目标语句中与字符最相关的词组信息注入到bert底层进行深层知识融合,经过层层transformer编码器得到上下文信息,获取跨度表示;第二部分为跨度边界检测层(span boundary detection,sbd),它是由两个多层感知器(multi-layer perceptron,mlp)组成,分别预测每个字符是跨度的首字符还是尾字符,进行跨边界划分;第三部分为跨度分类层(span classification,sc),它利用上层的跨度表示和跨度边界预测结果对每个跨度进行分类,并赋予对应的类别标签。
58.其中,wci(wc1、wc2等)表示包含ci的词汇组成的集合;embedding层为以one hot词向量为输入、中间层节点为字向量维数的全连接层;we为词嵌入,通过训练,将每个词都映射到一个较短的词向量上。
59.ftf模块,第一步为准备工作,为目标语句中每个字符匹配所有可能的词汇并组成词组,再将字符与词组作为模型的输入;第二步为模板匹配,将每个词组中的词汇按照其相应权重进行融合得到融合词向量,再与相应模板字符进行融合获得最终字词融合向量并注入到bert中,进行编码。
60.跨度边界检测层跨度边界检测层(span boundary detection,sbd)的目的是为了减少不必要跨度的产生,减少时间复杂度,提高模型整体性能。此模块应用了两个多层感知(mlp)分类器,分别计算每个字符作为跨度的首字符还是尾字符的概率,以此来预测跨度边界。
61.跨度分类层跨度分类层(span classification,sc)将来自跨度边界检测层的输出结果与来自ftf编码后的上下文信息结合起来为跨度进行分类并标注其类别。
62.本实施例提供的一种嵌套命名实体识别方法,融合了实体特征和边界检测,并将实体特征模板化,提出了fbd模型,使计算成本降低,识别准确率和召回率都有所提高。在融合词汇信息后,特征信息更加丰富,大大增强了识别性能。在msra数据集上,本实施例的模型在召回率方面取得了最佳,确能够有效增强文本特征,获得全面的上下文信息,结合边界预测准确划分出实体,有效提高了模型对实体的识别性能。
63.参照图4,图4为本发明嵌套命名实体识别装置实施例的结构框图。
64.如图4所示,本发明实施例提出的嵌套命名实体识别装置包括:
65.特征模板融合模块301,用于对目标语句进行上下文信息获取;
66.边界识别模块302,用于对目标语句中每个字符进行跨度边界检测,并根据跨度边界检测结果和上下文信息,为跨度进行分类并标注其类别;
67.实体识别模块303,用于根据跨度分类结果识别目标语句中的嵌套命名实体。
68.本发明嵌套命名实体识别装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
69.此外,本发明还提出一种嵌套命名实体识别设备,其特征在于,所述嵌套命名实体识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的嵌套命名实体识别程序,其中:所述嵌套命名实体识别程序被所述处理器执行时实现本发明各个实施例所述的嵌套命名实体识别方法。
70.本技术嵌套命名实体识别设备的具体实施方式与上述嵌套命名实体识别方法各实施例基本相同,在此不再赘述。
71.此外,本发明还提出一种可读存储介质,所述可读存储介质包括计算机可读存储介质,其上存储有嵌套命名实体识别程序。所述可读存储介质可以是图1的终端中的存储器1005,也可以是如rom(read-only memory,只读存储器)/ram(random access memory,随机存取存储器)、磁碟、光盘中的至少一种,所述可读存储介质包括若干指令用以使得一台具有处理器的嵌套命名实体识别设备执行本发明各个实施例所述的嵌套命名实体识别方法。
72.本技术可读存储介质中嵌套命名实体识别程序的具体实施方式与上述嵌套命名实体识别方法各实施例基本相同,在此不再赘述。
73.可以理解的是,在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第n实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
74.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
75.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
76.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
77.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种嵌套命名实体识别方法,其特征在于,所述方法包括以下步骤:利用特征模板融合模块对目标语句进行上下文信息获取;利用边界识别模块对目标语句中每个字符进行跨度边界检测,并根据跨度边界检测结果和上下文信息,为跨度进行分类并标注其类别;根据跨度分类结果识别目标语句中的嵌套命名实体。2.如权利要求1所述的嵌套命名实体识别方法,其特征在于,对目标语句进行上下文信息获取步骤,具体包括:利用特征模板融合模块将目标语句中与字符最相关的词组信息注入到bert底层进行深度知识融合;利用多层transformer编码器得到上下文信息。3.如权利要求2所述的嵌套命名实体识别方法,其特征在于,利用特征模板融合模块将目标语句中与字符最相关的词组信息注入到bert底层进行深度知识融合步骤之前,所述方法还包括:为目标语句中每个字符匹配所有可能的词汇并组成词组,再将字符与词组作为特征模板融合模型的输入。4.如权利要求3所述的嵌套命名实体识别方法,其特征在于,利用特征模板融合模块将目标语句中与字符最相关的词组信息注入到bert底层进行深度知识融合步骤,具体包括:将每个词组中的词汇按照其相应权重进行融合得到融合词向量,再与相应模板字符进行融合获得最终字词融合向量并注入到bert中。5.如权利要求1所述的嵌套命名实体识别方法,其特征在于,所述边界识别模块包括跨度边界检测层和跨度分类层。6.如权利要求5所述的嵌套命名实体识别方法,其特征在于,所述跨度边界检测层具有两个多层感知器,分别检测每个字符是跨度的首字符还是尾字符,并根据检测结果进行跨边界划分。7.如权利要求5所述的嵌套命名实体识别方法,其特征在于,所述跨度分类层根据划分后的跨边界和上下文信息,对每个跨度进行分类并标注其类别。8.一种嵌套命名实体识别装置,其特征在于,所述嵌套命名实体识别装置包括:特征模板融合模块,用于对目标语句进行上下文信息获取;边界识别模块,用于对目标语句中每个字符进行跨度边界检测,并根据跨度边界检测结果和上下文信息,为跨度进行分类并标注其类别;实体识别模块,用于根据跨度分类结果识别目标语句中的嵌套命名实体。9.一种嵌套命名实体识别设备,其特征在于,所述嵌套命名实体识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的嵌套命名实体识别程序,所述嵌套命名实体识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的嵌套命名实体识别方法的步骤。10.一种存储介质,其特征在于,所述存储介质上存储有嵌套命名实体识别程序,所述嵌套命名实体识别程序被处理器执行时实现如权利要求1至7中任一项所述的嵌套命名实体识别方法的步骤。
技术总结
本发明公开了一种嵌套命名实体识别方法、装置、设备及存储介质,所述方法包括:利用特征模板融合模块对目标语句进行上下文信息获取;利用边界识别模块对目标语句中每个字符进行跨度边界检测,并根据跨度边界检测结果和上下文信息,为跨度进行分类并标注其类别;根据跨度分类结果识别目标语句中的嵌套命名实体。本发明通过融合了实体特征和边界检测,并将实体特征模板化,提出了FBD模型,使计算成本降低,识别准确率和召回率都有所提高;在融合词汇信息后,特征信息更加丰富,大大增强了识别性能,能够有效增强文本特征,获得全面的上下文信息,结合边界预测准确划分出实体,有效提高了模型对实体的识别性能。模型对实体的识别性能。模型对实体的识别性能。
技术研发人员:周朗 王炜
受保护的技术使用者:云南大学
技术研发日:2023.03.16
技术公布日:2023/8/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/