一种面向中文医学文本的实体关系抽取方法及系统
未命名
09-22
阅读:109
评论:0

1.本发明涉及语言数据处理技术领域,更具体地,涉及一种面向中文医学文本的实体关系抽取方法及系统。
背景技术:
2.中文医学文本是十分宝贵的财富,抽取非结构化和半结构化的医学文本去构建知识图谱等技术,可以为下游的子任务提供相应的服务,从而促进如智能医疗、辅助诊断、医疗知识普及等方面的发展。
3.实体关系抽取是判断文本中的实体与实体之间是否存在某种特定的关联关系,并构建出相应的关系三元组。早期的实体关系抽取任务主要采用流水线抽取方法,即先对给定的数据集中的句子进行命名实体的识别,然后再利用分类器等计算出实体间的关系,从而进行关系分类。这一方法容易实现,其实体识别和关系抽取这两个子任务被解耦开来,可以分别使用独立的数据集。然而,实体识别中所出现的误差会继续传递到关系抽取任务中,从而产生级联误差;子任务高度解耦的同时也忽略了它们之间可能的联系与依赖;此外,先进行实体两两配对的任务,会使得本没有关系的实体对出现,这些实体对就成了冗余的信息,提升了计算的复杂度,也易导致错误发生。
4.目前有提出采用联合抽取方法,通过将实体抽取和关系抽取任务联合建模,利用两者之间的潜在关系,减轻流水线方法中可能出现的错误、误差累积等问题带来的影响。联合抽取方法存在两种不同的应用方式,一个是基于共享参数的多任务学习方法,另一个是联合解码的结构化预测方法。但是,由于中文与英文存在较大差异,中文文本的实体和实体关系类型都更具有特殊性,因此相关技术处理中文文本时的效果可能欠佳。同时,在医学文本领域,由于医疗数据信息的隐私性、医学领域的专业性、医学研究的高标准与高要求,中文医学文本的实体关系抽取效果仍有较大提升空间。
技术实现要素:
5.本发明为克服上述现有技术所述的实体关系抽取方法中存在关系重叠和级联误差,应用于中文医学文本的实体抽取时效果欠佳的缺陷,提供一种面向中文医学文本的实体关系抽取方法及系统。
6.为解决上述技术问题,本发明的技术方案如下:一种面向中文医学文本的实体关系抽取方法,包括以下步骤:获取中文医学文本数据并对其进行预处理,得到文本向量;将所述文本向量分别输入casrel(cascade binary tagging framework)模型和tplinker模型中,并对所述casrel模型和tplinker模型分别进行训练;选择至少一个预训练模型作为编码层分别对经过训练的所述casrel模型和tplinker模型进行编码优化,得到若干实体关系抽取模型;比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择
满足预设的评估指标的目标实体关系抽取模型输出;根据满足评估指标的目标实体关系抽取模型对待处理的中文医学文本数据处理,以获取最终的抽取关系。
7.进一步地,本发明还提出了一种面向中文医学文本的实体关系抽取系统,应用本发明提出的面向中文医学文本的实体关系抽取方法。其中包括:预处理模块,用于对输入的中文医学文本数据进行预处理,生成文本向量;训练模块,用于利用文本向量对casrel模型和tplinker模型分别进行训练;优化模块,用于根据选择的预训练模型作为编码层分别对所述casrel模型和tplinker模型进行编码优化,得到若干实体关系抽取模型;分析模块,用于比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择满足预设的评估指标的实体关系抽取模型;实体关系抽取模块,其上配置有由所述分析模块选择的实体关系抽取模型,用于对待处理的中文医学文本数据处理,输出相应的抽取关系。
8.进一步地,本发明还提出了一种存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现本发明提出的实体关系抽取方法的步骤。
9.与现有技术相比,本发明技术方案的有益效果是:本发明将预训练模型结合casrel模型和tplinker模型优化实体关系抽取的效果,并综合不同组合模型进行实体抽取效果评估后,选择满足预设的评估指标的目标实体关系抽取模型进行实体关系抽取,解决了重叠三元组问题及级联误差问题,有效提高中文医学文本的实体抽取效果。
附图说明
10.图1为实施例1的面向中文医学文本的实体关系抽取方法的流程图。
11.图2为casrel模型的框架图。
12.图3为tplinker模型的框架图。
13.图4为tplinker模型标注方案矩阵图。
14.图5为casrel模型训练过程的指标变化示意图。
15.图6为tplinker模型训练过程的指标变化示意图。
16.图7为实施例2中训练集的关系类别数量统计示意图。
17.图8为实施例2中验证集的关系类别数量统计示意图。
18.图9为实施例3的面向中文医学文本的实体关系抽取系统的架构图。
具体实施方式
19.附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些公知说明可能省略是可以理解的。
20.下面结合附图和实施例对本发明的技术方案做进一步的说明。
21.实施例1本实施例提出一种面向中文医学文本的实体关系抽取方法,如图1所示,为本实施例的面向中文医学文本的实体关系抽取方法的流程图。
22.本实施例提出的面向中文医学文本的实体关系抽取方法中,包括以下步骤:
s1、获取中文医学文本数据并对其进行预处理,得到文本向量。
23.s2、将所述文本向量分别输入casrel模型和tplinker模型中,并对所述casrel模型和tplinker模型分别进行训练。
24.s3、选择至少一个预训练模型作为编码层分别对经过训练的所述casrel模型和tplinker模型进行编码优化,得到若干实体关系抽取模型。
25.s4、比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择满足预设的评估指标的目标实体关系抽取模型输出。
26.s5、根据满足评估指标的目标实体关系抽取模型对待处理的中文医学文本数据处理,以获取最终的抽取关系。
27.本实施例中,将预训练模型结合casrel模型和tplinker模型优化实体关系抽取的效果,并综合不同组合模型进行实体抽取效果评估后,选择满足预设的评估指标的目标实体关系抽取模型进行实体关系抽取,充分考虑中文实体关系抽取中重叠和级联误差问题,有效提高中文医学文本的实体抽取效果。
28.其中,casrel模型通过一种新的视角来审视关系三元组抽取,用于解决重叠三元组问题。而tplinker模型将实体、关系联合提取的任务转变为token对的连接问题,用于解决级联误差问题。
29.在一可选实施例中,s1步骤中,对中文医学文本数据进行预处理时,包括以下步骤:对于输入所述casrel模型的中文医学文本数据,将所述三元组信息相应标注中的@value标签去掉,转换为简单三元组格式;对于输入所述tplinker模型的中文医学文本数据,将所述三元组信息相应标注中的@value标签去掉,转换为简单三元组格式,并获取词粒度和字粒度的片段索引区间;对经过转换处理的中文医学文本数据进行编码,得到文本向量。
30.进一步地,在一可选实施例中,对经过转换处理的中文医学文本数据进行编码时,包括以下步骤:利用分词器对经过转换处理的中文医学文本数据中的文本进行切分,利用bert模型对切分后的词组转换为相应的编码,得到文本向量。
31.本实施例中,由于casrel模型采用tensorflow框架编写,而tplinker模型采用pytorch框架编写,因此需分别使用对应框架的bert模型编码,利用分词器tokenizer对文本数据中的文本进行切分,并将句子中的每一个词都转换成相应的编码,得到文本向量。
32.在一可选实施例中,s2步骤中,将所述文本向量输入casrel模型中进行训练,包括以下步骤:s2.1.1、将所述文本向量输入casrel模型中,利用二分类器计算任一token作为主语(subject)起始位置及结束位置的概率,并根据预设的阈值进行标记:若概率大于或等于阈值则标记为1,若概率小于阈值则标记为0;得到任一token作为subject起始位置及结束位置的二进制标记值。
33.s2.1.2、subject中的损失函数使用最大似然函数判断其误差;其表达式为:
其中,表示从句子中标识subject的损失函数,表示subject,表示所输入的句子表示,表示权重;表示句子实际长度,表示第个token是subject起始位置的概率,表示第个token是subject结束位置的概率;表示第个token作为subject起始位置的二进制标记,表示第个token作为subject结束位置的二进制标记;表示指针标识主体或客体的位置;表示指针处于其他无关位置。
34.s2.1.3、遍历每一种关系类型,对任一subject对应的每一种关系的宾语(object)起始位置和结束位置进行解码,得到实体关系预测结果三元组。
35.s2.1.4、object中的损失函数使用最大似然函数判断其误差;其表达式为:其中,表示标识subject特定关系对应的object损失函数,表示object,表示偏置值;表示第个token是object起始位置的概率,表示第个token是objectj结束位置的概率;表示第个token作为objectj起始位置的二进制标记,表示第个token作为objectj结束位置的二进制标记。
36.s2.1.5、使用损失函数检测所述casrel模型的预测值与真实值之间的误差程度,用于评估所述casrel模型的预测效果;其表达式为:其中,表示句子集合;表示句子中可能重叠的三元组;表示三元组中出现的subject;表示三元组中以subject为首的三元组集合;表示除了三元组中以subject为首的其他关系;表示空的object;表示给定的已标识句子。
37.进一步可选地,在对casrel模型进行训练时,还包括对其基本参数进行设置。其中,基本参数包括batch_size、max_length、learning_rate等。
38.作为示例性说明,如图2所示,为casrel模型的框架图。其中,标识subject的实质类似于一个低级的主体标记解码器。本实施例中每一个token通过二分类器来计算作为某一subject开始及结束位置的概率,如果大于阈值则标记为1,小于阈值则标记为0,从而进一步实现对subject的预测。如果有多个subject被识别出来,就采用就近原则的方式进行头尾组合。
39.特定关系标识object部分是以上述subject的编码向量为输入条件,传入下一步进行训练,对上述编码序列进行有条件的层标准化(conditional layer normalization),即将含有不同维度特征的样本输入数据进行归一化、标准化。本实施例中,将数据集提供的
所有的关系进行一次遍历,从而得到该subject在每一种关系之下对应的object。从模型复杂度来看,假设一共有m种关系,句子的长度为n,且一条句子中含有t个subject,则模型的算法复杂度o = 2*m*n*t。
40.本实施例通过最大似然函数确定模型的预测能力,并通过损失函数检测模型的预测值与真实值之间的误差程度,用于进一步评估casrel模型的预测效果。
41.在一可选实施例中,s2步骤中,将所述文本向量输入tplinker模型中进行训练,包括以下步骤:s2.2.1、将所述文本向量输入tplinker模型中,所述tplinker模型基于优化后的tplinker_plus算法,对输入编码器中的句子中的每个token进行两两拼接。
42.s2.2.2、将经过拼接的token对输入tplinker模型的全连接层中,通过矩阵标识subject和object的位置及关系,输出subject-object关系矩阵向量。
43.s2.2.3、对subject-object关系矩阵向量进行类型解码,得到实体关系预测结果三元组。
44.s2.2.4、使用损失函数检测所述tplinker模型的预测值与真实值之间的误差程度,用于评估所述tplinker模型的预测效果;其表达式为:其中,为所输入的句子的真实长度,表示不同拼接类型中的token对标记,为不同拼接类型中的真实标签,表示不同拼接类型中token对标记正确的概率;e、h、t分别表示相应的token对拼接类型。
45.进一步地,对输入编码器中的句子中的每个token进行两两拼接,其拼接类型包括同一个实体的头尾相连(e:eh-to-et)、不同实体的头部相连(h:sh-to-oh)以及不同实体的尾部相连(t:st-to-ot)。
46.进一步可选地,在对tplinker模型进行训练时,还包括对其基本参数进行设置。其中,基本参数包括batch_size、epoch、max_length、learning_rate等。
47.作为示例性说明,如图3、4所示,分别为tplinker模型的框架图及tplinker模型标注方案矩阵图。tplinker模型在标注时使用的是handshaking tagging scheme构建基于token对的主体-客体关系矩阵向量。其中,每个token被编码器两两拼接,从而列举出所有的可能,然后输入到全连接层中,使用矩阵的方式进行标记,标记包括“0”、“1”、“2”三种,“1”表示主体到客体的关系,“2”表示客体到主体的关系,即主体到客体关系的从下三角区域到上三角区域的映射,再输出它们的向量表示。
48.假设有一个长度为n的句子,首先构造一个规模为n*n的全零矩阵,再根据对应关系将eh-to-et、st-to-ot和sh-to-oh位置标注为1。由于实体头尾顺序的缘故,矩阵的左下三角部分有大量的0存在,这会导致巨大的内存浪费,同时也会使得整个模型的计算量增大。由于矩阵对称,可以将左下三角区域的标注“1”映射到右上三角区域,变为标记“2”。最后缩小矩阵规模,删除左下三角区域后,保留右上三角区域,再平铺序列输出向量。
49.解码时,对eh-to-et类型解码,可以获得所有的实体并存入字典d中。对于每一种
关系,解码st-to-ot和sh-to-oh分别得到主、客体对的尾部位置的集合e和主、客体对的起始位置的集合f。利用主、客体对的起始位置f关联对应的主、客体集合d并进行遍历,然后在集合e中查询实体尾部,如果尾部存在,则成功抽取出得到spo(subject-predicate-object,主谓宾)三元组。
50.在一可选实施例中,s3步骤中,选择至少一个预训练模型作为编码层分别对经过训练的所述casrel模型和tplinker模型进行编码优化时,所选择的预训练模型包括bert-wwm模型,roberta-wwm模型,macbert模型,mc-bert模型和medbert模型中的一种或多种。
51.进一步地,在一可选实施例中,s4步骤中,比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果时,包括计算模型的精确率p、召回率r和f1值。
52.作为示例性说明,如图5、6所示,分别为casrel模型和tplinker模型的训练过程的指标变化示意图。其中,精确率p是指在被所有预测为正的样本中实际为正样本的概率,召回率r是指实际为正的样本中被预测为正样本的概率,f1值同时考虑精确率和召回率,让两者同时达到最高,取得平衡。设为给定关系集合中的某一种关系,则各指标表达式为:为给定关系集合中的某一种关系,则各指标表达式为:为给定关系集合中的某一种关系,则各指标表达式为:为给定关系集合中的某一种关系,则各指标表达式为:为给定关系集合中的某一种关系,则各指标表达式为:为给定关系集合中的某一种关系,则各指标表达式为:其中,是预测关系和真实关系均为的样本量,是预测关系为但真实关系不为的样本量,预测关系不为但真实关系为的样本量,预测关系为的样本量,真实关系为的样本量,关系类型为的样本在总样本中的占比。
53.进一步可选地,根据中文医疗信息处理挑战榜cblue(chinese biomedical language understanding evaluation)基准模型结果,以及挑战榜官方排名榜首的结果,对比casrel模型和tplinker模型,评估两个模型的实体抽取效果。
54.进一步可选地,s4步骤中,根据预设的权重对所述实体关系抽取模型的评估指标进行综合计算,得到综合分值,并取所述综合分值最高的实体关系抽取模型作为目标实体关系抽取模型输出。
55.最终应用满足评估指标的目标实体关系抽取模型对待处理的中文医学文本数据处理,所抽取的实体关系满足中文医学文本的实体抽取效果需求。
56.实施例2
本实施例应用实施例1提出的面向中文医学文本的实体关系抽取方法,基于schema的中文医学信息抽取数据集cmeie(chinese medical information extraction)进一步说明。
57.数据集cmeie中,包含开放训练集数据14339条、验证集数据3585条、测试集数据4482条,涉及518种儿科疾病以及109种常见疾病的语料,均来自于医学相关教材和临床实践的医学文本,共有大约7.5万三元组数据、2.8万疾病语句和53种定义好的关系。
58.数据集中的实体类别包含10种头实体和11种尾实体,关系类别有1种同义词子关系和43种其他子关系,共53种schema。其关系类型如表1所示。
59.表1 数据集关系类型在对训练集及验证集中的数据的关系类别进行统计后,其关系类别数量统计结果如图7、8所示。从图中可以看到,训练集和验证集的数据分布类似,但不同的关系类型三元组的分布显然并不平衡。以训练集来说,“药物治疗”、“同义词”等均为较高频次的关系类别。而“临床表现”则为最高频次出现的类别,“病理生理”、“侵及周围组织转移的症状”等为极少数的类别,前者在训练集中出现的数量几乎是后者的200倍。
60.应用实施例1提出的面向中文医学文本的实体关系抽取方法对数据集cmeie进行处理,其具体步骤包括:步骤一:获取数据集cmeie并对其进行预处理。
61.其中,该数据集为清洗过后的json文件,包含文本及标注好的三元组信息。将数据集cmeie复制两份分别作为输入casrel模型和tplinker模型的数据集。对输入casrel模型的数据集,需将标注信息中的@value标签去掉,整理为简单三元组格式;对输入tplinker模型的数据集,将标注信息中的@value标签去掉,整理为简单三元组格式,然后获取词粒度和字粒度的片段索引区间。
62.由于casrel模型采用tensorflow框架编写,而tplinker模型采用pytorch框架编写,因此需分别使用对应框架的bert模型编码,利用分词器tokenizer对文本数据中的text进行切分,并将句子中的每一个词都转换成相应的编码,得到文本向量。
63.步骤二:将文本向量注入到casrel模型中,设置参数batch_size为12,epoch为20,max_length为300,learning_rate为1e-4,对casrel模型进行训练。
64.将文本向量注入到tplinker模型中,设置参数batch_size为8,epoch为20,max_
length为128,learning_rate为5e-5,对tplinker模型进行训练。
65.根据cblue基准模型结果,以及挑战榜官方排名榜首的结果,对比casrel模型和tplinker模型,评估经过训练的两个模型的实体抽取效果。如下表2所示,为cblue基准模型结果和挑战榜官方排名榜首的结果;表3为casrel模型和tplinker模型效果。
66.表2 cblue基准模型结果表3 casrel模型和tplinker模型效果模型prf1casrel61.2759.9360.59tplinker64.7368.5366.58casrel模型和tplinker模型初始实验均在nyt和webnlg两个英文数据集上进行实体关系抽取任务,分别尝试了bert和bilstm两种编码。在nyt数据集上,使用bert编码时,tplinker模型比casrel模型具有2.3%的优势;使用bilstm编码时,两模型效果相同。在webnlg数据集上,使用bert编码时,tplinker模型比casrel模型仅有0.1%的优势;使用bilstm编码时,tplinker模型比casrel模型具有6.8%的优势。总体而言,tplinker模型在处理英文数据集的实体关系抽取任务中比casrel模型稍具优势,但仍因数据集和编码方式的不同而导致优势并不稳定。
67.但针对中文医学文本,将casrel模型和tplinker模型在编码部分使用bert-base-chinese进行预训练,从实验结果来看,在面对中文医学文本的实体关系抽取中,tplinker模型的精确率、召回率以及f1值均比casrel模型高,且前者召回率比后者超出8.6%,f1值超出6.01%,tplinker模型优势更加显著。
68.表2所示的11个中文预训练模型中,效果最好的为roberta-wwm-ext-large模型,其f1值为55.9,而在官方排行榜中,榜首使用模型为ernie-health 3.0,其f1值为66.044。相较而言,本实施例中的tplinker模型结果仍优于榜首所使用的模型结果。
69.步骤三:选择将cblue中的几个较优预训练模型bert-wwm-ext-base、roberta-wwm-ext-large、macbert作为模型的编码层进行优化。
70.步骤四:比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,同时选择几个与中文医学文本领域相似的预训练模型mc-bert、medbert加入对比,评估
结合预训练模型编码优化后的casrel模型和tplinker模型的提升效果。其评估结果如下表4所示。
71.表4 不同预训练模型优化效果模型prf1casrelbert61.2759.9360.59casrelbert-wwm60.8760.3460.60casrelroberta-wwm(guan等)60.4556.5758.44tplinkerbert64.7368.5366.58tplinkerbert-wwm64.9768.0566.48tplinkerroberta-wwm65.8070.6768.15tplinkermacbert66.9669.7968.35tplinkermc-bert64.9868.0566.48tplinkermed-bert64.9069.3067.02从上表可知,表现最好的几个预训练模型依次是macbert、roberta-wwm和medbert,对比原来模型中使用的bert,f1值提升分别为1.77%,1.57%和0.44%,其他两个bert-wwm和mc-bert略有下降。最好的结构“macbert+tplinker”组合的f1值达到68.35%,比天池大赛的榜首模型ernie-health 3.0超出2.31%。
72.针对前6组实验表明,从数据集上来说,不论采用何种编码方式,在处理中文医疗数据集cmeie时,tplinker模型比casrel模型均具有更稳定的提升优势。从编码方式上来说,roberta-wwm模型相对bert和bert-wwm-ext-base具有更好的支持效果。针对后6组实验表明,针对中文医学文本选择特定场景的预训练模型可以获得更好的模型效果,但提升效果与预训练模型采用的训练数据源以及训练数据量、参数设置等有关。
73.由此,选择macbert+tplinker模型作为目标实体关系抽取模型输出。
74.其中,tplinker模型是在标注阶段构建基于token对的span矩阵,该矩阵解码之后根据实体标注和关系标注类型就可以得到对应的关系三元组,仅通过一次统一编码解码就可以获得实体关系。相比较而言,tplinker模型在标注、编码和解码过程中都始终保持一致性,因此该模型可以获得更好的效果,在中文医学文本中也具有较好的适应性。而预训练模型roberta-wwm是在bert模型上进行的优化改进。具体而言,roberta采用的是动态掩码,提高了模型输入数据的随机性。同时,roberta使用了更多的数据集(160g)进行预训练,并且训练时间更长。需要注意的是,roberta-wwm模型使用的是全词掩码,充分考虑到了中文语义问题,对中文语境的文本挖掘更友好。而macbert是综合bert模型及其改进版本上持续优化的模型,在掩码语言模型任务中使用的是相似词和随机词结合的方式做掩码,减轻了预训练和微调阶段的差距。
75.步骤五:将待处理的中文医学文本输入macbert+tplinker模型中进行处理,以获取最终的抽取关系。
76.实施例3本实施例提出一种面向中文医学文本的实体关系抽取系统,应用实施例1提出的实体关系抽取方法。如图9所示,为本实施例的面向中文医学文本的实体关系抽取系统的架构图。
77.本实施例提出的面向中文医学文本的实体关系抽取系统中,包括:预处理模块,用于对输入的中文医学文本数据进行预处理,生成文本向量;训练模块,用于利用文本向量对casrel模型和tplinker模型分别进行训练;优化模块,用于根据选择的预训练模型作为编码层分别对所述casrel模型和tplinker模型进行编码优化,得到若干实体关系抽取模型;分析模块,用于比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择满足预设的评估指标的实体关系抽取模型;实体关系抽取模块,其上配置有由所述分析模块选择的实体关系抽取模型,用于对待处理的中文医学文本数据处理,输出相应的抽取关系。
78.可以理解,本实施例的系统对应于上述实施例1的方法,上述实施例1中的可选项同样适用于本实施例,故在此不再重复描述。
79.实施例4本实施例提出一种存储介质,其上存储有计算机可读指令,其中,所述计算机可读指令被处理器执行时实现实施例1提出的实体关系抽取方法的步骤。
80.示范性地,所述存储介质包括但不限于u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
81.示范性地,所述指令、程序、代码集或指令集可采用常规编程语言实现。
82.示范性地,所述处理器包括但不限于智能手机、个人计算机、服务器、网络设备等,用于执行实施例1所述的实体关系抽取方法的全部或部分步骤。
83.显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
技术特征:
1.一种面向中文医学文本的实体关系抽取方法,其特征在于,包括:获取中文医学文本数据并对其进行预处理,得到文本向量;将所述文本向量分别输入casrel模型和tplinker模型中,并对所述casrel模型和tplinker模型分别进行训练;选择至少一个预训练模型作为编码层分别对经过训练的所述casrel模型和tplinker模型进行编码优化,得到若干实体关系抽取模型;比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择满足预设的评估指标的目标实体关系抽取模型输出;根据满足评估指标的目标实体关系抽取模型对待处理的中文医学文本数据处理,以获取最终的抽取关系。2.根据权利要求1所述的实体关系抽取方法,其特征在于,所述中文医学文本数据包括文本及带标注的三元组信息;则对所述中文医学文本数据进行预处理,包括:对于输入所述casrel模型的中文医学文本数据,将所述三元组信息相应标注中的@value标签去掉,转换为简单三元组格式;对于输入所述tplinker模型的中文医学文本数据,将所述三元组信息相应标注中的@value标签去掉,转换为简单三元组格式,并获取词粒度和字粒度的片段索引区间;对经过转换处理的中文医学文本数据进行编码,得到文本向量。3.根据权利要求2所述的实体关系抽取方法,其特征在于,对经过转换处理的中文医学文本数据进行编码,包括:利用分词器对经过转换处理的中文医学文本数据中的文本进行切分,利用bert模型对切分后的词组转换为相应的编码,得到文本向量。4.根据权利要求2所述的实体关系抽取方法,其特征在于,对所述casrel模型进行训练,包括:将所述文本向量输入casrel模型中,利用二分类器计算任一token作为subject起始位置及结束位置的概率,并根据预设的阈值进行标记:若概率大于或等于阈值则标记为1,若概率小于阈值则标记为0;得到任一token作为subject起始位置及结束位置的二进制标记值;subject中的损失函数使用最大似然函数判断误差;其表达式为:其中,表示从句子中标识subject的损失函数,表示subject,表示所输入的句子表示,表示权重;表示句子实际长度,表示第个token是subject起始位置的概率,表示第个token是subject结束位置的概率;表示第个token作为subject起始位置的二进制标记,表示第个token作为subject结束位置的二进制标记;表示指针标识主体或客体的位置;表示指针处于其他无关位置;遍历每一种关系类型,对任一subject对应的每一种关系的object起始位置和结束位
置进行解码,得到实体关系预测结果三元组;object中的损失函数使用最大似然函数判断误差;其表达式为:其中,表示标识subject特定关系对应的object损失函数,表示object,表示偏置值;表示第个token是object起始位置的概率,表示第个token是objectj结束位置的概率;表示第个token作为objectj起始位置的二进制标记,表示第个token作为objectj结束位置的二进制标记;使用损失函数检测所述casrel模型的预测值与真实值之间的误差程度,用于评估所述casrel模型的预测效果;其表达式为:其中,表示句子集合;表示句子中可能重叠的三元组;表示三元组中出现的subject;表示三元组中以subject为首的三元组集合;表示除了三元组中以subject为首的其他关系;表示空的object;表示给定的已标识句子。5.根据权利要求2所述的实体关系抽取方法,其特征在于,对所述tplinker模型进行训练,包括:将所述文本向量输入tplinker模型中,所述tplinker模型基于优化后的tplinker_plus算法,对输入编码器中的句子中的每个token进行两两拼接;将经过拼接的token对输入tplinker模型的全连接层中,通过矩阵标识subject和object的位置及关系,输出subject-object关系矩阵向量;对subject-object关系矩阵向量进行类型解码,得到实体关系预测结果三元组;使用损失函数检测所述tplinker模型的预测值与真实值之间的误差程度,用于评估所述tplinker模型的预测效果;其表达式为:其中,为所输入的句子的真实长度,表示不同拼接类型中的token对标记,为不同拼接类型中的真实标签,表示不同拼接类型中token对标记正确的概率;e、h、t分别表示相应的token对拼接类型。6.根据权利要求5所述的实体关系抽取方法,其特征在于,对输入编码器中的句子中的每个token进行两两拼接,其拼接类型包括同一个实体的头尾相连e、不同实体的头部相连h,和不同实体的尾部相连t。7.根据权利要求1~6任一项所述的实体关系抽取方法,其特征在于,所述预训练模型包括bert-wwm模型,roberta-wwm模型,macbert模型,mc-bert模型和medbert模型中的一种或
多种。8.根据权利要求7所述的实体关系抽取方法,其特征在于,所述评估指标包括精确率、召回率和f1值。9.一种面向中文医学文本的实体关系抽取系统,应用权利要求1~8任一项所述的实体关系抽取方法,其特征在于,包括:预处理模块,用于对输入的中文医学文本数据进行预处理,生成文本向量;训练模块,用于利用文本向量对casrel模型和tplinker模型分别进行训练;优化模块,用于根据选择的预训练模型作为编码层分别对所述casrel模型和tplinker模型进行编码优化,得到若干实体关系抽取模型;分析模块,用于比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择满足预设的评估指标的实体关系抽取模型;实体关系抽取模块,其上配置有由所述分析模块选择的实体关系抽取模型,用于对待处理的中文医学文本数据处理,输出相应的抽取关系。10.一种存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1~8任一项所述的实体关系抽取方法的步骤。
技术总结
本发明涉及语言数据处理技术领域,提出一种面向中文医学文本的实体关系抽取方法及系统,包括:获取中文医学文本数据并对其进行预处理,得到文本向量;将所述文本向量分别输入CasRel模型和TPLinker模型中,并对所述CasRel模型和TPLinker模型分别进行训练;选择至少一个预训练模型作为编码层分别对经过训练的所述CasRel模型和TPLinker模型进行编码优化,得到若干实体关系抽取模型;比较不同实体关系抽取模型分别对所述中文医学文本数据的实体抽取效果,选择满足预设的评估指标的目标实体关系抽取模型输出;根据满足评估指标的目标实体关系抽取模型对待处理的中文医学文本数据处理,以获取最终的抽取关系。以获取最终的抽取关系。以获取最终的抽取关系。
技术研发人员:路永和 陈红玉 赵蕊洁 张悦韵 朱侯
受保护的技术使用者:中山大学
技术研发日:2023.06.26
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/