一种医学短文本的分类方法、装置、电子设备及存储介质与流程

未命名 09-13 阅读:70 评论:0


1.本技术涉及医疗数据处理技术领域,尤其是涉及一种医学短文本的分类方法、装置、电子设备及存储介质。


背景技术:

2.随着医院信息化的飞速发展,医学临床数据呈现出指数级的增长,其中绝大多数为非结构化的文本数据。基于自然语言技术可以从大量的医疗数据挖掘知识,并应用于临床决策辅助系统、药物临床试验项目等。近年来,预训练模型(bert模型)在自然语言处理领域得到广泛应用、模型越来越大、效果越来越好。但是bert模型结构复杂、参数量非常多、推理速度慢,并且对相应的软硬件配置要求较高,这对软硬件资源不充分的医院或科研机构极其不友好,相应的应用也很难落地。


技术实现要素:

3.有鉴于此,本技术的目的在于提供一种医学短文本的分类方法、装置、电子设备及存储介质,可有效的提高推理速度,并且可以应用到医院场景中。
4.本技术实施例提供了一种医学短文本的分类方法,所述分类方法包括:获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗bert模型和多个全连接层。
5.可选的,通过以下步骤构建所述文本分类模型:获取多个第一待训练医学短文本数据;其中,待训练医学短文本数据为添加有真实文本类型标签的数据;将所述多个第一待训练医学短文本数据分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层的输出结果以及所述初始学生模型中每个神经网络层的输出结果;基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值;基于所述目标损失函数值,对所述初始学生模型进行迭代训练并对所述初始学生模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述文本分类模型。
6.可选的,所述基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类
型标签,确定目标损失函数值,包括:使用所述教师模型中的第一个神经网络层的输出结果和所述初始学生模型中的第一个神经网络层的输出结果进行均方误差计算,确定出第一损失函数值;其中,所述教师模型中的第一个神经网络层为医疗bert模型,所述初始学生模型中第一个神经网络层为多层卷积神经网络;使用所述教师模型中的中间神经网络层的输出结果和所述初始学生模型中的中间神经网络层的输出结果对应进行均方误差计算,确定出第二损失函数值;所述中间神经网络层为除第一个神经网络层和最后一个神经网络层的所有神经网络层;使用所述教师模型中的最后一个神经网络层的输出结果和所述初始学生模型中的最后一个神经网络层的输出结果进行误差计算,确定出第三损失函数值;使用所述初始学生模型中的最后一个神经网络层的输出结果和所述多个第一待训练医学短文本数据的真实文本类型标签进行误差计算,确定出第四损失函数值;使用所述第一损失函数值、所述第二损失函数值、所述第三损失函数值以及所述第四损失函数值进行加权求和,确定出所述目标损失函数值。
7.可选的,所述第四损失函数值为交叉熵损失函数值。
8.可选的,通过以下步骤构建所述教师模型:获取多个公开医学文本数据;其中,所述多个公开医学文本数据为无标签数据;基于所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始bert模型进行预训练,得到所述医疗bert模型;获取多个添加有真实文本类型标签的第二待训练医学短文本数据,并使用所述第二待训练医学短文本数据对所述医疗bert模型以及相连接的多个全连接层进行微调,得到所述教师模型。
9.可选的,所述文本类型包括:症状、疾病、实验室检验、评估表以及手术。
10.可选的,所述教师模型中的全连接层数量和所述学生模型中的多层卷积神经网络的数量相同。
11.本技术实施例还提供了一种医学短文本的分类装置,所述分类装置包括:获取模块,用于获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;分类模块,用于将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗bert模型和多个全连接层。
12.可选的,所述分类装置还包括文本分类模型构建模块,所述文本分类模型构建模块用于:获取多个第一待训练医学短文本数据;其中,待训练医学短文本数据为添加有真实文本类型标签的数据;将所述多个第一待训练医学短文本数据分别输入至预先训练好的教师模型和初
始学生模型中,确定所述教师模型中每个神经网络层的输出结果以及所述初始学生模型中每个神经网络层的输出结果;基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值;基于所述目标损失函数值,对所述初始学生模型进行迭代训练并对所述初始学生模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述文本分类模型。
13.可选的,所述文本分类模型构建模块在用于基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值时,所述文本分类模型构建模块用于:使用所述教师模型中的第一个神经网络层的输出结果和所述初始学生模型中的第一个神经网络层的输出结果进行均方误差计算,确定出第一损失函数值;其中,所述教师模型中的第一个神经网络层为医疗bert模型,所述初始学生模型中第一个神经网络层为多层卷积神经网络;使用所述教师模型中的中间神经网络层的输出结果和所述初始学生模型中的中间神经网络层的输出结果对应进行均方误差计算,确定出第二损失函数值;所述中间神经网络层为除第一个神经网络层和最后一个神经网络层的所有神经网络层;使用所述教师模型中的最后一个神经网络层的输出结果和所述初始学生模型中的最后一个神经网络层的输出结果进行误差计算,确定出第三损失函数值;使用所述初始学生模型中的最后一个神经网络层的输出结果和所述多个第一待训练医学短文本数据的真实文本类型标签进行误差计算,确定出第四损失函数值;使用所述第一损失函数值、所述第二损失函数值、所述第三损失函数值以及所述第四损失函数值进行加权求和,确定出所述目标损失函数值。
14.可选的,所述第四损失函数值为交叉熵损失函数值。
15.可选的,所述分类装置还包括教师模型构建模块,所述教师模型构建模块用于:获取多个公开医学文本数据;其中,所述多个公开医学文本数据为无标签数据;基于所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始bert模型进行预训练,得到所述医疗bert模型;获取多个添加有真实文本类型标签的第二待训练医学短文本数据,并使用所述第二待训练医学短文本数据对所述医疗bert模型以及相连接的多个全连接层进行微调,得到所述教师模型。
16.可选的,所述文本类型包括:症状、疾病、实验室检验、评估表以及手术。
17.可选的,所述教师模型中的全连接层数量和所述学生模型中的多层卷积神经网络的数量相同。
18.本技术实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的分类方法的步骤。
19.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的分类方法的步骤。
20.本技术实施例提供的一种医学短文本的分类方法、装置、电子设备及存储介质,包括:获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗bert模型和多个全连接层。
21.这样,本技术通过采用知识蒸馏的方式训练出的学生模型,可以学到更多的医学知识,效果比单独训练的学生模型效果更好;所设计的学生模型采用并行的cnn结构,可使推理速度加快,并且可以在医院场景落地;此外本发明提供的教师模型和学生模型结构,教师模型可以分阶段把知识教给学生模型,可以更好的拟合学生模型,多层结构也可以防止过拟合,保证了医学短文本分类效果。
22.为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
23.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
24.图1为本技术实施例所提供的一种医学短文本的分类方法的流程图;图2为本技术提供的一种教师模型的结构示意图;图3为本技术提供的一种学生模型的结构示意图;图4为本技术提供的构建文本分类模型的原理示意图;图5为本技术实施例所提供的一种医学短文本的分类装置的结构示意图之一;图6为本技术实施例所提供的一种医学短文本的分类装置的结构示意图之二;图7为本技术实施例所提供的一种电子设备的结构示意图。
具体实施方式
25.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本技术保护的范围。
26.随着医院信息化的飞速发展,医学临床数据呈现出指数级的增长,其中绝大多数
为非结构化的文本数据。基于自然语言技术可以从大量的医疗数据挖掘知识,并应用于临床决策辅助系统、药物临床试验项目等。近年来,预训练模型(bert模型)在自然语言处理领域得到广泛应用、模型越来越大、效果越来越好。但是bert模型结构复杂、参数量非常多、推理速度慢,并且对相应的软硬件配置要求较高,这对软硬件资源不充分的医院或科研机构极其不友好,相应的应用也很难落地。
27.基于此,本技术实施例提供了一种医学短文本的分类方法、装置、电子设备及存储介质,可有效的提高推理速度,并且可以应用到医院场景中。
28.请参阅图1,图1为本技术实施例所提供的一种医学短文本的分类方法的流程图。如图1中所示,本技术实施例提供的分类方法,包括:s101、获取电子病历数据中的待分类短文本。
29.这里,所述待分类短文本为非结构化文本,所述待分类短文本为医学短文本。
30.示例的,通过以下6个示例展示6种不同类型的待分类短文本:“严重的听力或者视力损害”,“患有严重的心脑血管、肝、肾、造血系统疾病”,“血红蛋白≥100 g/l”,“karnofsky评分<50%”,“注意保暖、避免受凉,加强营养,避免感染”,“进行颅脑神经外科手术”。其中,所述待分类短文本还可以为其他类型或其他表达形式。
31.s102、将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型。
32.这里,其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗bert模型和多个全连接层。
33.其中,所述教师模型中的全连接层数量和所述学生模型中的多层卷积神经网络的数量相同。所述医疗bert模型和多个全连接层串联。
34.示例的,请参阅图2、图3所示,图2为本技术提供的一种教师模型的结构示意图,图3为本技术提供的一种学生模型的结构示意图。如图2所示,教师模型中的全连接层n中设置有激活函数,所述激活函数可采用softmax,全连接层n也是教师模型的输出层。其中,通过实验验证,n取2时,教师模型的性能最优。其中第一层全连接(fc)是为了提取教师模型的高维的特征表示,第二层是为了提取教师模型低维的更细的特征表示,两层比一层有更多的参数,可表征的语义更全,也能更好的辅导学生模型,相当于多次辅导。
35.如图3所示,学生模型中的全连接层中也设置有激活函数,所述激活函数也可以为softmax,所述学生模型中的全连接层也是学生模型的输出层。通过实验验证,m取3时,学生模型的性能最优。
36.每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络,示例的,以第一层卷积神经网络为例,当m取3时,卷积神经网络11(cnn)的卷积核设置为2,卷积神经网络12(cnn)的卷积核设置为3、卷积神经网络13(cnn)的卷积核设置为4,这样,通过设计不同的卷积核,可以捕捉输入数据的不同局部特征,并通过组合这些特征来建立更高级别的表征,以支持卷积神经网络更好表征医学短文本语义。
37.示例的,所述文本类型可包括:症状、疾病、实验室检验、评估表以及手术。
38.在本技术提供的一种实施方式,通过以下步骤构建所述文本分类模型:
s201、获取多个第一待训练医学短文本数据。
39.这里,待训练医学短文本数据为添加有真实文本类型标签的数据。
40.示例的,请参阅表1,表1中记录有第一待训练医学短文本数据以及对应的标签。
41.表1:s202、将所述多个第一待训练医学短文本数据分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层的输出结果以及所述初始学生模型中每个神经网络层的输出结果。
42.该步骤中,将所述多个第一待训练医学短文本数据依次分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层对输入的待训练医学短文本数据识别后的输出结果以及所述初始学生模型中每个神经网络层对输入的待训练医学短文本数据识别后的输出结果。
43.示例的,请参阅图4,图4为本技术提供的构建文本分类模型的原理示意图,如图4所示,假设教师模型中设置两个全连接层,对应的学生模型中也设置两个多层卷积神经网络,对于多层卷积神经网络,这里设置有3个卷积神经网络。
44.当设置教师模型中的医疗bert模型的输出维度是768,第一个全连接层的输出维度为384;第二个全连接层的输出维度为128;最后结果的输出维度为6(六种结果,其中,所述六种结果包括上述5种指定类型以及其他类型,所述其他类型是指当识别均不上述5种指定类型时输出的结果)。对应的,设置学生模型的第一个多层卷积神经网络中有三个cnn,卷积核分别是2、3、4,输出维度分别是128、256、384;三个cnn的输出合并一起,输出维度为768;第二个多层卷积神经网络中也有三个cnn,卷积核分别是2、3、4,输出维度分别是64、128、192;三个cnn的输出合并一起,输出维度为384;相连的全连接层输出维度为128,最后结果的输出维度为6。
45.需要说明的,教师模型使用两个全连接层,是为了更好的把知识分步骤拟合到学生模型。学生模型如果使用单个多层卷积神经网络结构蒸馏教师模型,很容易过拟合,因此本发明采用两个多层卷积神经网络结构,每层有3个并行的cnn,并行的cnn可以提升计算速度,从而解决推理速度慢的问题。
46.s203、基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每
个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值。
47.该步骤中,每个第一待训练医学短文本数据均对应有一个目标损失函数值。也就是说,每将一个第一待训练医学短文本数据输入至模型中(教师模型和学生模型)中,均可确定出目标损失函数值。
48.在一种实施方式中,所述基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值,包括:s2031、使用所述教师模型中的第一个神经网络层的输出结果和所述初始学生模型中的第一个神经网络层的输出结果进行均方误差计算,确定出第一损失函数值。
49.这里,所述教师模型中的第一个神经网络层为医疗bert模型,所述初始学生模型中第一个神经网络层为多层卷积神经网络。每个第一待训练医学短文本数据具有一个对应的第一损失函数值。
50.示例的,请继续参阅图4,如图4所示,所述第一损失函数值为使用医疗bert模型的输出数据和学生模型中的第一个多层卷积神经网络的输出数据进行均方误差计算得到的,即所述第一损失函数为mseloss。
51.s2032、使用所述教师模型中的中间神经网络层的输出结果和所述初始学生模型中的中间神经网络层的输出结果对应进行均方误差计算,确定出第二损失函数值。
52.这里,所述中间神经网络层为除第一个神经网络层和最后一个神经网络层的所有神经网络层。每个第一待训练医学短文本数据具有一个对应的第二损失函数值。
53.示例的,请继续参阅图4,如图4所示,当教师模型中仅包括两个全连接层,学生模型中仅包括两个多层卷积神经网络时,所述教师模型中的中间神经网络层为第一个全连接层,所述初始学生模型中的中间神经网络层为第二个多层卷积神经网络。这样,所述第二损失函数值为使用教师模型中的第一个全连接层的输出数据和学生模型中的第二个多层卷积神经网络的输出数据进行均方误差计算得到的,即所述第二损失函数也为mseloss。
54.其中,使用mseloss用于中间层的误差计算,可以帮忙学生模型更好的学习到教师模型的知识。
55.s2033、使用所述教师模型中的最后一个神经网络层的输出结果和所述初始学生模型中的最后一个神经网络层的输出结果进行误差计算,确定出第三损失函数值。
56.每个第一待训练医学短文本数据具有一个对应的第三损失函数值。
57.示例的,请继续参阅图4,如图4所示,所述第三损失函数值为使用教师模型中的第二个全连接层的输出数据和学生模型中的全连接层的输出数据进行均方误差计算得到的,这里所述第三损失函数可以为kldivloss。其中,所述第三损失函数值代表教师模型的输出结果与学生模型的输出结果之间的误差值。
58.s2034、使用所述初始学生模型中的最后一个神经网络层的输出结果和所述多个第一待训练医学短文本数据的真实文本类型标签进行误差计算,确定出第四损失函数值。
59.每个第一待训练医学短文本数据具有一个对应的第四损失函数值。
60.示例的,请继续参阅图4,如图4所示,所述第四损失函数值为使用所述初始学生模型中的全连接层的输出数据和对应的第一待训练医学短文本数据的真实文本类型标签进
行误差计算得到的,这里所述第四损失函数可以为交叉熵损失函数,故,所述第四损失函数值为交叉熵损失函数值。
61.s2035、使用所述第一损失函数值、所述第二损失函数值、所述第三损失函数值以及所述第四损失函数值进行加权求和,确定出所述目标损失函数值。
62.这里,根据实际情况,预先指定每种损失函数的权重系数。
63.s204、基于所述目标损失函数值,对所述初始学生模型进行迭代训练并对所述初始学生模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述文本分类模型。
64.该步骤中,每确定出一个第一待训练医学短文本数据对应的目标损失函数值后,就对所述初始学生模型的模型参数更新一次。
65.这里,对所述初始学生模型的模型参数更新包括对所述学生模型中的每个卷积神经网络的网络参数进行更新,以及对所述初始学生模型中的全连接层的网络参数进行更新。
66.其中,所述文本分类模型为训练完成的学生模型。
67.在本技术提供的一种实施方式中,所述通过以下步骤构建所述教师模型:s301、获取多个公开医学文本数据。
68.这里,所述多个公开医学文本数据为无标签数据。
69.s302、基于所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始bert模型进行预训练,得到所述医疗bert模型。
70.这里,使用所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始bert模型进行预训练,为无监督训练。
71.需要说明的是,现有技术所使用的预训练完成的bert进行医学文本分类识别时,该bert模型预训练所使用的数据多为多个不同领域的文本数据。而本方案,使用大量公开医学文本数据训练得到的医疗bert模型,可提升模型在医疗领域的泛化能力,利于后续精准分类预测。
72.s303、获取多个添加有真实文本类型标签的第二待训练医学短文本数据,并使用所述第二待训练医学短文本数据对所述医疗bert模型以及相连接的多个全连接层进行微调,得到所述教师模型。
73.这里,所述第二待训练医学短文本数据可以与第一待训练医学短文本数据相同,也可以不同。
74.其中,可使用反向传播算法对教师模型中的神经网络层的网络参数进行微调。
75.本技术实施例提供的一种医学短文本的分类方法,包括:获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗bert模型和多个全连接层。
76.这样,本技术通过采用知识蒸馏的方式训练出的学生模型,可以学到更多的医学
知识,效果比单独训练的学生模型效果更好;所设计的学生模型采用并行的cnn结构,可使推理速度加快,并且可以在医院场景落地;此外本发明提供的教师模型和学生模型结构,教师模型可以分阶段把知识教给学生模型,可以更好的拟合学生模型,多层结构也可以防止过拟合,保证了医学短文本分类效果。
77.请参阅图5、图6,图5为本技术实施例所提供的一种医学短文本的分类装置的结构示意图之一,图6为本技术实施例所提供的一种医学短文本的分类装置的结构示意图之二。如图5中所示,所述分类装置500包括:获取模块510,用于获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;分类模块520,用于将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗bert模型和多个全连接层。
78.可选的,如图6所示,所述分类装置500还包括文本分类模型构建模块530,所述文本分类模型构建模块530用于:获取多个第一待训练医学短文本数据;其中,待训练医学短文本数据为添加有真实文本类型标签的数据;将所述多个第一待训练医学短文本数据分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层的输出结果以及所述初始学生模型中每个神经网络层的输出结果;基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值;基于所述目标损失函数值,对所述初始学生模型进行迭代训练并对所述初始学生模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述文本分类模型。
79.可选的,所述文本分类模型构建模块530在用于基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值时,所述文本分类模型构建模块530用于:使用所述教师模型中的第一个神经网络层的输出结果和所述初始学生模型中的第一个神经网络层的输出结果进行均方误差计算,确定出第一损失函数值;其中,所述教师模型中的第一个神经网络层为医疗bert模型,所述初始学生模型中第一个神经网络层为多层卷积神经网络;使用所述教师模型中的中间神经网络层的输出结果和所述初始学生模型中的中间神经网络层的输出结果对应进行均方误差计算,确定出第二损失函数值;所述中间神经网络层为除第一个神经网络层和最后一个神经网络层的所有神经网络层;
使用所述教师模型中的最后一个神经网络层的输出结果和所述初始学生模型中的最后一个神经网络层的输出结果进行误差计算,确定出第三损失函数值;使用所述初始学生模型中的最后一个神经网络层的输出结果和所述多个第一待训练医学短文本数据的真实文本类型标签进行误差计算,确定出第四损失函数值;使用所述第一损失函数值、所述第二损失函数值、所述第三损失函数值以及所述第四损失函数值进行加权求和,确定出所述目标损失函数值。
80.可选的,所述第四损失函数值为交叉熵损失函数值。
81.可选的,所述分类装置500还包括教师模型构建模块540,所述教师模型构建模块540用于:获取多个公开医学文本数据;其中,所述多个公开医学文本数据为无标签数据;基于所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始bert模型进行预训练,得到所述医疗bert模型;获取多个添加有真实文本类型标签的第二待训练医学短文本数据,并使用所述第二待训练医学短文本数据对所述医疗bert模型以及相连接的多个全连接层进行微调,得到所述教师模型。
82.可选的,所述文本类型包括:症状、疾病、实验室检验、评估表以及手术。
83.可选的,所述教师模型中的全连接层数量和所述学生模型中的多层卷积神经网络的数量相同。
84.请参阅图7,图7为本技术实施例所提供的一种电子设备的结构示意图。如图7中所示,所述电子设备700包括处理器710、存储器720和总线730。
85.所述存储器720存储有所述处理器710可执行的机器可读指令,当电子设备700运行时,所述处理器710与所述存储器720之间通过总线730通信,所述机器可读指令被所述处理器710执行时,可以执行如上述图1以及图4所示方法实施例中的步骤,具体实现方式可参见方法实施例,在此不再赘述。
86.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图4所示方法实施例中的步骤,具体实现方式可参见方法实施例,在此不再赘述。
87.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
88.在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
89.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
90.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
91.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
92.最后应说明的是:以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种医学短文本的分类方法,其特征在于,所述分类方法包括:获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗bert模型和多个全连接层。2.根据权利要求1所述的分类方法,其特征在于,通过以下步骤构建所述文本分类模型:获取多个第一待训练医学短文本数据;其中,待训练医学短文本数据为添加有真实文本类型标签的数据;将所述多个第一待训练医学短文本数据分别输入至预先训练好的教师模型和初始学生模型中,确定所述教师模型中每个神经网络层的输出结果以及所述初始学生模型中每个神经网络层的输出结果;基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值;基于所述目标损失函数值,对所述初始学生模型进行迭代训练并对所述初始学生模型的模型参数进行更新,直至所述目标损失函数值收敛,停止训练,得到所述文本分类模型。3.根据权利要求2所述的分类方法,其特征在于,所述基于所述教师模型中每个神经网络层的输出结果、所述初始学生模型中每个神经网络层的输出结果以及所述多个第一待训练医学短文本数据的真实文本类型标签,确定目标损失函数值,包括:使用所述教师模型中的第一个神经网络层的输出结果和所述初始学生模型中的第一个神经网络层的输出结果进行均方误差计算,确定出第一损失函数值;其中,所述教师模型中的第一个神经网络层为医疗bert模型,所述初始学生模型中第一个神经网络层为多层卷积神经网络;使用所述教师模型中的中间神经网络层的输出结果和所述初始学生模型中的中间神经网络层的输出结果对应进行均方误差计算,确定出第二损失函数值;所述中间神经网络层为除第一个神经网络层和最后一个神经网络层的所有神经网络层;使用所述教师模型中的最后一个神经网络层的输出结果和所述初始学生模型中的最后一个神经网络层的输出结果进行误差计算,确定出第三损失函数值;使用所述初始学生模型中的最后一个神经网络层的输出结果和所述多个第一待训练医学短文本数据的真实文本类型标签进行误差计算,确定出第四损失函数值;使用所述第一损失函数值、所述第二损失函数值、所述第三损失函数值以及所述第四损失函数值进行加权求和,确定出所述目标损失函数值。4.根据权利要求3所述的分类方法,其特征在于,所述第四损失函数值为交叉熵损失函数值。5.根据权利要求1所述的分类方法,其特征在于,通过以下步骤构建所述教师模型:获取多个公开医学文本数据;其中,所述多个公开医学文本数据为无标签数据;
基于所述多个公开医学文本数据,采用随机掩码和预测下个句子的方式对初始bert模型进行预训练,得到所述医疗bert模型;获取多个添加有真实文本类型标签的第二待训练医学短文本数据,并使用所述第二待训练医学短文本数据对所述医疗bert模型以及相连接的多个全连接层进行微调,得到所述教师模型。6.根据权利要求1所述的分类方法,其特征在于,所述文本类型包括:症状、疾病、实验室检验、评估表以及手术。7.根据权利要求1所述的分类方法,其特征在于,所述教师模型中的全连接层数量和所述学生模型中的多层卷积神经网络的数量相同。8.一种医学短文本的分类装置,其特征在于,所述分类装置包括:获取模块,用于获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;分类模块,用于将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,所述文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;所述学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗bert模型和多个全连接层。9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的分类方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的分类方法的步骤。

技术总结
本申请提供了一种医学短文本的分类方法、装置、电子设备及存储介质,包括:获取电子病历数据中的待分类短文本;所述待分类短文本为非结构化文本;将所述待分类短文本输入至预先训练好的文本分类模型中,确定所述待分类短文本的文本类型;其中,文本分类模型为基于知识蒸馏方法由预先训练好的教师模型指导训练得到的学生模型;学生模型为具有多个多层卷积神经网络串联结构的模型,每层卷积神经网络中具有卷积核不完全相同的多个并行卷积神经网络;所述教师模型中包括使用医学短文本数据进行预训练和微调后得到的医疗BERT模型和多个全连接层。这样,通过本申请提供的技术方案,可有效的提高推理速度,并且可以应用到医院场景中。并且可以应用到医院场景中。并且可以应用到医院场景中。


技术研发人员:李丽 凌鸿顺 张奇
受保护的技术使用者:北京惠每云科技有限公司
技术研发日:2023.08.08
技术公布日:2023/9/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐