基于医学实体关系和病历关系的多标签医疗文本分类方法及系统
未命名
09-20
阅读:70
评论:0

1.本发明属于自然语言处理、人工智能及医疗信息的技术领域,主要涉及了一种基于医学实体关系和病历关系的多标签医疗文本分类方法及系统。
背景技术:
2.近年来,随着社会医疗体系的快速发展,医疗领域的文本也随之逐年呈爆炸式增长,海量文本中蕴含的有用信息亟待充分的挖掘和利用。当前的医疗领域数据库为了更好地管理医疗文本,主要是病历,并便于研究人员检索和分析利用,往往会给每一个文档标注其相关的标签。其中最广泛应用的是世界卫生组织制定的国际疾病分类方法icd(international classification of diseases),目前我国使用的是国际疾病分类第十一次修订本(即icd-11中文版)。使用疾病的统一编码方式有利于医学数据的存储、检索和分析。通过为病历标注相关的医疗代码,并进行统一管理是形成智能医疗应用的坚实基础。
3.目前,医疗领域数据库仍依赖专业的医疗标注人员为每份病历标注其相关的所有医疗代码。医疗标注人员需要浏览完病历等可用文档的全文后,从现有的上万个医疗代码中手动选择多个合适的医疗代码,将其分配给病历。人工标注流程不仅耗时耗力而且容易出错。此外,它要求医疗标注人员具有良好的医学知识并熟悉标注规范和规则,并需要定期培训专业医疗标注人员以跟上疾病分类方法(即医疗代码系统)的持续更新。
4.随着近几年人工智能技术的迅猛发展,语义识别技术日趋成熟,为自动化的多标签医疗文本分类方法在医疗信息系统中的应用提供了前提条件。借助于深度学习技术的多标签医疗文本分类方法能够自动化地根据病历预测与其相关的所有医疗代码(通常不止一个)。但是目前的多标签医疗文本分类方法往往忽视了医学实体关系和病历关系的重要作用,从而难以捕获病历中的关键医学实体,并难以为模型的预测提供可靠的参考,并因此导致模型预测效果不佳。
技术实现要素:
5.本发明正是针对现有技术中难以捕获冗长病历中的关键医学实体及其专业含义导致的文本表示质量不佳的问题,为了提升多标签医疗文本分类方法的预测效果,提供一种基于医学实体关系和病历关系的多标签医疗文本分类方法及系统,首先采集患者住院期间的病历以及对应的医疗标注人员为病历标注的医疗代码,并划分为训练集、验证集以及测试集,构建多标签医疗文本分类数据集;再构建多标签医疗文本分类模型,所述模型包括构建用于编码病历的语义编码层,用于对比学习的可逆转换层以及用于预测病历的所有相关医疗代码的输出层,并依次构建编码层、可逆转换层和输出层;然后训练多标签医疗文本分类模型,构建分类损失函数和基于医学实体关系的对比学习损失函数,共同作为模型训练的损失函数,利用训练好的模型构造病历数据库;最后使用多标签医疗文本分类模型通过检索病历数据库中的相似病历信息并结合模型的分类结果,预测出病历相关的医疗代
码。本发明所提出的基于医学实体关系和病历关系的多标签医疗文本分类方法在真实的多标签医疗文本分类数据集上取得了显著效果,在医疗数据管理领域有很大的应用前景。
6.为了实现上述目的,本发明采取的技术方案是:基于医学实体关系和病历关系的多标签医疗文本分类方法,包括如下步骤:
7.s1,构建多标签医疗文本分类数据集:采集患者住院期间的病历以及对应的医疗标注人员为病历标注的医疗代码,并划分为训练集、验证集以及测试集,构建多标签医疗文本分类数据集;
8.s2,构建多标签医疗文本分类模型:所述模型包括构建用于编码病历的语义编码层,用于对比学习的可逆转换层以及用于预测病历的所有相关医疗代码的输出层,并依次构建编码层、可逆转换层和输出层;
9.s3,训练多标签医疗文本分类模型:构建分类损失函数和基于医学实体关系的对比学习损失函数,共同作为模型训练的损失函数,利用训练好的模型构造病历数据库;
10.s4,使用多标签医疗文本分类模型预测:使用经过步骤s3训练好的模型通过检索病历数据库中的相似病历信息并结合模型的分类结果,预测出病历相关的医疗代码。
11.作为本发明的一种改进,所述步骤s1还包括对病历文本的预处理,对病历文本进行分词、小写化和词形还原,病历中的数字被统一替换为“num”,对病历中的句子进行分割。
12.作为本发明的一种改进,步骤s2的语义编码层中,构建文本编码器,用于编码输入的病历文本,将其形式化为input。多标签医疗文本分类模型以discnet为基础,其输入由词嵌入(word embedding)和章节类型嵌入(section type embedding)两部分组成,将两个向量相加可得到句子中每个词的输入向量,并融合了单词所属章节的类型信息,通过文本编码器,并结合标签感知的注意力机制可以获得词层级的标签特定的文档表示;
13.将句子中的首尾单词的词嵌入拼接作为句嵌入(sentence embedding)输入文本编码器,并结合标签感知的注意力机制可以获得句层级的标签特定的文档表示;
14.最后拼接两个表示并通过最大池化操作获得最终的标签特定的文档表示即
15.v=discnet(input)。
16.作为本发明的另一种改进,所述步骤s2的可逆转换层中,对于文本编码器生成的标签特定的文档表示v,利用最大池化操作获得唯一文档表示向量v=maxpool(v)∈rd,再构建可逆转换层,设为转换矩阵,v通过以下方式映射到新的文档嵌入空间:v
t
=mv+bm,其中是偏置项。
17.作为本发明的另一种改进,所述步骤s2的输出层中,构建多层感知机mlp作为输出层,将标签特定的文档表示v输入输出层,并通过sigmoid激活函数输出模型最终的预测结果,即预测概率向量
[0018][0019]
作为本发明的又一种改进,所述步骤s3具体包括如下步骤:
[0020]
s31:构建分类损失函数,所述分类损失函数采用交叉熵损失函数,公式如下:
[0021]
[0022]
其中x表示输入的病历文本,即单词序列;y和分别表示病历的真实标签向量和模型预测的标签向量;θ代表模型中所有的可训练参数;
[0023]
s32:构建基于实体的对比学习损失函数,通过将实体映射为其在umls知识库(unified medical language system)中的同义词来构建当前病历的正样例,将实体替换为不相关的实体或者直接删除来构造出负样例,在训练过程中一并将病历i的正负样例输入模型,通过文本编码器和可逆转换层获得它们的文档表示和
[0024]
对比学习的infonce损失函数将被应用于一个批次(batch)中的病历,基于实体的对比学习损失函数的计算公式如下:
[0025][0026]
其中,负样例集合ψ(
·
,
·
)用于计算两个向量之间的余弦相似度;
[0027]
s33:将步骤s31的分类损失函数和步骤s32的基于实体的对比学习损失函数相加,作为模型训练的总损失函数;
[0028]
s34:构建病历数据库,完成基于步骤s31和步骤s32的模型训练后,获得训练完成的模型;通过将训练集中所有的病历输入模型,可以构建病历数据库:
[0029][0030]
其中,n是训练集中的病历数,病历i的文本表示vi和真实标签yi构成数据库中的键值对。
[0031]
为了实现上述目的,本发明还采取的技术方案是:基于医学实体关系和病历关系的多标签医疗文本分类系统,包括多标签医疗文本分类数据集构建单元、多标签医疗文本分类模型构建单元、多标签医疗文本分类模型训练单元和多标签医疗文本分类模型预测单元,
[0032]
所述多标签医疗文本分类数据集构建单元,用于采集患者住院期间的病历以及对应的医疗标注人员为病历标注的医疗代码,并划分为训练集、验证集以及测试集,构建多标签医疗文本分类数据集;
[0033]
所述多标签医疗文本分类模型构建单元,包括用于编码病历的语义编码层、用于对比学习的可逆转换层以及用于预测病历的所有相关医疗代码的输出层;
[0034]
所述多标签医疗文本分类模型训练单元,用于构建分类损失函数和基于医学实体关系的对比学习损失函数,所述分类损失函数利用真实标签约束模型的分类结果,所述对比学习损失函数通过引入umls中的医学实体关系信息增强病历的文本表示质量,将两个损失函数求和共同作为模型训练的损失函数,利用训练好的模型构造病历数据库;
[0035]
所述多标签医疗文本分类模型预测单元,用于使用训练好的模型通过检索病历数据库中的相似病历信息并结合模型的分类结果,预测出病历相关的医疗代码。
[0036]
作为本发明的一种改进,所述多标签医疗文本分类模型构建单元中,还包括文本编码器构建单元、可逆转换层构建单元和输出层构建单元,
[0037]
所述文本编码器构建单元生成标签特定的文档表示,使用discnet对输入病历进行编码得到最终的标签特定的文档表示v;
[0038]
所述可逆转换层构建单元生成唯一文档表示向量v
t
,用于后续基于实体的对比学习和存储进病历数据库;
[0039]
所述输出层构建单元根据标签特定的文档表示v预测病历相关的医疗代码。
[0040]
与现有技术相比,本发明具有的有益效果:
[0041]
(1)本发明采用基于实体的对比学习能够有效地引入umls中的医学实体关系来加强对表达同一医学概念的不同医学实体的捕获能力和理解能力,能够有效地提升病历的文本表示质量。
[0042]
(2)本发明提出基于病历关系的方法,通过构造病历数据库并在测试阶段检索数据库中的相似病历信息以利用病历间关系信息,能够为模型地预测提供可靠的参考依据。
[0043]
(3)本发明提出基于医学实体关系和病历关系的多标签医疗文本分类方法,能够有效地提升模型的预测效果。
附图说明
[0044]
图1为本本发明基于医学实体关系和病历关系的多标签医疗文本分类方法的训练阶段和测试阶段示意图;
[0045]
图2为本发明基于医学实体关系和病历关系的多标签医疗文本分类方法的步骤流程图;
[0046]
图3为本发明基于医学实体关系和病历关系的多标签医疗文本分类系统的结构示意图;
[0047]
图4为本发明多标签医疗文本分类模型的训练流程图。
具体实施方式
[0048]
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
[0049]
实施例1
[0050]
基于医学实体关系和病历关系的多标签医疗文本分类方法,如图2所示,包括如下步骤:
[0051]
s1,构建多标签医疗文本分类数据集:采集患者住院期间的病历以及对应的医疗标注人员为病历标注的医疗代码,并划分为训练集、验证集以及测试集,构建多标签医疗文本分类数据集;
[0052]
采集患者住院期间的病历以及对应的医疗标注人员为病历标注的医疗代码,包括对病历文本的预处理。方法具体为,对病历文本进行分词,小写化和词形还原,病历中的数字被统一替换为“num”,对病历中的句子进行分割。
[0053]
s2,构建多标签医疗文本分类模型:所述模型包括构建用于编码病历的语义编码层,用于对比学习的可逆转换层以及用于预测病历的所有相关医疗代码的输出层,并依次构建编码层、可逆转换层和输出层;
[0054]
s21构建文本编码器
[0055]
文本编码器用于编码输入的病历文本,将其形式化为input。discnet是本发明提出的多标签医疗文本分类模型的基础,discnet的全称为discourse net,是一个多标签医疗文本分类模型。它在编码病历文本时利用了病历的篇章结构,层次编码的方式能够更好地关注冗长病历中的细节,建模文本中的细粒度信息,从而生成具有区分度的特征表示。同时,它设计了调和标签嵌入的方法,能够生成更高质量的标签特定的文档表示。
[0056]
discnet为了获得多粒度的病历文档表示,共利用了三种特征:篇章层级特征,词层级特征和句层级特征。discnet的输入由两部分组成:词嵌入(word embedding)、章节类型嵌入(section type embedding)。将这两个向量相加即可得到句子中每个词的输入向量,并融合了单词所属章节的类型信息。通过文本编码器,并结合标签感知的注意力机制可以获得词层级的标签特定的文档表示。同样地,将句子中的首尾单词的词嵌入拼接作为句嵌入(sentence embedding)输入文本编码器,并结合标签感知的注意力机制可以获得句层级的标签特定的文档表示。最后拼接这两个表示并通过最大池化操作获得最终的标签特定的文档表示
[0057]
v=discnet(input)
[0058]
其中,|c|表示医疗代码(即标签)的数目,d表示特征向量的维度。
[0059]
s22构建可逆转换层
[0060]
对于文本编码器生成的标签特定的文档表示v,首先利用最大池化操作获得唯一文档表示向量v=maxpool(v)∈rd,以便后续基于实体的对比学习和存储进病历数据库。接着构建可逆转换层,设为转换矩阵,v通过以下方式映射到新的文档嵌入空间:v
t
=mv+bm,其中是偏置项。
[0061]
s23构建输出层
[0062]
构建多层感知机mlp作为输出层,将标签特定的文档表示v输入输出层,并通过sigmoid激活函数输出模型最终的预测结果,即预测概率向量
[0063][0064]
s3,训练多标签医疗文本分类模型:构建分类损失函数和基于医学实体关系的对比学习损失函数,共同作为模型训练的损失函数,利用训练好的模型构造病历数据库;
[0065]
s31构建分类损失函数
[0066]
采用分类模型中最常采用的交叉熵损失函数,公式如下:
[0067][0068]
其中x表示输入的病历文本,即单词序列。y和分别表示病历的真实标签向量和模型预测的标签向量。例如,yj表示第j类的标签值,取值为0或1,表示第j类预测的概率值。θ代表模型中所有的可训练参数。
[0069]
s32构建基于实体的对比学习损失函数
[0070]
本发明提出基于umls构造蕴含医学实体关系知识的正负样例,并通过对比学习向文本表示中引入umls中的专业知识。umls的全称为unified medical language system。作为统一医学语言的系统,它通过cui(concept unique identifier,概念唯一标识符)将同
一概念下的不同表达进行归纳。在一个cui下,umls收录了这一概念的规范名称(canonical name),同时收录了这一概念的其他表达作为同义词(synonyms),因此蕴含了医学实体间的同义词关系知识。
[0071]
具体方式为,利用scispacy工具挖掘出每篇病历中每个章节的关键医学实体然后如图1所示,通过将实体映射为其在umls知识库(unified medical language system)中的同义词来构建当前病历的正样例(即正病历+)。类似地,通过将实体替换为不相关的实体或者直接删除来构造出负样例(即负病历-)。然后,在训练过程中一并将病历i的正负样例输入模型,通过文本编码器和可逆转换层获得它们的文档表示和
[0072]
对比学习的infonce损失函数将被应用于一个批次(batch)中的病历,基于实体的对比学习损失函数的计算公式如下:
[0073][0074]
其中,负样例集合ψ(
·
,
·
)用于计算两个向量之间的余弦相似度。
[0075]
s33将步骤s31和步骤s32的两个损失函数相加,作为模型训练的总损失函数。
[0076]
s34构建病历数据库
[0077]
如图4所示,图4为多标签医疗文本分类模型的模型训练流程图,完成基于步骤s31和s32的模型训练流程后,可以获得训练完成的模型。给定一篇训练集中的病历(xi,yi),将xi输入模型,并对模型输出的标签特定的文档表示进行最大池化操作,即可获得该病历的唯一文档表示vi。通过将训练集中所有的病历输入模型,可以构建病历数据库:其中,n是训练集中的病历数,病历i的文本表示vi和真实标签yi构成数据库中的键值对。
[0078]
s4,使用多标签医疗文本分类模型预测:使用经过步骤s3训练好的模型通过检索病历数据库中的相似病历信息并结合模型的分类结果,预测出病历相关的医疗代码。
[0079]
如图1中测试阶段所示,输入一篇病历x,模型将输出预测向量如图1中测试阶段所示,输入一篇病历x,模型将输出预测向量此外,通过对模型输出的标签特定的文档表示进行最大池化操作,即可获得该测试病历的查询文档表示v
query
,用于检索数据库k并获取k个最相近的邻居:参考n可以计算得到基于knn的预测结果:
[0080][0081][0082]
其中,d(
·
,
·
)是基于欧氏距离的度量函数,τ
′
表示knn的温度系数,αi表示第i个
邻居的权重。邻居距离测试病历越近,其权重就越大,越值得被参考。
[0083]
最后,将和结合,计算得到最终的预测结果:
[0084][0085]
其中,λ是控制信息来源的比例参数。
[0086]
本发明在实验过程中各深度学习模型都是基于深度学习框架pytorch实现的,参数设置如下:训练过程中设置的学习率为1e-5,批次大小(batch size)为12,优化器为adam,正则化方法使用dropout来防止过拟合。k近邻检索中的k值设置为20,λ设置为0.2。
[0087]
本发明的模型在mimic-iii数据集上和最近一些先进的方法进行各类比较,具体实验结果见表1。
[0088]
表1:mimic-iii数据集上的实验结果.
[0089]
methodsmicro f1precision@8caml0.5390.709laat0.5750.738isd0.5590.745discnet0.5880.765ourmodel0.5960.771
[0090]
上表中可以看出,本发明的方法相较与其他方法有显著的提升。综上,本发明方法基于实体的对比学习来增强对医学实体关系的捕获能力和理解能力,以提升了文本表示的质量;本发明在预测阶段从中检索相似病历信息以利用病历关系的方法,为模型的预测通过了有效依据,本发明方法在真实的多标签医疗文本分类数据集上取得了显著效果,在医疗数据管理领域有很大的应用前景。
[0091]
实施例2
[0092]
基于医学实体关系和病历关系的多标签医疗文本分类系统,如图3所示,包括多标签医疗文本分类数据集构建单元、多标签医疗文本分类模型构建单元、多标签医疗文本分类模型训练单元和多标签医疗文本分类模型预测单元,
[0093]
所述多标签医疗文本分类数据集构建单元,用于采集患者住院期间的病历以及对应的医疗标注人员为病历标注的医疗代码,并划分为训练集、验证集以及测试集,构建多标签医疗文本分类数据集;
[0094]
所述多标签医疗文本分类模型构建单元,包括用于编码病历的语义编码层、用于对比学习的可逆转换层以及用于预测病历的所有相关医疗代码的输出层;所述单元还包括文本编码器构建单元、可逆转换层构建单元和输出层构建单元,
[0095]
文本编码器构建单元,该单元的目标是生成标签特定的文档表示,使用discnet对输入病历进行编码得到最终的标签特定的文档表示v;
[0096]
可逆转换层构建单元,该单元的目标是生成唯一文档表示向量v
t
,用于后续基于实体的对比学习和存储进病历数据库;
[0097]
输出层构建单元,该单元的目标是根据标签特定的文档表示v预测病历相关的医疗代码;
[0098]
所述多标签医疗文本分类模型训练单元,用于构建分类损失函数和基于医学实体
关系的对比学习损失函数,将两个损失函数求和共同作为模型训练的损失函数,利用训练好的模型构造病历数据库;
[0099]
分类损失函数,利用真实标签约束模型的分类结果;
[0100]
基于实体的对比学习损失函数,通过引入umls中的医学实体关系信息增强病历的文本表示质量,模型的目标函数就是两个损失函数的和,通过模型训练来最小化这个目标函数,并更新模型参数;
[0101]
病历数据库,利用训练完成的模型生成训练集上所有病历的唯一文档表示,并存储构建为数据库:
[0102]
所述多标签医疗文本分类模型预测单元,用于使用训练好的模型通过检索病历数据库中的相似病历信息(以利用病历关系)并结合模型的分类结果,预测出病历相关的医疗代码。
[0103]
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。
技术特征:
1.基于医学实体关系和病历关系的多标签医疗文本分类方法,其特征在于:包括如下步骤:s1,构建多标签医疗文本分类数据集:采集患者住院期间的病历以及对应的医疗标注人员为病历标注的医疗代码,并划分为训练集、验证集以及测试集,构建多标签医疗文本分类数据集;s2,构建多标签医疗文本分类模型:所述模型包括构建用于编码病历的语义编码层,用于对比学习的可逆转换层以及用于预测病历的所有相关医疗代码的输出层,并依次构建编码层、可逆转换层和输出层;s3,训练多标签医疗文本分类模型:构建分类损失函数和基于医学实体关系的对比学习损失函数,共同作为模型训练的损失函数,利用训练好的模型构造病历数据库;s4,使用多标签医疗文本分类模型预测:使用经过步骤s3训练好的模型通过检索病历数据库中的相似病历信息并结合模型的分类结果,预测出病历相关的医疗代码。2.如权利要求1所述的基于医学实体关系和病历关系的多标签医疗文本分类方法,其特征在于:所述步骤s1还包括对病历文本的预处理,对病历文本进行分词、小写化和词形还原,病历中的数字被统一替换为“num”,对病历中的句子进行分割。3.如权利要求2所述的基于医学实体关系和病历关系的多标签医疗文本分类方法,其特征在于:步骤s2的语义编码层中,构建文本编码器,用于编码输入的病历文本,将其形式化为input。多标签医疗文本分类模型以discnet为基础,其输入由词嵌入(word embedding)和章节类型嵌入(section type embedding)两部分组成,将两个向量相加可得到句子中每个词的输入向量,并融合了单词所属章节的类型信息,通过文本编码器,并结合标签感知的注意力机制可以获得词层级的标签特定的文档表示;将句子中的首尾单词的词嵌入拼接作为句嵌入(sentence embedding)输入文本编码器,并结合标签感知的注意力机制可以获得句层级的标签特定的文档表示;最后拼接两个表示并通过最大池化操作获得最终的标签特定的文档表示即v=discnet(input)。4.如权利要求3所述的基于医学实体关系和病历关系的多标签医疗文本分类方法,其特征在于:所述步骤s2的可逆转换层中,对于文本编码器生成的标签特定的文档表示v,利用最大池化操作获得唯一文档表示向量v=maxpool(v)∈r
d
,再构建可逆转换层,设为转换矩阵,v通过以下方式映射到新的文档嵌入空间:v
t
=mv+b
m
,其中是偏置项。5.如权利要求4所述的基于医学实体关系和病历关系的多标签医疗文本分类方法,其特征在于:所述步骤s2的输出层中,构建多层感知机mlp作为输出层,将标签特定的文档表示v输入输出层,并通过sigmoid激活函数输出模型最终的预测结果,即预测概率向量示v输入输出层,并通过sigmoid激活函数输出模型最终的预测结果,即预测概率向量6.如权利要求1所述的基于医学实体关系和病历关系的多标签医疗文本分类方法,其
特征在于:所述步骤s3具体包括如下步骤:s31:构建分类损失函数,所述分类损失函数采用交叉熵损失函数,公式如下:其中x表示输入的病历文本,即单词序列;y和分别表示病历的真实标签向量和模型预测的标签向量;θ代表模型中所有的可训练参数;s32:构建基于实体的对比学习损失函数,通过将实体映射为其在umls知识库(unified medical language system)中的同义词来构建当前病历的正样例,将实体替换为不相关的实体或者直接删除来构造出负样例,在训练过程中一并将病历i的正负样例输入模型,通过文本编码器和可逆转换层获得它们的文档表示和对比学习的infonce损失函数将被应用于一个批次(batch)中的病历,基于实体的对比学习损失函数的计算公式如下:其中,负样例集合ψ(
·
,
·
)用于计算两个向量之间的余弦相似度;s33:将步骤s31的分类损失函数和步骤s32的基于实体的对比学习损失函数相加,作为模型训练的总损失函数;s34:构建病历数据库,完成基于步骤s31和步骤s32的模型训练后,获得训练完成的模型;通过将训练集中所有的病历输入模型,可以构建病历数据库:其中,n是训练集中的病历数,病历i的文本表示v
i
和真实标签y
i
构成数据库中的键值对。7.基于医学实体关系和病历关系的多标签医疗文本分类系统,其特征在于:包括多标签医疗文本分类数据集构建单元、多标签医疗文本分类模型构建单元、多标签医疗文本分类模型训练单元和多标签医疗文本分类模型预测单元,所述多标签医疗文本分类数据集构建单元,用于采集患者住院期间的病历以及对应的医疗标注人员为病历标注的医疗代码,并划分为训练集、验证集以及测试集,构建多标签医疗文本分类数据集;所述多标签医疗文本分类模型构建单元,包括用于编码病历的语义编码层、用于对比学习的可逆转换层以及用于预测病历的所有相关医疗代码的输出层;所述多标签医疗文本分类模型训练单元,用于构建分类损失函数和基于医学实体关系的对比学习损失函数,所述分类损失函数利用真实标签约束模型的分类结果,所述对比学习损失函数通过引入umls中的医学实体关系信息增强病历的文本表示质量,将两个损失函数求和共同作为模型训练的损失函数,利用训练好的模型构造病历数据库;所述多标签医疗文本分类模型预测单元,用于使用训练好的模型通过检索病历数据库
中的相似病历信息并结合模型的分类结果,预测出病历相关的医疗代码。8.如权利要求7所述的基于医学实体关系和病历关系的多标签医疗文本分类系统,其特征在于:所述多标签医疗文本分类模型构建单元中,还包括文本编码器构建单元、可逆转换层构建单元和输出层构建单元,所述文本编码器构建单元生成标签特定的文档表示,使用discnet对输入病历进行编码得到最终的标签特定的文档表示v;所述可逆转换层构建单元生成唯一文档表示向量v
t
,用于后续基于实体的对比学习和存储进病历数据库;所述输出层构建单元根据标签特定的文档表示v预测病历相关的医疗代码。
技术总结
本发明公开了一种基于医学实体关系和病历关系的多标签医疗文本分类方法及系统,首先采集患者住院期间的病历以及对应的医疗标注人员为病历标注的医疗代码,构建多标签医疗文本分类数据集;再构建多标签医疗文本分类模型,所述模型包括构建用于编码病历的语义编码层,用于对比学习的可逆转换层以及用于预测病历的所有相关医疗代码的输出层;然后训练多标签医疗文本分类模型,构建分类损失函数和基于医学实体关系的对比学习损失函数,共同作为模型训练的损失函数,利用训练好的模型构造病历数据库;最后使用多标签医疗文本分类模型通过检索病历数据库中的相似病历信息并结合模型的分类结果,预测出病历相关的医疗代码。预测出病历相关的医疗代码。预测出病历相关的医疗代码。
技术研发人员:周德宇 王韬 张旭
受保护的技术使用者:东南大学
技术研发日:2023.06.29
技术公布日:2023/9/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:防波堤单元及防波堤的制作方法 下一篇:一种拆卸装置的制作方法