一种基于血液疾病的多模型融合分类方法与流程

未命名 09-22 阅读:66 评论:0


1.本发明涉及检验医学和疾病识别技术领域,特别是涉及一种基于血液疾病的多模型融合分类方法。


背景技术:

2.血液疾病是原发于造血系统的疾病或影响造血系统伴发血液异常改变,以贫血、出血、发热及肝脾淋巴结肿大等为特征的疾病。该病具有发病率低、死亡率高、难预测、涉及多系统和诊断依赖实验室检测特点,其可以是原发的也可以是继发的。其中白血病、淋巴瘤、再生障碍性贫血等恶性血液疾病成因非常复杂,治疗方面也有一定困难。据统计全球有大约五亿人患有不同程度的血液病,另外很多人患有血液病而不自知,等到发现时往往已经达到非常严重的时期。血液疾病多半是难治性疾病,发病隐袭,病状隐匿,多因其他疾病就医或健康体检时而被发现。因此提高对血液疾病的认识,以便早期发现,早期治疗,以免给健康带来不必要额损失,显得尤为重要.
3.血液疾病包含的疾病种类较多,症状与体征多种多样,往往缺乏特异性,确诊需要多项检查才能最终确诊。血液病临床表现会有相似的情况,鉴别时需要临床医生有大量的专业知识储备、丰富的临床经验以及敏锐的观察力。随着人工智能的发展,医学领域也被广泛应用。目前用于血液疾病诊断模型主要是依据骨穿刺涂片分析细胞形态学、免疫学和遗传学确定疾病类型,但是骨穿刺涂片是图像数据,就需要对图像进行采集和手动注释。高质量的骨髓穿刺涂片图像数据集并不容易获得,它需要大量的时间、精力以及医学知识。骨穿刺涂片主要是分析细胞形态学,细胞之间重叠、粘附、边界模糊和类型不明确问题使得图像更具有挑战性,从而使用模型对血液疾病诊断也存在一定的问题和难度。


技术实现要素:

4.本发明的目的是提供一种基于血液疾病的多模型融合分类方法,其能够快速对血液病分类帮助医生快速确诊,降低医生工作量,提高其工作效率。
5.为实现上述目的,本发明提供了一种基于血液疾病的多模型融合分类方法,包括以下步骤:
6.s1提取血液疾病相关的血常规检验数据,获取数据集;
7.s2基于k折交叉验证方法,将数据集分为k份,获得测试集和训练集,k为任意大于1的常数;
8.s3选择多种机器学习二分类器模型进行数据集训练,并依据不同疾病的数据集数量对每个机器学习二分类器模型赋权重值;
9.s4把多种机器学习二分类器模型的权重值与对应的模型预测值相结合构建公式,通过线性加成对多种机器学习二分类器模型进行融合,得到融合后的多分类器模型;
10.s5使用机器学习多分类器模型对多标签数据集进行训练,得到机器学习多分类器模型的准确率;
11.s6使用融合后的多分类器模型对多标签数据集进行训练,得到融合后的多分类器模型的准确率,并与步骤s5的准确率进行对比;
12.s7确定融合后的多分类器模型效果是否优于机器学习多分类器模型效果,若是,则融合成功,若否则继续修改多种机器学习二分类模型融合公式。
13.优选的,步骤s1中提取的数据集包括白血病数据集、骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集;并将白血病数据集分别与骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集结合形成三个数据集。
14.优选的,步骤s2中k一般取值为5或10。
15.优选的,步骤s3中所有数据集都是用随机森林二分类器,每个数据集构建的模型所使用的参数不同,并用步骤s2获得的测试集测试分类效果,得到敏感度tpr、特异度tnr和准确率acc;
16.其中,tpr、tnr和acc计算公式分别为:
17.tpr=tp/(tp+fn)(1)
18.tnr=tn/(fp+tn)(2)
19.acc=(tp+tn)/(tp+fp+fn+tn)(3)
20.式中,tp表示分类器被识别为真正是患者的数量,fp表示分类器被误识别正常人群为患者的数量,fn表示分类器被识别患者为正常人群的数量,tn表示分类器被识别为真正是正常人群的数量;
21.模型的权重值wi(i=1,2,3)是根据每个疾病数据集数量之间的比值设定。
22.优选的,步骤s4不同数据集在不同机器学习二分类器模型测试得到预测值α;s4中的公式为:
[0023][0024]
式中,m为基分类算法的个数,hi为第i种基分类算法,wi为第i种基分类算法的权重参数,α为模型预测值,x表示数据集。
[0025]
优选的,步骤s5中多标签数据集是把提取的血液疾病数据进行整合,并对不同血液疾病标记样本标签,然后使用随机森林二分类器对多标签数据集进行训练得到模型准确率。
[0026]
因此,本发明的一种基于血液疾病的多模型融合分类方法,使用常规检验数据构建模型对血液疾病进行分类,相对图像分类常规检验数据分类相对简单,在数据获取和收集方面常规检验数据相对容易,整体实现便捷快速,有利于解决血液疾病分类困难问题,在机器学习方面可以解决模型融合之间拟合问题还可以提升机器学习的泛化性能,能够快速对血液病分类帮助医生快速确诊,降低医生工作量,提高其工作效率。
[0027]
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
[0028]
图1是本发明一种基于血液疾病的多模型融合分类方法的流程示意图。
具体实施方式
[0029]
下面结合实施例,对本发明进一步描述。除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明提到的上述特征或具体实例提到的特征可以任意组合,这些具体实施例仅用于说明本发明而不用于限制本发明的范围。
[0030]
图1是本发明一种基于血液疾病的多模型融合分类方法的流程示意图,如图所示,本发明提供了一种基于血液疾病的多模型融合分类方法,包括以下步骤:
[0031]
s1提取血液疾病相关的血常规检验数据,获取数据集;
[0032]
步骤s1中提取的数据集包括白血病数据集、骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集;并将白血病数据集分别与骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集结合形成三个数据集。
[0033]
s2基于k折交叉验证方法,将数据集分为k份,获得测试集和训练集,k一般取值为5或10。
[0034]
s3选择多种机器学习二分类器模型进行数据集训练,并依据不同疾病的数据集数量对每个模型赋权重值。
[0035]
所有数据集都是用随机森林二分类器,每个数据集构建的模型所使用的参数不同,并用步骤s2基于k折交叉验证方法获得的测试集测试分类效果,得到tpr、tnr和acc,结果见表1。其中tpr是识别出所有阳性样本占所有样本的比例即敏感度,tnr是识别出阴性样本占所有阴性样本的比例即特异度,acc是分类器的分类准确率;
[0036]
其中,tpr、tnr和acc计算公式分别为:
[0037]
tpr=tp/(tp+fn)(1)
[0038]
tnr=tn/(fp+tn)(2)
[0039]
acc=(tp+tn)/(tp+fp+fn+tn)(3)
[0040]
式中,tp表示分类器被识别为真正是患者的数量,fp表示分类器被误识别正常人群为患者的数量,fn表示分类器被识别患者为正常人群的数量,tn表示分类器被识别为真正是正常人群的数量;
[0041]
白血病数据集与骨髓增生异常综合征数据集结合形成第一个数据集;
[0042]
白血病数据集与再生障碍性贫血数据集结合形成第二个数据集;
[0043]
白血病数据集与传染性单核细胞增多症数据集结合形成第三个数据集。
[0044]
针对随机森林二分类器具体每个数据集使用参数分别是:
[0045]
第一个随机森林算法使用randomforestclassifier函数,其中class_weight设置为{0:5,1:67},n_estimators设置为11,min_samples_split设置为2,min_samples_leaf设置为2,max_depth设置为10;
[0046]
第二个随机森林算法使用randomforestclassifier函数,其中class_weight设置为{0:50,1:270},n_estimators设置为15,min_samples_split设置为2,min_samples_leaf设置为2,max_depth设置为3;
[0047]
第三个随机森林算法使用randomforestclassifier函数,其中class_weight设置为{0:0.1,1:60},n_estimators设置为15,min_samples_split设置为2,min_samples_leaf
设置为2,max_depth设置为6。
[0048]
模型的权重值wi(i=1,2,3)是根据每个疾病数据集数量之间的比值设定。
[0049]
表1机器学习二分类器模型训练三个数据集得到的结果
[0050][0051][0052]
s4把多种机器学习二分类器模型权重值与对应的模型预测值相结合构建公式,通过线性加成对多种机器学习二分类器模型进行融合,其中预测值α是指不同数据集在不同机器学习二分类器模型测试得到的值。
[0053]
公式为:
[0054][0055]
式中,m为基分类算法的个数,hi为第i种基分类算法,wi为第i种基分类算法的权重参数,α为模型预测值,x表示数据集。
[0056]
s5使用机器学习多分类器模型对多标签数据集进行训练,得到机器学习多分类器模型的准确率。
[0057]
多标签数据集是把提取的血液疾病数据进行整合,并对不同血液疾病标记样本标签,然后使用随机森林多分类器对多标签数据集进行训练得到模型准确率。
[0058]
针对随机森林分类器使用参数是:
[0059]
随机森林算法使用randomforestclassifier函数,其中n_estimators设置为15,min_samples_split设置为2,min_samples_leaf设置为2,max_depth设置为20。
[0060]
s6使用融合后的多分类器模型对多标签数据集进行训练,得到融合后的多分类器模型的准确率,并与步骤s5的准确率进行对比,见表2。
[0061]
表2两个模型评价指标对比
[0062][0063][0064]
s7确定融合后的多分类器模型效果是否优于机器学习多分类器模型效果,若是,则融合成功,若否则继续修改多种机器学习二分类模型融合公式。
[0065]
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依
然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

技术特征:
1.一种基于血液疾病的多模型融合分类方法,其特征在于,包括以下步骤:s1提取血液疾病相关的血常规检验数据,获取数据集;s2基于k折交叉验证方法,将数据集分为k份,获得测试集和训练集,k为任意大于1的常数;s3选择多种机器学习二分类器模型进行数据集训练,并依据不同疾病的数据集数量对每个机器学习二分类器模型赋权重值;s4把多种机器学习二分类器模型的权重值与对应的模型预测值相结合构建公式,多种机器学习二分类器模型进行融合,得到融合后的多分类器模型;s5使用机器学习多分类器模型对多标签数据集进行训练,得到机器学习多分类器模型的准确率;s6使用融合后的多分类器模型对多标签数据集进行训练,得到融合后的多分类器模型的准确率,并与步骤s5的准确率进行对比;s7确定融合后的多分类器模型效果是否优于机器学习多分类器模型效果,若是,则融合成功,若否则继续修改多种机器学习二分类模型融合公式。2.根据权利要求1所述的一种基于血液疾病的多模型融合分类方法,其特征在于,步骤s1中提取的数据集包括白血病数据集、骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集;并将白血病数据集分别与骨髓增生异常综合征数据集、再生障碍性贫血数据集和传染性单核细胞增多症数据集结合形成三个数据集。3.根据权利要求1所述的一种基于血液疾病的多模型融合分类方法,其特征在于,步骤s2中k一般取值为5或10。4.根据权利要求1所述的一种基于血液疾病的多模型融合分类方法,其特征在于,步骤s3中所有数据集都是用随机森林二分类器,每个数据集构建的模型所使用的参数不同,并用步骤s2获得的测试集测试分类效果,得到敏感度tpr、特异度tnr和准确率acc;其中,tpr、tnr和acc计算公式分别为:tpr=tp/(tp+fn)(1)tnr=tn/(fp+tn)(2)acc=(tp+tn)/(tp+fp+fn+tn)(3)式中,tp表示分类器被识别为真正是患者的数量,fp表示分类器被误识别正常人群为患者的数量,fn表示分类器被识别患者为正常人群的数量,tn表示分类器被识别为真正是正常人群的数量;模型的权重值w
i
(i=1,2,3)是根据每个疾病数据集数量之间的比值设定。5.根据权利要求1所述的一种基于血液疾病的多模型融合分类方法,其特征在于,步骤s4中不同数据集在不同机器学习二分类器模型测试得到预测值α;s4中的公式为:式中,m为基分类算法的个数,h
i
为第i种基分类算法,w
i
为第i种基分类算法的权重参数,α为模型预测值,x表示数据集。6.根据权利要求1所述的一种基于血液疾病的多模型融合分类方法,其特征在于,步骤s5中多标签数据集是把提取的血液疾病数据进行整合,并对不同血液疾病标记样本标签,
然后使用随机森林二分类器对多标签数据集进行训练得到模型准确率。

技术总结
本发明公开了一种基于血液疾病的多模型融合分类方法,包括以下步骤:获取数据集;基于k折交叉验证方法,将数据集分为k份,获得测试集和训练集,k为任意大于1的常数;选择多种机器学习二分类器模型进行数据集训练;通过线性加成对多种机器学习二分类器模型进行融合,得到融合后的多分类器模型;使用机器学习多分类器模型对多标签数据集进行训练,得到模型准确率;使用融合后的多分类器模型对多标签数据集进行训练,得到融合后的多分类器模型的准确率,并与上述准确率进行对比。本发明采用上述一种基于血液疾病的多模型融合分类方法,其能够快速对血液病分类帮助医生快速确诊,降低医生工作量,提高其工作效率。提高其工作效率。提高其工作效率。


技术研发人员:陈超 宋彪 张瑞环
受保护的技术使用者:内蒙古卫数数据科技有限公司
技术研发日:2023.08.10
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐