一种用血液检测数据对COVID-19进行诊断和预后的可解释方法
未命名
09-20
阅读:68
评论:0

一种用血液检测数据对covid-19进行诊断和预后的可解释方法
技术领域
1.本发明涉及生物信息学领域,具体是一种基于集成学习模型的用血液检测数据识别和预后新冠患者的预测方法。
背景技术:
2.人们对利用机器学习工具来对抗 covid-19 大流行有着浓厚的兴趣,比如通过促进疾病诊断和预后、预测、预防、治疗和管理、疾病监测和抗病毒药物。多项临床研究表明 covid-19 患者的血液参数表现出相当大的变化,这些参数的识别可以在 covid-19的初步筛查中发挥关键作用。即使是经验丰富的医生也很难完全提取出常规血液检测中包含的一切信息。然而,机器学习算法却可以有效学习和区分在常规血液测试参数中观察到的各种联系。因此,一些初步努力已经开始开发用于从常规血液样本中诊断covid-19 和死亡率的人工智能方法。
3.covid-19 的临床诊断基于临床表现、rt-pcr(逆转录酶聚合酶链反应)、胸部 x 光或 ct 扫描对病毒基因组进行分子诊断,以及血清学血液检测。有可疑症状和流行病学史的患者通常要接受三项初步的测试:sars-cov-2 rna 确认 sars-cov-2 感染、血常规测试和胸部 ct 扫描以初步评估 covid-19 的严重程度。目前来说,大部分的国家选择的是对呼吸道样本进行逆转录酶聚合酶链反应的检测。突发公共卫生事件需要前所未有的全球努力来提高检测能力。由于病毒在全球范围内传播,对 rrt-pcr 检测(也通常称为鼻咽拭子检测)的大量需求暴露了这种诊断在大规模上的局限性,例如:周转时间长(平均超过2 到 3 小时产生结果);需要经过认证的实验室;经过培训的人员;设备昂贵和对试剂的需求大于供给。此外,全球范围之内缺少 rt-pcr 检测试剂盒。快速抗原检测是一种筛查测试,可在 15 分钟内识别出 covid 阳性患者,但灵敏度低于 pcr 测试。因此,迫切寻求其他便宜且更容易获取的测试方法或补充方法是必不可少的。
4.尽管超过80%的covid-19 患者为轻度至中度病例,不需要住院就可以康复,但仍有约 14% 的患者为重症病例,5% 的患者为重危病例。重危重症病例往往在感染仅仅后两周内就会发展为急性呼吸窘迫综合征(ards)或多器官功能障碍综合征(mods),消耗大部分医疗资源并导致高病死率(高达 49 %) 。早期预测 covid-19 有助于快速对患者进行分类(即隔离、住院或 icu 分配等),优化医疗资源的使用和及时的医疗干预 。
5.利用ml框架来进行基于血液测试的covid-19早期检测和预后将为之前昂贵且麻烦的测试(例如对ct和 rt-pcr的研究)提供更快速更便宜的替代方案。这样的系统将对一些缺乏检测试剂盒、实验室用品和 pcr 相关检查的专业中心的发展中国家和低收入国家产生重大影响。这种快速且廉价的系统的其他主要优势包括加快患者流动和加快诊断潜在感染患者的结果,从而有效遏制大流行。
技术实现要素:
6.本发明提出一种基于集成学习模型的机器学习框架regx。在血液检测数据识别方面,regx不需要依靠任何别的生物学特征,相比于最先进的方法具有更高的准确度和更均衡的识别能力。
7.以下是实现本发明目的的技术方案,包含如下步骤:1)构建血液检测数据集:有18项实验室特征对covid-19的诊断具有重要的作用,因此擦除了多余的实验室特征;2)数据预处理:使用k近邻和隔离林来对血液测试原数据进行预处理,之后将数据集划分为80%的训练集和20%的测试集,并将训练集使用smote进行处理;3)获得预测结果:在第一层使用四种树结构的机器学习分类器来对训练样本预测,并将预测结果传输给第二层的svm来对患者进行精确识别(regx);4)可解释性:使用 shap 和 scikit-learn 事后可解释性来报告特征重要性,使得医护人员和ai模型进行交互,以建议一些医生可能忽略的生物标志物;5)堆叠模型的第一级使用了十折交叉验证和数据混洗。每次重复都会随机抽取数据,其中 80% 的数据集为训练数据,20% 的数据集用来测试模型性能;6)模型评估:使用敏感性、特异性、准确率、recall、auc、f1-score六个评估指标衡量模型。
附图说明
8.图1为用血液检测数据对新冠进行诊断的预测方法的流程图。
具体实施方式
9.下面结合附图阐明本发明的具体实施方式,附图仅仅是为了说明目的,并不能理解为对本发明的限定,附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
10.如图1所示,模型使用两级分类器,第一级分类器(et、rf、gbdt、xgb)的输出被输送至第二级分类器(svc)来提高整体分类器的性能。第一阶段,首先对数据进行预处理。使用knn算法处理空值、使用隔离林来处理异常数据、使用过采样smote方法来平衡数据集,处理之后的数据会被用作集成模型的输入。第二阶段,利用集成模型对数据集进行分类,并利用auc、准确性、敏感性和特异性对模型性能进行评估。本文中的实验结果来自100次重复,每次重复经历了数据混洗,其中80%的数据集为训练集,20%的数据集为测试集。第三阶段,为了解释模型,本文利用feature_ importances和shap来评估每个特征对于预测的贡献,以此来显示一些医生可能忽略的重要特征标志物。本文所采用的数据集详细信息如表1所示。
11.表1. 血液检测数据集信息数据集特征特征数
dataset1patientagequantile,hematocrit,hemoglobin,platelets,redbloodcells,lymphocytes,leukocytes,basophils,eosinophils,monocytes,serumglucose,neutrophils,urea,creactiveprotein,creatinine,potassium,sodium,alaninetransaminase,aspartatetransaminase19dataset2gender,age,leukocytes(wbc),lymphocytecount(lync),lymphocyteratio(lymph),neutrophilcount(neut),neutrophilratio(neu),neutrophiltolymphocyteratio(nlr)8
12.表2. regx中所有部件的参数
模型诊断数据集上的参数预后数据集上的参数etn_estimators=300,max_depth=17n_estimators=300,max_depth=15rfn_estimators=300,max_depth=17n_estimators=90,max_depth=19gbdtlearning_rate=0.1,n_estimators=290,min_samples_split=200,min_samples_leaf=20,max_depth=8,max_features='sqrt',subsample=0.8,random_state=10无xgblearning_rate=1.0,n_estimators=200,max_depth=17n_estimators=80,learning_rate=0.75,max_depth=7svmprobability=trueprobability=true
13.采用十折交叉验证的评估方式对模型性能进行评估。模型评估:根据测试结果,使用敏感性(sn)、特异性(sp)、准确率(acc)、recall、auc、f1-core六个评估指标衡量模型,表3展示了regx方法和最新先进的方法的实验对比结果。结果表明,我们发明的方法相比最先进的方法,预测性性能更均衡,预测准确率更高。
14.表3. 对以前出版的预测器对比
数据集模型aucaccsnsprecallf1-scoredataset1regx0.93680.98940.87500.99990.80750.9333talhaburakalakus,etal.0.62500.8666
‑‑‑‑‑‑‑‑
0.99420.9189saminbabaeirikan,etal.0.92200.9316
‑‑‑‑
0.8500
‑‑‑‑‑‑‑‑
dataset2regx0.69900.96770.94120.99990.94120.9697mcdm0.82000.9300
‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑
技术特征:
1.一种利用血液检测结果对新冠进行诊断和预后的预测方法,其模型含如下步骤:1)构建血液检测数据集:有18项实验室特征对covid-19的诊断具有重要的作用,因此擦除了多余的实验室特征;2)数据预处理:使用k近邻和隔离林来对血液测试原数据进行预处理,之后将数据集划分为80%的训练集和20%的测试集,并将训练集使用smote进行处理;3)获得预测结果:在第一层使用四种树结构的机器学习分类器来对训练样本预测,并将预测结果传输给第二层的svm来对患者进行精确识别(regx);4)可解释性:使用 shap 和 scikit-learn 事后可解释性来报告特征重要性,使得医护人员和ai模型进行交互,以建议一些医生可能忽略的生物标志物;5)堆叠模型的第一级使用了十折交叉验证和数据混洗。每次重复都会随机抽取数据,其中 80% 的数据集为训练数据,20% 的数据集用来测试模型性能;6)模型评估:使用敏感性、特异性、准确率、recall、auc、f1-score六个评估指标衡量模型。2.该方法不需要依靠生物学上的先验知识,仅通过血液检测结果就可以识别covid-19患者,相比于最先进的方法具有更均衡和更优越的识别性能。3.根据权利要求1所述的一种用血液检测结果对新冠进行诊断和预后的预测方法,其特征在于,步骤3)和4)中,所述的regx训练模型,该训练模型可以诊断和预后新冠肺炎且可报告特征重要性以显示重要的生物标志物。
技术总结
在这项发明将使用一个集成学习模型(REGX)中来进行COVID-19的诊断和预后。该集成学习模型使用了两层的多个分类器来提升模型性能。第一级多样化分类器包括额外树、随机森林、梯度提升和极端梯度提升模型,之后第一层的输出被送至第二层SVM分类器。同时,在数据预处理时,本文采用KNNImputer算法来处理空值,使用iForest来筛选异常值,之后再用少数过采样技术(SMOTE)来使数据分布均衡。最后,通过Feature_Importances(scikit-Learn)和SHapley Additive exPlanations(SHAP)来报告特征重要性,以满足医疗环境中模型可解释性的需求。最后,通过sklearn中的Feature_Importances和SHAP事后可解释性来揭示黑盒模型中揭示由于新型冠状病毒感染感染患者剧增而可能被医疗从业者忽略的重要的生物标志物。而可能被医疗从业者忽略的重要的生物标志物。而可能被医疗从业者忽略的重要的生物标志物。
技术研发人员:樊永显 刘梦 孙贵聪 卢茜倩 潘应捷 王晨 李雪萍 郭智 郑梦鑫
受保护的技术使用者:桂林电子科技大学
技术研发日:2023.07.06
技术公布日:2023/9/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种导出设备的制作方法 下一篇:钻井防震刀具的夹持装置的制作方法