一种基于集成学习的肺癌疾病负担风险预警方法
未命名
09-22
阅读:93
评论:0

1.本发明属于大数据技术领域,尤其涉及一种基于集成学习的肺癌疾病负担风险预警方法。
背景技术:
2.有研究提出大部分癌症可归因于环境因素而非遗传因素,其是长期接触低剂量环境致癌物而引起的疾病。
3.大量研究证实了空气污染与肿瘤间的显著关系,但研究的污染物局限于pm2.5、pm10、so2等,较少涉及nh3、oc、bc、co、nox、nmvoc等污染物。同时缺乏融合环境、空气污染、经济、气象等多维度特征的预测模型;
4.考虑到环境经济等因素疾病的影响存在一定不同的滞后效应,预测指标的滞后性分析,可极大延伸模型外部预测窗口长度,当前模型对滞后效应考虑有所欠缺;
5.尚未见现有技术中有针对较长时间序列的空气污染物与肺癌疾病负担关联分析的研究。
6.arima为传统的多元时间序列数据模型,对数据的要求相对较高,需要较长的连续时间序列,若序列太短,模型可靠性差,且模型识别与计算相对比较复杂。当前常用方法无法满足日益增长的医疗大数据需求。不同方法适用的数据不同,拟提出一种适用于多种数据分布,集成深度学习、机器学习、统计回归模型等多种模型的疾病负担预测方法,可以处理高纬度、不同时间细粒度的时间序列数据,同时提高预测精度。
技术实现要素:
7.本发明的目的是提供一种基于集成学习的肺癌疾病负担风险预警方法,解决了为预测肺癌疾病负担提供更准确的参考数据的技术问题。
8.为实现上述目的,本发明采用如下技术方案:
9.一种基于集成学习的肺癌疾病负担风险预警方法,包括如下步骤:
10.步骤1:建立数据库服务器,数据库服务器通过互联网获取疾病负担数据、气象数据、空气污染数据、地区经济数据和时间特征数据,并将以上数据进行整合与清洗后,构建肺癌疾病负担特征数据库,通过图表进行数据库数据可视化展示,展示疾病与特征的时间序列特征;
11.步骤2:建立模型服务器,模型服务器获取数据库服务器中进行整合与清洗后的数据,通过信息熵与主成分进行预测指标的降维和筛选,通过灰色关联度分析测算各预测指标对肺癌疾病负担影响的滞后效应;
12.在训练序列上分别构建预测模型池,预测模型池包括gam模型、lstm模型、gm(1,n)模型、arima模型、xgboost算法模型、rfr算法模型、bp神经网络模型和adaboost算法模型,经过对预测模型池中的各个模型验证,优化各个模型参数,更新迭代各个模型,在测试集上评估各个模型的预测性能,并根据预测性能对各个模型进行排序;
13.步骤3:建立集成模型服务器,集成模型服务器从预测模型池中选择出预测性能排在前4的4个模型作为stacking集成学习的第一层基学习器;各预测器分别在验证集和预测集进行拟合,形成新的训练集与新的测试集,作为stacking第二层的元学习器的输入;将模型中的线性回归模型与岭回归模型作为候选元学习器,通过预测性能评估,择优得到最终的集成模型;基于滞后效应指标,为s步未来时期的预测提供相关参考数据;
14.步骤4:集成模型服务器对步骤3获得的结果进行可视化展示。
15.优选的,在执行步骤1时,对数据进行整合与清洗时,具体为将异常数据、缺失数据、重复数据和不一致数据进行清洗。
16.优选的,在执行步骤1时,采用均值法、回归法或多重填补法等数理统计方法填补缺失数据,剔除缺失比例超过10%的变量,通过数据分析、清洗策略的定义、数据检验、执行数据清洗、数据质量评估和干净数据回流这几个步骤对数据进行整合清洗后,得到标准数据。
17.优选的,在执行步骤1时,通过图表进行数据库数据可视化展示具体包括尽可能多得收集数据,经过数据挖掘与清洗后,将不同来源的数据整理成疾病负担、气象、空气污染、经济、其他环境数据等一级指标,构建肺癌疾病负担风险预警初级数据库,通过均值,标准差、极值、四分位数进行描述性统计分析该地区环境污染、气象特征、经济特征分布,计算疾病负担年均复合增长率。
18.优选的,在执行步骤2时,对预测指标的筛选具体包括如下步骤:
19.步骤2-1:通过主观专家访谈与文献理论收集,基于重要性筛选得到初始指标;
20.步骤2-2:基于信息熵筛选初始指标,计算不同的初始指标与肺癌疾病负担的对比信息熵,从初始指标中剔除与疾病负担相关度较低的指标,同时剔除相关度较高的冗余指标;
21.步骤2-3:基于主成分分析筛选重要指标或提取主成分作为新指标,具体包括如下步骤:
22.步骤2-3-1:构造指标矩阵其中x
np
表示第n个样本第p个指标值,n和p分别表示指标在矩阵中的行编号和列编号;
23.步骤2-3-1:对矩阵x做标准化变换得到z;
24.步骤2-3-2:计算标准化阵z的相关系数矩阵其中,m表示样本数,t表示矩阵转置;
25.步骤2-3-3:计算相关系数矩阵r的特征值λj,及相应的正交化单位特征向量aj;
26.得到主成分得分fi=a
1i
x1+a
2i
x2+
…
+a
pi
x
p
;其中,i为主成分编号,p为指标总数;
27.步骤2-3-4:计算因子载荷,指标xj在主成分fi上的载荷为其反映主成分fi与指标xj间的相互关联程度,表示每个变量在主成分中的重要性及对结果的贡献,可通过|l(fi,xj)|筛选出重要的指标,其中,j为指标编号,i为主成分编号;
28.步骤2-3-5:在指标过多时,选取k个主成分作为新指标,k值通过主成分的信息贡
献率达到80%确定,
29.优选的,在执行步骤2时,通过灰色关联度分析测算各预测指标对肺癌疾病负担影响的滞后效应,具体包括灰色关联分析通过定量比较研究变量序列与相关因素序列的几何形状相似或相异程度,以判断相关因素与研究变量的关联程度,采用邓氏关联度分析各预测指标对于肺癌发病与死亡的影响程度与滞后效应。
30.优选的,在执行步骤3时,具体包括如下步骤:
31.步骤3-1:staking集成模型的第一层包括gam模型、lstm模型、gm(1,n)模型、arima模型、xgboost算法模型、rfr算法模型、bp神经网络模型和adaboost算法模型构成预测模型池,从中选择出预测性能排在前4的4个回归算法模型,作为stacking第一层;
32.步骤3-2:将通过参数优化的各预测器分别在验证集和预测集进行拟合,验证集的预测结果合并组成新的训练集,测试集的预测结果通过加权平均形成新的测试集,作为stacking第二层的输入;
33.步骤3-3:在staking集成模型的第二层引入元学习器,将前一层的预测结果分别作为训练集与测试集进行回归训练,线性回归模型与岭回归模型作为元回归器,通过预测效果评估,择优得到最终的元学习器;
34.步骤3-4:基于滞后效应指标,为s步未来时期的预测提供相关参考数据。
35.本发明所述的一种基于集成学习的肺癌疾病负担风险预警方法,解决了为预测肺癌疾病负担提供更准确的参考数据的技术问题,本发明融合多源数据可以提供更全面的信息,充分综合利用各类预测模型信息,结合多个模型结果生成强预测器,可以充分利用不同模型的优势,减少单个模型的不确定性和偏差,提高预测的准确性和稳定性,预测组合可以提供比单项预测模型更加精准的预测参考数据。本发明的模型在处理时间序列数据方面具有不同的特点和能力。通过组合各个模型,可以处理多种特点的数据,更全面地考虑不同的数据特征和趋势,从而提高数据的准确性,通过分析不同预测指标的滞后效应,能够捕捉到不同指标与疾病负担的时序关系。通过考虑滞后效应,可以更准确地建立预测模型,提高预测的准确性。可以利用滞后效应提供更长时间范围内的预测参考数据,采用滚动窗口技术实现时间序列数据的交叉验证,进行单个预测模型以及元学习模型的训练,可以帮助模型参数估计。
附图说明
36.图1是本发明的数据架构图;
37.图2是本发明的数据清洗流程示意图;
38.图3是本发明的指标筛选流程图;
39.图4是本发明的lstm网络结构示意图;
40.图5是本发明的stacking结构示意图。
具体实施方式
41.由图1-图5所示的一种基于集成学习的肺癌疾病负担风险预警方法,包括如下步骤:
42.步骤1:建立数据库服务器,数据库服务器通过互联网获取疾病负担数据、气象数据、空气污染数据、地区经济数据和时间特征数据,并将以上数据进行整合与清洗后,构建肺癌疾病负担特征数据库,通过图表进行数据库数据可视化展示,展示疾病与特征的时间序列特征;
43.空气污染:初级颗粒(物颗粒物pm10和pm2.5,碳质形态(黑碳bc、有机碳oc))、酸化气体(氮氧化物nox、二氧化硫so2)、臭氧前体气体(一氧化碳co、氮氧化物nox、非甲烷挥发性有机化合物nmvoc)、氨nh3等。
44.气象因素:平均相对湿度、平均气温、平均降雨量、平均气压地区经济水平:gdp、人均收入。
45.时间特征数据:季节、节假日、星期数据。
46.其他环境污染:废水排放量、化学需氧量、氨氮排放总等水污染数据,一般工业固体废物产生量污染数据。
47.疾病负担:包括不同性别、肺癌发病人数、发病率、死亡人数、死亡率、dalys,dalys率。
48.在执行步骤1时,对数据进行整合与清洗时,具体为将异常数据、缺失数据、重复数据和不一致数据进行清洗,采用均值法、回归法或多重填补法等数理统计方法填补缺失数据,剔除缺失比例超过10%的变量,通过数据分析、清洗策略的定义、数据检验、执行数据清洗、数据质量评估和干净数据回流这几个步骤对数据进行整合清洗后,得到标准数据,通过图表进行数据库数据可视化展示具体包括尽可能多得收集数据,经过数据挖掘与清洗后,将不同来源的数据整理成疾病负担、气象、空气污染、经济、其他环境数据等一级指标,构建肺癌疾病负担风险预警初级数据库,通过均值,标准差、极值、四分位数进行描述性统计分析该地区环境污染、气象特征、经济特征分布,计算疾病负担年均复合增长率(compound annual growth rate),疾病负担年均复合增长率的具体公式如下:
[0049][0050]
其中,y表示疾病负担值,n表示疾病负担序列的年数。
[0051]
步骤2:建立模型服务器,模型服务器获取数据库服务器中进行整合与清洗后的数据,通过信息熵与主成分进行预测指标的降维和筛选,通过灰色关联度分析测算各预测指标对肺癌疾病负担影响的滞后效应;
[0052]
在训练序列上分别构建预测模型池,预测模型池包括gam模型、lstm模型、gm(1,n)模型、arima模型、xgboost算法模型、rfr算法模型、bp神经网络模型和adaboost算法模型,经过对预测模型池中的各个模型验证,优化各个模型参数,更新迭代各个模型,在测试集上评估各个模型的预测性能,并根据预测性能对各个模型进行排序;
[0053]
数据集通常含有部分不重要或冗余的指标,在模型中严重影响预测性能。另外冗余往往指标间相关性较大,会造成回归模型存在多重共线性问题。所以需要选择出与肺癌疾病负担高度相关的指标,同时指标之间互不相关。剔除与肺癌疾病负担预测实际不相关或冗余的指标,移除这些指标并不会导致信息丢失,反而能实现缩短模型训练时间、降低过拟合等效果,进而建立真实有效的预测指标体系,并提高模型精确度。
[0054]
在疾病负担风险因素分析的基础上形成初始指标体系集合,继而采用主观分析与
客观分析相结合方法,形成最终的预测指标体系,对预测指标的筛选具体包括如下步骤:
[0055]
步骤2-1:通过主观专家访谈与文献理论收集,基于重要性筛选得到初始指标;
[0056]
步骤2-2:基于信息熵筛选初始指标,计算不同的初始指标与肺癌疾病负担的对比信息熵,从初始指标中剔除与疾病负担相关度较低的指标,同时剔除相关度较高的冗余指标;
[0057]
计算信息增益,g(x,y)=h(x)-h(x|y),其中h(x)为指标x的信息熵,h(x|y)为条件熵。
[0058]
计算对比信息熵,其反映指标与指标之间的相关程度或指标与肺癌疾病负担的相关程度。
[0059]
依据以上公式计算指标与肺癌预后的相关程度,若ir(xi,y)≤η1,则认为该指标与肺癌疾病负担相关度较低,将该指标剔除,其中,η1表示信息熵阈值。
[0060]
依据上式计算筛选后的指标两两间相关程度,若ir(xi,xj)≥η2,则认为两指标存在冗余,剔除其中与肺癌疾病负担相关程度较低的指标,其中η2表示设置的信息熵阈值。
[0061]
步骤2-3:基于主成分分析筛选重要指标或提取主成分作为新指标,具体包括如下步骤:
[0062]
步骤2-3-1:构造指标矩阵其中x
np
表示第n个样本第p个指标值,n和p分别表示指标在矩阵中的行编号和列编号;
[0063]
步骤2-3-1:对矩阵x做标准化变换得到z;
[0064]
步骤2-3-2:计算标准化阵z的相关系数矩阵其中,n表示样本数,t表示矩阵转置;
[0065]
步骤2-3-3:计算相关系数矩阵r的特征值λj,及相应的正交化单位特征向量aj;
[0066]
得到主成分得分fi=a
1i
x1+a
2i
x2+
…
+a
pi
x
p
;其中,p为指标总数,其中,i为主成分编号,p为指标总数;
[0067]
步骤2-3-4:计算因子载荷,指标xj在主成分fi上的载荷为其反映主成分fi与指标xj间的相互关联程度,表示每个变量在主成分中的重要性及对结果的贡献,可通过|l(fi,xj)|筛选出重要的指标,其中,j为指标编号,i为主成分编号;
[0068]
步骤2-3-5:在指标过多时,选取k个主成分作为新指标,k值通过主成分的信息贡献率达到80%确定,
[0069]
通过灰色关联度分析测算各预测指标对肺癌疾病负担影响的滞后效应,具体包括灰色关联分析通过定量比较研究变量序列与相关因素序列的几何形状相似或相异程度,以判断相关因素与研究变量的关联程度,采用邓氏关联度分析各预测指标对于肺癌发病与死亡的影响程度与滞后效应。
[0070]
本实施例中,计算空气等环境污染、气象因素、经济等指标对疾病的影响存在滞后
效应,具体包括如下步骤:
[0071]
步骤s1:以疾病负担为参考序列x0=(x0(1),
…
,x0(k),
…
,x0(n));
[0072]
步骤s2:分别以不同滞后期的环境污染、气象等指标作为比较序列xi=(xi(1),
…
,xi(k),
…
,xi(n));
[0073]
步骤s3:计算当期各指标与肺癌疾病负担的关联系数与关联度,第i个比较序列xi对疾病负担参考序列x0在k点的关联系数,分辨系数φ取0.5;
[0074]
邓氏关联度,第i个比较序列xi与疾病负担参考序列x0的邓氏灰色关联度,
[0075]
步骤s4:计算不同滞后时期-t序列与肺癌疾病负担的关联度,γi(-t);
[0076]
步骤s5:滞后t年时,γi(-t)最大,得到xi指标滞后效应为t;
[0077]
步骤s6:循环直至得到所有指标的滞后期。
[0078]
步骤3:建立集成模型服务器,集成模型服务器从预测模型池中选择出预测性能排在前4的4个模型作为stacking集成学习的第一层基学习器;各预测器分别在验证集和预测集进行拟合,形成新的训练集与新的测试集,作为stacking第二层的元学习器的输入;将模型中的线性回归模型与岭回归模型作为候选元学习器,通过预测性能评估,择优得到最终的集成模型;基于滞后效应指标,为s步未来时期的预测提供相关参考数据;
[0079]
具体包括如下步骤:
[0080]
步骤3-1:staking集成模型的第一层包括gam模型、lstm模型、gm(1,n)模型、arima模型、xgboost算法模型、rfr算法模型、bp神经网络模型和adaboost算法模型构成预测模型池,从中选择出预测性能排在前4的4个回归算法模型,作为stacking第一层;
[0081]
本实施例中,采用滑动窗口将数据划分为训练序列、验证序列及测试序列。在训练序列上分别构建gam、lstm、gm(1,n)、arima模型等,经过验证,优化模型参数,更新迭代,此为staking集成模型的第一层。
[0082]
广义相加模型(gam)
[0083]
gam是广义线性模型的扩展,最初由hastie和tibshirani提出,可同时评估环境因素、时间等多种因素与健康效应的线性及非线性关联。可控制与时间相关变量(例如季节和长期趋势)造成的混杂效应。gam对样本要求少,适用性广,其表达式为:
[0084]
y=g(u)+ε;
[0085]
g(ui)=β0+f(xi)+f2(x2)+
…
+fi(xi)+
…
+fm(xm);
[0086]
其中,f(xi)是关于预测指标xi的光滑函数。g(ui)为连接函数,由于癌症发病与死亡服从poisson分布的特点,采用poisson回归模型建立肺癌疾病负担与风险预测模型。
[0087]
长短期记忆模型(lstm)
[0088]
长短期记忆模型(lstm)作为一种改进的循环神经网络模型(rnn),在处理长期依赖关系的鲁棒性问题中,解决其梯度消失和梯度爆炸,故lstm模型相比普通的rnn能够在更长的序列中有更准确的预测效果。
[0089]
每个单元具有输入门、遗忘门和输出门等组件。
autocorrelation function,pacf)图初步识别模型类型,确定模型阶数。
[0109]
根据原始数据序列是否具有季节趋势,模型可以分为季节性arima(p,d,q)(p,d,q)s和非季节性arima(p,d,q),其中(p,d,q)和(p,d,q)分别为非季节性和季节性自回归(ar)、差分和移动平均(ma)的阶数,s表示季节周期。
[0110]
依据赤池信息准则(aic)与贝叶斯准则(bic)筛选最优模型。
[0111]
其他模型
[0112]
本实施例还构建基于xgboost算法、rfr算法、bp神经网络、adaboost等算法的测模型。
[0113]
本实施例中,模型参数调优使用网格搜索的超参数优化算法与基于滚动预测原点的交叉验证评估,滚动原点通过滚动窗口技术保证为模型训练产生足够的基础预测。将待测试的各超参数区间组合为多维空间,根据每一区间的搜索步长将测试空间划分为具体网格,每一个网格对应着一个参数组取值,然后每一个网格对应一次模型试验,得到各超参数组合对应的评价指标,选择最优评价指标多对应的超参数作为预测模型的优化超参数,从而提升预测性能。
[0114]
时间细粒度优化是针对预测效果不佳的模型,选取不同时间尺度的时间序列进行预测,包括细粒度预测和粗粒度预测。
[0115]
新增数据学习包括历史时间序列与新增现有的数据补充,动态增加新的真实数据供模型更新学习。
[0116]
本实施例中,对各个模型的预测效果进行评估,具体包括:将各个预测模型分别在测试集上进行测试;采用mer、mape、mae、rmse等指标评价预测模型性能,指标值越小则模型精度更高。
[0117]
平均误差率(modulation error ratio,mer):
[0118]
mer=平均误差绝对值/实际值的均值
[0119]
平均绝对百分比误差(mean absolute percentage error,mape),mape低于10%~15%时提示预测精度较好。
[0120][0121]
平均绝对误差(mean absolute error,mae)
[0122][0123]
均方根误差(root mean squared error,rmse),真实值与预测值误差平方的均值
[0124][0125]
与yi分别代表为拟合值和实际值、
[0126]
步骤3-2:将通过参数优化的各预测器分别在验证集和预测集进行拟合,验证集的预测结果合并组成新的训练集,测试集的预测结果通过加权平均形成新的测试集,作为stacking第二层的输入;
[0127]
步骤3-3:在staking集成模型的第二层引入元学习器,将前一层的预测结果分别作为训练集与测试集进行回归训练,线性回归模型与岭回归模型作为元回归器,通过预测
效果评估,择优得到最终的元学习器;
[0128]
步骤3-4:基于滞后效应指标,为s步未来时期的预测提供相关参考数据。
[0129]
步骤4:集成模型服务器对步骤3获得的结果进行可视化展示。
[0130]
本发明所述的一种基于集成学习的肺癌疾病负担风险预警方法,解决了为预测肺癌疾病负担提供更准确的参考数据的技术问题,本发明融合多源数据可以提供更全面的信息,充分综合利用各类预测模型信息,结合多个模型结果生成强预测器,可以充分利用不同模型的优势,减少单个模型的不确定性和偏差,提高预测的准确性和稳定性,预测组合可以提供比单项预测模型更加精准的预测参考数据。本发明的模型在处理时间序列数据方面具有不同的特点和能力。通过组合各个模型,可以处理多种特点的数据,更全面地考虑不同的数据特征和趋势,从而提高数据的准确性,通过分析不同预测指标的滞后效应,能够捕捉到不同指标与疾病负担的时序关系。通过考虑滞后效应,可以更准确地建立预测模型,提高预测的准确性。可以利用滞后效应提供更长时间范围内的预测参考数据,采用滚动窗口技术实现时间序列数据的交叉验证,进行单个预测模型以及元学习模型的训练,可以帮助模型参数估计。
技术特征:
1.一种基于集成学习的肺癌疾病负担风险预警方法,其特征在于:包括如下步骤:步骤1:建立数据库服务器,数据库服务器通过互联网获取疾病负担数据、气象数据、空气污染数据、地区经济数据和时间特征数据,并将以上数据进行整合与清洗后,构建肺癌疾病负担特征数据库,通过图表进行数据库数据可视化展示,展示疾病与特征的时间序列特征;步骤2:建立模型服务器,模型服务器获取数据库服务器中进行整合与清洗后的数据,通过信息熵与主成分进行预测指标的降维和筛选,通过灰色关联度分析测算各预测指标对肺癌疾病负担影响的滞后效应;在训练序列上分别构建预测模型池,预测模型池包括gam模型、lstm模型、gm(1,n)模型、arima模型、xgboost算法模型、rfr算法模型、bp神经网络模型和adaboost算法模型,经过对预测模型池中的各个模型验证,优化各个模型参数,更新迭代各个模型,在测试集上评估各个模型的预测性能,并根据预测性能对各个模型进行排序;步骤3:建立集成模型服务器,集成模型服务器从预测模型池中选择出预测性能排在前4的4个模型作为stacking集成学习的第一层基学习器;各预测器分别在验证集和预测集进行拟合,形成新的训练集与新的测试集,作为stacking第二层的元学习器的输入;将模型中的线性回归模型与岭回归模型作为候选元学习器,通过预测性能评估,择优得到最终的集成模型;基于滞后效应指标,为s步未来时期的预测提供相关参考数据;步骤4:集成模型服务器对步骤3获得的结果进行可视化展示。2.如权利要求1所述的一种基于集成学习的肺癌疾病负担风险预警方法,其特征在于:在执行步骤1时,对数据进行整合与清洗时,具体为将异常数据、缺失数据、重复数据和不一致数据进行清洗。3.如权利要求2所述的一种基于集成学习的肺癌疾病负担风险预警方法,其特征在于:在执行步骤1时,采用均值法、回归法或多重填补法等数理统计方法填补缺失数据,剔除缺失比例超过10%的变量,通过数据分析、清洗策略的定义、数据检验、执行数据清洗、数据质量评估和干净数据回流这几个步骤对数据进行整合清洗后,得到标准数据。4.如权利要求2所述的一种基于集成学习的肺癌疾病负担风险预警方法,其特征在于:在执行步骤1时,通过图表进行数据库数据可视化展示具体包括尽可能多得收集数据,经过数据挖掘与清洗后,将不同来源的数据整理成疾病负担、气象、空气污染、经济、其他环境数据等一级指标,构建肺癌疾病负担风险预警初级数据库,通过均值,标准差、极值、四分位数进行描述性统计分析该地区环境污染、气象特征、经济特征分布,计算疾病负担年均复合增长率。5.如权利要求1所述的一种基于集成学习的肺癌疾病负担风险预警方法,其特征在于:在执行步骤2时,对预测指标的筛选具体包括如下步骤:步骤2-1:通过主观专家访谈与文献理论收集,基于重要性筛选得到初始指标;步骤2-2:基于信息熵筛选初始指标,计算不同的初始指标与肺癌疾病负担的对比信息熵,从初始指标中剔除与疾病负担相关度较低的指标,同时剔除相关度较高的冗余指标;步骤2-3:基于主成分分析筛选重要指标或提取主成分作为新指标,具体包括如下步骤:
步骤2-3-1:构造指标矩阵其中x
np
表示第n个样本第p个指标值,n和p分别表示指标在矩阵中的行编号和列编号;步骤2-3-1:对矩阵x做标准化变换得到z;步骤2-3-2:计算标准化阵z的相关系数矩阵其中,m表示样本数,t表示矩阵转置;步骤2-3-3:计算相关系数矩阵r的特征值λ
j
,及相应的正交化单位特征向量a
j
;得到主成分得分f
i
=a
1i
x1+a
2i
x2+
…
+a
pi
x
p
;其中,i为主成分编号,p为指标总数;步骤2-3-4:计算因子载荷,指标x
j
在主成分f
i
上的载荷为其反映主成分f
i
与指标x
j
间的相互关联程度,表示每个变量在主成分中的重要性及对结果的贡献,可通过|l(f
i
,x
j
)|筛选出重要的指标,其中,j为指标编号,i为主成分编号;步骤2-3-5:在指标过多时,选取k个主成分作为新指标,k值通过主成分的信息贡献率达到80%确定,6.如权利要求1所述的一种基于集成学习的肺癌疾病负担风险预警方法,其特征在于:在执行步骤2时,通过灰色关联度分析测算各预测指标对肺癌疾病负担影响的滞后效应,具体包括灰色关联分析通过定量比较研究变量序列与相关因素序列的几何形状相似或相异程度,以判断相关因素与研究变量的关联程度,采用邓氏关联度分析各预测指标对于肺癌发病与死亡的影响程度与滞后效应。7.如权利要求1所述的一种基于集成学习的肺癌疾病负担风险预警方法,其特征在于:在执行步骤3时,具体包括如下步骤:步骤3-1:staking集成模型的第一层包括gam模型、lstm模型、gm(1,n)模型、arima模型、xgboost算法模型、rfr算法模型、bp神经网络模型和adaboost算法模型构成预测模型池,从中选择出预测性能排在前4的4个回归算法模型,作为stacking第一层;步骤3-2:将通过参数优化的各预测器分别在验证集和预测集进行拟合,验证集的预测结果合并组成新的训练集,测试集的预测结果通过加权平均形成新的测试集,作为stacking第二层的输入;步骤3-3:在staking集成模型的第二层引入元学习器,将前一层的预测结果分别作为训练集与测试集进行回归训练,线性回归模型与岭回归模型作为元回归器,通过预测效果评估,择优得到最终的元学习器;步骤3-4:基于滞后效应指标,为s步未来时期的预测提供相关参考数据。
技术总结
本发明公开了一种基于集成学习的肺癌疾病负担风险预警方法,属于大数据技术领域,包括对数据进行整合和清洗,预测指标筛选与降维,滞后效应测算,预测模型池建立,模型验证与优化,模型预测效果评估,对多个模型进行stacking集成组合,解决了为预测肺癌疾病负担提供更准确的参考数据的技术问题,本发明融合多源数据可以提供更全面的信息,减少单个模型的不确定性和偏差,提高预测的准确性和稳定性,预测组合可以提供比单项预测模型更加精准的预测参考数据。的预测参考数据。的预测参考数据。
技术研发人员:马倩倩 赵杰 谭中科 孙东旭 高景宏 卢耀恩 石金铭 陈保站 陈昊天 王振博
受保护的技术使用者:郑州大学第一附属医院
技术研发日:2023.06.30
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/