基于神经网络深度特征的移植术后慢性肾病样本增广方法

未命名 09-20 阅读:96 评论:0


1.本发明属于数据挖掘和样本增广技术领域,具体涉及一种基于神经网络深度特征的移植术后慢性肾病样本增广方法。


背景技术:

2.ckd-t(chronic kidney disease after transplantation),即移植术后慢性肾病,由于肾脏移植和免疫抑制药物的作用导致其整体相对于ckd(chronic kidney disease慢性肾病)死亡风险更高。同时临床对ckd-t病程发展的关键因素尚不清楚,相关机制仍不明确,需要多维度拓展与该疾病的相关研究。
3.人体肠道微生物与ckd存在互作关系,肠道微生物及代谢物在ckd的发生发展中起到了重要调节作用。因此从肠道菌群的角度探索ckd-t病程发展的机制,可能为临床在肾移植术后的个体化、全周期健康管理提供了可行思路。
4.近年来,基于统计机器学习的分类方法在许多分类任务上取得了良好的效果。由于大量数据的使用,训练好的模型在验证数据集中具有较好的分类性能和泛化能力。然而,在ckd-t的分析和研究中,收集肾移植受者肠道菌群数据样本是困难且昂贵的,这使得使用统计机器学习方法预测ckd-t分期具有挑战性。因此,在有限的肠道菌群数据样本的收集条件下,对真实的数据样本进行样本增广以获得更多的训练数据具有重要的应用价值。经过增广后的样本可以提升预测模型的分类性能和泛化能力。


技术实现要素:

5.本发明的目的在于针对现有技术中的不足,提供一种在小样本数据情况下,对肾移植受者肠道菌群数据在特征空间进行样本增广的方法,以增强慢性肾病诊断评估算法模型的泛化性能。
6.本发明采用的技术方案为:
7.基于神经网络深度特征的移植术后慢性肾病样本增广方法,该方法包括下列步骤:
8.步骤1,构建训练数据集;
9.收集肾移植受者的肠道菌群数据和是否患有移植术后慢性肾病的标签,每位肾移植受者的肠道菌群数据作为一个样本数据,对各样本数据进行数据预处理得到训练样本数据,并为每个训练样本设置对应的标签值;
10.步骤2,构建基于全连接层的特征提取器,用于提取训练样本数据的特征信息,输出第一特征向量;
11.步骤3,构建辅助分类器,用于对第一特征向量进行是否患有移植术后慢性肾病的二分类输出;
12.步骤4,构建特征增广模块,用于在特征空间对第一特征向量进行增广处理,输出第二特征向量,其中,第二特征向量与第一特征向量的特征维度相同;
13.步骤5,构建分类器,用于对输入的特征向量进行是否患有移植术后慢性肾病的二分类输出;
14.步骤6,对所构建的特征提取器、辅助分类器、特征增广模块和分类器进行反向传播算法训练,训练时,输入分类的特征向量为第二特征向量;
15.当满足预置的训练收敛条件时,基于训练好的特征提取器和分类器得到移植术后慢性肾病诊断评估器,用于获取目标对象的辅助诊断结果。即对于待需要获取辅助诊断结果的新数据(数据预处理后的肠道菌群数据),基于训练好的特征提取器和分类器的前向推理计算,即可实现端到端地输出最终的辅助诊断结果。
16.优选的是,步骤1的数据预处理包括:剔除值全为0的菌群数据,并对数据进行归一化,并基于预置的筛选算法(例如极限树extra-tree)筛选对数据归一化后的菌群数据进行菌群筛选,得到筛选后的菌群。当在基于本发明的移植术后慢性肾病诊断评估器获取当前就评估对象的诊断结果(是否患ckd-t)时,则直接获取所筛选出的这些菌群的数据并进行数据归一化后输入到移植术后慢性肾病诊断评估器中,即可获取到对应的辅助诊断结果。
17.优选的是,步骤2构建的特征提取器具体为:
18.训练样本数据分别经两层全连接层得到第一初始特征和第二初始特征;
19.对第一初始特征和第二初始特征进行通道维度的拼接,再经两层全连接层得到第三初始特征;
20.将第三初始特征与当前输入特征提取器的训练样本数据相加,再将两层全连接层得到第一特征向量。
21.优选的是,步骤3构建的辅助分类器为一层带有softmax函数的全连接层,用于输出分类概率。
22.优选的是,步骤4构建的特征增广模块具体为:计算第一特征向量的协方差矩阵,并以此构建一个多元随机变量,按照给定的上采样比例得到增广之后的第二特征向量。
23.进一步的,特征增广模块在特征空间对第一特征向量进行增广的具体为:
24.定义第一特征向量的特征维度为m,输入特征提取器的训练样本数据数目为n;
25.基于n个第一特征向量组成n
×
m的特征矩阵f,并提取特征矩阵f的协方差矩阵cov,维度为m
×
m;
26.遍历特征矩阵f的每一行f[i],将当前f[i]作为均值向量,a
×
cov作为新的协方差矩阵构建一个多元高斯分布,在该高斯分布下采样p个向量,将采样得到的p个向量和原来的特征矩阵f构成新的特征矩阵其维度为(n+n
×
p)
×
m;特征矩阵的每一行对应一个第二特征向量;其中,超参数a的取值为(0,1),为了防止增广生成的特征偏差过大,优选的a取0.3;p为预设值,基于实际应用需求进行设置即可。
[0027]
优选的是,步骤5构建的分类器包括两层全连接层,其中最后一层全连接层带有softmax函数,用于输出分类概率。
[0028]
优选的是,步骤6中的反向传播算法训练具体为:
[0029]
将训练分为两个阶段:
[0030]
第一阶段训练的对象包括:特征提取器、辅助分类器和分类器;
[0031]
第二阶段训练时,固定特征提取器的网络参数,对特征提取器、特征增广模块和分类器构成的网络进行训练,即仅训练分类器的网络参数。
[0032]
例如对于训练轮次数为k的训练,在前k/2轮次(若k为奇数,则对k/2向上或向下取整即可)只训练特征提取器、辅助分类器和分类器;对后k/2轮次,则只训练分类器的网络参数。
[0033]
优选的,第一阶段训练的总损失函数为辅助分类器和分类器的分类输出损失(优选交叉熵损失函数)的加权和,其中,两者的权重可均设置为0.5:第二阶段训练的总损失函数为分类器的分类输出损失。
[0034]
此外,本发明还可以提供一种计算机设备(即基于神经网络深度特征的移植术后慢性肾病样本增广装置),该装置包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现上述步骤1至步骤6。即实现本发明的基于神经网络深度特征的移植术后慢性肾病样本增广方法的上述任一一种方式。
[0035]
本发明提供的技术方案至少带来如下有益效果:
[0036]
针对肾移植受者肠道菌群数据较难获取的情况,本发明通过在特征空间上对样本进行增广,然后将增广之后的样本用作后续分类器的训练。与直接训练分类器相比,由于数据量较少,得到的分类器可能因泛化性能不足从而导致分类性能较差;而对数据在特征空间进行增广则提供了更多的样本,使得分类器具有更好的泛化性能,从而提升诊断准确率。
附图说明
[0037]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0038]
图1为本发明实施例中基于神经网络深度特征的移植术后慢性肾病样本增广方法的流程图。
[0039]
图2为本发明实施例中构建的一个慢性肾病诊断评估网络的结构示意图。
具体实施方式
[0040]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0041]
针对肾移植受者肠道菌群数据获取困难的问题,本发明提供一种基于神经网络深度特征的移植术后慢性肾病样本增广方法。
[0042]
如图1所示,本发明实施例包含以下步骤:
[0043]
步骤一:构建数据集,收集肾移植受者的肠道菌群数据和标签,进行数据预处理形成数据集。
[0044]
本实施例中数据集由50个样本组成,数据维度为50*10947,每一行对应着一个样本,每一列对应一种菌群的数据。其中患有ckd-t的有30人,未患的有20人。数据集包括样本的肠道菌群数据和样本的真实标签。使用的预处理包括:共396种菌群数据值为0,将这些菌群数据剔除,将数据归一化,最终得到的数据维度是50*10551;然后使用extra-tree筛选菌群,得到25个ckd-t与受者肠道菌群及代谢产物互作的关键节点和组学数据。所以最终的数
据集维度是50*25;
[0045]
步骤二:构建特征提取器;
[0046]
构建特征提取器,每一层均是全连接层,如图2左侧所示(图中的数字表示各层的特征维度),输入的特征在上支路先被映射到30维,再映射回25维;在下支路通过两层全连接层把25维的输入数据映射到15维,再把上支路和下支路的输出拼接到一起,得到40维的特征。紧接着通过一层全连接层映射得到25维的特征,将得到的25维特征和输入的25维数据加在一起得到25维的特征。最后将得到的25维特征经过两层全连接网络得到10维的特征,这就是特征提取器的输出特征;
[0047]
步骤三:构建辅助分类器;
[0048]
构建辅助分类器,为一层全连接层,如图2中间部分所示,辅助分类器将输入的10维的特征映射到1维,最后使用softmax函数输出概率,辅助分类器是为了使得特征提取器提取到的特征在特征空间具有区分性,从而加强增广的效果;
[0049]
步骤四:构建特征增广模块;
[0050]
特征增广模块将计算输入特征向量的协方差矩阵,并以此构建一个多元高斯随机变量,按照给定的上采样比例得到相应的增广结果。在特征空间对样本进行增广的具体步骤为:假设特征提取器提取得到的特征矩阵f是一个n*m的矩阵(其中n是输入特征提取器的样本数目,而m是第一特征向量的维度,也即菌群的数目),对提取到的特征向量计算它们的协方差矩阵cov,维度是m*m,然后遍历每个f[i],以其作为均值向量,a*cov作为协方差矩阵(a为一个超参数,防止增广生成的特征偏差过大,优选的a取0.3),构建一个多元高斯分布,在这个高斯分布下采样p个向量,将采样得到的p个向量和原来的f拼接构成新的特征矩阵其维度为(n+n*p)*m。特征矩阵的每一行即对应一个第二特征向量。
[0051]
步骤五:将所述特征增广模块和辅助分类器插入到所述特征提取器,构建特征增广网络;
[0052]
步骤六:构建分类器,如图2右侧所示,分类器将输入的10维特征经过一层全连接层映射到5维,紧接着再通过一层全连接层将其映射成1维,最后用softmax函数输出概率。将分类器插入到特征增广网络,特征提取器、辅助分类器、特征增广模块、分类器构成慢性肾病诊断评估网络;
[0053]
步骤七:利用反向传播算法训练网络。
[0054]
总共训练100个epoch,前50轮不使用特征增广,对整个网络进行训练。后50轮,固定特征提取器的参数,使用特征增广,只训练分类器。
[0055]
训练时的总损失函数l
total
的定义如下:
[0056]
l
total
=0.5*l
mid
+0.5*l
clf
(前50轮)或l
clf
(后50轮)
[0057][0058][0059]
其中,mi和xi分别表示所述辅助分类器和分类器的输出概率,yi表示样本i的真实标签(是否患病的标签)。l
mid
表示辅助分类器的分类输出损失,l
clf
表示分类器的分类输出损失。
[0060]
在训练数据集上训练100轮,前50轮不使用特征增广,特征提取器提取到的特征直
接送入分类器,损失函数使用l
total
=0.5*l
mid
+0.5*l
clf
,优化器采用rms,初始学习率为1e-4,对整个网络进行训练;后50轮,损失函数使用l
total
=l
clf
,优化器采用rms,初始学习率为1e-4,固定特征提取器的参数,使用特征增广,特征提取到的特征先送入特征增广模块,增广之后的样本再送入分类器,训练后面的分类器,更新模型参数,得到训练好的特征提取器和慢性肾病诊断评估网络;
[0061]
步骤八:输入新的数据,将数据归一化,使用已经训练好的网络进行前向推理(不使用特征增广),端到端地输出最终的诊断结果。
[0062]
为了进一步验证本发明方法的对ckd-t的辅助诊断的准确性的提升性能,本发明进行采用与不采用本发明的特征增广模块的对比实验,实验结果如表1所示:
[0063]
表1
[0064]
实验序号使用特征增广的auc不使用增广的auc10.89380.642320.89900.643730.89230.642340.90500.623350.88860.638560.89900.643770.89230.6423
[0065]
表1中的auc(area under curve)是roc曲线下与坐标轴围成的面积,roc曲线是接收者操作特征曲线。基于表1所呈现的实验测试结果可知,本发明提出的基于神经网络深度特征的移植术后慢性肾病样本增广方法有效提升了慢性肾病诊断评估网络的泛化性能,且计算复杂度也在允许范围内。
[0066]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
[0067]
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

技术特征:
1.基于神经网络深度特征的移植术后慢性肾病样本增广方法,其特征在于,包括下列步骤;步骤1,构建训练数据集;收集肾移植受者的肠道菌群数据和是否患有移植术后慢性肾病的标签,每位肾移植受者的肠道菌群数据作为一个样本数据,对各样本数据进行数据预处理得到训练样本数据,并为每个训练样本设置对应的标签值;步骤2,构建基于全连接层的特征提取器,用于提取训练样本数据的特征信息,输出第一特征向量;步骤3,构建辅助分类器,用于对第一特征向量进行是否患有移植术后慢性肾病的二分类输出;步骤4,构建特征增广模块,用于在特征空间对第一特征向量进行增广处理,输出第二特征向量,其中,第二特征向量与第一特征向量的特征维度相同;步骤5,构建分类器,用于对输入的特征向量进行是否患有移植术后慢性肾病的二分类输出;步骤6,对所构建的特征提取器、辅助分类器、特征增广模块和分类器进行反向传播算法训练,训练时,输入分类的特征向量为第二特征向量;当满足预置的训练收敛条件时,基于训练好的特征提取器和分类器得到移植术后慢性肾病诊断评估器,用于获取目标对象的辅助诊断结果。2.如权利要求1所述的方法,其特征在于,步骤1的数据预处理包括:剔除值全为0的菌群数据,并对数据进行归一化,并基于预置的筛选算法对数据归一化后的菌群数据进行菌群筛选,得到筛选后的菌群。3.如权利要求1所述的方法,其特征在于,步骤2构建的特征提取器具体为:训练样本数据分别经两层全连接层得到第一初始特征和第二初始特征;对第一初始特征和第二初始特征进行通道维度的拼接,再经两层全连接层得到第三初始特征;将第三初始特征与当前输入特征提取器的训练样本数据相加,再将两层全连接层得到第一特征向量。4.如权利要求1所述的方法,其特征在于,步骤3构建的辅助分类器为一层带有softmax函数的全连接层,用于输出分类概率。5.如权利要求1所述的方法,其特征在于,步骤4构建的特征增广模块具体为:计算第一特征向量的协方差矩阵,并以此构建一个多元高斯随机变量,按照给定的上采样比例得到增广之后的第二特征向量。6.如权利要求5所述的方法,其特征在于,特征增广模块在特征空间对第一特征向量进行增广的具体为:定义第一特征向量的特征维度为m,输入特征提取器的训练样本数据数目为n;基于n个第一特征向量组成n
×
m的特征矩阵f,并提取特征矩阵f的协方差矩阵cov,维度为m
×
m;遍历特征矩阵f的每一行f[i],将当前f[i]作为均值向量,a
×
cov作为新的协方差矩阵构建一个多元高斯分布,在该高斯分布下采样p个向量,将采样得到的p个向量和原来的特
征矩阵f构成新的特征矩阵其维度为(n+n
×
p)
×
m;特征矩阵的每一行对应一个第二特征向量;其中,超参数a的取值为(0,1),p为预设值。7.如权利要求1所述的方法,其特征在于,步骤5构建的分类器包括两层全连接层,其中最后一层全连接层带有softmax函数,用于输出分类概率。8.如权利要求1所述的方法,其特征在于,步骤6中的反向传播算法训练具体为:将训练分为两个阶段:第一阶段训练的对象包括:特征提取器、辅助分类器和分类器;第二阶段训练时,固定特征提取器的网络参数,对特征提取器、特征增广模块和分类器构成的网络进行训练,即仅训练分类器的网络参数。9.如权利要求8所述的方法,其特征在于,第一阶段训练的总损失函数为辅助分类器和分类器的分类输出损失的加权和:第二阶段训练的总损失函数为分类器的分类输出损失。

技术总结
本发明公开了一种基于神经网络深度特征的移植术后慢性肾病样本增广方法,属于数据挖掘和样本增广技术领域。本发明包括:构建数据集,构建包括特征提取器,辅助分类器和特征增广模块的特征增广网络,再基于此构建诊断评估网络,再对所构建的网络进行反向传播训练,以得到用于获取目标对象是否患有移植术后慢性肾病的辅助诊断评估器,进而生成待处理的数据的诊断结果。本发明针对肾移植受者肠道菌群数据较难获取的情况,本发明通过在特征空间上对样本进行增广,然后将增广之后的样本用作后续分类器的训练。与直接训练分类器相比,使得分类器具有更好的泛化性能,从而有效提升了辅助诊断准确率。诊断准确率。诊断准确率。


技术研发人员:许林峰 陈开龙 邱子欢 魏亮 杨洪吉
受保护的技术使用者:电子科技大学
技术研发日:2023.06.29
技术公布日:2023/9/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐