基于机器学习的微生物高维数据处理和关键菌属识别方法
未命名
09-20
阅读:73
评论:0

技术领域:
:,尤其是涉及一种基于机器学习的微生物高维数据处理和关键菌属识别方法。
背景技术:
::2.微生物发酵是指利用微生物,在适宜的条件下,将原料经过特定的代谢途径转化为人类所需要的产物的过程。基于此,微生物可广泛应用于食品、医药、工农业、环保等诸多领域。例如,利用微生物发酵工程降解塑料、处理废水废气、有机固废、生产乙醇、食品及各种酶制剂、防治害虫等。3.对于不同领域的微生物应用环境,其所适用的微生物菌属也是千差万别的,关键微生物菌属的筛选结果会对微生物应用效果会起到关键性作用。因此,针对某种特定应用环境,添加何种外源微生物是微生物应用中很重要的步骤。4.近年来,机器学习技术在微生物应用领域的研究日益广泛,机器学习模型可以实现微生物菌属关键指标的确定。但当前主要集中在理化指标的研究上,缺乏对微生物数据的建模分析。运用机器学习模型识别关键微生物菌属的一个难点在于微生物数据高维的特性,特征数量(属水平的微生物数量)多于样本数将会导致模型过拟合,训练过程中造成局部最优解,使得模型精度往往较低。5.因此,针对高维数据有必要进行预处理,一般采取数据降维的方式以降低特征数量。但是,目前的数据降维方式存在以下问题:(1)特征具有模糊性:经降维后的特征为复合特征,不具有实际意义,虽然能用于建模,但难以应用于后期关键微生物的筛选;(2)权重不具针对性:类似于pca方法可以通过计算权重方法给不同特征排序,这种基于无监督学习方法利用的是空间距离大小,而不能与微生物应用质量联系以确定最优参数;(3)结果不具普遍性:建模核心是筛选能代表堆肥过程中大多数微生物变化的核心微生物,对于一些丰度较少、具有某类关键功能的菌群,很容易在特征筛选过程中被忽略。技术实现要素:6.为了至少解决上述技术问题之一,本技术提供一种基于机器学习的微生物高维数据处理和关键菌属识别方法。7.第一方面,本技术提供一种微生物高维数据处理方法,采用如下的技术方案:一种微生物高维数据处理方法,包括:获取微生物高维数据;对所述微生物高维数据进行功能划分,得到多个类型功能,其中,每个所述类型功能均包括多个功能因子;从所有功能因子中选取浓缩因子;分别计算每个所述类型功能下各浓缩因子与微生物应用质量的相关性数值,基于所述相关性数值确定各类型功能的提取比例,按照所述提取比例提取各类型功能的微生物菌属;基于提取的微生物菌属对所述微生物高维数据进行筛选,得到微生物降维数据。8.可选的,所述对所述微生物高维数据进行功能划分,得到多个类型功能包括:将所有微生物高维数据汇总成一个文件;保留属水平上的微生物群落,将相同的微生物菌属合并相加,去除otu数为预设值的微生物菌属;将所述文件拆分成物种丰度信息文件和物种分类注释文件;在python环境下运行faprotax脚本,对所述物种丰度信息文件和所述物种分类注释文件进行功能划分,得到所述多个类型功能。9.可选的,所述从所有功能因子中选取浓缩因子包括:利用因子分析方法分别计算每个所述类型功能下各功能因子的特征值,选取大于第一预设阈值的特征值对应的功能因子,作为所述浓缩因子。10.可选的,还包括:若满足预设条件,则执行所述利用因子分析方法分别计算每个所述类型功能下各功能因子的特征值,选取大于第一预设阈值的特征值对应的功能因子,作为所述浓缩因子的步骤;其中,所述预设条件包括通过bartlett's球状检验检测矩阵不是单位阵,以及通过kmo检验检测各变量间的相关值均大于第二预设阈值。11.可选的,所述基于所述相关性数值确定各类型功能的提取比例包括:分别基于每个所述类型功能下所有浓缩因子与微生物应用质量的相关性数值,计算每个所述类型功能的平均相关性数值;分别基于每个所述类型功能的平均相关性数值,计算每个所述类型功能的相关性占比;对各类型功能的相关性占比进行近似估算,得到所述各类型功能的提取比例;和/或,所述按照所述提取比例提取各类型功能的微生物菌属包括:基于预设的提取总数和所述提取比例,确定每个所述类型功能对应的子提取数量;计算每个所述类型功能下各微生物菌属的相对丰度,并对每个所述类型功能下各微生物菌属的所有相对丰度进行排序,生成每个所述类型功能的相对丰度序列;基于每个所述类型功能的子提取数量和相对丰度序列,提取每个类型功能的微生物菌属。12.第二方面,本技术提供一种基于机器学习的关键微生物菌属识别方法,采用如下的技术方案:一种基于机器学习的关键微生物菌属识别方法,包括:将微生物降维数据划分为训练集和测试集;以k近邻模型、随机森林模型和决策树模型为基础模型,并以线性回归模型为二级模型,构建stacking模型,分别将门、目和属水平上微生物的相对丰度作为所述stacking模型的输入特征,将微生物应用的质量得分作为所述stacking模型的预测标签;利用所述训练集和测试集对所述stacking模型进行训练,得到训练好的stacking模型;对所述训练好的stacking模型进行解释性分析,评估各输入特征对预测标签的重要性,得到关键微生物菌属。13.第三方面,本技术提供一种微生物高维数据处理装置,采用如下的技术方案:一种微生物高维数据处理装置,包括:获取模块,用于获取微生物高维数据;功能划分模块,用于对所述微生物高维数据进行功能划分,得到多个类型功能,其中,每个所述类型功能均包括多个功能因子;浓缩模块,用于从所有功能因子中选取浓缩因子;提取模块,用于分别计算每个所述类型功能下各浓缩因子与微生物应用质量的相关性数值,基于所述相关性数值确定各类型功能的提取比例,按照所述提取比例提取各类型功能的微生物菌属;筛选模块,用于基于提取的微生物菌属对所述微生物高维数据进行筛选,得到微生物降维数据。14.第四方面,本技术提供一种基于机器学习的关键微生物菌属识别装置,采用如下的技术方案:一种基于机器学习的关键微生物菌属识别装置,包括:数据集划分模块,用于将微生物降维数据划分为训练集和测试集;模型构建模块,用于以k近邻模型、随机森林模型和决策树模型为基础模型,并以线性回归模型为二级模型,构建stacking模型,分别将门、目和属水平上微生物的相对丰度作为所述stacking模型的输入特征,将微生物应用的质量得分作为所述stacking模型的预测标签;模型训练模块,用于利用所述训练集和测试集对所述stacking模型进行训练,得到训练好的stacking模型;模型解释模块,用于对所述训练好的stacking模型进行解释性分析,评估各输入特征对预测标签的重要性,得到关键微生物菌属。15.第五方面,本技术提供一种电子设备,采用如下的技术方案:一种电子设备,包括存储器和处理器;所述存储器上存储有能够被所述处理器加载并执行第一方面或第二方面任一项所述的方法的计算机程序。16.第六方面,本技术提供一种计算机可读存储介质,采用如下的技术方案:一种计算机可读存储介质,存储有能够被处理器加载并执行第一方面或第二方面任一项所述的方法的计算机程序。17.通过采用上述技术方案,鉴于微生物高维数据对机器学习建模的影响,建立基于功能划分-特征浓缩-信息提取(fromfunction,featuretomessage,ffm)的微生物高维数据预处理方法,先按照功能归类,以保证起不同作用的微生物都有被筛选到的可能性,然后浓缩因子以减少特征个数,保证原始样本信息的完整性,再将特征与微生物应用质量进行相关性分析,根据相关性筛选微生物菌属,既能降低微生物高维数据的维度,又能保证后续关键微生物菌属识别的代表性和全面性。附图说明18.图1是本技术实施例的一种微生物高维数据处理方法的流程示意图。19.图2a、2d、2g、2j依次为本技术实施例的碳循环功能、氮循环功能、肠道病原菌类功能、其他类功能中各功能因子的特征值曲线图。20.图2b、2e、2h、2k依次为本技术实施例的碳循环功能、氮循环功能、肠道病原菌类功能、其他类功能中各功能因子的方差贡献率和累计方差贡献率的条形图。21.图2c、2f、2i、2l依次为本技术实施例的碳循环功能、氮循环功能、肠道病原菌类功能、其他类功能的旋转成分矩阵图。22.图3a、3b、3c、3d依次为本技术实施例的碳循环功能、氮循环功能、肠道病原菌类功能、其他类功能与堆肥质量的相关性的条形图。23.图4是本技术实施例的一种基于机器学习的关键微生物菌属识别方法的流程示意图。24.图5是本技术实施例的模型训练示意图。25.图6a是本技术实施例的stacking模型在门、目、属水平上的预测精度的条形图。26.图6b、6c、6d是本技术实施例的微生物群落特征重要性识别的条形图。27.图7是本技术实施例的一种微生物高维数据处理装置的结构框图。28.图8是本技术实施例的一种基于机器学习的关键微生物菌属识别装置的结构框图。29.图9是本技术实施例的一种电子设备的结构框图。具体实施方式30.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。31.图1为本实施例提供的一种微生物高维数据处理方法的流程示意图。如图1所示,该方法的主要流程描述如下(步骤s101~s105):步骤s101,获取微生物高维数据;步骤s102,对微生物高维数据进行功能划分,得到多个类型功能,其中,每个类型功能均包括多个功能因子;步骤s103,从所有功能因子中选取浓缩因子;步骤s104,分别计算每个类型功能下各浓缩因子与微生物应用质量的相关性数值,基于相关性数值确定各类型功能的提取比例,按照提取比例提取各类型功能的微生物菌属;步骤s105,基于提取的微生物菌属对微生物高维数据进行筛选,得到微生物降维数据。32.本实施例中,微生物应用是指利用微生物发酵原理,将外源微生物加入某种工程应用(例如食品加工、有机固废、废水废弃处理、害虫防治、塑料降解等)中,以达到相应处理效果,与微生物应用质量息息相关。33.其中,可通过文献检索的方式获取微生物高维数据。具体包括以下步骤:(1)基于预设检索词检索文献,获取微生物数据;预先设置与微生物应用相关的检索词,例如,针对厨余垃圾好氧堆肥这种微生物应用,可检索一定时间内所有收录在中国知网(chinanationalknowledgeinfrastructure,cnki)数据库、webofscience数据库等数据库记载的文献,以“kitchenwastecompost”、“foodwastecompost”、“厨余垃圾”、“生活垃圾”、“易腐垃圾”和“堆肥”为关键词等为关键词,广泛检索厨余垃圾好氧堆肥的中英文论文,然后再对论文进行人工筛选,最终从筛选的论文中获取相应的微生物数据。34.(2)查找微生物数据对应的序列号信息,基于序列号信息获取微生物原始信息,对微生物原始信息进行处理,生成具有otu表的微生物高维数据。35.具体的,查找微生物数据是否有上传在美国国家生物技术信息中心(nationalcenterforbiotechnologyinformation,ncbi)上的序列号信息,根据序列号获取每个样本fastq格式的原始信息,再用data2方法进行质量过滤、修剪、去噪、合并和序列嵌合等处理,最终获得otu表。36.一些实施例中,对于步骤s102,先将所有微生物高维数据汇总成一个文件;保留属水平上的微生物群落,将相同的微生物菌属合并相加,去除otu数为预设值的微生物菌属;将文件拆分成物种丰度信息文件(otuabundancetable.txt)和物种分类注释文件(taxonomyannotationofotus.txt);在python环境下运行faprotax脚本,对物种丰度信息文件和物种分类注释文件进行功能划分,得到多个类型功能。37.其中,预设值可设置为0,去除out数为0的微生物菌属,即将大多数样本中都不存在的微生物菌属剔除掉,可大大减少微生物菌属的数量。38.faprotax是一种对微生群落进行功能预测的方法,在python编程语言下,其基于16srrna的otu分类表即可实现对群落的注释和功能预测,相比于其他功能预测手段,更加适用于环境样品。39.以厨余垃圾好氧堆肥为例,通过faprotax共识别并注释到的功能有38种,所识别的功能基本承担了厨余垃圾好氧堆肥系统的主要进程。所识别的38种功能主要分为碳循环功能、氮循环功能、肠道/病原菌类功能以及其他类功能这四大类类型功能。其中,碳循环功能有13种功能因子,包括发酵、好氧化学异养、烃类物质降解和有机质分解相关功能等;氮循环功能有11种功能因子,包括硝酸盐和亚硝酸盐的氨化、呼吸、反硝化、氮素固定和吸收等;肠道/病原菌类功能有6种功能因子,包括寄生、共生、病原菌降低等;其他类功能有8种功能因子,包括自养、异养、硫酸盐类呼吸等。40.一些实施例中,对于步骤s103,可利用因子分析方法分别计算每个类型功能下各功能因子的特征值,选取大于第一预设阈值的特征值对应的功能因子,作为浓缩因子。41.采用因子分析(factoranalysis)方法进行数据降维,目的是使用更少的因子包含尽可能多的微生物信息。但是,能否使用因子分析方法还需要满足以下预设条件:(1)bartlett's球状检验用于检验矩阵中各变量间的相关性,判断其是否为单位阵,即各个变量是否各自独立,若不独立则表明适合进行因子分析。42.(2)kmo检验用于检验各变量间的相关性和偏相关性,其数值在0-1之间,越接近于1说明相关性越强,对应偏相关性越弱,当数值大于第二预设阈值,例如0.5时,认为所有变量适合使用因子分析方法。43.上述预设条件缺一不可,必须同时满足才能实施因子分析方法对微生物数据进行降维处理。44.上述检验结束后,通过现有的因子分析软件输出不同类型功能下各功能因子的特征值,选择每一类型功能中合适的因子个数。45.以厨余垃圾好氧堆肥为例,可选择特征值大于1的因子作为浓缩因子,进行后续研究,如图2a、2d、2g、2j所示,碳循环中筛选5个功能因子进行后续分析,氮循环中筛选4个功能因子进行后续分析,肠道病原菌类筛选3个功能因子进行后续分析,其他类筛选得到3个功能因子进行后续分析。46.在完成最佳因子数量选择后,计算方差贡献率(variancecontributionrate,vcr)和累计方差贡献率(cumulativevariancecontributionrate,cvcr),结果如图2b、2e、2h、2k所示。在因子分析过程中,方差解释率用于反映某个因子对原始变量的解释程度,而累计方差贡献率则表示所选择的所有因子对原始样本提取的信息总量,一般来说数值越高,越能表示原始数据样本。在因子筛选后,碳循环、氮循环、肠道病原菌类和其他类信息分别保留了87.77%、89.21%、83.15%和85.21%,一定程度上反映了各类功能数据中因子数量选择合理,也能保证尽可能多的数据信息用于后续分析。47.如图2c、2f、2i、2l所示,使用旋转成分矩阵反映具体功能与所选择因子之间的关系,一般认为当数值(因子载荷系数)大于0.4时,该成分因子与该类型功能有对应关系,即认为该成分因子可以表示该类型功能的数据信息。对于碳循环相关功能,筛选后的5个成分因子均不同程度上涵盖了不同的功能,与碳循环不同的是,氮循环第1成分即包含较多的功能信息。对于碳氮相关功能,一般某一功能仅与某一浓缩因子具有较强的对应关系,而肠道病原菌类和其他类由于功能差异较大,出现了一个功能项对应多个因子且往往对应关系并不强烈的情况,并且在肠道病原菌类和其他类功能中,第1成分涵盖了最多的功能信息,其他因子仅是对功能信息的进一步补充。值得说明的是,当某一功能项因子载荷系数在0.4以下时,可能与未选中的其他因子具有较强的对应关系,在因子浓缩筛选过程中被去除,也表明这些功能无法表示整体样本信息。48.可选的,步骤s104中,通过皮尔森相关性分析方法计算每个浓缩因子与微生物应用质量的相关性数值。49.一些实施例中,对于步骤s104中的提取比例确定,分别基于每个类型功能下所有浓缩因子与微生物应用质量的相关性数值,计算每个所述类型功能的平均相关性数值,大致反映该类功能数据与微生物应用质量间的关系,然后分别基于每个类型功能的平均相关性数值,计算每个类型功能的相关性占比,再对各类型功能的相关性占比进行近似估算,得到各类型功能的提取比例。50.其中,对于任一类型功能,其相关性占比是将所有类型功能的平均相关性数值相加作为分母,将该类型功能的平均相关性数值作分子,再乘以100%所得到的百分比。51.一些实施例中,可按照以下方式提取各类型功能的微生物菌属:先基于预设的提取总数和提取比例,确定每个类型功能对应的子提取数量;然后计算每个类型功能下各微生物菌属的相对丰度,并对每个类型功能下各微生物菌属的所有相对丰度进行排序,生成每个类型功能的相对丰度序列,再基于每个类型功能的子提取数量和相对丰度序列,提取每个类型功能的微生物菌属。52.相对丰度序列可以是升序序列,也可以是降序序列,本实施例不做具体限定。对于任一类型功能,若子提取数量为n,则无论相对丰度序列是升序还是降序,都是选取相对丰度最大的n个微生物菌属。也就是说,相关度高的类型功能中选取比例高的菌群,相关度低的类型功能中选择比例低的菌群。53.下面以厨余垃圾有氧堆肥为例,对步骤s104进行说明。54.在确定不同类型功能的浓缩因子后,计算每个浓缩因子与堆肥质量的皮尔森相关性,再将各相关性数值进行平均用于大致反映该类功能数据与堆肥质量间的关系。如3图所示,各类型功能的复合因子的平均相关性为0.38、0.31、0.20和0.07。可以看到,这些复合因子与堆肥质量间不具有强相关性,这是由于在进行因子分析降维过程中降低了内部数据的相关性以保留信息较多的主要因子,从而使得复合因子可以用于描述多角度的数据信息,而在某一方面的数据相关性就表现的较弱。进一步计算各类型功能的相关性占比,碳循环、氮循环、肠道病原菌类和其他类的相关性占比分别为39.76%、32.40%、20.72%和7.12%。碳氮功能相关数据在原始数据中累计占比在70%以上,这是由于在功能划分过程中,这两类保留下来的功能类型最多,相应微生物的相对丰度较高,这也进一步说明了碳氮循环微生物在堆肥体系中的重要作用。55.对各类型功能的相关性占比进行近似估算,可得到碳循环、氮循环、肠道病原菌类和其他类功能的提取比例约为4:3:2:1。拟选择50个微生物菌属用于机器学习建模研究,在对应的功能下挑选碳循环功能微生物20种,氮循环功能微生物15种,肠道病原菌类微生物10种,其他类微生物5种,将所选微生物整理到一起,去除重复的微生物菌属,最后将原先样本中上千个微生物菌属压缩到38个。56.鉴于微生物高维数据对机器学习建模的影响,本实施例提供一种基于ffm框架的微生物高维数据预处理方法,实现了有效的数据降维,解决了高维特征对机器学习建模的影响,保证了所选取微生物的代表性和全面性。57.在通过上述微生物高维数据处理方法对微生物高维数据进行预处理后,根据预处理得到的微生物降维数据进行后续的关键微生物菌属识别。58.图4为本实施例提供的一种基于机器学习的关键微生物菌属识别方法的流程示意图。如图4所示,该方法的主要流程描述如下(步骤s401~s404):步骤s401,将微生物降维数据划分为训练集和测试集;步骤s402,以k近邻模型、随机森林模型和决策树模型为基础模型,并以线性回归模型为二级模型,构建stacking模型,分别将门、目和属水平上微生物的相对丰度作为stacking模型的输入特征,将微生物应用的质量得分作为stacking模型的预测标签;步骤s403,利用训练集和测试集对stacking模型进行训练,得到训练好的stacking模型;步骤s404,对训练好的stacking模型进行解释性分析,评估各输入特征对预测标签的重要性,得到关键微生物菌属。59.本实施例中,将所有数据划分为训练集和测试集,例如,70%的微生物降维数据作为训练集,用于训练机器学习模型,而将剩余30%的微生物降维数据作为测试集。为了验证模型构建是否成功,用训练好的模型预测剩下30%的测试集数据,若在测试集上仍表现良好,则说明所构建的模型对于陌生数据具有较好的预测能力。60.为提高模型泛化性能,减少模型过拟合,本实施例采用交叉验证方法把训练数据进一步划分为训练集与验证集,考虑到建模数据不多,可采用5折交叉验证。61.异质基学习器组成的模型进行耦合均可以称为stacking模型。该类模型基于不同类型算法的集成模型,可以充分发挥不同模型的优势,将各模型输出信息组合成性能更强的模型。作为一种堆叠模型,它的实现过程为:首先在训练集上通过训练多个模型得到多组预测结果,这些结果称为超特征(metafeatures),同时对原模型进行预测,得到测试集的超特征;然后将训练集和测试集得到的超特征输入到新的模型中,基于新模型的算法原理获得预测结果,由于前后使用了不同的训练数据,一定程度上可以防止过拟合。62.本实施例中,模型的构建过程可依靠python的第三方机器学习库scikit-learn进行,超参数调优可采用paramgrid函数库实现。线性回归模型参数按照系统默认数值,k近邻模型调整超参数n_neighbors,决策树模型调整超参数max_depth、min_samples_leaf和min_samples_split,随机森林模型调整超参数n_estimaters。模型训练过程如图5所示。63.以有氧堆肥为例,通过计算t值(某堆肥时期碳氮比与初始碳氮比的比值)和gi值(植物种子发芽指数)的综合得分来反映堆肥质量高低,即模型的预测标签,其计算公式如下:(1)t值得分计算公式为:xscore1=1-ti;其中,ti为某个时期第i个样品的t值,x1′为采用归一化方法到[0,100]后的分值。[0064](2)gi得分计算公式为:xscore2=gii;其中,gii为某个时期第i个样品的gi值,x2′为采用归一化方法到[0,100]后的分值。[0065](3)堆肥样本的总体评分公式如下:xscore=x1′+x2′;其中,xscore为某时期第i个样品的综合得分,x′为采用归一化方法到[0,100]后的分值。[0066]鉴于机器学习为黑箱模型,在模型构建好后需要进一步引入解释性方法评估各输入特征对标签的影响,可采用shap和pda两种方法进行解释性分析。[0067]shap分析方法(shapleyadditiveexplanations)通过计算每个特征关于模型输出的边际贡献从而实现对标签的全局解释和局部解释,全局解释即给出该特征对结果的综合影响,局部解释即同时给出该特征下每个样本变化对结果的影响。计算每个输入特征对于微生物应用质量的shap绝对值均值,根据数值大小进行排序用以反映各微生物菌属对微生物应用质量的重要程度。计算公式如下:其中,g(x)为所要解释的模型,f(x)为模型预测值,为预测平均值,为对应样本的预测值,也叫shapley值,shapley值的正负用于表示样本点对结果的正向影响或负面影响,shapley值的计算公式如下:其中,为第i个样本的shapley值,f为所有特征集合,s代表除第i个样本以外的其他特征子集,fs∪{i}和fs分别表示第i个特征和s输入后模型给出的预测值,两者的差值可以表示第i个特征在子集s下的边际贡献。[0068]pda是一种基于全局的模型解释性方法,可以反映出各特征数值变化对标签值的具体影响,包括一维特征变化分析和二维特征综合影响分析,结果以部分依赖图形式(pdp)呈现。函数定义如下:fs(xs)=exc[f(xs,xc)]=∫f(xs,xc)dp(xc);其中,xs为需要绘制的特征,xc为除xs外模型使用的其他特征变量,两者共同构成了总特征空间x。需要注意的是,xs和xc不能有较强的相关性,否则会导致部分依赖图结果存在误差。[0069]下面以厨余垃圾有氧堆肥为例,对步骤s404进行说明。[0070]首先,研究微生物数据在不同分类等级上的预测能力,如图6a所示,在不同分类水平上的预测精度(r2)保持在0.8左右,门分类水平上数据训练集和测试集的精度(r2)分别为0.76±0.09、0.73±0.10;目分类水平上数据训练集和测试集的精度分别为0.84±0.07、0.81±0.08;属水平上数据训练集和测试集的精度分别为0.81±0.07、0.78±0.04。可以看出微生物各分类水平数据集上的精度与理化数据建模精度相比较低,这在大多研究中均有体现。一般来说,微生物数据相对丰度变化较大,且不同研究中也具有较大差异,因此在建模过程中模型的精度和泛化能力较差。但总的来说,所构建的模型能较好的通过微生物菌群变化反映堆肥质量,因而适用于进一步的特征分析。[0071]如图6b所示,在门水平上,影响堆肥质量最重要的三个菌门分别为proteobacteria(5.75)、firmicutes(5.50)和actinobacteria(4.56),主要是这三类菌门是堆肥过程中相对丰度最高的菌门,涵盖了所筛选的大部分微生物菌属,且这几种菌门在跟多研究中被报道具有较高的有机质降解能力,从而促进了堆肥的成熟和稳定化,与堆肥质量具有较强关系。[0072]如图6c所示,在目水平上,起重要作用的包括xanthomonadales(4.16)、lactobacillales(3.81)、rhodocyclales(2.87)等。由于lactobacillales在堆肥过程中具有较高的平均相对丰度,结合上文分析,可能对堆肥质量有较大的负面影响。不同于lactobacillales,xanthomonadales堆肥过程中相对丰度较低(平均为0.32%),作为proteobacteria下的菌群,推测其在堆肥体系中重要作用主要体现在物质降解和氮循环过程中,以其所属的stenotrophomonas为例,通过faprotax分析发现其具备化学异养、硝酸盐/亚硝酸盐呼吸还原等多种碳氮循环相关功能。[0073]如图6d所示,在属水平上,起重要作用的包括bacillus(3.84)、acinetobacter(2.24)、thermobacillus(1.95)、pseudomonas(1.72)、psychrobacter(1.42)和thermobifida(1.24)。如前所述,bacillus、pseudomonas、thermobifida在堆肥过程中具有较高的相对丰度,且它们或与物质降解或与堆肥氮循环有关,均会影响堆肥质量,故而在重要性分析过程中数值较高。acinetobacter通常利用硝酸盐/亚硝酸盐作为电子受体通过呼吸作用促进n2o的排放。关于thermobacillus和psychrobacter的介绍较少,基于faprotax功能分析,thermobacillus具有化学异养功能和木聚糖分解功能,psychrobacter具有化学异养类功能,它们均为堆肥碳循环功能微生物,推测在底物分解、物料腐熟过程中具有重要意义。[0074]通过计算各分类水平上的shap绝对值均值,得出影响微生物应用质量最重要的三个菌门分别为firmicutes、actinobacteria和proteobacteria,其中起重要作用的菌目包括xanthomonadales、lactobacillales、rhodocyclale,对应的关键微生物菌属为bacillus、acinetobacter、thermobacillus、pseudomonas、psychrobacter和thermobifida。[0075]需要说明的是,图6b至图6d中相对丰度低于0.2%的微生物归为其他类功能。[0076]一些实施例中,采用决定系数(r2)、均方根误差(rmse)和平均绝对误差(mae)评价模型预测情况。均方根误差(rmse)和平均绝对误差(mae)是用来评价预测值和真实值之间的差异,两者数值均是越低越好。决定系数(r2)则是模型拟合的信息占真实信息的比例,越接近1越好,上述评价方法计算公式如下:接近1越好,上述评价方法计算公式如下:接近1越好,上述评价方法计算公式如下:其中,n为样本数量,h(xi)为预测值,yi为真实值,为样本均值。[0077]图7为本技术实施例提供的一种微生物高维数据处理装置700的结构框图。如图7所示,该装置700主要包括:获取模块701,用于获取微生物高维数据;功能划分模块702,用于对微生物高维数据进行功能划分,得到多个类型功能,其中,每个类型功能均包括多个功能因子;浓缩模块703,用于从所有功能因子中选取浓缩因子;提取模块704,用于分别计算每个类型功能下各浓缩因子与微生物应用质量的相关性数值,基于相关性数值确定各类型功能的提取比例,按照提取比例提取各类型功能的微生物菌属;筛选模块705,用于基于提取的微生物菌属对微生物高维数据进行筛选,得到微生物降维数据。[0078]一些实施例中,功能划分模块702,具体用于将所有微生物高维数据汇总成一个文件;保留属水平上的微生物群落,将相同的微生物菌属合并相加,去除otu数为预设值的微生物菌属;将文件拆分成物种丰度信息文件和物种分类注释文件;在python环境下运行faprotax脚本,对物种丰度信息文件和物种分类注释文件进行功能划分,得到多个类型功能。[0079]一些实施例中,浓缩模块703,具体用于利用因子分析方法分别计算每个类型功能下各功能因子的特征值,选取大于第一预设阈值的特征值对应的功能因子,作为浓缩因子。[0080]一些实施例中,该装置700还包括:执行模块,用于若满足预设条件,则执行利用因子分析方法分别计算每个类型功能下各功能因子的特征值,选取大于第一预设阈值的特征值对应的功能因子,作为浓缩因子的步骤;其中,预设条件包括通过bartlett's球状检验检测矩阵不是单位阵,以及通过kmo检验检测各变量间的相关值均大于第二预设阈值。[0081]一些实施例中,提取模块704包括:提取比例计算模块,用于分别基于每个类型功能下所有浓缩因子与微生物应用质量的相关性数值,计算每个类型功能的平均相关性数值;分别基于每个类型功能的平均相关性数值,计算每个类型功能的相关性占比;对各类型功能的相关性占比进行近似估算,得到各类型功能的提取比例;和/或,微生物菌属提取模块,用于基于预设的提取总数和提取比例,确定每个类型功能对应的子提取数量;计算每个类型功能下各微生物菌属的相对丰度,并对每个类型功能下各微生物菌属的所有相对丰度进行排序,生成每个类型功能的相对丰度序列;基于每个类型功能的子提取数量和相对丰度序列,提取每个类型功能的微生物菌属。[0082]本技术实施例提供的方法中的各种变化方式和具体实例同样适用于本实施例提供的微生物高维数据处理装置,通过前述对微生物高维数据处理方法的详细描述,本领域技术人员可以清楚的知道本实施例中的微生物高维数据处理装置的实施方法,为了说明书的简洁,在此不再详述。[0083]图8为本技术实施例提供的一种基于机器学习的关键微生物菌属识别装置800的结构框图。如图8所示,该装置800主要包括:数据集划分模块801,用于将微生物降维数据划分为训练集和测试集;模型构建模块802,用于以k近邻模型、随机森林模型和决策树模型为基础模型,并以线性回归模型为二级模型,构建stacking模型,分别将门、目和属水平上微生物的相对丰度作为stacking模型的输入特征,将微生物应用的质量得分作为stacking模型的预测标签;模型训练模块803,用于利用训练集和测试集对stacking模型进行训练,得到训练好的stacking模型;模型解释模块804,用于对训练好的stacking模型进行解释性分析,评估各输入特征对预测标签的重要性,得到关键微生物菌属。[0084]本技术实施例中的各功能模块可以集成在一起形成一个独立的单元,例如集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成形成一个独立的单元。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器或者网络设备等)或处理器(processor)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。[0085]本技术实施例提供的方法中的各种变化方式和具体实例同样适用于本实施例提供的基于机器学习的关键微生物菌属识别装置,通过前述对基于机器学习的关键微生物菌属识别方法的详细描述,本领域技术人员可以清楚的知道本实施例中的基于机器学习的关键微生物菌属识别装置的实施方法,为了说明书的简洁,在此不再详述。[0086]图9为本技术实施例提供的一种电子设备900的结构框图。如图9所示,电子设备900包括存储器901、处理器902、通信总线903;存储器901、处理器902通过通信总线903相连。[0087]存储器901可用于存储指令、程序、代码、代码集或指令集。存储器901可以包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作装置的指令、用于至少一个功能的指令以及用于实现上述实施例提供的微生物高维数据处理方法和/或基于机器学习的关键微生物菌属识别方法的指令等;存储数据区可存储上述实施例提供的微生物高维数据处理方法和/或基于机器学习的关键微生物菌属识别方法中涉及到的数据等。[0088]处理器902可以包括一个或者多个处理核心。处理器902通过运行或执行存储在存储器901内的指令、程序、代码集或指令集,调用存储在存储器901内的数据,执行本技术的各种功能和处理数据。处理器902可以为特定用途集成电路(applicationspecificintegratedcircuit,asic)、数字信号处理器(digitalsignalprocessor,dsp)、数字信号处理装置(digitalsignalprocessingdevice,dspd)、可编程逻辑装置(programmablelogicdevice,pld)、现场可编程门阵列(fieldprogrammablegatearray,fpga)、中央处理器(centralprocessingunit,cpu)、控制器、微控制器和微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器902功能的电子器件还可以为其它,本技术实施例不作具体限定。[0089]通信总线903可包括一通路,在上述组件之间传送信息。通信总线903可以是pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。通信总线903可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双箭头表示,但并不表示仅有一根总线或一种类型的总线。且图9示出的电子设备仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。[0090]本技术实施例提供一种计算机可读存储介质,存储有能够被处理器加载并执行如上述实施例提供的微生物高维数据处理方法和/或基于机器学习的关键微生物菌属识别方法的计算机程序。[0091]本实施例中,计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。具体的,计算机可读存储介质可以是便携式计算机盘、硬盘、u盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、讲台随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、光盘、磁碟、机械编码设备以及上述任意组合。[0092]本实施例中的计算机程序包含用于执行图1、图2所示的方法的程序代码,程序代码可包括对应执行上述实施例提供的方法步骤对应的指令。计算机程序可从计算机可读存储介质下载到各个计算/处理设备,或者通过网络(例如因特网、局域网、广域网和/或无线网)下载到外部计算机或外部存储设备。计算机程序可完全地在用户计算机上执行、作为一个独立的软件包执行。[0093]在本技术所提供的实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。[0094]另外,需要理解的是,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。[0095]以上仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。当前第1页12当前第1页12
技术特征:
1.一种微生物高维数据处理方法,其特征在于,包括:获取微生物高维数据;对所述微生物高维数据进行功能划分,得到多个类型功能,其中,每个所述类型功能均包括多个功能因子;从所有功能因子中选取浓缩因子;分别计算每个所述类型功能下各浓缩因子与微生物应用质量的相关性数值,基于所述相关性数值确定各类型功能的提取比例,按照所述提取比例提取各类型功能的微生物菌属;基于提取的微生物菌属对所述微生物高维数据进行筛选,得到微生物降维数据。2.根据权利要求1所述的方法,其特征在于,所述对所述微生物高维数据进行功能划分,得到多个类型功能包括:将所有微生物高维数据汇总成一个文件;保留属水平上的微生物群落,将相同的微生物菌属合并相加,去除otu 数为预设值的微生物菌属;将所述文件拆分成物种丰度信息文件和物种分类注释文件;在python环境下运行faprotax 脚本,对所述物种丰度信息文件和所述物种分类注释文件进行功能划分,得到所述多个类型功能。3.根据权利要求1或2所述的方法,其特征在于,所述从所有功能因子中选取浓缩因子包括:利用因子分析方法分别计算每个所述类型功能下各功能因子的特征值,选取大于第一预设阈值的特征值对应的功能因子,作为所述浓缩因子。4.根据权利要求3所述的方法,其特征在于,还包括:若满足预设条件,则执行所述利用因子分析方法分别计算每个所述类型功能下各功能因子的特征值,选取大于第一预设阈值的特征值对应的功能因子,作为所述浓缩因子的步骤;其中,所述预设条件包括通过bartlett's球状检验检测矩阵不是单位阵,以及通过kmo检测各变量间的相关值均大于第二预设阈值。5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述相关性数值确定各类型功能的提取比例包括:分别基于每个所述类型功能下所有浓缩因子与微生物应用质量的相关性数值,计算每个所述类型功能的平均相关性数值;分别基于每个所述类型功能的平均相关性数值,计算每个所述类型功能的相关性占比;对各类型功能的相关性占比进行近似估算,得到所述各类型功能的提取比例;和/或,所述按照所述提取比例提取各类型功能的微生物菌属包括:基于预设的提取总数和所述提取比例,确定每个所述类型功能对应的子提取数量;计算每个所述类型功能下各微生物菌属的相对丰度,并对每个所述类型功能下各微生物菌属的所有相对丰度进行排序,生成每个所述类型功能的相对丰度序列;基于每个所述类型功能的子提取数量和相对丰度序列,提取每个类型功能的微生物菌
属。6.一种基于机器学习的关键微生物菌属识别方法,其特征在于,包括:将微生物降维数据划分为训练集和测试集;以k近邻模型、随机森林模型和决策树模型为基础模型,并以线性回归模型为二级模型,构建stacking模型,分别将门、目和属水平上微生物的相对丰度作为所述stacking模型的输入特征,将微生物应用的质量得分作为所述stacking模型的预测标签;利用所述训练集和测试集对所述stacking模型进行训练,得到训练好的stacking模型;对所述训练好的stacking模型进行解释性分析,评估各输入特征对预测标签的重要性,得到关键微生物菌属。7.一种微生物高维数据处理装置,其特征在于,包括:获取模块,用于获取微生物高维数据;功能划分模块,用于对所述微生物高维数据进行功能划分,得到多个类型功能,其中,每个所述类型功能均包括多个功能因子;浓缩模块,用于从所有功能因子中选取浓缩因子;提取模块,用于分别计算每个所述类型功能下各浓缩因子与微生物应用质量的相关性数值,基于所述相关性数值确定各类型功能的提取比例,按照所述提取比例提取各类型功能的微生物菌属;筛选模块,用于基于提取的微生物菌属对所述微生物高维数据进行筛选,得到微生物降维数据。8.一种基于机器学习的关键微生物菌属识别装置,其特征在于,包括:数据集划分模块,用于将微生物降维数据划分为训练集和测试集;模型构建模块,用于以k近邻模型、随机森林模型和决策树模型为基础模型,并以线性回归模型为二级模型,构建stacking模型,分别将门、目和属水平上微生物的相对丰度作为所述stacking模型的输入特征,将微生物应用的质量得分作为所述stacking模型的预测标签;模型训练模块,用于利用所述训练集和测试集对所述stacking模型进行训练,得到训练好的stacking模型;模型解释模块,用于对所述训练好的stacking模型进行解释性分析,评估各输入特征对预测标签的重要性,得到关键微生物菌属。9.一种电子设备,其特征在于,包括存储器和处理器;所述存储器上存储有能够被所述处理器加载并执行如权利要求1至6任一项所述方法的计算机程序。10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至6任一项所述方法的计算机程序。
技术总结
本申请涉及一种基于机器学习的微生物高维数据处理和关键菌属识别方法,属于数据处理技术领域,数据处理方法包括:获取微生物高维数据;对所述微生物高维数据进行功能划分,得到多个类型功能,其中,每个所述类型功能均包括多个功能因子;从所有功能因子中选取浓缩因子;分别计算每个所述类型功能下各浓缩因子与微生物应用质量的相关性数值,基于所述相关性数值确定各类型功能的提取比例,按照所述提取比例提取各类型功能的微生物菌属;基于提取的微生物菌属对所述微生物高维数据进行筛选,得到微生物降维数据。本申请在有效降低微生物高维数据维度的同时,还能保证后续关键微生物菌属识别的代表性和全面性。属识别的代表性和全面性。属识别的代表性和全面性。
技术研发人员:楼莉萍 丁尚 胡集源 黄吴吉
受保护的技术使用者:浙江大学
技术研发日:2023.06.25
技术公布日:2023/9/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种便于拆卸的可调节的急救推车用肢体护理支架 下一篇:半挂车栅栏结构的制作方法