一种金属纳米材料对水环境多物种毒性的预测方法

未命名 08-25 阅读:93 评论:0


1.本发明涉及水环境中纳米金属对水生生物的毒性预测技术领域,特别是一种一种金属纳米材料对水环境多物种毒性的预测方法。


背景技术:

2.金属纳米材料(mnms,metal-based nanomaterials)由于其自身出色的物理和化学性质被广泛应用于各种领域,然而它的大量生产和使用导致了其在水环境中的排放量增加,并威胁到各种水生生物的安全,如鱼类,甲壳类,藻类和细菌。科学研究者们对于mnms在水环境中的毒性已展开了大量研究,并证实了mnms的毒性与其自身的性质,暴露环境的条件和物种间的差异均有关联。
3.考虑到水环境,mnms性质和不同物种间的复杂性,用传统实验方法进行毒性评估不仅耗时,而且难以揭示各种因素对毒性的具体影响。因此我们需要借助仿真模型来理解基于暴露和过程的毒性机制,从而确定mnms毒性的主要影响因素,并为实验提供指导意见。纳米定量-构效模型(nano-qsars,nano-quantitative structure

activity relationships)作为一种发展较为成熟的仿真建模方法,使我们能够深入探究mnms的物理化学性质和它们的毒性特征之间的关系,然而,国内外目前的nano-qsars模型仅将注意力放在mnms的物理化学性质上,对其他影响毒性机理的重要因素关注不够。此外,目前的毒性建模研究主要集中于某一特定物种,然而物种之间的巨大的生态差异会导致暴露于不同物质后产生明显不同的毒性效应。
4.机器学习作为一种强大的分析工具,能够处理大批量复杂数据并寻找它们之间存在的关系,是能解决我们问题的一种可行方案。而目前机器学习在毒性预测方面的研究仍少有人将暴露环境因素和物种多样性考虑在内,因此我们需要通过机器学习建立一个有利于将所有可能因素考虑在内的预测模型,并以此探究因素的重要性和相互作用。


技术实现要素:

5.本发明针对现有技术中的不足,提供一种一种金属纳米材料对水环境多物种毒性的预测方法。
6.本发明的技术解决方案如下:
7.一种金属纳米材料对水环境多物种毒性的预测方法,其特征在于,包括以下步骤:
8.步骤1,收集数据以建立基于机器学习的多物种毒性预测数据库,所述数据包括与金属纳米材料mnms毒性相关的mnms物理化学性质数据,环境因素数据,和物种类别数据;
9.步骤2,数据预处理,以使数据达到基于机器学习的多物种毒性预测模型的建模标准;
10.步骤3,进行基于机器学习的多物种毒性预测模型开发,并对开发的多物种毒性预测模型进行表现评估;
11.步骤4,对通过表现评估的多物种毒性预测模型进行内部与外部验证;
12.步骤5,利用通过验证的多物种毒性预测模型分析特征的重要性和特征间交互作用,从而找出最具影响力的特征和重要特征间的关系,以将多物种毒性预测模型运用到实际预测中。
13.所述步骤1中收集数据包括通过以下三个公开的数据库构建用于建模的数据集:nano e-tox数据库,chen et al数据库,bunmahotama et al数据库;所述mnms物理化学性质包括粒径size,表面积surface,形状shape,以及是否具有涂层coating;所述环境因素包括暴露时长duration,水力学半径diameter,光照条件illumination,电位zeta potential,溶解性dissolution,以及实验介质media;所述物种类别包括藻类,细菌类,甲壳类,以及鱼类;所述金属纳米材料mnms包括金属氧化物和金属单质;所述金属氧化物包括氧化铝,氧化铈,氧化铜,三氧化二铁,四氧化三铁,氧化镍,二氧化硅,二氧化碳,以及氧化锌;所述金属单质包括银,金,铜,铁,以及镍。
14.所述步骤1中数据包括基于不同物种的营养级数据,以及以下分子描述符:分子质量mw,金属电负性χ,金属原子的电负性之和∑χ,金属原子数nmetal,氧原子数moxygen,单个金属原子的电荷数χox,以及金属原子电负性之和∑χ与氧原子数no之商∑χ/no。
15.所述步骤1中数据包括作为毒性终点的半最大效应浓度ec50数据,所述ec50数据被选为多物种毒性预测模型的预测对象数据。
16.所述步骤2包括以下步骤:
17.步骤2a,缺失值超过三分之一的数据由于其所含信息过少而被剔除;
18.步骤2b,对于数值型变量,以范围形式记载的变量被此范围的平均值代替,缺失值则以对应特征的平均值代替;对于特征型变量;需要进行数字化以用于建模,所述数字化采用one-hot编码;对于光照条件,采用24小时内的光照时长的占比作为代替;对于数量众多的物种,采用基于物种营养级进行分类,因为营养级往往代表了食物链中不同物种的关系,而mnms在食物链的高级生物中的富集往往通过捕食渠道发生;
19.步骤2c,为了防止某个变量的过量贡献和预测偏见的发生,在建模前对数值型变量进行归一化,所用公式如下所示:
[0020][0021]
其中i是代表数据序号,i为正整数,xi是第i个特征值,μi是第i个特征的平均值,σi是第i个特征的标准差sd,xi′
则是第i个特征值在归一化后的值;
[0022]
经过以上的处理步骤后,数据集由原始状态达到可用于训练模型的状态。
[0023]
所述步骤3中多物种毒性预测模型开发包括采用随机森林rf模型算法,支持向量机svm模型算法,和人工神经网络ann模型算法;所述表现评估包括采用分类指标和回归任务指标。
[0024]
所述步骤4中包括:
[0025][0026]
其中q2为内部交叉验证系数,i是代表特征序号,n为正整数,yi是特征的观察值,是特征预测值,是特征的平均值;
[0027][0028][0029]
其中q
ext2
为外部验证决定系数,rse
ext
平方根误差,i是代表特征序号,n为正整数,yi是特征的观察值,是特征的预测值,m代表验证集中数据的数量。
[0030]
所述步骤5中分析特征的重要性采用以下4个指标:平均最小深度,p值,节点纯度增加,以及均方误差mse增加,从而避免了单一指标造成的偏见,其中p值是概率模型中用来判定假设检验结果的一个参数;所述重要特征包括暴露时长duration,水力学半径diameter,光照illumination,和粒径size。
[0031]
本发明的技术效果如下:本发明是一种基于机器学习的,对金属纳米材料在水环境多物种毒性的预测方法,相比于其他的毒性预测模型,本方案的特点是通过将纳米材料性质,暴露环境因素和物种多样性综合考虑在内,尽可能把对毒性效果有影响的因素纳入到建模过程中,通过对不同算法的比较寻找出最优方案,并在取得了较高准确率的预测结果的同时还分析了各因素的重要性和相互间的交互作用。
[0032]
本发明的特点如下:本发明通过第一步先收集数据并进行预处理,然后进行建模工作,对不同算法表现进行比较后,基于最优算法进行模型验证,并对模型结果进行重要性和特征交互分析,最后运用到实际预测中去,或对后续实验和纳米材料设计提供指导意见。本发明对暴露环境和物种多样性信息进行数字化从而使其能被建模。本发明采用不同算法并进行结果比较,并对模型进行内部和外部验证。本发明分析特征的重要性和特征间交互作用,从而找出最具影响力的特征和重要特征间的关系。
附图说明
[0033]
图1是实施本发明一种金属纳米材料对水环境多物种毒性的预测方法的流程示意图。图1中包括步骤1,收集数据和建立数据库;步骤2,数据预处理;步骤3,模型开发与表现评估;步骤4,内部与外部验证;步骤5,重要性和特征交互分析。
具体实施方式
[0034]
下面结合附图(图1)和实施例对本发明进行说明。
[0035]
图1是实施本发明一种金属纳米材料对水环境多物种毒性的预测方法的流程示意图。参考图1所示,一种金属纳米材料对水环境多物种毒性的预测方法,包括以下步骤:步骤1,收集数据以建立基于机器学习的多物种毒性预测数据库,所述数据包括与金属纳米材料mnms毒性相关的mnms物理化学性质数据,环境因素数据,和物种类别数据;步骤2,数据预处理,以使数据达到基于机器学习的多物种毒性预测模型的建模标准;步骤3,进行基于机器学习的多物种毒性预测模型开发,并对开发的多物种毒性预测模型进行表现评估;步骤4,对通过表现评估的多物种毒性预测模型进行内部与外部验证;步骤5,利用通过验证的多物种毒性预测模型分析特征的重要性和特征间交互作用,从而找出最具影响力的特征和重要特征间的关系,以将多物种毒性预测模型运用到实际预测中。
[0036]
所述步骤1中收集数据包括通过以下三个公开的数据库构建用于建模的数据集:
nano e-tox数据库,chen et al数据库,bunmahotama et al数据库;所述mnms物理化学性质包括粒径size,表面积surface,形状shape,以及是否具有涂层coating;所述环境因素包括暴露时长duration,水力学半径diameter,光照条件illumination,电位zeta potential,溶解性dissolution,以及实验介质media;所述物种类别包括藻类,细菌类,甲壳类,以及鱼类;所述金属纳米材料mnms包括金属氧化物和金属单质;所述金属氧化物包括氧化铝,氧化铈,氧化铜,三氧化二铁,四氧化三铁,氧化镍,二氧化硅,二氧化碳,以及氧化锌;所述金属单质包括银,金,铜,铁,以及镍。
[0037]
所述步骤1中数据包括基于不同物种的营养级数据,以及以下分子描述符:分子质量mw,金属电负性χ,金属原子的电负性之和∑χ,金属原子数nmetal,氧原子数moxygen,单个金属原子的电荷数χox,以及金属原子电负性之和∑χ与氧原子数no之商∑χ/no。所述步骤1中数据包括作为毒性终点的半最大效应浓度ec50数据,所述ec50数据被选为多物种毒性预测模型的预测对象数据。
[0038]
所述步骤2包括以下步骤:步骤2a,缺失值超过三分之一的数据由于其所含信息过少而被剔除;步骤2b,对于数值型变量,以范围形式记载的变量被此范围的平均值代替,缺失值则以对应特征的平均值代替;对于特征型变量;需要进行数字化以用于建模,所述数字化采用one-hot编码;对于光照条件,采用24小时内的光照时长的占比作为代替;对于数量众多的物种,采用基于物种营养级进行分类,因为营养级往往代表了食物链中不同物种的关系,而mnms在食物链的高级生物中的富集往往通过捕食渠道发生;步骤2c,为了防止某个变量的过量贡献和预测偏见的发生,在建模前对数值型变量进行归一化,所用公式如下所示:
[0039][0040]
其中i是代表数据序号,i为正整数,xi是第i个特征值,μi是第i个特征的平均值,σi是第i个特征的标准差sd,xi′
则是第i个特征值在归一化后的值;
[0041]
经过以上的处理步骤后,数据集由原始状态达到可用于训练模型的状态。
[0042]
所述步骤3中多物种毒性预测模型开发包括采用随机森林rf模型算法,支持向量机svm模型算法,和人工神经网络ann模型算法;所述表现评估包括采用分类指标和回归任务指标。
[0043]
所述步骤4中包括:
[0044][0045]
其中q2为内部交叉验证系数,i是代表特征序号,n为正整数,yi是特征的观察值,是特征预测值,是特征的平均值;
[0046][0047][0048]
其中q
ext2
为外部验证决定系数,rse
ext
平方根误差,i是代表特征序号,n为正整数,yi是特征的观察值,是特征的预测值,m代表验证集中数据的数量。所述步骤5中分析特征
的重要性采用以下4个指标:平均最小深度,p值,节点纯度增加,以及均方误差mse增加,从而避免了单一指标造成的偏见,其中p值是概率模型中用来判定假设检验结果的一个参数;所述重要特征包括暴露时长duration,水力学半径diameter,光照illumination,和粒径size。
[0049]
本发明将通过机器学习(ml)方法,构建一个将mnms物理化学性质,环境因素和不同物种差异考虑在内的水环境毒性预测回归模型。为此我们采用了如下的技术方案,共分为五个步骤:(1)基于已出版的数据库构建了一个具有14种不同mnms和51个不同物种的包含684条数据的数据库;(2)对数据进行预处理,使其达到可以建模的标准;(3)采用随机森林(rf),支持向量机(svm)和人工神经网络(ann)算法对模型进行训练,并比较了不同模型的表现;(4)对模型进行了内部验证,并从最近出版的文献中收集数据并进行了外部验证,确保模型预测的可靠性;(5)分析了mnms的物理化学性质,环境因素和物种特征的重要性和它们彼此之间的交互作用。以下是本专利的具体方法步骤:
[0050]
一:数据集的构建
[0051]
用于建模的数据集的构建基于三个公开的数据库:nano e-tox(https://cfpub.epa.gov/ecotox/),以及chen et al.和bunmahotama et al.构建的数据集,我们从中收集了有关mnms毒性的数据,数据来源为2020年9月16日前的已出版文献。作为毒性终点的半最大效应浓度(ec50,浓度为毫克每升)被选为模型的预测对象。在特征选取方面,我们收集了四类不同的独立变量用于构建模型,其中包括:(1)五种关于纳米材料的物化性质,分别为:粒径(size),表面积(surface),形状(shape),是否具有涂层(coating);(2)基于不同物种的营养级(species);(3)六种环境暴露条件,分别为:暴露时长(duration),水力学半径(diameter),光照条件(illumination),zeta电位(zeta potential),溶解性(dissolution),实验介质(media);(4)七种分子描述符:分子质量(mw),金属电负性(χ),金属原子的电负性之和(∑χ),金属原子数(nmetal),氧原子数(moxygen),单个金属原子的电荷数(χox),以及金属原子电负性之和与氧原子数之商(∑χ/no)。
[0052]
最终经过筛选的数据集共有684条数据,其中包含14种mnms,其中九种为金属氧化物,分别为:氧化铝,氧化铈,氧化铜,三氧化二铁,四氧化三铁,氧化镍,二氧化硅,二氧化碳和氧化锌;另外五种为金属,分别为:银,金,铜,铁,镍。数据集共包含五十一种不同生物,按类别可分为:藻类,细菌,甲壳类和鱼类。
[0053]
二:数据的预处理
[0054]
为了使数据达到建模的标准,我们需要对数据进行一系列的预处理工作。
[0055]
首先,缺失值超过三分之一的数据由于其所含信息过少而被剔除。其次,对于数值型变量,以范围形式记载的变量被此范围的平均值代替,缺失值则以对应特征的平均值代替。特征型变量则需要进行数字化才能进行建模,为此我们采用了one-hot编码来对部分特征进行数字化。对于光照条件,我们采用24小时内的光照时长的占比作为代替。然而对于数量众多的物种来说,one-hot编码会增加不必要的数据维度,因此我们提出了基于物种营养级进行分类的办法,因为营养级往往代表了食物链中不同物种的关系,而mnms在食物链的高级生物中的富集往往通过捕食渠道发生。最后,为了防止某个变量的过量贡献和预测偏见的发生,在建模前我们需要对数值型变量进行归一化,所用公式如下所示:
[0056][0057]
其中i是代表数据序号的正整数,xi是第i个特征值,μi是第i个特征的平均值,σi是第i个特征的标准差(sd),xi′
则是第i个特征值在归一化后的值。
[0058]
经过以上的处理步骤后,我们的数据集由原始状态达到了可用于训练模型的状态。
[0059]
三:基于机器学习的多物种毒性预测模型的开发
[0060]
本发明采用了三种不同算法:随机森林(rf),支持向量机(svm)和人工神经网络(ann),它们都具有强大的分类和回归能力,并经常被运用在污染物毒性预测的研究中。
[0061]
rf由于其在处理复杂数据和抗过拟合方面的出色能力,被经常用于毒性预测建模。通过对多个决策树进行集成运用,rf在分类和回归任务上均有良好表现。在我们的方案中,rf模型用了500颗随机决策树,在每个节点考虑5个特征。
[0062]
svm擅长处理高维数据,通过将数据点投射到高维空间中,然后根据我们对数据的需要寻找能将数据分类的超平面。通过选择正确的核函数,svm模型可以表现出高度的准确性和抗过拟合能力。在我们的方案中,采用了径向基函数(radial basis function)作为核函数,因为它沿整个x轴有一个局部的有限响应。
[0063]
ann是一系列互相连接并分层的神经元的集合,每层的神经元接收并处理信号,然后将信号送至下一层。ann擅于处理大量复杂数据,但是要注意它也容易产生过拟合,缺乏可解释性也是ann模型的一个缺点。在我们的方案中,训练集中的25%被随机分配为验证集,“adam”被选为优化器,学习率被设定为0.1,隐藏层中的单位设定为38个,学习率的衰减被设定为0以防止在训练过程中出现过拟合。
[0064]
相关系数r2值和均方根误差(rmse)被选为模型拟合度的标准,r2是分析回归模型精确度的常用标准,r2值越接近1,表明回归预测的结果越准确。rmse被用来衡量观测值与真实值之间偏差,rmse越接近0,表明模型的预测结果越可靠。本方案中使用的rf,svm和ann建模均用python 4.0完成,主要使用scikit-learn和keras软件包。在本步骤中,数据集经过了三种不同的模型训练,并分别输出了三种模型的r2值和rmse值。三种模型在训练中均展现了良好的预测能力,所有r2值均大于0.7,对于rf来说,r2值达到了0.82
±
0.04,优于svm(r2=0.75
±
0.05)和ann(r2=0.74
±
0.06)。此外,对于rf来说,绝大部分数据与真实值之间的距离均不大于rmse,这表明模型提供了稳定可靠的预测。
[0065]
在本步骤中,我们通过模型训练,得到了三种不同模型的表现,并通过比较得出了rf表现最优的结论。
[0066]
四.内部与外部验证
[0067]
一个预测模型只有取得良好的内部和外部验证结果,才能提供稳健和可靠的预测。在我们的方案中,我们对rf模型采用了十折交叉验证作为内部验证的方案,即将数据均分为十份,其中一份为验证集,其余九份为训练集,如此轮换十次。在十折交叉验证的每个过程中,训练集中20%、40%、60%、80%和100%的标签值被替换为原始标签范围内的随机值,相应的交叉验证系数q2被用作衡量模型是否过拟合的指标,q2的定义如下:
[0068]
[0069]
其中i是代表特征序号的正整数,yi是特征的观察值,是特征预测值,是特征的平均值。
[0070]
每个比例中,互换进行了十次,于是我们共得到500个q2值,然后对q2值和原始特征和互换特征之间的相关系数进行线性回归。通过对y轴上回归结果的截距来推断,截距小于0.05,证明了该模型没有出现过拟合。
[0071]
对于外部验证,用于外部验证的数据不参与到建模过程中,我们在web of science,pubmed和scopus’s advanced research平台上,筛选了最近出版的相关文献并从中收集了数据,文献的筛选标准如下:(1)主题必须和nps对水生生物的毒性有关;(2)材料必须为金属或金属氧化物,且必须具备材料的基本信息;(3)毒性终点必须为ec
50
;(4)不能出现已在建模过程中使用过的数据。特征选取和数据预处理过程和测试集的处理过程一样。
[0072]
为了评估rf模型在外部验证上的表现,我们采用了外部验证决定系数和平方根误差(rse
ext
),rse
ext
越小,说明模型在外部验证上的表现越好。
[0073][0074][0075]
其中i是代表特征序号的正整数,yi是特征的观察值,是特征的预测值,m则代表验证集中数据的数量。
[0076]
外部验证结果显示,rf模型的交叉验证系数达到了0.87,rse
ext
则到达了0.3,这说明外部验证的结果良好。结合内部验证的结果,我们可以得出结论:本方案中开发的rf模型能在将来对水生生物的毒性研究提供稳定且足够可信的预测。
[0077]
五.重要性和特征交互分析
[0078]
特征重要性分析是理解模型和提升模型可解释性的重要方法,在我们的方案中,我们综合了四种标准来判断特征的重要性:平均最小深度,p值,节点纯度增加和mse(mean square error,均方误差)增加,从而避免了单一指标造成的偏见。平均最小深度主要关注随机森林的结构,根据训练期间一个特征的最小深度对定义,在每个节点上,对五个特征中的对整体分割贡献最大的特征被保留在该节点,这意味着如果一个特征的深度较小,代表该特征更加重要。p值是概率模型中用来判定假设检验结果的一个参数,它的数学含义为:当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率,如果p值越小,说明原假设情况发生的概率越小,在我们的模型中便意味着某个特征更加重要。节点纯度增加表明在决策中一个节点的分裂之后带来的纯度的增加,如果纯度增加越大,则信息增益就越高,表明一种特征的重要性越大。mse增加则是基于变量扰动后森林预测精度的下降,如果一个特征被扰动后带来的预测精度下降越多,则表明该特征更加重要。如果这四个指标都显示一个特征是重要的,那么我们就承认这个特征的重要性。特征的重要性分析是由r4.1.2进行的,借助于"randomforest"和"randomforest-explainer"软件包实现。
[0079]
通过对特征进行综合分析,我们确定了四个重要特征,它们分别是:暴露时长(duration),水力学半径(diameter),光照(illumination),和粒径(size)。
[0080]
理解模型中的特征如何相互作用对我们确定毒性作用对机理非常重要,因此我们采用条件最小深度(conditional minimal depth)来探索特征之间交互的强度,它的原理是通过测量一颗决策树中,一个特征a在另一个以特征b作为节点的分支下,首次出现时与b的距离来判定两者间的交互强度,如果条件最小深度越小,说明两个特征之间的交互作用越强。经过计算,我们锁定了四对交互强度最高的特征:光照和暴露时长,光照和水力学半径,光照和粒径,光照和zeta电位。这个结论表明了作为暴露条件的光照会影响mnms在水中的存在形态(影响水力学半径和zeta电位)。这可以作为我们未来的研究的参考意见。
[0081]
在本步骤中,我们通过重要性综合分析定位了几种具有重要意义的特征,并探究了特征之间的交互关系,这对我们理解mnms的毒性作用机理和未来的研究具有一定的指导意义。本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。在此指明,以上叙述有助于本领域技术人员理解本发明创造,但并非限制本发明创造的保护范围。任何没有脱离本发明创造实质内容的对以上叙述的等同替换、修饰改进和/或删繁从简而进行的实施,均落入本发明创造的保护范围。

技术特征:
1.一种金属纳米材料对水环境多物种毒性的预测方法,其特征在于,包括以下步骤:步骤1,收集数据以建立基于机器学习的多物种毒性预测数据库,所述数据包括与金属纳米材料mnms毒性相关的mnms物理化学性质数据,环境因素数据,和物种类别数据;步骤2,数据预处理,以使数据达到基于机器学习的多物种毒性预测模型的建模标准;步骤3,进行基于机器学习的多物种毒性预测模型开发,并对开发的多物种毒性预测模型进行表现评估;步骤4,对通过表现评估的多物种毒性预测模型进行内部与外部验证;步骤5,利用通过验证的多物种毒性预测模型分析特征的重要性和特征间交互作用,从而找出最具影响力的特征和重要特征间的关系,以将多物种毒性预测模型运用到实际预测中。2.根据权利要求1所述的一种金属纳米材料对水环境多物种毒性的预测方法,其特征在于,所述步骤1中收集数据包括通过以下三个公开的数据库构建用于建模的数据集:nano e-tox数据库,chen et al数据库,bunmahotama et al数据库;所述mnms物理化学性质包括粒径size,表面积surface,形状shape,以及是否具有涂层coating;所述环境因素包括暴露时长duration,水力学半径diameter,光照条件illumination,电位zeta potential,溶解性dissolution,以及实验介质media;所述物种类别包括藻类,细菌类,甲壳类,以及鱼类;所述金属纳米材料mnms包括金属氧化物和金属单质;所述金属氧化物包括氧化铝,氧化铈,氧化铜,三氧化二铁,四氧化三铁,氧化镍,二氧化硅,二氧化碳,以及氧化锌;所述金属单质包括银,金,铜,铁,以及镍。3.根据权利要求1所述的一种金属纳米材料对水环境多物种毒性的预测方法,其特征在于,所述步骤1中数据包括基于不同物种的营养级数据,以及以下分子描述符:分子质量mw,金属电负性χ,金属原子的电负性之和∑χ,金属原子数nmetal,氧原子数moxygen,单个金属原子的电荷数χox,以及金属原子电负性之和∑χ与氧原子数no之商∑χ/no。4.根据权利要求1所述的一种金属纳米材料对水环境多物种毒性的预测方法,其特征在于,所述步骤1中数据包括作为毒性终点的半最大效应浓度ec50数据,所述ec50数据被选为多物种毒性预测模型的预测对象数据。5.根据权利要求1所述的一种金属纳米材料对水环境多物种毒性的预测方法,其特征在于,所述步骤2包括以下步骤:步骤2a,缺失值超过三分之一的数据由于其所含信息过少而被剔除;步骤2b,对于数值型变量,以范围形式记载的变量被此范围的平均值代替,缺失值则以对应特征的平均值代替;对于特征型变量;需要进行数字化以用于建模,所述数字化采用one-hot编码;对于光照条件,采用24小时内的光照时长的占比作为代替;对于数量众多的物种,采用基于物种营养级进行分类,因为营养级往往代表了食物链中不同物种的关系,而mnms在食物链的高级生物中的富集往往通过捕食渠道发生;步骤2c,为了防止某个变量的过量贡献和预测偏见的发生,在建模前对数值型变量进行归一化,所用公式如下所示:其中i是代表数据序号,i为正整数,x
i
是第i个特征值,μ
i
是第i个特征的平均值,σ
i
是第
i个特征的标准差sd,x
i

则是第i个特征值在归一化后的值;经过以上的处理步骤后,数据集由原始状态达到可用于训练模型的状态。6.根据权利要求1所述的一种金属纳米材料对水环境多物种毒性的预测方法,其特征在于,所述步骤3中多物种毒性预测模型开发包括采用随机森林rf模型算法,支持向量机svm模型算法,和人工神经网络ann模型算法;所述表现评估包括采用分类指标和回归任务指标。7.根据权利要求1所述的一种金属纳米材料对水环境多物种毒性的预测方法,其特征在于,所述步骤4中包括:其中q2为内部交叉验证系数,i是代表特征序号,n为正整数,y
i
是特征的观察值,是特征预测值,是特征的平均值;是特征的平均值;其中q
ext2
为外部验证决定系数,rse
ext
平方根误差,i是代表特征序号,n为正整数,y
i
是特征的观察值,是特征的预测值,m代表验证集中数据的数量。8.根据权利要求1所述的一种金属纳米材料对水环境多物种毒性的预测方法,其特征在于,所述步骤5中分析特征的重要性采用以下4个指标:平均最小深度,p值,节点纯度增加,以及均方误差mse增加,从而避免了单一指标造成的偏见,其中p值是概率模型中用来判定假设检验结果的一个参数;所述重要特征包括暴露时长duration,水力学半径diameter,光照illumination,和粒径size。

技术总结
一种金属纳米材料对水环境多物种毒性的预测方法,相比于其他的毒性预测模型,本方案的特点是通过将纳米材料性质,暴露环境因素和物种多样性综合考虑在内,尽可能把对毒性效果有影响的因素纳入到建模过程中,有利于通过对不同算法的比较寻找出最优方案,并在取得了较高准确率的预测结果的同时还分析了各因素的重要性和相互间的交互作用,最后运用到实际预测中去,或对后续实验和纳米材料设计提供指导意见。意见。意见。


技术研发人员:王颖 周运驰 范文宏
受保护的技术使用者:北京航空航天大学
技术研发日:2022.11.25
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐