一种基于小样本的药物抑制能力预测方法
未命名
08-22
阅读:98
评论:0
1.本发明涉及使用计算辅助药物研究技术领域,尤其涉及一种基于小样本的药物抑制能力预测方法。
背景技术:
2.肿瘤细胞的代谢与正常细胞有显著差异。即使在有氧条件下,它们也依靠糖酵解来提供三磷酸腺苷(atp),从而完成分裂、增殖和入侵的过程。因此,糖酵解途径中的重要辅酶烟酰胺腺嘌呤二核苷酸(nad+)在肿瘤细胞中的消耗显著增加。肿瘤细胞中的nad主要来源于主要的挽救途径。烟酰胺磷酸核糖转移酶(nampt)作为nad挽救合成途径中的限速酶,被发现在癌细胞中上调,增加肿瘤细胞中nad+的水平,促进细胞生物学过程如糖酵解过程。它还可以通过影响nad依赖酶的活性和上调,间接促进还原谷胱甘肽(gsh)与活性氧(ros)的结合从而使肿瘤细胞能够适应相对缺乏能量的环境,并增强其抵抗力到不利环境。因此,nampt作为一个潜力抗肿瘤治疗靶点和nampt抑制剂可能提供治疗癌症的绝好机会。
3.尽管生物技术和对生物系统的理解已经取得了进步,但药物设计仍然是一个漫长、昂贵、困难和低效的过程。药物发现过程中最费力的一项工作是从库中选择化合物进行实验评价。计算机辅助药物设计在加速潜在先导化合物的发现和优化其结构方面发挥着至关重要的作用。在计算机辅助药物设计中,机器学习被广泛用于训练模型来预测目标特性,包括它们的效力和毒性:比如使用支持向量机结合药效团建模来区分化合物活性;使用随机森林与开源数据结合预测相关酶的活性;使用贝叶斯算法处理和组织庞大的分子数据集,利用贝叶斯分类器进行突变型预测。各种深度学习方法也通过通用学习过程来发现化合物数据中的隐式关系:比如使用深度卷积神经网络来预测分子的化学性质;利用多任务自编码器深度神经网络对细胞色素的抑制效力进行预测;利用深度学习方法和随机森林计算预测的生物活性;通过训练两层神经网络,利用结构特征、物理化学性质和残留物接触预测模型质量。
4.利用机器学习或者深度学习进行分类或者回归,往往需要大量的数据才能获得较好的结果,对于药物预测同样如此。由于化合物分子通常具有几千种的分子特性对应几千个维度的特征空间,目标抑制效力可能只与少数特征有关系,过大的特征空间会导致模型训练过程中抓不住重点、训练时间过长;不同机构或使用实验测定的实验数据有时差异很大无法集中起来凑成一个大样本对分子特性进行预测,因此用于预测特定分子抑制效力实验的数据集样本数目通常很少;由于测量的工具以及化合物分子所处的生物细胞环境的差异,用于训练的数据集可能会有误差。因此小样本、较高的特征空间维度、以及测量时的系统误差导致了利用机器学习或者深度学习进行药物预测的结果往往准确率很低。对于用回归的方法进行对药物抑制效力进行准确值预测的实验都具有无法分辨出具有相似抑制效力的化合物的缺陷。
技术实现要素:
5.本发明实施例所要解决的技术问题在于,提供一种基于小样本的药物抑制能力预测方法,可利用机器学习或者深度学习的方法进行回归预测存在样本量少,特征维度大,以及回归模型不重视化合物之间的联系的问题。
6.为了解决上述技术问题,本发明实施例提供了一种基于小样本的药物抑制能力预测方法,包括以下步骤:
7.s1:将小规模抑制效力数据集中的特征向量集合ω经过一个参数矩阵进行降维重构为特征向量集合ω
′
;
8.s2:将s1得到的特征向量集合ω
′
进行扩充为特征向量集合ω
″
,同时对所述小规模抑制效力数据集中的标签集合ι也进行扩充为数据标签ι’;
9.s3:将扩充后的特征向量集合ω
″
和数据标签ι’放入一个由三层感知机组成的分类器,利用交叉熵损失函数对分类器进行有监督的二分类训练;
10.s4:使用小批量梯度下降方法对三层感知机的公式进行优化;
11.s5:将n个已知抑制效力值的化合物分子以及其特征向量建立表格,将需要检测抑制效力的化合物分子的特征向量和表中其他已知抑制效力值的化合物分子的特征向量一起放入训练好的模型中,通过对比预测预测结果,得出待检测的化合物分子和其他已知抑制效力的化合物分子的抑制效力的相对大小,再通过查表,可以知道待检测的化合物的抑制效力值的范围。
12.其中,所述s1的降维重构的方法包括以下步骤:
13.特征空间重新构建为
[0014][0015]
将原始数据集的特征空间维度从δ维转变为ε1维,ε1<δ;
[0016]
其中代表δ
×
ε1大小的注意力矩阵,ω
‘
代表经过特征空间转换之后的新的特征空间,表示重构后的特征空间有ε个样本,每个样本由长度为ε1的向量组成,向量中的每个元素都是实数。
[0017]
所述s2的对特征向量集合ω
′
进行扩充的步骤包括:
[0018]
特征向量集扩充为特征向量集扩充为
[0019]
数据标签扩充为
[0020][0021][0022]
对于特征向量的处理使用concat操作:concat代表拼接操作,该操作将特征向量集合中的每个元素进行两两拼接形成新的特征向量;对于标签的处理是通过比较两个元素的标签值的大小:当标签集合中第τ个元素的值小于等于第χ个元素的值的时候,新的标签
的值为0,否则为1;
[0023]
ω
τ
′
代表ω
‘
中的第τ个元素,ω
χ
′
代表ω
‘
中的第χ个元素,ι
τ
代表ι中第τ个元素,ι
χ
代表ι中第χ个元素,t代表矩阵的转置,表示后的特征空间集合有(ε
×
(ε-1))个元素,每个元素是长度为(2
×
(ε1))的向量,向量中的每个元素都是实数,表示扩充后的标签集合有(ε
×
(ε-1))个元素,每个元素都是实数。
[0024]
其中,所述s3中三层感知机的公式为:
[0025][0026]
交叉熵损失函数为
[0027][0028]
将特征向量通过三层感知机得到预测的标签值,然后再将预测的标签值和真实标签值通过交叉熵损失函数计算损失,得到模型的预测损失值;
[0029]
其中,φ代表分类器的训练公式,ω
τχ
″
代表ω
″
中的第τχ个元素,softmax和sigmoid代表深度学习里面的激活函数,π
(1)
代表第一层感知机的权重参数,ξ
(1)
代表第一层感知机的偏置参数,π
(2)
代表第二层感知机的权重参数,ξ
(2)
代表第二层感知机的偏置参数,π
(3)
代表第三层感知机的权重参数,ξ
(3)
代表第三层感知机的偏置参数;loss代表损失值,log代表对数函数,ι
τχ
代表ι’中的第τχ个元素。
[0030]
其中,所述s4中分类器的权重值和偏置值的梯度计算公式为:
[0031][0032][0033]
权重值和偏置值的更新公式为:
[0034][0035][0036]
其中,i=1,2,3,δξ(i)代表第i层感知机偏置值的梯度,ξ(i)代表第i层感知机的偏置值,δπ(i)代表第i层感知机权重值的梯度,π(i)代表第i层感知机的权重值,代表求偏导的操作,α代表学习率,用来控制网络训练的快慢;
[0037]
在每一轮的迭代训练过程中,用损失函数对网络中的每一个参数求偏导,然后让网络中的每个参数减去参数的偏导数乘以学习率从而得到更新后的参数,然后继续训练网络直到网络收敛、损失值趋于稳定。
[0038]
实施本发明实施例,具有如下有益效果:本发明可以将药物数据集扩充到原始数据集的平方倍大小,而且还能将对药物抑制效力准确值预测的回归问题转化为对药物抑制效力值相对大小预测的分类问题,能够使抑制效力相对大小预测的准确率达到较高的水平,从而得到较为准确的抑制效力值的范围。
附图说明
[0039]
图1是本发明的整体流程示意图。
具体实施方式
[0040]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
[0041]
本发明实施例的一种基于小样本的药物抑制能力预测方法,所使用的小规模抑制效力数据集由特征向量集合ω和标签集合ι组成。ω是由数据集中特征向量组成的集合,ωi代表数据集中第i个样本的特征向量,ε代表数据集中的样本个数,δ代表特征向量的维度,t代表矩阵的转置,r代表实数集。ι是由数据集中的标签(抑制效力)组成的集合,签(抑制效力)组成的集合,ε代表数据集中的样本个数,ιi代表数据集中第i个样本的标签值(抑制效力),t代表矩阵的转置,r代表实数集。
[0042]
s1:由于小样本高纬度数据集往往具有数据稀疏性的特点,即样本点往往非常稀疏,只有少数特征是非零的,因此本发明设计将原来高维度的特征向量进行降维处理。
[0043]
特征空间重新构建为
[0044][0045]
这步操作将原始数据集的特征空间维度从δ维转变为ε1维,ε1<δ。
[0046]
其中代表δ
×
ε1大小的注意力矩阵,ω
‘
代表经过特征空间转换之后的新的特征空间,表示重构后的特征空间有ε个样本,每个样本由长度为ε1的向量组成,向量中的每个元素都是实数。
[0047]
s2:由于样本数量较少,本发明设计了一种数据增强方式,通过以下方式进行。
[0048]
特征向量集扩充为特征向量集扩充为数据标签扩充为数据标签扩充为
[0049][0050][0051]
对于特征向量的处理使用concat操作:concat代表拼接操作,该操作将特征向量集合中的每个元素进行两两拼接形成新的特征向量。对于标签的处理是通过比较两个元素的标签值的大小:当标签集合中第τ个元素的值小于等于第χ个元素的值的时候,新的标签ι
τχ
的值为0,否则为1。
[0052]
ω
τ
′
代表ω
‘
中的第τ个元素,ω
χ
′
代表ω
‘
中的第χ个元素。ι
τ
代表ι中第τ个元素,ι
χ
代表ι中第χ个元素。t代表矩阵的转置。表示后的特征空间集合有(ε
×
(ε-1))个元素,每个元素是长度为(2
×
(ε1))的向量,向量中的每个元素都是实数。表示扩充后的标签集合有(ε
×
(ε-1))个元素,每个元素都是实数。
[0053]
s3:将特征和标签放入一个由三层感知机组成的分类器,利用交叉熵损失函数对
分类器进行有监督的二分类训练。
[0054]
φ(ω
τχ
″
)=softmax(ν
(3)
+π
(3)
(sigmoid(ξ
(2)
+π
(2)
(ξ
(1)
+π
(1)
ω
τχ
″
)))),#(4)
[0055][0056]
将特征向量通过三层感知机得到预测的标签值,然后再将预测的标签值和真实标签值通过交叉熵损失函数计算损失,得到模型的预测损失值。
[0057]
(4)式是三层感知机的公式,(5)式是交叉熵损失函数的公式。φ代表分类器的训练公式,ω
τχ
″
代表ω
″
中的第τχ个元素,softmax和sigmoid代表深度学习里面的激活函数,π
(1)
代表第一层感知机的权重参数,ξ
(1)
代表第一层感知机的偏置参数,π
(2)
代表第二层感知机的权重参数,ξ
(2)
代表第二层感知机的偏置参数,π
(3)
代表第三层感知机的权重参数,ξ
(3)
代表第三层感知机的偏置参数。loss代表损失值,log代表对数函数,ι
τχ
代表ι’中的第τχ个元素。
[0058]
s4:利用小批量梯度下降对式(4)进行优化。
[0059][0060][0061][0062][0063]
分类器的权重值和偏置值的梯度计算公式为(6)和(7),权重值和偏置值的更新公式为(8)和(9)。在每一轮的迭代训练过程中,用损失函数对网络中的每一个参数求偏导,然后让网络中的每个参数减去参数的偏导数乘以学习率从而得到更新后的参数,然后继续训练网络直到网络收敛、损失值趋于稳定。
[0064]
i=1,2,3,δξ(i)代表第i层感知机偏置值的梯度,ξ(i)代表第i层感知机的偏置值,δπ(i)代表第i层感知机权重值的梯度,π(i)代表第i层感知机的权重值。代表求偏导的操作。α代表学习率,用来控制网络训练的快慢,α越大,感知机权重和偏置值更新得越快。
[0065]
s5:当需要检查某个化合物分子的抑制效力是否能够满足实验要求的时候,可以设计一个表,这个表有n行,代表n个已知抑制效力值的化合物分子,表有两列,第一列代表化合物分子的特征向量,第二列代表化合物分子的抑制效力值。接着,将需要检测抑制效力的化合物分子的特征向量和表中其他已知抑制效力值的化合物分子的特征向量一起放入训练好的模型中,通过观察模型的预测预测结果,可以知道待检测的化合物分子和其他已知抑制效力的化合物分子的抑制效力的相对大小,再通过查表,可以知道待检测的化合物的抑制效力值的范围,从而确定该化合物是否能够作为实验样本进行实验。
[0066]
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
技术特征:
1))个元素,每个元素是长度为(2
×
(ε1))的向量,向量中的每个元素都是实数,表示扩充后的标签集合有(ε
×
(ε-1))个元素,每个元素都是实数。4.根据权利要求1所述的基于小样本的药物抑制能力预测方法,其特征在于,所述s3中三层感知机的公式为:φ(ω
τχ
″
)=softmax(ξ
(3)
+π
(3)
(sigmoid(ξ
(2)
+π
(2)
(ξ
(1)
+π
(1)
ω
τχ
″
))));交叉熵损失函数为将特征向量通过三层感知机得到预测的标签值,然后再将预测的标签值和真实标签值通过交叉熵损失函数计算损失,得到模型的预测损失值;其中,φ代表分类器的训练公式,ω
τχ
″
代表ω
″
中的第τχ个元素,softmax和sigmoid代表深度学习里面的激活函数,π
(1)
代表第一层感知机的权重参数,ξ
(1)
代表第一层感知机的偏置参数,π
(2)
代表第二层感知机的权重参数,ξ
(2)
代表第二层感知机的偏置参数,π
(3)
代表第三层感知机的权重参数,ξ
(3)
代表第三层感知机的偏置参数;loss代表损失值,log代表对数函数,ι
τχ
代表ι’中的第τχ个元素。5.根据权利要求4所述的基于小样本的药物抑制能力预测方法,其特征在于,所述s4中分类器的权重值和偏置值的梯度计算公式为:分类器的权重值和偏置值的梯度计算公式为:权重值和偏置值的更新公式为:权重值和偏置值的更新公式为:其中,i=1,2,3,δξ
()
代表第i层感知机偏置值的梯度,ξ
()
代表第i层感知机的偏置值,δπ
()
代表第i层感知机权重值的梯度,π
()
代表第i层感知机的权重值,代表求偏导的操作,α代表学习率,用来控制网络训练的快慢;在每一轮的迭代训练过程中,用损失函数对网络中的每一个参数求偏导,然后让网络中的每个参数减去参数的偏导数乘以学习率从而得到更新后的参数,然后继续训练网络直到网络收敛、损失值趋于稳定。
技术总结
本发明实施例公开了一种基于小样本的药物抑制能力预测方法,将原始的特征向量经过一个注意力矩阵之后得到维度更小、更具有代表性的特征向量,再将得到的特征向量进行两两拼接,按照原始标签的大小定义新标签为0或者1。再将拼接后的特征向量通过一个由卷积层和全连接层组成的分类器模型,将需要检测抑制效力的化合物分子的特征向量和表中其他已知抑制效力值的化合物分子的特征向量一起放入训练好的模型中,通过对比预测预测结果,得出相对大小,再通过查表,得出待检测的化合物的抑制效力值的范围。本发明获得抑制效力值的范围比直接通过回归的方式预测抑制效力的精确值更简单,而且需要的样本数量更少。而且需要的样本数量更少。而且需要的样本数量更少。
技术研发人员:周腾 杨丽莎 李泽权
受保护的技术使用者:汕头大学
技术研发日:2023.05.29
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
