一种基于层次注意力融合多特征的药物多毒性预测方法
未命名
09-17
阅读:81
评论:0

1.本发明涉及药物毒性预测技术领域,特别涉及一种基于层次注意力融合多特征的药物多毒性预测方法。
背景技术:
2.药物安全性是制药过程高代价的主要原因,因药物安全导致的药物研发失败大概占了药物研发失败总量的30%。另一方面,药物上市后的跟踪情况表明,化学毒性是药物发现实践后期导致停药的主要问题。因此,在药物发现阶段,正确预测药物包含的毒副作用将有助于加速后续的实验验证进程。
3.药物毒性预测则是利用已有药物的毒性数据,结合新药的分子结构、毒性相关的物化性质、分子指纹等多种分子相关特征,通过计算方法综合分析各类分子特征,预测新开发药物可能存在的化合物毒性,以期在药物研发早期过滤掉对人体有毒副作用的药物,减少后续生物实验验证的成本。
4.毒性相关机制复杂多变,大部分的化合物还没有足够可靠的毒性数据,这是药物毒性预测计算方法研究的一个挑战。因为没有足够可靠的毒性数据,以及与毒性相关的复杂多样的机制,机器学习方法不足以构建稳健的预测模型,导致难以准确预测药物毒性。考虑到不同毒性之间存在潜在的关系,通过充分利用从相关毒性数据中获得的信息,多任务学习(mtl)和元学习(mnn)将是毒性数据缺乏时的可行解决方案。
5.药物毒性不仅与化合物子结构有关,也与化合物的物理化学性质及药物分子指纹等分子其他特征有关。在数据分析时需要综合考虑分子的多种毒性相关特征数据,这些数据都具有高维特性、复杂结构和类型多样等特征,这给人们研究设计更有效的药物毒性预测算法提出了挑战。
6.面对化合物分子类型多样、高维的物理化学性质和化合物复杂的分子结构,如何对多种类型的特征进行融合,并在提取特征时能重点关注对毒性结果有重要影响的特征是一个巨大的挑战。
技术实现要素:
7.本发明实施例提供了一种基于层次注意力融合多特征的药物多毒性预测方法,以至少解决相关技术中药物毒性预测困难的技术问题。
8.根据本发明实施例的一方面,提供了一种基于层次注意力融合多特征的药物多毒性预测方法,包括:
9.构建深度神经网络学习药物分子物理化学性质的抽象特征;
10.构建图神经网络学习药物化合物原子的抽象特征;
11.构建带门限的卷积神经网络学习药物分子指纹的抽象特征;
12.采用层次注意力机制融合药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征,建立药物毒性多分类模型,通过训练药物毒性多分类模型进行药物的多毒
性预测。
13.可选地,所述药物分子物理化学性质的类型包括:结构描述符、拓扑描述符、分子连接性描述符、kappa描述符、电拓扑状态描述符、自相关描述符、电荷描述符、分子性质描述符和moe类型描述符,每一类分子描述符均包括多个分子性质。
14.可选地,所述药物分子物理化学性质为一组离散的特征值,按不同的描述符去标识;
15.所述深度神经网络的每一层学习输入特征与隐藏特征之间的线性关系通过下式计算每一层的输出隐藏层:
[0016][0017]
其中,h
(l-1)
是h
(l)
层的输入,初始输入特征h0为分子性质,是h
(l)
层的权重矩阵,b
(l)
是h
(l)
层的偏差,l表示当前层,为所述深度神经网络的总层数;
[0018]
所述深度神经网络的输出为分子物化性质特征向量,表达式为:d={d1,d2,...,d
|dn|
},|dn|是分子物化性质特征向量的长度。
[0019]
可选地,所述药物化合物原子表示为化合物分子图中的一个节点,所述药物化合物原子的初始原子特征包括:原子类型、原子的度、形式电荷、自由基电子数、杂化类型、是否芳香族化合物、连接的氢原子数、是否手性化合物及立体构型,每个初始原子特征包括多种类型。
[0020]
可选地,构建图神经网络学习药物化合物原子的抽象特征包括:
[0021]
定义分子图其中,表示药物化合物原子的集合,是原子类型的集合,是中每个原子特征的集合,ε是相邻原子化学键的集合,通过邻接矩阵a来表示;
[0022]
图神经网络通过消息传递函数更新拓扑结构特征,所述消息传递函数的表达式为:
[0023][0024]
其中,i是单位矩阵,h
(l)
是第l层的输出,是第l层的权重矩阵,是的度矩阵,σ(
·
)表示激活函数;
[0025]
图神经网络的输出为原子特征向量,表示为:c={c1,c2,...,c
|cn|
},|cn|是原子数量。
[0026]
可选地,所述药物分子指纹为分子结构编码而成的一组二进制序列;所述带门限的卷积神经网络中每一层都包括一个卷积层和一个门控线性单元;
[0027]
所述带门限的卷积神经网络的隐藏层h
l
的输出h
l
(x
l
)表示为:
[0028][0029]
其中,是h
l
层的输入,和是隐藏层的参数,l表示当前层,为所述带门限的卷积神经网络的总层数,n是指纹序列的长度,m1和m2分别是输入特征和隐藏特征的维度,k是卷积核每次处理的一个块的
大小,σ函数是激活函数sigmoid,是两个特征矩阵的内积;
[0030]
所述带门限的卷积神经网络的输出为分子指纹特征向量,表示为:f={f1,f2,...,f
|fn|
},fn是指纹特征向量的长度。
[0031]
可选地,建立药物毒性多分类模型包括:
[0032]
分别采用自注意力函数关注药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征自身的重要信息;
[0033]
通过dropout层、残差计算和层归一化更新分子物化性质特征向量、原子特征向量和分子指纹特征向量;
[0034]
通过多头注意力函数关注药物分子物理化学性质与药物化合物原子之间的重要交互信息;
[0035]
通过多头注意力函数关注药物分子指纹与药物化合物原子之间的重要交互信息;
[0036]
结合药物分子物理化学性质与药物化合物原子之间的重要交互信息和药物分子指纹与药物化合物原子之间的重要交互信息,通过残差计算和前馈网络层得到分子物化性质、原子和分子指纹的交互特征序列;
[0037]
分别对每个交互特征序列进行取模和计算注意力权重;
[0038]
根据所述交互特征序列和注意力权重计算药物毒性向量;
[0039]
所述药物毒性向量通过一个多层感知和多分类处理,得到n个药物毒性的预测概率。
[0040]
根据本发明实施例的另一方面,还提供了一种基于层次注意力融合多特征的药物多毒性预测系统,包括:
[0041]
第一数据处理模块,用于构建深度神经网络学习药物分子物理化学性质的抽象特征;
[0042]
第二数据处理模块,用于构建图神经网络学习药物化合物原子的抽象特征;
[0043]
第三数据处理模块,用于构建带门限的卷积神经网络学习药物分子指纹的抽象特征;
[0044]
层次注意力机制模块,采用层次注意力机制融合药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征,建立药物毒性多分类模型,通过训练药物毒性多分类模型进行药物的多毒性预测。
[0045]
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的基于层次注意力融合多特征的药物多毒性预测方法。
[0046]
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的基于层次注意力融合多特征的药物多毒性预测方法。
[0047]
与现有的技术相比,本发明具有如下有益效果:
[0048]
本发明实施例中,与其他已有的基于关系图卷积网络rgcn的药物毒性预测算法和基于多任务图注意力框架的mga药物毒性预测算法相比,本文提出的基于层次注意力融合多特征的药物多毒性预测方法通过多层注意力机制,不仅关注了药物分子物理化学性质、药物化合物原子和药物分子指纹自身特征的重要信息,还关注了药物分子物理化学性质与
药物化合物原子之间、药物分子指纹与药物化合物原子之间的重要交互信息,建立的预测模型综合考虑了药物分子物化性质、药物化合物原子和药物分子指纹三者从不同方面对药物毒性的影响,从而能获得更准确的药物多毒性预测结果。
附图说明
[0049]
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一个实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0050]
图1是根据本发明实施例的一种基于层次注意力融合多特征的药物多毒性预测方法的流程图;
[0051]
图2是根据本发明实施例的在不同关注角度下12种毒性预测的auc值;
[0052]
图3是根据本发明实施例的采用不同药物分子指纹对12种毒性预测获得的auc值。
具体实施方式
[0053]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
[0054]
为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
[0055]
需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0056]
实施例1
[0057]
根据本发明实施例,提供了一种基于层次注意力融合多特征的药物多毒性预测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0058]
图1是根据本发明实施例的一种基于层次注意力融合多特征的药物多毒性预测方法的流程图。
[0059]
如图1所示,药物多毒性预测方法包括如下步骤:
[0060]
s1、构建深度神经网络dnn学习药物分子物理化学性质的抽象特征;
[0061]
s2、构建图神经网络gcn学习药物化合物原子的抽象特征;
[0062]
s3、构建带门限的卷积神经网络(conv+glu)学习药物分子指纹的抽象特征;
[0063]
s4、采用层次注意力机制融合药物分子物理化学性质、药物化合物原子和药物分
子指纹的抽象特征,建立药物毒性多分类模型,通过训练药物毒性多分类模型进行药物的多毒性预测,实现药物的多毒性预测。
[0064]
具体的,在层次注意力的第一层,采用自注意力机制分别提取药物分子物理化学性质、药物化合物原子和药物分子指纹自身的重要特征yd、yc和yf,在层次注意力的第二层,分别提取药物分子物理化学性质与药物化合物原子之间的重要特征y
dc
、药物分子指纹和药物化合物原子之间的重要特征y
fc
,且通过一个前向反馈层ffw将这两组特征进行结合获得y
ffw
=y
fc
+ffw(y
dc
),经过n次迭代学习后,获得到交互特征序列y。最后,通过全连接层和sigmoid层来计算最终输出
[0065][0066]
其中,是算法预测到的12种药物毒性标签的概率值,leaky_relu是一个非线性的激活函数。
[0067]
作为一种可选的实施例,步骤s1中药物分子物理化学性质为一组离散的特征值,按不同的描述符去标识。
[0068]
药物分子物理化学性质的类型包括:结构描述符、拓扑描述符、分子连接性描述符、kappa描述符、电拓扑状态描述符、自相关描述符、电荷描述符、分子性质描述符和moe类型描述符,每一类分子描述符均包括多个分子性质。
[0069]
具体的,本实施例使用到9类分子描述符,共包含615个分子性质,详细信息见表1。
[0070]
表1化合物分子描述符
[0071][0072][0073]
本实施例通过构建dnn网络来学习药物分子物理化学性质的高维抽象特征表示。深度神经网络的每一层学习输入特征与隐藏特征之间的线性关系通过下式计算每一层的输出隐藏层h
(l)
:
[0074][0075]
其中,h
(l-1)
是h
(l)
层的输入,初始输入特征h0为分子性质,是h
(l)
层的权重矩阵,b
(l)
是h
(l)
层的偏差,l表示当前层,为深度神经网络的总层数;
[0076]
深度神经网络的输出为分子物化性质特征向量,表达式为:d={d1,d2,...,d
|dn|
},|dn|是分子物化性质特征向量的长度。
[0077]
作为一种可选的实施例,步骤s2中,药物化合物原子表示为化合物分子图中的一个节点,原子特征的学习通过整合相邻原子特征得到原子特征的抽象表示。药物化合物原子的初始原子特征包括:原子类型、原子的度、形式电荷、自由基电子数、杂化类型、是否芳香族化合物、连接的氢原子数、是否手性化合物及立体构型,每个初始原子特征包括多种类型。
[0078]
具体的,本实施例使用图卷积神经网络gcn模型学习药物化合物原子的抽象特征包括34个原子特征,详细特征类型如表2所示。
[0079]
表2药物化合物原子类型
[0080][0081]
构建图神经网络学习药物化合物原子的抽象特征包括:
[0082]
s21、定义分子图其中,表示药物化合物原子的集合,是原子类型的集合,是中每个原子特征的集合,ε是相邻原子化学键的集合,通过邻接矩阵a来表示;
[0083]
s22、图神经网络通过消息传递函数更新拓扑结构特征,消息传递函数的表达式为:
[0084][0085]
其中,i是单位矩阵,h
(l)
是第l层的输出,是第l层的权重矩阵,是的度矩阵,σ(
·
)表示激活函数;
[0086]
s23、图神经网络的输出为原子特征向量,表示为:c={c1,c2,...,c
|cn|
},|cn|是原子数量。
[0087]
作为一种可选的实施例,在步骤s3中,药物分子指纹为分子结构编码而成的一组二进制序列。本技术通过带门限的卷积神经网络来学习药物分子指纹的抽象表示,带门限的卷积神经网络中每一层都包括一个卷积层和一个门控线性单元(gated linear unit,简称glu);
[0088]
带门限的卷积神经网络的隐藏层h
l
的输出h
l
(x
l
)表示为:
[0089][0090]
其中,是h
l
层的输入,和
是隐藏层的参数,l表示当前层,为带门限的卷积神经网络的总层数,n是指纹序列的长度,m1和m2分别是输入特征和隐藏特征的维度,k是卷积核每次处理的一个块的大小,σ函数是激活函数sigmoid,是两个特征矩阵的内积;
[0091]
带门限的卷积神经网络的输出为分子指纹特征向量,表示为:f={f1,f2,...,f
|fn|
},fn是指纹特征向量的长度。
[0092]
作为一种可选的实施例,在步骤s4中,建立药物毒性多分类模型包括:
[0093]
s41、分别采用自注意力函数关注药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征自身的重要信息;
[0094]
其中,本实施例所采用的注意力函数来自于transformer模型:
[0095][0096]
其中,查询q、键值k和值v是注意力函数的3个输入参数。首先采用缩放点积函数计算查询q和键值k之间的相似度,然后通过softmax函数对相似度进行归一化得到注意力权重,最后根据权重系数对值v进行加权求和,特征叠加注意力系数,以增强对值v中重要信息的关注。
[0097]
在层次注意力机制的第一层,采用自注意力函数关注分子物化性质特征向量d、原子特征向量c和分子指纹特征向量f自身的重要信息。将分子物化性质特征向量d、原子特征向量c和分子指纹特征向量f分别作为查询qd、qc和qf,键值kd、kc和kf以及值vd、vc和vf。每个自注意力函数的3个输入参数键值k、值v和查询q都使用相同的特征向量,通过以下注意力计算公式关注各自的重要信息:
[0098][0099][0100][0101]
其中,ds是根据查询q和键值k的隐藏层维度确定的缩放因子。首先分别计算药物分子物理化学性质、药物化合物原子和药物分子指纹各自特征向量中每个特征值之间的相似度,然后通过softmax函数对相似度进行归一化处理得到特征值之间的注意力权重系数,最后根据权重系数对药物分子物理化学性质、药物化合物原子和药物分子指纹原本的特征值进行加权求和,特征值叠加注意力权重系数,以增强药物分子物理化学性质、药物化合物原子和药物分子指纹对自身重要信息的关注。
[0102]
s42、通过dropout层、残差计算和层归一化更新分子物化性质特征向量d、原子特征向量c和药物分子指纹特征向量f:
[0103]
d=layernorm(d+dropout(attention(qd,kd,vd)))
[0104]
c=layernorm(c+dropout(attention(qc,kc,vc)))
[0105]
f=layernorm(f+dropout(attention(qf,kf,vf)))
[0106]
其中,dropout函数用于防止过拟合,layernorm是层归一化函数。
[0107]
s43、在层次注意力机制的第二层,通过多头注意力函数将药物分子物理化学性
质、药物化合物原子和药物分子指纹分别映射到一个加权的交互向量,即通过注意力函数关注药物分子物理化学性质与药物化合物原子之间的重要交互信息,通过注意力函数关注药物分子指纹与药物化合物原子之间的重要交互信息;从而实现关注药物分子物理化学性质与药物化合物原子之间的重要交互信息以及药物分子指纹与药物化合物原子之间的重要交互信息。分配给交互向量中每个交互值的权重由两者之间的注意力系数计算得到:
[0108][0109][0110]
原子特征叠加原子对物化性质的注意力权重系数,以增强原子特征对物化性质重要信息的关注,同时原子特征叠加原子对分子结构的注意力权重系数,以增强原子特征对分子结构重要信息的关注。
[0111]
s44、结合药物分子物理化学性质与药物化合物原子之间的重要交互信息和药物分子指纹与药物化合物原子之间的重要交互信息,通过残差计算和前馈网络层得到分子物化性质、原子和药物分子指纹的交互特征序列x:
[0112]
x=layernorm(attenhon(qc,kd,vd)+ffn(attention(qc,kf,vf))
[0113]
其中,ffn是一个前馈网络层,layernorm是层归一化函数。
[0114]
s46、分别对每个交互特征序列进行取模和计算注意力权重;
[0115]
具体的,经过两层注意力层处理后,提取到药物分子物理化学性质、药物化合物原子和药物分子指纹的交互特征序列x={x1,x2,...,xa},对每一个向量xi取模:
[0116][0117]
其中,i=1,2,...,a。
[0118]
每个向量的注意力权重αi使用softmax函数计算得到:
[0119][0120]
s47、根据交互特征序列和注意力权重计算药物毒性向量;
[0121]
具体的,药物毒性的输出向量y
tox
通过第二层提取到的交互特征xi与注意力权重αi的加权和计算得出:
[0122][0123]
s48、药物毒性向量通过一个多层感知和多分类处理,得到n个药物毒性的预测概率
[0124]
s49、使用二元交叉熵损失函数loss来评估预测结果与输入标签之间的误差,使得预测结果与原始输入的标签y1,y2,...,yn之间误差最小。同时,为了处理缺失的标签,本技术中为每个样本引入了二进制向量mi,若样本有第i种药物毒性的标签,则mi为1,否则为0。
[0125]
[0126]
其中,yi是第i种药物毒性的二元标签0或1,i=1,2,...,n。
[0127]
实施例2
[0128]
对本发明基于层次注意力融合多特征的药物多毒性预测方法hatp的具体实例进行详细说明,以使本领域技术人员更了解本发明:
[0129]
选择与tox21挑战赛中的预测算法进行实验性能比较,本技术选择有代表性的参赛队amaziz的预测算法和参赛队dmlab的预测算法。此外,为了与其他基于注意力框架的毒性预测算法进行实验性能比较,本技术选择了基于关系图卷积网络rgcn的药物毒性预测算法和基于多任务图注意力框架的药物毒性预测算法mga。同时,为了综合考虑算法的预测能力,本技术计算了12个毒性预测结果的平均值。多分类算法的平均值计算有macro和micro两种常用的方法。
[0130]
macro平均法是先在每个二分类上分别计算各类的指标,然后取平均值。micro平均法则先计算总tp值,其次计算总fp值,然后按指标公式计算得到最终的平均值。在类别不均衡时,多采用micro平均法。本文采用auc的micro平均值进行性能评价。表3给出了5种药物毒性预测算法在tox21数据集上的实验结果auc值。
[0131]
表3五种毒性预测算法在tox21测试集上运行得到的auc值
[0132][0133][0134]
从表3可以看出,与其他4种算法相比,本技术提出的算法hatp在数据集tox21的12个毒性标签中的nr-ar-lbd、nr-aromatase、nr-ar和nr-er这4个毒性标签的预测中获得了更高的auc值,算法mga在nr-er-lbdt、sr-are和sr-atad5这3种毒性标签上获得了更高的auc值,而amaziz算法在nr-ahr和sr-mmp这两种毒性标签上获得更高的auc值,dmlab算法则在nr-ppar-gamma、sr-hse和sr-p53这3种毒性标签上获得更高的auc值。实验结果表明,与其他4种算法相比,本文算法hatp的micro平均值更高,这是因为算法hatp融合了化学物化性质、原子特征和分子结构特征进行建模,并通过层次注意力机制关注了多种不同类型特征之间的重要信息。这表明,整体而言,本技术提出的算法hatp在预测药物多毒性方面具有
更大的优势。
[0135]
同时关注物化性质和分子指纹的作用分析:
[0136]
本技术提出的hatp同时关注了原子特征和物化性质之间、原子特征和分子指纹之间的重要交互特征。通过实验对比发现:与只关注原子特征和物化性质或者只关注原子特征和分子指纹之间的重要交互特征相比,同时关注原子特征和物化性质之间、原子特征和分子指纹之间的重要信息更能全面地分析药物毒性相关的重要特征。本技术在不同关注角度下12种毒性测试得到的auc值实验结果如图2所示。
[0137]
从图2可以看出,对于大多数药物毒性而言,算法hatp只关注原子特征和物化性质的预测结果auc值与同时关注原子特征和物化性质之间、原子特征和分子指纹之间重要信息的预测结果auc值的差距较小,但只关注原子特征和分子指纹的预测结果与同时关注原子特征和物化性质之间、原子特征和分子指纹之间重要信息的预测结果差距较大。这说明物化性质对于药物毒性预测来说是比较重要的一组特征,而分子指纹特征的加入,可以提高药物毒性预测的准确率。因此,物化性质、原子特征和分子指纹特征对药物毒性预测是互补的,综合利用这3类特征建模才能更大程度地提高算法预测的准确率。
[0138]
分子指纹选择的分析:
[0139]
分子指纹是用固定长度的数组来编码表示分子结构特征的一种方法,指纹中的不同比特位表示某些子结构存在与否。分子指纹的主要应用是通过计算分子指纹之间的距离得到分子之间的相似程度。分子指纹主要包含有基于键值的指纹、药效团指纹、基于拓扑或路径的指纹和环形指纹这四种类型。
[0140]
对比了主流的maccs指纹和ecfp4指纹在药物毒性预测中的效果。maccs指纹是设计在通用子结构键上的指纹,是在mdl分子数据库中进行子结构筛选的快速方法。ecfp4是一组特征集指纹,是一种长度为1024位、半径为2的摩根指纹。算法hatp分别采用maccs指纹和ecfp4指纹作为门限卷积网络的输入进行了实验对比,结果如图3所示。
[0141]
图3的结果表明,算法hatp采用maccs指纹的预测得到的auc值更高。这是因为ecfp4指纹是由1024位的0,1序列构成,tox21训练数据集中化合物生成的ecfp4指纹中大多位数的取值为0,导致其数据稀疏度高;而maccs指纹基于子结构设计,且其总的位数只有167位,tox21训练数据集中化合物生成的maccs指纹数据稠密度较高。因此,算法hatp采用maccs指纹进行药物多毒性预测获得的效果更佳。
[0142]
实施例3
[0143]
根据本发明实施例的另一方面,还提供了一种基于层次注意力融合多特征的药物多毒性预测系统,药物多毒性预测系统应用上述的药物多毒性预测方法,基于层次注意力融合多特征的药物多毒性预测系统包括:
[0144]
第一数据处理模块,用于构建深度神经网络dnn学习药物分子物理化学性质的抽象特征;
[0145]
第二数据处理模块,用于构建图神经网络gcn学习药物化合物原子的抽象特征;
[0146]
第三数据处理模块,用于构建带门限的卷积神经网络学习药物分子指纹的抽象特征;
[0147]
层次注意力机制模块,用于采用层次注意力机制融合药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征,建立药物毒性多分类模型,通过训练药物毒性
多分类模型进行药物的多毒性预测。
[0148]
作为一种可选的实施例,层次注意力机制模块包括:
[0149]
自注意力模块,三个自注意力模块分别关注药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征自身的重要信息;
[0150]
第一残差及归一化模块,每一个自注意力模块连接一个第一残差及归一化模块,用于对关注药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征的重要信息进行相应的更新分子性质特征向量d、原子特征向量c和分子指纹特征向量f;
[0151]
多头注意力模块,用于通过注意力函数将药物分子物理化学性质和药物化合物原子、药物化合物原子和药物分子指纹分别映射到一个加权的交互向量;具体的,采用两个多头注意力模块分别通过注意力函数关注药物分子物理化学性质与原子之间的重要交互信息和通过注意力函数关注药物分子指纹与原子之间的重要交互信息;
[0152]
残差计算及前馈网络层,用于结合药物分子物理化学性质与药物化合物原子之间的重要交互信息和药物分子指纹与药物化合物原子之间的重要交互信息,通过残差计算和前馈网络层得到药物分子物理化学性质、药物化合物原子和药物分子指纹的交互特征序列;分别对每个交互特征序列进行取模和计算注意力权重,根据交互特征序列和注意力权重计算药物毒性向量;
[0153]
全连接层和sigmoid层,用于对药物毒性向量通过一个多层感知和多分类处理,得到n个药物毒性的预测概率。
[0154]
本发明不局限于以上的具体实施方式,以上仅为本发明的较佳实施案例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
[0155]
实施例4
[0156]
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述中任意一项的基于层次注意力融合多特征的药物多毒性预测方法。
[0157]
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述计算机可读存储介质包括存储的程序。
[0158]
可选地,在程序运行时控制计算机可读存储介质所在设备执行以下功能:构建深度神经网络学习药物分子物理化学性质的抽象特征;构建图神经网络学习药物化合物原子的抽象特征;构建带门限的卷积神经网络学习药物分子指纹的抽象特征;采用层次注意力机制融合药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征,建立药物毒性多分类模型,通过训练药物毒性多分类模型进行药物的多毒性预测。
[0159]
实施例5
[0160]
根据本发明实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述中任意一项的基于层次注意力融合多特征的药物多毒性预测方法。
[0161]
本发明实施例提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现基于层次注意力融合多特征的药物多毒
性预测方法的步骤。
[0162]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0163]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0164]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的系统实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接可以是电性或其它的形式。
[0165]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0166]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0167]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-0nlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0168]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:
1.一种基于层次注意力融合多特征的药物多毒性预测方法,其特征在于,包括:构建深度神经网络学习药物分子物理化学性质的抽象特征;构建图神经网络学习药物化合物原子的抽象特征;构建带门限的卷积神经网络学习药物分子指纹的抽象特征;采用层次注意力机制融合药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征,建立药物毒性多分类模型,通过训练药物毒性多分类模型进行药物的多毒性预测。2.根据权利要求1所述的基于层次注意力融合多特征的药物多毒性预测方法,其特征在于,所述药物分子物理化学性质为一组离散的特征值,按不同的描述符去标识;所述深度神经网络的每一层学习输入特征与隐藏特征之间的线性关系通过下式计算每一层的输出隐藏层:其中,h
(l-1)
是h
(l)
层的输入,初始输入特征h0为分子性质,是h
(l)
层的权重矩阵,b
(l)
是h
(l)
层的偏差,l表示当前层,为所述深度神经网络的总层数;所述深度神经网络的输出为分子物化性质特征向量,表达式为:d={d1,d2,
.
..,d
|dn|
},|dn|是分子物化性质特征向量的长度。3.根据权利要求2所述的基于层次注意力融合多特征的药物多毒性预测方法,其特征在于,所述药物分子物理化学性质的类型包括:结构描述符、拓扑描述符、分子连接性描述符、kappa描述符、电拓扑状态描述符、自相关描述符、电荷描述符、分子性质描述符和moe类型描述符,每一类分子描述符均包括多个分子性质。4.根据权利要求1所述的基于层次注意力融合多特征的药物多毒性预测方法,其特征在于,所述药物化合物原子表示为化合物分子图中的一个节点,所述药物化合物原子的初始原子特征包括:原子类型、原子的度、形式电荷、自由基电子数、杂化类型、是否芳香族化合物、连接的氢原子数、是否手性化合物及立体构型,每个初始原子特征包括多种类型。5.根据权利要求1所述的基于层次注意力融合多特征的药物多毒性预测方法,其特征在于,构建图神经网络学习药物化合物原子的抽象特征包括:定义分子图其中,表示药物化合物原子的集合,是原子类型的集合,是中每个原子特征的集合,ε是相邻原子化学键的集合,通过邻接矩阵a来表示;图神经网络通过消息传递函数更新拓扑结构特征,所述消息传递函数的表达式为:其中,i是单位矩阵,h
(l)
是第l层的输出,是第l层的权重矩阵,是的度矩阵,σ(
·
)表示激活函数;图神经网络的输出为原子特征向量,表示为:c={c1,c2,...,c
|cn|
},|cn|是原子数量。6.根据权利要求1所述的基于层次注意力融合多特征的药物多毒性预测方法,其特征在于,所述药物分子指纹为分子结构编码而成的一组二进制序列;所述带门限的卷积神经
网络中每一层都包括一个卷积层和一个门控线性单元;所述带门限的卷积神经网络的隐藏层h
l
的输出h
l
(x
l
)表示为:其中,是h
l
层的输入,和是隐藏层的参数,l表示当前层,为所述带门限的卷积神经网络的总层数,n是指纹序列的长度,m1和m2分别是输入特征和隐藏特征的维度,k是卷积核每次处理的一个块的大小,σ函数是激活函数sigmoid,是两个特征矩阵的内积;所述带门限的卷积神经网络的输出为分子指纹特征向量,表示为:f={f1,f2,...,f
|fn|
},fn是指纹特征向量的长度。7.根据权利要求1所述的基于层次注意力融合多特征的药物多毒性预测方法,其特征在于,建立药物毒性多分类模型包括:分别采用自注意力函数关注药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征自身的重要信息;通过dropout层、残差计算和层归一化更新分子物化性质特征向量、原子特征向量和分子指纹特征向量;通过多头注意力函数关注药物分子物理化学性质与药物化合物原子之间的重要交互信息;通过多头注意力函数关注药物分子指纹与药物化合物原子之间的重要交互信息;结合药物分子物理化学性质与药物化合物原子之间的重要交互信息和药物分子指纹与药物化合物原子之间的重要交互信息,通过残差计算和前馈网络层得到分子物化性质、原子和分子指纹的交互特征序列;分别对每个交互特征序列进行取模和计算注意力权重;根据所述交互特征序列和注意力权重计算药物毒性向量;所述药物毒性向量通过一个多层感知和多分类处理,得到n个药物毒性的预测概率。8.一种基于层次注意力融合多特征的药物多毒性预测系统,其特征在于,包括:第一数据处理模块,用于构建深度神经网络学习药物分子物理化学性质的抽象特征;第二数据处理模块,用于构建图神经网络学习药物化合物原子的抽象特征;第三数据处理模块,用于构建带门限的卷积神经网络学习药物分子指纹的抽象特征;层次注意力机制模块,采用层次注意力机制融合药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征,建立药物毒性多分类模型,通过训练药物毒性多分类模型进行药物的多毒性预测。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的基于层次注意力融合多特征的药物多毒性预测方法。10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的基于层次注意力融合多特征的药物多毒性预测方法。
技术总结
本发明公开了一种基于层次注意力融合多特征的药物多毒性预测方法,通过构建深度神经网络学习药物分子物理化学性质的抽象特征;构建图神经网络学习药物化合物原子的抽象特征;构建带门限的卷积神经网络学习药物分子指纹的抽象特征;采用层次注意力机制融合药物分子物理化学性质、药物化合物原子和药物分子指纹的抽象特征,建立药物毒性多分类模型,通过训练药物毒性多分类模型进行药物的多毒性预测。本发明同时考虑多种化学毒性之间的关联性,在模型训练过程中共享多种毒性之间的重要特征,发现不同毒性结果之间的潜在关联关系,从而提高药物毒性预测的准确率。高药物毒性预测的准确率。高药物毒性预测的准确率。
技术研发人员:唐春艳 钟诚
受保护的技术使用者:广西大学
技术研发日:2023.04.17
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/