一种人工智能驱动的蛋白-蛋白相互作用预测模型的制作方法
未命名
09-12
阅读:81
评论:0

1.本发明涉及一种人工智能驱动的蛋白-蛋白相互作用预测模型及其实现方法。
背景技术:
2.蛋白质(protein)是生命活动的执行者,在生物体内扮演着多种多样的角色,例如提供结构支持、调节生理活动、参与运输和储存、保护免疫系统以及催动化学反应。然而,蛋白质往往不是独自工作的;相反,它们通常需要与其他蛋白发生某种形式的相互作用后,才能协同完成生命体内的多项功能。因此,研究蛋白之间的相互作用是揭示细胞分子机制的重要途径,对疾病诊断、药物筛选和设计提供分子水平的科学见解。在过去相当长的时间里,生物学家们曾致力于通过酵母双杂交、串联式亲和纯化等实验手段来发现或验证多个物种中可能存在的蛋白相互作用。实验方法能有效地测定一对蛋白之间是否存在潜在的物理接触,但是成本较高、实验周期过长,而且受到实验条件、材料和技术的限制,因此难以全面覆盖所有的蛋白。近年来,随着计算机性能的不断提升,涌现出了一些用于推理或预测蛋白相互作用的计算模型或方法。
3.相较于传统的生物实验方法,计算方法因其代价低和开发周期短等优点,被广泛用于蛋白-蛋白相互作用预测,进而指导生物学家的实验设计。起初,很多学者提出了一些基于统计学的计算模型,大致可分为两大类:1)基于同源信息的方法;2)基于基因组信息的方法。基于同源信息的方法,例如interlog和ddi(domain-domain interaction)等,借助了生物的同源信息将已知的相互作用关系映射到其他物种中来实现ppi预测或推理。基于基因组信息的方法,例如基因邻位、基因共表达、基因共进化以及基因融合等,则是根据基因间的相互关系来推测蛋白之间是否存在相互作用。这些方法能明显提高预测新ppi的效率,但前提是研究者需要以大量的先验知识作为支撑,预测结果对于物种的蛋白组覆盖范围仍非常有限。
4.人工智能,特别是机器学习技术的最新发展为ppi预测提供了新的思路。研究人员尝试开发了一系列基于机器学习的预测模型,并通过大量实验验证了其有效性。这种策略不仅简化了预测过程,还可以扩大预测范围。然而,现有的方法仍然存在明显局限:1)被广泛报道的一些计算模型,并没有尝试将蛋白序列信息以及蛋白间相互作用的关系充分结合,以至于算法精度仍然有待提高;2)现有算法的泛化能力较弱,以至于应用场景很难推广;
5.因此,针对蛋白互作预测方法需要建立一种能够融合氨基酸序列特征和蛋白间互作关系的高性能计算方案。
技术实现要素:
6.本发明所要解决的技术问题是针对现有技术的不足,提供了一种人工智能驱动的蛋白-蛋白相互作用预测模型。
7.一种人工智能驱动的蛋白-蛋白相互作用预测模型,包括以下步骤:
8.1)蛋白氨基酸序列的深度特征提取;
9.2)蛋白相互作用网络的拓扑特征提取;
10.3)融合蛋白序列特征和网络拓扑特征,构建分类器预测蛋白相互作用。
11.步骤1)中,对蛋白氨基酸序列的深度特征提取,具体包括:
12.1.1)采用自然语言处理语言模型将氨基酸向量化表示;
13.1.2)对蛋白质的氨基酸序列进行双向编码;
14.1.3)通过深度神经网络提取序列编码后的抽象特征;
15.步骤1.1)中,氨基酸残基的向量表示被定义为通过自然语言处理模型word2vec将蛋白氨基酸序列中任一位置的残基进行数学向量表示。
16.步骤2)中,蛋白相互作用网络的拓扑特征提取,具体包括:
17.2.1)ppi网络拓扑结构的划分;
18.2.2)计算网络中每个蛋白节点的初始特征;
19.2.3)邻居节点的注意力计算;
20.首先,将已知/已验证的相互作用关系等先验知识以无向图的形式进行直观表示。网络中的每个节点代表一个蛋白。对于任意蛋白节点a的一阶邻居网络和二阶邻居网络,需要根据每个邻居节点i与节点a的相似性来计算权重α
ai
,从而可以为重要的邻居节点分配更多的“注意力”,α
ai
使用式(1)计算得到:
21.α
ai
=softmax(leakyrelu(e
ai
))
ꢀꢀꢀꢀ
(1)
22.其中,e
ai
代表蛋白节点a与其邻居节点i之间的相似度,softmax和leakyrelu表示激活函数。leakyrelu用于对e
ai
值进行非线性处理,softmax用于注意力权重的归一化处理。“注意力”机制的灵感来源可以归结到人对环境的生理感知上来。在图注意力网络(graph attention network)中,采用注意力机制对邻近节点特征加权求和,体现了处理复杂网络拓扑结构的能力。
23.2.4)中心节点的拓扑特征提取;
24.首先,用hi表示蛋白a的邻居节点i的初始特征向量。然后,对于蛋白a的j个一阶邻居,根据权重α
ai
来提取每个一阶邻居蛋白节点中的特征,得到见式(2):
[0025][0026]
同理,使用式(3)对蛋白a的z-j个二阶邻居的特征进行提取,得到
[0027][0028]
最后,通过式(4)将特征表示向量和进行合并,得到蛋白节点a的完整的拓扑特征向量h
′a:
[0029][0030]
步骤3)中,融合蛋白序列特征和网络拓扑特征,构建分类器预测蛋白相互作用,具体包括:
[0031]
3.1)将蛋白的氨基酸序列特征和ppi网络中蛋白节点的拓扑特征进行融合,得到关于一个作用蛋白的完整的表示向量;
[0032]
3.2)将任意一对未知蛋白的表示向量进行叠加,输入多层感知机分类器中进行分类预测,判定这两个蛋白之间是否存在潜在的相互作用。
[0033]
与现有技术相比,本发明具有如下优点:
[0034]
本发明提供了一种人工智能驱动的蛋白-蛋白相互作用预测模型的实现方法。本发明对蛋白组学研究的重大贡献是开发了一种全新的智能计算方法,提取了蛋白氨基酸序列特征和相互作用网络拓扑结构属性,实现了潜在互作蛋白之间的高精度预测,且具有强鲁棒性和高泛化性。它将为基于人工智能的蛋白-小分子互作预测提供新的思路。本发明可应用于蛋白结构与功能预测、药物重定位、ai药物设计等诸多领域,具有广泛的应用前景和推广价值。
附图说明
[0035]
图1为本发明所述的用于蛋白-蛋白相互作用预测模型agnnpip的整体框架图。
[0036]
图2为本发明所述的agnnpip算法的数据处理流程图。
[0037]
图3为本发明所述的agnnpip算法中蛋白氨基酸序列深度特征提取模块的流程图。
[0038]
图4为本发明所述的agnnpip算法中蛋白互作网络拓扑特征提取模块的流程图。
[0039]
图5为本发明所述的agnnpip算法在酿酒酵母数据集s.cerevisiae上的计算性能,并展示了模型在仅使用序列特征或拓扑特征时的性能表现。
[0040]
图6为本发明所述的agnnpip算法在六个公共数据集上与其他经典算法的性能比较图。
[0041]
图7为本发明所述的agnnpip算法在健康水稻数据集上与其他经典算法的性能比较图。
具体实施方式
[0042]
结合附图对本发明创造的进一步详细的说明,至少具体描述一个最佳实实例,这种描述的具体化程度应达到使所属技术领域的技术人员按照所描述的内容能够重现发明或者发明,而不必再花费创造性的劳动,如不必再进行摸索研究和实验。
[0043]
1、一种人工智能驱动的蛋白-蛋白相互作用预测模型,包括以下步骤:
[0044]
1)蛋白氨基酸序列的深度特征提取;
[0045]
2)蛋白相互作用网络的拓扑特征提取;
[0046]
3)融合蛋白序列特征和网络拓扑特征,采用分类器预测蛋白相互作用。
[0047]
2、根据权利要求1所述的人工智能驱动的蛋白-蛋白相互作用预测模型,其特征在于,步骤1)中,对蛋白氨基酸序列进行深度特征提取,具体包括:
[0048]
1.1)采用自然语言处理模型将氨基酸残基进行向量化表示;
[0049]
1.2)对蛋白质的氨基酸序列进行双向编码;
[0050]
1.3)通过深度神经网络提取序列编码后的抽象特征;
[0051]
3、根据权利要求2所述的人工智能驱动的蛋白-蛋白相互作用预测模型,其特征在于,步骤1.1)中,所述的采用自然语言处理模型word2vec生成单个氨基酸的独热编码,进而
实现整个蛋白氨基酸序列的向量表示;
[0052]
4、根据权利要求1所述的人工智能驱动的蛋白-蛋白相互作用预测模型,其特征在于,步骤2)中,蛋白相互作用网络的拓扑特征提取,具体包括:
[0053]
2.1)ppi网络拓扑结构的划分;
[0054]
2.2)计算网络中每个蛋白节点的初始特征;
[0055]
2.3)邻居节点的注意力计算;
[0056]
2.4)中心节点的拓扑特征提取;
[0057]
5、根据权利要求1所述的人工智能驱动的蛋白-蛋白相互作用预测模型,其特征在于,步骤3)中,融合蛋白序列特征和网络拓扑特征,构建分类器预测蛋白相互作用,具体包括:
[0058]
3.1)将蛋白的氨基酸序列特征和ppi网络中蛋白节点的拓扑特征进行融合,得到关于一个作用蛋白的完整的表示向量;
[0059]
3.2)将任意一对未知蛋白的表示向量进行叠加,输入多层感知机分类器中进行分类预测,判定这两个蛋白之间是否存在相互作用。
[0060]
结合实际进一步说明,本发明人工智能驱动的蛋白-蛋白相互作用预测模型的计算策略及其实现方法。
[0061]
本发明所述方法在用于蛋白-蛋白相互作用预测时,包括三个计算步骤:蛋白氨基酸序列的深度特征提取;蛋白相互作用网络的拓扑特征提取;融合蛋白序列特征和网络拓扑特征,构建分类器预测蛋白相互作用。
[0062]
1、蛋白氨基酸序列的深度特征提取
[0063]
本发明所述的蛋白氨基酸序列的深度特征提取方法包括三个步骤:采用自然语言处理模型将氨基酸残基进行向量化表示;对蛋白质的氨基酸序列进行双向编码;通过深度神经网络提取序列编码后的抽象特征。
[0064]
(1)采用自然语言处理模型将氨基酸残基进行向量化表示
[0065]
蛋白氨基酸序列的深度特征提取的第一步是采用自然语言处理模型word2vec将氨基酸残基进行向量化表示。word2vec实际上是一种语言模型,可以将文本信息转换成可用于计算的向量表示。在此,可将整个数据集中所有的蛋白氨基酸序列当作一个语料库,把序列中的每个氨基酸残基视为一个单词,对word2vec模型进行训练。word2vec模型训练的策略是以窗口的中心元素i作为输入,将中心元素的上下文(context)作为标签。对于输入的中心元素氨基酸i,通过嵌入矩阵e∈r
20
×r(embedding matrix)转换为其对应的表示向量,其中20是氨基酸的种类,r表示氨基酸表示向量的长度。随后,经过隐藏层预测氨基酸i在序列中可能相邻的氨基酸的表示向量,然后通过嵌入矩阵e
′
∈rr×
20
转换成对应的氨基酸的独热编码,最后将其在序列中真实的上下文作为标签进行训练。训练完成后可以得到每个氨基酸残基的向量表示。
[0066]
(2)对蛋白质的氨基酸序列进行双向编码
[0067]
由于每个蛋白的氨基酸序列长度不一致,为了保证机器学习模型的输入特征长度一致,所采用的策略是:分别从序列首端和序列末端截取长度相同的子序列进行编码,使得每条氨基酸序列都被编码成长度为2
×r×
m的特征向量,其中m表示正向或逆向截取的子序列的长度。给定一条长度为n的氨基酸序列{a1,a2,...,an},vi表示序列中第i个残基ai经
word2vec表示后的特征向量(维度为1
×
r)。那么从首端对子序列编码得到的向量可以用x
start
表示为:
[0068]
x
start
=[v1,v2,...,v
rn
]
ꢀꢀ
(1)
[0069]
同理,从末端对子序列编码得到的向量用x
end
表示为:
[0070]
x
end
=[v
n-m+1
,v
n-m+2
,...,vn]
ꢀꢀꢀꢀ
(2)
[0071]
显而易见,x
start
和x
end
都是长度为r
×
m的向量。随后,将首端和末端子序列编码后得到的两个向量进行合并,最终得到用于表示蛋白序列的初始向量x
(0)
,作为输入向量传递至深度神经网络模型dnn:
[0072]
x
(0)
=[x
start
,x
end
]
ꢀꢀ
(3)
[0073]
(3)通过深度神经网络提取序列编码后的抽象特征
[0074]
由于通过word2vec对蛋白序列双向编码后得到的初始序列x
(0)
的维度较大,所以需要通过一个深度神经网络对该特征向量进行降维处理,同时提取更抽象的特征。
[0075]
在dnn模型中,对于第k层的神经网络,输出结果x
(k)
可以用如下公式表示:
[0076]
x
(k)
=leakeyrelu(w(k)x
(k-1)
+b
(k)
)
ꢀꢀꢀꢀ
(4)
[0077]
其中x
(k-1)
既是第k-1层的输出,也是第k层的输入;w
(k)
和b
(k)
分别表示第k层的权重矩阵和偏置向量。leakyrelu是一个非线性激活函数。在本项研究中,该dnn网络模型由六层神经网络连接而成。输入层的神经元个数由氨基酸序列初始向量的维度决定(2
×r×
m)。中间的四层隐藏层分别包含512、256、128、64个神经元。每层的神经网络中除了线性层和激活函数外,还添加了batchnorm层和dropout层用来增强模型的泛化性能,防止过拟合。
[0078]
2、蛋白相互作用网络的拓扑特征提取
[0079]
通常,领域学者将已知/已验证的相互作用等先验知识以无向图的形式进行直观表示,称为ppi网络。蛋白在ppi网络中的拓扑特征是指蛋白节点在网络中的位置和连接方式,它从某种程度上反映了蛋白的重要性和上下文功能。本发明开发了一种基于注意力机制的图神经网络计算模块,用于提取ppi网络中蛋白节点的拓扑特征,以最大限度地表征互作蛋白的内在特性,从而提高预测精度。
[0080]
agnnpip框架中的拓扑特征提取模块的设计灵感来自ppi网络拓扑结构揭示的节点之间的连接方式。在对ppi网络进行深度的分析之后发现,网络中一阶邻居、二阶邻居以及活跃度相似的节点之间可能存在着类似的特征。而agnnpip算法可以利用注意力机制对这种相似性进行建模,高效地提取特征。
[0081]
本发明所述的蛋白相互作用网络的拓扑特征提取方法包括四个步骤:ppi网络拓扑结构的划分;计算网络中每个蛋白节点的初始特征;邻居节点的注意力计算;中心节点的拓扑特征提取。
[0082]
(1)ppi网络拓扑结构的划分
[0083]
根据蛋白节点a与图中其他连通节点之间的路径长度,将已知ppi网络划分为一阶邻居网络(1-hop network)和二阶邻居网络(2-hop network)。
[0084]
(2)计算网络中每个蛋白节点的初始特征
[0085]
ppi网络中节点的度数(degree)通常能反映出一个蛋白在互作蛋白间的重要程度。例如,少数中心结点(hub node),表现为度数较大,与很多节点都有连接。说明它们的活跃度较高,也有可能与其他未知蛋白发生相互作用。而一些边缘节点,活跃度较低,那么这
些蛋白相对而言不易与其他蛋白发生相互作用,甚至可能只与某些特定蛋白才有互作关系。因此,可以认为度数相近的蛋白之间,在ppi网络中的活跃度也存在着某种相似性
[0086]
基于上述分析,首先要统计节点a在一阶邻居网络中的邻居个数,得到节点a的度,表示为da。图神经网络的计算需要为网络中的每个结点赋予能够代表其自身特征的初始向量,因此,将上文得到的氨基酸序列编码与da进行合并得到向量ha,作为其在图神经网络中的初始向量:
[0087][0088]
类似地,可以得到蛋白a的所有一阶邻居和二阶邻居节点的初始向量h={h1,h2,...,hj,h
j+1
,..,hz},用hi代表其中某一个节点的初始向量,当i∈[1,j]时表示一阶邻居节点,而当i∈[j+1,z]时表示二阶邻居节点。hi可以表示为:
[0089][0090]
其中,和di分别代表邻居节点i的氨基酸序列编码特征和度特征。
[0091]
(3)邻居节点的注意力计算
[0092]
一个蛋白质往往很少独自发挥功能,却总是通过与其他蛋白之间的某种相互作用,协同参与调控一些重要的生命活动。举例来说,植物光合作用中,光系统ii(ps ii)与光系统i(ps i)中的蛋白通过互作形成超复合体,对光能转化为化学能进行协同调控。植物抗病反应中,抗病基因(r)和致病基因(avr)等蛋白通过互作触发细胞程序性死亡,对病原菌的侵染进行协同调控。植物生长发育中,拟南芥中的开花时间调控基因co(constans)和ft(flowering locus)等蛋白通过互作促进开花过程,对植物生命周期进行协同调控。从以上例子可见,直接相互作用的蛋白通常共同调控某项生命活动,因此在ppi网络中直接相关连(即一阶邻居)的蛋白可能存在着功能上的相似性。
[0093]
互为二阶邻居的蛋白对,共同邻居的个数能反映出他们之间蛋白结构上的相似性。因为发生相互作用的蛋白之间在结构上存在互补性,如果某对互为二阶邻居的蛋白对有着非常多的共同邻居则说明这两个蛋白有很大可能存在着类似的相互作用界面,所以才拥有更多的共同邻居。本发明基于“二阶邻居之间存在相似结构特征”的理论依据,在agnnpip模型的图神经网络部分引入了注意力机制,使得每个节点可以根据其与二阶邻居之间的结构相似性进行学习。
[0094]
对于蛋白a的一阶邻居网络和二阶邻居网络,都需要分别根据每个邻居节点i与节点a的相似性来计算权重α
ai
,使得模型可以为重要的邻居节点分配更多的“注意力”。在此,定义两个参数矩阵,w∈rf′×f和t∈r
2f
′×1,其中初始输入向量ha和hi的维度均为f,ha和hi经w处理过后的向量维度为f
′
。节点a与其邻居节点i的相似度可通过公式(3-9)计算:
[0095]eai
=t(wha,whi)
ꢀꢀ
(7)
[0096]
接着,使用激活函数leakyrelu对e
ai
非线性处理后,再通过softmax函数进行归一化处理得到最终的注意力权重α
ai
:
[0097]
α
ai
=softmax(leakyrelu(e
ai
))
ꢀꢀ
(8)
[0098]
(4)中心节点的拓扑特征提取
[0099]
中心节点的拓扑特征提取。首先,对于蛋白节点a的j个一阶邻居,根据权重α
ai
来提
取每个一阶邻居蛋白节点中的特征,得到
[0100][0101]
然后,以同样的方式对蛋白节点a的二阶邻居的特征进行提取,得到
[0102][0103]
最后,将特征表示向量和进行合并,得到蛋白节点a的完整的拓扑特征向量h
′a:
[0104][0105]
3、基于蛋白的序列特征和拓扑特征使用分类器进行预测。
[0106]
在得到蛋白a的序列特征xa和拓扑特征h
′a后,将两种特征进行合并得到蛋白a的最终表示向量pa:
[0107]
pa=[xa,h
′a]
ꢀꢀ
(12)
[0108]
同理,蛋白b的最终表示向量为pb。在本发明中,选用了多层感知机作为分类器,将pa和pb作为输入得到最终的预测结果来判断蛋白a和蛋白b之间是否存在潜在的相互作用。该多层感知机的输入层神经元个数由pa和pb合并后的长度决定,每个隐藏层的神经元个数都是前一层的一半,输出层只有一个神经元,经过sigmoid函数处理后的输出结果表示蛋白a和b相互作用的概率,可以通过设置一个合理的阈值(一般取0.5)来辨别蛋白a和蛋白b是否存在相互作用。完整的蛋白相互作用预测算法我们命名为agnnpip。
[0109]
4、预测性能测试
[0110]
本发明提供了一种人工智能驱动的蛋白-蛋白相互作用预测的实现方法,在所述方法中,通过开发一种名为agnnpip的图神经网络模型对蛋白质氨基酸序列特征和互作网络的拓扑特征进行提取和融合,实现蛋白-蛋白互作的高精度预测。
[0111]
图1为本发明所述的蛋白-蛋白相互作用预测模型agnnpip的整体框架图。首先,对输入的蛋白对分别提取序列特征和拓扑特征;然后,将序列特征和拓扑特征进行融合,并输入多层感知机分类器中进行训练和预测。
[0112]
图2为本发明所述的agnnpip算法的数据处理流程图。它包括三个步骤:蛋白氨基酸序列的深度特征提取;蛋白相互作用网络的拓扑特征提取;融合以上两种特征,构建分类器预测蛋白相互作用。
[0113]
图3为本发明所述的agnnpip算法中蛋白氨基酸序列深度特征提取模块的流程图。它包括三个步骤:采用自然语言处理模型将氨基酸残基进行向量化表示;对蛋白质的氨基酸序列进行双向编码;通过深度神经网络提取序列编码后的抽象特征。
[0114]
图4为本发明所述的agnnpip算法中蛋白互作网络拓扑特征提取模块的流程图。它包括四个步骤:ppi网络拓扑结构的划分;计算网络中每个蛋白节点的初始特征;邻居节点的注意力计算;中心节点的拓扑特征提取。
[0115]
图5为本发明所述的agnnpip算法在酿酒酵母数据集s.cerevisiae上的计算性能,
并展示了模型在仅使用序列特征或拓扑特征时的性能表现。为了提高实验结果的可靠性,使用五折交叉验证在数据集上测试每种模型,并比较五次实验的平均值。每个子图分别表示一种评价指标,以展示模型在融合了两种特征之后,其预测性能会有怎样的提升。实验结果证明,结合了序列和拓扑两种特征的agnnpip模型在recall和mcc两项指标上都有显著提升,说明两种特征的结合可以帮助模型更好地区分正例和负例,提高模型挖掘潜在互作关系的能力。此外,agnnpip在accuracy和f1-score两项指标上也有所提升,表明它具有更平衡的预测能力。
[0116]
图6为本发明所述的agnnpip算法在六个公共数据集上与其他经典算法的性能比较图。所选用的六个公共数据集为:s.cerevisiae,e.coli,c.elegan,d.melanogaster,hprd1,hprd2。其他四种对比算法分别为:基于卷积神经网络的算法(deeptrio),基于深度神经网络的算法(deepfe-ppi),基于矩阵分解的算法(symlmf),基于图神经网络的算法(gat)。为了提高实验结果的可靠性,采用五折交叉验证在各个数据集上测试每种模型,并比较五次实验的平均值。将结果按照数据集分成六个子图展示,横坐标为七种性能指标,纵坐标为性能评估结果。从图中可以直观地看到,agnnpip模型在s.cerevisiae、e.coli数据集上的多项评估指标都明显优于其他模型。具体来看,对于accuracy、recall和f1-socre指标,agnnpip模型在所有数据集上都优于其他模型,这说明agnnpip相对于其他模型有着更平衡的预测性能,并且对于潜在的ppi有更强的挖掘能力。
[0117]
图7为本发明所述的agnnpip算法在健康水稻数据集上与其他经典算法的性能比较图。其他四种经典算法分别为:基于卷积神经网络的算法(deeptrio),基于深度神经网络的算法(deepfe-ppi),基于矩阵分解的算法(symlmf),基于图神经网络的算法(gat)。为了提高实验结果的可靠性,同样采用了五折交叉验证在各个数据集上测试以上每种模型,并比较五次实验的平均值。agnnpip模型在水稻数据集上的所有性能表现都超过了其他模型。
[0118]
表1为本发明所述的agnnpip模型在搭配不同分类器后的预测性能比较。在酿酒酵母数据集s.cerevisiae上的测试实验表明,所发明的agnnpip模型在使用mlp分类器时能达到最优的预测性能,但在结合其它分类器时也有不错的表现。进一步证明,所发明的agnnpip模型对分类器的选择不敏感,有很强的的鲁棒性;同时也说明agnnpip模型在执行预测任务前,确实提取到了对判别蛋白-蛋白相互作用极为关键的特征。
[0119]
表1
[0120][0121]
表2为本发明所述的agnnpip算法在自制的稻瘟病-水稻相互作用数据集上的泛化性能测试结果。该数据集在上述水稻数据集的基础上添加了40对稻瘟病-水稻蛋白互作数据(正例和负例各20对蛋白)。该实验共进行十次,每次从正例和负例中随机抽取一半添加到原水稻数据集帮助模型进行训练,剩下的一半作为测试集对模型进行评估。其中,valid是agnnpip训练完成后在水稻验证集上的拟合精度,test是在测试集上的预测精度,positive是相对于测试集中正例的精度,negative是相对于测试集中负例的精度。实验证
明,所发明的agnnpip算法能够实现物种间的蛋白相互作用预测,有望应用到病原菌-宿主相互作用的研究中,为作物病害的靶向农药筛选提供分子水平的科学见解。
[0122]
表2
[0123][0124]
综上所述,本发明提供了蛋白-蛋白相互作用高精度预测的人工智能计算新方法,此项技术可以应用于蛋白相互作用预测、药物重定位、ai药物设计等诸多领域。
[0125]
由于算法对输入的蛋白氨基酸序列和蛋白相互作用数据要求低、对计算资源的依赖性较低、易于移至、易于升级维护等特点,使用方便,界面友好、费用低廉等特点,因此,本技术具有很高的推广价值。
[0126]
本发明提供了一种能够融合氨基酸序列信息和已知蛋白互作先验知识对未知蛋白之间相互作用预测的实现方法的思路,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部份均可用现有技术加以实现。
技术特征:
1.一种人工智能驱动的蛋白-蛋白相互作用(protein-protein interaction,简称ppi)预测模型,其特征在于,包括以下步骤:1)蛋白氨基酸序列的深度特征提取;2)蛋白相互作用网络的拓扑特征提取;3)融合蛋白序列特征和网络拓扑特征,构建分类器预测蛋白相互作用。2.根据权利要求1所述的人工智能驱动的蛋白-蛋白相互作用预测模型,其特征在于,步骤1)中,所述的蛋白氨基酸序列的深度特征提取,具体包括:1.1)采用自然语言处理模型将氨基酸残基进行向量化表示;1.2)对蛋白质的氨基酸序列进行双向编码;1.3)通过深度神经网络提取序列编码后的抽象特征。3.根据权利要求2所述的人工智能驱动的蛋白-蛋白相互作用预测模型,其特征在于,步骤1.1)中,采用自然语言处理模型word2vec生成单个氨基酸残基的独热编码,进而实现整个蛋白氨基酸序列的向量表示。4.根据权利要求1所述的人工智能驱动的蛋白-蛋白相互作用预测模型,其特征在于,步骤2)中,所述的蛋白相互作用网络的拓扑特征提取,具体包括:2.1)ppi网络拓扑结构的划分;2.2)计算网络中每个蛋白节点的初始特征;2.3)邻居节点的注意力计算;蛋白相互作用网络(简称ppi网络),实际上是领域学者将已知/已验证的相互作用关系等先验知识以无向图的形式进行的直观表示。网络中的每个节点代表一个蛋白。对于任意蛋白节点a的一阶邻居网络和二阶邻居网络,首先需要根据每个邻居节点i与节点a的相似性来计算权重α
ai
,从而可以为重要的邻居节点分配更多的“注意力”,α
ai
使用式(1)计算得到:α
ai
=softmax(leakyrelu(e
ai
))
ꢀꢀꢀꢀꢀꢀ
(1)其中,e
ai
代表蛋白节点a与其邻居节点i之间的相似度,softmax和leakyrelu表示激活函数,leakyrelu用于对e
ai
值进行非线性处理,softmax用于注意力权重的归一化处理。“注意力”机制的灵感来源可以归结到人对环境的生理感知上来。在图注意力网络(graph attention network)中,采用注意力机制对邻近节点特征加权求和,体现了处理复杂网络拓扑结构的能力。2.4)中心节点的拓扑特征提取;首先,用h
i
表示蛋白a的邻居节点i的初始特征向量。然后,对于蛋白a的j个一阶邻居,根据权重α
ai
来提取每个一阶邻居蛋白节点中的特征,得到见下式(2):同理,使用式(3)对蛋白节点a的二阶邻居的特征进行提取,得到同理,使用式(3)对蛋白节点a的二阶邻居的特征进行提取,得到
最后,通过式(4)将特征表示向量和进行合并,得到蛋白节点a的完整的拓扑特征向量h
′
a
:5.根据权利要求1所述的人工智能驱动的蛋白-蛋白相互作用预测模型,其特征在于,步骤3)中,融合蛋白序列特征和网络拓扑特征,构建分类器预测蛋白相互作用,包括:3.1)将蛋白的氨基酸序列特征和ppi网络中蛋白节点的拓扑特征进行融合,得到关于一个作用蛋白的完整的表示向量;3.2)将任意一对未知蛋白的表示向量进行叠加,输入多层感知机分类器中进行分类预测,判定这两个蛋白之间是否存在潜在的相互作用。
技术总结
本发明公开了一种人工智能驱动的蛋白-蛋白相互作用预测模型的实现方法,包括:1)蛋白氨基酸序列的深度特征提取;2)蛋白相互作用网络的拓扑特征提取;3)融合蛋白序列特征和网络拓扑特征,构建分类器预测蛋白相互作用。本发明对蛋白组学的重大贡献是开发了一种新颖的人工智能方法提取了互作蛋白间的内在特征,并弱化了分类器的选择,提供了高精度、稳定可信的PPI预测结果。它将为基于人工智能的蛋白-小分子相互作用预测提供新的思路。本发明可应用于蛋白结构与功能预测、药物重定位、AI药物设计等诸多领域,具有广泛的应用前景和推广价值。值。
技术研发人员:计智伟 池路通
受保护的技术使用者:计智伟
技术研发日:2023.06.08
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/