兼顾分子结构与序列挖掘的多视角酶功能预测方法

未命名 09-08 阅读:81 评论:0


1.本发明属于智能细胞生物识别领域,具体涉及一种兼顾分子结构与序列挖掘的多视角酶功能预测方法。


背景技术:

2.酶(enzyme)是由活细胞产生的、对其底物具有高度特异性和高度催化效能的蛋白质或rna。酶能够催化底物使其发生生化反应,从而产生高效的催化效能的蛋白质或者是rna。研究酶的功能分类对于研究酶在人们生产生活、疾病诊断中的应用具有极其重要的作用。酶委员会(ec)编号系统根据酶的催化特性将酶通常分为6大类:氧化还原酶(ec1)、转移酶(ec2)、水解酶(ec3)、裂解酶(ec4)、异构酶(ec5)和连接酶(ec6)。酶序列在数据库中的不断增加对酶的功能分类提出了严峻的挑战。由于功能未知的酶数量巨大,同时使用生物学实验来确定酶的特性非常耗时且费用昂贵,因此亟需研发一些高效的低成本酶功能预测技术。
3.近年来,利用各种计算模型来预测酶的种类越来越被关注。目前,一些研究已取得了令人鼓舞的结果,为酶功能注释和酶相关药物设计提供了重要手段。随着生物信息学和深度学习的不断发展,一些基于酶的序列信息的有效的特征提取方法和机器学习方法被提出用来预测酶的种类,这些方法大多采用支持向量机(svm)、随机森林(rf)和knn等。但已经存在的方法仍然存在以下几点不足:
4.(1)大多数方法利用的只是酶的序列信息,且常采用独热编码、位置评分矩阵等特征提取方式进行特征抽取,然后基于支持向量机、随机森林、knn等传统机器学习方法进行分类。这些传统的特征抽取和分类方法在酶功能分类任务中,学习能力有限,有待进一步发展新的特征提取和分类技术;
5.(2)目前利用酶的三维结构信息进行酶分类的网络模型多采用处理向量、矩阵等方法,忽略了酶的图结构等复杂表示,从而导致对于酶的结构信息学习不足;
6.(3)虽然少量方法已经兼顾酶的序列和结构信息来实现酶的功能预测,但是未能充分挖掘酶的序列与结构等多个视角下的数据的共性和特性,缺乏高效处理多模态特征融合的能力。因此,研究能充分利用酶的序列特征与结构特征等多模态信息的酶功能预测方法依然是一个具有重要价值的挑战性工作。


技术实现要素:

7.酶功能分类方法大多基于单一序列特征或单一结构特征,在本发明中,采用了一种新的兼顾酶的结构特征与序列特征、进行深度序列和结构特征学习、并采用多视角tsk模糊系统分类器的酶功能预测新方法。该方法将酶的结构特征和序列特征视为两个不同的视角,通过构造一个全新的多视角深度网络来从不同模态抽取、交叉、鉴别信息,并能实现对多视角酶数据间互补性与一致性信息的挖掘。
8.本发明的技术方案如下:
9.兼顾分子结构与序列挖掘的多视角酶功能预测方法,该方法包括:初始酶特征构建,深度酶序列特征构建,深度酶结构特征构建,基于tsk模糊系统的模型训练与预测,4个阶段如下所示:
10.第一阶段:初始特征构建阶段。该阶段包含2个步骤,分别为酶的序列初始特征构建,酶的结构初始特征构建,其具体步骤如下:
11.第一步:初始序列特征提取
12.在本次工作中,采用biovec方法对酶的氨基酸序列进行初始特征提取。biovec是一种用于生物序列表示和特征提取的方法。biovec将序列看作一长段语句,利用自然语言处理的方式进行处理,每个生物序列被嵌入一个n维向量中,该向量使用神经网络来表征序列的生物物理和生化特性。通过word2vec中的skip-gram神经网络模型对3-gram序列组成的语料库数据的嵌入进行训练,从而更大概率观察到每个单词序列的概率,该模型只需要训练一次。最终,通过biovec将每个酶的氨基酸序列表示为大小为3*100的向量,用于之后的深度序列特征提取。
13.第二步:初始结构特征提取
14.从每种酶的pdb文件中按顺序提取每条链中氨基酸,再从氨基酸中提取碳原子的三维坐标(x,y,z),同时每个氨基酸残基用21维(20个标准氨基酸和其他)的独热编码表示,从而每个氨基酸残基最终可用24的向量表示。最终,得到一个(n*24)维的矩阵来表示长度为n的酶特征。本文默认氨基酸序列长度n为1000,如果序列长度小于1000,用0补全。上述(n*24)维的矩阵将作为初始的结构特征,用于后续点云网络的学习来提取深度的结构特征。
15.第二阶段:深度酶序列特征构建。该阶段包含4个步骤,分别为:smote数据过采样处理、bba残差模块处理、bio-cs注意力模块处理和全连接模块处理。
16.其具体步骤如下:
17.第三步:smote数据过采样处理。
18.在提取序列特征的过程中,由于采用的pdb数据集中6种酶的类别分布不均匀,采用了smote过采样方法来处理经过biovec表示后的不平衡数据。smote是一种用于合成少数类样本的过采样技术,它是随机过采样算法的一种改进方案。由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,从而导致模型学习到的信息过于特定(specific)而不够泛化(general)。smote采样则是在相邻的少数类样本之间进行插值。因此,它能够通过在已有样本的邻域中构建新的少数类样本来增加少数类样本的数量,从而帮助分类器提高其泛化能力[23]。smote算法的流程如下:
[0019]
(1)对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。
[0020]
(2)根据样本不平衡比例设置一个采样比例以确定采样倍率n,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为x0。
[0021]
(3)对于每一个随机选出的近邻x0,分别与原样本x按照公式1构建新的样本x_new。
[0022]
x_new=x+rand(0,1)
×
(x0-x)
[0023]
经过smote处理过的数据将输入到bba残差模块中,用于之后的特征抽取。
[0024]
第四步:采用bbcnet神经网络提取深度序列特征。
[0025]
4.1bba残差模块处理
[0026]
bba残差模块主要由两个双向长时短时记忆模型bi-lstm和一个keras自注意力包实现的额外的注意层组成的结构。bba残差模块可视为是传统的bba模块引入残差机制后的一种改进版本。对于bba残差模块中的bi-lstm,其设计理念是使任意时刻所获得特征数据同时拥有过去和将来之间的信息,模型分为2个独立的lstm,输入序列分别以正序和逆序输入至2个lstm神经网络进行特征提取,将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达。一般情况下会采用顺序结构,但随着网络层数的增多,训练集loss逐渐下降趋于饱和,当再增加网络深度的时候,训练集loss反而会增大。因此,为了避免网络发生退化(degradation)的现象,同时为了更好的利用局部特征,首先将两层bi-lstm进行了concatenate操作,将过去和未来的信息进行融合,同时,将融合的特征与经过自注意力后得到的特征又一次进行了融合,这样的跳跃连接避免了局部特征的丢失,两次融合最终形成了所提的bba残差模块。该模块包含两层bi-lstm,每层bi-lstm的单向输出均包含128个采用双曲正切激活函数的节点;第三层是序列自注意层,也使用双曲正切激活函数。
[0027]
4.2bio-cs注意力模块处理。
[0028]
为了关注不同维度特征之间的关系,提出了bio-cs注意力模块,希望模型可以自动学习到不同维度通道特征的重要程度。
[0029]
bio-cs注意力模块的结构如图2(b)所示。bio-cs模块首先对卷积得到的特征图进行全局平均池化操作,得到通道级的全局特征;然后对全局特征进行激活操作,学习各个通道之间的关系,得到不同通道的权重;最后将权重乘以原来的特征图得到最终特征。本质上,bio-cs模块是在通道维度上形成的一个注意力机制操作,这种注意力机制让模型可以更加关注信息量最大的通道特征,而抑制那些不重要的通道特征。在本项工作中,采用了通道bio-cs模块和空间bio-cs模块,从通道和空间两个方向得到新的特征,并将得到的两个特征相结合,从而获取通道和空间上相融合的特征信息。
[0030]
(1)通道bio-cs block
[0031]
将bba残差模块处理后的序列特征u∈rd×c作为输入,其中d是空间维度,c是通道维度,通过全局平局池化进行一个压缩转换计算fs,得到一个统计量z,从而将全局空间信息压缩到一个通道描述符中。其中,z的第c个元素的计算公式为:
[0032][0033]
在通道模块,通过全局平均池化得到z
avg
,可用公式表示为:
[0034]cavg
:z
avg
=avgpool(u)
[0035]
接着,为了进一步获取通道特征之间的依赖关系,采用两个全连接层进行非线性的参数化处理。两个全连接层形成一个bottleneck结构可以降低模型复杂度以及提升泛化能力。第一个全连接层采用relu激活函数进行非线性化,第二个全连接层采用sigmoid激活函数进行非线性化:
[0036]
s=f
ex
(z,w)=δ(g(z,w))=δ(w2σ(z,w1))
[0037]
其中,σ指的是relu激活函数,δ指的是sigmoid激活函数,s指的是通道的权重,w1∈rc×c,w2∈rc×c。为了防止模型过拟合,在两个全连接之后都添加了dropout层。通过实验证明,这两个dropout层使该网络的准确度有所提升,有效增强了模型的稳定性。通过计算通道权重s与初始输入u的乘积得到新的特征
[0038][0039]
其中f
scale
(uc,sc)指的是标量sc与特征映射uc∈rc之间的通道乘法。可以看到,激励算子将输入特定描述符映射到一组信道权值,这可看作是通道方向上的自注意力函数。
[0040]
(2)空间bio-cs block
[0041]
与通道方向相同,空间方向将bba残差模块处理后的序列特征u∈rd×c作为输入,通过一个一维卷积,网络深度增加了一层,同时引入了空间上的权重标量s,但是并没有改变特征映射的大小。最终输出为:
[0042][0043]
(3)合并注意力模块
[0044]
将通道方向的特征和空间方向的特征相加,进行跳跃连接操作得到x,从而确保了特征的可重用性,更有效地结合了通道和空间方向的特征:
[0045][0046]
4.3全连接模块处理。
[0047]
经过bio-cs注意力模块处理后的特征x再经过全局平均池化和全连接模块(采用softmax激活函数)处理后作为最终的深度序列特征。
[0048]
第三阶段:深度酶结构特征构建。
[0049]
第五步:采用pointnet++点云网络提取深度结构特征。
[0050]
将从pdb文件中提取的氨基酸中的ca(钙)原子作为点云中的点,钙原子的三维坐标(x,y,z)作为点云中点的坐标特征,并且将钙原子所在氨基酸残基的独热编码作为点云中点的序列特征。因此,pointnet++网络的输入是一个大小为n
×
3的点集和一个大小为n
×
21的序列特征矩阵,n为点云中点的个数。pointnet++由sampling&grouping&pointnet层次结构、全连接层以及softmax层三部分构成。如图3所示,sampling&grouping&pointnet层次结构由多个集合抽象单元组成,每一个集合抽象级别的输入是n
×
(d+c)矩阵,输出是n
′×
(d+c

)矩阵,其中n是输入点的数量,d=3是点的坐标维度,c是输入点的特征维度,n'是输出点的数量,c

是输出点的特征维度。每一个集合抽象单元主要包括3个部分:sampling layer,grouping layer和pointnet layer。其中,sampling layer主要是对输入点进行采样,在这些点中选出若干个中心点;grouping layer是利用sampling layer得到的中心点将点集划分成若干个区域;pointnet layer是对上述得到的每个区域进行编码,得到新的特征向量。该阶段的具体步骤如下:
[0051]
5.1sampling layer。
[0052]
使用farthest point sampling(fps)对点进行采样,在n个点中选择n

个点,相比于随机采样,这种方法能更好地覆盖整个点集。fps具体算法如下:首先,在有n个点的点集s中随机选一个点x0;然后,利用距离公式选取距离点x0最远的点x1;再找去除x0和x1的剩余点
集中距离点x1最远的点x2,以此类推直到找到n

个采样点。
[0053]
5.1grouping layer。
[0054]
该层的输入是一个大小为n
×
(d+c)的点集s和一个大小为n
′×
3的n

个采样点的坐标矩阵,其中n是点的数量,d=3是坐标维度,c是特征维度。这一层使用ball query方法,在输入的n个点中,以sampling layer层提取的n

个采样点为质心,半径为r的球内找k个点,这k个点构成一个局部区域,最终生成n

个局部区域。该层的输出为包含n

个采样点的坐标和特征矩阵n
′×k×
(d+c)。
[0055]
5.3pointnet layer。
[0056]
这一层的输入为n
′×k×
(d+c),输出是n
′×
(d+c

),其中,c

是新的特征维度。首先,在输入到网络之前,会把该区域中的点坐标变成围绕中心点的相对坐标,这样做能够更好地获取点与点之间的关系。接着,通过多层感知器multi-layer perceptron(mlp)网络来对无序的点集进行编码。
[0057]
5.4结构特征最终提取。
[0058]
pointnet++网络在sampling&grouping&pointnet层之后,得到特征f∈rn′×
(d+c

)
,之后,采用两层带有relu激活函数的全连接层将特征f整合成新的向量f

,最后采用softmax层的输出作为酶的深度结构特征。通过端对端学习,pointnet++网络可以对酶结构数据进行有效的特征抽取。
[0059]
第四阶段:基于tsk模糊系统的模型训练与预测。
[0060]
通过前面的方法,得到了基于酶序列数据的深度特征和基于酶结构数据的深度特征,如何充分利用酶的这些多视角特征高效地预测酶的功能也是一项具有挑战的工作。传统的方法通常是采用简单的late fusion方法,例如,将不同的视角的特征进行拼接。虽然这样的方法是可操作的,但却难以充分实现不同视角特征的高效协作。针对此,引入了基于规则的多视图模糊系统分类器来充分学习前面的得到多视角深度特征数据,进而实现更有效的分类。
[0061]
与单视图分类器相比,多视图分类器能够挖掘更多不同视角特征之间的共性与特性,得到更好的预测结果。多视图分类技术目前已得到广泛的研究,研究人员也提出了多种有效的算法。其中,模糊集和模糊逻辑系统逐渐被应用于多视角分类。多视角模糊系统分类方法是一类具特色的多视图分类方法,它们不但能有效实现多视角数据的有效学习,还具有较好的透明性,易于解释,因而在各种建模任务中已展现出其优势。例如,tsk-fs-cvh作为一种代表性的多视图模糊系统分类方法已被有效地应用于circrna结合蛋白质位点预测。本文,引入另一种多视角模糊分类器mv-tsk-fs来进行基于酶的多视角深度特征的分类器构建。mv-tsk-fs是基于经典的tsk-fs发展而来的。除了tsk-fs的可解释性和数据驱动的学习能力外,mv-tsk-fs还具有高效的多视角协同学习能力,能够充分挖掘酶的多视角特征之间的一致性与互补性。一方面,mv-tsk-fs能充分利用不同视图的差异性,更全面利用不同视角数据的互补信息,从而增强模型的泛化能力;另一方面,mv-tsk-fs还能充分利用不同视图之间的一致性来指导和约束分类模型的高效学习。因此,采用的mv-tsk-fs方法非常适用于基于酶的多视图数据进行学习来实现酶功能的分类。
[0062]
该阶段的具体步骤如下:
[0063]
第六步:使用tsk模糊系统进行5折交叉试验,分别训练深度序列特征和深度结构
特征,学习每个视角的独立信息。
[0064]
第七步:使用多视角tsk模糊系统进行5折交叉试验,重新训练深度序列特征f
s3
和深度结构特征f
t2
,通过之前学到的信息,利用信息熵调整不同视角之间的重要性,对样本进行分类测试。
[0065]
本发明的有益效果:
[0066]
(1)已有其它方法大多只利用酶的序列特征或只利用酶的结构特征。本方法兼顾了酶的序列特征和结构特征,使得预测信息更加完备。
[0067]
(2)在特征抽取过程中,已有的方法难以兼顾两种不同视角的酶特征,而在本方法中,通过tsk模糊系统,能够很好地在新的网络中重新学习酶的序列与结构特征。
附图说明
[0068]
图1是本发明的算法方法框架图;
[0069]
图2(a)是模型在pdb数据库上进行五折交叉验证的准确率结果图;
[0070]
图2(b)是模型在pdb数据库上进行五折交叉验证的精确度结果图;
[0071]
图2(c)是模型在pdb数据库上进行五折交叉验证的回归率结果图;
[0072]
图2(d)是模型在pdb数据库上进行五折交叉验证的f1分数结果图;
[0073]
图3(a)是bbcnet神经网络;
[0074]
图3(b)nbba是带有bio-cs注意力模块、不带有bba残差模块的顺序型网络;
[0075]
图3(c)nbcs是带有bba残差模块、不带有bio-cs注意力模块的网络;
[0076]
图3(d)nbba-nbcs是既不带有bba残差模块、不带有bio-cs注意力模块的网络。
具体实施方式
[0077]
下面结合附图和实施例对本发明进行详细的描述。
[0078]
如图1所示,本发明实现了一种结合酶的序列特征和结构特征来进行酶功能预测的模型,其架构如图1所示。首先,该模型通过pdb文件对酶的特征进行初始特征构建。其次,模型使用了bbc神经网络对酶的序列信息进行深度特征提取。接着,通过pointnet++网络对酶的结构信息进行深度特征提取。最后,通过使用基于模糊规则的tsk分类系统对深度特征进行训练和分类。
[0079]
实施例1
[0080]
使用5-折交叉实验对本文方法进行性能评估,最终以平均的方式产生最终结果。为了评估方法的性能,将所提方法和已有的几种代表性方法进行比较。其中,able是2020年提出的仅利用酶的序列信息,采用基于注意力的双向lstm模型进行酶分类的方法;enzynet是2017年提出的仅利用酶的结构信息,采用三维卷积网络进行酶分类的方法;deepfri是2019年提出的结合酶的序列信息和结构信息,利用酶的接触图,采用图卷积网络进行酶分类的方法。各项指标如表1所示。
[0081]
从中可以看出,方法的accuracy、precision、recall和f1-score分别达到了0.9161,0.9387,0.8544,0.8946,均是四种方法中最好的,可见。这是由于:1)相比于仅利用序列信息的able方法和仅利用结构信息的enzynet方法,的多视角方法结合了酶的序列和结构特征,能够更全面地利用酶的信息,从而获取更好的预测结果。2)相比于仅利用结构信
息的enzynet方法,方法在提取了序列信息的同时对结构信息进行了更充分的挖掘,从而得到了更好的性能。3)与deepfri方法相比,虽然两种方法都兼顾了序列和结构性息,在两类信息方面进行了更深入的挖掘,特别地,所采用的多视角分类技术也进一步提升方法性能。
[0082]
表1不同预测方法在预测酶的六类功能上的性能比较。
[0083][0084]
实施例2
[0085]
将所提方法与仅利用序列信息的版本(表示为视角1)和其仅利用结构信息的版本(视角2)进行了实验比较。具体地,把bbcnet看作基于序列提出的方法,作为视角1;同时把pointnet++看作基于结构方法,作为视角2。采用五折交叉试验,在相同的数据集和实验环境下进行实验,实验结果如表2和图2所示。
[0086]
表2评估多视角学习机制有效性的实验结果
[0087][0088]
表2和图2给出了三种方法得到的五倍交叉验证实验的平均值,从中可以看出本文方法综合利用序列和机构信息后的性能,比仅利用序列信息(视角1)和仅利用结构性息(视角2)的性能,均得到了有效提升。这也表明本文方法采用的多视角学习机制是非常有效的。
[0089]
根据图2,可以发现,灰色(ours)的柱状图在准确率、精确度、f1分数和回归率的五折交叉验证结果中都明显高于绿色(bbcnet)和红色(pointnet++)柱状图。
[0090]
该消融实验证明,通过挖掘视角间互补与一致性信息,多视角学习与单视角学习相比更能适应复杂数据场景。
[0091]
实施例3
[0092]
利用消融实验来验证bba残差模块和bio-cs注意力模块的有效性。图3中是针对酶序列深度特征抽取网络进行消融实验所设计的几种网络结构图。
[0093]
根据表3中的实验结果,可以看到,带有bio-cs注意力模块,不带有bba残差模块的nbba网络和带有bba残差模块,不带有bio-cs注意力模块的nbcs网络的实验结果的准确率、精确度、f1分数和回归率比既不带有bba残差模块,也不带有bio-cs注意力模块nbba-nbcs网络都好,可见bba残差模块和bio-cs注意力模块都分别能够有效提高网络的效率。进一步地,提出的既带有bba残差模块,也带有bio-cs注意力模块的bbcnet网络得到了最佳的结果。因此,该实验证明了提出的结合bba残差模块和bio-cs注意力模块的bbcnet网络能够极大程度的提升所构建的序列深度特征抽取网络的有效性。
[0094]
表3基于bba残差模块和bio-cs注意力模块进行的消融实验结果表
[0095]

技术特征:
1.兼顾分子结构与序列挖掘的多视角酶功能预测方法,其步骤如下:第一步:使用biovec生物序列处理方法酶的氨基酸序列进行初始特征提取,将每个酶的氨基酸序列表示为向量,作为酶的初始序列特征f
s1
;第二步:从每种酶的pdb文件中按顺序提取氨基酸序列采用one-hot进行编码,再从氨基酸序列中提取碳原子的三维坐标(x,y,z),将(n*24)维的矩阵作为酶的初始结构特征f
t1
;第三步:针对酶的初始序列特征f
s1
采用smote数据过采样处理,得到特征f
s2
;第四步:基于特征f
s2
,采用bbcnet神经网络提取深度序列特征f
s3
,该网络包含四个模块:bba残差模块、bio-cs注意力模块和全连接模块;;第五步:针对酶的初始结构特征f
t1
采用pointnet++点云网络提取深度结构特征f
t2
,该步骤包含sampling layer、grouping layer、pointnet layer和结构特征最终提取模块;所述sampling layer中,采用使farthest point sampling(fps)对点进行采样,在n个点中选择n

个点,相比于随机采样,这种方法能更好地覆盖整个点集;fps具体算法如下:首先,在有n个点的点集s中随机选一个点x0;然后,利用距离公式选取距离点x0最远的点x1;再找去除x0和x1的剩余点集中距离点x1最远的点x2,以此类推直到找到n

个采样点;所述grouping layer中,采用这一层使用ball query方法,在输入的n个点中,以sampling layer层提取的n

个采样点为质心,半径为r的球内找k个点,这k个点构成一个局部区域,最终生成n

个局部区域;该层的输出为包含n

个采样点的坐标和特征矩阵n
′×
k
×
(d+c);所述pointnet layer中,在输入到网络之前,会把该区域中的点坐标变成围绕中心点的相对坐标,这样做能够更好地获取点与点之间的关系;接着,通过多层感知器multi-layer perceptron(mlp)网络来对无序的点集进行编码;第六步:使用tsk模糊系统进行5折交叉试验,分别训练深度序列特征f
s3
和深度结构特征f
t2
,学习每个视角的独立信息;第七步:使用多视角tsk模糊系统进行5折交叉试验,重新训练深度序列特征f
s3
和深度结构特征f
t2
,通过之前学到的信息,利用信息熵调整不同视角之间的重要性,对样本进行分类测试。2.如权利要求1所述的兼顾分子结构与序列挖掘的多视角酶功能预测方法,其特征在于:所述第四步中的bba残差模块,包括2个bi-lstm层和1个自注意力层,为了更好的利用局部特征,首先将两层bi-lstm进行了concatenate操作,将过去和未来的信息进行融合,同时,将融合的特征与经过自注意力后得到的特征又一次进行了融合,这样的跳跃连接避免了局部特征的丢失,两次融合最终形成了所提的bba残差模块;该模块包含两层bi-lstm,每层bi-lstm的单向输出均包含128个采用双曲正切激活函数的节点;自注意力层使用双曲正切激活函数。3.如权利要求1或2所述的兼顾分子结构与序列挖掘的多视角酶功能预测方法,其特征在于:所述第四步中的bio-cs注意力模块中,u
c
为初始嵌入矩阵,并表示为u∈r
d
×
c
,通过通道bio-cs模块对通道级别特征进行自注意力特征提取,得到特征通过空间bio-cs模块对通道级别特征进行自注意力特征提取,得到特征最后将通道方向的特征和空间方向的特征相加,进行跳跃连接操作得到x,从而确保了特征的可重用性,更有效地结合了
通道和空间方向的特征,表示为:4.如权利要求1或2所述的兼顾分子结构与序列挖掘的多视角酶功能预测方法,其特征在于:所述第四步的全连接模块,将经过bio-cs注意力模块处理后的特征x再经过全局平均池化和全连接模块(采用softmax激活函数)处理后作为最终的深度序列特征。5.如权利要求3所述的兼顾分子结构与序列挖掘的多视角酶功能预测方法,其特征在于:所述第四步的全连接模块,将经过bio-cs注意力模块处理后的特征x再经过全局平均池化和全连接模块(采用softmax激活函数)处理后作为最终的深度序列特征。6.如权利要求1或2或5所述的兼顾分子结构与序列挖掘的多视角酶功能预测方法,其特征在于,所述第五步的结构特征最终提取中,pointnet++网络在sampling&grouping&pointnet层之后,得到特征f∈r
n
′×
(d+c

)
,之后,采用两层带有relu激活函数的全连接层将特征f整合成新的向量f

,最后采用softmax层的输出作为酶的深度结构特征。7.如权利要求3所述的兼顾分子结构与序列挖掘的多视角酶功能预测方法,其特征在于,所述第五步的结构特征最终提取中,pointnet++网络在sampling&grouping&pointnet层之后,得到特征f∈r
n
′×
(d+c

)
,之后,采用两层带有relu激活函数的全连接层将特征f整合成新的向量f

,最后采用softmax层的输出作为酶的深度结构特征。8.如权利要求4所述的兼顾分子结构与序列挖掘的多视角酶功能预测方法,其特征在于,所述第五步的结构特征最终提取中,pointnet++网络在sampling&grouping&pointnet层之后,得到特征f∈r
n
′×
(d+c

)
,之后,采用两层带有relu激活函数的全连接层将特征f整合成新的向量f

,最后采用softmax层的输出作为酶的深度结构特征。

技术总结
本发明属于智能细胞生物识别领域,具体涉及一种兼顾分子结构与序列挖掘的多视角酶功能预测方法。该方法包括:初始酶特征构建,深度酶序列特征构建,深度酶结构特征构建,基于TSK模糊系统的模型训练与预测4个阶段。本方法将酶的结构特征和序列特征视为两个不同的视角,通过构造一个全新的多视角深度网络来从不同模态抽取、交叉、鉴别信息,并能实现对多视角酶数据间互补性与一致性信息的挖掘,采用多视角TSK模糊系统模型训练多视角特征,从而实现最终的酶功能预测。本方法兼顾了酶的序列特征和结构特征,使得预测信息更加完备,通过TSK模糊系统,能够很好地在新的网络中重新学习酶的序列与结构特征。列与结构特征。列与结构特征。


技术研发人员:邓赵红 于管青 吴敬 未志胜 王蕾 王士同
受保护的技术使用者:江南大学
技术研发日:2023.04.24
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐