蛋白质鉴定方法、电子设备及存储介质与流程

未命名 08-29 阅读:73 评论:0


1.本技术涉及生物领域,尤其涉及一种蛋白质鉴定方法、电子设备及存储介质。


背景技术:

2.目前的蛋白质鉴定方案中,依赖于人工设计的复杂特征提取蛋白质序列的关键信息,然后根据提取的关键信息实现蛋白质序列的鉴定。但是人工设计的特征往往表示能力有限,导致提取到的关键信息难以充分地反映蕴含在蛋白质序列内部的信息,造成对蛋白质序列的鉴定效率较低。


技术实现要素:

3.鉴于以上内容,有必要提供一种蛋白质鉴定方法、电子设备及存储介质,解决了由于人工设计的特征在表达能力上的局限性导致蛋白质序列的鉴定效率较低的技术问题。
4.一方面,本技术提供一种蛋白质鉴定方法,所述方法包括:获取蛋白质序列,使用预训练的多个自监督模型对所述蛋白质序列进行信息提取,得到所述蛋白质序列的多个嵌入向量,根据所述多个嵌入向量以及预训练的多个分类模型,生成所述蛋白质序列的目标概率向量,根据预训练的预测模型对所述目标概率向量进行预测,得到对所述蛋白质序列的蛋白质类别的预测结果。
5.由上述技术方案可知,本技术采用多个自监督模型对蛋白质序列进行信息提取,由于所述多个蛋白质模型为多个不同类型网络架构的自监督模型,
6.因此,能够确保提取到的多个嵌入式向量为所述蛋白质序列中不同级别的信息。此外,本技术依靠预训练的多个自监督模型从蛋白质序列中提取信息,并不依赖于人工设计的特征从蛋白质序列中提取信息,因此能够解决的人工提取的特征的表达能力有限的技术问题,还能够提高信息提取的速度。由于本技术是将每个嵌入向量输入至每个分类模型中,因此可以得到每个嵌入向量在每个分类模型上的输出结果,将所述多个嵌入向量在所述多个分类模型上的输出结果进行拼接,得到所述目标概率向量,所述目标概率向量中融合了所述多个自监督模型以及所述多个分类模型对所述蛋白质序列进行提取的信息,因此所述目标概率向量能够充分地反映蕴含在所述蛋白质序列内部的信息,对所述目标概率向量进行预测,能够提高对蛋白质序列的鉴定效率。
7.在一些实施例中,所述方法还包括:获取数据集,对所述数据集进行划分,得到第一训练集以及第二训练集,其中,所述第一训练集包括多个第一蛋白质序列以及每个第一蛋白质序列对应的第一类别标签,所述第二训练集包括多个第二蛋白质序列以及每个第二蛋白质序列对应的第二类别标签,所述第一类别标签以及所述第二类别标签均包括预设蛋白质类别,获取所述多个分类模型对应的多个初始分类器以及所述预测模型对应的预测学习器,根据所述多个自监督模型中的任意一个模型、所述多个第一蛋白质序列以及每个第一蛋白质序列对应的第一类别标签对每个初始分类器进行训练,得到每个初始分类器对应的分类模型,将任一自监督模型以及任一分类模型进行组合,得到多对组合模型,根据每对
组合模型对每个第二蛋白质序列进行信息提取,得到每个第二蛋白质序列对应的训练概率向量,使用所述预测学习器对每个训练概率向量进行预测,得到每个第二蛋白质序列的训练预测结果,根据所述训练预测结果、所述第二类别标签和所述预测学习器,生成所述预测模型。
8.在一些实施例中,所述根据所述训练预测结果、所述第二类别标签和所述预测学习器,生成所述预测模型包括:根据多个所述训练预测结果以及每个训练预测结果对应的第二类别标签计算训练损失值,根据所述训练损失值对所述预测学习器进行参数调整,直至所述训练损失值满足预设条件,得到所述预测模型。
9.在一些实施例中,所述根据多个所述训练预测结果以及每个训练预测结果对应的第二类别标签计算训练损失值包括:根据每个训练预测结果对应的第二类别标签,确定每个训练预测结果是否正确,根据正确的训练预测结果以及所述第二类别标签的标签数量,计算所述训练损失值。
10.在一些实施例中,所述根据所述多个嵌入向量以及预训练的多个分类模型,生成所述蛋白质序列的目标概率向量包括:将每个嵌入向量输入至所述多个分类模型中,得到每个嵌入向量的多个初始概率向量,将所述多个嵌入向量的所有初始概率向量进行拼接,得到所述目标概率向量。
11.在一些实施例中,所述蛋白质类别包括预设蛋白质类别和非预设蛋白质类别,所述根据预训练的预测模型对所述目标概率向量进行预测,得到对所述蛋白质序列的蛋白质类别的预测结果,包括:对所述预设蛋白质类别和所述非预设蛋白质类别分别进行编码,得到类别向量,基于所述类别向量对所述目标概率向量进行分类,确定所述蛋白质序列属于所述预设蛋白质类别的预测概率,根据所述预测概率与预设阈值的比较结果确定所述预测结果。
12.在一些实施例中,所述根据所述预测概率与预设阈值的比较结果确定所述预测结果包括:若所述预测概率大于或者等于预设阈值,确定所述预测结果为所述蛋白质序列属于所述预设蛋白质类别,或者,若所述预测概率小于所述预设阈值,确定所述预测结果为所述蛋白质序列不属于所述预设蛋白质类别。
13.在一些实施例中,所述预设蛋白质类别包括嗜热蛋白和嗜冷蛋白。
14.另一方面,本技术提供一种蛋白质鉴定装置,运行于电子设备,所述装置包括:获取单元,用于获取蛋白质序列,提取单元,用于使用预训练的多个自监督模型对所述蛋白质序列进行信息提取,得到所述蛋白质序列的多个嵌入向量,生成单元,用于根据所述多个嵌入向量以及预训练的多个分类模型,生成所述蛋白质序列的目标概率向量,预测单元,用于根据预训练的预测模型对所述目标概率向量进行预测,得到对所述蛋白质序列的蛋白质类别的预测结果。
15.另一方面,本技术提供一种电子设备,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述至少一个指令以实现所述的蛋白质鉴定方法。
16.另一方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现所述的蛋白质鉴定方法。
附图说明
17.图1是本技术一实施例提供的电子设备的结构图。
18.图2是本技术一实施例提供的蛋白质鉴定方法的流程图。
19.图3是本技术一实施例提供的预测结果的生成方法的流程图。
20.图4是本技术一实施例提供的多个自监督模型、多个分类模型以及预测模型的生成方法的流程图。
21.图5是本技术一实施例提供的蛋白质鉴定装置的功能模块图。
具体实施方式
22.需要说明的是,本技术中“至少一个”是指一个或者多个,“多个”是指两个或多于两个。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a,b可以是单数或者复数。本技术的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不是用于描述特定的顺序或先后次序。
23.在本技术实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
24.嗜热蛋白,通常也被称为耐高温的蛋白,是一类在高温条件下仍然能够保持其结构和功能的蛋白质。嗜热蛋白质通常来自于嗜热菌,特别是古菌。由于嗜热蛋白在增强蛋白稳定性、增强酶活以及适用于高温工业过程的可行性,它们已经在生物技术、食品加工和制药等各个领域实现了广泛的应用。例如,来自嗜热菌的热稳定纤维素酶已被用于将木质纤维素生物质高效转化为生物燃料。然而,鉴定和筛选嗜热蛋白是一项费力且繁琐的过程。为了加快相关领域的发展和更好的理解嗜热蛋白的机制,开发高通量的筛选方法实现快速的嗜热蛋白的鉴定就至关重要。
25.很多相关计算方法被开发出来用于鉴定嗜热蛋白,然而,相关计算方法往往依赖于人工设计的复杂特征以提取蛋白质序列的关键信息,然后根据提取的关键信息实现对蛋白质序列的鉴定。但是人工设计的特征往往表示能力有限,导致提取到的关键信息难以充分地反映蕴含在蛋白质序列内部的信息,造成对蛋白质序列的鉴定效率较低。
26.为了解决上述问题,本技术提供一种蛋白质鉴定方法、电子设备及存储介质。为了使本技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本技术进行详细描述。
27.本技术实施例提供的蛋白质鉴定方法可应用于一个或者多个电子设备中。
28.如图1所示,是本技术一实施例提供的电子设备的结构图。在图1中,电子设备1包括,但不限于,存储器12、处理器13,以及存储在存储器12中并可在处理器13上运行的计算机程序,例如蛋白质鉴定程序。
29.所述电子设备1是一种能够按照事先设定或存储的指令,自动进行参数值计算和/或信息处理的设备,其硬件包括,但不限于:微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字
信号处理器(digitalsignalprocessor,dsp)、嵌入式设备等。
30.所述电子设备1可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、服务器、平板电脑、智能手机等。
31.所述电子设备1还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloudcomputing)的由大量主机或网络服务器构成的云。图1仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备1还可以包括输入输出设备、网络接入设备、总线等。
32.所述电子设备1所处的网络包括但不限于:互联网、广域网、城域网、局域网、虚拟专用网络(virtualprivatenetwork,vpn)等。
33.如图2所示,是本技术一实施例提供的蛋白质鉴定方法的流程图。根据不同的需求,该流程图中各个步骤的顺序可以根据实际要求进行调整,某些步骤可以省略。所述方法的执行主体为电子设备,例如图1所示的电子设备1。
34.s11,获取蛋白质序列。
35.在一实施例中,所述蛋白质序列是指需要鉴定类别的蛋白质序列。所述电子设备可以从数据集中获取所述蛋白质序列。例如,所述数据集可以为uniprot数据库、brenda数据库以及常见的包含蛋白质序列的数据库中的部分数据或者所有数据。
36.在一实施例中,所述蛋白质序列可以为需要鉴定类别的数据集中的序列。
37.在另一实施例中,所述蛋白质序列可以通过其它方式获取,本技术对所述蛋白质序列不作限制。
38.s12,使用预训练的多个自监督模型对所述蛋白质序列进行信息提取,得到所述蛋白质序列的多个嵌入向量。
39.在一实施例中,所述多个自监督模型包括,但不限于:seqvec模型、protcnn模型、prottrans模型和cpcprot模型。其中,所述多个自监督模型为预训练至收敛的模型。
40.在另一实施例中,所述多个自监督模型还可以为其它模型,本技术对所述多个自监督模型不作限制。
41.在一些实施例中,所述电子设备使用预训练的多个自监督模型对所述蛋白质序列进行信息提取,得到所述蛋白质序列的多个嵌入向量包括:所述电子设备将每个嵌入向量输入至每个自监督模型中,得到每个嵌入向量在每个自监督模型上对应输出的嵌入向量。
42.其中,每个蛋白质模型对所述蛋白质序列的信息提取过程可参考相关技术中该模型对蛋白质序列进行表示学习,得到蛋白质嵌入式表示的过程。
43.在本实施例中,每个嵌入向量的维度以及信息量等信息与所述嵌入向量对应的自监督模型相关。例如,若所述多个蛋白质模型为所述seqvec模型、所述protcnn模型、所述prottrans模型和所述cpcprot模型,所述多个嵌入向量为4个向量,所述seqvec模型提取到的嵌入向量的维度为1024维、所述protcnn模型提取到的嵌入向量的维度为1100维、所述prottrans模型提取到的嵌入向量的维度为1024维以及所述cpcprot模型提取到的嵌入向量的维度为1536维。
44.在本实施例中,使用多个自监督模型对所述蛋白质序列进行特征提取,而并不依赖人工提取的特征从蛋白质序列中提取信息,因此能够解决的人工提取的特征的表达能力
有限的技术问题,还能够提高信息的提取速度。由于每个自监督模型的架构不相同,因此能够提取到所述蛋白质序列中不同级别以及不同维度的嵌入向量。
45.在本技术的其它实施例中,为了使得所述蛋白质序列具有更多的嵌入表示,所述多个自监督模型的数量可以更多。
46.s13,根据所述多个嵌入向量以及预训练的多个分类模型,生成所述蛋白质序列的目标概率向量。
47.在一些实施例中,所述多个分类模型包括,但不限于:随机森林模型(random forest,rf)、自适应增强模型(adaboost,ab)、引导聚集模型或者装袋模型(bagging,ba)、梯度提升决策树模型xgboost(extremegradient boosting,xgb)和(lightgbm,lgb)等。
48.在一实施例中,所述电子设备根据所述多个嵌入向量以及预训练的多个分类模型,生成所述蛋白质序列的目标概率向量包括:所述电子设备将每个嵌入向量输入至所述多个分类模型中,得到每个嵌入向量的多个初始概率向量,然后所述电子设备将所述多个嵌入向量的所有初始概率向量进行拼接,得到所述目标概率向量。
49.其中,由于所述多个分类模型为不同的模型,因此每个分类模型根据输入的每个嵌入向量生成每个嵌入向量的过程可参考相关技术中每个分类模型的分类方法或者分类公式。
50.例如,承接上述实施例,若所述多个嵌入向量为所述seqvec模型、所述protcnn模型、所述prottrans模型和所述cpcprot模型输出的4个嵌入向量,所述多个分类模型为所述adaboost模型、所述bagging模型、所述xgboost模型和所述lightgbm模型,将所述4个嵌入向量分别输入至5个分类模型中,得到20个初始概率向量,若每个初始概率向量的维度均为1维,将20个1维的初始概率向量进行拼接,得到维度为20维的目标概率向量。
51.在本技术的另一实施例中,所述多个分类模型可以为其它模型,本技术对所述不作限制。上述对所述多个分类模型的举例仅为示例,而并不构成对所述多个分类模型的限制。
52.在本实施例中,可以对所述多个分类模型进行级联,通过由所述多个分类模型集成的模型对每个嵌入向量进行分类,得到所述目标概率向量,能够减少避免单一模型的过拟合问题。此外,由于所述目标概率向量是由多个所述初始概率向量拼接得到,所述目标概率向量融合了所述多个初始概率向量中的信息,使得所述目标概率向量能够充分地反映蕴含在所述蛋白质序列内部的信息。
53.s14,根据预训练的预测模型对所述目标概率向量进行预测,得到对所述蛋白质序列的蛋白质类别的预测结果。
54.在一实施例中,所述蛋白质类别包括预设蛋白质类别和非预设蛋白质类别。其中,所述预设蛋白质类别包括,但不限于:嗜热蛋白和嗜冷蛋白。所述非预设蛋白质类别为除了所述预设蛋白质类别之外的其它蛋白质类别。例如,若所述预设蛋白质类别为嗜热蛋白,则所述非预设蛋白质类别可以为非嗜热蛋白,或者,若所述预设蛋白质类别为嗜冷蛋白,则所述非预设蛋白质类别可以为非嗜冷蛋白。
55.在一些实施例中,所述预测结果包括所述蛋白质序列属于所述预设蛋白质类别和所述蛋白质序列不属于所述预设蛋白质类别。
56.在一些实施例中,所述预测模型可以为机器学习模型。例如,所述预测模型可以为
支持向量机模型(support vector machines,svm)。
57.在本实施例中,由于所述目标概率向量能够充分地反映蕴含在所述蛋白质序列内部的信息,因此对所述目标概率向量进行预测,能够提高对蛋白质序列的鉴定准确性。
58.由上述技术方案可知,本技术采用多个自监督模型对蛋白质序列进行信息提取,由于所述多个蛋白质模型为多个不同类型网络架构的自监督模型,
59.因此,能够确保提取到的多个嵌入式向量为所述蛋白质序列中不同级别的信息。此外,本技术依靠预训练的多个自监督模型从蛋白质序列中提取信息,并不依赖于人工设计的特征从蛋白质序列中提取信息,因此能够解决的人工提取的特征的表达能力有限的技术问题,还能够提高信息提取的速度。由于本技术是将每个嵌入向量输入至每个分类模型中,因此可以得到每个嵌入向量在每个分类模型上的输出结果,将所述多个嵌入向量在所述多个分类模型上的输出结果进行拼接,得到所述目标概率向量,所述目标概率向量中融合了所述多个自监督模型以及所述多个分类模型对所述蛋白质序列进行提取的信息,因此所述目标概率向量能够充分地反映蕴含在所述蛋白质序列内部的信息,对所述目标概率向量进行预测,能够提高对蛋白质序列的鉴定效率。
60.在本技术的一些实施例中,所述电子设备将所述目标概率向量输入至所述预测模型中,得到对所述蛋白质序列的蛋白质类别的预测结果。如图3所示,是本技术一实施例提供的预测结果的生成方法的流程图,包括以下步骤:
61.s141,所述电子设备对所述预设蛋白质类别和所述非预设蛋白质类别分别进行编码,得到类别向量。
62.在一些实施例中,所述预设蛋白质类别包括,但不限于:嗜热蛋白和嗜冷蛋白。所述非预设蛋白质类别为除了所述预设蛋白质类别之外的其它类别。例如,若所述预设蛋白质类别为嗜热蛋白,则所述非预设蛋白质类别可以为非嗜热蛋白,或者,若所述预设蛋白质类别为嗜冷蛋白,则所述非预设蛋白质类别可以为非嗜冷蛋白。
63.在一些实施例中,所述电子设备可以对所述预设蛋白质类别和所述非预设蛋白质类别分别进行独热编码(one-hot),得到所述类别向量。例如,所述电子设备可以将所述预设蛋白质类别编码为1,并将所述非预设蛋白质类别编码为0,得到由1和0组成的类别向量。
64.在本技术的其它实施例中,所述电子设备可以通过其它方式对所述预设蛋白质类别和所述非预设蛋白质类别进行编码,本技术对编码的方式不作限制。
65.s142,所述电子设备基于所述类别向量对所述目标概率向量进行分类,确定所述蛋白质序列属于所述预设蛋白质类别的预测概率。
66.在一些实施例中,所述电子设备基于所述类别向量对所述目标概率向量进行分类,确定所述蛋白质序列属于所述预设蛋白质类别的预测概率的方法可参考相关技术中sigmoid函数或者softmax函数对应的分类公式。
67.s143,所述电子设备根据所述预测概率与预设阈值的比较结果确定所述预测结果。
68.在一些实施例中,所述电子设备根据所述预测概率与预设阈值的比较结果确定所述预测结果,包括:若所述预测概率大于或者等于预设阈值,所述电子设备确定所述预测结果为所述蛋白质序列属于所述预设蛋白质类别,或者,若所述预测概率小于所述预设阈值,所述电子设备确定所述预测结果为所述蛋白质序列不属于所述预设蛋白质类别,也可以是
所述蛋白质序列属于所述非预设蛋白质类别。
69.在本技术的一实施例中,若所述电子设备确定所述预测结果为所述蛋白质序列属于所述预设蛋白质类别,所述电子设备输出第一预设数据以表示所述蛋白质序列属于所述预设蛋白质类别,或者,若所述电子设备确定所述预测结果为所述蛋白质序列不属于所述预设蛋白质类别(所述电子设备确定所述预测结果为所述蛋白质序列属于所述非预设蛋白质类别),所述电子设备输出第二预设数据以表示所述蛋白质序列不属于所述预设蛋白质类别。
70.其中,所述第一预设数据与所述第二预设数据可以为数值、字母或者数值和字母的组合等形式。所述第一预设数据以及所述第二预设数据可以自行设置,本技术对此不作限制。例如,在所述第一预设数据与所述第二预设数据均为数值时,所述第一预设数值可以为1,所述第二预设数值可以为0。
71.在本技术的一些实施例中,在使用所述多个自监督模型、所述多个分类模型以及所述预测模型之前,需要生成所述多个自监督模型、所述多个分类模型以及所述预测模型。如图4所示,是本技术一实施例提供的多个自监督模型、多个分类模型以及预测模型的生成方法的流程图,包括以下步骤:
72.s21,所述电子设备获取数据集,对所述数据集进行划分,得到第一训练集以及第二训练集。
73.在一些实施例中,所述数据集包括多个蛋白质序列,所述数据集中的每个蛋白质序列具有对应的类别标签,所述数据集可以包括,但不限于:uniprot数据库、brenda数据库以及常见的包含蛋白质序列的数据库中的部分数据或者所有数据。其中,所述第一训练集包括多个第一蛋白质序列以及每个第一蛋白质序列对应的第一类别标签,所述第二训练集包括多个第二蛋白质序列以及每个第二蛋白质序列对应的第二类别标签,所述第一类别标签以及所述第二类别标签均包括预设蛋白质类别。
74.在一些实施例中,每个第一蛋白质序列具有对应的第一类别标签,每个第二蛋白质具有对应的第二类别标签,所述第一类别标签用于指示每个第一蛋白质序列的类别,所述第二类别标签用于指示每个第二蛋白质序列的类别。
75.在本实施例中,所述电子设备对所述数据集进行划分的方式可以自行设置,本技术对此不作限制。例如,所述电子设备可以将所述数据集中80%的数据作为所述第一训练集,将所述80%的数据的类别标签作为所述第一类别标签,然后所述电子设备将所述数据集中20%的数据作为所述第二训练集,将所述20%的数据的类别标签作为所述第二类别标签。上述举例仅为对所述数据集的一种划分方式的举例,而不构成对所述数据集的划分方式的限制。
76.s22,所述电子设备获取所述多个分类模型对应的多个初始分类器以及所述预测模型对应的预测学习器。
77.在一些实施例中,所述多个初始分类器可以包括所述随机森林模型random forest对应的分类器、所述自适应增强模型adaboost对应的分类器、所述装袋模型bagging对应的分类器、所述梯度提升决策树模型xgboost对应的分类器和所述梯度提升决策树模型lightgbm对应的分类器,所述预测学习器可以为支持向量机模型svm的学习器。
78.s23,所述电子设备根据所述多个自监督模型中的任意一个模型、所述多个第一蛋
白质序列以及每个第一蛋白质序列对应的第一类别标签对每个初始分类器进行训练,得到每个初始分类器对应的分类模型。
79.在一些实施例中,所述电子设备将每个第一蛋白质序列输入至每个自监督模型中,得到每个第一蛋白质序列在每个自监督模型上对应输出的初始嵌入向量,其中,每个第一蛋白质序列对应的多个初始嵌入向量与该第一蛋白质序列的第一类别标签相对应,然后所述电子设备将每个第一蛋白质序列对应的多个初始嵌入向量分别输入至所述多个初始分类器中,得到每个第一蛋白质序列的每个初始嵌入向量在每个初始分类器上对应输出的分类向量,将每个第一蛋白质序列对应的多个分类向量进行拼接,得到每个第一蛋白质序列对应的拼接概率向量,所述电子设备对每个第一蛋白质序列对应的拼接概率向量进行预测,得到每个第一蛋白质序列的预测类别,根据所述多个第一蛋白质的预测类别与第一类别标签计算初始损失值,并根据所述初始损失值调整所述多个初始分类器的参数,直至所述初始损失值满足配置条件,得到所述初始分类器对应的分类模型。
80.在本实施例中,所述多个初始嵌入向量与上文中的多个嵌入向量的生成方式基本相同,所述拼接概率向量与上文中的目标概率向量的生成方式基本相同,故本技术不再重复描述。此外,所述电子设备对每个拼接概率向量进行预测可参考下文中对目标概率向量的预测过程,所述初始损失值的计算方式可参考下文中的训练损失值的计算方式,所述配置条件与下文中的预设条件基本相同。
81.s24,所述电子设备将任一自监督模型以及任一分类模型进行组合,得到多对组合模型。
82.例如,若所述多个自监督模型分别以a、b、c和d进行表示,所述多个分类模型分别以a、b、c、d和e进行表示。所述电子设备将任一自监督模型以及任一分类模型进行组合,得到的多对组合模型如表1所示。
83.表1多对组合模型示例
[0084][0085][0086]
s25,所述电子设备根据每对组合模型对每个第二蛋白质序列进行信息提取,得到
每个第二蛋白质序列对应的训练概率向量。
[0087]
在一些实施例中,每个训练概率向量的生成方式与所述目标概率向量的生成方式基本相同,故本技术不再重复描述。
[0088]
s26,所述电子设备使用所述预测学习器对每个训练概率向量进行预测,得到每个第二蛋白质序列的训练预测结果。
[0089]
在一些实施例中,所述训练预测结果与所述蛋白质序列的预测结果的生成方式基本相同,故本技术在此不再重复描述。
[0090]
s27,所述电子设备根据所述训练预测结果、所述第二类别标签和所述预测学习器,生成所述预测模型。
[0091]
在一些实施例中,所述电子设备根据所述训练预测结果、所述第二类别标签和所述预测学习器,生成所述预测模型包括:所述电子设备根据多个所述训练预测结果以及每个训练预测结果对应的第二类别标签计算训练损失值,根据所述训练损失值对所述预测学习器进行参数调整,直至所述训练损失值满足预设条件,得到所述预测模型。
[0092]
其中,所述电子设备可以对所述多个自监督模型、所述多个初始分类器和所述预测学习器的权重和偏置等参数进行调整。所述预设条件可以自行设置,本技术对此不作限制。例如,所述预设条件与所述训练预测结果相对应。例如,所述预设条件可以为所述训练损失值下降至一预设区间、所述训练损失值下降至最低或者所述训练损失值不再变化,其中,所述预设区间可以自行设置,本技术对此不作限制。
[0093]
在一些实施例中,所述电子设备根据多个所述训练预测结果以及每个训练预测结果对应的第二类别标签计算训练损失值包括:所述电子设备根据每个训练预测结果对应的第二类别标签,确定每个训练预测结果是否正确,然后所述电子设备根据正确的训练预测结果以及所述第二类别标签的标签数量,计算所述训练损失值。
[0094]
其中,所述电子设备可以将每个训练预测结果与所述对应的第二类别标签进行比对,若每个训练预测结果指示的蛋白质与所述对应的第二类别标签相同,则所述电子设备确定每个训练预测结果正确,或者,若每个训练预测结果与所述对应的第二类别标签不相同,则所述电子设备确定每个训练预测结果错误。
[0095]
例如,在任一第二蛋白质序列的训练预测结果为所述任一第二蛋白质序列属于所述预设蛋白质类别时,若所述任一第二蛋白质序列的第二类别标签为所述预设蛋白质类别,则所述电子设备确定任一第二蛋白质序列的训练预测结果正确。或者,在任一第二蛋白质序列的训练预测结果为所述任一第二蛋白质序列属于所述预设蛋白质类别时,若所述任一第二蛋白质序列的第二类别标签不是所述预设蛋白质类别,则所述电子设备确定任一第二蛋白质序列的训练预测结果错误。
[0096]
在一实施例中,所述电子设备使用集成算法(例如bagging算法或者boosting算法)对所述多个初始分类器进行集成训练,得到由所述多个分类模型级联而成的模型。
[0097]
在本实施例中,所述电子设备计算正确的训练预测结果的正确数量,并将所述正确数量与所述标签数量之间的比值确定为所述训练损失值。在所述训练损失值不再变化时,所述电子设备停止调整,得到所述多个自监督模型、所述多个分类模型以及所述预测模型。
[0098]
在本技术的另外一些实施例中,所述训练损失值还可以通过其它方式进行计算。
例如,所述电子设备可以将错误的训练预测结果的错误数量与所述标签数量之间的比值确定为所述训练损失值,在所述训练损失值不再下降或者下降至一预设区间,所述电子设备停止调整,得到所述多个自监督模型、所述多个分类模型以及所述预测模型。
[0099]
如图5所示,是本技术一实施例提供的蛋白质鉴定装置的功能模块图。所述蛋白质鉴定装置11包括获取单元110、提取单元111、生成单元112以及预测单元113。本技术所称的模块/单元是指一种能够被图1中的处理器13所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在图1中的存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
[0100]
在一些实施例中,所述获取单元110用于获取蛋白质序列。
[0101]
所述提取单元111,用于使用预训练的多个自监督模型对所述蛋白质序列进行信息提取,得到所述蛋白质序列的多个嵌入向量。
[0102]
所述生成单元112,用于根据所述多个嵌入向量以及预训练的多个分类模型,生成所述蛋白质序列的目标概率向量。
[0103]
在一些实施例中,所述生成单元112,还用于将每个嵌入向量输入至所述多个分类模型中,得到每个嵌入向量的多个初始概率向量,将所述多个嵌入向量的所有初始概率向量进行拼接,得到所述目标概率向量。
[0104]
所述预测单元113,用于根据预训练的预测模型对所述目标概率向量进行预测,得到对所述蛋白质序列的蛋白质类别的预测结果。所述预设蛋白质类别包括嗜热蛋白和嗜冷蛋白。
[0105]
在一些实施例中,所述蛋白质类别包括预设蛋白质类别和非预设蛋白质类别,所述预测单元113,还用于根据预训练的预测模型对所述目标概率向量进行预测,得到对所述蛋白质序列的蛋白质类别的预测结果,包括:对所述预设蛋白质类别和所述非预设蛋白质类别分别进行编码,得到类别向量,基于所述类别向量对所述目标概率向量进行分类,确定所述蛋白质序列属于所述预设蛋白质类别的预测概率,根据所述预测概率与预设阈值的比较结果确定所述预测结果。
[0106]
在一些实施例中,所述预测单元113,还用于根据所述预测概率与预设阈值的比较结果确定所述预测结果包括:若所述预测概率大于或者等于预设阈值,确定所述预测结果为所述蛋白质序列属于所述预设蛋白质类别,或者,若所述预测概率小于所述预设阈值,确定所述预测结果为所述蛋白质序列不属于所述预设蛋白质类别。
[0107]
在一些实施例中,所述生成单元112,还用于获取数据集,对所述数据集进行划分,得到第一训练集以及第二训练集,其中,所述第一训练集包括多个第一蛋白质序列以及每个第一蛋白质序列对应的第一类别标签,所述第二训练集包括多个第二蛋白质序列以及每个第二蛋白质序列对应的第二类别标签,所述第一类别标签以及所述第二类别标签均包括预设蛋白质类别,获取所述多个分类模型对应的多个初始分类器以及所述预测模型对应的预测学习器,根据所述多个自监督模型中的任意一个模型、所述多个第一蛋白质序列以及每个第一蛋白质序列对应的第一类别标签对每个初始分类器进行训练,得到每个初始分类器对应的分类模型,将任一自监督模型以及任一分类模型进行组合,得到多对组合模型,根据每对组合模型对每个第二蛋白质序列进行信息提取,得到每个第二蛋白质序列对应的训练概率向量,使用所述预测学习器对每个训练概率向量进行预测,得到每个第二蛋白质序
列的训练预测结果,根据所述训练预测结果、所述第二类别标签和所述预测学习器,生成所述预测模型。
[0108]
在一些实施例中,所述生成单元112,还用于根据所述训练预测结果、所述第二类别标签和所述预测学习器,生成所述预测模型包括:根据多个所述训练预测结果以及每个训练预测结果对应的第二类别标签计算训练损失值,根据所述训练损失值对所述预测学习器进行参数调整,直至所述训练损失值满足预设条件,得到所述预测模型。
[0109]
在一些实施例中,所述生成单元112,还用于根据多个所述训练预测结果以及每个训练预测结果对应的第二类别标签计算训练损失值包括:根据每个训练预测结果对应的第二类别标签,确定每个训练预测结果是否正确,根据正确的训练预测结果以及所述第二类别标签的标签数量,计算所述训练损失值。
[0110]
由上述技术方案可知,本技术采用多个自监督模型对蛋白质序列进行信息提取,由于所述多个蛋白质模型为多个不同类型网络架构的自监督模型,
[0111]
因此,能够确保提取到的多个嵌入式向量为所述蛋白质序列中不同级别的信息。此外,本技术依靠预训练的多个自监督模型从蛋白质序列中提取信息,并不依赖于人工设计的特征从蛋白质序列中提取信息,因此能够解决的人工提取的特征的表达能力有限的技术问题,还能够提高信息提取的速度。由于本技术是将每个嵌入向量输入至每个分类模型中,因此可以得到每个嵌入向量在每个分类模型上的输出结果,将所述多个嵌入向量在所述多个分类模型上的输出结果进行拼接,得到所述目标概率向量,所述目标概率向量中融合了所述多个自监督模型以及所述多个分类模型对所述蛋白质序列进行提取的信息,因此所述目标概率向量能够充分地反映蕴含在所述蛋白质序列内部的信息,对所述目标概率向量进行预测,能够提高对蛋白质序列的鉴定效率。
[0112]
在一实施例中,接续前文对图1中的电子设备的描述,处理器13可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器13是电子设备1的运算核心和控制中心,利用各种接口和线路连接整个电子设备1的各个部分,及获取电子设备1的操作系统以及安装的各类应用程序、程序代码等。
[0113]
处理器13获取电子设备1的操作系统以及安装的各类应用程序。处理器13获取应用程序以实现上述各个蛋白质鉴定方法实施例中的步骤,例如图2、图3及图4所示的步骤。
[0114]
示例性的,计算机程序可以被分割成一个或多个模块/单元,例如加速单元,一个或者多个模块/单元被存储在存储器12中,并由处理器13获取,以完成本技术。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在电子设备1中的获取过程。
[0115]
存储器12可用于存储计算机程序和/或模块,处理器13通过运行或获取存储在存储器12内的计算机程序和/或模块,以及调用存储在存储器12内的数据,实现电子设备1的各种功能。存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可
存储根据服务器的使用所创建的数据等。此外,存储器12可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
[0116]
存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,存储器12可以是具有实物形式的存储器,如内存条、tf卡(trans-flash card)等等。
[0117]
电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器获取时,可实现上述各个方法实施例的步骤。
[0118]
其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可获取文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory,rom)。
[0119]
结合图2,电子设备1中的存储器12存储多个指令以实现一种蛋白质鉴定方法,处理器13可获取多个指令从而实现:获取蛋白质序列;使用预训练的多个自监督模型对所述蛋白质序列进行信息提取,得到所述蛋白质序列的多个嵌入向量;根据所述多个嵌入向量以及预训练的多个分类模型,生成所述蛋白质序列的目标概率向量;根据预训练的预测模型对所述目标概率向量进行预测,得到对所述蛋白质序列的蛋白质类别的预测结果。
[0120]
具体地,处理器13对上述指令的具体实现方法可参考图2对应实施例中相关步骤的描述,在此不赘述。
[0121]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0122]
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以处于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选取其中的部分或者全部模块来实现本实施例方案的目的。
[0123]
另外,在本技术各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0124]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0125]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。本技术中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
[0126]
最后应说明的是,以上实施例仅用以说明本技术的技术方案而非限制,尽管参照
较佳实施例对本技术进行了详细说明,本领域的普通技术人员应当理解,可以对本技术的技术方案进行修改或等同替换,而不脱离本技术技术方案的精神和范围。

技术特征:
1.一种蛋白质鉴定方法,其特征在于,所述方法包括:获取蛋白质序列;使用预训练的多个自监督模型对所述蛋白质序列进行信息提取,得到所述蛋白质序列的多个嵌入向量;根据所述多个嵌入向量以及预训练的多个分类模型,生成所述蛋白质序列的目标概率向量;根据预训练的预测模型对所述目标概率向量进行预测,得到对所述蛋白质序列的蛋白质类别的预测结果。2.如权利要求1所述的蛋白质鉴定方法,其特征在于,所述方法还包括:获取数据集,对所述数据集进行划分,得到第一训练集以及第二训练集,其中,所述第一训练集包括多个第一蛋白质序列以及每个第一蛋白质序列对应的第一类别标签,所述第二训练集包括多个第二蛋白质序列以及每个第二蛋白质序列对应的第二类别标签,所述第一类别标签以及所述第二类别标签均包括预设蛋白质类别;获取所述多个分类模型对应的多个初始分类器以及所述预测模型对应的预测学习器;根据所述多个自监督模型中的任意一个模型、所述多个第一蛋白质序列以及每个第一蛋白质序列对应的第一类别标签对每个初始分类器进行训练,得到每个初始分类器对应的分类模型;将任一自监督模型以及任一分类模型进行组合,得到多对组合模型;根据每对组合模型对每个第二蛋白质序列进行信息提取,得到每个第二蛋白质序列对应的训练概率向量;使用所述预测学习器对每个训练概率向量进行预测,得到每个第二蛋白质序列的训练预测结果;根据所述训练预测结果、所述第二类别标签和所述预测学习器,生成所述预测模型。3.如权利要求2所述的蛋白质鉴定方法,其特征在于,所述根据所述训练预测结果、所述第二类别标签和所述预测学习器,生成所述预测模型包括:根据多个所述训练预测结果以及每个训练预测结果对应的第二类别标签计算训练损失值;根据所述训练损失值对所述预测学习器进行参数调整,直至所述训练损失值满足预设条件,得到所述预测模型。4.如权利要求2所述的蛋白质鉴定方法,其特征在于,所述根据多个所述训练预测结果以及每个训练预测结果对应的第二类别标签计算训练损失值包括:根据每个训练预测结果对应的第二类别标签,确定每个训练预测结果是否正确;根据正确的训练预测结果以及所述第二类别标签的标签数量,计算所述训练损失值。5.如权利要求1所述的蛋白质鉴定方法,其特征在于,所述根据所述多个嵌入向量以及预训练的多个分类模型,生成所述蛋白质序列的目标概率向量包括:将每个嵌入向量输入至所述多个分类模型中,得到每个嵌入向量的多个初始概率向量;将所述多个嵌入向量的所有初始概率向量进行拼接,得到所述目标概率向量。6.如权利要求1所述的蛋白质鉴定方法,其特征在于,所述蛋白质类别包括预设蛋白质
类别和非预设蛋白质类别,所述根据预训练的预测模型对所述目标概率向量进行预测,得到对所述蛋白质序列的蛋白质类别的预测结果,包括:对所述预设蛋白质类别和所述非预设蛋白质类别分别进行编码,得到类别向量;基于所述类别向量对所述目标概率向量进行分类,确定所述蛋白质序列属于所述预设蛋白质类别的预测概率;根据所述预测概率与预设阈值的比较结果确定所述预测结果。7.如权利要求6所述的蛋白质鉴定方法,其特征在于,所述根据所述预测概率与预设阈值的比较结果确定所述预测结果包括:若所述预测概率大于或者等于预设阈值,确定所述预测结果为所述蛋白质序列属于所述预设蛋白质类别;或者若所述预测概率小于所述预设阈值,确定所述预测结果为所述蛋白质序列不属于所述预设蛋白质类别。8.如权利要求6所述的蛋白质鉴定方法,其特征在于,所述预设蛋白质类别包括嗜热蛋白和嗜冷蛋白。9.一种电子设备,其特征在于,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述至少一个指令以实现如权利要求1至8中任意一项所述的蛋白质鉴定方法。10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现如权利要求1至8中任意一项所述的蛋白质鉴定方法。

技术总结
本申请提供一种蛋白质鉴定方法、电子设备及存储介质。所述方法包括:获取蛋白质序列;使用预训练的多个自监督模型对所述蛋白质序列进行信息提取,得到所述蛋白质序列的多个嵌入向量;根据所述多个嵌入向量以及预训练的多个分类模型,生成所述蛋白质序列的目标概率向量;根据预训练的预测模型对所述目标概率向量进行预测,得到对所述蛋白质序列的蛋白质类别的预测结果。利用上述方法,能够提高蛋白质序列的鉴定效率。列的鉴定效率。列的鉴定效率。


技术研发人员:余函 罗小舟
受保护的技术使用者:深圳先进技术研究院
技术研发日:2023.05.22
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐