一种蛋白质自由能变预测模型的处理方法和装置与流程
未命名
10-09
阅读:104
评论:0

1.本发明涉及数据处理技术领域,特别涉及一种蛋白质自由能变预测模型的处理方法和装置。
背景技术:
2.蛋白质自由能变(delta delta g,ddg)是指蛋白质在体系中的稳定性随其氨基酸序列变化而引起的自由能变化。具体来说,蛋白质自由能变是突变后蛋白质与原始蛋白质的自由能差。蛋白质自由能变为正,意味着相较于原始蛋白质而言突变后蛋白质的稳定性变弱;蛋白质自由能变为负,意味着相较于原始蛋白质而言突变后蛋白质的稳定性增强。蛋白质自由能变是用于评估氨基酸突变对蛋白质稳定性影响的一个重要参数,准确预测蛋白质自由能变对蛋白质进化研究具有重要意义。
3.目前,常规的蛋白质自由能变预测方法大多都是基于一维分子序列进行预测,而一维分子序列无法体现较为复杂的二维、三维空间分子结构特征,这就导致了常规预测方法的准确度始终无法得到进一步提升。
4.近年来,随着人工智能技术的深入发展,越来越多的研究开始关注基于人工智能技术的蛋白质自由能预测手段。而如何与人工智能技术相结合给出一个提升蛋白质自由能变预测准确度的预测模型,就是本发明需要解决的技术问题。
技术实现要素:
5.本发明的目的,就是针对现有技术的缺陷,提供一种蛋白质自由能变预测模型的处理方法、装置、电子设备及计算机可读存储介质;本发明先由一个可对一维分子序列进行多维(一维、二维、三维)分子结构特征识别的蛋白质语义模型和一个梯度提升决策树模型构建出一个能对蛋白质自由能变进行预测的自由能变预测模型;再通过对蛋白质语义模型进行预训练使其能获得更多、更准确的多维分子结构特征,以提高模型的泛化性;再在固化蛋白质语义模型的模型参数之后基于有监督模型训练方式对梯度提升决策树模型进行训练,以提高模型的预测准确度;另外,本发明还对其中的蛋白质语义模型给出多组模型选型(esm-1b模型、esm-1v模型、esm-if1模型、esm2模型和protbert模型),并在模型训练时针对每个模型选型训练出一组对应的蛋白质语义模型参数和梯度提升决策树模型参数,在提高模型预测准确度的同时还能保持较好的鲁棒性;另外,本发明还提供两类应用模式以供用户使用:1)第一模式,对用户输入的原始-突变蛋白质序列对的自由能变进行预测并根据预测结果对突变后蛋白质的稳定性进行等级评估;2)第二模式,对用户输入的一个原始蛋白质序列及其对应的多个突变蛋白质序列的自由能变进行分别预测并根据预测结果对各个突变后蛋白质的稳定性进行等级评估并根据评估结果对突变后的蛋白质序列进行排序。通过本发明提供的自由能变预测模型可以基于多维分子结构特征来提高自由能变的预测准确度,通过本发明的训练方式可以进一步提高模型的泛化性,通过本发明提供的模型选型机制可以进一步提高模型的灵活性与鲁棒性,通过本发明提供的两类应用模式可以进一步
提高模型的使用便捷性。
6.为实现上述目的,本发明实施例第一方面提供了一种蛋白质自由能变预测模型的处理方法,所述方法包括:
7.构建自由能变预测模型;所述自由能变预测模型用于根据输入的原始、突变蛋白质序列进行蛋白质自由能变预测;所述自由能变预测模型包括蛋白质结构特征识别模块、特征拼接模块和自由能变预测模块;
8.构建预训练数据集和预测训练数据集作为对应的第一、第二数据集;并基于所述第一数据集对所述蛋白质结构特征识别模块进行预训练;所述预训练结束,则在固化所述蛋白质结构特征识别模块的模型参数的前提下基于所述第二数据集对所述自由能变预测模型进行模型训练;
9.在模型训练结束后,接收用户输入的模型选型标识、模型应用模式和对应的模型应用数据;并根据所述模型选型标识对所述自由能变预测模型进行模型参数配置;并对所述模型应用模式进行识别;若所述模型应用模式为第一模式,则根据所述模型应用数据和所述自由能变预测模型进行单序列自由能变预测并根据预测结果进行稳定性等级评估;若所述模型应用模式为第二模式,则根据所述模型应用数据和所述自由能变预测模型进行多序列自由能变预测并根据预测结果进行稳定性等级评估并根据评估结果进行多序列稳定性排序;所述模型应用模式包括第一、第二模式;所述模型应用模式为第一模式时,对应的所述模型应用数据包括第一原始蛋白质序列和第一突变蛋白质序列;所述模型应用模式为第二模式时,对应的所述模型应用数据包括第二原始蛋白质序列和多个第二突变蛋白质序列。
10.优选的,所述原始蛋白质序列为原始蛋白质的分子序列,所述突变蛋白质序列为突变蛋白质的分子序列,所述突变蛋白质为所述原始蛋白质发生蛋白质突变得到的蛋白质;所述蛋白质突变的突变类型包括置换突变、缺失突变和插入突变;所述突变蛋白质中带有一个或多个突变残基,所述突变残基为所述蛋白质突变产生的残基;
11.所述蛋白质结构特征识别模块的输入端与所述自由能变预测模型的输入端连接,输出端与所述特征拼接模块的输入端连接;所述特征拼接模块的输出端与所述自由能变预测模块的输入端连接;所述自由能变预测模块的输出端与所述自由能变预测模型的输出端连接;
12.所述蛋白质结构特征识别模块为基于transformer模型结构实现的蛋白质语义模型;所述蛋白质结构特征识别模块的蛋白质语义模型选型范围包括esm-1b模型、esm-1v模型、esm-if1模型、esm2模型和protbert模型;
13.所述自由能变预测模块基于梯度提升决策树模型实现;
14.所述蛋白质结构特征识别模块用于对输入的所述原始、突变蛋白质序列分别进行蛋白质语义特征识别处理得到对应的原始、突变序列特征张量向所述特征拼接模块发送;所述特征拼接模块用于对所述原始、突变序列特征张量进行特征张量拼接得到对应的拼接特征张量向所述自由能变预测模块发送;所述自由能变预测模块用于根据所述拼接特征张量进行自由能变回归预测输出对应的预测自由能变数据;
15.所述第一数据集包括多个第一模型数据集;所述第一模型数据集与所述蛋白质语义模型选型范围的模型一一对应;
16.所述第二数据集包括多个第一数据记录;所述第一数据记录包括第一训练原始蛋白质序列、第一训练突变蛋白质序列和第一标签自由能变数据;
17.所述模型选型标识的标识取值范围由多个第一模型标识组成;所述第一模型标识与所述蛋白质语义模型选型范围的模型一一对应。
18.优选的,所述构建预训练数据集和预测训练数据集作为对应的第一、第二数据集,具体包括:
19.将所述蛋白质结构特征识别模块的所述蛋白质语义模型选型范围的各个模型常规使用的模型训练数据集作为对应的第一模型数据集;并由得到的所有所述第一模型数据集组成对应的所述第一数据集;所述各个模型使用的模型训练数据集都由多个蛋白质序列组成;
20.将kaggle数据库和varibench数据库中各个带有自由能变信息的原始-突变蛋白质序列对提取出来作为对应的所述第一训练原始蛋白质序列和所述第一训练突变蛋白质序列,并将对应的自由能变信息作为对应的所述第一标签自由能变数据,并由得到的所述第一训练原始蛋白质序列、所述第一训练突变蛋白质序列和所述第一标签自由能变数据组成对应的所述第一数据记录;并由得到的所有所述第一数据记录组成对应的第一原始数据集;并对所述第一原始数据集进行数据记录去重处理得到对应的第二原始数据集;并对所述第二原始数据集中所述第一标签自由能变数据不满足预设的自由能变取值范围的所述第一数据记录进行数据记录删除处理得到对应的第三原始数据集;并基于滑窗方式对所述第三原始数据集进行数据增强处理得到对应的所述第二数据集。
21.进一步的,所述基于滑窗方式对所述第三原始数据集进行数据增强处理得到对应的所述第二数据集,具体包括:
22.步骤41,初始化第一增强数据集为空;并将所述第三原始数据集中的第一个所述第一数据记录作为对应的当前记录;
23.步骤42,将所述当前记录的所述第一训练原始蛋白质序列、所述第一训练突变蛋白质序列和所述第一标签自由能变数据作为对应的第一序列、第二序列和第一自由能变数据ddg;
24.步骤43,对所述第二序列中各个所述突变残基进行遍历;并在遍历时,将当前遍历的突变残基作为对应的第一残基zi;并基于预设的第一数量x个滑窗尺寸l
x
,在所述第二序列中以所述第一残基zi为中心对其前、后各n=(l
x-1)/2个残基进行关联得到对应的第一关联残基序列s
x
{z
i-n
…zi-1
,zi,z
i+1
…zi+n
};并根据各个所述第一关联残基序列s
x
、所述第一序列和所述第二序列对所述第一自由能变ddg数据进行动态调制得到对应的第二自由能变数据ddg
x
;并将各个所述第二自由能变数据ddg
x
作为一个新的第一标签自由能变数据;并由所述第一、第二序列对应的所述第一训练原始蛋白质序列、所述第一训练突变蛋白质序列和各个所述新的第一标签自由能变数据组成一个新的第一数据记录;并由得到的x个所述新的第一数据记录组成一个与所述当前突变残基zi对应的第一数据子集;并在遍历结束时,将得到的所有所述第一数据子集添加到所述第一增强数据集中;残基索引i为大于1的整数,所述残基索引i为对应的所述突变残基在所述第二序列中的残基排序索引;所述第一数量x为大于0的整数;各个所述滑窗尺寸l
x
为大于或等于3的奇数;n为大于或等于1的整数;
25.步骤44,对所述当前记录是否为所述第三原始数据集中的最后一个所述第一数据
记录进行识别;若是,则转至步骤45;若否,则将所述第三原始数据集中的下一个所述第一数据记录作为新的所述当前记录并转至步骤42;
26.步骤45,对所述第一增强数据集与所述第三原始数据集进行合并得到对应的第一合并数据集;并对所述第一合并数据集进行数据记录去重处理;并将完成去重的所述第一合并数据集作为对应的所述第二数据集。
27.优选的,所述基于所述第一数据集对所述蛋白质结构特征识别模块进行预训练,具体包括:
28.基于所述第一数据集中的各个所述第一模型数据集对所述蛋白质语义模型选型范围中的对应模型进行训练,并在当前模型训练结束时将当前模型的模型参数提取出来存为对应的第一蛋白质语义模型参数;并在所述蛋白质语义模型选型范围中的所有模型都完成训练时确认所述预训练结束。
29.优选的,所述在固化所述蛋白质结构特征识别模块的模型参数的前提下基于所述第二数据集对所述自由能变预测模型进行模型训练,具体包括:
30.步骤61,对所述蛋白质结构特征识别模块的所述蛋白质语义模型选型范围内的各个模型进行参数固化处理;
31.步骤62,将所述蛋白质语义模型选型范围内的第一个模型作为所述蛋白质结构特征识别模块的当前选定模型;
32.步骤63,对所述第二数据集中各个所述第一数据记录进行遍历;并在遍历时,将当前遍历的所述第一数据记录作为对应的当前数据记录;并由所述当前选定模型对所述当前数据记录的所述第一训练原始蛋白质序列和所述第一训练突变蛋白质序列分别进行蛋白质语义特征识别处理得到对应的第一原始序列特征张量和第一突变序列特征张量;并由所述特征拼接模块对所述第一原始序列特征张量和所述第一突变序列特征张量进行特征张量拼接得到对应的第一拼接特征张量;并将所述当前数据记录的所述第一标签自由能变数据作为对应的第二标签自由能变数据,并由所述第一拼接特征张量和所述第二标签自由能变数据组成对应的第二数据记录;并在遍历结束时,由得到的所有所述第二数据记录组成对应的第三数据集;
33.步骤64,按预设的k-fold交叉验证方式,基于所述第三数据集对所述自由能变预测模块进行梯度提升决策树模型训练;
34.步骤65,所述梯度提升决策树模型训练结束时,将所述自由能变预测模块的模型参数提取出来存为与所述当前选定模型对应的第一梯度提升决策树模型参数;并对所述当前选定模型是否为所述蛋白质语义模型选型范围内的最后一个模型进行确认;若是,则转至步骤66;若否,则将所述蛋白质语义模型选型范围内的下一个模型作为新的所述当前选定模型并返回步骤63进行训练;
35.步骤66,确认所述模型训练结束。
36.优选的,所述根据所述模型选型标识对所述自由能变预测模型进行模型参数配置,具体包括:
37.将所述蛋白质语义模型选型范围中与所述模型选型标识的标识取值对应的模型作为所述蛋白质结构特征识别模块的当前选定模型;并将本地保存的与所述当前选定模型对应的所述第一蛋白质语义模型参数和所述第一梯度提升决策树模型参数提取出来作为
对应的第一、第二模型参数;并基于所述第一模型参数对所述自由能变预测模型的所述蛋白质结构特征识别模块进行模型参数配置;并基于所述第二模型参数对所述自由能变预测模型的所述自由能变预测模块进行模型参数配置。
38.优选的,所述根据所述模型应用数据和所述自由能变预测模型进行单序列自由能变预测并根据预测结果进行稳定性等级评估,具体包括:
39.将所述模型应用数据的所述第一原始蛋白质序列和所述第一突变蛋白质序列输入所述自由能变预测模型进行蛋白质自由能变预测得到对应的第一预测自由能变数据;并根据所述第一预测自由能变数据对预设的第一对应关系表进行查询,将表中第一自由能取值范围字段满足所述第一预测自由能变数据的第一对应关系记录的第一稳定性等级字段提取出来作为对应的第一稳定性等级;并将所述第一稳定性等级作为本次稳定性等级评估结果输出;所述第一对应关系表为用于反映自由能取值范围与稳定性等级对应关系的对应关系表;所述第一对应关系表包括多个所述第一对应关系记录;所述第一对应关系记录包括所述第一自由能取值范围字段和所述第一稳定性等级字段;所述第一自由能取值范围字段的自由能取值越小则对应的所述第一稳定性等级字段的稳定性等级越高。
40.优选的,所述根据所述模型应用数据和所述自由能变预测模型进行多序列自由能变预测并根据预测结果进行稳定性等级评估并根据评估结果进行多序列稳定性排序,具体包括:
41.由所述模型应用数据的各个所述第二突变蛋白质序列和所述第二原始蛋白质序列组成一组对应的蛋白质序列对;并将各个所述蛋白质序列对的所述第二原始蛋白质序列和所述第二突变蛋白质序列输入所述自由能变预测模型进行蛋白质自由能变预测得到对应的第二预测自由能变数据;并根据各个所述第二预测自由能变数据对预设的所述第一对应关系表进行查询,将表中所述第一自由能取值范围字段满足当前所述第二预测自由能变数据的所述第一对应关系记录的所述第一稳定性等级字段提取出来作为对应的第二稳定性等级;并按所述第二稳定性等级从高到低的顺序对所有所述第二突变蛋白质序列进行排序得到对应的突变蛋白质序列排序队列;并将所述突变蛋白质序列排序队列作为本次稳定性排序结果输出。
42.本发明实施例第二方面提供了一种用于实现上述第一方面所述的蛋白质自由能变预测模型的处理方法的装置,所述装置包括:模型构建模块、模型训练模块和模型应用模块;
43.所述模型构建模块用于构建自由能变预测模型;所述自由能变预测模型用于根据输入的原始、突变蛋白质序列进行蛋白质自由能变预测;所述自由能变预测模型包括蛋白质结构特征识别模块、特征拼接模块和自由能变预测模块;
44.所述模型训练模块用于构建预训练数据集和预测训练数据集作为对应的第一、第二数据集;并基于所述第一数据集对所述蛋白质结构特征识别模块进行预训练;所述预训练结束,则在固化所述蛋白质结构特征识别模块的模型参数的前提下基于所述第二数据集对所述自由能变预测模型进行模型训练;
45.所述模型应用模块用于在模型训练结束后,接收用户输入的模型选型标识、模型应用模式和对应的模型应用数据;并根据所述模型选型标识对所述自由能变预测模型进行模型参数配置;并对所述模型应用模式进行识别;若所述模型应用模式为第一模式,则根据
所述模型应用数据和所述自由能变预测模型进行单序列自由能变预测并根据预测结果进行稳定性等级评估;若所述模型应用模式为第二模式,则根据所述模型应用数据和所述自由能变预测模型进行多序列自由能变预测并根据预测结果进行稳定性等级评估并根据评估结果进行多序列稳定性排序;所述模型应用模式包括第一、第二模式;所述模型应用模式为第一模式时,对应的所述模型应用数据包括第一原始蛋白质序列和第一突变蛋白质序列;所述模型应用模式为第二模式时,对应的所述模型应用数据包括第二原始蛋白质序列和多个第二突变蛋白质序列。
46.本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;
47.所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;
48.所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
49.本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。
50.本发明实施例提供了一种蛋白质自由能变预测模型的处理方法、装置、电子设备及计算机可读存储介质;本发明先由一个可对一维分子序列进行多维(一维、二维、三维)分子结构特征识别的蛋白质语义模型和一个梯度提升决策树模型构建出一个能对蛋白质自由能变进行预测的自由能变预测模型;再通过对蛋白质语义模型进行预训练使其能获得更多、更准确的多维分子结构特征,以提高模型的泛化性;再在固化蛋白质语义模型的模型参数之后基于有监督模型训练方式对梯度提升决策树模型进行训练,以提高模型的预测准确度;另外,本发明还对其中的蛋白质语义模型给出多组模型选型(esm-1b模型、esm-1v模型、esm-if1模型、esm2模型和protbert模型),并在模型训练时针对每个模型选型训练出一组对应的蛋白质语义模型参数和梯度提升决策树模型参数,在提高模型预测准确度的同时还能保持较好的鲁棒性;另外,本发明还提供两类应用模式以供用户使用:1)第一模式,对用户输入的原始-突变蛋白质序列对的自由能变进行预测并根据预测结果对突变后蛋白质的稳定性进行等级评估;2)第二模式,对用户输入的一个原始蛋白质序列及其对应的多个突变蛋白质序列的自由能变进行分别预测并根据预测结果对各个突变后蛋白质的稳定性进行等级评估并根据评估结果对突变后的蛋白质序列进行排序。本发明提供的自由能变预测模型是基于多维分子结构特征进行自由能变预测的,提高了预测准确度;本发明将预训练和有监督训练相结合的训练方式,提高了模型的泛化性;本发明的模型选型机制,提高了模型的灵活性与鲁棒性;本发明的两类应用模式,提高了模型的使用便捷性。
附图说明
51.图1为本发明实施例一提供的一种蛋白质自由能变预测模型的处理方法示意图;
52.图2为本发明实施例一提供的自由能变预测模型的模块结构图;
53.图3为本发明实施例二提供的一种蛋白质自由能变预测模型的处理装置的模块结构图;
54.图4为本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
55.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
56.本发明实施例一提供一种蛋白质自由能变预测模型的处理方法,如图1为本发明实施例一提供的一种蛋白质自由能变预测模型的处理方法示意图所示,本方法主要包括如下步骤:
57.步骤1,构建自由能变预测模型;
58.其中,自由能变预测模型用于根据输入的原始、突变蛋白质序列进行蛋白质自由能变预测;此处,原始蛋白质序列为原始蛋白质的分子序列,突变蛋白质序列为突变蛋白质的分子序列,突变蛋白质为原始蛋白质发生蛋白质突变得到的蛋白质;蛋白质突变的突变类型包括置换突变、缺失突变和插入突变;突变蛋白质中带有一个或多个突变残基,突变残基为蛋白质突变产生的残基;
59.如图2为本发明实施例一提供的自由能变预测模型的模块结构图所示,自由能变预测模型包括蛋白质结构特征识别模块、特征拼接模块和自由能变预测模块;蛋白质结构特征识别模块的输入端与自由能变预测模型的输入端连接,输出端与特征拼接模块的输入端连接;特征拼接模块的输出端与自由能变预测模块的输入端连接;自由能变预测模块的输出端与自由能变预测模型的输出端连接;
60.蛋白质结构特征识别模块为基于transformer模型结构实现的蛋白质语义模型;蛋白质结构特征识别模块的蛋白质语义模型选型范围包括esm-1b模型、esm-1v模型、esm-if1模型、esm2模型和protbert模型;蛋白质结构特征识别模块用于对输入的原始、突变蛋白质序列分别进行蛋白质语义特征识别处理得到对应的原始、突变序列特征张量向特征拼接模块发送;
61.此处,上述模型都为公开的蛋白质语义模型,其对应的训练数据集和基于非监督方式的模型预训练方式也都是公开的,本发实施例后续会基于各个模型公开的训练数据集和训练方式对其进行预训练;本发明实施例使用的上述任一款蛋白质语义模型都可基于输入的一维分子序列识别出更多的多维(一维、二维、三维)分子结构特征;另外,本发明实施例蛋白质结构特征识别模块的蛋白质语义模型选型范围还可基于应用需求进行模型删减或引入新的模型加入,对于新加入的模型其训练数据集的采集方式以及训练方式与上述模型类似,也都基于该模型自有的模型训练数据集和模型训练方式实现;
62.特征拼接模块用于对原始、突变序列特征张量进行特征张量拼接得到对应的拼接特征张量向自由能变预测模块发送;此处,本发明实施例的特征拼接模块可基于一个简单的线性网络实现,也可基于一个简单的张量拼接函数实现;
63.自由能变预测模块基于梯度提升决策树(gradient boosting decision tree,gbdt)模型实现;自由能变预测模块用于根据拼接特征张量进行自由能变回归预测输出对应的预测自由能变数据。
64.步骤2,构建预训练数据集和预测训练数据集作为对应的第一、第二数据集;并基于第一数据集对蛋白质结构特征识别模块进行预训练;预训练结束,则在固化蛋白质结构
特征识别模块的模型参数的前提下基于第二数据集对自由能变预测模型进行模型训练;
65.具体包括:步骤21,构建预训练数据集和预测训练数据集作为对应的第一、第二数据集;
66.其中,第一数据集包括多个第一模型数据集;第一模型数据集与蛋白质语义模型选型范围的模型一一对应;第二数据集包括多个第一数据记录;第一数据记录包括第一训练原始蛋白质序列、第一训练突变蛋白质序列和第一标签自由能变数据;
67.具体包括:步骤211,将蛋白质结构特征识别模块的蛋白质语义模型选型范围的各个模型常规使用的模型训练数据集作为对应的第一模型数据集;并由得到的所有第一模型数据集组成对应的第一数据集;
68.其中,各个模型使用的模型训练数据集都由多个蛋白质序列组成;
69.这里,如前文所述,蛋白质结构特征识别模块的蛋白质语义模型选型范围的各个模型具体为esm-1b模型、esm-1v模型、esm-if1模型、esm2模型和protbert模型,而这些模型的模型训练数据集即第一模型数据集都是公开的;
70.步骤212,将kaggle数据库和varibench数据库中各个带有自由能变信息的原始-突变蛋白质序列对提取出来作为对应的第一训练原始蛋白质序列和第一训练突变蛋白质序列,并将对应的自由能变信息作为对应的第一标签自由能变数据,并由得到的第一训练原始蛋白质序列、第一训练突变蛋白质序列和第一标签自由能变数据组成对应的第一数据记录;并由得到的所有第一数据记录组成对应的第一原始数据集;并对第一原始数据集进行数据记录去重处理得到对应的第二原始数据集;并对第二原始数据集中第一标签自由能变数据不满足预设的自由能变取值范围的第一数据记录进行数据记录删除处理得到对应的第三原始数据集;并基于滑窗方式对第三原始数据集进行数据增强处理得到对应的第二数据集;
71.这里,公知的kaggle数据库和varibench数据库上收录了大量蛋白质分子序列,其中就有大量的带有自由能变信息的原始-突变蛋白质序列对,这种序列对的数据信息包括:原始蛋白质序列、突变蛋白质序列和对应的自由能变信息;本发明实施例将kaggle数据库和varibench数据库这类带有自由能变信息的原始-突变蛋白质序列对提取出来组成第一原始数据集;
72.在得到第一原始数据集之后,本发明实施例先对其进行去重处理得到第二原始数据集,也就是说将数据集中近似度较高(原始蛋白质序列高度近似且突变蛋白质序列高度近似且自由能变信息高度近似)的第一数据记录滤除;
73.在得到第二原始数据集之后,本发明实施例将其中自由能变信息不满足预设要求的第一数据记录滤除得到第三原始数据集;此处,本发明实施例的预设要求即自由能变取值范围,该自由能变取值范围常规情况下为0《|ddg|≤10;
74.由公开的自由能计算方法可知,在计算一个分子结构的自由能时常规都采用逐点自由能计算并对所有节点的自由能计算结果进行加权全加的方式来处理,并且在进行逐点计算时会以当前点(原子或残基)为中心构建一个领域空间并基于该领域空间内的关联对象(原子或残基)对当前点的自由能进行计算,在分子序列上这个领域空间也叫以当前点为中心的滑窗序列,也即是说在分子序列不变的前提下若调整了某点领域空间的大小或滑窗序列的长度都会产生不同的自由能计算结果;而自由能变为突变后蛋白质序列对应的自由
能与原始蛋白质序列对应的自由能的差值,那么在原始蛋白质序列、突变后蛋白质序列、突变后蛋白质序列上的突变残基位置都已知的情况下,通过调制突变残基的滑窗序列长度是可以产生不同的自由能变输出的;本发明实施例正是基于这个原理来实现的训练数据加强,即:基于滑窗方式对第三原始数据集进行数据增强处理得到对应的第二数据集,具体包括:
75.步骤a1,初始化第一增强数据集为空;并将第三原始数据集中的第一个第一数据记录作为对应的当前记录;
76.步骤a2,将当前记录的第一训练原始蛋白质序列、第一训练突变蛋白质序列和第一标签自由能变数据作为对应的第一序列、第二序列和第一自由能变数据ddg;
77.步骤a3,对第二序列中各个突变残基进行遍历;并在遍历时,将当前遍历的突变残基作为对应的第一残基zi;并基于预设的第一数量x个滑窗尺寸l
x
,在第二序列中以第一残基zi为中心对其前、后各n=(l
x-1)/2个残基进行关联得到对应的第一关联残基序列s
x
{z
i-n
…zi-1
,zi,z
i+1
…zi+n
};并根据各个第一关联残基序列s
x
、第一序列和第二序列对第一自由能变ddg数据进行动态调制得到对应的第二自由能变数据ddg
x
;并将各个第二自由能变数据ddg
x
作为一个新的第一标签自由能变数据;并由第一、第二序列对应的第一训练原始蛋白质序列、第一训练突变蛋白质序列和各个新的第一标签自由能变数据组成一个新的第一数据记录;并由得到的x个新的第一数据记录组成一个与当前突变残基zi对应的第一数据子集;并在遍历结束时,将得到的所有第一数据子集添加到第一增强数据集中;
78.其中,残基索引i为大于1的整数,残基索引i为对应的突变残基在第二序列中的残基排序索引;第一数量x为大于0的整数;各个滑窗尺寸l
x
为大于或等于3的奇数;n为大于或等于1的整数;
79.步骤a4,对当前记录是否为第三原始数据集中的最后一个第一数据记录进行识别;若是,则转至步骤a5;若否,则将第三原始数据集中的下一个第一数据记录作为新的当前记录并转至步骤a2;
80.步骤a5,对第一增强数据集与第三原始数据集进行合并得到对应的第一合并数据集;并对第一合并数据集进行数据记录去重处理;并将完成去重的第一合并数据集作为对应的第二数据集;
81.步骤22,基于第一数据集对蛋白质结构特征识别模块进行预训练;
82.具体包括:基于第一数据集中的各个第一模型数据集对蛋白质语义模型选型范围中的对应模型进行训练,并在当前模型训练结束时将当前模型的模型参数提取出来存为对应的第一蛋白质语义模型参数;并在蛋白质语义模型选型范围中的所有模型都完成训练时确认预训练结束;
83.这里,如前文所述,蛋白质结构特征识别模块的蛋白质语义模型选型范围的各个模型具体为esm-1b模型、esm-1v模型、esm-if1模型、esm2模型和protbert模型,而这些模型基于非监督方式的模型预训练方式也都是公开的,本发实施例基于各个模型公开的模型训练数据集即第一模型数据集和训练方式对其进行预训练;需要说明的是,为保证各个模型训练之后能达到相同或近似的模型性能水平,本发明实施例会基于相同的模型训练要求对上述各个蛋白质语义模型进行分别训练;
84.步骤23,预训练结束,则在固化蛋白质结构特征识别模块的模型参数的前提下基
于第二数据集对自由能变预测模型进行模型训练;
85.具体包括:步骤231,对蛋白质结构特征识别模块的蛋白质语义模型选型范围内的各个模型进行参数固化处理;
86.步骤232,将蛋白质语义模型选型范围内的第一个模型作为蛋白质结构特征识别模块的当前选定模型;
87.步骤233,对第二数据集中各个第一数据记录进行遍历;并在遍历时,将当前遍历的第一数据记录作为对应的当前数据记录;并由当前选定模型对当前数据记录的第一训练原始蛋白质序列和第一训练突变蛋白质序列分别进行蛋白质语义特征识别处理得到对应的第一原始序列特征张量和第一突变序列特征张量;并由特征拼接模块对第一原始序列特征张量和第一突变序列特征张量进行特征张量拼接得到对应的第一拼接特征张量;并将当前数据记录的第一标签自由能变数据作为对应的第二标签自由能变数据,并由第一拼接特征张量和第二标签自由能变数据组成对应的第二数据记录;并在遍历结束时,由得到的所有第二数据记录组成对应的第三数据集;
88.这里,第三数据集包括多个第二数据记录,第二数据记录包括第一拼接特征张量和第二标签自由能变数据;在后续步骤基于第三数据集对自由能变预测模块进行训练时,以第一拼接特征张量作为模型输入进行自由能变回归预测,并在回归预测过程中以第二标签自由能变数据作为标签数据计算损失并引导模型优化;
89.步骤234,按预设的k-fold交叉验证方式,基于第三数据集对自由能变预测模块进行梯度提升决策树模型训练;
90.这里,本发明实施例在基于k-fold交叉验证方式进行训练时,k默认设为5;
91.步骤235,梯度提升决策树模型训练结束时,将自由能变预测模块的模型参数提取出来存为与当前选定模型对应的第一梯度提升决策树模型参数;并对当前选定模型是否为蛋白质语义模型选型范围内的最后一个模型进行确认;若是,则转至步骤236;若否,则将蛋白质语义模型选型范围内的下一个模型作为新的当前选定模型并返回步骤233进行训练;
92.步骤236,确认模型训练结束。
93.综上,由上述步骤21-23可知,本发明实施例在模型训练时会针对每个模型选型训练出一组对应的第一蛋白质语义模型参数和第一梯度提升决策树模型参数并保存。
94.步骤3,在模型训练结束后,接收用户输入的模型选型标识、模型应用模式和对应的模型应用数据;并根据模型选型标识对自由能变预测模型进行模型参数配置;并对模型应用模式进行识别;若模型应用模式为第一模式,则根据模型应用数据和自由能变预测模型进行单序列自由能变预测并根据预测结果进行稳定性等级评估;若模型应用模式为第二模式,则根据模型应用数据和自由能变预测模型进行多序列自由能变预测并根据预测结果进行稳定性等级评估并根据评估结果进行多序列稳定性排序;
95.具体包括:步骤31,接收用户输入的模型选型标识、模型应用模式和对应的模型应用数据;
96.其中,模型选型标识的标识取值范围由多个第一模型标识组成;第一模型标识与蛋白质语义模型选型范围的模型一一对应;模型应用模式包括第一、第二模式;模型应用模式为第一模式时,对应的模型应用数据包括第一原始蛋白质序列和第一突变蛋白质序列;模型应用模式为第二模式时,对应的模型应用数据包括第二原始蛋白质序列和多个第二突
变蛋白质序列;
97.步骤32,并根据模型选型标识对自由能变预测模型进行模型参数配置;
98.具体包括:将蛋白质语义模型选型范围中与模型选型标识的标识取值对应的模型作为蛋白质结构特征识别模块的当前选定模型;并将本地保存的与当前选定模型对应的第一蛋白质语义模型参数和第一梯度提升决策树模型参数提取出来作为对应的第一、第二模型参数;并基于第一模型参数对自由能变预测模型的蛋白质结构特征识别模块进行模型参数配置;并基于第二模型参数对自由能变预测模型的自由能变预测模块进行模型参数配置;
99.步骤33,并对模型应用模式进行识别;
100.步骤34,若模型应用模式为第一模式,则根据模型应用数据和自由能变预测模型进行单序列自由能变预测并根据预测结果进行稳定性等级评估;
101.具体包括:步骤341,将模型应用数据的第一原始蛋白质序列和第一突变蛋白质序列输入自由能变预测模型进行蛋白质自由能变预测得到对应的第一预测自由能变数据;
102.步骤342,并根据第一预测自由能变数据对预设的第一对应关系表进行查询,将表中第一自由能取值范围字段满足第一预测自由能变数据的第一对应关系记录的第一稳定性等级字段提取出来作为对应的第一稳定性等级;
103.其中,第一对应关系表为用于反映自由能取值范围与稳定性等级对应关系的对应关系表;第一对应关系表包括多个第一对应关系记录;第一对应关系记录包括第一自由能取值范围字段和第一稳定性等级字段;第一自由能取值范围字段的自由能取值越小则对应的第一稳定性等级字段的稳定性等级越高;
104.步骤343,并将第一稳定性等级作为本次稳定性等级评估结果输出;
105.步骤35,若模型应用模式为第二模式,则根据模型应用数据和自由能变预测模型进行多序列自由能变预测并根据预测结果进行稳定性等级评估并根据评估结果进行多序列稳定性排序;
106.具体包括:步骤351,由模型应用数据的各个第二突变蛋白质序列和第二原始蛋白质序列组成一组对应的蛋白质序列对;
107.步骤352,并将各个蛋白质序列对的第二原始蛋白质序列和第二突变蛋白质序列输入自由能变预测模型进行蛋白质自由能变预测得到对应的第二预测自由能变数据;
108.步骤353,并根据各个第二预测自由能变数据对预设的第一对应关系表进行查询,将表中第一自由能取值范围字段满足当前第二预测自由能变数据的第一对应关系记录的第一稳定性等级字段提取出来作为对应的第二稳定性等级;
109.步骤354,并按第二稳定性等级从高到低的顺序对所有第二突变蛋白质序列进行排序得到对应的突变蛋白质序列排序队列;
110.步骤355,并将突变蛋白质序列排序队列作为本次稳定性排序结果输出。
111.图3为本发明实施例二提供的一种蛋白质自由能变预测模型的处理装置的模块结构图,该装置为实现前述方法实施例的终端设备或者服务器,也可以为能够使得前述终端设备或者服务器实现前述方法实施例的装置,例如该装置可以是前述终端设备或者服务器的装置或芯片系统。如图3所示,该装置包括:模型构建模块201、模型训练模块202和模型应用模块203。
112.模型构建模块201用于构建自由能变预测模型;自由能变预测模型用于根据输入的原始、突变蛋白质序列进行蛋白质自由能变预测;自由能变预测模型包括蛋白质结构特征识别模块、特征拼接模块和自由能变预测模块。
113.模型训练模块202用于构建预训练数据集和预测训练数据集作为对应的第一、第二数据集;并基于第一数据集对蛋白质结构特征识别模块进行预训练;预训练结束,则在固化蛋白质结构特征识别模块的模型参数的前提下基于第二数据集对自由能变预测模型进行模型训练。
114.模型应用模块203用于在模型训练结束后,接收用户输入的模型选型标识、模型应用模式和对应的模型应用数据;并根据模型选型标识对自由能变预测模型进行模型参数配置;并对模型应用模式进行识别;若模型应用模式为第一模式,则根据模型应用数据和自由能变预测模型进行单序列自由能变预测并根据预测结果进行稳定性等级评估;若模型应用模式为第二模式,则根据模型应用数据和自由能变预测模型进行多序列自由能变预测并根据预测结果进行稳定性等级评估并根据评估结果进行多序列稳定性排序;模型应用模式包括第一、第二模式;模型应用模式为第一模式时,对应的模型应用数据包括第一原始蛋白质序列和第一突变蛋白质序列;模型应用模式为第二模式时,对应的模型应用数据包括第二原始蛋白质序列和多个第二突变蛋白质序列。
115.本发明实施例提供的一种蛋白质自由能变预测模型的处理装置,可以执行上述方法实施例中的方法步骤,其实现原理和技术效果类似,在此不再赘述。
116.需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,模型构建模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
117.例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,asic),或,一个或多个数字信号处理器(digital signal processor,dsp),或,一个或者多个现场可编程门阵列(field programmable gate array,fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,soc)的形式实现。
118.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照前述方法实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计
算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路((digital subscriber line,dsl))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
119.图4为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为实现前述实施例方法的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现前述实施例方法的终端设备或服务器。如图4所示,该电子设备可以包括:处理器301(例如cpu)、存储器302、收发器303;收发器303耦合至处理器301,处理器301控制收发器303的收发动作。存储器302中可以存储各种指令,以用于完成各种处理功能以及实现前述实施例方法描述的处理步骤。优选的,本发明实施例涉及的电子设备还包括:电源304、系统总线305以及通信端口306。系统总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。
120.在图4中提到的系统总线305可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory,ram),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
121.上述的处理器可以是通用处理器,包括中央处理器cpu、网络处理器(network processor,np)、图形处理器(graphics processing unit,gpu)等;还可以是数字信号处理器dsp、专用集成电路asic、现场可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
122.需要说明的是,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。
123.本发明实施例还提供一种运行指令的芯片,该芯片用于执行前述方法实施例描述的处理步骤。
124.本发明实施例提供了一种蛋白质自由能变预测模型的处理方法、装置、电子设备及计算机可读存储介质;本发明先由一个可对一维分子序列进行多维(一维、二维、三维)分子结构特征识别的蛋白质语义模型和一个梯度提升决策树模型构建出一个能对蛋白质自由能变进行预测的自由能变预测模型;再通过对蛋白质语义模型进行预训练使其能获得更多、更准确的多维分子结构特征,以提高模型的泛化性;再在固化蛋白质语义模型的模型参数之后基于有监督模型训练方式对梯度提升决策树模型进行训练,以提高模型的预测准确度;另外,本发明还对其中的蛋白质语义模型给出多组模型选型(esm-1b模型、esm-1v模型、
esm-if1模型、esm2模型和protbert模型),并在模型训练时针对每个模型选型训练出一组对应的蛋白质语义模型参数和梯度提升决策树模型参数,在提高模型预测准确度的同时还能保持较好的鲁棒性;另外,本发明还提供两类应用模式以供用户使用:1)第一模式,对用户输入的原始-突变蛋白质序列对的自由能变进行预测并根据预测结果对突变后蛋白质的稳定性进行等级评估;2)第二模式,对用户输入的一个原始蛋白质序列及其对应的多个突变蛋白质序列的自由能变进行分别预测并根据预测结果对各个突变后蛋白质的稳定性进行等级评估并根据评估结果对突变后的蛋白质序列进行排序。本发明提供的自由能变预测模型是基于多维分子结构特征进行自由能变预测的,提高了预测准确度;本发明将预训练和有监督训练相结合的训练方式,提高了模型的泛化性;本发明的模型选型机制,提高了模型的灵活性与鲁棒性;本发明的两类应用模式,提高了模型的使用便捷性。
125.专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
126.结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
127.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种蛋白质自由能变预测模型的处理方法,其特征在于,所述方法包括:构建自由能变预测模型;所述自由能变预测模型用于根据输入的原始、突变蛋白质序列进行蛋白质自由能变预测;所述自由能变预测模型包括蛋白质结构特征识别模块、特征拼接模块和自由能变预测模块;构建预训练数据集和预测训练数据集作为对应的第一、第二数据集;并基于所述第一数据集对所述蛋白质结构特征识别模块进行预训练;所述预训练结束,则在固化所述蛋白质结构特征识别模块的模型参数的前提下基于所述第二数据集对所述自由能变预测模型进行模型训练;在模型训练结束后,接收用户输入的模型选型标识、模型应用模式和对应的模型应用数据;并根据所述模型选型标识对所述自由能变预测模型进行模型参数配置;并对所述模型应用模式进行识别;若所述模型应用模式为第一模式,则根据所述模型应用数据和所述自由能变预测模型进行单序列自由能变预测并根据预测结果进行稳定性等级评估;若所述模型应用模式为第二模式,则根据所述模型应用数据和所述自由能变预测模型进行多序列自由能变预测并根据预测结果进行稳定性等级评估并根据评估结果进行多序列稳定性排序;所述模型应用模式包括第一、第二模式;所述模型应用模式为第一模式时,对应的所述模型应用数据包括第一原始蛋白质序列和第一突变蛋白质序列;所述模型应用模式为第二模式时,对应的所述模型应用数据包括第二原始蛋白质序列和多个第二突变蛋白质序列。2.根据权利要求1所述的蛋白质自由能变预测模型的处理方法,其特征在于,所述原始蛋白质序列为原始蛋白质的分子序列,所述突变蛋白质序列为突变蛋白质的分子序列,所述突变蛋白质为所述原始蛋白质发生蛋白质突变得到的蛋白质;所述蛋白质突变的突变类型包括置换突变、缺失突变和插入突变;所述突变蛋白质中带有一个或多个突变残基,所述突变残基为所述蛋白质突变产生的残基;所述蛋白质结构特征识别模块的输入端与所述自由能变预测模型的输入端连接,输出端与所述特征拼接模块的输入端连接;所述特征拼接模块的输出端与所述自由能变预测模块的输入端连接;所述自由能变预测模块的输出端与所述自由能变预测模型的输出端连接;所述蛋白质结构特征识别模块为基于transformer模型结构实现的蛋白质语义模型;所述蛋白质结构特征识别模块的蛋白质语义模型选型范围包括esm-1b模型、esm-1v模型、esm-if1模型、esm2模型和protbert模型;所述自由能变预测模块基于梯度提升决策树模型实现;所述蛋白质结构特征识别模块用于对输入的所述原始、突变蛋白质序列分别进行蛋白质语义特征识别处理得到对应的原始、突变序列特征张量向所述特征拼接模块发送;所述特征拼接模块用于对所述原始、突变序列特征张量进行特征张量拼接得到对应的拼接特征张量向所述自由能变预测模块发送;所述自由能变预测模块用于根据所述拼接特征张量进行自由能变回归预测输出对应的预测自由能变数据;所述第一数据集包括多个第一模型数据集;所述第一模型数据集与所述蛋白质语义模型选型范围的模型一一对应;所述第二数据集包括多个第一数据记录;所述第一数据记录包括第一训练原始蛋白质序列、第一训练突变蛋白质序列和第一标签自由能变数据;
所述模型选型标识的标识取值范围由多个第一模型标识组成;所述第一模型标识与所述蛋白质语义模型选型范围的模型一一对应。3.根据权利要求2所述的蛋白质自由能变预测模型的处理方法,其特征在于,所述构建预训练数据集和预测训练数据集作为对应的第一、第二数据集,具体包括:将所述蛋白质结构特征识别模块的所述蛋白质语义模型选型范围的各个模型常规使用的模型训练数据集作为对应的第一模型数据集;并由得到的所有所述第一模型数据集组成对应的所述第一数据集;所述各个模型使用的模型训练数据集都由多个蛋白质序列组成;将kaggle数据库和varibench数据库中各个带有自由能变信息的原始-突变蛋白质序列对提取出来作为对应的所述第一训练原始蛋白质序列和所述第一训练突变蛋白质序列,并将对应的自由能变信息作为对应的所述第一标签自由能变数据,并由得到的所述第一训练原始蛋白质序列、所述第一训练突变蛋白质序列和所述第一标签自由能变数据组成对应的所述第一数据记录;并由得到的所有所述第一数据记录组成对应的第一原始数据集;并对所述第一原始数据集进行数据记录去重处理得到对应的第二原始数据集;并对所述第二原始数据集中所述第一标签自由能变数据不满足预设的自由能变取值范围的所述第一数据记录进行数据记录删除处理得到对应的第三原始数据集;并基于滑窗方式对所述第三原始数据集进行数据增强处理得到对应的所述第二数据集。4.根据权利要求3所述的蛋白质自由能变预测模型的处理方法,其特征在于,所述基于滑窗方式对所述第三原始数据集进行数据增强处理得到对应的所述第二数据集,具体包括:步骤41,初始化第一增强数据集为空;并将所述第三原始数据集中的第一个所述第一数据记录作为对应的当前记录;步骤42,将所述当前记录的所述第一训练原始蛋白质序列、所述第一训练突变蛋白质序列和所述第一标签自由能变数据作为对应的第一序列、第二序列和第一自由能变数据ddg;步骤43,对所述第二序列中各个所述突变残基进行遍历;并在遍历时,将当前遍历的突变残基作为对应的第一残基z
i
;并基于预设的第一数量x个滑窗尺寸l
x
,在所述第二序列中以所述第一残基z
i
为中心对其前、后各n=(l
x-1)/2个残基进行关联得到对应的第一关联残基序列s
x
{z
i-n
…
z
i-1
,z
i
,z
i+1
…
z
i+n
};并根据各个所述第一关联残基序列s
x
、所述第一序列和所述第二序列对所述第一自由能变ddg数据进行动态调制得到对应的第二自由能变数据ddg
x
;并将各个所述第二自由能变数据ddg
x
作为一个新的第一标签自由能变数据;并由所述第一、第二序列对应的所述第一训练原始蛋白质序列、所述第一训练突变蛋白质序列和各个所述新的第一标签自由能变数据组成一个新的第一数据记录;并由得到的x个所述新的第一数据记录组成一个与所述当前突变残基z
i
对应的第一数据子集;并在遍历结束时,将得到的所有所述第一数据子集添加到所述第一增强数据集中;残基索引i为大于1的整数,所述残基索引i为对应的所述突变残基在所述第二序列中的残基排序索引;所述第一数量x为大于0的整数;各个所述滑窗尺寸l
x
为大于或等于3的奇数;n为大于或等于1的整数;步骤44,对所述当前记录是否为所述第三原始数据集中的最后一个所述第一数据记录进行识别;若是,则转至步骤45;若否,则将所述第三原始数据集中的下一个所述第一数据
记录作为新的所述当前记录并转至步骤42;步骤45,对所述第一增强数据集与所述第三原始数据集进行合并得到对应的第一合并数据集;并对所述第一合并数据集进行数据记录去重处理;并将完成去重的所述第一合并数据集作为对应的所述第二数据集。5.根据权利要求2所述的蛋白质自由能变预测模型的处理方法,其特征在于,所述基于所述第一数据集对所述蛋白质结构特征识别模块进行预训练,具体包括:基于所述第一数据集中的各个所述第一模型数据集对所述蛋白质语义模型选型范围中的对应模型进行训练,并在当前模型训练结束时将当前模型的模型参数提取出来存为对应的第一蛋白质语义模型参数;并在所述蛋白质语义模型选型范围中的所有模型都完成训练时确认所述预训练结束。6.根据权利要求5所述的蛋白质自由能变预测模型的处理方法,其特征在于,所述在固化所述蛋白质结构特征识别模块的模型参数的前提下基于所述第二数据集对所述自由能变预测模型进行模型训练,具体包括:步骤61,对所述蛋白质结构特征识别模块的所述蛋白质语义模型选型范围内的各个模型进行参数固化处理;步骤62,将所述蛋白质语义模型选型范围内的第一个模型作为所述蛋白质结构特征识别模块的当前选定模型;步骤63,对所述第二数据集中各个所述第一数据记录进行遍历;并在遍历时,将当前遍历的所述第一数据记录作为对应的当前数据记录;并由所述当前选定模型对所述当前数据记录的所述第一训练原始蛋白质序列和所述第一训练突变蛋白质序列分别进行蛋白质语义特征识别处理得到对应的第一原始序列特征张量和第一突变序列特征张量;并由所述特征拼接模块对所述第一原始序列特征张量和所述第一突变序列特征张量进行特征张量拼接得到对应的第一拼接特征张量;并将所述当前数据记录的所述第一标签自由能变数据作为对应的第二标签自由能变数据,并由所述第一拼接特征张量和所述第二标签自由能变数据组成对应的第二数据记录;并在遍历结束时,由得到的所有所述第二数据记录组成对应的第三数据集;步骤64,按预设的k-fold交叉验证方式,基于所述第三数据集对所述自由能变预测模块进行梯度提升决策树模型训练;步骤65,所述梯度提升决策树模型训练结束时,将所述自由能变预测模块的模型参数提取出来存为与所述当前选定模型对应的第一梯度提升决策树模型参数;并对所述当前选定模型是否为所述蛋白质语义模型选型范围内的最后一个模型进行确认;若是,则转至步骤66;若否,则将所述蛋白质语义模型选型范围内的下一个模型作为新的所述当前选定模型并返回步骤63进行训练;步骤66,确认所述模型训练结束。7.根据权利要求6所述的蛋白质自由能变预测模型的处理方法,其特征在于,所述根据所述模型选型标识对所述自由能变预测模型进行模型参数配置,具体包括:将所述蛋白质语义模型选型范围中与所述模型选型标识的标识取值对应的模型作为所述蛋白质结构特征识别模块的当前选定模型;并将本地保存的与所述当前选定模型对应的所述第一蛋白质语义模型参数和所述第一梯度提升决策树模型参数提取出来作为对应
的第一、第二模型参数;并基于所述第一模型参数对所述自由能变预测模型的所述蛋白质结构特征识别模块进行模型参数配置;并基于所述第二模型参数对所述自由能变预测模型的所述自由能变预测模块进行模型参数配置。8.根据权利要求2所述的蛋白质自由能变预测模型的处理方法,其特征在于,所述根据所述模型应用数据和所述自由能变预测模型进行单序列自由能变预测并根据预测结果进行稳定性等级评估,具体包括:将所述模型应用数据的所述第一原始蛋白质序列和所述第一突变蛋白质序列输入所述自由能变预测模型进行蛋白质自由能变预测得到对应的第一预测自由能变数据;并根据所述第一预测自由能变数据对预设的第一对应关系表进行查询,将表中第一自由能取值范围字段满足所述第一预测自由能变数据的第一对应关系记录的第一稳定性等级字段提取出来作为对应的第一稳定性等级;并将所述第一稳定性等级作为本次稳定性等级评估结果输出;所述第一对应关系表为用于反映自由能取值范围与稳定性等级对应关系的对应关系表;所述第一对应关系表包括多个所述第一对应关系记录;所述第一对应关系记录包括所述第一自由能取值范围字段和所述第一稳定性等级字段;所述第一自由能取值范围字段的自由能取值越小则对应的所述第一稳定性等级字段的稳定性等级越高。9.根据权利要求8所述的蛋白质自由能变预测模型的处理方法,其特征在于,所述根据所述模型应用数据和所述自由能变预测模型进行多序列自由能变预测并根据预测结果进行稳定性等级评估并根据评估结果进行多序列稳定性排序,具体包括:由所述模型应用数据的各个所述第二突变蛋白质序列和所述第二原始蛋白质序列组成一组对应的蛋白质序列对;并将各个所述蛋白质序列对的所述第二原始蛋白质序列和所述第二突变蛋白质序列输入所述自由能变预测模型进行蛋白质自由能变预测得到对应的第二预测自由能变数据;并根据各个所述第二预测自由能变数据对预设的所述第一对应关系表进行查询,将表中所述第一自由能取值范围字段满足当前所述第二预测自由能变数据的所述第一对应关系记录的所述第一稳定性等级字段提取出来作为对应的第二稳定性等级;并按所述第二稳定性等级从高到低的顺序对所有所述第二突变蛋白质序列进行排序得到对应的突变蛋白质序列排序队列;并将所述突变蛋白质序列排序队列作为本次稳定性排序结果输出。10.一种用于执行权利要求1-9任一项所述的蛋白质自由能变预测模型的处理方法的装置,其特征在于,所述装置包括:模型构建模块、模型训练模块和模型应用模块;所述模型构建模块用于构建自由能变预测模型;所述自由能变预测模型用于根据输入的原始、突变蛋白质序列进行蛋白质自由能变预测;所述自由能变预测模型包括蛋白质结构特征识别模块、特征拼接模块和自由能变预测模块;所述模型训练模块用于构建预训练数据集和预测训练数据集作为对应的第一、第二数据集;并基于所述第一数据集对所述蛋白质结构特征识别模块进行预训练;所述预训练结束,则在固化所述蛋白质结构特征识别模块的模型参数的前提下基于所述第二数据集对所述自由能变预测模型进行模型训练;所述模型应用模块用于在模型训练结束后,接收用户输入的模型选型标识、模型应用模式和对应的模型应用数据;并根据所述模型选型标识对所述自由能变预测模型进行模型参数配置;并对所述模型应用模式进行识别;若所述模型应用模式为第一模式,则根据所述
模型应用数据和所述自由能变预测模型进行单序列自由能变预测并根据预测结果进行稳定性等级评估;若所述模型应用模式为第二模式,则根据所述模型应用数据和所述自由能变预测模型进行多序列自由能变预测并根据预测结果进行稳定性等级评估并根据评估结果进行多序列稳定性排序;所述模型应用模式包括第一、第二模式;所述模型应用模式为第一模式时,对应的所述模型应用数据包括第一原始蛋白质序列和第一突变蛋白质序列;所述模型应用模式为第二模式时,对应的所述模型应用数据包括第二原始蛋白质序列和多个第二突变蛋白质序列。11.一种电子设备,其特征在于,包括:存储器、处理器和收发器;所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现权利要求1-9任一项所述的方法;所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-9任一项所述的方法。
技术总结
本发明实施例涉及一种蛋白质自由能变预测模型的处理方法和装置,所述方法包括:构建自由能变预测模型;构建第一、第二数据集;基于第一数据集对蛋白质结构特征识别模块进行预训练;预训练结束则在固化蛋白质结构特征识别模块模型参数的前提下基于第二数据集对自由能变预测模型进行训练;模型训练结束后接收模型选型标识、模型应用模式和模型应用数据;并根据模型选型标识对自由能变预测模型进行模型参数配置;模型应用模式为第一模式则进行单序列自由能变预测和稳定性等级评估;模型应用模式为第二模式则进行多序列自由能变预测、稳定性等级评估和多序列稳定性排序。通过本发明可提高自由能变的预测准确度。可提高自由能变的预测准确度。可提高自由能变的预测准确度。
技术研发人员:温翰 郭律均 陈陟原 王沁蕊 张林峰 孙伟杰
受保护的技术使用者:北京深势科技有限公司
技术研发日:2023.07.10
技术公布日:2023/10/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/