酶动力学参数预测模型训练与预测方法及相关设备与流程

未命名 08-15 阅读:159 评论:0


1.本技术涉及生物医药技术领域,具体涉及一种酶动力学参数预测模型训练与预测方法及相关设备。


背景技术:

2.在生物医药技术领域中,酶是细胞代谢的催化剂,对酶动力学参数进行准确预测具有重要的研究意义。相关的酶动力学参数预测方法,直接基于酶的蛋白质结构和底物结构对酶动力学参数进行预测,没有考虑环境因素在酶动力学参数的预测过程中发挥的作用,预测的准确率难以达到预期。


技术实现要素:

3.鉴于以上内容,有必要提出一种酶动力学参数预测模型训练与预测方法及相关设备,能够在节省模型的训练成本的同时,提高模型进行酶动力学参数预测的准确率。
4.本技术的实施例提供一种酶动力学参数预测模型训练方法,所述方法包括:获取样本数据,所述样本数据包括由四元数据组成的四元数据集,所述四元数据包括环境因素值-酶序列-底物结构-第一真实酶动力学参数;将所述样本数据划分为训练集与测试集,利用所述训练集训练酶动力学参数预测模型;基于所述测试集确定所述酶动力学参数预测模型的预测准确率,根据所述预测准确率对预测模型进行优化。
5.在一个实施例中,所述环境因素值包括酸碱值和/或温度值。
6.在一个实施例中,所述样本数据还包括由三元数据组成的三元数据集,其中,所述三元数据包括酶序列-底物结构-第二真实酶动力学参数。
7.在一个实施例中,所述将所述样本数据划分为训练集与测试集包括:将所述三元数据集作为第一训练集;将所述四元数据集按照预设的第一比例划分为第二训练集与测试集,将第二训练集按照预设的第二比例划分为第三训练集与第四训练集。
8.在一个实施例中,所述酶动力学参数预测模型包括双层架构,所述双层架构包括基础层与元层,所述基础层包括第一模型与第二模型,所述元层包括机器学习模型,所述机器学习模型的输入包括所述第一模型的输出与所述第二模型的输出。
9.在一个实施例中,所述利用所述训练集训练酶动力学参数预测模型包括:利用所述训练集中的第一训练集训练所述第一模型,所述第一模型根据所述第一训练集中的酶序列-底物结构输出酶的第一预测参数;利用所述训练集中的第三训练集训练所述第二模型,所述第二模型根据所述第三训练集中的环境因素值-酶序列-底物结构输出酶的第二预测参数;基于所述训练集中的第四训练集训练所述机器学习模型,包括:将所述第四训练集中的酶序列-底物结构输入训练完成的第一模型,所述第一模型输出酶的第三预测参数;将所述第四训练集中的环境因素值-酶序列-底物结构输入训练完成的第二模型,所述第二模型输出酶的第四预测参数,利用所述第三预测参数与所述第四预测参数训练所述机器学习模型。
10.在一个实施例中,所述利用所述测试集确定所述酶动力学参数预测模型的预测准确率包括:将所述测试集中的环境因素值-酶序列-底物结构输入所述酶动力学参数预测模型,得到所述酶动力学参数预测模型输出的酶的第四预测参数;基于所述测试集中的第一真实酶动力学参数与所述第四预测参数确定所述预测准确率。
11.本技术的实施例提供一种酶动力学参数预测方法,所述方法包括:获取待测试酶对应的环境因素值-酶序列-底物结构;将所述待测试酶对应的环境因素值-酶序列-底物结构输入酶动力学参数预测模型,利用所述酶动力学参数预测模型输出所述待测试酶的酶动力学参数,所述酶动力学参数包括酶周转数,所述酶动力学参数预测模型为利用所述酶动力学参数预测模型训练方法所获得。
12.本技术的实施例提供一种酶动力学参数预测模型训练装置,所述装置包括:获取模块,用于获取样本数据,所述样本数据包括由四元数据组成的四元数据集,所述四元数据包括环境因素值-酶序列-底物结构-第一真实酶动力学参数;训练模块,用于将所述样本数据划分为训练集与测试集,利用所述训练集训练酶动力学参数预测模型;优化模块,用于基于所述测试集确定所述酶动力学参数预测模型的预测准确率,根据所述预测准确率对预测模型进行优化。
13.本技术的实施例提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述酶动力学参数预测模型训练与酶动力学参数预测方法。
14.本技术的实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述酶动力学参数预测模型训练与酶动力学参数预测方法。
15.综上所述,本技术所述的酶动力学参数预测模型训练与预测方法及相关设备,能够在训练模型时考虑到环境因素对酶动力学参数造成的影响,从而提高酶动力学参数的预测准确率,并且训练得到的模型适用于任意酶序列和底物结构,提高了模型的通用性与实用性。
附图说明
16.图1是本技术一实施例提供的电子设备的结构图。
17.图2是本技术一实施例提供的酶动力学参数预测模型训练方法的流程图。
18.图3是本技术一实施例提供的四元数据集中数据分布直方图的示例图。
19.图4是本技术一实施例提供的模型训练的逻辑示例图。
20.图5是本技术一实施例提供的酶动力学参数预测方法的流程图。
21.图6是本技术一实施例提供的酶动力学参数预测模型训练装置的结构图。
具体实施方式
22.为了能够更清楚地理解本技术的上述目的、特征和优点,下面结合附图和具体实施例对本技术进行详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
23.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的
技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述在一个实施例中实施例的目的,不是旨在于限制本技术。
24.在一个实施例中,在生物医药技术领域中,酶是细胞代谢的催化剂,对酶动力学参数进行准确预测具有重要的研究意义。相关的酶动力学参数预测方法,直接基于酶的蛋白质结构和底物结构对酶动力学参数进行预测,没有考虑环境因素在酶动力学参数的预测过程中发挥的作用,预测的准确率难以达到预期。
25.此外,还有的酶动力学参数预测方法是基于酶生物化学、酶的蛋白质结构和网络环境等多层次的数据来实现对特定物种的酶动力学参数的预测,使用的模型依赖于对特定物种的详细注解,难以有效推广至其它的物种,无法用于通用化的酶动力学参数预测。
26.为了解决上述问题,本技术实施例提供一种酶动力学参数预测模型训练方法,能够在训练模型时考虑到环境因素对酶动力学参数造成的影响,从而提高酶动力学参数的预测准确率,并且训练得到的模型适用于任意酶序列和底物结构,提高了模型的通用性与实用性。
27.例如图1所示,为本技术一实施例提供的电子设备的结构图。本技术实施例提供的酶动力学参数预测模型训练方法由电子设备执行,电子设备可以是计算机、服务器、笔记本电脑、手机等设备。所述电子设备1包括存储器11、至少一个处理器12、至少一条通信总线13及收发器14。
28.图1示出的电子设备的结构并不构成本技术实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
29.在一些实施例中,所述电子设备1是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备1还可包括其他外部设备,例如,键盘、鼠标、遥控器、显示器、触摸板或声控设备等输入输出设备。
30.需要说明的是,所述电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本技术,也应包含在本技术的保护范围以内,并以引用方式包含于此。
31.图2是本技术一实施例提供的酶动力学参数预测模型训练方法的流程图。所述酶动力学参数预测模型训练方法应用于电子设备中,例如图1中的电子设备1,具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
32.s21,获取样本数据。
33.在一个实施例中,所述样本数据包括由四元数据组成的四元数据集,所述四元数据包括环境因素值-酶序列-底物结构-第一真实酶动力学参数,所述环境因素值包括酸碱值和/或温度值。
34.在一个实施例中,为了获得能够考虑环境因素对酶动力学参数造成的影响的预测模型,本技术实施例构建了包含环境因素的四元数据集。其中,所述环境因素致包括但不限于酸碱ph值、温度值、共底物、氯化钠浓度等常见的环境因素。例如,当环境因素值为ph值时,四元数据集中的四元数据为ph值-酶序列-底物结构-第一真实酶动力学参数。
35.此外,所述酶序列表示酶的蛋白质(氨基酸)序列,所述四元数据表示酶的蛋白质序列在对应的环境因素值与特定的底物结构中的第一酶动力学真实参数,并且所述第一酶
动力学真实参数表示根据实验获得的真实的酶动力学参数。例如,当四元数据为ph值-酶序列-底物结构-第一真实酶周转数k
cat
时,表示酶的蛋白质序列在对应的ph值与特定的底物结构中的k
cat
。此外,所述第一真实酶动力学参数还可以包括其他参数,例如米氏常数km等。
36.在一个实施例中,可以根据开源的数据库构建所述四元数据组得到所述四元数据集,例如,根据uniprot、pubchem等数据库的酶序列、底物结构和相应的ph值或温度值构建所述四元数据组。
37.在一个实施例中,如图3所示,为本技术一实施例提供的四元数据集中数据分布直方图的示例图。其中,图3左侧的ph值分布直方图中的横坐标表示ph值,纵坐标表示对应的ph值的四元数据组的个数;图3右侧的温度值分布直方图中的横坐标表示温度值(单位为摄氏度),纵坐标表示对应的温度值的四元数据组的个数。
38.例如图3所示,本技术实施例构建的四元数据集中ph值对应的四元数据组的样本数量为636,其中ph值的取值范围为3到10.5,几乎能够覆盖实际酶动力学实验场景中的ph值的全部取值可能;四元数据集中温度值对应的四元数据组的样本数量为572,其中温度值的取值范围为4到85摄氏度,几乎能够覆盖实际酶动力学实验场景中的温度值的全部取值可能。
39.在一个实施例中,所述样本数据还包括由三元数据组成的三元数据集,其中,所述三元数据包括酶序列-底物结构-第二真实酶动力学参数。
40.在一个实施例中,由于四元数据集中的样本数量较少,直接使用四元数据集训练预测模型的模型训练效果可能达不到预期。此外,由于相关技术中通常只根据酶序列与底物结构对酶动力学参数进行预测,为了研究环境因素对酶动力学参数的影响,还需要在四元数据集之外获取三元数据集,从而结合三元数据集与四元数据集训练模型,提高模型的预测准确率。
41.在一个实施例中,可以根据dlkcat数据集构建所述三元数据集,所述三元数据中的酶序列表示酶的蛋白质序列,所述三元数据表示酶的蛋白质序列在特定的底物结构中的第二真实酶动力学参数,并且,三元数据中的第二真实酶动力学参数是根据实验获得的真实的酶动力学参数。例如,当三元数据为酶序列-底物结构-第二真实酶周转数k
cat
时,表示酶的蛋白质序列在特定的底物结构中的k
cat
。此外,所述第二真实酶动力学参数还可以包括其他参数,例如米氏常数km等。在一个实施例中,将以酶动力学参数为k
cat
进行举例。
42.s22,将所述样本数据划分为训练集与测试集,利用所述训练集训练酶动力学参数预测模型。
43.在一个实施例中,所述酶动力学参数预测模型包括双层架构,所述双层架构包括基础层与元层,所述基础层包括第一模型与第二模型,所述元层包括机器学习模型(例如线性回归模型),所述机器学习模型的输入包括所述第一模型的输出与所述第二模型的输出。具体的模型结构与训练方法将结合后续实施例进行说明。
44.在一个实施例中,所述将所述样本数据划分为训练集与测试集包括:将所述三元数据集作为第一训练集;将所述四元数据集按照预设的第一比例划分为第二训练集与测试集,将第二训练集按照预设的第二比例划分为第三训练集与第四训练集。例如,当第一比例为8:2时,第二训练集占整个四元数据集的80%,测试集占整个四元数据集的20%;当第二比例为8:2时,第三训练集占第二训练集的80%并且占整个四元数据集的64%,第四训练集
占第二训练集的20%并且占整个四元数据集的16%。具体的划分原因将结合后续实施例进行说明。
45.在一个实施例中,所述利用所述训练集训练酶动力学参数预测模型包括如下的(1)-(4):
46.(1)利用所述训练集中的第一训练集训练(或输入)所述第一模型,所述第一模型根据所述第一训练集中的酶序列-底物结构输出酶的第一预测参数。
47.在一个实施例中,所述第一模型的输入为酶序列-底物结构,用于根据酶序列与底物结构对酶动力学参数进行预测,得到第一预测参数。因此,对第一模型进行训练时采用的是三元数据集对应的第一训练集,由于三元数据集中的样本数量较大,不考虑环境因素的第一模型的预测准确率会较高。
48.此外,由于第一模型与相关技术中不考虑环境因素的酶动力学参数预测模型的作用相同,因此一般无需对第一模型进行训练与优化,直接使用相关技术中的模型架构与参数即可。
49.例如,第一模型包括但不限于dlkcat模型,dlkcat模型是查尔姆斯理工大学的研究团队提供的一种深度学习模型,可以用于根据输入的酶序列-底物结构,输出对应的k
cat
的预测结果。具体地,将酶序列与底物结构对应的smiles(simplified molecular input line entry system)输入第一模型,第一模型利用卷积神经网络编码酶序列的信息生成a,并利用图神经网络编码酶序列的信息生成b,之后第一模型将a和b组成的串联向量作为神经网络机制的输入,输出预测得到的k
cat
的预测值k1。
50.在其他实施例中,还可以将第一训练集划分为测试集m与训练集n对第一模型进行训练。
51.(2)利用所述训练集中的第三训练集训练所述第二模型,所述第二模型根据所述第三训练集中的环境因素值-酶序列-底物结构输出酶的第二预测参数。
52.在一个实施例中,所述第二模型的输入为环境因素值-酶序列-底物结构,用于根据环境因素值、酶序列与底物结构对酶动力学参数进行预测,得到第二预测参数。因此,对第二模型进行训练时采用的是四元数据集。
53.在一个实施例中,与第一模型类似地,第二模型也可以包括但不限于dlkcat模型。但是,由于现有的dlkcat模型没有考虑环境因素,因此需要将四元数据集划分为训练集(第三训练集)与测试集从而训练第二模型,得到更新的模型参数以提高模型的预测准确率。具体地,第二模型的输入与第一模型的输入相比,多了环境因素值c,第二模型将a、b与c组成的串联向量作为神经网络机制的输入,输出预测得到的k
cat
的预测值k2。
54.在一个实施例中,使用从第二训练集中划分出的第三训练集训练第二模型而不是直接使用第二训练集的原因,将结合后续实施例进行说明。
55.(3)基于所述训练集中的第四训练集训练所述机器学习模型,包括:将所述第四训练集中的酶序列-底物结构输入训练完成的第一模型,所述第一模型输出酶的第三预测参数;将所述第四训练集中的环境因素值-酶序列-底物结构输入训练完成的第二模型,所述第二模型输出酶的第四预测参数,利用所述第三预测参数与所述第四预测参数训练所述机器学习模型。
56.在一个实施例中,基础层的第一模型用于获取不考虑环境因素的预测值,基础层
的第二模型用于获得考虑环境因素的预测值后,为了研究环境因素造成的影响,在基础层后设置了元层。
57.元层的输入为第一模型的输出与第二模型的输出,用于根据第二模型的输出对第一模型的输出进行校正,从而实现在相关技术的基础上添加环境因素后的酶动力学参数的预测,提高模型预测准确率。
58.在一个实施例中,使用第四训练集中的酶序列-底物结构作为训练完成的第一模型的输入,获得所述第一模型输出的酶的第三预测参数;使用第四训练集中的环境因素值-酶序列-底物结构作为训练完成的第二模型的输入,获得所述第二模型输出酶的第四预测参数;再使用第三预测参数与第四预测参数作为元层的输入,从而训练元层。
59.在一个实施例中,不能直接使用第二训练集训练第二模型与元层模型,其原因在于:若是直接使用第二训练集训练第二模型,在训练元层时,还是要将第二训练集中的包含环境因素的数据输入第二模型得到第二预测参数,再使用第二预测参数训练元层的模型的话,会导致元层模型的泛化能力不足,出现过拟合现象,无法将元层模型的预测准确率训练至达到预期。
60.因此,在训练元层时要使用与训练第二模型时不同的训练样本,本技术实施例利用第三训练集训练第二模型后,使用第四训练集作为第二模型的输入,得到用于训练元层模型的第三预测参数。
61.在一个实施例中,所述元层可以包括但不限于线性回归、随机森林等常见的机器学习模型。例如,当元层为线性回归模型时,将第一预测参数与第三预测参数的串联向量作为线性回归模型的输入,输出预测得到的k
cat
的预测值k。
62.在一个实施例中,如图4所示,为本技术一实施例提供的模型训练的逻辑示例图。其中,以环境因素为ph与温度进行示例,模型一表示第一模型,模型二表示第二模型,以元层模型为线性回归模型为例。
63.步骤s23,基于所述测试集确定所述酶动力学参数预测模型的预测准确率,根据所述预测准确率对预测模型进行优化。
64.在一个实施例中,所述利用所述测试集确定所述酶动力学参数预测模型的预测准确率包括:将所述测试集中的环境因素值-酶序列-底物结构输入所述酶动力学参数预测模型,得到所述酶动力学参数预测模型输出的酶的第四预测参数;基于所述测试集中的第一真实酶动力学参数与所述第四预测参数确定所述预测准确率。
65.为了对预测模型进行优化,将模型预测准确率训练至达到预期,可以通过利用最小二乘法将模型预测值构成的曲线来逼近真实值拟合的曲线,从而对模型的参数进行调整得到对应的更新的模型参数,直至预测准确率训练至达到预期。
66.在一个实施例中,本技术实施例提供的酶动力学参数预测模型训练方法至少包括如下有益效果:结合来源不同的数据集,使用双层学习框架提高了模型在不同物种的酶的应用的通用性与预测准确率;新建了包含环境因素的四元数据集,系统地考虑了ph或温度等环境因素的影响,实现更精准的酶动力学参数的预测。
67.当训练得到酶动力学参数预测模型后,可以利用酶动力学参数预测模型进行酶动力学参数预测。本技术实施例提供的酶动力学参数预测方法由电子设备(例如图1所示的电子设备1)执行,相应地,在一个实施例中,电子设备可以包括运行于其中的酶动力学参数预
测装置。
68.图5是本技术一实施例提供的酶动力学参数预测方法的流程图。所述酶动力学参数预测方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
69.s51,获取待测试酶对应的环境因素值-酶序列-底物结构。
70.在一个实施例中,所述环境因素值-酶序列-底物结构可以参考步骤s21中的描述,可以通过实验进行采集。
71.s52,将所述待测试酶对应的环境因素值-酶序列-底物结构输入酶动力学参数预测模型,利用所述酶动力学参数预测模型输出所述待测试酶的酶动力学参数,所述酶动力学参数包括酶周转数,所述酶动力学参数预测模型为利用所述酶动力学参数预测模型训练方法所获得。
72.在一个实施例中,所述酶动力学参数预测模型的应用过程与所述酶动力学参数预测模型的训练过程大致相同,具体地,将待测试酶的环境因素值-酶序列-底物结构输入预测模型后,预测模型的基础层的第一模型根据待测试酶的酶序列-底物结构输出预测参数y1,预测模型的基础层的第二模型根据待测试酶的环境因素值-酶序列-底物结构输出预测参数y2,预测模型的元层根据预测参数y1与预测参数y2输出最终的预测参数y。
73.图6是本技术一实施例提供的酶动力学参数预测模型训练装置的结构图。
74.在一些实施例中,所述酶动力学参数预测模型训练装置60可以包括多个由计算机程序段所组成的功能模块。所述酶动力学参数预测模型训练装置60中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图2描述)酶动力学参数预测模型训练的功能。
75.本实施例中,所述酶动力学参数预测模型训练装置60根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块601、训练模块602、优化模块603。本技术所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于所述酶动力学参数预测模型训练装置60的限定可以参见上文对酶动力学参数预测模型训练方法的限定,在此不再详细赘述。
76.所述获取模块601,用于获取样本数据,所述样本数据包括由四元数据组成的四元数据集,所述四元数据包括环境因素值-酶序列-底物结构-第一真实酶动力学参数。
77.所述训练模块602,用于将所述样本数据划分为训练集与测试集,利用所述训练集训练酶动力学参数预测模型。
78.所述优化模块603,用于基于所述测试集确定所述酶动力学参数预测模型的预测准确率,根据所述预测准确率对预测模型进行优化。
79.接续上文对图1的介绍,所述存储器11中存储有计算机程序,所述计算机程序被所述至少一个处理器12执行时实现如所述的酶动力学参数预测方法中的全部或者部分步骤。所述存储器11包括只读存储器(read-only memory,rom)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read-only memory,eprom)、一次可编程只读存储器(one-time programmable read-only memory,otprom)、电子擦除式可复写只读存储器
(electrically-erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
80.进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
81.在本技术一实施例中,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器12执行时实现如图2所示的流程。
82.在一些实施例中,所述至少一个处理器12是所述电子设备1的控制核心(control unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块,以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。例如,所述至少一个处理器12执行所述存储器中存储的计算机程序时实现本技术实施例中所述的酶动力学参数预测方法的全部或者部分步骤;或者实现酶动力学参数预测装置的全部或者部分功能。所述至少一个处理器12可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
83.在一些实施例中,所述至少一条通信总线13被设置为实现所述存储器11以及所述至少一个处理器12等之间的连接通信。
84.尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器12逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi-fi模块、摄像装置等,在此不再赘述。
85.上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本技术各个实施例所述方法的部分。
86.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
87.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
88.另外,在本技术各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
89.对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其他的具体形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
90.最后应说明的是,以上实施例仅用以说明本技术的技术方案而非限制,尽管参照较佳实施例对本技术进行了详细说明,本领域的普通技术人员应当理解,可以对本技术的技术方案进行修改或等同替换,而不脱离本技术技术方案的精神和范围。

技术特征:
1.一种酶动力学参数预测模型训练方法,其特征在于,所述方法包括:获取样本数据,所述样本数据包括由四元数据组成的四元数据集,所述四元数据包括环境因素值-酶序列-底物结构-第一真实酶动力学参数;将所述样本数据划分为训练集与测试集,利用所述训练集训练酶动力学参数预测模型;基于所述测试集确定所述酶动力学参数预测模型的预测准确率,根据所述预测准确率对预测模型进行优化。2.根据权利要求1所述的酶动力学参数预测模型训练方法,其特征在于,所述环境因素值包括酸碱值和/或温度值。3.根据权利要求1所述的酶动力学参数预测模型训练方法,其特征在于,所述样本数据还包括由三元数据组成的三元数据集,其中,所述三元数据包括酶序列-底物结构-第二真实酶动力学参数。4.根据权利要求3所述的酶动力学参数预测模型训练方法,其特征在于,所述将所述样本数据划分为训练集与测试集包括:将所述三元数据集作为第一训练集;将所述四元数据集按照预设的第一比例划分为第二训练集与测试集,将第二训练集按照预设的第二比例划分为第三训练集与第四训练集。5.根据权利要求1所述的酶动力学参数预测模型训练方法,其特征在于,所述酶动力学参数预测模型包括双层架构,所述双层架构包括基础层与元层,所述基础层包括第一模型与第二模型,所述元层包括机器学习模型,所述机器学习模型的输入包括所述第一模型的输出与所述第二模型的输出。6.根据权利要求5所述的酶动力学参数预测模型训练方法,其特征在于,所述利用所述训练集训练酶动力学参数预测模型包括:利用所述训练集中的第一训练集训练所述第一模型,所述第一模型根据所述第一训练集中的酶序列-底物结构输出酶的第一预测参数;利用所述训练集中的第三训练集训练所述第二模型,所述第二模型根据所述第三训练集中的环境因素值-酶序列-底物结构输出酶的第二预测参数;基于所述训练集中的第四训练集训练所述机器学习模型,包括:将所述第四训练集中的酶序列-底物结构输入训练完成的第一模型,所述第一模型输出酶的第三预测参数;将所述第四训练集中的环境因素值-酶序列-底物结构输入训练完成的第二模型,所述第二模型输出酶的第四预测参数,利用所述第三预测参数与所述第四预测参数训练所述机器学习模型。7.根据权利要求6所述的酶动力学参数预测模型训练方法,其特征在于,所述利用所述测试集确定所述酶动力学参数预测模型的预测准确率包括:将所述测试集中的环境因素值-酶序列-底物结构输入所述酶动力学参数预测模型,得到所述酶动力学参数预测模型输出的酶的第四预测参数;基于所述测试集中的第一真实酶动力学参数与所述第四预测参数确定所述预测准确率。8.一种酶动力学参数预测方法,其特征在于,所述方法包括:
获取待测试酶对应的环境因素值-酶序列-底物结构;将所述待测试酶对应的环境因素值-酶序列-底物结构输入酶动力学参数预测模型,利用所述酶动力学参数预测模型输出所述待测试酶的酶动力学参数,所述酶动力学参数包括酶周转数,其中,所述酶动力学参数预测模型为利用如权利要求1至7中任意一项所述的酶动力学参数预测模型训练方法所获得。9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的酶动力学参数预测模型训练方法,或实现如权利要求8所述的酶动力学参数预测方法。10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的酶动力学参数预测模型训练方法,或实现如权利要求8所述的酶动力学参数预测方法。

技术总结
本申请涉及生物医药技术领域,提供一种酶动力学参数预测模型训练与预测方法及相关设备,通过在训练模型时考虑到环境因素对酶动力学参数造成的影响,从而提高酶动力学参数的预测准确率,并且训练得到的模型适用于任意酶序列和底物结构,能够提高模型的通用性与实用性。性。性。


技术研发人员:余函 罗小舟
受保护的技术使用者:深圳先进技术研究院
技术研发日:2023.05.30
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐