一种鲜味肽筛选方法及筛选模型

未命名 09-24 阅读:560 评论:0


1.本发明涉及鲜味肽技术领域,尤其涉及一种鲜味肽筛选方法及筛选模型。


背景技术:

2.2002年,鲜味被列为继甜、苦、酸、咸四种基本味之后的第五种基本味。鲜味可以通过减少饮食中钠的摄入量来降低成年人患慢性疾病的风险。除l-谷氨酸钠(msg)外,还发现一些双功能酸、游离l-氨基酸、多肽及其衍生物或反应产物具有鲜味。特别是多肽及其衍生物是调味品的重要组成部分。因此,发现鲜味肽对于制备新的鲜味调味品或食品添加剂具有重要意义。
3.目前已报道的鲜味肽有cm、gcg、edg、tessse和rgeneseeegaivt等100多种。目前主要利用多维色谱和超高效液相色谱-电喷雾电离-四极杆飞行时间质谱(uplc-esi-qtofms/ms)鉴定蛋白水解物中的鲜味肽。然而,传统的鲜味肽筛选方法存在以下不足:(1)传统的鲜味物质挖掘工作首先需要选择一个鲜味基料,然后需要借助超滤、凝胶过滤色谱、反相-高效液相色谱和质谱联用等设备进行潜在鲜味肽筛选;最后筛选结果需要进行人工感官实验鉴定。在人力、时间、经济等方面成本较高,实验周期长。(2)传统鲜味肽挖掘过程需要大量的鲜味来源物质进行实验提炼,料成本较高。(3)传统的鲜味肽判断依赖感官员培训小组,每次人工感官小组需要针对特定的鲜味基料进行3-6个月的系统培训,培训周期长,其需要针对特殊的鲜味来源物进行培训,结果难度迁移,对于新的来源物难以在短时间内形成高效统一的判断。(4)传统的鲜味肽挖掘工作结果准确率不高,且容易缺漏,难以充分挖掘。
4.计算机辅助筛选可应用于鲜味肽的筛选和鉴定,且耗时短,有着统一的衡量标准,成本低。该系列方法包括分子对接、分子指纹建模、分子描述符qsar建模。这三种方法在活性分子挖掘领域有着广泛的应用,但是分子对接是通过受体的特征以及受体和药物分子之间的相互作用方式来进行药物设计的方法。主要研究分子间(如配体和受体)相互作用,并预测其结合模式和亲合力的一种理论模拟方法。分子指纹是通过一组特定位数(128/1024/2048)、0/1填充的字节串来描述分子特征结构的矩阵。常被用作分子特征化的方法,将3维分子结构信息转为2维信息以用于机器学习。分子描述符从多个维度(0-3维)、多个角度(物理化学性质指标)、多个描述方式(定性/定量)描述所需要表征的分子,常用于定量构效关系的研究,如分子组成(如氢键供体数、化学键数)、理化性质(如酯水分布系数)描述符、分子场描述符以及分子形状描述符。


技术实现要素:

5.针对上述存在的问题,本发明旨在提供一种基于分子对接、分子描述符、分子指纹与集成算法相结合的鲜味肽筛选方法及筛选模型,能够对鲜味肽进行快速,精确的筛选,且该筛选方法可重复使用。
6.为了实现上述目的,本发明所采用的技术方案如下:
7.一种鲜味肽筛选方法,其特征在于,包括以下步骤,
8.s1:整理现有的鲜味肽数据,建立数据库;
9.s2:基于现有的鲜味肽本身的结构碎片构建鲜味肽的分子指纹特征数据;
10.s3:基于分子对接技术解析的鲜味肽与鲜味受体t1r1/t1r3相互作用方式构建分子间互作残基特征数据;
11.s4:基于分子描述符,获得鲜味肽理化性质的分子描述符特征数据;
12.s5:使用机器学习算法对步骤s2-s4中得到的数据分别建立鲜味肽筛选子模型;
13.s6:使用支持向量机算法对鲜味肽筛选子模型进行集成,建立鲜味肽筛选模型;
14.s7:利用步骤s6中建立的鲜味肽筛选模型对鲜味肽进行筛选。
15.进一步的,步骤s2中所述的分子指纹特征数据包括morgan148、322、428、509、598、650、805、952、1150、1409、1573、1687、1706、1907和2017。
16.进一步的,步骤s5中使用机器学习算法对步骤s2中得到的分子指纹特征数据建立的鲜味肽筛选子模型包括随机梯度下降判别模型模型、分子指纹特征数据逻辑回归模型、分子指纹特征数据梯度提升树模型和高斯分布朴素贝叶斯判别模型。
17.进一步的,步骤s3中所述的分子间互作残基特征数据包括:hi_a_2_leu,hi_a_3_leu,hi_a_108_asp,hi_a_154_thr,hi_a_157_ala,hi_a_158_leu,hi_a_161_pro,hi_a_163_leu,hi_a_179_lys,hi_a_181_gln,hi_a_182_tyr,hi_a_183_pro,hi_a_218_asp,hi_a_246_pro,hi_a_419_trp,hi_b_19_thr,hi_b_56_arg,hi_b_57_pro,hi_b_106_pro,hi_b_107_val,hi_b_152_val,hi_b_155_lys,hi_b_156_phe,hi_b_179_thr,hi_b_245_leu,hdb_a_48_ser,hdb_a_50_cys,hdb_a_52_gln,hdb_a_107_ser,hdb_a_109_ser,hdb_a_148_ser,hdb_a_150_asn,hdb_a_151_arg,hdb_a_161_pro,hdb_a_217_ser,hdb_a_218_asp,hdb_a_219_asp,hdb_a_222_gln,hdb_a_247_phe,hdb_a_248_ser,hdb_a_249_ala,hdb_a_276_ser,hdb_a_278_gln,hdb_b_15_leu,hdb_b_17_pro,hdb_b_56_arg,hdb_b_57_pro,hdb_b_58_ser,hdb_b_146_ser,hdb_b_148_glu,hdb_b_155_lys,hdb_b_178_glu,hdb_b_179_thr,hdb_b_215_asp,hdb_b_217_glu,hdb_b_221_gln,psp_a_247_phe,sb_a_151_arg,sb_b_155_lys,sb_b_220_arg,sb_b_247_arg,sb_b_252_arg的次数,若没有发生鲜味肽与鲜味受体t1r1/t1r3的交互,则对应的分子间互作残基特征数据为0;其中,a是t1r1蛋白,b是t1r3蛋白,hdb是氢键相互作用,hi是疏水相互作用,sb是盐桥,psp是∏-堆叠。
18.进一步的,步骤s5中使用机器学习算法对步骤s3中得到的分子间互作残基特征数据建立的鲜味肽筛选子模型为随机森林模型。
19.进一步的,步骤s4中所述的分子描述符特征数据包括bcut2d_mwlow、bcut2d_logphi、smr_vsa1、minestateindex、vsa_estate5、vsa_estate6、vsa_estate7、mollogp、肽序列中d出现的次数、肽序列中e出现的次数、肽序列中d、e出现的次数和、d在肽序列中第一次出现的位置、e在肽序列中第一次出现的位置;若肽序列同时包括d、e,则对应的分子描述符特征数据为1。
20.进一步的,步骤s5中使用机器学习算法对步骤s4中得到的分子描述符特征数据建立的鲜味肽筛选子模型包括分子描述符特征数据逻辑回归模型和分子描述符特征数据梯度提升树模型。
21.进一步的,一种鲜味肽筛选模型,包含上述所述的鲜味肽筛选方法。
22.进一步的,所述筛选模型包括前往网页展示系统和后端计算与分析系统,所述后
端计算与分析系统在进行数据计算和分析时采用所述鲜味肽筛选方法。
23.本发明的有益效果是:
24.1、本发明中公开了一种鲜味肽筛选方法,基于现有的鲜味肽本身的结构碎片构建鲜味肽的分子指纹特征数据,基于分子对接技术解析的鲜味肽与鲜味受体t1r1/t1r3相互作用方式构建分子间互作残基特征数据,基于分子描述符,获得鲜味肽理化性质的分子描述符特征数据,然后使用机器学习算法对得到的不同数据分别建立鲜味肽筛选子模型,使用鲜味肽筛选子模型进行集成,建立鲜味肽筛选模型,利用鲜味肽筛选模型对鲜味肽进行筛选和识别,可快速准确的识别出鲜味肽,鲜味肽的筛选准确率显著提升,且筛选时间显著缩短,从而降低了筛选过程的经济成本。
25.2、本发明中公开了一种鲜味肽筛选模型,包括前往网页展示系统、后端计算与分析系统,所述后端计算与分析系统在进行数据计算和分析时采用所述鲜味肽筛选方法,其中,后端计算与分析系统在进行数据计算和分析时采用具体的鲜味肽筛选方法,该模型将所有的流程打造成一个流程化的平台操作界面,能够进行轻度依赖/无依赖人工经验的高效筛选,根据所需要活性的种类,上传对应的数据即可进行特色化的筛选,模型迁移性强。
附图说明
26.图1为本发明中鲜味肽筛选模型结构示意图。
27.图2为本发明中鲜味肽筛选模型操作步骤流程图。
28.图3为本发明中鲜味肽筛选模型数据制备界面。
29.图4为本发明中鲜味肽筛选模型原始数据输出结果展示界面。
30.图5为本发明中鲜味肽筛选模型数据输入界面。
31.图6为本发明中鲜味肽筛选模型数据结果展示界面。
32.图7为本发明中仿真实验集成模型结果与现有模型结果对比图。
具体实施方式
33.为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
34.实施例一:
35.一种鲜味肽筛选方法,包括以下步骤,
36.s1:整理现有的鲜味肽数据,建立数据库;
37.具体的,本发明中搜集了已经报道的鲜味肽数据244条,将肽的滋味、序列、发文来源等信息整理后建立数据库,部分鲜味肽数据如下表1所示,在表1中,pepname列展示的就是肽的fasta格式数据。
38.表1部分鲜味肽数据
39.indexpepnametasteinumami_peptidestasteinbitter_peptides0ae1101rl1102ny1103dk110
4dd1105de1106ce1107ea1108en1109ed11010ee11011ek11012ep11013es11014et11015gd11016ld00017qp11018lel00019kg11020pe11021te11022hs11023lm00024vt11025rfphadf00026aea11027aed11028ada11029ade11030dag110
40.s2:基于现有的鲜味肽本身的结构碎片构建鲜味肽的分子指纹特征数据;
41.具体的,所述的分子指纹特征数据包括morgan148、322、428、509、598、650、805、952、1150、1409、1573、1687、1706、1907和2017。
42.s3:基于分子对接技术解析的鲜味肽与鲜味受体t1r1/t1r3相互作用方式构建分子间互作残基特征数据;
43.具体的,所述分子间互作残基特征数据包括:hi_a_2_leu,hi_a_3_leu,hi_a_108_asp,hi_a_154_thr,hi_a_157_ala,hi_a_158_leu,hi_a_161_pro,hi_a_163_leu,hi_a_179_lys,hi_a_181_gln,hi_a_182_tyr,hi_a_183_pro,hi_a_218_asp,hi_a_246_pro,hi_a_419_trp,hi_b_19_thr,hi_b_56_arg,hi_b_57_pro,hi_b_106_pro,hi_b_107_val,hi_b_152_val,hi_b_155_lys,hi_b_156_phe,hi_b_179_thr,hi_b_245_leu,hdb_a_48_ser,hdb_a_50_cys,hdb_a_52_gln,hdb_a_107_ser,hdb_a_109_ser,hdb_a_148_ser,hdb_a_150_asn,hdb_a_151_arg,hdb_a_161_pro,hdb_a_217_ser,hdb_a_218_asp,hdb_a_219_asp,
hdb_a_222_gln,hdb_a_247_phe,hdb_a_248_ser,hdb_a_249_ala,hdb_a_276_ser,hdb_a_278_gln,hdb_b_15_leu,hdb_b_17_pro,hdb_b_56_arg,hdb_b_57_pro,hdb_b_58_ser,hdb_b_146_ser,hdb_b_148_glu,hdb_b_155_lys,hdb_b_178_glu,hdb_b_179_thr,hdb_b_215_asp,hdb_b_217_glu,hdb_b_221_gln,psp_a_247_phe,sb_a_151_arg,sb_b_155_lys,sb_b_220_arg,sb_b_247_arg,sb_b_252_arg的次数;若没有发生鲜味肽与鲜味受体t1r1/t1r3的交互,则对应的分子间互作残基特征数据为0(若有交互,则输出结果即为上述特征数据中示出的交互类型的次数);其中,a是t1r1蛋白,b是t1r3蛋白,hdb是氢键相互作用,hi是疏水相互作用,sb是盐桥,psp是∏-堆叠。
44.s4:基于分子描述符,获得鲜味肽理化性质的分子描述符特征数据;
45.具体的,所述分子描述符特征数据包括bcut2d_mwlow、bcut2d_logphi、smr_vsa1、minestateindex、vsa_estate5、vsa_estate6、vsa_estate7、mollogp、肽序列中d出现的次数、肽序列中e出现的次数、肽序列中d、e出现的次数和、d在肽序列中第一次出现的位置、e在肽序列中第一次出现的位置;若肽序列同时包括d、e,则对应的分子描述符特征数据为1。
46.s5:使用机器学习算法对步骤s2-s4中得到的数据分别建立鲜味肽筛选子模型;
47.具体的,使用机器学习算法对步骤s2中得到的分子指纹特征数据建立的鲜味肽筛选子模型包括随机梯度下降判别模型模型、分子指纹特征数据逻辑回归模型、分子指纹特征数据梯度提升树模型和高斯分布朴素贝叶斯判别模型。
48.其中,分子指纹特征数据的逻辑回归模型的参数如下:逻辑回归的模型经过网格搜索其超参数如下:惩罚函数是l2正则化(penalty='l2'),停止标准的容忍度为0.0001(tol=0.0001),将截距添加到决策函数中(fit_intercept=true),求解器选择牛顿联合cg共轭梯度法(solver=

newton-cg’),根据样本中类别的数量分配惩罚函数的权重(class_weight='balanced'),训练数据(也称为纪元)的最大传递次数为10000(max_iter=5000),训练过程中不调用之前的解作为初始化参数(warm_start=false)。
49.分子指纹特征数据的高斯分布朴素贝叶斯判别模型的参数如下:即不根据数据的正负样本分布调整先验部分的大小,允许方差最大值为0.000000001(var_smoothing=0.000000001)。
50.分子指纹特征数据的随机梯度下降判别模型模型的参数如下:损失函数是包括容忍异常值和概率估计的平滑曲线(loss='modified_huber'),正则项采用elasticnet正则(penalty='elasticnet'),与正则化项相乘的常数为0.0001(a=0.0001),拟合中需要预先估计截距(fit_intercept:true),训练数据(也称为纪元)的最大传递次数为10000(max_iter=10000),训练的停止标准设为0.001(tol=0.001),训练数据在每一个训练批次后随即打乱(shuffle=true),早停不开启(early_stopping=false),训练过程中调用之前的解作为初始化参数(warm_start=true),根据样本中类别的数量分配惩罚函数的权重(class_weight='balanced')。
51.分子指纹特征数据的梯度提升树模型参数如下:使用指数形式构建损失函数(loss='exponential'),学习率为0.1(learning_rate=0.1),评估器要执行的增强阶段数为70(n_estimators=70),使用'friedman_mse'衡量体系的数据分割质量(default='friedman_mse'),分裂一个内部节点所需的最小样本数为2(min_samples_split=2),叶节点所需的最小样本数为1(min_samples_leaf=1),叶节点所需的(所有输入样本的)权重总
和的最小加权分数为0(min_weight_fraction_leaf=0),单个回归估计器的最大深度为3(max_depth=3),寻找最佳分割时要考虑的特征数量为特征数量的开方(max_features='sqrt')。
52.使用机器学习算法对分子间互作残基特征数据建立的鲜味肽筛选子模型为随机森林模型,所述随机森林模型的具体参数为:森林中数的数量是126(n_estimators=126),衡量分割质量的函数选择基尼函数(criterion=“gini”),树的最大深度为7层(max_depth=7),分裂一个节点所需要的最小样本数为2(min_samples_split=2),叶节点所需的最小样本数为1(min_samples_leaf=1),叶节点所需的(所有输入样本的)权重总和的最小加权分数为0(min_weight_fraction_leaf=0),寻找最佳分割时要考虑的特征数量为特征数量的开方(max_features='sqrt'),构建树时使用bootstrap样本(bootstrap=true),不使用袋外样本来估计泛化分数(oob_score=false),训练过程中不调用之前的解作为初始化参数(warm_start=false)。
53.使用机器学习算法对分子描述符特征数据建立的鲜味肽筛选子模型包括分子描述符特征数据逻辑回归模型和分子描述符特征数据梯度提升树模型;
54.其中,分子描述符特征数据逻辑回归模型的参数如下:逻辑回归的模型经过网格搜索其超参数如下:惩罚函数是l2正则化(penalty='l2'),停止标准的容忍度为0.0001(tol=0.0001),将截距添加到决策函数中(fit_intercept=true),求解器选择牛顿联合cg共轭梯度法(solver=

newton-cg’),根据样本中类别的数量分配惩罚函数的权重(class_weight='balanced'),训练数据(也称为纪元)的最大传递次数为10000(max_iter=5000),训练过程中不调用之前的解作为初始化参数(warm_start=false)。
55.分子描述符特征数据梯度提升树模型的参数如下:criterion':'friedman_mse','loss':'exponential','max_features':'sqrt','n_estimators':50。使用指数形式构建损失函数(loss='exponential'),学习率为0.1(learning_rate=0.1),评估器要执行的增强阶段数为70(n_estimators=70),使用'friedman_mse'衡量体系的数据分割质量(default='friedman_mse'),分裂一个内部节点所需的最小样本数为2(min_samples_split=2),叶节点所需的最小样本数为1(min_samples_leaf=1),叶节点所需的(所有输入样本的)权重总和的最小加权分数为0(min_weight_fraction_leaf=0),单个回归估计器的最大深度为3(max_depth=3),寻找最佳分割时要考虑的特征数量为特征数量的开方(max_features='sqrt')。以上所有子模型若是正样本,则输出结果为1,否则为0。
56.s6:使用支持向量机算法对鲜味肽筛选子模型进行集成,建立鲜味肽筛选模型;
57.具体的,将步骤s5中所有子模型的输出结果作为输入,使用支持向量机算法(kernel=rbf,gamma=scale)统筹所有子模型输出的结果,建立鲜味肽筛选模型。步骤s4中建立的的七个子模型会输出结果(阳性结果就是1,阴性就是0),将这些结果组成的一个7bit的矩阵输入鲜味肽筛选模型(svm模型)中,就可以得到最终的结果,其中umami是1,bitter是0.
58.s7:利用步骤s6中建立的鲜味肽筛选模型对鲜味肽进行筛选。
59.具体的,将待测肽的fasta格式的序列输入模型,比如肽gly-glu,输入ge即可。模型经过计算会给出类别判断结果(鲜味则值为1,反之为0)和置信概率(大小为0-100%)。
60.实施例二:
61.实施例二中提供一种鲜味肽筛选模型,其中包含实施例一中所述的鲜味肽筛选方法。
62.具体的,如附图1所示,所述筛选模型包括前往网页展示系统和后端计算与分析系统,所述后端计算与分析系统在进行数据计算和分析时采用所述鲜味肽筛选方法。
63.前往网页展示系统负责由用户录入数据整合、录入tpdm信息传递与tpdm模型判断结果展示这三个模块组成。以上三个模块通过django 3.2与streamlit发布。
64.后端计算与分析系统主要由四个部分组成:
65.①
接收待测肽录入,进行信息整合以输出可以直接录入tpdm模型处理的肽序列输出模块。
66.②
分子表征模块,该模块具体分为3个部分,分别对应实施例一中的分子指纹特征数据、分子间互作残基特征数据和分子描述符特征数据及其对应的子模型;
67.1)分子指纹通过调用rdkit.allchem.getmorganfingerprintasbitvect模块来表征2048位扩展连接指纹。根据参数的差异,选择ecfp4作为指纹的格式,参数为usefeatures=true,radius=2为ecfp4。从中选择出morgan148、322、428、509、598、650、805、952、1150、1409、1573、1687、1706、1907、2017作为特征数据,如果潜在鲜味肽小分子包含如上的结构则该矩阵的字节为1,若无则是0。据此每一个小分子根据其子结构被一个15字节的矩阵表征。
68.2)分子交互残基按照交互作用力的六种模式和鲜味肽残基位点数量进行交互构建。首先进行分子对接。潜在鲜味肽作为对接的配体,其结构通过调用chem.molfromfasta读取肽的名称(短字母,fasta格式)制作肽列表,而后调用chem.allche模块使用embedmolecule函数。函数使用experimental-torsion basicknowledge distance geometry(etkdg)算法产生基于修正距离几何算法产生的3d构象(friedrich et al.,2017),构象之间同原子重叠距离之和设定为1;最后使用mmffoptimizemolecule模块调用mmff94力场优化小分子结构与能量(halgren&nachbar,1996);鲜味判断模型中蛋白质受体为t1r1/t1r3-vft,其结构由trrosetta根据蛋白序列进行生成(yang,anishchenko,park,peng,ovchinnikov,&baker,2020)。对接的中心位置选择如下:center-x=87.77,center-y=45.93,center-z=96.48),对接盒子的大小如下:size-x=120,size-y=120,size-z=120,且每组对接产生20个构象。对接的逼近度(exhaustiveness)设置为80,且每组对接产生20个构象。smina作为对接软件(masters,eagon,&heying,2020)。蛋白质配体交互分析工具(protein-ligand interactionprofiler,plip)进行分析,将蛋白质和肽的作用力分为疏水相互作用(hydrophobicinteractions,下文简写hi),氢键相互作用(hydrogen bonds,下文简写hdb),∏-堆叠(pi-stacking,下文简写psp),富电子∏-邻近体系阳离子相互租用(pi-cation interactions,下文简写pcp),卤键相互作用(halogen bonds,下文简写hb)和盐桥相互作用(saltbridges,下文简写sb)等六类,与氨基酸序列进行交叉生成排列组和。经过模型特征筛选,最终确定tpdm-umami模型的在分子对接参数中特征如下:hi_a_2_leu,hi_a_3_leu,hi_a_108_asp,hi_a_154_thr,hi_a_157_ala,hi_a_158_leu,hi_a_161_pro,hi_a_163_leu,hi_a_179_lys,hi_a_181_gln,hi_a_182_tyr,hi_a_183_pro,hi_a_218_asp,hi_a_246_pro,hi_a_419_trp,hi_b_19_thr,hi_b_56_arg,hi_b_57_pro,hi_b_106_pro,hi_b_107_val,hi_b_152_val,hi_b_155_lys,hi_b_156_phe,hi_b_179_thr,hi_b_
245_leu,hdb_a_48_ser,hdb_a_50_cys,hdb_a_52_gln,hdb_a_107_ser,hdb_a_109_ser,hdb_a_148_ser,hdb_a_150_asn,hdb_a_151_arg,hdb_a_161_pro,hdb_a_217_ser,hdb_a_218_asp,hdb_a_219_asp,hdb_a_222_gln,hdb_a_247_phe,hdb_a_248_ser,hdb_a_249_ala,hdb_a_276_ser,hdb_a_278_gln,hdb_b_15_leu,hdb_b_17_pro,hdb_b_56_arg,hdb_b_57_pro,hdb_b_58_ser,hdb_b_146_ser,hdb_b_148_glu,hdb_b_155_lys,hdb_b_178_glu,hdb_b_179_thr,hdb_b_215_asp,hdb_b_217_glu,hdb_b_221_gln,psp_a_247_phe,sb_a_151_arg,sb_b_155_lys,sb_b_220_arg,sb_b_247_arg,sb_b_252_arg,对接分数。tpdm-bitter模型的在分子对接参数中特征如下:hi_a_79_glu,hi_a_82_phe,hi_a_85_leu,hi_a_89_trp,hi_a_152_ile,hi_a_156_ile,hi_a_159_tyr,hi_a_172_phe,hi_a_175_phe,hi_a_266_gln,hdb_a_69_ser,hdb_a_79_glu,hdb_a_85_leu,hdb_a_86_thr,hdb_a_159_tyr,hdb_a_176_ser,hdb_a_180_val,hdb_a_254_ser,hdb_a_266_gln,psp_a_76_phe,psp_a_89_trp,psp_a_159_tyr,psp_a_172_phe,psp_a_247_phe,对接分数。
69.蛋白的序列如下:
70.t1r1的vft区域序列
71.》sp|q7rtx1|ts1r1_human taste receptor type 1member 1os=homo sapiens ox=9606gn=tas1r1 pe=2sv=1mllctarlvglqllisccwafachstesspdftlpgdyllaglfp
72.lhsgclqvrhrpevt
73.lcdrscsfnehgyhlfqamrlgveeinnstallpnitlgyqlyd
74.vcsdsanvyatlrvls
75.lpgqhhielqgdllhysptvlavigpdstnraattaallspflvp
76.misyaassetlsvkr
77.qypsflrtipndkyqvetmvlllqkfgwtwislvgssddygql
78.gvqalenqatgqgicia
79.fkdimpfsaqvgdermqclmrhlaqagatvvvvfssrqlarvf
80.fesvvltnltgkvwvas
81.eawalsrhitgvpgiqrigmvlgvaiqkravpglkafeeayara
82.dkkaprpchkgswcss
83.nqlcrecqafmahtmpklkafsmssaynayravyavahglhq
84.llgcasgacsrgrvypwq
85.lleqihkvhfllhkdtvafndnrdplssyniiawdwngpkwtft
86.vlgsstwspvqlnine
87.tkiqwhgkdnqvpksvcssdcleghqrvvtgfhhccfecvpcg
88.agtflnksdlyrcqpcg
89.keewapegsqtcfprtvvflalrehtswvllaantlllllllgt
90.aglfawhldtpvvrsa
91.ggrlcflmlgslaagsgslygffgeptrpacllrqalfalgftif
92.lscltvrsfqliiif
93.kfstkvptfyhawvqnhgaglfvmissaaqllicltwlvvwtp
94.lpareyqrfphlvmlec
95.tetnslgfilaflyngllsisafacsylgkdlpenyneakcvtfs
96.llfnfvswiafftta
97.svydgkylpaanmmaglsslssgfggyflpkcyvilcrpdlnstehfqasiqdytrrcgs tt1r3的vft区域序列
98.》sp|q7rtx0|ts1r3_human taste receptor type 1member 3os=homo sapiens ox=9606gn=tas1r3 pe=1sv=2mlgpavlglslwallhpgtgaplclsqqlrmkgdyvlgglfpl
99.geaeeaglrsrtrpssp
100.vctrfssngllwalamkmaveeinnksdllpglrlgydlfdtc
101.sepvvamkpslmflaka
102.gsrdiaaycnytqyqprvlavigphsselamvtgkffsfflmpq
103.vsygasmellsaretf
104.psffrtvpsdrvqltaaaellqefgwnwvaalgsddeygrqgl
105.sifsalaaargiciahe
106.glvplpraddsrlgkvqdvlhqvnqssvqvvllfasvhaahalfnysissrlspkvwvas
107.eawltsdlvmglpgmaqmgtvlgflqrgaqlhefpqyvkthlalatdpafcsalgereqg
108.leedvvgqrcpqcdcitlqnvsaglnhhqtfsvyaavysvaqalhntlqcnasgcpaqdp
109.vkpwqllenmynltfhvgglplrfdssgnvdmeydlklwvwqgsvprlhdvgrfngslrt
110.erlkirwhtsdnqkpvsrcsrqcqegqvrrvkgfhsccydcvdceagsyrqnpddiactf
111.cgqdewsperstrcfrrrsrflawgepavlllllllslalglvlaalglfvhhrdsplvq
112.asggplacfglvclglvclsvllfpgqpsparclaqqplshlpltgclstlflqaaeifv
113.eselplswadrlsgclrgpwawlvvllamlvevalctwylvafppevvtdwhmlptealv
114.hcrtrswvsfglahatnatlaflcflgtflvrsqpgcynrargltfamlayfitwvsfvp
115.llanvqvvlrpavqmgalllcvlgilaafhlprcyllmrqpglntpefflgggpgdaqgq ndgntgnqgkhe
116.3)分子描述符由rdkit、molecular.descriptorcalculator模块生成的8个指标,包括bcut2d_mwlow、bcut2d_logphi、smr_vsa1、minestateindex、vsa_estate5、vsa_estate6、vsa_estate7、mollogp,分别简写为bm、pv14、sv、me、vs5、vs6、vs7、ml。d/e特征描述符主要专注于氨基酸的分布位置、数量等因素。描述符的定义如下表2所示。
117.表2特征值定义及计算模块一览表
[0118][0119]
表2中的参考文献如下:
[0120]
1.beno,b.r.;mason,j.s.,the design of combinatorial libraries using properties and 3d pharmacophore fingerprints.drug discovery today 2001,6(5),251-258.
[0121]
2.hall,l.h.;mohney,b.;kier,l.b.,the electrotopological state:an atom index for qsar.quantitative structure-activity relationships 1991,10(1),43-51.
[0122]
3.labute,p.,a widely applicable set of descriptors.j mol graphmodel 2000,18(4-5),464-77.
[0123]
4.wildman,s.a.;crippen,g.m.,prediction of physicochemicalparameters by atomic contributions.journal of chemical informationand computer sciences 1999,39(5),868-873.
[0124]

分析模型判断子模块;该模块负责将分子表征模块统计得到的数据依次送入对应模型中进行建模。数据矩阵与对应的子模型构建关系如附图1中绿色箭头所述。
[0125]

svm集成学习模型判断模块:将所有子模型输出结果(判断类别和预测的置信可能性)作为输入数据,代入svm模型中进行二次建模,最后得出统一的模型输出结果。
[0126]
进一步的,该模型的研究步骤如附图2所示。首先,数据集被随机分为训练集和测试集。然后使用各种分子表征方案将数据转换为相应的数字形式。使用特征训练数据的三重交叉验证来找到每个分类器的最佳超参数。应用了包括梯度提升(gtb)、lr、rf、gnb、随机梯度下降(sgd)在内的多种分类算法,并结合了四种分子表征方案。最终,选择了七个最佳子分类器。每个分类器的超参数都是唯一且独立的,以确保它们的特异性和预测能力。tpdm所提出的模型是使用基于svm算法的集成学习方法构建的。
[0127]
进一步的,本发明中鲜味肽筛选模型中所有子模型的参数如下:
[0128]
1)分子指纹特征数据
[0129]
tpdm在分子指纹方面采用逻辑回归算法,逻辑回归的模型经过网格搜索其超参数如下:惩罚函数是l2正则化(penalty='l2'),停止标准的容忍度为0.0001(tol=0.0001),将截距添加到决策函数中(fit_intercept=true),求解器选择牛顿联合cg共轭梯度法(solver=

newton-cg’),根据样本中类别的数量分配惩罚函数的权重(class_weight='balanced'),训练数据(也称为纪元)的最大传递次数为10000(max_iter=5000),训练过程中不调用之前的解作为初始化参数(warm_start=false)。梯度提升树模型经过网格搜索其超参数如下:criterion':'friedman_mse','loss':'exponential','max_features':'sqrt','n_estimators':50。使用指数形式构建损失函数(loss='exponential'),学习率为0.1(learning_rate=0.1),评估器要执行的增强阶段数为70(n_estimators=70),使用'friedman_mse'衡量体系的数据分割质量(default='friedman_mse'),分裂一个内部节点所需的最小样本数为2(min_samples_split=2),叶节点所需的最小样本数为1(min_samples_leaf=1),叶节点所需的(所有输入样本的)权重总和的最小加权分数为0(min_weight_fraction_leaf=0),单个回归估计器的最大深度为3(max_depth=3),寻找最佳分割时要考虑的特征数量为特征数量的开方(max_features='sqrt')。
[0130]
2)分子描述符特征数据
[0131]
tpdm在描述符方面采用逻辑回归和梯度提升树判别这两个子模型逻辑回归的模型经过网格搜索其超参数如下:惩罚函数是l2正则化(penalty='l2'),停止标准的容忍度为0.0001(tol=0.0001),将截距添加到决策函数中(fit_intercept=true),求解器选择牛顿联合cg共轭梯度法(solver=

newton-cg’),根据样本中类别的数量分配惩罚函数的权重(class_weight='balanced'),训练数据(也称为纪元)的最大传递次数为10000(max_iter=5000),训练过程中不调用之前的解作为初始化参数(warm_start=false)。
[0132]
梯度提升树模型经过网格搜索其超参数如下:criterion':'friedman_mse','loss':'exponential','max_features':'sqrt','n_estimators':50。使用指数形式构建损失函数(loss='exponential'),学习率为0.1(learning_rate=0.1),评估器要执行的增强阶段数为70(n_estimators=70),使用'friedman_mse'衡量体系的数据分割质量(default='friedman_mse'),分裂一个内部节点所需的最小样本数为2(min_samples_split=2),叶节点所需的最小样本数为1(min_samples_leaf=1),叶节点所需的(所有输入样本的)权重总和的最小加权分数为0(min_weight_fraction_leaf=0),单个回归估计器的最大深度为3(max_depth=3),寻找最佳分割时要考虑的特征数量为特征数量的开方
bitter,该模型训练集准确度为96.93%,auc值为0.99;测试集准确度91.84%,auc为0.92。总的来看,tpdm在acc、auc、rec、pre、mcc等指标方法中取得了优异的成绩。tpdm的混淆矩阵结果显示该模型对鲜味和苦味的判断能力相当。此外,训练集和测试集的acc和auc值相近,均大于0.9。集成模型通过整合众多“好而各异”的模型,可以实现对于高维数据空间的规律探索,从而提升性能。tpdm-umami、tpdm-bitter各个指标的性能几乎与子模型中最好的相当。
[0150]
表3鲜味判断模型间准确率和auc性能比较
[0151][0152]
表4苦味判断模型间准确率和auc性能比较
[0153][0154]
为了更好地比较滋味预测模型的可靠性,选择了几个有代表性的滋味预测模型进行比较,结果如附图7所示,从附图7中可以看出,在鲜味预测方面,tpdm与umami_yyds和umpred-frl(charoenkwan,p.;nantasenamat,c.;hasan,m.m.;moni,m.a.;manavalan,b.;shoombuatong,w.,umpred-frl:a new approach for accurate prediction of umami peptides using feature representation learning.international journal of molecular sciences 2021,22(23),13124.)的综合比较具有优势。umami_yyds是一个基于物理化学性质二维分子描述符的gtb模型,而tpdm的数据包括md数据、da和fp数据。因此,umami_yyds的性能不如tpdm。umami_yyds的rec值与tpdm相似,但其较高的acc和mcc也显示了集成模型相对于单个子模型的优势。虽然umpred-frl1也是一个集成模型,但其性能仍然低于tpdm。推测是因为该模型的子模型过多,且子模型性能一般(42个子模型的准确率低于
0.8),其训练数据质量(140:304)不如umami_peptidesdb(244:257)。在苦味预测中,tpdm仍然优于q-value,umami_yyds。q值判断是一种基于氨基酸评分矩阵的方法,广泛应用于苦味预测。然而,q值方法不如tpdm和umam_yyds,如附图7中(d)所示。tpdm从多种来源收集数据并全面描述蛋白质-配体数据以实现高性能,这与xiong等人总结的多层感知描述符方法(xiong,g.;shen,c.;yang,z.;jiang,d.;liu,s.;lu,a.;chen,x.;hou,t.;cao,d.,featurization strategies for protein

ligand interactions and their applications in scoring function development.wires computational molecular science 2022,12(2),e1567.)一致。
[0155]
(2)对于鲜味/苦味多滋味肽的准确判断
[0156]
tpdb中有31条鲜味/苦味-双重滋味肽(序列为dr、ad、ah、da、dl、eg、el、ey、ev、ge、le、lv、vd、ve、vg、vv、egf、geg、ggy、seek、rplgnc、deesla、tylpvh、paatipe、aglqfpvgr、eqleatvqkldesr、geneeedsgaivtvf、hv、ktglspdqf、ktdlnfenl、rlgsseveqvq),能否同时鉴别双重滋味肽的滋味特性对于模型也是一种考验。下表5汇总了这31条肽的在不同模型中的判断准确率。tpdm在鲜味和苦味的预测中都是最准确的模型,其中鲜味模型tpdm-umami的准确率是0.90,苦味模型tpdm-bitter的准确率是0.94。而umami_yyds、umpred-frl、q准确率仅为0.77、0.77、0.74。进一步划分双重滋味肽的来源分别评价可以发现,tpdm-umami的训练集准确度为0.92,测试集为0.83,两者差距较小,从另一个角度说明了模型没有过拟合。而别的模型其判断能力较低,准确性仍然没有超过80%。
[0157]
表5不同检测模型中鲜味/苦味肽的准确度总结
[0158][0159]
续表5
[0160][0161]
(3)选择未报道的鲜味肽经过人工感官验证模型的准确性
[0162]
本发明随机合成6个肽,进行滋味预测与验证,并将其与其他机器学习建模结果进行比较,结果如下表6所示。从表6可以看出,tpdm-umami、tpdm-bitter有着最佳的模型判断准确率。
[0163]
表6合成肽味道预测对照表
[0164][0165]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

技术特征:
1.一种鲜味肽筛选方法,其特征在于,包括以下步骤,s1:整理现有的鲜味肽数据,建立数据库;s2:基于现有的鲜味肽本身的结构碎片构建鲜味肽的分子指纹特征数据;s3:基于分子对接技术解析的鲜味肽与鲜味受体t1r1/t1r3相互作用方式构建分子间互作残基特征数据;s4:基于分子描述符,获得鲜味肽理化性质的分子描述符特征数据;s5:使用机器学习算法对步骤s2-s4中得到的数据分别建立鲜味肽筛选子模型;s6:使用支持向量机算法对鲜味肽筛选子模型进行集成,建立鲜味肽筛选模型;s7:利用步骤s6中建立的鲜味肽筛选模型对鲜味肽进行筛选。2.根据权利要求1所述的一种鲜味肽筛选方法,其特征在于:步骤s2中所述的分子指纹特征数据包括morgan148、322、428、509、598、650、805、952、1150、1409、1573、1687、1706、1907和2017。3.根据权利要求2所述的一种鲜味肽筛选方法,其特征在于:步骤s5中使用机器学习算法对步骤s2中得到的分子指纹特征数据建立的鲜味肽筛选子模型包括随机梯度下降判别模型模型、分子指纹特征数据逻辑回归模型、分子指纹特征数据梯度提升树模型和高斯分布朴素贝叶斯判别模型。4.根据权利要求1所述的一种鲜味肽筛选方法,其特征在于,步骤s3中所述的分子间互作残基特征数据包括:hi_a_2_leu,hi_a_3_leu,hi_a_108_asp,hi_a_154_thr,hi_a_157_ala,hi_a_158_leu,hi_a_161_pro,hi_a_163_leu,hi_a_179_lys,hi_a_181_gln,hi_a_182_tyr,hi_a_183_pro,hi_a_218_asp,hi_a_246_pro,hi_a_419_trp,hi_b_19_thr,hi_b_56_arg,hi_b_57_pro,hi_b_106_pro,hi_b_107_val,hi_b_152_val,hi_b_155_lys,hi_b_156_phe,hi_b_179_thr,hi_b_245_leu,hdb_a_48_ser,hdb_a_50_cys,hdb_a_52_gln,hdb_a_107_ser,hdb_a_109_ser,hdb_a_148_ser,hdb_a_150_asn,hdb_a_151_arg,hdb_a_161_pro,hdb_a_217_ser,hdb_a_218_asp,hdb_a_219_asp,hdb_a_222_gln,hdb_a_247_phe,hdb_a_248_ser,hdb_a_249_ala,hdb_a_276_ser,hdb_a_278_gln,hdb_b_15_leu,hdb_b_17_pro,hdb_b_56_arg,hdb_b_57_pro,hdb_b_58_ser,hdb_b_146_ser,hdb_b_148_glu,hdb_b_155_lys,hdb_b_178_glu,hdb_b_179_thr,hdb_b_215_asp,hdb_b_217_glu,hdb_b_221_gln,psp_a_247_phe,sb_a_151_arg,sb_b_155_lys,sb_b_220_arg,sb_b_247_arg,sb_b_252_arg的次数,若没有发生鲜味肽与鲜味受体t1r1/t1r3的交互,则对应的分子间互作残基特征数据为0;其中,a是t1r1蛋白,b是t1r3蛋白,hdb是氢键相互作用,hi是疏水相互作用,sb是盐桥,psp是∏-堆叠。5.根据权利要求4所述的一种鲜味肽筛选方法,其特征在于,步骤s5中使用机器学习算法对步骤s3中得到的分子间互作残基特征数据建立的鲜味肽筛选子模型为随机森林模型。6.根据权利要求1所述的一种鲜味肽筛选方法,其特征在于,步骤s4中所述的分子描述符特征数据包括bcut2d_mwlow、bcut2d_logphi、smr_vsa1、minestateindex、vsa_estate5、vsa_estate6、vsa_estate7、mollogp、肽序列中d出现的次数、肽序列中e出现的次数、肽序列中d、e出现的次数和、d在肽序列中第一次出现的位置、e在肽序列中第一次出现的位置;若肽序列同时包括d、e,则对应的分子描述符特征数据为1。7.根据权利要求1所述的一种鲜味肽筛选方法,其特征在于,步骤s5中使用机器学习算
法对步骤s4中得到的分子描述符特征数据建立的鲜味肽筛选子模型包括分子描述符特征数据逻辑回归模型和分子描述符特征数据梯度提升树模型。8.一种鲜味肽筛选模型,包含如权利要求1~7任意一项所述的鲜味肽筛选方法。9.一种鲜味肽筛选模型,其特征在于,所述筛选模型包括前往网页展示系统和后端计算与分析系统,所述后端计算与分析系统在进行数据计算和分析时采用所述鲜味肽筛选方法。

技术总结
本发明公开了一种鲜味肽筛选方法及筛选模型,所述筛选方法包括以下步骤,S1:整理现有的鲜味肽数据,建立数据库;S2:基于现有的鲜味肽本身的结构碎片构建鲜味肽的分子指纹特征数据;S3:基于分子对接技术解析的鲜味肽与鲜味受体T1R1/T1R3相互作用方式构建分子间互作残基特征数据;S4:基于分子描述符,获得鲜味肽理化性质的分子描述符特征数据;S5:使用机器学习算法对步骤S2-S4中得到的数据分别建立鲜味肽筛选子模型;S6:使用支持向量机算法对三个鲜味肽筛选子模型进行集成,建立鲜味肽筛选模型;S7:利用步骤S6中建立的鲜味肽筛选模型对鲜味肽进行筛选。本发明中的筛选方法能够对鲜味肽进行快速,精确的筛选,且该筛选方法可重复使用。重复使用。重复使用。


技术研发人员:王文利 崔智勇 刘源 姜水 孟恒立
受保护的技术使用者:上海交通大学
技术研发日:2022.11.30
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐