基于数据微调的深度质谱预测方法、系统、设备及介质
未命名
09-15
阅读:119
评论:0

1.本发明涉及蛋白质组学技术领域,尤其涉及一种基于数据微调的深度质谱预测方法、系统、设备及介质。
背景技术:
2.在蛋白质组学分析中,蛋白质的鉴定是至关重要的。从生物样本中鉴定出数量多且正确性高的蛋白质对于药物研制等都具有很重要的作用。在自下而上的蛋白质组学分析中,一般使用液相色谱-串联质谱法(lc-ms/ms)分析来自蛋白质的肽段。质谱与肽段的匹配过程对于肽段的鉴定和蛋白质的推断至关重要。标准的方法是数据库搜索,其中,如sequest、maxquant和mascot等质谱数据库搜索软件根据实验质谱和理论质谱的相似度,将肽段序列匹配到到ms/ms谱图中。为了避免不正确的肽谱匹配(psms),需要应用一个阈值来进行psms的筛选,并使用诱饵数据库来估计不正确的肽段与质谱的匹配结果的分布,并将阈值调整到用户需要的错误发现率(fdr)。目前数据库搜索软件大多不考虑碎片离子的强度,但是考虑碎片离子的强度信息可以加强对真实和随机匹配的分离,提高肽段与质谱的匹配结果鉴定的准确性。常用的质谱数据库搜索软件从概率模型的角度对理论的离子强度进行建模,对于鉴定中的假阳性缺乏很好的筛选功能(即错误的将不匹配肽段筛选进最后的结果中),但是由于缺少更好的质谱强度建模的方式,传统的数据库搜索软件依旧采取简单的建模方式。
3.近年来,国内外在预测片段离子强度方面做出了多种努力,特别是在ms/ms质谱预测中使用深度学习。这些工作极大地提高了质谱离子强度预测的准确性,从而提升了肽段的识别能力。具体来说,深度学习中的深度质谱生成模型多采用循环神经网络(rnn)作为其基础架构,将质谱离子强度的建模任务形式化成序列到序列的学习任务,从而进行从肽段的氨基酸序列到对应的ms/ms质谱离子强度的生成,所有这些工作都采用了训练-预测(train-prediction)范式,即利用标准数据集(如proteometools项目)中成对的肽段和质谱来训练预测模型。通过对已有的公开质谱数据进行筛选(比如肽段与质谱的匹配结果的andromeda得分必须高于100),可以得到用于训练深度质谱模型的监督数据对:肽段的氨基酸序列和其离子强度序列。一旦训练完成,深度质谱模型就被用于生成实验数据的理论光谱,而不考虑样本数据的特异性。这种方法虽然大大增加了数据依赖性采集数据中可靠识别的胰蛋白酶肽段和非胰蛋白酶肽段的数量。但是在面对实验特有的质谱数据或者特异性酶解的肽段时,依然存在由于训练数据未覆盖导致的泛化性问题,使得预测的性能下降。
技术实现要素:
4.本发明的目的是提供一种基于数据微调的深度质谱预测方法、系统、设备及介质,可以有效的缓解质谱预测的泛化性问题,保证了肽段的鉴定能力,并且扩展了深度质谱模型在质谱鉴定中的实际应用前景。
5.本发明的目的是通过以下技术方案实现的:
6.一种基于数据微调的深度质谱预测方法,包括:
7.对实验质谱肽段数据进行预处理,基于目标肽段和诱饵肽段的区别,构建出多组半监督数据,每一组半监督数据中包含所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果;每一组半监督数据划分为互不重叠的半监督训练数据和半监督预测数据;
8.利用每一组半监督数据中的半监督训练数据分别对深度质谱模型进行半监督微调,获得多个微调后的深度质谱模型;
9.将每一组半监督数据中的半监督预测数据输入至对应微调后的深度质谱模型,获得的所有微调后的深度质谱模型输出的相应半监督预测数据中肽段的预测质谱,作为集成预测结果。
10.一种基于数据微调的深度质谱预测系统,包括:
11.数据预处理单元,用于对实验质谱肽段数据进行预处理,基于目标肽段和诱饵肽段的区别,构建出多组半监督数据,每一组半监督数据中包含所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果;每一组半监督数据划分为互不重叠的半监督训练数据和半监督预测数据;
12.半监督微调单元,用于利用每一组半监督数据中的半监督训练数据分别对深度质谱模型进行半监督微调,获得多个微调后的深度质谱模型;
13.预测结果集成单元,用于将每一组半监督数据中的半监督预测数据输入至对应微调后的深度质谱模型,获得的所有微调后的深度质谱模型输出的相应半监督预测数据中肽段的预测质谱,作为集成预测结果。
14.一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
15.其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
16.一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
17.由上述本发明提供的技术方案可以看出,引入基于数据的微调的方案,采用质谱鉴定中的先验知识:目标肽段和诱饵肽段的区别,构建了半监督学习任务,在新的质谱实验数据上,可以动态的调整深度质谱模型,使其泛化到当下的质谱数据,弥补了深度质谱模型和当下实验质谱数据的差距,从而保证了肽段的识别能力,提升了肽段的鉴定数量。
附图说明
18.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
19.图1为本发明实施例提供的一种基于数据微调的深度质谱预测方法的流程图;
20.图2为本发明实施例提供的一种基于数据微调的深度质谱预测方法的示意图;
21.图3为本发明实施例提供的多种酶解下微调前后的肽段鉴定效果示意图;
22.图4为本发明实施例提供的不同方法间发现特异性变异抗体的对比示意图;
23.图5为本发明实施例提供的一种基于数据微调的深度质谱预测系统的示意图;
24.图6为本发明实施例提供的一种处理设备的示意图。
具体实施方式
25.下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
26.首先对本文中可能使用的术语进行如下说明:
27.术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
28.下面对本发明所提供的一种基于数据微调的深度质谱预测方法、系统、设备及介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
29.实施例一
30.本发明实施例提供一种基于数据微调的深度质谱预测方法,该方法将现有的train-prediction范式扩充为train-fine-tune-predict(训练-微调-预测,tfp)范式,如图1所示,主要包括如下步骤:
31.步骤1、对实验质谱肽段数据进行预处理,基于目标肽段和诱饵肽段的区别,构建出多组半监督数据。
32.本发明实施例中,每一组半监督数据中包含所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果(所有肽段与质谱的匹配结果)。每一组半监督数据中按照设定比例的划分为半监督训练数据和半监督预测数据,且半监督训练数据与半监督预测数据互不重叠。同时,不同组半监督数据中的半监督预测数据的合集即是所有肽段与质谱的匹配结果,且不同组半监督数据中的半监督预测数据互不重叠。
33.本步骤的优选实施方式如下:
34.(1)对实验质谱进行肽段匹配,并标记出所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果。
35.(2)设置多组半监督数据,每一组半监督数据包含所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果;在每一组半监督数据中,将肽段与质谱的匹配结果随机均匀的划分为两个部分进行交叉检验(k-fold),其中,所述的肽段与质谱的匹配结果包括:目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果;一部分的肽段与质谱的匹配结果构成一组半监督预测数据,用于相应微调模型的后续预测,另一部分构成半监督训练数据用于后续模型的半监督微调;每一组半监督数据中,半监督训练数据和半监督预测数据之间互不重叠,避免机器学习中的数据泄露,同时不同组的半监督的预测
数据数据互不重叠,且所有组的半监督预测数据构成肽段与质谱的匹配结果的全集。
36.本发明实施例中,所述设定比例可以由用户根据实际情况或者经验进行设定,本发明不做比例数值的限定。示例性的:设定比例可以为1:n-1,即半监督预测数据占1份,半监督训练数据占n-1份,n为划分的数据份数,它是大于等于2的整数。
37.(3)对每一组半监督数据均分别进行向量化处理;其中,对肽段进行独热编码,得到对应的编码向量,所述肽段包括:目标肽段和诱饵肽段;对质谱则提取出强度信息构成对应向量。
38.步骤2、利用每一组半监督数据中的半监督训练数据分别对深度质谱模型进行半监督微调,获得多个微调后的深度质谱模型。
39.本发明实施例中,利用每一组半监督数据中的半监督训练数据单独对深度质谱模型进行迭代的半监督微调,获得一个微调后的深度质谱模型,最终获得与半监督数据组数数目相同的微调后的深度质谱模型。
40.本发明实施例中,利用一组半监督数据中的半监督训练数据单独对深度质谱模型进行迭代的半监督微调的优选实施方式如下:将肽段与实验质谱的匹配结果中的质谱作为实际质谱,利用深度质谱模型对每一肽段的质谱进行预测,并计算预测质谱与对应实际质谱的相似度得分,根据相似度得分从半监督预测数据中筛选出若干肽段与质谱的匹配结果,为筛选出的所有肽段与质谱的匹配结果分别赋予伪标签值,利用伪标签值对深度质谱模型进行优化;其中,肽段包括:目标肽段和诱饵肽段。
41.本发明实施例中,所述利用深度质谱模型对每一肽段的质谱进行预测,并计算预测质谱与对应实际质谱的相似度得分包括:对于每一肽段,计算预测质谱与对应实际质谱的距离,利用计算出的距离确定相似度得分。
42.本发明实施例中,所述根据相似度得分从半监督训练数据中筛选出若干肽段与质谱的匹配结果包括:根据相似度得分进行错误发现率的估计,选出错误发现率估计结果超过设定阈值的若干肽段与质谱的匹配结果。
43.本发明实施例中,所述为筛选出的所有肽段与质谱的匹配结果分别赋予伪标签值,利用伪标签值对深度质谱模型进行优化包括:为筛选出的目标肽段与质谱的匹配结果赋予第一伪标签值,为筛选出的诱饵肽段与质谱的匹配结果赋予第二伪标签值;利用第一伪标签值与第二伪标签值对深度质谱模型进行优化,使深度质谱模型对筛选出的目标肽段的预测质谱与对应实际质谱的相似度得分向第一伪标签值靠近,以及使深度质谱模型对筛选出的诱饵肽段的预测质谱与对应实际质谱的相似度得分向第二伪标签值靠近。
44.步骤3、将每一组半监督数据中的半监督预测数据输入至对应微调后的深度质谱模型,获得的所有微调后的深度质谱模型输出的相应半监督预测数据中肽段的预测质谱,作为集成预测结果。
45.本发明实施例提供的上述方案可以应用到现有的蛋白质鉴定软件平台中,提升深度质谱预测的可靠性,增加蛋白质鉴定的数量;也可以在医学应用中使用,例如,用于特异性抗体的鉴定。当然,对于后续具体的应用方向本发明不做限定。
46.本发明实施例提供的上述方案,引入基于数据的微调的方案,采用质谱鉴定中的先验知识:目标肽段和诱饵肽段的区别,构建了半监督学习任务,在新的质谱实验数据上,可以动态的调整已有的深度质谱模型,使其更好的泛化到当下的质谱数据,弥补了深度质
谱模型和当下实验质谱数据的差距,从而保证了肽段的识别能力,并提升了肽段的鉴定数量。
47.为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。
48.一、质谱数据预处理。
49.1、使用通用的质谱数据库搜索软件(如maxquant)对原始质谱进行肽段匹配(下文简称psm),并标记目标肽段和诱饵肽段的匹配结果,并标记目标肽段与质谱的匹配结果,以及诱饵肽段与质谱的匹配结果。
50.2、设置多组半监督数据,每一组半监督数据包含所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果。为了防止肽段与质谱的匹配结果数据泄露,本发明对每一组半监督数据进行随机数据划分。在当下的做法中,随机均匀的划分肽段与质谱的匹配结果为互不重叠的两个部分,此处的肽段与质谱的匹配结果包括:所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果。互不重叠的两个部分构成半监督训练数据与半监督预测数据,其中的半监督训练数据可以构成下一步中微调一个深度质谱模型的数据集(半监督训练数据)。不同组半监督数据的半监督预测数据间不共享任意一个肽段与质谱的匹配结果。作为举例,可以设置两组半监督数据,但是,设置的组数可以扩展到任意多。
51.3、对每一组半监督数据中的肽段与质谱的匹配结果做向量化处理。对于肽段,使用one-hot(独热)编码对其中的氨基酸序列进行编码。对于质谱,依据其对应的肽段可能的裂解质荷比(m/z)从中提取出对应的强度信息构成向量,考虑裂解中b/y离子,以及1-3价的裂解电荷;其中,m为质量,z为指电荷,b与y是用于修饰离子的形容词,在肽段裂解时,会产生不同的情况:当电荷出现在肽段序列的开始时,是b离子,反之是y离子。此处的肽段与质谱的匹配结果是指所属组的半监督数据中包含的目标肽段与质谱的匹配结果,以及诱饵肽段与质谱的匹配结果。
52.预处理部分构建了多组半监督数据,并进行了随机的数据划分,然后处理为神经网络中可使用的向量化数据。
53.二、半监督微调。
54.上述预处理获得多组半监督数据,每一组中的半监督训练数据都用来单独对深度质谱模型进行半监督微调,得到对应的微调后的深度质谱模型。由于半监督微调过程是相同的,因此,下面以一组半监督数据中的半监督训练数据为例进行介绍。
55.本发明实施例中,对于深度质谱模型没有限制,使用现有深度质谱模型均可,通过半监督学习中的伪标签迭代更新。在第i轮的迭代中,根据当前的深度质谱预测模型输出的预测质谱,与半监督训练数据中的对应的质谱进行相似度得分计算。随后根据相似度得分计算进行错误发现率(fdr)的估计,筛选出高质量的肽段与质谱的匹配结果。筛选得到的高质量的肽段与质谱的匹配结果中,目标肽段与质谱的匹配结果被赋予伪标签为1,诱饵肽段与质谱的匹配结果被标记为-1,随后在筛选出的肽段与质谱的匹配结果上进行模型的微调。
56.1、相似度得分计算。
57.深度质谱模型输出的对肽段的质谱预测,可以根据该预测质谱和实际质谱(即半
监督数据中对应的质谱)进行相似性计算,进而预估半监督训练数据中肽段与质谱匹配结果的可靠性。该相似度得分可以被形式化为质谱向量间的距离。
58.示例性的,可以考虑两种可能的相似度指标:pearson correlation coefficient(pcc,皮尔逊相关系数),spectral angle(sa,光谱角)。计算方式分别为:
[0059][0060][0061]
其中,p为预测质谱的向量,为实际质谱的向量,代表对向量的均值正则化,|.|2代表对向量的l2正则化,t为转置符号。
[0062]
2、错误发现率估计与高质量的肽段与质谱的匹配结果的筛选。
[0063]
计算出相似度得分后,通过质谱鉴定中常用的错误发现率估计指标,从半监督训练数据中挑选出高质量的肽段与质谱的匹配结果,当中包含目标肽段与质谱的匹配结果和诱饵肽段与质谱的匹配结果。
[0064]
示例性的,可以选择1%fdr作为筛选阈值,筛选出fdr低于1%的肽段与质谱的匹配结果。
[0065]
3、模型微调。
[0066]
通过筛选后的目标肽段与质谱的匹配结果被赋予了第一伪标签值(例如,值为1),诱饵肽段与质谱的匹配结果被赋予了第二伪标签值(例如,值为-1),在第i次迭代中,通过优化目标肽段的预测质谱与实际质谱的相似度指标更加接近1,而诱饵肽段的预测质谱与实际质谱的相似度指标更加接近-1使得目标肽段的预测质谱与实验质谱更加相似,而诱饵肽段的预测质谱和实验质谱相差更大。
[0067]
示例性的,可以采用最小均方误差作为目标函数,批数据梯度下降作为深度质谱模型的优化算法。
[0068]
三、微调模型集成。
[0069]
通过多组半监督数据获得多个微调后的深度质谱模型后,通过交叉验证,使得微调后的深度质谱模型在半监督训练数据相对的半监督预测数据进行预测。进而将每组半监督预测数据的集成,获得所有半监督预测数据中肽段的预测质谱;同时,还可以结合半监督预测数据中肽段的实际质谱,进行相似性计算,以此评价微调后的深度质谱模型的性能。
[0070]
图2展示了本发明的示例,该示例中划分出两组半监督数据,训练获得两个微调后的深度质谱模型,但需要说明的是,本发明并不对微调模型的具体数目进行限制,用户可以根据实际情况或者经验扩展到3个或更多的微调模型上。
[0071]
本发明实施例提供的上述方案,建立了一种针对深度质谱模型的泛化性问题的解决范式,虽然引入深度学习到质谱鉴定中极大的改善其性能,但是面对多样的,跨实验室,物种和质谱仪器的实验质谱数据中,深度质谱模型存在着预测上的泛化性问题。本方法从范式的角度,提出了半监督微调的步骤,可以有效的缓解质谱预测的泛化性问题,并且扩展了深度质谱模型在质谱鉴定中的实际应用前景。
[0072]
为了验证结论,本发明使用了多样的质谱数据。在具有多种裂解酶质谱数据的bekker et al.数据集上进行了本发明的验证,其中深度质谱模型采用的是prosit2019,其
训练数据大多集中在trypsin酶解中,在其他酶解(如chymo蛋白酶)条件下,存在泛化性问题,通过本发明可以有效的提升肽段鉴定的数量,如图3所示,图3中四个部分的标题都是指不同的用于裂解蛋白质的蛋白酶,不同的蛋白酶产生的肽段序列差距较大通过蛋白酶这个变量来展示本发明的方法是如何可以缓解深度质谱模型的泛化性差的这个事实。
[0073]
进一步的,也可以将本发明应用到特异性免疫抗体的发现中,引入微调步骤可以发现几乎多一倍的特异性变异抗体,如图4所示,图4中的prosit即为前述的模型prosit2019,fine-tuned prosit即为通过本发明的方案进行半监督微调后的模型。
[0074]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0075]
实施例二
[0076]
本发明还提供一种基于数据微调的深度质谱预测系统,其主要用于实现前述实施例提供的方法,如图5所示,该系统主要包括:
[0077]
数据预处理单元,用于对实验质谱肽段数据进行预处理,基于目标肽段和诱饵肽段的区别,构建出多组半监督数据,每一组半监督数据中包含所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果;每一组半监督数据划分为互不重叠的半监督训练数据和半监督预测数据;
[0078]
半监督微调单元,用于利用每一组半监督数据中的半监督训练数据分别对深度质谱模型进行半监督微调,获得多个微调后的深度质谱模型;
[0079]
预测结果集成单元,用于将每一组半监督数据中的半监督预测数据输入至对应微调后的深度质谱模型,获得的所有微调后的深度质谱模型输出的相应半监督预测数据中肽段的预测质谱,作为集成预测结果。
[0080]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0081]
实施例三
[0082]
本发明还提供一种处理设备,如图6所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
[0083]
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
[0084]
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
[0085]
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
[0086]
输出设备可以为显示终端;
[0087]
存储器可以为随机存取存储器(random access memory,ram),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
[0088]
实施例四
[0089]
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
[0090]
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是u盘、移动硬盘、只读存储器(read-only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0091]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
技术特征:
1.一种基于数据微调的深度质谱预测方法,其特征在于,包括:对实验质谱肽段数据进行预处理,基于目标肽段和诱饵肽段的区别,构建出多组半监督数据,每一组半监督数据中包含所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果;每一组半监督数据划分为互不重叠的半监督训练数据和半监督预测数据;利用每一组半监督数据中的半监督训练数据分别对深度质谱模型进行半监督微调,获得多个微调后的深度质谱模型;将每一组半监督数据中的半监督预测数据输入至对应微调后的深度质谱模型,获得的所有微调后的深度质谱模型输出的相应半监督预测数据中肽段的预测质谱,作为集成预测结果。2.根据权利要求1所述的一种基于数据微调的深度质谱预测方法,其特征在于,所述对实验质谱肽段数据进行预处理,基于目标肽段和诱饵肽段的区别,构建出多组半监督数据包括:对实验质谱进行肽段匹配,并标记出所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果;设置多组半监督数据,在每一组半监督数据中,将所有肽段与质谱的匹配结果随机均匀的划分为两个部分,一部分构成一组半监督预测数据,另一部分构成半监督训练数据,每一组半监督数据中,半监督训练数据和半监督预测数据之间互不重叠;不同组半监督数据中的半监督预测数据的合集即为所有肽段与质谱的匹配结果,且不同组半监督数据中的半监督预测数据互不重叠;所述所有肽段与质谱的匹配结果包含所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果。3.根据权利要求1或2所述的一种基于数据微调的深度质谱预测方法,其特征在于,对实验质谱肽段数据进行预处理的过程中还包括:对每一组半监督数据均分别进行向量化处理;其中,对肽段进行独热编码,得到对应的编码向量,所述肽段包括:目标肽段和诱饵肽段;对质谱则提取出强度信息构成对应向量。4.根据权利要求1所述的一种基于数据微调的深度质谱预测方法,其特征在于,所述利用每一组半监督数据中的半监督训练数据分别对深度质谱模型进行半监督微调,获得多个微调后的深度质谱模型包括:利用一组半监督数据中的半监督训练数据单独对深度质谱模型进行迭代的半监督微调,获得一个微调后的深度质谱模型,最终获得与半监督数据组数数目相同的微调后的深度质谱模型;其中,利用一组半监督数据中的半监督训练数据单独对深度质谱模型进行迭代的半监督微调的方式包括:将肽段与质谱的匹配结果中的质谱作为实际质谱,利用深度质谱模型对每一肽段的质谱进行预测,并计算预测质谱与对应实际质谱的相似度得分,根据相似度得分从半监督训练数据中筛选出若干肽段与质谱的匹配结果,为筛选出的所有肽段与质谱的匹配结果分别赋予伪标签值,利用伪标签值对深度质谱模型进行优化;其中,肽段包括:目标肽段和诱饵肽段。5.根据权利要求4所述的一种基于数据微调的深度质谱预测方法,其特征在于,所述利用深度质谱模型对每一肽段的质谱进行预测,并计算预测质谱与对应实际质谱的相似度得
分包括:对于每一肽段,计算预测质谱与对应实际质谱的距离,利用计算出的距离确定相似度得分。6.根据权利要求4所述的一种基于数据微调的深度质谱预测方法,其特征在于,所述根据相似度得分从半监督训练数据中筛选出若干肽段与质谱的匹配结果包括:根据相似度得分进行错误发现率的估计,选出错误发现率估计结果超过设定阈值的若干肽段与质谱的匹配结果。7.根据权利要求4所述的一种基于数据微调的深度质谱预测方法,其特征在于,所述为筛选出的所有肽段与质谱的匹配结果分别赋予伪标签值,利用伪标签值对深度质谱模型进行优化包括:为筛选出的目标肽段与质谱的匹配结果赋予第一伪标签值,为筛选出的诱饵肽段与质谱的匹配结果赋予第二伪标签值;利用第一伪标签值与第二伪标签值对深度质谱模型进行优化,使深度质谱模型对筛选出的目标肽段的预测质谱与对应实际质谱的相似度得分向第一伪标签值靠近,以及使深度质谱模型对筛选出的诱饵肽段的预测质谱与对应实际质谱的相似度得分向第二伪标签值靠近。8.一种基于数据微调的深度质谱预测系统,其特征在于,包括:数据预处理单元,用于对实验质谱肽段数据进行预处理,基于目标肽段和诱饵肽段的区别,构建出多组半监督数据,每一组半监督数据中包含所有目标肽段与质谱的匹配结果,以及所有诱饵肽段与质谱的匹配结果;每一组半监督数据划分为互不重叠的半监督训练数据和半监督预测数据;半监督微调单元,用于利用每一组半监督数据中的半监督训练数据分别对深度质谱模型进行半监督微调,获得多个微调后的深度质谱模型;预测结果集成单元,用于将每一组半监督数据中的半监督预测数据输入至对应微调后的深度质谱模型,获得的所有微调后的深度质谱模型输出的相应半监督预测数据中肽段的预测质谱,作为集成预测结果。9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
技术总结
本发明公开了一种基于数据微调的深度质谱预测方法、系统、设备及介质,它们是一一对应的方案,方案中:引入基于数据的微调的方案,采用质谱鉴定中的先验知识:目标肽段和诱饵肽段的区别,构建了半监督学习任务,在新的质谱实验数据上,可以动态的调整深度质谱模型,使其泛化到当下的质谱数据,弥补了深度质谱模型和当下实验质谱数据的差距,从而保证了肽段的识别能力,提升了肽段的鉴定数量。提升了肽段的鉴定数量。提升了肽段的鉴定数量。
技术研发人员:叶坚白 冯福利 卢珊 何向南 吴枫 董梦秋
受保护的技术使用者:中国科学技术大学
技术研发日:2023.06.20
技术公布日:2023/9/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/