一种基于质谱法检测HCP的数据分析方法及系统与流程

未命名 07-23 阅读:130 评论:0

一种基于质谱法检测hcp的数据分析方法及系统
技术领域
1.本发明涉及生物检测技术领域,具体涉及一种基于质谱法检测hcp的数据分析方法及系统。


背景技术:

2.在生物制药的过程当中,需要去除来源于构成复杂的宿主细胞的宿主细胞蛋白(host cell proteins,hcp),因为一些hcp可能引起患者严重的免疫反应,另外还有一些hcp会使药物中的成分降解或者聚集,进而影响药物的稳定性、安全性以及药效。因此药物中残留hcp的种类和含量的检测成为生物制药关注的重点。
3.常见的hcp检测方法为酶联免疫吸附试验(enzyme-linked immunesorbent assays,elisas),此方法需要针对检测宿主细胞开发特定的检测试剂盒,但是elisas法存在无法覆盖宿主的全部蛋白、无法准确定量以及无法获知具体的hcp蛋白信息等的劣势,因此急需开发新的检测方法。基于lc-ms/ms的蛋白质组学平台测量hcp含量的方法,具有高通量、无偏检测以及定量准确等的优点,逐渐成为hcp检测不可或缺的技术手段。质谱法依赖于稳定的质谱平台以及专业的数据分析,才能得到可靠的定量结果。而lc-ms/ms的蛋白质组学方法使用数据依赖性采集(data-dependent acquisition,dda)的模式进行数据采集,流程相对比较固定。通过质谱数据结果数据库匹配和色谱峰提取,得到hcp蛋白的鉴定信息以及强度信息,并根据加入的标准蛋白(standard protein,std)的含量计算出hcp的绝对含量。hcp的含量一般使用ppm表示,1ppm的含义为1mg的生物制品中含有总量1ng的hcp。
4.目前对hcp含量的计算主要采用人工的方式,由于hcp含量计算过程工作重复,文件数量繁多,耗时极长,因此存在计算效率低下以及容易造成人为错误的问题,另外后续对多个样品的hcp含量进行统计分析时,过程同样繁琐,从而进一步降低计算效率以及提高出错风险。


技术实现要素:

5.为了克服现有技术的不足,本发明提供一种基于质谱法检测hcp的数据分析方法及系统,用于解决现有采用人工的方式对hcp含量进行计算和统计分析,导致计算效率低下以及存在较高出错风险的技术问题,从而使得hcp含量的计算、统计分析效率有所提升并降低了出错风险。
6.为解决上述问题,本发明所采用的技术方案如下:
7.一种基于质谱法检测hcp的数据分析方法,包括以下步骤:
8.根据分析需求输入指定信息,根据所述指定信息判断样品中是否存在高风险的hcp,若是,则确定所述hcp的高风险类型并进行标注;
9.通过所述指定信息找到内标蛋白,利用所述内标蛋白得到hcp相关信息;
10.在所述hcp相关信息中删除缺失值过多的蛋白,生成hcp表格;
11.将所述hcp表格中的数据按照不同的肽段预设条件进行筛选,生成对应的肽段子
表格;
12.整合所述肽段子表格得到所有计算结果表格,根据所述所有计算结果表格中的数据生成不同类型的子表格,同时通过作图将所述所有计算结果表格中的数据进行展示。
13.作为本发明优选的实施方式,在根据分析需求输入指定信息时,包括:
14.通过输入分析指令约束分析得出的结果;
15.通过输入单个样品搜库原始文件提供样品的hcp鉴定结果和hcp定量结果;
16.通过输入高风险hcp数据库提供高风险蛋白信息,并根据所述高风险蛋白信息对高风险的hcp进行标注;
17.通过输入样本信息excel文件提供样品名、样品是否需要添加合并搜库信息以及样品分组信息;
18.其中,所述得出的结果包括样品中hcp蛋白摩尔量理论值、std内标的蛋白名称以及每剂次药物含量,所述高风险蛋白信息包括蛋白名称、蛋白描述以及蛋白的高风险影响类型信息。
19.作为本发明优选的实施方式,在根据分析需求输入指定信息时,还包括:
20.通过输入高风险hcp数据库提供额外补充信息;
21.通过输入样品合并搜库结果原始文件提供多个样品采集到的数据;
22.其中,所述额外补充信息包括基因名和信息来源。
23.作为本发明优选的实施方式,在将所述hcp表格中的数据按照不同的肽段预设条件进行筛选时,包括:
24.筛选并生成不重复肽段大于等于1的hcp的第一肽段子表格;
25.筛选并生成不重复肽段大于等于2的std内标的第二肽段子表格;
26.筛选并生成不重复肽段大于等于2的hcp的第三肽段子表格。
27.作为本发明优选的实施方式,在根据所述所有计算结果表格中的数据生成不同类型的子表格时,包括:
28.根据所述所有计算结果表格中的数据生成所有std结果整合表格;
29.根据所述所有计算结果表格中的数据生成所有高风险种类总表;
30.根据所述所有计算结果表格中的数据生成所有检测到的hcp和所有样品整合表格;
31.根据所述所有计算结果表格中的数据生成每种高风险详情表。
32.作为本发明优选的实施方式,在通过作图将所述所有计算结果表格中的数据进行展示时,包括:
33.根据所述所有计算结果表格中的数据,生成每种高风险类型下所有样品高风险个数和数值柱状图;
34.根据所述所有计算结果表格中的数据,生成每个样品高风险hcp个数堆积图;
35.根据所述所有计算结果表格中的数据,并将每个样品作为一个点,生成所有样品hcp数量和hcp数值散点图。
36.作为本发明优选的实施方式,在通过作图将所述所有计算结果表格中的数据进行展示时,包括:
37.根据所述所有计算结果表格中的数据,将每个样品中的每个hcp作为一个点,生成
组内所有样品相对丰度的散点图;
38.根据所述所有计算结果表格中的数据,生成基于相对丰度排序的散点图;
39.根据所述所有计算结果表格中的数据,生成upset图。
40.作为本发明优选的实施方式,在利用所述内标蛋白得到hcp相关信息时,包括:
41.利用所述内标蛋白得到hcp蛋白摩尔量,再根据所述hcp蛋白摩尔量得到hcp蛋白摩尔量平均值、第一hcp含量以及第二hcp含量;
42.根据所述第一hcp含量和所述第二hcp含量得到第一hcp含量平均值和第二hcp含量平均值;
43.通过对hcp蛋白摩尔量、第一hcp含量以及第二hcp含量进行相对标准偏差分析,得到hcp蛋白摩尔量rsd值、第一hcp含量rsd值以及第二hcp含量rsd值;
44.其中,所述第一hcp含量和所述第一hcp含量平均值的单位为ppm,所述第二hcp含量和所述第二hcp含量平均值的单位为μmol/mol。
45.作为本发明优选的实施方式,在利用所述内标蛋白得到hcp相关信息时,还包括:
46.根据所述内标蛋白对应的肽段强度得到所述hcp蛋白摩尔量,具体如公式1所示:
[0047][0048]
根据所述hcp蛋白摩尔量得到所述hcp蛋白摩尔量平均值、所述第一hcp含量以及所述第二hcp含量,具体如公式2、公式3以及公式4所示:
[0049][0050][0051][0052]
根据所述第一hcp含量和所述第二hcp含量得到第一hcp含量平均值和第二hcp含量平均值,具体如公式5和公式6所示:
[0053][0054][0055]
式中,m为技术重复次数。
[0056]
一种基于质谱法检测hcp的数据分析系统,包括:
[0057]
数据输入模块:用于根据分析需求输入指定信息;
[0058]
hcp数据计算整合模块:用于根据所述指定信息判断样品中是否存在高风险的hcp,若是,则确定所述hcp的高风险类型并进行标注;通过所述指定信息找到内标蛋白,利用所述内标蛋白得到hcp相关信息;在所述hcp相关信息中删除缺失值过多的蛋白,生成hcp
表格;将所述hcp表格中的数据按照不同的肽段预设条件进行筛选,生成对应的肽段子表格;整合所述肽段子表格得到所有计算结果表格,根据所述所有计算结果表格中的数据生成不同类型的子表格;
[0059]
作图模块:用于通过作图将所述所有计算结果表格中的数据进行展示。
[0060]
相比现有技术,本发明的有益效果在于:
[0061]
(1)本发明采用模块化流程架构,根据输入的参数和蛋白质组学搜库软件proteome discoverer 2.5得到的蛋白定量数据,定制化数据分析,实现从表格到作图的一体化自动分析,同步保存已有结果,实现hcp检测的快速、准确的报告输出,满足日益增长的hcp定量分析需求;
[0062]
(2)在本发明中,若运行中的模块被终止,可确保已完成的模块产生的数据不丢失,另外根据业务需求可灵活添加新的分析模块或在现有模块中增加额外的图表;
[0063]
(3)本发明减少了人工处理hcp数据所花的大量时间,避免了出现的计算失误,可以即时得到仪器检测结果的分析数据,有利于在药物研发过程中对比不同制药工艺和纯化手法对hcp的去除效果,缩短了药物研发时间,并通过丰富的作图展现形式,使得分析人员可更直观地理解和比较excel表格中的数据分析结果。
[0064]
下面结合附图和具体实施方式对本发明作进一步详细说明。
附图说明
[0065]
图1-是本发明实施例的基于质谱法检测hcp的数据分析方法步骤图;
[0066]
图2-是本发明实施例的hcp分析流程示意图;
[0067]
图3-是本发明实施例的某高风险类型hcp个数柱状图;
[0068]
图4-是本发明实施例的某高风险类型hcp含量柱状图;
[0069]
图5-是本发明实施例的样品中检测到的hcp个数柱状图;
[0070]
图6-是本发明实施例的样品中检测到的hcp含量柱状图;
[0071]
图7-是本发明实施例的样品中所有高风险类型hcp个数堆积图;
[0072]
图8-是本发明实施例的样品中所有高风险类型hcp含量堆积图;
[0073]
图9-是本发明实施例的所有样品hcp数量和hcp数值散点图;
[0074]
图10-是本发明实施例的基于分组的散点图;
[0075]
图11-是本发明实施例的基于相对丰度排序的散点图;
[0076]
图12-是本发明实施例的upset图。
具体实施方式
[0077]
本发明所提供的基于质谱法检测hcp的数据分析方法,如图1所示,包括以下步骤:
[0078]
步骤s1:根据分析需求输入指定信息,根据指定信息判断样品中是否存在高风险的hcp,若是,则确定hcp的高风险类型并进行标注;
[0079]
步骤s2:通过指定信息找到内标蛋白,利用内标蛋白得到hcp相关信息;
[0080]
步骤s3:在hcp相关信息中删除缺失值过多的蛋白,生成hcp表格;
[0081]
步骤s4:将hcp表格中的数据按照不同的肽段预设条件进行筛选,生成对应的肽段子表格;
[0082]
步骤s5:整合肽段子表格得到所有计算结果表格,根据所有计算结果表格中的数据生成不同类型的子表格,同时通过作图将所有计算结果表格中的数据进行展示。
[0083]
在上述步骤s1中,在根据分析需求输入指定信息时,包括:
[0084]
通过输入分析指令约束分析得出的结果;
[0085]
通过输入单个样品搜库原始文件提供样品的hcp鉴定结果和hcp定量结果;
[0086]
通过输入高风险hcp数据库提供高风险蛋白信息,并根据高风险蛋白信息对高风险的hcp进行标注;
[0087]
通过输入样本信息excel文件提供样品名、样品是否需要添加合并搜库信息以及样品分组信息;
[0088]
其中,得出的结果包括样品中hcp蛋白摩尔量理论值、std内标的蛋白名称以及每剂次药物含量,高风险蛋白信息包括蛋白名称、蛋白描述以及蛋白的高风险影响类型信息。
[0089]
具体地,分析指令用来约束分析得出的结果,包括样品中hcp蛋白摩尔量理论值(pmol)、std内标的蛋白名称(uniprot protein accession)以及每剂次药物含量。
[0090]
单个样品搜库原始文件含有具体hcp的鉴定和定量结果,数据来自搜库软件(proteome discoverer 2.5)。
[0091]
高风险hcp数据库中必须包括蛋白名称、蛋白描述、蛋白(protein accession)以及该蛋白的高风险影响类型信息。
[0092]
在上述步骤s1中,在根据分析需求输入指定信息时,还包括:
[0093]
通过输入高风险hcp数据库提供额外补充信息;
[0094]
通过输入样品合并搜库结果原始文件提供多个样品采集到的数据;
[0095]
其中,额外补充信息包括基因名和信息来源。
[0096]
具体地,高风险hcp数据库中也可包含有额外补充信息,例如基因名以及信息来源(参考文献名)等辅助信息。高风险hcp数据库用于检查样品中是否存在高风险hcp数据库中的蛋白,如果存在,则在输出文件中额外标注该蛋白所属的高风险类型。本发明通过对高风险的hcp进行标注,让分析人员快速评估生产的生物制品中有无高风险成分。样本信息excel文件中每行为样品名,并且包含有该样品是否需要添加合并搜库信息以及该样品分组信息。
[0097]
样品合并搜库结果原始文件为非必须的指定信息,数据来自搜库软件(prote ome discoverer 2.5)。如果待检测样品有多个时,除单个样品的搜库原始文件外,还会输入样品合并搜库结果原始文件。样品合并搜库结果原始文件是指将多个样品采集到的数据文件一起进行搜库软件(proteome discoverer 2.5)分析。由于单针dda数据采集的随机性,极低丰度的hcp肽段无法鉴定到,在合并多针dda数据时,proteome discoverer2.5软件会根据肽段的一级质量数和保留时间在多个样品间进行匹配,提高极低丰度的检出率。本发明通过对样品合并搜库结果原始文件计算hcp的ppm,大大提高检测的灵敏度,实验样品中可以检测到低于1ppm甚至低于0.1ppm的hcp,提示hcp存在的可能性。
[0098]
在上述步骤s4中,如图2所示,在将hcp表格中的数据按照不同的肽段预设条件进行筛选时,包括:
[0099]
筛选并生成不重复肽段大于等于1的hcp的第一肽段子表格;
[0100]
筛选并生成不重复肽段大于等于2的std内标的第二肽段子表格;
[0101]
筛选并生成不重复肽段大于等于2的hcp的第三肽段子表格。
[0102]
在上述步骤s5中,如图2所示,在根据所有计算结果表格中的数据生成不同类型的子表格时,包括:
[0103]
根据所有计算结果表格中的数据生成所有std结果整合表格;
[0104]
根据所有计算结果表格中的数据生成所有高风险种类总表;
[0105]
根据所有计算结果表格中的数据生成所有检测到的hcp和所有样品整合表格;
[0106]
根据所有计算结果表格中的数据生成每种高风险详情表。
[0107]
在上述步骤s5中,如图2所示,在通过作图将所有计算结果表格中的数据进行展示时,包括:
[0108]
根据所有计算结果表格中的数据,生成每种高风险类型下所有样品高风险个数和数值柱状图;
[0109]
根据所有计算结果表格中的数据,生成每个样品高风险hcp个数堆积图;
[0110]
根据所有计算结果表格中的数据,并将每个样品作为一个点,生成所有样品hcp数量和hcp数值散点图。
[0111]
具体地,柱状图:主要用作展示样本中单个高风险类型hcp的个数及具体数值以及检测到的全部hcp的个数和具体数值。图3为某高风险类型hcp个数柱状图,图中x轴为样品编号,y轴为样品中该高风险类型检测到的hcp数量。图4为某高风险类型hcp含量柱状图,图中x轴为样品编号,y轴为样品中该高风险类型检测到的hcp含量的总和。图5为样品中检测到的hcp个数柱状图,x轴为样品编号,y轴为样品中检测到的hcp数量。图6为样品中检测到的hcp含量柱状图,x轴为样品编号,y轴为样品中检测到的hcp含量的总和。
[0112]
堆积图:主要用作综合所有高风险类型,展示单个样品中不同高风险类型hcp个数及具体数值。图7为样品中所有高风险类型hcp个数堆积图,x轴为样品编号,y轴为样品中所有高风险类型检测到的蛋白数量。图8为样品中所有高风险类型hcp含量堆积图,x轴为样品编号,y轴为样品中所有高风险类型检测到的蛋白含量的总和。
[0113]
基于单个样品的散点图:以单个样本为一个点,用于展示单个样本的ppm值和hcp鉴定到的数量。图9为所有样品hcp数量和hcp数值散点图,x轴为单个样品中鉴定到的hcp个数,y轴为所有hcp含量的和。
[0114]
在上述步骤s5中,如图2所示,在通过作图将所有计算结果表格中的数据进行展示时,包括:
[0115]
根据所有计算结果表格中的数据,将每个样品中的每个hcp作为一个点,生成组内所有样品相对丰度的散点图;
[0116]
根据所有计算结果表格中的数据,生成基于相对丰度排序的散点图;
[0117]
根据所有计算结果表格中的数据,生成upset图。
[0118]
具体地,基于分组的散点图:以每个hcp为一个点,用于展示不同工艺得到的hcp含量对比。图10为基于分组的散点图,每个点是一个鉴定到的hcp,x轴为不同分组,y轴为该hcp含量。
[0119]
基于相对丰度排序的散点图:用于展示组内检测到的hcp值的范围、分布情况以及hcp个数。图11为基于相对丰度排序散点图,x轴为根据所有hcp含量的排序,y轴为hcp含量。
[0120]
upset图:用于展示单个样品中高风险hcp个数以及和其他样品中检测到的高风险
hcp重合情况,从而便于找到样品之间的差异以及得到不同纯化步骤的效果。图12为upset图,左侧彩色柱状图用于展示各个样品含有的高风险hcp数量,下方交集点用于展示各个样品之间存在交集的情况,点与点的连线与维恩图中圈和圈的重叠作用类似,上方柱状图代表了该交集中的具体数值。
[0121]
在上述步骤s2中,在利用内标蛋白得到hcp相关信息时,包括:
[0122]
利用内标蛋白得到hcp蛋白摩尔量,再根据hcp蛋白摩尔量得到hcp蛋白摩尔量平均值、第一hcp含量以及第二hcp含量;
[0123]
根据第一hcp含量和第二hcp含量得到第一hcp含量平均值和第二hcp含量平均值;
[0124]
通过对hcp蛋白摩尔量、第一hcp含量以及第二hcp含量进行相对标准偏差分析,得到hcp蛋白摩尔量rsd值、第一hcp含量rsd值以及第二hcp含量rsd值;
[0125]
其中,第一hcp含量和第一hcp含量平均值的单位为ppm,第二hcp含量和第二hcp含量平均值的单位为μmol/mol。
[0126]
在上述步骤s2中,在利用内标蛋白得到hcp相关信息时,还包括:
[0127]
根据内标蛋白对应的肽段强度得到hcp蛋白摩尔量,具体如公式1所示:
[0128][0129]
根据hcp蛋白摩尔量得到hcp蛋白摩尔量平均值、第一hcp含量以及第二hcp含量,具体如公式2、公式3以及公式4所示:
[0130][0131][0132][0133]
根据第一hcp含量和第二hcp含量得到第一hcp含量平均值和第二hcp含量平均值,具体如公式5和公式6所示:
[0134][0135][0136]
式中,m为技术重复次数。
[0137]
本发明所提供的基于质谱法检测hcp的数据分析系统,包括:数据输入模块、hcp数据计算整合模块以及作图模块。数据输入模块用于根据分析需求输入指定信息。hcp数据计算整合模块用于根据指定信息判断样品中是否存在高风险的hcp,若是,则确定hcp的高风险类型并进行标注;通过指定信息找到内标蛋白,利用内标蛋白得到hcp相关信息;在hcp相关信息中删除缺失值过多的蛋白,生成hcp表格;将hcp表格中的数据按照不同的肽段预设条件进行筛选,生成对应的肽段子表格;整合肽段子表格得到所有计算结果表格,根据所有
计算结果表格中的数据生成不同类型的子表格。作图模块用于通过作图将所有计算结果表格中的数据进行展示。
[0138]
具体地,本发明包括三大模块,按照数据分析流程顺序可分为数据输入模块、hcp数据计算整合模块以及作图模块。每个模块均可独立运行,后续模块提取前一个模块保存的输出文件,重新读取后进行下一步分析。
[0139]
数据输入模块用于根据分析需求输入指定信息,需要5类指定信息,分别为分析指令、单个样品搜库原始文件、高风险hcp数据库、样品合并搜库结果原始文件以及样本信息excel文件。其中,样品合并搜库结果原始文件为非必须的。
[0140]
hcp数据计算整合模块会根据公式计算出需要的数值,自动整合需要的信息,从而节约手动计算耗费的大量时间,减少重复工作,降低人为失误。
[0141]
相比现有技术,本发明的有益效果在于:
[0142]
(1)本发明采用模块化流程架构,根据输入的参数和蛋白质组学搜库软件proteome discoverer 2.5得到的蛋白定量数据,定制化数据分析,实现从表格到作图的一体化自动分析,同步保存已有结果,实现hcp检测的快速、准确的报告输出,满足日益增长的hcp定量分析需求;
[0143]
(2)在本发明中,若运行中的模块被终止,可确保已完成的模块产生的数据不丢失,另外根据业务需求可灵活添加新的分析模块或在现有模块中增加额外的图表;
[0144]
(3)本发明减少了人工处理hcp数据所花的大量时间,避免了出现的计算失误,可以即时得到仪器检测结果的分析数据,有利于在药物研发过程中对比不同制药工艺和纯化手法对hcp的去除效果,缩短了药物研发时间,并通过丰富的作图展现形式,使得分析人员可更直观地理解和比较excel表格中的数据分析结果。
[0145]
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

技术特征:
1.一种基于质谱法检测hcp的数据分析方法,其特征在于,包括以下步骤:根据分析需求输入指定信息,根据所述指定信息判断样品中是否存在高风险的hcp,若是,则确定所述hcp的高风险类型并进行标注;通过所述指定信息找到内标蛋白,利用所述内标蛋白得到hcp相关信息;在所述hcp相关信息中删除缺失值过多的蛋白,生成hcp表格;将所述hcp表格中的数据按照不同的肽段预设条件进行筛选,生成对应的肽段子表格;整合所述肽段子表格得到所有计算结果表格,根据所述所有计算结果表格中的数据生成不同类型的子表格,同时通过作图将所述所有计算结果表格中的数据进行展示。2.根据权利要求1所述的基于质谱法检测hcp的数据分析方法,其特征在于,在根据分析需求输入指定信息时,包括:通过输入分析指令约束分析得出的结果;通过输入单个样品搜库原始文件提供样品的hcp鉴定结果和hcp定量结果;通过输入高风险hcp数据库提供高风险蛋白信息,并根据所述高风险蛋白信息对高风险的hcp进行标注;通过输入样本信息excel文件提供样品名、样品是否需要添加合并搜库信息以及样品分组信息;其中,所述得出的结果包括样品中hcp蛋白摩尔量理论值、std内标的蛋白名称以及每剂次药物含量,所述高风险蛋白信息包括蛋白名称、蛋白描述以及蛋白的高风险影响类型信息。3.根据权利要求2所述的基于质谱法检测hcp的数据分析方法,其特征在于,在根据分析需求输入指定信息时,还包括:通过输入高风险hcp数据库提供额外补充信息;通过输入样品合并搜库结果原始文件提供多个样品采集到的数据;其中,所述额外补充信息包括基因名和信息来源。4.根据权利要求1所述的基于质谱法检测hcp的数据分析方法,其特征在于,在将所述hcp表格中的数据按照不同的肽段预设条件进行筛选时,包括:筛选并生成不重复肽段大于等于1的hcp的第一肽段子表格;筛选并生成不重复肽段大于等于2的std内标的第二肽段子表格;筛选并生成不重复肽段大于等于2的hcp的第三肽段子表格。5.根据权利要求1所述的基于质谱法检测hcp的数据分析方法,其特征在于,在根据所述所有计算结果表格中的数据生成不同类型的子表格时,包括:根据所述所有计算结果表格中的数据生成所有std结果整合表格;根据所述所有计算结果表格中的数据生成所有高风险种类总表;根据所述所有计算结果表格中的数据生成所有检测到的hcp和所有样品整合表格;根据所述所有计算结果表格中的数据生成每种高风险详情表。6.根据权利要求1所述的基于质谱法检测hcp的数据分析方法,其特征在于,在通过作图将所述所有计算结果表格中的数据进行展示时,包括:根据所述所有计算结果表格中的数据,生成每种高风险类型下所有样品高风险个数和数值柱状图;
根据所述所有计算结果表格中的数据,生成每个样品高风险hcp个数堆积图;根据所述所有计算结果表格中的数据,并将每个样品作为一个点,生成所有样品hcp数量和hcp数值散点图。7.根据权利要求1所述的基于质谱法检测hcp的数据分析方法,其特征在于,在通过作图将所述所有计算结果表格中的数据进行展示时,包括:根据所述所有计算结果表格中的数据,将每个样品中的每个hcp作为一个点,生成组内所有样品相对丰度的散点图;根据所述所有计算结果表格中的数据,生成基于相对丰度排序的散点图;根据所述所有计算结果表格中的数据,生成upset图。8.根据权利要求1所述的基于质谱法检测hcp的数据分析方法,其特征在于,在利用所述内标蛋白得到hcp相关信息时,包括:利用所述内标蛋白得到hcp蛋白摩尔量,再根据所述hcp蛋白摩尔量得到hcp蛋白摩尔量平均值、第一hcp含量以及第二hcp含量;根据所述第一hcp含量和所述第二hcp含量得到第一hcp含量平均值和第二hcp含量平均值;通过对hcp蛋白摩尔量、第一hcp含量以及第二hcp含量进行相对标准偏差分析,得到hcp蛋白摩尔量rsd值、第一hcp含量rsd值以及第二hcp含量rsd值;其中,所述第一hcp含量和所述第一hcp含量平均值的单位为ppm,所述第二hcp含量和所述第二hcp含量平均值的单位为μmol/mol。9.根据权利要求8所述的基于质谱法检测hcp的数据分析方法,其特征在于,在利用所述内标蛋白得到hcp相关信息时,还包括:根据所述内标蛋白对应的肽段强度得到所述hcp蛋白摩尔量,具体如公式1所示:根据所述hcp蛋白摩尔量得到所述hcp蛋白摩尔量平均值、所述第一hcp含量以及所述第二hcp含量,具体如公式2、公式3以及公式4所示:第二hcp含量,具体如公式2、公式3以及公式4所示:第二hcp含量,具体如公式2、公式3以及公式4所示:根据所述第一hcp含量和所述第二hcp含量得到第一hcp含量平均值和第二hcp含量平均值,具体如公式5和公式6所示:
式中,m为技术重复次数。10.一种基于质谱法检测hcp的数据分析系统,其特征在于,包括:数据输入模块:用于根据分析需求输入指定信息;hcp数据计算整合模块:用于根据所述指定信息判断样品中是否存在高风险的hcp,若是,则确定所述hcp的高风险类型并进行标注;通过所述指定信息找到内标蛋白,利用所述内标蛋白得到hcp相关信息;在所述hcp相关信息中删除缺失值过多的蛋白,生成hcp表格;将所述hcp表格中的数据按照不同的肽段预设条件进行筛选,生成对应的肽段子表格;整合所述肽段子表格得到所有计算结果表格,根据所述所有计算结果表格中的数据生成不同类型的子表格;作图模块:用于通过作图将所述所有计算结果表格中的数据进行展示。

技术总结
本发明公开了一种基于质谱法检测HCP的数据分析方法及系统,包括以下步骤:根据分析需求输入指定信息,根据指定信息判断样品中是否存在高风险的HCP,若是,则确定HCP的高风险类型并进行标注;通过指定信息找到内标蛋白,利用内标蛋白得到HCP相关信息;在HCP相关信息中删除缺失值过多的蛋白,生成HCP表格;将HCP表格中的数据按照不同的肽段预设条件进行筛选,生成对应的肽段子表格;整合肽段子表格得到所有计算结果表格,根据所有计算结果表格中的数据生成不同类型的子表格,同时通过作图将所有计算结果表格中的数据进行展示。本发明使得HCP含量的计算、统计分析效率有所提升并降低了出错风险。了出错风险。了出错风险。


技术研发人员:李妍 张伟 周岳 成晓亮
受保护的技术使用者:上海氨探生物科技有限公司 南京品生医学检验实验室有限公司
技术研发日:2023.03.15
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐