一种用于结直肠癌早期筛查的蛋白质标志物、试剂盒及应用的制作方法
未命名
09-16
阅读:116
评论:0

1.本发明属于癌症蛋白质组学检测技术领域,具体地,涉及一种用于结直肠癌早期筛查的蛋白质标志物、试剂盒及应用。
背景技术:
2.结直肠癌是全球癌症死亡的五大主要原因之一。在美国,结直肠癌的发病率排名第三,死亡率排名第二。同样,结直肠癌也成为严重影响我国国民健康的高发恶性肿瘤,其发病和死亡率在所有恶性肿瘤中排名前三位。结直肠癌患者低存活率的主要原因是对早期肠癌缺乏有效的早期诊断。大量的临床实践表明,在肿瘤发生早期(i期或者iia期)接受外科手术的患者五年存活率可达90%,而在晚期(iii期及iv期))接受手术的患者五年存活率不到10%。结直肠癌从癌前演变为扩散转移的恶性肿瘤往往历时10-15年,因此在癌细胞扩散转移前对其作出早期诊断对提高患者的生存率有着极为重要的意义。
3.临床上现有结直肠癌筛查的主要手段包括结直肠镜检、影像学检查、粪便隐血测试、dna检测、cea等蛋白质标志物检测等。这类常规技术由于其有创或产生辐射损伤,更为重要的是灵敏度不高,很难用于大规模风险人群的早期筛查,并且普通人群对于肠镜的耐受及接受度也较低。唯一应用于临床的无创检测手段为粪便隐血的化学和免疫学检测,但这类检测对结直肠癌在特异性86-95%的前提下灵敏度仅为61-79%,虽广泛应用于临床,但对早期结直肠癌的检出率难以满足临床需求。
4.近年来,液体活检技术迅猛发展,在一定程度上解决了传统检测技术灵敏度较低的问题。例如检测血浆中的septin9基因的甲基化产品(epi procolon),检测粪便中bmp3/ndrg4甲基化联合kras基因突变外加fit的早期结直肠癌筛查产品(cologuard),这些无创的新型筛查技术开创了结直肠癌早期诊断的新时代。然而,这些检测技术的灵敏度和特异性依然有很大的提升空间。例如,epi procolon检测有97.5%的特异性,但灵敏度只有79%,这会造成较大比例的漏诊。cologuard可以达到95.55%的灵敏度,但其特异性会降低至87.1%。同时提升灵敏度和特异性的将能更好的提升检测的准确度,尽可能减少了漏诊和误诊的概率。此外,例如cea检测的蛋白标志物,但其灵敏度和特异性更是有限。
5.近年来基于高分辨质谱仪的蛋白质组学极大提高检测准确性的同时也增加了检测的速度,逐渐适用于分析大规模临床样本的蛋白质组表达水平。经过多年的实践,业界普遍认为高灵敏度和高特异性的癌症早期筛查手段需要从单一的蛋白质标志物转向组合标志物。目前,临床上还没有基于蛋白标志物的结直肠癌的早期筛查诊断试剂盒。
技术实现要素:
6.为了解决上述技术问题中的至少一个,本发明采用的技术方案如下:
7.本发明第一方面提供一种用于结直肠癌预测、诊断或预后的蛋白标志物组合,所述蛋白标志物组合包括选自lrg1、serpina1、itih3、cp、orm1、c9、igfbp2、cndp1中的至少一种。itih3:间α胰蛋白酶抑制剂的重链h3,该复合物可通过其结合透明质酸的能力稳定细胞
外基质。该基因的多态性可能与精神分裂症和重度抑郁症的风险增加有关。
8.lrg1:归属于富含亮氨酸重复片段的蛋白家族,在蛋白-蛋白间相互作用,信号传导,细胞间黏附及发育过程中起重要作用。
9.c9:该蛋白是补体系统的最后一个组成部分,参与膜攻击复合物(mac)的形成。膜攻击复合物在先天和适应性免疫反应中起关键作用。
10.igfbp2:该蛋白可以结合胰岛素样生长因子i和ii(igf-i和igf-ii),分泌到血液中后可以更好的结合igf-i和igf-ii,在细胞内也能与不同的配体发生作用。igfbp2的高表达可以促进多种肿瘤的生长,并能对患者的预后进行预测。
11.cndp1:该蛋白是m20金属蛋白酶家族成员之一,在大脑中特异表达的同二聚二肽酶,基因中的编码区含有三核苷酸(ctg)重复序列。
12.serpina1:该蛋白是一种丝氨酸蛋白酶抑制剂,属于丝氨酸超家族,其作用靶点包括弹性蛋白酶、纤溶酶、凝血酶、胰蛋白酶、凝乳蛋白酶和纤溶酶原激活剂。该蛋白产生于肝脏、骨髓、淋巴组织中的淋巴细胞和单核细胞,以及肠道的潘氏细胞。已知报道,该基因的缺陷与慢性阻塞性肺病、肺气肿和慢性肝病有关。
13.cp:该蛋白是一种金属蛋白,可以结合血浆中的大部分铜,并参与铁(ii)转铁蛋白到铁(iii)转铁蛋白的过氧化反应。该基因突变会导致急性纤溶酶血症,导致铁积累和组织损伤,并与糖尿病和神经异常有关。
14.orm1:该蛋白属于急性期血浆蛋白。在急性炎症反应时,表达量增加。该蛋白的具体功能未知,可能涉及到免疫抑制方面。
15.在本发明的一些实施方案中,所述蛋白标志物组合包括lrg1,还包括serpina1、itih3、cp、orm1、c9、igfbp2和cndp1中的至少一种。
16.在本发明的另一些实施方案中,所述蛋白标志物组合包括c9,还包括lrg1、serpina1、itih3、cp、orm1、igfbp2和cndp1中的至少一种。
17.在本发明的一些具体实施方案中,所述蛋白标志物组合包括itih3、lrg1、c9、igfbp2和cndp1。
18.在本发明的一些具体实施方案中,所述蛋白标志物组合包括cp、lrg1、c9、igfbp2和cndp1。
19.在本发明的一些具体实施方案中,所述蛋白标志物组合包括itih3、cp、lrg1、c9和cndp1。
20.在本发明的一些具体实施方案中,所述蛋白标志物组合包括serpina1、lrg1、c9、igfbp2和cndp1。
21.在本发明的一些具体实施方案中,所述蛋白标志物组合包括serpina1、cp、lrg1、c9和cndp1。
22.在本发明的一些具体实施方案中,所述蛋白标志物组合包括lrg1、orm1、c9、igfbp2和cndp1。
23.在本发明的一些具体实施方案中,所述蛋白标志物组合包括lrg1、serpina1、cp、orm1、c9和cndp1。
24.在本发明的一些具体实施方案中,所述蛋白标志物组合包括lrg1、serpina1、itih3、cp、c9和cndp1。
25.在本发明的一些具体实施方案中,所述蛋白标志物组合包括lrg1、serpina1、itih3、c9、igfbp2和cndp1。
26.在本发明的一些具体实施方案中,所述蛋白标志物组合包括serpina1、itih3、lrg1、c9、igfbp2和cndp1。
27.在本发明的一些具体实施方案中,所述蛋白标志物组合包括serpina1、itih3、lrg1、orm1、c9和cndp1。
28.在本发明中,通过检测蛋白标志组组合中各蛋白的表达水平,可以预测受试者是否具有患结直肠癌的风险,即,可以用于结直肠癌早筛;还可以诊断受试者是否患有结直肠癌,所述诊断可以是辅助诊断,由临床医生结合其他临床指标进行诊断;还可以评估患有结直肠癌的受试者接受治疗后的预后情况。
29.本发明第二方面提供一种用于结直肠癌预测、诊断或预后的多肽组合,其所述多肽组合包括来自本发明第一方面任一所述蛋白标志物组合中各蛋白的至少一个多肽。
30.任选地,来自c9的多肽包括seq id no.1或seq id no.2所示的氨基酸序列。
31.任选地,来自serpina1的多肽包括seq id no.3所示的氨基酸序列。
32.任选地,来自itih3的多肽包括seq id no.4所示的氨基酸序列。
33.任选地,来自cp的多肽包括seq id no.5所示的氨基酸序列。
34.任选地,来自lrg1的多肽包括seq id no.6或seq id no.7所示的氨基酸序列。
35.任选地,来自igfbp2的多肽包括seq id no.8所示的氨基酸序列。
36.任选地,来自kng1的多肽包括seq id no.9所示的氨基酸序列。
37.任选地,来自orm1的多肽包括seq id no.10所示的氨基酸序列。
38.任选地,来自prdx2的多肽包括seq id no.11所示的氨基酸序列。
39.任选地,来自cndp1的多肽包括seq id no.12所示的氨基酸序列。
40.本发明的第三方面提供本发明第一方面任一所述蛋白标志物组合的表达水平检测试剂在制备用于结直肠癌预测、诊断或预后的试剂盒中的应用。
41.在本发明的一些实施方案中,所述检测试剂基于质谱方法检测所述蛋白标志物组合中各蛋白的表达水平。
42.在本发明的一些具体实施方案中,通过检测所述蛋白标志物组合中各蛋白的一种或多种多肽的水平来检测所述蛋白标志物组合中各蛋白的表达水平。
43.任选地,来自c9的多肽包括seq id no.1或seq id no.2所示的氨基酸序列。
44.任选地,来自serpina1的多肽包括seq id no.3所示的氨基酸序列。
45.任选地,来自itih3的多肽包括seq id no.4所示的氨基酸序列。
46.任选地,来自cp的多肽包括seq id no.5所示的氨基酸序列。
47.任选地,来自lrg1的多肽包括seq id no.6或seq id no.7所示的氨基酸序列。
48.任选地,来自igfbp2的多肽包括seq id no.8所示的氨基酸序列。
49.任选地,来自kng1的多肽包括seq id no.9所示的氨基酸序列。
50.任选地,来自orm1的多肽包括seq id no.10所示的氨基酸序列。
51.任选地,来自prdx2的多肽包括seq id no.11所示的氨基酸序列。
52.任选地,来自cndp1的多肽包括seq id no.12所示的氨基酸序列。
53.本发明第四方面提供一种用于结直肠癌预测、诊断或预后的试剂盒,包括本发明
第一方面任一所述蛋白标志物组合的表达水平检测试剂。
54.本发明第五方面提供一种用于结直肠癌预测、诊断或预后的方法,包括以下步骤:
55.s1,获得受试者本发明第一方面任一所述蛋白标志物组合中各蛋白的表达水平数据;
56.s2,利用群体样本中所述蛋白标志物组合中各蛋白的表达水平数据及各样本是否来源于结直肠癌患者的信息构建机器学习模型,并基于机器学习模型判断受试者是否患有结直肠癌或者是否具有患结直肠癌的风险或者结直肠癌预后是否良好。
57.在本发明的一些实施方案中,所述机器学习模型采用以下任意一项算法训练得到:
58.随机森林算法、支持向量机算法、线性回归算法、逻辑回归算法、贝叶斯分类器和神经网络算法。
59.在本发明的一些优选实施方案中,所述机器学习模型采用逻辑回归算法训练得到。
60.进一步地,利用群体样本基于所述机器学习模型获得预设阈值,对于每一个受试者样本的模型测定结果,如果高于预设阈值判定为患有结直肠癌或者具有患结直肠癌的风险或者结直肠癌预后不良。如果不高于预设阈值判定为未患有结直肠癌或者不具有患结直肠癌的风险或者结直肠癌预后良好。
61.在本发明的一些实施方案中,步骤s1中,受试者的血液样本经edta抗凝之后得到血浆,血浆蛋白经过变性、还原、烷基化处理后,加入胰蛋白酶进行酶切处理得到多肽碎片,脱盐及蒸干处理后进行液相分离及质谱检测,基于多肽的水平确定所述蛋白标志物组合的水平。
62.在本发明的一些实施方案中,所述质谱检测利用三重四级杆质谱方法进行。
63.本发明第六方面提供一种用于结直肠癌预测、诊断或预后的系统,包括以下模块:
64.数据输入模块,用于输入受试者本发明第一方面任一所述蛋白标志物组合中各蛋白的表达水平数据;
65.数据存储模块,用于存储群体样本中所述蛋白标志物组合中各蛋白的表达水平数据及各样本是否来源于结直肠癌患者的信息;
66.结直肠癌分析模块,分别与所述数据输入模块和所述数据存储模块连接,利用数据存储模块中存储的存储群体样本中蛋白标志物组合中各蛋白的表达水平数据及各样本是否来源于结直肠癌患者的信息构建机器学习模型,并基于机器学习模型判断受试者是否患有结直肠癌或者是否具有患结直肠癌的风险或者结直肠癌预后是否良好。
67.在本发明的一些实施方案中,所述机器学习模型采用以下任意一项算法训练得到:
68.随机森林算法、支持向量机算法、线性回归算法、逻辑回归算法、贝叶斯分类器和神经网络算法。
69.在本发明的一些实施方案中,所述结直肠癌分析模块进一步将受试者蛋白标志物组合中各蛋白的表达水平数据和判断结果输入至所述数据存储模块。
70.在本发明的一些优选实施方案中,所述机器学习模型采用逻辑回归算法训练得到。
71.本发明的有益效果
72.相对于现有技术,本发明具有以下有益效果:
73.基于靶向质谱对血浆中多个蛋白标志物同时检测,并进行绝对定量,结果准确,节约检测的时间成本。
74.本发明的蛋白标志物组合为早期结直肠癌提供了基于血浆的无创筛查手段。
75.利用本发明的方法和系统进行结直肠癌预测、诊断或预后,对患者无创伤,取材方便,血浆用样量少,灵敏度和特异性高,最重要的是填补了早期结直肠癌没有有效蛋白质标志物的空白。
76.本发明的蛋白标志物组合对预测早期结直肠癌有很高的准确性,判断出阳性结果后促使患者进行进一步确诊,从长远看在人群中能有效降低结直肠癌的死亡率。
77.利用机器学习对血浆的标志蛋白进行检测,可达到对患者的患病状态进行动态监测的目的。
附图说明
78.图1示出了单个蛋白标志物lrg1的受试者工作特征曲线,训练集、测试集及独立验证集的曲线下面积(auc)分别为0.904、0.85、0.8,其中train表示训练集,test表示测试集,valid表示独立验证集;true positive rate(sensitivity)表示真阳性率(敏感性),false postive rate(1-specificty)表示假阳性率(1-特异性)。
79.图2示出了单个蛋白标志物serpina1的受试者工作特征曲线,训练集、测试集及独立验证集的曲线下面积(auc)分别为0.837、0.779、0.771,其中train表示训练集,test表示测试集,valid表示独立验证集;true positive rate(sensitivity)表示真阳性率(敏感性),false postive rate(1-specificty)表示假阳性率(1-特异性)。
80.图3示出了单个蛋白标志物itih3的受试者工作特征曲线,训练集、测试集及独立验证集的曲线下面积(auc)分别为0.835、0.921、0.79,其中train表示训练集,test表示测试集,valid表示独立验证集;true positive rate(sensitivity)表示真阳性率(敏感性),false postive rate(1-specificty)表示假阳性率(1-特异性)。
81.图4示出了单个蛋白标志物cp的受试者工作特征曲线,训练集、测试集及独立验证集的曲线下面积(auc)分别为0.823、0.842、0.624,其中train表示训练集,test表示测试集,valid表示独立验证集;true positive rate(sensitivity)表示真阳性率(敏感性),false postive rate(1-specificty)表示假阳性率(1-特异性)。
82.图5示出了单个蛋白标志物orm1的受试者工作特征曲线,训练集、测试集及独立验证集的曲线下面积(auc)分别为0.818、0.783、0.697,其中train表示训练集,test表示测试集,valid表示独立验证集;true positive rate(sensitivity)表示真阳性率(敏感性),false postive rate(1-specificty)表示假阳性率(1-特异性)。
83.图6示出了单个蛋白标志物c9的受试者工作特征曲线,训练集、测试集及独立验证集的曲线下面积(auc)分别为0.875、0.91、0.81,其中train表示训练集,test表示测试集,valid表示独立验证集;true positive rate(sensitivity)表示真阳性率(敏感性),false postive rate(1-specificty)表示假阳性率(1-特异性)。
84.图7示出了单个蛋白标志物igfbp2的受试者工作特征曲线,训练集、测试集及独立
验证集的曲线下面积(auc)分别为0.728、0.738、0.737,其中train表示训练集,test表示测试集,valid表示独立验证集;true positive rate(sensitivity)表示真阳性率(敏感性),false postive rate(1-specificty)表示假阳性率(1-特异性)。
85.图8示出了5个蛋白质标志物组合的受试者工作特征曲线,训练集、测试集及独立验证集的曲线下面积(auc)分别为0.956、0.954、0.893,其中train表示训练集,test表示测试集,valid表示独立验证集;true positive rate(sensitivity)表示真阳性率(敏感性),false postive rate(1-specificty)表示假阳性率(1-特异性)。
86.图9示出了5个蛋白标志组合的混淆矩阵,其中结直肠癌患者121例,健康人186例。1表示阳性,0表示阴性。其中train表示训练集,test表示测试集,valid表示独立验证集;truth表示真实,prediction表示预测。
具体实施方式
87.除非另有说明、从上下文暗示或属于现有技术的惯例,否则本技术中所有的份数和百分比都基于重量,且所用的测试和表征方法都是与本技术的提交日期同步的。在适用的情况下,本技术中涉及的任何专利、专利申请或公开的内容全部结合于此作为参考,且其等价的同族专利也引入作为参考,特别这些文献所披露的关于本领域中的相关术语的定义。如果现有技术中披露的具体术语的定义与本技术中提供的任何定义不一致,则以本技术中提供的术语定义为准。
88.本技术中的数字范围是近似值,因此除非另有说明,否则其可包括范围以外的数值。数值范围包括以1个单位增加的从下限值到上限值的所有数值,条件是在任意较低值与任意较高值之间存在至少2个单位的间隔。对于包含小于1的数值或者包含大于1的分数(例如1.1,1.5等)的范围,则适当地将1个单位看作0.0001,0.001,0.01或者0.1。对于包含小于10(例如1到5)的个位数的范围,通常将1个单位看作0.1。这些仅仅是想要表达的内容的具体示例,并且所列举的最低值与最高值之间的数值的所有可能的组合都被认为清楚记载在本技术中。
89.术语“包含”,“包括”,“具有”以及它们的派生词不排除任何其它的组分、步骤或过程的存在,且与这些其它的组分、步骤或过程是否在本技术中披露无关。为消除任何疑问,除非明确说明,否则本技术中所有使用术语“包含”,“包括”,或“具有”的组合物可以包含任何附加的添加剂、辅料或化合物。相反,出来对操作性能所必要的那些,术语“基本上由
……
组成”将任何其他组分、步骤或过程排除在任何该术语下文叙述的范围之外。术语“由
……
组成”不包括未具体描述或列出的任何组分、步骤或过程。除非明确说明,否则术语“或”指列出的单独成员或其任何组合。
90.为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。
91.实施例
92.以下例子在此用于示范本发明的优选实施方案。本领域内的技术人员会明白,下述例子中披露的技术代表发明人发现的可以用于实施本发明的技术,因此可以视为实施本发明的优选方案。但是本领域内的技术人员根据本说明书应该明白,这里所公开的特定实施例可以做很多修改,仍然能得到相同的或者类似的结果,而非背离本发明的精神或范围。
93.除非另有定义,所有在此使用的技术和科学的术语,和本发明所属领域内的技术人员所通常理解的意思相同,在此公开引用及他们引用的材料都将以引用的方式被并入。
94.那些本领域内的技术人员将意识到或者通过常规试验就能了解许多这里所描述的发明的特定实施方案的许多等同技术。这些等同将被包含在权利要求书中。
95.下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的仪器设备,如无特殊说明,均为实验室常规仪器设备;下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。
96.实施例1蛋白标志物的发现
97.发明人收集性别和年龄匹配的101例结直肠癌患者和89例健康人对照的新鲜血样样本用于发现蛋白标志物。
98.1.血样处理
99.新鲜血样经过抗凝处理后,1000g离心5min得到血浆样本,-70℃冰箱进行长期保存。
100.血浆样本稀释50倍后进行bca法浓度的测定:bsa标准品被梯度稀释成2、1、0.5、0.25、0.125、0.0625mg/ml的浓度梯度后作为工作曲线标定血浆的浓度。分别向96孔板中加入稀释好的样本及标准品,加入预先配置的bca工作液,37℃反应30min,562nm吸光度下测定血浆蛋白的浓度。
101.取50μg蛋白,加入碳酸氢铵溶液至终浓度50mm。加入dtt至终浓度为10mm,95℃加热10min。恢复至室温后,加入终浓度15mm iaa进行暗反应30min。每个样本中加入1μg的胰蛋白酶,37℃金属浴进行过夜酶切反应12~14h。次日,加入终浓度为1%的甲酸进行酸化处理终止酶切反应。
102.2.差异蛋白及多肽
103.靶点的挑选首先基于找到差异表达的蛋白。发明人通过对190例性别和年龄对称的血浆样本(89例健康人及101例结直肠癌患者)进行非依赖采集模式(dia)进行质谱采集,进一步利用dia-nn软件分析得到蛋白及多肽的表达数据,利用总蛋白的强度进行归一化分析,共定量714个蛋白及7988条多肽。对于表达符合正态分布的蛋白和多肽,发明人利用t检验找到差异表达的蛋白和多肽,对于表达不服从正态分布表达的蛋白和多肽,发明人采用wilcoxon非参数检验找到差异表达的蛋白和多肽。最终,发明人共计得到差异表达的蛋白96个,差异表达的多肽832条。整合得出差异表达的多肽。
104.3.标志物蛋白筛选
105.利用随机森林法挑选得到能够区分结直肠癌和健康人群的潜在多肽,随机森林计算这些靶点的平均gini系数,并按照重要性进行排序,进一步结合蛋白的生物学功能,最终得到10个排名靠前的蛋白,即lrg1、serpina1、itih3、cp、orm1、c9、igfbp2、cndp1、kng1和prdx2,对应的多肽序列如表1所示:
106.表1候选蛋白的多肽序列
[0107][0108][0109]
实施例2机器学习模型建立
[0110]
每条多肽适合浓度的c
13
和n
15
标记的重同位素多肽在酶切之后被加入至酶切好的血浆样本中,混匀后进行96孔sola固相萃取装置进行脱盐及蒸干处理。
[0111]
针对各多肽,配置浓度适合的标曲范围(9个标曲点),各标曲点中也各自加入等量的内标。利用ab sciex 5500qtrap质谱仪进行质谱检测,采用c18的色谱柱(phenomenex)分离多肽,设定柱温为45℃,标准品进样15μl。蒸干的样本中加入150μl的0.1%的甲酸,充分混匀,进样15μl进行质谱检测,液相分离的条件如表2所示:
[0112]
表2液相的分离条件
[0113]
时间(min)事件参数流速(ml/min)0.01pumpbconc.60.25 2.0pumpbconc.60.25 18.0pumpbconc.280.25 18.5pumpbconc.280.25 21.5pumpbconc.980.25 22pumpbconc.980.25 25pumpbconc.60.25
[0114]
之后进行三重四级杆靶向质谱检测,多反应监测(multiple reaction monitoring,mrm)的离子对信息如表3所示。
[0115]
表3mrm监测信息
[0116]
[0117][0118]
质谱采集之后,各自的蛋白标志物对应的多肽浓度被定量并用于模型的建立。将190例样本随机选择80%(152例)作为训练集,剩余20%(38例)作为测试集,将10个潜在蛋白质标志物进一步建立逻辑回归模型。发明人发现,lrg1、serpina1、itih3、cp、orm1、c9和
igfbp2共7个单个蛋白标志物,在训练集、测试集中均有非常好的预测能力,其roc曲线分别如图1~图7所示。
[0119]
实施例3模型验证
[0120]
发明人选择了121例结直肠癌患者及186例匹配的健康人作为验证集进行模型的验证。为了更准确进行多肽的定量,减少繁琐实验处理带来的误差,发明人不再进行去除高峰度蛋白的操作,这也能极大减少实验的前处理成本。蛋白质提取及测定浓度后进行液相分离及质谱检测。
[0121]
实施例4多个标志物组合的模型建立及验证
[0122]
发明人进一步利用前述蛋白质中的最优组合
‑‑
5个蛋白标志物(itih3、lrg1、serpina1、igfbp2和cdnp1)的浓度建立逻辑回归模型来很好的判别结直肠癌患者与健康人。具体地,逻辑回归建模用了77例结直肠癌患者及79例健康人来学习5个蛋白质标志物的区分效果。设定逻辑回归模型中的阈值0.34,使用44例结直肠癌患者及107例健康人进行模型的独立验证。基于所有307例血浆样本的模型结果设定阈值,对于每一个样本的模型测定结果,如果高于这个阈值判定为阳性。若样本的模型测定结果低于这个阈值则判定为阴性。
[0123]
roc曲线如图8所示,可知训练集、测试集及独立验证集的曲线下面积(auc)分别是0.956、0.954和0.893。最终得到灵敏度为92%,特异性为81%,阴性预测值为94%,阳性预测值为76%,如图9所示。
[0124]
此外,发明人也呈现了机器学习过程中表现较好的其他10个蛋白质标志物组合,结果如表4所示。
[0125]
表4蛋白质标志物组合
[0126]
模型训练集auc测试集auc独立验证集auccp+lrg1+c9+igfbp2+cndp10.9550.9450.870itih3+cp+lrg1+c9+cndp10.9530.9450.872serpina1+lrg1+c9+igfbp2+cndp10.9520.9390.884serpina1+cp+lrg1+c9+cndp10.9520.9420.870lrg1+orm1+c9+igfbp2+cndp10.9470.9350.891lrg1+serpina1+cp+orm1+c9+cndp10.9500.9390.861lrg1+serpina1+itih3+cp+c9+cndp10.9510.9410.866lrg1+serpina1+itih3+c9+igfbp2+cndp10.9490.9360.892serpina1+itih3+lrg1+c9+igfbp2+cndp10.9520.9410.887serpina1+itih3+lrg1+orm1+c9+cndp10.9510.9410.890
[0127]
在本发明提及的所有文献都在本技术中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
技术特征:
1.一种用于结直肠癌预测、诊断或预后的蛋白标志物组合,其特征在于,所述蛋白标志物组合包括选自lrg1、serpina1、itih3、cp、orm1、c9、igfbp2和cndp1中的至少一种。2.根据权利要求1所述的蛋白标志物组合,其特征在于,所述蛋白标志物组合包括lrg1,还包括serpina1、itih3、cp、orm1、c9、igfbp2和cndp1中的至少一种。3.根据权利要求1所述的蛋白标志物组合,其特征在于,所述蛋白标志物组合包括c9,还包括lrg1、serpina1、itih3、cp、orm1、igfbp2和cndp1中的至少一种。4.一种用于结直肠癌预测、诊断或预后的多肽组合,其特征在于,所述多肽组合包括来自权利要求1-3任一所述蛋白标志物组合中各蛋白的至少一个多肽。5.权利要求1~3任一所述的蛋白标志物组合的表达水平检测试剂在制备用于结直肠癌预测、诊断或预后的试剂盒中的应用。6.根据权利要求5所述的应用,其特征在于,所述检测试剂基于质谱方法检测所述蛋白标志物组合中各蛋白的表达水平。7.一种用于结直肠癌预测、诊断或预后的试剂盒,其特征在于,包括蛋白标志物组合的表达水平检测试剂,所述蛋白标志物组合包括itih3、lrg1和c9。8.一种用于结直肠癌预测、诊断或预后的系统,其特征在于,包括以下模块:数据输入模块,用于输入受试者蛋白标志物组合中各蛋白的表达水平数据,所述蛋白标志物组合包括itih3、lrg1和c9;数据存储模块,用于存储群体样本中所述蛋白标志物组合中各蛋白的表达水平数据及各样本是否来源于结直肠癌患者的信息;结直肠癌分析模块,分别与所述数据输入模块和所述数据存储模块连接,利用数据存储模块中存储的存储群体样本中蛋白标志物组合中各蛋白的表达水平数据及各样本是否来源于结直肠癌患者的信息构建机器学习模型,并基于机器学习模型判断受试者是否患有结直肠癌或者是否具有患结直肠癌的风险或者结直肠癌预后是否良好。9.根据权利要求8所述的系统,其特征在于,所述机器学习模型采用以下任意一项算法训练得到:随机森林算法、支持向量机算法、线性回归算法、逻辑回归算法、贝叶斯分类器和神经网络算法。10.根据权利要求8或9所述的系统,其特征在于,所述结直肠癌分析模块进一步将受试者蛋白标志物组合中各蛋白的表达水平数据和判断结果输入至所述数据存储模块。
技术总结
本发明公开了一种用于结直肠癌预测、诊断或预后的蛋白标志物组合,属于癌症蛋白质组学检测技术领域。所述蛋白标志物组合包括选自LRG1、SERPINA1、ITIH3、CP、ORM1、C9、IGFBP2和CNDP1中的至少一种。本发明还提供基于上述蛋白标志物组合的应用和系统。本发明的蛋白标志物组合为早期结直肠癌,甚至是进展期癌前病变的预测提供了基于血浆的无创筛查手段。利用本发明的方法和系统进行结直肠癌预测、诊断或预后,对患者无创伤,取材方便,血浆用样量少,灵敏度和特异性高,最重要的是填补了早期结直肠癌没有有效蛋白质标志物的空白。癌没有有效蛋白质标志物的空白。癌没有有效蛋白质标志物的空白。
技术研发人员:廖鲁剑
受保护的技术使用者:杭州度安医学检验实验室有限公司
技术研发日:2023.02.01
技术公布日:2023/9/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/