一种量化肿瘤高内皮微静脉的基因集的构建方法及系统
未命名
07-20
阅读:106
评论:0

1.本发明属于生物医药技术领域,具体涉及一种量化肿瘤高内皮微静脉的基因集的构建方法及系统。
背景技术:
2.高内皮微静脉是一种特殊的毛细血管后微静脉,存在于除脾脏外的淋巴器官或淋巴组织。在肿瘤及许多慢性炎症性疾病中,也有高内皮微静脉在非淋巴组织中发育。高内皮微静脉的特征是表达高水平的硫酸化唾液酸黏蛋白以结合淋巴细胞上的l-选择素,其作用是促进淋巴细胞从血液转移到淋巴器官、淋巴组织和发炎组织当中。
3.利用抗pd-1或抗ctla-4抗体进行免疫检查点阻断(icb)治疗已被证明可为不同类型癌症的许多患者提供治疗益处。淋巴细胞,尤其是分化程度较低、功能障碍较少的cd8
+
t细胞向肿瘤的转移是抗癌症免疫和免疫治疗(icb、疫苗或过继性t细胞疗法)的关键环节。作为专职运输淋巴细胞的血管,肿瘤中高内皮微静脉是淋巴细胞进入肿瘤的主要途径,更多的高内皮微静脉可以增强这些关键细胞的浸润,从而提高ici的疗效。
4.目前识别肿瘤中的高内皮微静脉主要通过形态学的方法或其与硫酸化唾液酸黏蛋白抗体(如meca-79)的特异性结合,但如何从转录组层面评估肿瘤内高内皮微静脉丰度以及识别高内皮微静脉,仍然缺乏有效的方法。因此构建一个用于评估肿瘤内高内皮微静脉丰度的基因集,对于更好的利用肿瘤组织的转录组数据、表征肿瘤组织中高内皮微静脉的特点、筛选出免疫治疗的获益人群有重要的意义。
技术实现要素:
5.本发明提出一种量化肿瘤高内皮微静脉的基因集的构建方法及系统,不仅可以用于表征肿瘤组织中高内皮微静脉的特点,还有助于筛选出免疫治疗的获益人群,使丰富的转录组数据得到更好的利用,具有重要的意义和临床应用价值。
6.为实现上述目的,本发明提供了如下方案:
7.一种量化肿瘤高内皮微静脉的基因集的构建方法,包括以下步骤:
8.s1.收集肿瘤患者数据;
9.s2.基于所述肿瘤患者数据,注释出肿瘤组织中的内皮细胞;
10.s3.对所述内皮细胞进行分群,生成内皮细胞亚群;
11.s4.计算各内皮细胞亚群的差异表达基因,并注释出内皮细胞中的毛细血管后微静脉内皮细胞亚群;
12.s5.筛选出在毛细血管后微静脉内皮细胞相对高表达、且在肿瘤中其他类型的细胞中相对低表达的基因;
13.s6.进一步筛选出s5保留基因中表达量与淋巴细胞丰度显著正相关的基因,构成基因集。
14.优选的,s1中收集肿瘤患者数据包括:未经治疗的肿瘤患者的肿瘤组织单细胞转
录组测序数据、癌症基因组图谱数据库中肿瘤患者的肿瘤组织转录组测序数据。
15.优选的,所述肿瘤组织单细胞转录组测序数据包括12种肿瘤的单细胞转录组测序数据:乳腺癌e-mtab-8107,结直肠癌e-mtab-8107、gse132465、gse144735,卵巢癌e-mtab-8107,基底细胞癌gse123813,前列腺癌gse141445,肝内胆管癌gse138709,胰腺神经内分泌肿瘤gse162708,黑色素瘤gse189889,肾细胞癌gse152938,胰腺导管腺癌gse155698,头颈部鳞状细胞癌gse103322和非小细胞肺癌gse127465、gse131907。
16.优选的,所述s5包括:基因至少在70%单细胞转录组测序数据中满足在毛细血管后微静脉内皮细胞中的平均表达量的z评分大于1.8,且在其他各类型的细胞中的平均表达量的z评分均小于0.8。
17.优选的,s6中基因中表达量的数据为癌症基因组图谱数据库中19种常见肿瘤的肿瘤组织转录组测序数据,包括子宫内膜癌、甲状腺癌、胃腺癌、皮肤黑色素瘤、直肠腺癌、前列腺癌、胰腺癌、卵巢浆液性囊腺癌、肺鳞状细胞癌、肺腺癌、肝细胞癌、肾乳头状细胞癌、肾透明细胞癌、头颈部鳞状细胞、食管癌、结肠癌、宫颈癌、乳腺癌、膀胱癌。
18.优选的,所述s6中淋巴细胞包括:b细胞、cd4
+
t细胞、cd4
+
初始t细胞、cd8
+
t细胞、cd8
+
初始t细胞、细胞毒性t细胞、中央记忆型t细胞、效应记忆型t细胞8类细胞。
19.优选的,所述s6中的淋巴细胞丰度从免疫细胞丰度识别器数据库中获取。
20.优选的,s6包括:在19种肿瘤中计算19
×
8次基因表达量与免疫细胞丰度之间的皮尔森相关系数,至少19次计算得到的相关系数大于0.3且p值小于0.05。
21.本发明还提供一种量化肿瘤高内皮微静脉的基因集的构建系统,包括:收集数据模块、注释模块、细胞分群模块、计算差异基因模块、筛选模块和筛选构建基因集模块;
22.所述收集数据模块用于收集肿瘤患者的数据;
23.所述注释模块基于所述收集数据模块收集的肿瘤患者数据注释出肿瘤组织中的内皮细胞;
24.所述细胞分群模块用于对所述注释模块注释的内皮细胞进行分群;
25.所述计算差异基因模块用于对分群后的内皮细胞亚群计算差异表达基因,并注释出内皮细胞中的毛细血管后微静脉内皮细胞亚群;
26.所述筛选模块用于筛选出在毛细血管后微静脉内皮细胞相对高表达、且在肿瘤中其他类型的细胞中相对低表达的基因;
27.所述筛选构建基因集模块用于进一步筛选保留基因中表达量与淋巴细胞丰度显著正相关的基因,构成基因集。
28.本发明的有益效果为:
29.本发明提供了一种用于评估肿瘤内高内皮微静脉丰度的基因集的构建方法及系统,不仅可以用于表征肿瘤组织中高内皮微静脉的特点,还有助于筛选出免疫治疗的获益人群,使丰富的转录组数据得到更好的利用,具有重要的意义和临床应用价值。
附图说明
30.为了更清楚地说明本发明的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
31.图1为本发明实施例的构建用于评估肿瘤内高内皮微静脉丰度的基因集的流程示意图;
32.图2为本发明实施例的注释出单细胞数据集中毛细血管后微静脉的主要结果示意图,其中a为内皮细胞整合后的统一流形逼近与投影示意图,b为各亚群中包含来自个数据的细胞数的比例示意图,c为各亚群高表达的标志基因的热示意图,d为根据标记基因确定的细胞类型的umap图;
33.图3为本发明实施例的67个毛细血管后微静脉内皮细胞显著高表达的基因在各类型细胞中的平均表达量热示意图;
34.图4为本发明实施例的14个在毛细血管后微静脉内皮细胞中特异性高表达基因的表达量与8种淋巴细胞丰度的相关系数气泡示意图;其中ucec为子宫内膜癌;thca为甲状腺癌;stad为胃腺癌;skcm为皮肤黑色素瘤;read为直肠腺癌;prad为前列腺癌;paad为胰腺癌;ov为卵巢浆液性囊腺癌;lusc为肺鳞状细胞癌;luad为肺腺癌;lihc为肝细胞癌;kirp为肾乳头状细胞癌;kirc为肾透明细胞癌;hnsc为头颈部鳞状细胞;esca为食管癌;coad为结肠癌;cesc为宫颈癌;brca为乳腺癌;blca为膀胱癌;b_cell为b细胞;cd4_t为cd4
+
t细胞;cd4_naive为cd4
+
初始t细胞;cd8_t为cd8
+
t细胞;cd8_naive为cd8
+
初始t细胞;tc为细胞毒性t细胞;tcm为中央记忆型t细胞;tem为效应记忆型t细胞;实心圆圈代表相关系数为正,空心圆圈代表相关系数为负,颜色越深p值越小;
35.图5为本发明实施例的高内皮微静脉基因集的评分在不同内皮细胞样本的分组散点示意图;双尾t检验,p<0.05;
36.图6为本发明实施例的高内皮微静脉基因集评分与淋巴细胞丰度在空间转录组测序肿瘤切片的可视化示意图;
37.图7为本发明实施例的高内皮微静脉基因集评分高低组的kaplan-meier生存曲线,a为gse91061队列的总生存曲线(log-rank检验,p=0.0417),b为davidliu队列的无进展生存曲线(log-rank检验,p=0.0287),c为davidliu队列的总生存曲线(log-rank检验,p=0.0052);
38.图8为本发明实施例的高内皮微静脉基因集评分在不同免疫治疗响应组的分组散点示意图;(其中cr/pr为完全缓解或部分缓解;sd/pd为疾病稳定或疾病进展。双尾t检验,p<0.01);
39.图9为本发明实施例的整体结构示意图。
具体实施方式
40.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
41.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
42.如图1所示,为本发明实施例的一种量化肿瘤高内皮微静脉的基因集的构建方法流程示意图,包括以下步骤:
43.s1.收集肿瘤患者数据;
44.s2.基于所述肿瘤患者数据,注释出肿瘤组织中的内皮细胞;
45.s3.对所述内皮细胞进行分群,生成内皮细胞亚群;
46.s4.计算各内皮细胞亚群的差异表达基因,并注释出内皮细胞中的毛细血管后微静脉内皮细胞亚群;
47.s5.筛选出在毛细血管后微静脉内皮细胞相对高表达、且在肿瘤中其他类型的细胞中相对低表达的基因;
48.s6.进一步筛选出s5保留基因中表达量与淋巴细胞丰度显著正相关的基因,构成基因集。
49.实施例1:
50.筛选高内皮微静脉相关基因:
51.一、数据来源
52.来自基因表达综合数据库(geneexpressionomnibusdatabase,geo)的单细胞转录组测序数据gse123813、gse132465、gse144735、gse141445、gse138709、gse162708、gse189889、gse131907、gse152938、gse155698、gse103322、gse127465,来自欧洲分子生物学实验室-欧洲生物信息研究所(europeanmolecularbiologylaboratory-europeanbioinformatics institute,embl-ebi)数据库的单细胞转录组测序数据e-mtab-8107,包括:乳腺癌、结直肠癌、卵巢癌、基底细胞癌、前列腺癌、肝内胆管癌、胰腺神经内分泌肿瘤、黑色素瘤、肾细胞癌、胰腺导管腺癌、头颈部鳞状细胞癌、非小细胞肺癌等癌症。来自癌症基因组图谱(thecancergenomeatlas,tcga)数据库的子宫内膜癌(ucec)、甲状腺癌(thca)、胃腺癌(stad)、皮肤黑色素瘤(skcm)、直肠腺癌(read)、前列腺癌(prad)、胰腺癌(paad)、卵巢浆液性囊腺癌(ov)、肺鳞状细胞癌(lusc)、肺腺癌(luad)、肝细胞癌(lihc)、肾乳头状细胞癌(kirp)、肾透明细胞癌(kirc)、头颈部鳞状细胞(hnsc)、食管癌(esca)、结肠癌(coad)、宫颈癌(cesc)、乳腺癌(brca)、膀胱癌(blca)等19种常见肿瘤的组织测序数据。从免疫细胞丰度识别器(immunecell abundanceidentifier,immucellai)数据库中获取的上述19种肿瘤的淋巴细胞丰度数据。
53.二、筛选毛细血管后微静脉内皮细胞特异性高表达的基因
54.利用r语言seurat程序包对上述单细胞数据进行分群,根据数据来源文献的分群方法结合经典的细胞标志基因,对细胞亚群进行注释。提取出其中的内皮细胞亚群,将17个数据中的内皮细胞进行整合,如图2a,2b。用seurat程序包对整合后的数据进一步分群,再根据vwf、csrp2、slco2a1、nr2f2、vcan、fbln2、sele、selp、ackr1等毛细血管后微静脉内皮细胞的标志基因的表达情况,注释出毛细血管后微静脉内皮细胞,如图2c,2d。利用findmarker函数计算出毛细血管后微静脉内皮细胞显著高表达的基因,设置阈值为log2fc>0.3且校正p值小于0.05,得到67个基因。
55.在17个单细胞测序数据中分别计算上述67个基因在各类型细胞中的平均表达值的z评分。z评分是一种常用的、公认的统计指标,计算方法是(x-μ)/σ。保留至少在12个数据中满足在毛细血管后微静脉内皮细胞中的平均表达量的z评分大于1.8,且在其他各类型的细胞中的平均表达量的z评分均小于0.8的14个基因,即为在毛细血管后微静脉内皮细胞特异性高表达的基因,如图3。
56.三、筛选表达量与淋巴细胞丰度显著正相关的基因
57.根据来自tcga数据库的19种常见肿瘤中上述14个基因在个样本的表达量和来自immucellai数据库中对应样本的b细胞、cd4
+
t细胞、cd4
+
初始t细胞、cd8
+
t细胞、cd8
+
初始t细胞、细胞毒性t细胞、中央记忆型t细胞、效应记忆型t细胞等8类淋巴细胞的丰度,计算基因表达量与各种细胞之间的皮尔森相关系数,保留至少19次计算得到的相关系数大于0.3且p值小于0.05的基因。最终得到hapln3、selp、ackr1、meox1、il33、sele、cpxm2等7个基因,其表达量与淋巴细胞丰度显著正相关,如图4。
58.上述7个基因特异性表达与毛细血管后微静脉,且与淋巴细胞浸润到肿瘤显著相关,即可构成高内皮微静脉相关基因集。
59.实施例2:
60.验证基因集用于评估肿瘤中高内皮微静脉丰度及识别高内皮微静脉的效果一、数据来源
61.来自geo数据库的组织测序数据gse196703(包含8个非高内皮微静脉样本和4个高内皮微静脉样本)、空间转录组测序数据gse175540(包含3个肾癌样本)。
62.二、高内皮微静脉相关基因集的评分在不同内皮细胞样本中的比较
63.利用r语言程序包gsva计算高内皮微静脉相关基因集在上述数据gse196703中12个样本的gsva评分。评分在高内皮微静脉样本中明显高于非高内皮微静脉(图5,双尾t检验,p<0.05)。
64.三、高内皮微静脉相关基因集评分高的区域与淋巴细胞聚集区域的共定位
65.利用r语言程序包seurat中的addmodulescore函数计算高内皮微静脉相关基因集在上述空间转录组测序数据中每个检测点的基因集评分,利用xcell程序包计算每个检测点的淋巴细胞丰度,随后对每个检测点的评分或淋巴细胞丰度进行可视化如图6。在上述3个样本中,高内皮微静脉相关基因集评分高的区域与淋巴细胞聚集区域明显共定位。
66.实施例3:
67.验证基因集用于预测免疫检查点抑制剂免疫治疗疗效的效果
68.一、数据来源
69.来自geo数据库的临床队列gse91061(黑色素瘤,包含50例抗pd-1和抗ctla-4治疗的患者),davidliu等2019年公布的临床队列(转移性黑色素瘤,包含121例抗pd-1治疗的患者)。
70.二、高内皮微静脉相关基因集的评分与患者生存及药物反应之间的关系
71.利用r语言程序包gsva计算高内皮微静脉相关基因集在上述数据中各样本的gsva评分。利用评分的中位数将各队列分为基因集评分高和基因集评分低两组。绘制各队列两组患者的总生存或无进展生存的kaplan-meier曲线图,如图7。基因集评分高的患者的生存与基因集评分低的患者明显更具有优势(log-rank检验,gse91061总生存p=0.0417;davidliu总生存p=0.0052,无进展生存p=0.0287)。此外,在gse91061队列中,对免疫治疗有响应的患者(cr/pr)与对免疫治疗无响应的患者(sd/pd),基因及评分显著更高,见图8。双尾t检验,p<0.01。
72.实施例4:
73.如图9所示,为本发明的一种量化肿瘤高内皮微静脉的基因集的构建系统结构示
意图,包括:收集数据模块、注释模块、细胞分群模块、计算差异基因模块、筛选模块和筛选构建基因集模块;
74.所述收集数据模块用于收集肿瘤患者的数据;
75.所述注释模块基于所述收集数据模块收集的肿瘤患者数据注释出肿瘤组织中的内皮细胞;
76.所述细胞分群模块用于对所述注释模块注释的内皮细胞进行分群;
77.所述计算差异基因模块用于对分群后的内皮细胞亚群计算差异表达基因,并注释出内皮细胞中的毛细血管后微静脉内皮细胞亚群;
78.所述筛选模块用于筛选出在毛细血管后微静脉内皮细胞相对高表达、且在肿瘤中其他类型的细胞中相对低表达的基因;
79.所述筛选构建基因集模块用于进一步筛选保留基因中表达量与淋巴细胞丰度显著正相关的基因,构成基因集。
80.以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
技术特征:
1.一种量化肿瘤高内皮微静脉的基因集的构建方法,其特征在于,包括以下步骤:s1.收集肿瘤患者数据;s2.基于所述肿瘤患者数据,注释出肿瘤组织中的内皮细胞;s3.对所述内皮细胞进行分群,生成内皮细胞亚群;s4.计算各内皮细胞亚群的差异表达基因,并注释出内皮细胞中的毛细血管后微静脉内皮细胞亚群;s5.筛选出在毛细血管后微静脉内皮细胞相对高表达、且在肿瘤中其他类型的细胞中相对低表达的基因;s6.进一步筛选出s5保留基因中表达量与淋巴细胞丰度显著正相关的基因,构成基因集。2.根据权利要求1所述的量化肿瘤高内皮微静脉的基因集的构建方法,其特征在于,s1中收集肿瘤患者数据包括:未经治疗的肿瘤患者的肿瘤组织单细胞转录组测序数据、癌症基因组图谱数据库中肿瘤患者的肿瘤组织转录组测序数据。3.根据权利要求2所述的量化肿瘤高内皮微静脉的基因集的构建方法,其特征在于,所述肿瘤组织单细胞转录组测序数据包括12种肿瘤的单细胞转录组测序数据:乳腺癌e-mtab-8107,结直肠癌e-mtab-8107、gse132465、gse144735,卵巢癌e-mtab-8107,基底细胞癌gse123813,前列腺癌gse141445,肝内胆管癌gse138709,胰腺神经内分泌肿瘤gse162708,黑色素瘤gse189889,肾细胞癌gse152938,胰腺导管腺癌gse155698,头颈部鳞状细胞癌gse103322和非小细胞肺癌gse127465、gse131907。4.根据权利要求1所述的量化肿瘤高内皮微静脉的基因集的构建方法,其特征在于,所述s5包括:基因至少在70%的单细胞转录组测序数据中满足在毛细血管后微静脉内皮细胞中的平均表达量的z评分大于1.8,且在其他各类型的细胞中的平均表达量的z评分均小于0.8。5.根据权利要求1所述的量化肿瘤高内皮微静脉的基因集的构建方法,其特征在于,s6中基因中表达量的数据为癌症基因组图谱数据库中19种常见肿瘤的肿瘤组织转录组测序数据,包括子宫内膜癌、甲状腺癌、胃腺癌、皮肤黑色素瘤、直肠腺癌、前列腺癌、胰腺癌、卵巢浆液性囊腺癌、肺鳞状细胞癌、肺腺癌、肝细胞癌、肾乳头状细胞癌、肾透明细胞癌、头颈部鳞状细胞、食管癌、结肠癌、宫颈癌、乳腺癌、膀胱癌。6.根据权利要求5所述的量化肿瘤高内皮微静脉的基因集的构建方法,其特征在于,所述s6中淋巴细胞包括:b细胞、cd4
+
t细胞、cd4
+
初始t细胞、cd8
+
t细胞、cd8
+
初始t细胞、细胞毒性t细胞、中央记忆型t细胞、效应记忆型t细胞8类细胞。7.根据权利要求6所述的量化肿瘤高内皮微静脉的基因集的构建方法,其特征在于,所述s6中的淋巴细胞丰度从免疫细胞丰度识别器数据库中获取。8.根据权利要求5所述的量化肿瘤高内皮微静脉的基因集的构建方法,其特征在于,步骤s6包括:在19种肿瘤中计算19
×
8次基因表达量与免疫细胞丰度之间的皮尔森相关系数,至少19次计算得到的相关系数大于0.3且p值小于0.05。9.一种量化肿瘤高内皮微静脉的基因集的构建系统,其特征在于,包括:收集数据模块、注释模块、细胞分群模块、计算差异基因模块、筛选模块和筛选构建基因集模块;所述收集数据模块用于收集肿瘤患者的数据;
所述注释模块基于所述收集数据模块收集的肿瘤患者数据注释出肿瘤组织中的内皮细胞;所述细胞分群模块用于对所述注释模块注释的内皮细胞进行分群;所述计算差异基因模块用于对分群后的内皮细胞亚群计算差异表达基因,并注释出内皮细胞中的毛细血管后微静脉内皮细胞亚群;所述筛选模块用于筛选出在毛细血管后微静脉内皮细胞相对高表达、且在肿瘤中其他类型的细胞中相对低表达的基因;所述筛选构建基因集模块用于进一步筛选保留基因中表达量与淋巴细胞丰度显著正相关的基因,构成基因集。
技术总结
本发明公开了一种量化肿瘤高内皮微静脉的基因集的构建方法及系统,包括以下步骤:收集肿瘤患者数据;基于所述肿瘤患者数据,注释出肿瘤组织中的内皮细胞;对所述内皮细胞进行分群,生成内皮细胞亚群;计算各内皮细胞亚群的差异表达基因,并注释出内皮细胞中的毛细血管后微静脉内皮细胞亚群;筛选出在毛细血管后微静脉内皮细胞相对高表达、且在肿瘤中其他类型的细胞中相对低表达的基因;进一步筛选出上一步保留基因中表达量与淋巴细胞丰度显著正相关的基因,构成基因集。本发明不仅可以用于表征肿瘤组织中高内皮微静脉的特点,还有助于筛选出免疫治疗的获益人群,使丰富的转录组数据得到更好的利用,具有重要的意义和临床应用价值。价值。价值。
技术研发人员:白雪 杜坤恒 张艳培 郭泽钦 董忠谊 吴德华
受保护的技术使用者:南方医科大学南方医院
技术研发日:2023.03.17
技术公布日:2023/7/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/