精确鉴定染色体断裂和/或融合位置的方法和其应用

未命名 07-29 阅读:158 评论:0


1.本发明涉及生物技术,具体是涉及一种精确鉴定染色体断裂和/或融合位置的方法和其应用。


背景技术:

2.在对某一物种开展生物学研究、分子遗传育种等的过程中,经常需要做的第一个步骤是对该物种进行细胞学的研究。细胞的研究既是生命科学的出发点,又是生命科学的汇聚点。细胞学研究过程中很重要又很基础的一点是确定该物种的染色体数目,了解该物种在减数分裂和有丝分裂等过程中染色体的动态变化。这些对解决该物种实际的育种和生物学研究等生产过程中的问题至关重要。在对某一个物种进行核型分析等细胞学研究过程中,会发现该物种的染色体的数目出现一定范围的波动,这是因为在其细胞的分裂活动中存在着染色体的断裂融合现象,对染色体断裂融合位点的精确鉴定有助于解析断裂融合的机制,这对研究物种的进化以及开展遗传育种都有着重要的意义。长期以来想要找到该细胞染色体的断裂融合位置均是通过染色体核型分析的方法进行。但是这种方式方法存在着诸多的偶然性以及不确定性。具体表现在:
3.1.做出合格的核型结果需要很大工作量。对一个植物的细胞进行核型分析,通常需要在特定的阶段,取生长势良好的材料的特定组织(根尖、幼嫩的叶子、表皮层),之后再经过特定流程的处理。这个流程大概包括了预处理、固定、低渗、酶解、滴片、染色、镜检等。该过程表现出几个特点:

繁琐:初学者需要经过反复多次的熟练操作才可以掌握;

耗时:从取材到最终镜检,整个过程需要持续近1天;

不安全:该过程中用到的一些生化试剂对人体有害,比如固定液通常具有强刺激性,预处理时候用到的液体,如秋水仙素、8-羟基喹啉等对人体细胞有害;

操作可移植性不高:对不同的材料,即便是操作熟练者,也需要对过程中的取材时间点、处理过程中的温度时间等多种条件,进行多种组合、经过很多次摸索尝试,才有可能总结出该材料特定的操作过程。这个过程又与娴熟程度有很大关系,操作流程换另外一个人来操作可能又得不到理想的结果。
4.2.难以确定实际发生断裂融合的区间。染色体是细胞在有丝分裂(或减数分裂)时期遗传物质存在的特定形式,是间期细胞染色体之结构紧密组装的结果。在做核型分析观察的视野中,断裂融合发生的染色体的遗传物质处于高度浓缩状态。而目前常用于染色体核型分析的荧光原位杂交(fish)方法,很难找到确定的靶标来锁定可能的断裂融合位置。因为在通常情况下,即使是理想的镜检视野中,仅仅可能会看到染色体的主缢痕、次缢痕等区域,对一整个染色体而言,这些区域不足以帮助锁定可能的断裂融合位置。假若一个物种基因组大小有500mb,内部含有10条染色体,那染色体的平均大小为50mb,一个探针长度有1kb,初略计算在染色体上可以产生5万探针才能覆盖整个染色体,这还是在假定每个探针都能够成功使用,并且1kb的分辨率在后期镜检能够检出探针信号的前提下。然而实际情况下,这样理想的情况根本不可能发生。
5.3.难以做到对断裂融合现象背后的机制解析。通过荧光原位杂交(fish)的方法,
即使可以通过一些探针去进一步缩小可能发生断裂融合的区域,但在现有方法中,由于没有该物种的基因组信息,也没办法获得断裂融合区域的序列信息,更不可能了解到该区域都有哪些元件,这也就导致不可能做到对断裂融合现象背后的机制进行解析。


技术实现要素:

6.基于此,本发明的目的是提供一种精确鉴定染色体断裂和/或融合位置的方法,该方法能够用于精确定位到待测植物的染色体断裂融合位置,且操作简单、易行和可靠。
7.实现上述目的的技术方案包括如下。
8.本发明的第一个方面,是提供一种精确鉴定染色体断裂和/或融合位置的方法,包括以下步骤:
9.s1对待测植物的样本进行核型分析,确定存在染色体断裂融合;
10.s2取待测植物的幼嫩组织样本,进行基因组survey,确定其基因组大小,包括以下步骤:
11.s2.1提取待测植物样本的dna;
12.s2.2对dna进行建库;
13.s2.3利用dnaseq-t7对检测合格的文库进行测序,对测序得到的原始图像数据文件经过base calling(碱基识别技术)转化为原始数据;
14.s2.4对原始数据进行过滤,从而得到clean reads(待分析数据);
15.s2.5得到的clean reads提取50000-60000条以上的读长数据与公共数据库进行比对,以确定样品未受到外源污染;
16.s2.6进行kmer频数深度分布分析,获得基因组大小、重复度以及杂合度信息;s3 hic文库构建与测序,包括:s3.1取待测植物的幼嫩组织样本,进行固定交联,维持细胞内的3d结构;
17.s3.2内切酶酶切、末端修复、末端修复、环化;
18.s3.3 dna纯化和捕获,文库建库,上机测序获得测序数据,过滤后获得有效的hic测序数据;
19.s4联合ont ultra-long测序和pacbio hifi测序,和hic辅助组装技术,对s3及s4中获得的测序数据进行完整的基因组组装和染色体挂载,获得待测植物的完整的基因组:
20.s4.1采用桑叶的幼嫩组织样本,设置ont ultra-long和pacbio hifi测序需要的通量,其中,ont ultra-long建库标准需要选取100k以上的片段建库;pacbio hifi需要20k以上片段建库,获得原始读长数据(raw reads);
21.s4.2对原始读长数据数据过滤,保留平均质量分数大于90%的读长数据用于后续组装;
22.s4.3进行数据组装及染色体挂载,获得待测植物的完整的基因组(端粒-端粒基因组,简称为t2t);
23.s5.通过juicebox可以得到待测植物样本在t2t水平的基因组中完整染色体间的互作矩阵,精确确定染色体断裂和/或融合位置。
24.在其中一些实施例,所述幼嫩组织样本是新发出的小苗、新长出的嫩叶。
25.在其中一些实施例,s2.3中,测序基因组survey分析的深度为100x以上。
26.在其中一些实施例,s2.4中,所述对原始数据进行过滤包括至少以下:a去除n碱基含量大于5%的读长数据;b去除质量值小于等于5的碱基数目超过50%的读长数据;c去除有接头污染的读长数据;d去除pcr扩增造成的重复序列。
27.在其中一些实施例,s2.5中,所述读长数据为50000-60000。
28.在其中一些实施例,s3中所获得的建库数据大于基因组的100x,碱基质量q20和q30以上的比例为95%及90%以上,如此产生的测序数据,经过后续严格的过滤标准过滤之后,才能够产生足够的有效hic数据量。最终产生的有效hic数据量需要达到60%以上,才能够包含所有的互作信号,否则会丢失掉许多互作信号。
29.在其中一些实施例,s4.1中,以基因组调研(survey)结果为标准,当所述植物为桑树时,该基因组评估为较低杂合度基因组,设定ont ultra-long须产生100x以上的数据量,pacbio hifi须产生40x以上的数据量。
30.在其中一些实施例,s4.2中,所述对原始读长数据数据过滤包括:对于ont ultra-long的原始读长数据,使用filtlong进行数据过滤,过滤《10kb的片段,去除平均质量小于7的fail reads,获得后续分析的有效数据;使用porechop默认参数过滤接头序列,继续使用filtlong过滤《30kb序列,保留(平均阅读质量分数)mean read quality scores》90%的读长数据。
31.在其中一些实施例,对于pacbio hifi原始数据,进行数据过滤,过滤测序小于3圈,snr小于2.5的低质量subreads。
32.在其中一些实施例,s4.3中所述进行数据组装及染色体挂载,获得待测植物的完整的基因组包括:得到待检测植物的物种0gap基因组后,将pacbio hifi测序产生的不小于10kb的hifi reads与0gap基因组比对,对比对片段进行过滤,删除嵌合比对片段,并进行纠错。
33.在其中一些实施例中,s1中的核型分析包括:切片法、压片法、涂片法、去壁低渗法。
34.在一些优选的实施例中,当植物为桑树时,采用去壁低渗法,因为相对去壁低渗法,切片法、压片法、涂片法用于桑树时,会发现染色体难以分散开,不易观察的情况。
35.所述去壁低渗法,包括酶解去壁低渗法、酸解去壁低渗法,更优选为酶解去壁低渗法,其对于桑树的核型分析的效果最好。
36.在其中一些优选实施例中,所述植物为桑树。
37.本发明的第二个方面,是提供上述方法在精确鉴定植物物种的染色体断裂和/或融合位置中的应用。
38.本发明在精确鉴定植物物种的染色体断裂和/或融合位置时,研发出一种全新的技术思路,巧妙地结合一次确定该植物物种的染色体发生断裂融合现象和基因组大小的信息,再通过ont ultra-long测序和pacbio hifi测序与hic辅助基因组组装技术联合使用,实现端粒到端粒(t2t)的染色体组装,以及对数据深度和长度的优化,对数据的严格过滤的优化,从而获得用于精确确定植物中染色体断裂和/或融合位置的方法。
39.本发明所述方法可以用于精确确定植物中染色体断裂和/或融合位置,且操作简单,结果可靠。而且,通过该方法,在为解析断裂和/或融合机制提供便利的同时,还获得该物种所有遗传信息的完整的蓝图,可以加速该物种的分子遗传育种研究。
40.与现有技术相比,本发明具有以下有益效果:
41.1.技术工作量小:基于技术方案,在整个断裂融合位点的精确鉴定过程中,只需进行一次成功的普通核型分析,经过统计分析确定该物种在细胞分裂过程中存在染色体的断裂融合现象,同时基于核型分析中染色体的形态以及相对长度等信息,得到发生断裂融合的1条或者几条染色体编号;之后不再需要进行核型分析;
42.2.技术可重复性好:本发明所述方法的施行简单、不繁琐且易掌握。在该技术描述中,对所有的步骤分模块的进行了详细的描述,提供了细致的参数,初学者只需要照着流程进行即可得到结果。不需要像传统方法中用的fish技术拥有诸多可能影响到结果的中间步骤等,并且需要经过反复多次的练习尝试,才可能掌握;
43.3.技术安全:本发明所述方法,不需要反复多次涉及固定液、预处理液等强刺激性、甚至有致癌作用的生化试剂;
44.4.技术可移植性高:本发明所述方法是基于全基因组测序以及染色体内部相互作用来解决相应的问题,理论来讲,只要是有生命的对象,均可以参照本发明的方法进行研究,迅速锁定染色体区段上的相应断裂融合位点。
45.5.技术精确度高:该技术在确定染色体断裂融合位点的同时,获得了对应物种基因组的全部信息,能够精确到单个碱基的分辨率从而锁定断裂融合位点。在没基因组信息指导的物种中,传统的fish难以设计有效的探针,即使有了探针,多次操作也成功的情况下,也只能在染色体的尺度上看到断裂融合位点,这是在以几十mbp的分辨率,与bp为分辨率难以相提并论。
46.6.技术利用价值高:本发明所述方法的价值不仅仅是止步于获得断裂融合位点,与此同时,得到了该物种整个基因组的信息,包括断裂融合位点内部以及附近区域的所有序列信息,在清楚序列信息的前提下,可以帮助确定该位点邻近的元件,真正为机制的解析提供便利;为物种进化研究提供便利。
47.7.技术是可扩展的:基于本发明所述方法获得的完整基因组(又称端粒到端粒telomere-to-telomere,简称为t2t),使得技术拥有极高的附加值,在为解析断裂融合机制提供便利的同时,描绘了该物种所有遗传信息的完整的蓝图,可以加速该物种的分子遗传育种研究。
附图说明
48.图1桑树中两种不同数目染色体的细胞。
49.图2染色体间弱互作信号区域分析;其中,a,以5mb区间展示6个染色体上都存在的弱互作信号区域;b,对应染色体弱互作区域pacbio hifi和ont ultra-long reads覆盖情况;c,对应弱互作信号区域序列组成分析。
50.图3chr5染色体的30-32mb区间的染色体互作矩阵数据。
51.图4chr5染色体的30-32mb区间序列中25s rdna的拷贝数。
具体实施方式
52.为了便于理解本发明,下面将对本发明进行更全面的描述。本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本
发明公开内容的理解更加透彻全面。
53.下列实施例中未注明具体条件的实验方法,通常按照常规条件,例如green和sambrook主编的第四版《分子克隆实验指南》(molecular cloning:alaboratory manual)已于2013年出版,或按照制造厂商所建议的条件。实施例中所用到的各种常用化学试剂,均为市售产品。
54.除非另有定义,本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不用于限制本发明。本发明所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
55.本发明提供了一种精确鉴定染色体断裂和/或融合位置的方法,包括以下几个核心的步骤:1)首先确定该植物物种的染色体发生融合断裂现象:前期仅需要经过一次成功的低门槛的核型分析即可,后期不需要再经过多次低效率,又存在诸多不确定性和偶然性的染色体荧光原位杂交实验。前期确定出该物种的细胞在分裂过程中的染色体数目动态变化,发明人发现,对某一个物种而言,确定是否有染色体断裂融合的现象存在,这是所述方法的前提,同时也能够为后面分析提供具体染色体编号信息;
56.2)提取该物种幼嫩叶片或其它易提取dna的组织部位,提取dna,按照相应方案和步骤的要求构建合格文库,进行基因组测序及染色体挂载,利用ont ultra-long、pacbio hifi和hic的技术结合,组装出该物种完整(又称端粒到端粒telomere-to-telomere,简称为t2t)的基因组序列;
57.3分析该物种染色体内的相互作用,通过研究全基因组范围内染色体内部互作矩阵数据,获得精确的染色体断裂融合位置。
58.以下结合具体实施例对本发明作进一步详细的说明。
59.实施例1
60.本实施例以桑树为例,对所述精确鉴定染色体断裂和/或融合位置的方法进行详细的阐述,所述方法包括以下步骤:
61.1按照如下所述的改良酶解去壁低渗法步骤进行一次成功的核型分析,按照方法,包括以下步骤:
62.1.1预处理:于清晨采集桑树幼嫩叶片,之后置于预配置好的0.002m的8-轻基哇琳中,在室温下避光预处理3h,期间可轻微晃动,确保材料始终浸没于液体中;
63.1.2固定:将预处理后的材料取出放于新配的卡诺固定液中,于4℃处理2h以上,期间可根据情况更换一次新鲜固定液;
64.1.3前低渗处理:用蒸馏水将固定后的材料反复冲洗3次后放于0.075m kc1溶液中,于室温下处理30min;
65.1.4酶解:将上一步处理后的材料蒸馏水反复冲洗2次后,用新鲜配置的2.5%果胶酶和纤维素酶混合液处理,在室温下酶解2.5h;
66.1.5后低渗处理:上一步酶解后材料用蒸馏水反复冲洗3次,之后蒸馏水浸泡处理30min;
67.1.6制备细胞悬液:用移液器枪头逐步吸干蒸馏水,将材料磨成匀浆状态,重新加入新鲜配置的卡诺固定液,静置10min,先弃去第一次沉淀,紧接着将上层细胞悬液再静置
30min,弃掉上层部分清液,收集余下的细胞悬液;
68.1.7滴片:用1000ml的移液枪吸1~3滴的细胞悬液悬空滴在磨砂载玻片上,观察到液滴迅速散开后,在酒精灯上微微加热烤干;
69.1.8染色:上述载玻片于37℃环境下烘片30min,将新配置giemsa染液加在染色体玻片标本上,保湿的湿盒中过夜,第二天用蒸馏水轻轻反复冲洗玻片,洗去表面浮色,待镜片室温干燥后,用中性树脂居中盖片,指甲油封片;
70.1.9镜检:滴加镜油于盖玻片中央部位,于显微镜100倍物镜下观察,拍照并保存图像。
71.在最后的结果中发现有两种类型的染色体数目,分别为2n=14和2n=12,对应分别有7对染色体和6对染色体。确定在该物种染色体的这两种形态之间必然存在着染色体之间的断裂(14

12)或融合(12

14)的变化(参见图1)。
72.2对该材料取其幼嫩组织,进行该物种的基因组调研(survey),确定该物种基因组大小等信息,具体实施操作流程及方法为:
73.2.1取该材料新鲜幼嫩组织,根据经典的dna提取ctab法或者商业化的dna提取试剂盒提取组织中的dna;
74.2.2分别用nanodrop仪器检测dna纯度、用qubit对dna进行精确定量,所需纯度和质量需符合构建文库要求;
75.2.3样品检测合格后,用超声波破碎仪随机打断,经过常规方法的末端修复、加a尾、扩增与产物纯化等步骤完成整个文库的制备工作,并按照要求完成文库的库检。
76.2.4利用dnaseq-t7对检测合格的文库进行测序,基因组survey的测序深度为100x以上,据此评估基因组大小、重复度、杂合度等。本发明发现,如果数据深度不够,对后续基因组信息分析的评估偏差会非常大,而且会导致后续测序策略不合理。因此测序数据量需要达到预计基因组大小的100x以上,如此才能得到足够的信息对基因组大小、重复度、杂合度信息进行准确评估;
77.2.5对测序得到的原始图像数据文件经过base calling(碱基识别)转化为原始数据(raw reads),以fastq格式存储;
78.2.6对原始数据进行过滤,从而得到clean reads(待分析数据),同样以fastq格式进行存储;过滤标准包括但不限于以下几点:a去除n碱基含量大于5%的reeads;b去除质量值小于等于5的碱基数目超过50%的reads(读长数据);c去除有adapter(接头)污染的reads;d去除pcr扩增造成的重复序列;本发明经过研究发现,必须确保raw reads经过以上几个步骤的过滤,得到的clean reads才可以用于后续分析,否则未去除掉的序列都会导致得到错误的组装结果;
79.2.7得到的数据需要提取50000-60000条以上的reads与公共数据库nt(nucleotide sequence database)进行比对,以确定样品未受到外源污染,本实施例提取了fastq文件中所有reads中的前50000条reads(读长数据)进行分析确定样品未污染。研究发现,如果选择数据reads数太小,不能够较好的代表整个数据集有无污染,选取数据太大(例如超过60000)会导致计算过程耗时,造成计算资源不必要的浪费,经过摸索,选择了50000-60000条reads的比对结果来评估样本有无污染;
80.2.8利用jellyfish(v2.2.10)利用默认参数进行kmer频数深度分布分析,并以此
对基因组大小进行估计,对该材料估计基因组大小为390mb;同时基因组杂合度为0.3%,重复度为48%,确定基因组为较低杂合基因组。
81.此时,也获得了桑树的二代测序产生的数据,可用于后续步骤4中的数据纠错和对得到t2t基因组评估基因组一致性。
82.3.hic文库构建与测序。hic文库的构建与之前文库的构建有所不同,在样品检测合格,文库构建之前,需要进行一系列步骤,详细描述如下:
83.3.1细胞交联:本发明研究发现,该步骤中必须使用新鲜的组织样本(新鲜的定义为幼嫩组织,新发出的小苗、或者新长出的嫩叶等),其他非新鲜状态的组织样本无法获得足够的互作信号,会导致一些contig序列无法挂载到染色体上。采用桑叶新长出的嫩叶,利用甲醛将样品固定,将细胞内蛋白与dna、dna与dna之间进行交联,保存其相互作用关系,维持细胞内的3d结构;
84.3.2内切酶酶切:利用限制性内切酶将dna进行酶切,使交联两侧产生粘性末端,一般使用的限制性内切酶是dpn ii;
85.3.3末端修复:利用末端修复机制,引入生物素标记的碱基,便于后续dna纯化和捕获;
86.3.4环化:将末端修复后的dna进行环化,将含有互作的dna片段之间进行环化,确保后续测序和分析过程中确定互作dna的位置;
87.3.5dna纯化和捕获:将dna解交联,纯化dna,破碎为300bp-700bp的片段,利用链亲和素磁珠捕获含有互作关系的dna片段进行文库构建;
88.3.6文库质检:文库构建完成后,分别使用qubit 2.0和agilent 2100对文库的浓度和插入片段大小(insert size)进行检测,使用q-pcr方法对文库的有效浓度进行准确定量,以保证文库质量;
89.3.7上机测序:库检合格后,用illumina平台进行高通量测序,测序读长为pe150;产生的原始图像数据经base calling(碱基识别)后转化为raw data以fastq格式存储。
90.3.8利用fastp(v0.21.0),对原始数据(raw reads)进行过滤,去除其中的接头序列及低质量reads,只保留高质量的clean data(待分析数据)。
91.3.9使用hicup(v0.8.0)将clean data比对到参考基因组(由步骤4.5中获得)并过滤,过滤标准为:去除未能双端均未已比对到参考基因组的reads;去除无效对reads;去除pcr扩增造成的重复序列;保留的数据为hic测序有效数据。
92.3.10经过测试,这里对hic数据产生总量及数据质量都需要符合特定的要求才能够获得足够的互作信息。这里对原始的raw数据的要求是需要大于基因组的100x,并且确保碱基质量q20和q30以上的比例为95%及90%以上,如此产生的测序数据,经过后续严格的过滤标准过滤之后,才能够产生足够的有效hic数据量。最终产生的有效hic数据量需要达到60%以上,才能够包含所有的互作信号,否则会丢失掉许多互作信号。
93.此时,hic测序有效数据,可用于后续hic辅助组装和挂载时所用。
94.4联合ont ultra-long测序和pacbio hifi测序同时借助源于染色体构象捕获(chromossome conformation capture-3c)技术的hic辅助组装技术,对该物种进行完整(又称端粒到端粒telomere-to-telomere,简称为t2t)的基因组测序和组装,得到0gap的高质量基因组,具体操作流程为:
md)将所有的ont reads比对到参考基因组,对基因组两段的端粒序列进行延伸;
107.4.11对于挂载到6条染色体上的序列,内部还存在以100个n填补的gap序列,需要进行gap区域的再次填补,利用winnowmap(v1.11,参数k=15,-md)将补洞数据与基因组gap区间比对,对gap进行填补,得到该物种0gap的基因组;
108.4.12前面挂载完成的0gap基因组(填补gap后的基因组),必须再进行一轮的纠错才可以作为最终版本的t2t基因组,具体操作方法是:将pacbio hifi测序产生的不小于10kb的hifi reads与填补gap后的版本基因组比对,使用samtools“view”(v1.10,参数:-f 256)对比对片段进行过滤,使用“falconc bam-filter-clipped”软件来删除嵌合比对片段(-t-f 0x104),使用racon软件进行纠错,得到组装完整的基因组(t2t基因组);
109.4.13对t2t基因组连续性、完整性和一致性进行评估。t2t基因组中gap均填补完成,表示该基因组连续性完美。通过busco对t2t基因组完整性进行评估,busco值为96.1%,表示该基因组具有很好的完整性。另外基于第2步获得的二代测序技术的测序数据进行t2t基因组的一致性评估,99.81%的二代测序数据均可以比对到本实施例的t2t基因组上,说明本发明所述方法的前后组装的一致性非常好,至此得到了该物种完整的基因组。基因组信息如下表1所示:
110.表1该物种的t2t基因组中各染色体长度信息
111.染色体编号染色体长度(mb)chr1105chr286chr375chr460chr550chr631
112.5在得到该物种完整的t2t基因组之后(如表1所示),里面已经包括了所有染色体的所有完整序列信息,基于此数据集,可以利用bedtools,获取任何染色体、任何位置及任何区间的序列信息,也可以知道这些序列的具体组成、序列gc含量的特点等信息。
113.6利用步骤3中获得的hic有效数据,通过juicebox(v1.11.08)可以得到该物种在t2t水平的基因组中完整染色体间的互作矩阵,本实施例中,在所有染色体上都发现存在染色体互作信号变弱的区域,这里按5mb的窗口对这些区域进行展示(图2a展示chr5染色体的互作矩阵图)。
114.发生融合断裂的区域在染色体内部的作用信号弱,怎么去从很多染色体互作信号弱的区域筛除假阳性,保留阳性的弱作用力的断裂融合位点是关键所在。本发明所述方法设定了一个巧妙的“求同存异”的差异化分析方法。
115.首先去确定这些区段是真实存在的,这里用长读长测序技术的ont ultra-long和pacbio hifi的reads,利用minimap2将reads全部mapping到t2t基因组中,查看这些区域的reads覆盖度情况,确定这些区域的真实性,由图2b可知,所有这些区间都有pacbio hifi和ont ultra-long的长读长reads的覆盖,因此这些区间是可信的。
116.本发明设计了巧妙的“求同存异”的差异化分析方法,去比较这些弱互作信号区域的序列组成及差异。步骤里第1步已确定出该物种是染色体数目有12和14形态,从单套基因
组上来说就是有6和7两种染色体,那么两种形态之间就只存在一个位点的断裂融合。如图2c所展示的,橙色表示这些区间都存在同样的序列,通过比较发现,在除chr5之外的其他染色体上的弱互作信号区域都有相似的序列组成,那么在这些区域上不会存在断裂融合位点。而chr5的弱互作信号区域表现出不同特点,同样的序列组成只存在于chr5的28.5-30mb区间且丰度显著降低,在30-32mb区间则没有相似的序列组成(图中2a中的方框所示区域),因此确定出chr5的28.5-32mb区间是与其他染色体弱互作区域完全不同的区间。
117.利用straw工具,去查看染色体5(chr5)的28.5-32mb区间内的互作矩阵数据,发现在30-32mb区间内存在许多互作数据为0的异常数据。如图3中的红色高亮区域所示,与该区域内及该区域外的其他互作矩阵数据有明显差异。结合28.5-30mb区间的序列组成为重复序列的特点,获得精确的染色体断裂融合位置。
118.根据以上结果指示的断裂融合区间,利用bedtools到t2t完整基因组中去提取该区间的序列及注释信息,发现该段区间序列被注释为串联的25s rdna序列,其中包含有185个25s rdna拷贝如图4所示。
119.通过这里展示的技术方案鉴定到该物种的断裂融合位点与之前报道的结果相一致。基于锁定到的区间,同时结合该方案组装下来的t2t基因组,已经得到了该断裂融合区间及其邻近区间的所有序列信息,这为该物种基因组的进化研究提供了极其完整的数据,为融合断裂机制的解析铺平道路。
120.该断裂融合位置的锁定结果与该物种研究在发明人于2022年1月发表在horticulture research中题为“chromosome restructuring and number change during the evolution of morus notabilis and morus alba”以及2017年发表在scientific reports题为“fish-based mitotic and meiotic diakinesis karyotypes of morus notabilis reveal a chromosomal fusion-fission cycle between mitotic and meiotic phases”的通过fish得到的结果一致。但是这两个结果仅仅是大概知道区间在25s rdna的附近,却不知内部的具体序列以及具体的断裂区间是哪里,而通过本发明的方法获得的结果明确确定出了断裂区间、同时获得了断裂区间内部以及附近所有区域的所有序列信息,为该机制的解析铺平道路。
121.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

技术特征:
1.一种精确鉴定染色体断裂和/或融合位置的方法,其特征在于,包括以下步骤:s1对待测植物的样本进行核型分析,确定存在染色体断裂融合;s2取待测植物的幼嫩组织样本,进行基因组调研,包括以下步骤:s2.1提取待测植物样本的dna;s2.2对dna进行建库;s2.3对检测合格的文库进行测序,对测序得到的原始图像数据文件经过碱基识别技术转化为原始数据;s2.4对原始数据进行过滤,从而得到待分析数据;s2.5得到的待分析数据提取50000-60000条以上的读长数据与公共数据库进行比对,以确定样品未受到外源污染;s2.6进行kmer频数深度分布分析,获得待测植物的基因组大小、重复度以及杂合度信息;s3 hic文库构建与测序,包括:s3.1取待测植物的幼嫩组织样本,进行固定交联,维持细胞内的3d结构;s3.2内切酶酶切、末端修复、末端修复、环化;s3.3 dna纯化和捕获,文库构建,过滤后获得有效的hic测序数据;s4联合ont ultra-long测序和pacbio hifi测序,和hic辅助组装技术,获得待测植物的完整的基因组:s4.1采用待测植物的幼嫩组织样本提取dna,设置ont ultra-long测序和pacbio hifi测序需要的通量,其中,ont ultra-long测序中选取100k以上的片段建库;pacbio hifi测序中选择20k以上片段建库,获得原始读长数据;s4.2对原始读长数据过滤,保留平均质量分数大于90%的读长数据用于后续组装;s4.3将s4.2的过滤后的读长数据与s3中所述hic测序数据,进行数据组装及染色体挂载,获得待测植物的完整基因组;s5.获取待测植物的完整基因组中完整染色体间的互作矩阵,精确确定染色体断裂融合位置。2.根据权利要求1所述的方法,其特征在于,所述幼嫩组织样本是新发出的小苗、新长出的嫩叶,和/或所述植物为桑树。3.根据权利要求1所述的方法,其特征在于,s2.3中,测序基因组调研分析的深度为100x以上。4.根据权利要求1所述的方法,其特征在于,s2.4中,所述对原始数据进行过滤包括至少以下:去除n碱基含量大于5%的读长数据;去除质量值小于等于5的碱基数目超过50%的读长数据;去除有接头污染的读长数据;去除pcr扩增造成的重复序列。5.根据权利要求1所述的方法,其特征在于,s1中,采用去壁低渗法对待测植物的样本进行核型分析。6.根据权利要求1所述的方法,其特征在于,s3中所获得的hic测序数据大于基因组的100x,碱基质量q20的比例为95%以上,q30的比例为90%以上。7.根据权利要求1所述的方法,其特征在于,s4.1中,以基因组调研结果为标准,当调研结果评估为较低杂合基因组,设定ont ultra-long产生100x以上的数据量,pacbio hifi产
生40x以上的数据量。8.根据权利要求1所述的方法,其特征在于,s4.2中,所述对原始读长数据数据过滤包括:对于ont ultra-long的原始读长数据,使用filtlong进行数据过滤,过滤<10kb的片段,去除平均质量小于7的无用数据,获得后续分析的有效数据;过滤接头序列,过滤<30kb序列,保留均读长质量分数>90%的读长数据;和/或对于pacbio hifi原始数据,进行数据过滤,过滤测序小于3圈,snr小于2.5的低质量subreads。9.根据权利要求1所述的方法,其特征在于,s4.3中所述进行数据组装和染色体挂载,获得待测植物的完整的基因组包括:得到待检测植物的物种0gap基因组后,将pacbio hifi测序产生的不小于10kb的hifi reads与0gap基因组比对,对比对片段进行过滤,删除嵌合比对片段,并进行纠错。10.权利要求1-9所述方法在精确鉴定植物物种的染色体断裂和/或融合位置中的应用,优选地,所述植物为桑树。

技术总结
本发明涉及一种精确鉴定染色体断裂融合位置的方法,该方法包括对待测植物的样本进行核型分析,确定存在染色体断裂融合,取待测植物的幼嫩组织样本,确定其基因组大小,联合ONT ultra-long测序和PacBio HiFi测序,和HIC辅助组装技术,进行完整的基因组组装和染色体挂载,获得待测植物的完整的基因组,精确确定染色体断裂融合位置。本发明所述方法可以用用于精确确定植物中染色体断裂融合位置,且操作简单,结果可靠。而且,通过该方法,获得的结果拥有极高的附加值,在为解析断裂/融合机制,研究物种进化提供便利的同时,还获得该物种所有遗传信息的完整的蓝图,可以加速该物种的分子遗传育种研究。传育种研究。


技术研发人员:马赑 何宁佳 王虹虹 刘京纯
受保护的技术使用者:西南大学
技术研发日:2023.03.10
技术公布日:2023/7/26
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐