碱基测序错误的排除方法、低频率突变的鉴定方法及相关装置与流程

未命名 07-12 阅读:95 评论:0


1.本发明涉及基因检测领域,具体而言,涉及一种碱基测序错误的排除方法、低频率突变的鉴定方法及相关装置。


背景技术:

2.很多疾病包括肿瘤的发生与治疗都和体细胞突变密切相关。基因突变的累积最终很可能导致恶性肿瘤的形成,所以对突变情况的及时检测可以作为肿瘤早期诊断的有效手段。肿瘤所带的基团突变位点同时也是肿瘤个体化治疗的指标,药物与化疗能否有效都和突变位点有关。肿瘤的预后也能用突变情况作为重要参考。但是体液中癌细胞所占比例很低,一般情况下只占整个循环dna的1%,甚至只有0.01%。目前流行的基因测序技术无法测定如此微量的dna。另外,1%的测序错误又会导致我们无法及时和准确地获得突变位点的信息。
3.测序技术的高速发展,预示着肿瘤的基因检测技术已进入基因组时代。基于第二代测序的变异检测方法,可以筛选出与肿瘤细胞发生相关的基因突变,从基因水平阐述肿瘤发生的分子机理。针对肿瘤患者、肿瘤高危人群,市面上已经有很多公司采用第二代高通量测序技术,对遗传性肿瘤的突变基因进行检测,可以及时发现受检者的基因变异情况,预测相应肿瘤发生的风险。并以此为依据制定相应的风险管理方案,以实现肿瘤早筛查、早诊断,降低肿瘤的发病率和死亡率。
4.目前检测基因组超低频突变技术主要包括突变扩增系统(arms-pcr)、微滴式数字pcr(droplet digital pcr,ddpcr)和二代测序技术(next-generation sequencing,ngs)。arms-pcr成本低廉、操作简单,但灵敏度略低、稳定性欠佳。与arms-pcr相比,ddpcr具有较高的稳定性、准确性和灵敏度。然而,arms-pcr与ddpcr的通量均较低,且只能检测已知变异。ngs具有可同时检测多个基因、多种类型的未知突变等优势。但ngs实验环节较复杂,在样本制备、文库构建、上机测序及数据分析等过程中,诸多因素均可影响超低频突变检测的准确性。
5.不同于dna高频突变,dna低频突变的鉴定一直是个难题,一方面,由于高通量测序的测序系统信号识别等环节不可避免地会引入错误,新一代测序技术的产生标志着当代基因组学研究新纪元的到来,它彻底改革了传统基因组学研究,每天可以产生数以亿计的测序碱基数据,能大量地检测出体细胞突变信息,从而使得个体化治疗成为可能。目前ngs中最常用的illumina测序平台的单碱基错误率在~0.1%水平;另一方面,文库构建即使用高保真的酶进行pcr扩增,也存在约10-6
的扩增错误率,随着pcr循环数增加,错误率也随着上升;另外dna分子损伤和降解也会增加碱基错误率,这三方面的因素导致对dna突变进行分析时存在强烈的背景噪音,干扰检测结果。当dna突变频率小于1%时,分析人员很难将真实突变与系统错误区分开,导致检测灵敏度较差。
6.液体活检技术是通过检验血液、尿液、唾液、胸腔积液等体液中的生物标志物对疾
病进行诊断。其中,液体活检中最重要的检测内容之一是携带肿瘤特异性突变信息的循环肿瘤dna(ctdna)。然而,肿瘤患者血浆中可检测到的ctdna突变含量极少,难以检测。有研究表明从ⅰ期肺癌患者ctdna中检测到的突变频率通常在千分之一以下,甚至达到十万分之一的级别,给检测带来了巨大挑战。因此,超低频突变检测技术对临床转化应用能否成功具有至关重要的作用。


技术实现要素:

7.本发明的主要目的在于提供一种碱基测序错误的排除方法、低频率突变的鉴定方法及相关装置,以解决现有技术中高通量测序易产生测序错误而难以准确排除的问题。
8.为了实现上述目的,根据本发明的第一个方面,提供了一种碱基测序错误的排除方法,该排除方法包括获取双端测序数据中的正向读段和反向读段,并分别在每对正向读段和反向读段的5'端各截取15~25bp,优选20bp的序列,形成测序错误排除序列对;根据测序错误排除序列对对每个读段对进行分簇,读段对为正向读段和反向读段配对获得的数据,将具有相同测序错误排除序列对的读段对归类分组,获得多个序列簇;对每个序列簇中的所有读段对进行一致性序列比对,从而获得一致性序列,一致性序列即为排除了碱基测序错误后的序列。
9.进一步地,双端测序数据对应的样品为低频突变样品。
10.进一步地,样品包括混有肿瘤细胞突变信息的样品。
11.进一步地,样品包括含有循环肿瘤dna的液体活检样品。
12.进一步地,分簇包括:保证测序错误排除序列对中物理位置小的一侧位于测序错误排除序列对的左侧,再将具有相同测序错误排除序列对的读段对归类分组,获得多个序列簇。
13.进一步地,一致性序列比对包括:对序列簇中的所有读段对的每个碱基位点进行比对,获得每个碱基位点的一致性碱基型,进而获得由一致性碱基型组成的一致性序列;一致性碱基型为每个碱基位点的优势碱基,一致性碱基型同时满足:在至少3个读段对的相应碱基位点出现;读段对中的正向读段和反向读段的相应碱基位点一致;序列簇中的90%及以上的读段对中的相应碱基位点的碱基型一致。
14.为了实现上述目的,根据本发明的第二个方面,提供了一种低频率突变的鉴定方法,该鉴定方法包括:利用上述排除方法,获得一致性序列;将所有一致性序列进行累积统计,得到基因组上每个碱基位点的各种碱基型的支持数,获得每个碱基位点对应的支持数最高的优势碱基型,以及支持数低的低频碱基型;当低频碱基型的一致性大于等于90%时,确认位点为真实的低频率突变。为了实现上述目的,根据本发明的第三个方面,提供了一种排除测序碱基错误的电子装置,该电子装置包括拼接单元,读长分簇单元和一致性处理单元,拼接单元用于获取双端测序数据,配对正向读段和反向读段获得读段对,并分别在每对正向读段和反向读段的5'端各截取15~25bp,优选20bp的序列,形成测序错误排除序列对;读段对分簇单元用于根据测序错误排除序列对对每个读段对进行分簇,将具有相同测序错误排除序列对的读段对归类分组,获得多个序列簇;一致性处理单元用于对同一序列簇中的读段对进行统计,获得一致性序列。
15.为了实现上述目的,根据本发明的第三个方面,提供了一种用于鉴定低频率突变
的电子装置,该电子装置包括一致性序列输入单元,一致性序列比对单元和低频率突变输出单元,一致性序列输入单元用于获取一致性序列,该一致性序列通过利用上述排除方法得到、或为上述排除测序碱基错误的电子装置输出的一致性序列;一致性序列比对单元用于将所有一致性序列进行累积统计,获得测序数据的全基因组中每个碱基位点的信息,统计每个碱基位点在一致性序列中的不同碱基型的支持数,支持数最高的碱基型为该碱基位点的优势碱基型,支持数低的碱基型为低频碱基型;低频率突变输出单元用于统计不同一致性序列中每个碱基位点的低频碱基型出现情况,在单个碱基位点的所有低频碱基型中,出现次数大于等于90%的低频碱基型,即为真实存在的低频率突变。
16.为了实现上述目的,根据本发明的第四个方面,提供了一种计算机可读储存介质,该储存介质包括存储的程序,其中,在程序运行时,控制储存介质所在设备执行上述排除方法,和/或上述鉴定方法。
17.为了实现上述目的,根据本发明的第五个方面,提供了一种处理器,该处理器用于运行程序,其中,程序运行上述排除方法,和/或上述鉴定方法。
18.应用本发明的技术方案,利用上述鉴定方法,无需额外的pcr添加分子标签(即umi,唯一分子标识)的实验步骤,直接提取下机数据中目的片段两端的一定长度的序列进行组合,作为类似于umi的分子测序错误排除序列对来对测序读段进行分簇,进而构建一致性序列。利用这样的方式构建的一致性序列来排除测序导致的碱基错误,不必受限于目的片段长度的影响而设置多个umi来进行排除,而是基于片段打断的随机性,打断片段两端位置完全一致的一致性序列能够作为同一序列簇,进而排除测序错误,提高数据的准确性。
附图说明
19.构成本技术的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
20.图1示出了根据本发明实施例的一种碱基测序错误的排除方法的流程图。
21.图2示出了根据本发明实施例的一种碱基测序错误的排除方法示意图。
22.图3示出了根据本发明实施例的一种低频率突变的鉴定方法的流程图。
23.图4是根据本发明实施例的一种可选的排除测序碱基错误的电子装置的示意图。
24.图5是根据本发明实施例的一种可选的鉴定低频率突变的电子装置的示意图。
25.图6是根据本发明实施例的一种碱基测序错误的排除方法和/或低频率突变的鉴定方法的硬件结构框图。
26.图7示出了根据本发明实施例的测序错误排除序列对内read数目分布图。
27.图8示出了根据本发明实施例的过滤测序错误前后突变检测情况图。
具体实施方式
28.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
29.如背景技术所提到的,dna低频突变的鉴定一直是个难题,在文库构建和高通量测序阶段均会不可避免地会引入错误,另外dna分子损伤和降解也会增加碱基错误率,这三方面的因素导致对dna低频突变进行分析时存在强烈的背景噪音,干扰检测结果。当dna突变
频率小于1%时,分析人员很难将真实突变与系统错误区分开,导致检测灵敏度较差。现有技术是通过借助于双端index及目的片段带上umi来进行区分的,而这种方法中umi占用测序读长,在一定程度上提高了测序成本。为了进一步改善这一状况,本技术提出了思路完全不同的区分真实突变与系统错误的方案,进而,在本技术中,发明人开发一种能够准确鉴定测序结果中的低频率突变的方法,并提出了本技术的一系列保护方案。
30.在本技术第一种典型的实施方式中,提供了一种碱基测序错误的排除方法,该排除方法包括获取双端测序数据中的正向读段和反向读段,并分别在每对正向读段和反向读段的5'端各截取15~25bp,优选20bp的序列,形成测序错误排除序列对;根据测序错误排除序列对对每个读段对进行分簇,上述读段对为正向读段和反向读段配对获得的数据,将具有相同测序错误排除序列对的读段对归类分组,获得多个序列簇;对每个序列簇中的所有读段对进行一致性序列比对,从而获得一致性序列,一致性序列即为排除了碱基测序错误后的序列。
31.图1是根据本发明实施例的一种低频率突变的鉴定方法的流程图,如图1所示,该方法包括如下步骤。
32.首先对双端测序产生的下机数据进行处理,获得配对的正向读段和反向读段。再分别从每对正向读段和反向读段的测序起始端(即5'端)均提取一定长度,如20bp左右的序列,将正向读段的3'端连接反向读段的5'拼接获得测序错误排除序列对,获得40bp左右的测序错误排除序列对(s101)。在本技术中所指的测序数据的5'端和3'端,方向与该测序数据的真实样本中存在的生物学概念的5'端和3'端相同。对于正向读段而言的5'至3'方向,即为参考基因组和真实基因组中碱基编号由小到大的方向。对于反向读段而言的5'至3'方向,即为参考基因组和真实基因组中碱基编号由大到小的方向。在高通量测序中,测序起始端均为生物学意义的5'端,即在双端测序数据中,单条读段数据的方向均为由5'端至3'端。
33.其次,根据上述测序错误排除序列对对每个读段对进行分簇,将具有相同测序错误排除序列对的读段对归类分组,获得多个序列簇,每个序列簇中的读段对均具有相同的测序错误排除序列对(s102)。如在对于ctdna的检测中,能够将测序数据中对于正常细胞的测序数据与对于癌细胞的测序数据进行区分,减少在测序总数据量绝大部分的正常细胞的测序数据对少量癌细胞数据的分析产生干扰。
34.再次,对同一序列簇中的读段对进行统计,获得每个碱基位点的一致性碱基,一致性碱基即为在该位点出现次数最多的碱基类型,由一致性碱基组成的序列即为去除了测序结果中碱基错误的一致性序列(s103)。
35.具体的,上述s101、s102和s103的步骤可以通过如图2所示的示意图进行。
36.在一种优选的实施例中,双端测序数据对应的样品中包括低频突变样品。
37.在一种优选的实施例中,样品包括混有肿瘤细胞突变信息的样品。
38.在一种优选的实施例中,样品包括含有循环肿瘤dna的液体活检样品。
39.上述双端测序数据对应的样品包括低频突变样品,低频突变样品包括含有95%及以上的不含有突变信息的基因组和5%及以下的含有突变信息的突变基因组的样品,在突变基因组上存在相较于正常基因组发生突变的碱基。利用上述筛选方法,能够对由测序错误、pcr扩展错误、dna分子损伤和降解导致的错误测序等原因导致的非真实突变的错误进行筛选和排除,获得相较于正常基因组发生突变的、真实的低频率突变。
40.在一种优选的实施例中,分簇包括:保证测序错误排除序列对中物理位置小的一侧位于测序错误排除序列对的左侧,再将具有相同测序错误排除序列对的读段对归类分组,获得多个序列簇。
41.上述的位置,为碱基的实际物理位置,通过将测序数据与参考基因进行比对,能够确认双端测序数据中每个碱基的编号,编号小即为物理位置小。通过统一规定测序错误排除序列对的朝向,保证所有读长对均能够以相同的方向,如正向读长的方向由左至右均为5'端至3'端,便于后续不同读长之间的比较、统计。
42.在一种优选的实施例中,一致性序列比对包括:对序列簇中的所有读段的每个碱基位点进行比对,获得每个碱基位点的一致性碱基型,进而获得由一致性碱基型组成的一致性序列;一致性碱基型为每个碱基位点的优势碱基,一致性碱基型同时满足如下条件:1)在至少3个读段的相应碱基位点出现;2)正向读段和反向读段的相应碱基位点一致;3)序列簇中的90%及以上的读段中的相应碱基位点的碱基型一致。
43.上述优势碱基,即为在该碱基位点中出现次数最多、能够得到大部分读段支持的碱基型。利用上述筛选方法,能够排除非由测序错误、pcr扩展错误、dna分子损伤和降解导致的错误测序等原因导致的非真实突变,获得能够剔除上述非真实突变,从而提高测序数据的准确度,用以对后续对于低频率突变的鉴定。
44.在本技术第二种典型的实施方式中,提供了一种低频率突变的鉴定方法,该鉴定方法包括:利用上述排除方法,获得一致性序列;将所有一致性序列进行累积统计,得到基因组上每个碱基位点的各种碱基型的支持数,获得每个碱基位点对应的支持数最高的优势碱基型,以及支持数低的低频碱基型;当低频碱基型的一致性大于等于90%时,确认位点为真实的低频率突变。上述低频率突变包括突变频率《1%的突变。
45.图3是根据本发明实施例的一种低频率突变的鉴定方法的流程图,如图3所示,该鉴定方法包括:在进行上述筛选方法后,进行如下步骤。
46.在获得一致性序列后,将获得的所有一致性序列进行累积统计,获得测序数据的全基因组中每个碱基位点的信息,统计每个碱基位点在一致性序列中的不同碱基型(a、t、g或c)出现次数(即支持数),支持数最高的碱基型为该碱基位点的优势碱基型,其他碱基型为低频碱基型(s104)。上述优势碱基型即为未突变的正常基因组,而低频碱基型大概率为真实的突变(绝大部分的测序错误已在上述一致性序列比对中排除)。
47.最后,统计具有相似测序错误排除序列对的一致性序列。统计不同一致性序列中每个碱基位点的低频碱基型出现情况。具有相似测序错误排除序列对的一致性序列即为对于基因组上相邻位置的测序结果。统计在不同一致性序列上对于同一碱基位点的测序结果,能够获得更准确的判断结果。在单个碱基位点的所有低频碱基型中,出现次数大于等于90%的某种低频碱基型,即为真实存在的低频率突变(s105)。
48.在本技术第三种典型的实施方式中,提供了一种排除测序碱基错误的电子装置,该电子装置包括排除模型,排除模型执行上述排除方法,其中,排除模型以双端测序数据作为模型输入,输出一致性序列。
49.图4是根据本发明实施例的一种可选的排除测序碱基错误的电子装置的示意图,如图4所示,该装置包括拼接单元10,读段对分簇单元20和一致性处理单元30,其中,拼接单元10用于获取双端测序产生的下机数据并下机数据进行处理,获得配对的正向读段和反向
读段(统称为read),将正向读段和反向读段配对获得读段对(reads)。再分别从每对正向读段和反向读段的测序起始端(即5'端)均提取20bp左右的序列,将正向读段的3'端连接反向读段的5'拼接获得测序错误排除序列对,获得40bp左右的测序错误排除序列对。
50.读段对分簇单元20,用于根据上述测序错误排除序列对对每个读段对进行分簇,将具有相同测序错误排除序列对的读长归类分组,获得多个序列簇。
51.一致性处理单元30,用于对同一序列簇中的读段对进行统计,获得每个碱基位点的一致性碱基。
52.在本技术第四种典型的实施方式中,提供了一种用于鉴定低频率突变的电子装置,该电子装置包含鉴定模型,鉴定模型为利用上述鉴定方法构建而得,鉴定模型是以一致性序列作为模型输入,输出低频率突变。
53.图5是根据本发明实施例的一种可选的鉴定低频率突变的电子装置的示意图,如图5所示,该装置包括一致性序列输入单元40,一致性序列比对单元50和低频率突变输出单元60,
54.其中,一致性序列输入单元40用于获取一致性序列,该一致性序列通过利用上述碱基测序错误的排除方法得到、或为上述排除测序碱基错误的电子装置输出的一致性序列。
55.一致性序列比对单元50用于获得的所有一致性序列进行累积统计,获得测序数据的全基因组中每个碱基位点的信息,统计每个碱基位点在一致性序列中的不同碱基型(a、t、g或c)出现次数(即支持数),支持数最高的碱基型为该碱基位点的优势碱基型,支持数低的碱基型为低频碱基型。
56.低频率突变输出单元60用于统计不同一致性序列中每个碱基位点的低频碱基型出现情况。统计在不同一致性序列上对于同一碱基位点的测序结果,能够获得更准确的判断结果。在单个碱基位点的所有低频碱基型中,出现次数大于等于90%的某种低频碱基型,即为真实存在的低频率突变。
57.在本技术第五种典型的实施方式中,提供了一种计算机可读储存介质,该储存介质包括存储的程序,其中,在程序运行时,控制储存介质所在设备执行上述排除方法,和/或鉴定方法。
58.在本技术第六种典型的实施方式中,提供了一种处理器,该处理器用于运行程序,其中,程序运行上述排除方法,和/或鉴定方法。
59.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
60.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加检测装置等硬件设备的方式来实现。基于这样的理解,本技术的技术方案中数据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例或者实施例的某些部分的方法。
61.本技术可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
62.本技术所提供的方法可以在终端、计算机终端或者类似的运算装置中执行。以运行在终端上为例,图6是本发明实施例的一种碱基测序错误的排除方法和/或低频率突变的鉴定方法的终端的硬件结构框图。如图6所示,终端可以包括一个或多个(图6中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图6所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
63.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的读段拼接、分簇、一致性处理等方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
64.传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
65.显然,本领域的技术人员应该明白,上述的本技术的部分模块或步骤可以在通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
66.下面将结合具体的实施例来进一步详细解释本技术的有益效果。
67.实施例1
68.823细胞系dna由由华大基因提供,有90个已明确的突变位点。
69.正常人尿液,自收集晨尿,尿液dna已使用高深度测序,未发现有与上述823细胞系dna相同的突变位点。
70.使用天根微量样品基因组dna提取试剂盒提取尿液基因组dna。使用qubit检测dna的浓度,根据qubit定量的浓度,取约50ng的dna,用1%琼脂糖胶进行电泳,电压150v,电泳40min。稀释dna。
71.模拟病人尿液样品:取一部分823细胞系dna进行梯度稀释,稀释至10ng/μl,1ng/μ
l,0.1ng/μl。将1μl稀释后的样品分别加入到1μg的正常人尿液dna中,形成823细胞系dna质量占正常人dna分别为1%,0.1%,0.01%的系列样品,每个梯度各做2个平行。一共6个样品,分别编号为y1-1、y1-2(1%);y2-1、y2-2(0.1%);y3-1、y3-2(0.01%)。用covaris s2超声打断仪将6个样品打断至200-300bp。打断后取50ng进行电泳检测片段大小。用qiaquick pcr purification kit回收纯化打断后的dna,溶于32μl的eb溶液中。打断后的dna末端为随机粘性末端,利用t4 dna polymeras和klenow fragment两种酶的5'

3'方向dna的聚合及3'

5'外切核酸酶的活性,将dna粘性末端修复为平末端。反应完成后,用qiagen公司的qiaquick pcr purification kit回收纯化反应体系中的dna,溶于34μl的eb溶液中。为已经修复为平末端的dna片段3'端末尾加上“a”碱基,用于下一步和5'端带有突出的t碱基的接头互补和连接。反应完成后,用qiagen公司的minielute pcr purification kit回收纯化反应体系中的dna,溶于12μl的eb溶液中。取1μl pcr产物用qubit quant-it dsdnabr assay kit检测浓度。llumina hiseq 2000上机测序,获得双端测序数据。样本的测试数据量统计如表1所示。
72.表1
[0073][0074]
编写perl程序,提取每一对双端序列两端各20bp左右序列,根据40bp左右测序错误排除序列对对reads(读段对)进行分簇。始终保证加在dna片段比对后位置小的一侧的测序错误排除序列对位于左侧,将测序错误排除序列对相同的reads归类到一起,以便后续进行纠错。测序错误排除序列对内read数目分布图如图7所示,即为有n个序列簇中含有x个读段数(read数,包括正向读段和反向读段)。部分归类结果如表2所示。
[0075]
表2
[0076][0077][0078]
对一簇里面的reads逐点进行一致性处理。每个点至少要有3次及以上的reads支持,并且有90%及以上的碱基型一致,同时去掉成对的reads在相应位置碱基不同的情况,然后取该优势碱基型作为该点处的一致性碱基,得到的reads成为一致性reads(一致性序列)。
[0079]
把一致性reads对进行统计,计算reads的成簇效率和分布情况,计算测序错误。把一致性reads进行累积,按比对位置把所有一致性reads的情况进行汇总,得到该位点处各个碱基型的支持数。找出优势碱基型及相应的低频碱基型。计算各碱基型的比例。对比对到相同位置的一致性reads进行测序错误排除序列对聚类,把相似测序错误排除序列对的一致性reads放在一起进行比较。对于支持突变型的reads簇,统计其一致性,只有当一致性达到90%时,该位点才会被定义为一个真实的突变。利用上述方法在3000x测序深度下检测到的突变数如表3所示。过滤测序错误前后突变情况如图8所示。
[0080]
表3
[0081][0082]
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:本发明通过提取下机数据两端序列组合作为分子标签,利用相同分子标签剔除测序错误,提高测序数据的准确度,用以对低频率突变的鉴定。高特异性和灵敏度的方法大幅度地提高二代测序技术的分析准确度,为及早地通过含有少量目的dna的血液或者体液对各类疾病进行无创诊断提供了一个可行的文库构建和测序分析方案。
[0083]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种碱基测序错误的排除方法,其特征在于,所述排除方法包括获取双端测序数据中的正向读段和反向读段,并分别在每对所述正向读段和所述反向读段的5'端各截取15~25bp,优选20bp的序列,形成测序错误排除序列对;根据所述测序错误排除序列对对每个读段对进行分簇,所述读段对为所述正向读段和所述反向读段配对获得的数据,将具有相同所述测序错误排除序列对的所述读段对归类分组,获得多个序列簇;对每个所述序列簇中的所有所述读段对进行一致性序列比对,从而获得一致性序列,所述一致性序列即为排除了碱基测序错误后的序列。2.根据权利要求1所述的排除方法,其特征在于,所述双端测序数据对应的样品为低频突变样品。3.根据权利要求2所述的排除方法,其特征在于,所述样品包括混有肿瘤细胞突变信息的样品。4.根据权利要求2所述的排除方法,其特征在于,所述样品包括含有循环肿瘤dna的液体活检样品。5.根据权利要求1所述的排除方法,其特征在于,所述分簇包括:保证所述测序错误排除序列对中物理位置小的一侧位于所述测序错误排除序列对的左侧,再将具有相同所述测序错误排除序列对的所述读段对归类分组,获得多个所述序列簇。6.根据权利要求1所述的排除方法,其特征在于,所述一致性序列比对包括:对所述序列簇中的所有所述读段对的每个碱基位点进行比对,获得每个所述碱基位点的一致性碱基型,进而获得由所述一致性碱基型组成的一致性序列;所述一致性碱基型为每个碱基位点的优势碱基,所述一致性碱基型同时满足如下条件:1)在至少3个所述读段对的相应碱基位点出现;2)所述读段对中的所述正向读段和所述反向读段的相应碱基位点一致;3)所述序列簇中的90%及以上的所述读段对中的相应碱基位点的碱基型一致。7.一种低频率突变的鉴定方法,其特征在于,所述鉴定方法包括:利用权利要求1至6中任一项所述的所述排除方法,获得所述一致性序列;将所有所述一致性序列进行累积统计,得到基因组上每个碱基位点的各种碱基型的支持数,获得所述每个碱基位点对应的所述支持数最高的优势碱基型,以及所述支持数低的低频碱基型;当所述低频碱基型的一致性大于等于90%时,确认位点为真实的所述低频率突变。8.一种排除测序碱基错误的电子装置,其特征在于,所述电子装置包括拼接单元、读长分簇单元和一致性处理单元,所述拼接单元用于获取双端测序数据,配对正向读段和反向读段获得读段对,并分别在每对所述正向读段和所述反向读段的5'端各截取15~25bp,优选20bp的序列,形成测序错误排除序列对;所述读段对分簇单元用于根据所述测序错误排除序列对对每个读段对进行分簇,将具有相同测序错误排除序列对的所述读段对归类分组,获得多个序列簇;所述一致性处理单元用于对同一序列簇中的读段对进行统计,获得一致性序列。
9.一种用于鉴定低频率突变的电子装置,其特征在于,所述电子装置包括一致性序列输入单元,一致性序列比对单元和低频率突变输出单元,所述一致性序列输入单元用于获取一致性序列,所述一致性序列通过利用权利要求1至6中任一项所述的排除方法得到、或为权利要求8所述的排除测序碱基错误的电子装置输出的一致性序列;所述一致性序列比对单元用于将所有所述一致性序列进行累积统计,获得测序数据的全基因组中每个碱基位点的信息,统计每个碱基位点在所述一致性序列中的不同碱基型的支持数,所述支持数最高的碱基型为该碱基位点的优势碱基型,支持数低的碱基型为低频碱基型;所述低频率突变输出单元用于统计不同所述一致性序列中每个碱基位点的低频碱基型出现情况,在单个碱基位点的所有低频碱基型中,出现次数大于等于90%的所述低频碱基型,即为真实存在的所述低频率突变。10.一种计算机可读储存介质,其特征在于,所述储存介质包括存储的程序,其中,在所述程序运行时,控制所述储存介质所在设备执行权利要求1至6中任一项所述的排除方法和/或权利要求7所述的鉴定方法。11.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行权利要求1至6中任一项所述的排除方法和/或权利要求7所述的鉴定方法。

技术总结
本发明提供了一种碱基测序错误的排除方法、低频率突变的鉴定方法及相关装置。其中,该排除方法包括获取双端测序数据中的正向读段和反向读段,并分别在每对正向读段和反向读段的5'端各截取15~25bp,形成测序错误排除序列对;根据测序错误排除序列对对每个读段对进行分簇,读段对为正向读段和反向读段配对获得的数据,将具有相同测序错误排除序列对的读段对归类分组,获得多个序列簇;对每个序列簇中的所有读段对进行一致性序列比对,从而获得一致性序列,一致性序列即为排除了碱基测序错误后的序列。能够解决现有技术中高通量测序易产生测序错误而难以检测低频突变的问题,适用于基因检测领域。因检测领域。因检测领域。


技术研发人员:王克剑 刘庆
受保护的技术使用者:中国水稻研究所
技术研发日:2022.10.28
技术公布日:2023/7/11
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐