移相校正的制作方法
未命名
08-22
阅读:101
评论:0
移相校正
1.本技术是分案申请,其原申请的国际申请号是pct/us2018/012580,国际申请日是2018年01月05日,中国国家申请号为201880013963.1,进入中国的日期为2019年08月26日,发明名称为“移相校正”。
2.相关申请的交叉引用
3.本技术要求2017年1月6日提交的题为“移相校正”的美国临时专利申请第62/443,294号的权益,在此将其通过引用整体上并入并用于所有目的。
技术领域
4.本发明涉及核酸测序。更具体地,本发明涉及用于具有移相校正的实时测序的系统和方法。
背景技术:
5.在流动池或其他基板(substrate)上的特定位点处,一起分析多个拷贝的核酸分子,所有核酸分子具有相同的序列(可能具有由于样品处理无意引入的有限变化)。使用足够的拷贝来确保产生足够的信号以允许可靠的碱基识别。将一个位点处的核酸分子的集合称为簇(cluster)。
6.移相(phasing)表示由对簇内的多个核酸分子进行测序而产生的非预期的伪影。移相是指来自簇内单个分子的信号(例如荧光)彼此失去同步的速率。通常,术语“移相”保留用于来自落后的某些分子的污染信号,并且术语“预移相(pre-phasing)”用于来自提前的其他分子的污染信号。移相和预移相一起描述了测序设备和化学的表现。
技术实现要素:
7.本发明的一些方面涉及从在碱基识别循环期间由核酸测序仪采集的图像数据确定校正的颜色值,其中测序仪包括图像采集系统、一个或多个处理器和存储器。这些方法的特征可以在于以下操作:(a)获得包括多个其中读取核酸碱基的位点的基板(例如,流动池的一部分)的图像;(b)从基板的图像测量多个位点的颜色值;(c)将所述颜色值存储在所述测序仪的一个或多个处理器的处理器缓冲区中;(d)检索所述多个位点的部分移相校正的颜色值,其中所述部分移相校正的颜色值在紧邻的前一个碱基识别循环期间存储在所述测序仪的存储器中(e)确定预移相校正;(f)确定校正的颜色值。在各种实施方式中,这些操作都在单个碱基识别循环期间执行。在某些实施方式中,该方法还包括使用校正的颜色值来对多个位点进行碱基识别。
8.在测序期间,这些位点显示出代表核酸碱基类型的颜色。所测量和存储的颜色值可以是特定波长或波长范围的强度或其他幅度值。在一些实施中,仅从测序仪的两个通道确定颜色值。在一些实施中,从测序仪的四个通道获得颜色值。虽然本发明关注颜色信号的移相校正,但是所述概念适用于在具有相同序列的核酸的簇的测序期间产生的其他类型的信号。此类其他信号的实例包括可见光谱外的辐射、离子浓度等。
9.在某些实施方式中,在(f)中确定校正的颜色值使用(i)处理器缓冲区中的颜色值,(ii)在紧邻的前一个循环期间存储的部分移相校正值,和(iii)预移相校正。在某些实施方式中,在(e)中确定预移相校正使用(i)在紧邻的前一个碱基识别循环期间存储的部分移相校正的颜色值,和(ii)存储在处理器缓冲区中的颜色值。
10.在某些实施方式中,预移相校正包括权重。在这样的实施方式中,确定校正的颜色值的操作可以包括将权重乘以从基板的图像测量的多个部位的颜色值。
11.在某些实施方案中,该方法另外包括确定紧邻的后一个碱基识别循环的移相校正。作为实例,确定紧邻的后一个碱基识别循环的移相校正包括分析:(i)存储在测序仪的存储器中的部分移相校正的颜色值,和(ii)存储在处理器缓冲区中的颜色值。在包括确定紧邻的后一个碱基识别循环的移相校正的某些实施方式中,该方法另外包括:(i)通过对存储在测序仪存储器中的多个位点的颜色值应用所述移相校正,而为紧邻的后一个碱基识别循环产生部分移相校正的颜色值;和(ii)在测序仪存储器中存储紧邻的后一个碱基识别循环的部分移相校正的颜色值。在某些实施方式中,为所述紧邻的后一个碱基识别循环产生部分移相校正的颜色值还包括对以下求和:(i)多个位点的移相校正的颜色值,和(ii)来自在(b)中测量的基板图像的多个位点的颜色值。在一些实施中,为存储部分移相校正的颜色值用于紧邻的后一个碱基识别循环,将所述部分校正的颜色值存储在所述测序仪的存储器的片区缓冲区(tile buffer)中。
12.在某些实施方式中,所述方法在通过核酸测序仪采集序列读数期间实时进行。在某些实施方式中,核酸测序仪通过在多个位点合成核酸来测序。在其中基板包括流动池的某些实施方式中,流动池在逻辑上被分成片区(tile),并且其中每个片区代表所述流动池的包括位点子集的区域,所述子集由图像采集系统捕获在单个图像中。
13.在采用这种系统的一些实施方式中,在操作(d)(检索多个位点的部分移相校正的颜色值)中,部分移相校正的颜色值预先存储在测序仪的存储器的片区缓冲区中,其中所述片区缓冲区被指定用于存储表示基板上的各个片区的图像的数据。在某些实施方式中,存储器具有约512千兆字节以下或约256千兆字节以下的存储容量。在某些实施方式中,例如,存储器的存储容量小于存储两个流动池上的片区总数中包含的数据所需的容量的两倍。在一些实施方式中,本文描述的处理节省至少约50千兆字节;在一些实施方式中,其节省至少约100千兆字节。
14.在一些实施方式中,在操作(a)(获得基板的图像)之前,所述方法另外包括向流动池提供试剂并允许试剂与位点相互作用以在碱基识别循环期间显示代表核酸碱基类型的颜色。在这样的实施方式中,该方法可以在操作(f)(确定校正的颜色值)之后另外包括:(i)向流动池提供新鲜试剂,并允许新鲜试剂与所述位点相互作用,以显示代表用于后一个碱基识别循环的核酸碱基类型的颜色;和(ii)重复操作(a)-(e)以进行后一个碱基识别循环。此类方法可以另外包括创建用于进行碱基识别循环的操作(a)-(f)的第一处理器线程,以及创建用于进行后一个碱基识别循环的操作(a)-(f)的第二处理器线程。在某些实施方式中,该方法还另外包括分配处理器缓冲区和第二处理器缓冲区,其中,第二处理器缓冲区用于确定(f)中的校正的颜色值。
15.本发明的某些其他方面涉及核酸测序仪,其可由以下元件表征:图像采集系统;存储器;和一个或多个处理器,所述处理器被设计或配置成:(a)获得包含多个其中读取核酸
碱基的位点的基板的图像(所述位点显示例如代表核酸碱基类型的颜色);(b)从所述基板的图像测量多个位点的颜色值;(c)将所述颜色值存储在处理器缓冲区中;(d)对于碱基识别循环检索多个位点的部分移相校正的颜色值(部分移相校正的颜色值在紧邻的前一个碱基识别循环期间存储在测序仪存储器中);(e)确定预移相校正;和(f)根据例如以下确定校正的颜色值:(i)处理器缓冲区中的颜色值,(ii)在紧邻的前一个循环期间存储的部分移相校正值,和(iii)预移相校正。
16.用于确定预移相校正的指令或其他配置可以包括用于根据以下确定预移相校正的配置:(i)在紧邻的前一个碱基识别循环期间存储的部分移相校正的颜色值,和(ii)存储在处理器缓冲区中的颜色值。
17.在某些实施方式中,存储器被分成多个片区缓冲区,每个片区缓冲区被指定用于存储表示所述基板上的片区的单个图像的数据。在某些实施方式中,存储器具有小于约550千兆字节的存储容量(在一些实例中,这小于存储两个流动池上的片区总数中包含的数据所需的容量的两倍)。
18.处理器可以被配置为以各种方式执行所述操作,例如接收可执行机器可读指令。在某些情况下,处理器使用固件或定制处理内核(如数字信号处理内核)进行编程。在各种实施方式中,处理器被设计或配置成执行(和/或控制)上述方法操作中的任何一个或多个。
19.在一些实施方案中,通过更有效地利用存储器(例如,随机存取存储器(ram)),本文公开的移相校正特征显著降低了测序设备的成本。一些实施方式在测序平台上进行的实时分析(rta)的情况下采用这些移相校正特征。
20.下面将参考相关附图更详细地呈现本发明的这些和其他特征。
附图说明
21.图1是具有用于对从核酸簇中获取的图像数据进行实时分析的硬件的测序仪的框图。
22.图2是用于说明移相和预移相概念的两个通道测序数据的图示。
23.图3描绘了包括多个片区的流动池架构,每个片区包含许多簇。
24.图4描绘了包含流动池的片区或其他成像部分中的簇的幅度数据的数据阵列;幅度数据可以是两个以上颜色通道中的每一个的光强度值。
25.图5示意性地描绘了用于实时进行移相校正的第一处理配置和方法。
26.图6示出可以采用图5中描绘的处理器和存储器配置的碱基识别方法的流程图。
27.图7示意性地描绘了用于实时进行移相校正的第二处理配置和方法。该配置减少了对系统存储器的要求。
28.图8示意性地描绘了用于实时进行移相校正的第三处理配置和方法。该配置进一步降低了对系统存储器的要求。
29.图9给出了可以与图8(并且在一些实施中为图7)的处理器和存储器配置一起使用的前几个处理循环的高级流程图。
30.图10给出了进行完全移相校正的碱基识别的处理循环的流程图。当对片区的簇进行测序时,可以在第三和后续处理循环中执行这种循环。
31.图11给出了移相校正方法的比较数据,所述移相校正方法是使用减少的主存储器
算法的一种方法。
具体实施方式
32.定义
33.数值范围包括限定范围的数值。其意图是本说明书中给出的每个最大数值限制都包括每个较低的数值限制,如同此类较低的数值限制在本文中明确写出。在整个说明书中给出的每个最小数值限制将包括每个较高的数值限制,如同此类较高的数值限制在本文中明确写出。本说明书中给出的每个数值范围将包括落入此类更宽的数值范围内的每个较窄的数值范围,如同此类较窄的数值范围都在本文中明确写出。
34.本文提供的小标题并非旨在限制本发明。
35.除非本文另有定义,否则本文使用的所有科技术语具有与本领域普通技术人员通常理解的含义相同的含义。包括本文所含术语的各种科学词典是本领域技术人员公知的并且是可获得的。尽管与本文描述的那些类似或等同的任何方法和材料可用于实施或测试本文公开的实施方式,但描述了一些方法和材料。
36.通过参考整个说明书,可以更全面地描述下面定义的术语。应该理解,本发明不限于所描述的特定方法、方案和试剂,因为这些可以根据本领域技术人员使用的上下文而变化。
37.如本文所用,除非上下文另有明确说明,否则单数术语“一”、“一个”和“该”包括复数指代。术语“多个(plurality)”是指多于一个要素。例如,本文在涉及使用本文公开的方法产生移相岛的许多读数时使用了该术语。
38.本文使用术语“部分(portion)”来指生物样品中基因组、染色体或单倍型的序列信息量,其总和小于一个完整基因组、一个完整染色体或一个完整单倍型的序列信息,这从上下文是显而易见的。
39.本文的术语“样品”是指下述样品,其通常源自含有核酸或核酸混合物的生物学液体、细胞、组织、器官或生物体,所述核酸或核酸混合物含有至少一种待测序核酸序列。此类样品包括但不限于痰/口腔液体、羊水、脑脊液、血液、血液级分(例如血清或血浆)、细针活检样品(例如、手术活检、细针活检等)、尿液、唾液、精液、汗液、泪液、腹膜液、胸膜液、灌洗液组织外植体、器官培养物和任何其他组织或细胞制剂、或其级分或衍生物或从其分离的样品。
40.虽然样品通常取自人类受试者(例如患者),但样品可以从任何具有染色体的生物体中采集,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样品可以在从生物来源获得时直接使用或在预处理后使用以改变样品的特征。例如,此类预处理可包括从血液制备血浆,稀释粘性流体等。预处理方法还可包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、试剂的添加、裂解等。如果对样品采用此类预处理方法,则此类预处理方法通常使得目标核酸保留在测试样品中,有时浓度与未处理的测试样品(例如,即,未经过任何此类预处理方法的样品)中的浓度成比例。相对于本文所述的方法,此类“经处理的”或“经加工的”样品仍然被认为是生物“测试”样品。
41.术语“多核苷酸”、“核酸”和“核酸分子”可互换使用,并且是指共价连接的核苷酸(即对于rna而言核糖核苷酸,对于dna而言脱氧核糖核苷酸)的序列,其中一个核苷酸的戊
糖的3'位置通过磷酸二酯基连接到下一个核苷酸的戊糖的5'位置。核苷酸包括任何形式的核酸的序列,包括但不限于rna和dna分子。术语“多核苷酸”包括但不限于单链和双链多核苷酸。
42.单链多核苷酸分子可以起源于单链形式(如dna或rna),或起源于双链dna(dsdna)形式(例如基因组dna区段、pcr和扩增产物等)。因此,单链多核苷酸可以是多核苷酸双链体的正义链或反义链。使用标准技术制备适用于所述方法的单链多核苷酸分子的方法是本领域熟知的。一级多核苷酸分子的精确序列对于所公开的实施方式通常不重要,并且可以是已知的或未知的。单链多核苷酸分子可以代表基因组dna分子(例如,人基因组dna),其包括内含子和外显子序列(编码序列)以及非编码调节序列(例如启动子和增强子序列)。
43.本文描述的核酸可以是适合用于所提供方法的任何长度。例如,靶核酸在长度上可以是至少10kb、至少20kb、至少30kb、至少40kb、至少50kb、至少75kb、至少100kb、至少150kb、至少200kb、至少250kb、至少500kb或至少1000kb以上。
44.在用于测序的流动池或其他基板的上下文中,术语“位点(site)”是指发生测序的小区域。在许多实施方式中,位点含有多个、通常是许多拷贝的单核酸序列,从所述单核酸序列获得测序数据。从位点获得的序列数据可以是“读数(read)”。
45.术语“多态性(polymorphism)”或“遗传多态性”在本文中用于指在一个遗传基因座处出现两个以上等位基因的相同群体。各种形式的多态性包括单核苷酸多态性、串联重复、微缺失、插入、插入缺失和其他多态性。
[0046]“碱基识别(base call)”是针对多核苷酸序列中特定位置的序列数据的指定碱基(核苷酸类型)。对于被测序的核酸中的每个位置,可以通过测序仪输出碱基识别。识别的品质有时归因于碱基识别。
[0047]
术语“读数”是指从核酸样品的一部分读取的序列。通常,尽管不是必需的,读数表示样品中的相邻碱基对的短序列。读数可以由样品部分的碱基对序列(以atcg表示)象征性地表示。其可以存储在存储器装置中并且适当地处理以确定它是否与参考序列匹配或满足其他标准。读数可以直接从测序设备获得,或者间接地从所存储的关于样品的序列信息获得。在一些情况下,读数是足够长(例如,至少约25bp)的dna序列,其可用于鉴定更大的序列或区域,例如,其可以进行比对并特异性地分配到染色体或基因组区域或基因。
[0048]
术语“下一代测序(ngs)”在本文中是指允许对克隆扩增的分子和单个核酸分子进行大规模平行测序的测序方法。ngs的非限制性实例包括使用可逆染料终止子的合成测序和通过连接测序。
[0049]
本文的术语“参数”是指表征物理性质或该性质的代表物的数值。在一些情况下,参数在数值上表征定量数据集和/或定量数据集之间的数值关系。例如,拟合到直方图的标准分布的均值和方差是参数。
[0050]
本文的术语“阈值”是指用作表征样品、核酸或其部分(例如读数)的截止值的任何数值。可以将阈值与测量值或计算值进行比较,以确定产生此类值的来源是否应该以特定方式分类。阈值可以凭经验或分析确定。阈值的选择取决于用户希望必须进行分类的置信水平。有时它们被选择用于特定目的(例如,平衡灵敏度和选择性)。
[0051]
实时分析是指在dna测序运行期间在数据采集的背景下进行处理和数据分析的方法和系统。美国专利第8,965,076号中描述了实时分析系统的实例,将其全部内容通过引用
并入本文。
[0052]
移相的背景
[0053]
测序设备
[0054]
图1显示了典型的核酸测序仪100或包括此类测序仪的系统的一些特征的框图。值得注意的是,系统100包括流动池101,图像采集系统103,具有一个或多个缓冲区107的一个或多个处理器105,以及包括多个片区缓冲区111的系统存储器(有时称为主存储器)109。通常,系统存储器109被提供在设备上,该设备不是包含一个或多个处理器105中的任何一个的集成电路的一部分。在某些实施方式中,系统存储器是易失性存储器,例如随机存取存储器或ram(例如dram)、固态硬盘或硬盘驱动器。
[0055]
流动池和图像采集系统包含根据核酸测序领域中理解的原理设计或配置的组件,并且在此不再详细描述。将合适的图像分析系统和相关的流动池用于核酸测序仪,例如可从加利福尼亚州圣地亚哥的illumina,inc.获得的miseq和hiseq系列测序仪。对于其他信息,参见美国专利第8,241,573号、美国专利第9,193,996号和美国专利第8,951,781号,通过引用将其各自整体并入本文。
[0056]
通常,适合与所公开方法一起使用的核酸序列提供了对多种靶核酸的平行快速有效的检测。它们可包括能够将扩增试剂和/或测序试剂递送至一个或多个固定的dna片段的流体组分,该系统包括诸如泵、阀、贮存器、流体管线等组件。流动池可以配置和/或用于集成系统中以检测靶核酸。示例性的流动池描述于例如us 2010/0111768a1和us系列号13/273,666号中,它们各自通过引用整体上并入本文。以流通池为例,集成系统的一个或多个流体组分可用于扩增方法和用于检测方法。例如,集成系统的一种或多种流体组分可用于扩增方法和用于测序方法中的测序试剂的递送。或者,集成系统可包括单独的流体系统以执行扩增方法和执行检测方法。
[0057]
出于本发明的目的,理解到流动池首先接收并固定或以其他方式捕获待测序的核酸样品然后暴露于与测序过程相关的各种试剂即已足够。在某些实施方式中,测序过程是合成序列的过程,但也可以采用其他测序技术。
[0058]
图像采集系统103包括用于照射正在进行测序的流动池上的位点的光学组件,例如荧光激发组件(例如,激光器和相关的镜子和透镜),以及用于捕获具有多个位点的流动池的部分上的荧光图像的图像捕获组件。由图像采集系统捕获的数据包含适于在任何给定的测序循环确定在任何给定位点上读取哪个核苷酸的信息。
[0059]
为了允许实时分析,测序仪100通常包括解释和存储来自图像采集系统103的图像数据的板载处理器和存储器。用于测序仪的合适处理器的示例包括intel的xeon e5类。通常,处理器105包括多个缓冲区107,其临时存储在单个图像采集循环期间拍摄的图像数据。在所描绘的实施方式中,处理器缓冲区被分配在系统存储器中。给定的处理器缓冲区可以与特定处理器线程相关联,所述特定处理器线程创建用于在实时分析期间分析流动池的区域的图像数据。在某些实施方式中,由线程分析的图像数据是在单个图像采集循环期间捕获的单个片区(下文描述)的图像数据。在某些实施方式中,缓冲区可以存储约400千兆字节的数据。如本文所使用的,线程是有序的指令序列,其告诉处理器执行什么操作。指令使用从设计到硬件处理器中的特定机器语言指令集或“本机指令”中选择的可执行机器代码来配置处理器。
[0060]
机器语言指令集或本机指令集是已知的并且基本上内置于硬件处理器(或cpu)中。这是系统和应用软件与硬件处理器通信的“语言”。每个本机指令都是一个离散代码,其由处理架构识别,并且可以为算术、寻址或控制功能指定特定寄存器;特定的存储器位置或偏移量;以及用于解释操作数的特定寻址模式。通过组合这些简单的本机指令来构建更复杂的操作,这些指令是顺序执行的,或者由控制流指令指示。
[0061]
系统存储器109包括多个片区缓冲区111,每个片区缓冲区111被配置为存储在单个图像采集循环期间从流动池采集的图像数据的一部分。本实例中的片区缓冲区之所以这样指称,是因为它们被配置为保存单个片区的等值图像数据。如下文将更全面地解释的,片区(tile)是流动池的区域,其可以被捕获在单个图像采集循环期间拍摄的单个图像中。片区缓冲区111用于将图像数据存储比处理器缓冲区107更长的时间段。在某些实施方式中,片区缓冲区111将图像数据存储至少两个图像采集循环。尽管本技术描述的缓冲区缓冲来自流动池的片区的数据,但是所公开的实施方式不限于存储该数据量的缓冲区。除非另有说明或从上下文中显而易见,否则提及“片区缓冲区”应理解为包括存储来自流动池的一部分的图像数据的任何类型的缓冲区,该图像数据作为如本文所述的单元处理。
[0062]
为了进行碱基识别,一个或多个处理器105作用于从系统存储器109提供的数据和存储在处理器缓冲区107中的数据。通常,在单个图像采集循环期间对单个位点进行单个碱基识别。
[0063]
如所显示的,一个或多个处理器105和主存储器109双向共享数据。另外,一个或多个处理器105从图像采集系统103接收图像数据。在某些实施方式中,图像采集系统103通过激发流动池101上的测序位点并从那些位点接收光信号而从流动池101获得数据。在某些实施方式中,由图像采集系统103接收的信号是当系统103用适当波长的光照射流动池101时产生的荧光信号。在这样的实施方式中,荧光信号以多种颜色的强度值提供。
[0064]
循环(cycle)的概念在本发明贯穿使用。单个测序循环涉及从图像上捕获的一个或多个位点中的每一个读取单个核苷酸。该读取被称为进行碱基识别。在本文描述的各种实施方式中,从处理器和存储器的角度来看,单个计算循环执行碱基识别和图像捕获,但是针对不同的核苷酸,在被读取或识别的核苷酸的序列中,碱基识别滞后于图像捕获。例如,在单个计算循环中,一个或多个处理器在测序循环n中对核苷酸进行碱基识别,并在测序循环n+1中同时进行核苷酸的图像捕获。因此,在单个计算循环中,测序仪(a)在测序循环n+1中存储和处理核苷酸的未修饰图像数据,并且(b)在测序循环n中对核苷酸进行碱基识别。下面将更详细地描述在该逐循环处理中处理器缓冲区和片区缓冲区的使用。
[0065]
移相概述
[0066]
在流动池或其他基板上的特定位点处,一起分析多个拷贝的核酸分子,所有核酸分子具有相同的序列(可能具有通过样品处理无意引入的有限变化)。足够的拷贝用于确保产生足够的信号以允许可靠的碱基识别。一个位点处的核酸分子集合称为簇。在一些情况下,未测序的簇仅包含单链核酸分子。
[0067]
移相(phasing)表示由对簇内的多个核酸分子进行测序而产生的非预期的伪影。移相是指来自簇内单个分子的信号(例如荧光)彼此失去同步的速率。通常,术语“移相”保留用于来自落后的某些分子的污染信号,并且术语“预移相(pre-phasing)”用于来自提前的其他分子的污染信号。移相和预移相一起描述了测序设备和化学的表现。
[0068]
低数值较佳。值为0.10/0.10表示簇中0.10%的分子都落后,并且在每个碱基识别循环中0.10%抢先。换句话说,每个循环丢失0.20%的真实信号,因此会产生噪声。另一个实例,0.20/0.20意味着每个循环丢失0.4%的真实信号,在这种情况下,在250个循环(没有校正)之后,噪声将等于信号。
[0069]
测序仪的实时分析组件可以确定移相和预移相,以便在测序进行时应用正确的移相校正水平。这通过基于当前循环之前或之后的碱基识别人为地将信号输入或输出每个测序仪通道来进行。
[0070]
以前,对于规定数量的循环(例如,每次读取的前12个循环)估计移相和预移相,然后将其应用于所有后续循环。一些最近的测序仪采用称为经验移相校正的算法,通过尝试一系列校正并选择产生最高灵敏度(信号纯度)的校正来优化每个循环的移相校正。虽然经验移相校正提供了改进的性能,但它需要更多的计算资源。
[0071]
在传统的测序仪中,每个碱基都具有独特的荧光染料颜色;例如,绿色代表胸腺嘧啶,红色代表胞嘧啶,蓝色代表鸟嘌呤,黄色代表腺嘌呤。为了捕获碱基识别的信息,四通道测序仪获取流动池的片区或其他部分的四个图像。一些测序仪现在仅具有两个通道,因此仅获取流动池的相同部分的两个图像。双通道测序仪针对每个碱基使用混合染料,并对两个图像使用红色和绿色滤镜。在双通道测序仪的实例中,在红色或绿色图像中看到的簇分别被解读为c和t碱基。在红色和绿色图像中都观察到的簇被标识为a碱基,而未标记的簇被鉴定为g碱基。
[0072]
图2说明了在具有序列...acgtaag...的核簇的测序过程中的移相。如图所示,在第一个g的碱基识别循环期间,98.4%的荧光信号源自当前产生g的信号的序列,而1.5%的荧光信号源自当前产生前一碱基c的信号的序列,并且1.1%的荧光信号源自当前产生下一碱基t的信号的序列。对前一碱基c的信号贡献来自移相,而对下一碱基t的信号贡献来自预移相。
[0073]
该g碱基识别的移相校正反映在图2右侧的图表中。如双通道测序仪所示,荧光信号可以在二维图上表示,其中“绿轴”上的最大强度信号表示t,“红轴”上的最大强度表示c,两轴之间的中间位置的最大强度表示a,并且两个轴上的最小强度表示g。没有移相误差的话,g的信号在红轴和绿轴上都应该具有零强度。相反,在讨论移相误差的情况下,荧光信号在绿轴和红轴上都有一些强度贡献。在该实例中,预移相校正将绿轴上的信号强度减小到零,并且移相校正将红轴上的信号强度减小到零。可以对碱基t、c和a的碱基识别进行类似的校正。
[0074]
片区和流动池
[0075]
如已说明那样,流动池包含多个收集测序信息的位点。在某些实施方式中,流动池的每个位点含有共享相同序列的单链核酸的簇。用于实时测序的单个图像可包含数百万个这样的簇。典型的流通池很大,以致于需要数百甚至数千个单独的图像才能覆盖其整个区域。在某些实施方式中,用于实时分析的处理器和相关存储器处理当前所有这些图像以进行单个循环的碱基识别。在一些实施中,处理器和存储器同时处理在单个碱基识别循环期间在两个以上流动池上获取的所有图像。图3示意性地描绘了来自illumina,inc.的一些测序仪中使用的流动池架构。在所描绘的实例中,测序仪在两个流动池(流动池1和流动池2)上进行同时碱基识别。在某些实施方式中,每个流动池具有在两个表面(底表面中的顶表
面)中的每个表面上的测序位点。在此类情况下,测序仪在每个碱基识别循环期间对顶部和底部表面进行成像。如图3所示,每个流动池表面包括四个泳道(lane),l1、l2、l3和l4;当然也可以是其他数量。每个表面的每个泳道可以具有多个细分区,称为条带(swath)。每个条带又分为多个片区(tile)。例如,每个条带可能有大约120个片区。考虑两个流动池,每个流动池具有两个表面,每个表面具有四个泳道,每个泳道具有六个条带,并且每个条带具有120个片区,每个循环需要分析数千个数据片区。在各种实施方式中,每个片区图像(或来自流动池的一部分的其他图像)由单个处理器线程处理。在某些实施方式中,采用具有图3中描绘的架构的流动池的测序仪在每个碱基识别循环中处理8000个以上片区的数据。在这种情况下,实时处理逻辑将在每个碱基识别循环中使用8000个以上处理器线程。
[0076]
来自单个循环期间捕获的单个片区的数据可以作为阵列存储在存储器中,阵列中的每个条目(entry)表示片区中单个簇的每个通道的颜色值。用于双通道布置的阵列在图4中示出。作为实例,颜色强度检测器可以为每个通道生成大约400至1500个信号计数。系统存储器中的片区缓冲区被配置为存储阵列中的所有信息,换句话说,在单个碱基识别循环的片区上的所有簇的颜色值。处理器缓冲区可以类似地构造为存储阵列中的所有信息。
[0077]
移相过程
[0078]
序列数据的实时分析的显著存储器负担源于对于移相校正的需要,即对于整个运行长度而言,必须为每个片区保存2或3个循环的簇强度。在具有700nm流动池的illumina hiseqx上,这占据73gb的内存。这种负担足够大,以致于大部分数据(在此平台上)都缓存到固态硬盘。
[0079]
如已说明的,移相校正调整图像的强度值以解决簇中一些核酸链的相位测序。移相校正通过以下来实现:从测量的当前碱基识别循环的簇颜色强度值(或通过用测序方法测量的其他信号)开始,并使用来自前一碱基识别循环的测量强度值和/或使用来自随后的碱基识别循环的测量强度值并加上或减去校正值。在各种实施方案中,用于进行碱基识别的移相校正强度值应用如图5的底部所示的表达式。如图所示,图像中的当前碱基识别循环的移相校正强度值等于当前碱基识别循环的测量强度值减去第一系数与紧邻的前一个碱基识别循环的测量强度值的乘积,并减去第二系数与紧邻的后一个碱基识别循环的测量强度值的乘积:
[0080]
校正强度=-a
.in-1
+i
n-b
.in+1
[0081]
其中i
n-1
、in和i
n+1
是分别在紧邻的前一个碱基识别循环、当前碱基识别循环和紧邻的后一个碱基识别循环时在片区中的簇的强度值。系数a和b分别是移相和预移相系数(有时称为权重)。这些可以针对片区的每个碱基识别循环重新计算。
[0082]
回到图2,所示序列(对于图像中的单个簇)中第三个碱基的测量强度值在图2右侧的图中显示为点。对该测量强度的预移相校正值由从测量的强度值向下到水平轴的垂直箭头反映。在用于移相校正强度值的表达式中,该预移相校正由系数b和针对下一个连续碱基识别循环测量的强度值的乘积表示。另外,通过图表上的水平箭头表示的移相校正来校正测量的强度值。该移相校正通过从测量的强度值中减去系数a与紧邻的前一个碱基识别循环的测量强度值的乘积来实现。系数a和b可以通过许多方法确定,但是在许多实施方案中,它们针对每个碱基识别循环现算。在2015年6月11日公开的belitz等人的公开号为wo2015/084985的国际专利申请中描述了用于确定在移相校正中使用的系数的方法的描述,将其全
部内容通过引用并入本文。
[0083]
在某些实施方式中,移相算法通过在碱基识别循环期间最大化簇强度数据的累积纯净度(chastity)(或类似度量)来经验性地确定移相系数。该算法的一种实施方案对所有或许多移相系数进行迭代,并确定哪些移相系数给出最佳结果。例如,移相算法可以使用利用成本函数的模式搜索在每个循环优化a和b,所述成本函数对未通过纯净度过滤的簇的数量进行计数。因此,选择a和b以使数据品质最大化。
[0084]
在一些实施方式中,移相系数在整个测序运行中(例如,在产生读数期间)作为持续的分析来确定。作为这种方法的结果,在早期循环期间进行的不准确的移相估计将不会对在后循环产生不利影响。
[0085]
一些方法将簇强度值的纯净度作为对于相同碱基识别循环确定的其他簇强度值的相对于高斯质心的相对距离的函数来确定。假设使用双通道系统,质心理想地与两个通道的a、t、c和g强度的预期位置对齐(参见图2)。在某些实施方式中,可以使用以下表达式来计算纯净度:
[0086]
纯净度=1
–
d1/(d1+d2)
[0087]
其中d1是到最近的高斯质心的距离,d2是到次近的质心的距离。利用该方法,当强度值的平均纯净度(品质)最大化时,选择正确的a和b值。一旦鉴定出这些值,则可以对所有簇值应用校正,并且可以直接进行碱基识别。将高斯分布拟合到双通道数据集的方法在公开号为wo2015/084985的国际专利申请中描述,此前将其通过引用并入。
[0088]
在一些实施方式中,在测序运行期间几乎每个循环都计算移相校正。在一些实施方式中,在测序运行期间的每个循环都计算移相校正。在一些实施方式中,针对同一循环的成像表面的不同位置计算单独的移相校正。例如,在一些实施方式中,针对成像表面的每个单独泳道(例如单独的流动池泳道)计算单独的移相校正。在一些实施方式中,针对泳道的每个子集(例如流动池泳道内的成像条带)计算单独的移相校正。在一些实施方式中,针对每个单独的图像(例如每个片区)计算单独的移相校正。在某些实施方式中,在每个循环针对每个片区计算单独的移相校正。
[0089]
随着读取变长,更高阶项在移相校正中变得更加重要。因此,在特定实施方式中,为了校正这一点,可以计算二阶经验移相校正。例如,在一些实施方式中,该方法包括通过如下定义的二阶移相校正:
[0090]
i(循环)=-a*i(循环-2)-a*i(循环-1)+i(循环)-b*i(循环+1)-b*i(循环+2)
[0091]
其中i表示强度,a、a、b和b表示移相校正的一阶和二阶项。在特定实施方式中,对a、a、b和b优化计算。
[0092]
图5示意性地描绘了用于实时进行移相校正的处理配置和方法。在所描绘的实施方式中,当调用处理器从图像中的簇(例如,片区的图像)进行碱基识别时,处理器502创建新的处理线程503。可以为每个片区的每个碱基识别循环生成新线程。在所描绘的实施方式中,处理器502为片区的每个碱基识别循环提供单个处理器缓冲区505(和指定的处理线程)。处理器缓冲区临时存储由处理器计算操纵的强度值,以对当前碱基识别循环n进行移相校正。在所描绘的实施方式中,处理器与包含三个缓冲区的系统存储器507接口,每个缓冲区用于存储为特定碱基识别循环捕获的图像数据。在图3中描绘的流动池架构的情况下,每个缓冲区存储单个片区的簇的图像数据;因此所述缓冲区称为片区缓冲区。当然,对于其
他流动池架构和/或图像采集系统,缓冲区可以存储更多或更少的簇数据。为方便起见,本说明书将指片区缓冲区。每个片区缓冲区存储在单个碱基识别循环期间捕获的单个片区(或流动池的其他部分)的数据。图像数据可以作为数据阵列提供,如图4所示。
[0093]
如图所示,系统存储器507包括片区缓冲区509,其临时存储紧邻的前一个碱基识别循环的强度值(与由处理器处理的当前碱基识别循环相比);片区缓冲区511,其存储对于当前碱基识别循环测量的强度值;以及片区缓冲区513,其存储紧邻的后一个碱基识别循环的强度值。同样,片区缓冲区509、511和513中的每一个包含单个碱基识别循环n的单个片区的测量数据。
[0094]
如图所示,线程503在单个碱基识别循环期间利用片区缓冲区509、511和513中的每一个中的强度值。将强度值连续加载到处理器缓冲区505中并进行操作以实现图5底部所示的移相校正表达式。在如图5的处理器和存储器配置中所描绘的完成碱基识别过程之后,处理器缓冲区保持用于进行移相校正的碱基识别的调整强度值。
[0095]
图6呈现了可以采用图5中所示的处理器和存储器配置的碱基识别过程的流程图。如图6所示,过程601通过创建处理器线程并对该线程分配处理器缓冲区来启动新的碱基识别循环。参见过程框603。此后,处理器从当前处理循环同时获取的流动池片区(或流动池的其他适当部分)的图像中提取强度数据。在所描绘的实施方案中,捕获图像和关联强度值是下一个连续碱基识别循环的主要强度值,而不是当前碱基识别循环(当前处理迭代)。换句话说,当前处理循环对在紧邻的前一个处理循环中收集的图像数据执行碱基识别。因此,如过程601的过程框605所示,提取的强度值被给予参考符i
n+1
,其中n表示当前的碱基识别循环。换句话说,处理循环既要(i)对于碱基识别循环n识别碱基,还要(ii)捕获碱基识别循环n+1的图像数据。
[0096]
可以将以如图4所示的阵列形式提供的新提取的强度数据存储在系统存储器上的可用片区缓冲区(例如,片区缓冲区513)中。在某些实施方式中,该片区缓冲区是存储先前使用过但对于碱基识别不再必需的强度数据的片区缓冲区。
[0097]
在当前处理循环中,过程601还检索在当前计算循环之前的计算循环期间存储的强度数据。参见过程框607。检索的强度数据用于当前碱基识别循环并且给予参考符in。检索的强度数据从适当的片区缓冲区获得,例如系统存储器的片区缓冲区511,如图5所示。
[0098]
另外,过程601检索在当前碱基识别循环的之前两个循环存储的强度数据。参见过程框609。作为实例,参考图5,可以从系统存储器的片区缓冲区509获得这样的强度数据。在操作609中检索的强度值阵列由i
n-1
标识。
[0099]
虽然操作605、607和609被示出为顺序发生,但是这种操作顺序是灵活的,并且该过程可以实现,从而任何顺序都是可接受的,只要它与包含移相校正的碱基识别一致即可。
[0100]
在检索当前碱基识别循环的强度值(过程框607)和紧邻的前一个碱基识别循环的强度值(过程框609)时,处理器可获得执行移相校正所需的所有强度值。它通过首先确定当前碱基识别循环的预移相校正权重b和移相校正权重a来实现这一点。参见过程框611,其说明这可以使用提取的下一个后续碱基识别循环的强度值以及当前和紧邻的前一个的碱基识别循环的强度值来实现。然后,使用移相和预移相校正权重,处理器计算当前碱基识别循环的移相校正强度值,如过程框613所示。校正值针对所考虑的片区中的簇。该计算可以采用框613中所示的表达式。使用移相校正的强度值,处理器调用当前的碱基识别循环,如过
程框615所示。
[0101]
此时,完成当前碱基识别循环的处理,并且可以执行碱基识别的下一次迭代。决定是否进行另一个碱基识别循环如框617所示,其确定在所考虑的片区的簇中是否存在任何其它待测序的核苷酸。如果不存在,则如框619所示完成该过程。如果存在,则将过程控制交给过程框621,其中处理器递增一次循环计数。这实际上是将当前碱基识别循环的强度值in索引为紧邻的前一个碱基识别循环的强度值i
n-1
。同时,紧邻的下一个碱基识别循环的强度值(i
n+1
)变为新的当前碱基识别循环的强度值(in)。这种递增与应用于片区缓冲区中存储的强度数据的索引关联进行。
[0102]
移相过程(减少主存储器)
[0103]
只要测序仪及其相关的实时分析系统不受存储器限制,图5和图6的方法就可以良好工作。然而,鉴于在某些现代测序仪中所必须处理的数据量,例如用于进行全基因组测序的那些测序仪,可能存在存储器不足,特别是以商业上可行的成本。因此,在碱基识别循环期间存储三倍于流动池(或多个流动池)完全成像所需的数据量可能会造成严重的瓶颈。
[0104]
诸如图5和6中所示的移相算法是对实时分析的重要贡献,因为它显著改善了测序结果,特别是对于非标准样品,例如多样性低的样品。然而,随着下一代测序系统的通量增加,所施加的存储器负担变得更大。以下实施方式通过使用从已经部分移相校正的数据中学习的移相权重来减少存储器负担。可以独立地学习移相和预移相权重,并且仍然提供高品质的测序结果。在一些实例中,主存储器要求小于存储两个流动池上的片区总数中包含的数据所需的容量的两倍。
[0105]
在某些实施方式中,调整用于移相校正的碱基识别的处理器和存储器配置以减少对系统存储器的要求。图7中描绘了其如何工作的一个实例。如上所述校正强度值,例如,计算移相和预移相权重并将其应用于紧邻的前一个循环和紧邻的后一个循环。然而,在图7的实例中,系统存储器707仅采用两个片区缓冲区用于移相校正:片区缓冲区709和片区缓冲区711。在该实例中,处理器702采用处理线程703,与图5的示例相反,其具有两个相关联的处理器缓冲区:用于存储和操作从存储器707检索的强度值的处理器缓冲区705和用于存储和使用新捕获的图像强度值i
n+1
的处理器缓冲区706。在所描述的实例中,处理器缓冲区被分配在主存储器中,但并非总需要如此。在一些实施方式中,处理器缓冲区分配在不同的物理存储器中或甚至分配在处理器芯片上。
[0106]
用处理器缓冲区替换片区缓冲区有效地减少了总内存需求。通过使用多个处理器和/或多线程处理,一些处理器处理许多片区。作为实例,系统中的片区数量可以是大约1000-2000量级,而处理所有这些片区的处理器的数量大约是20。理论上,这样的系统可以实现大约50x量级的存储器减少。在一些实施方式中,减少大约为20x量级。
[0107]
在该实施中,从当前处理循环中的片区图像捕获的强度值(i
n+1
)被本地存储在处理器上并用于计算移相和预移相权重并随后进行碱基识别。在一些实施中,仅在该过程完成之后将最近捕获的强度值(i
n+1
)存储在系统存储器707上的片区缓冲区中。
[0108]
在一些实施方式中,处理器和系统存储器如图8所示配置。与图7中的处理器/存储器配置一样,处理器802采用处理线程803,每个处理线程与两个处理器缓冲区相关联:用于临时存储来自系统存储器807(片区缓冲区811)的强度值的处理器缓冲区805,和用于临时存储在当前处理循环期间捕获的强度值(i
n+1
)的处理器缓冲区806。为了使该配置有效且高
效地工作,必须对片区缓冲区811中存储的强度值进行部分移相校正。下面描述实现此目的的机制的实例。图7中的处理器缓冲区705和图8中的处理器缓冲区805从主存储器加载强度,然后操纵那些强度以产生用于碱基识别的经校正强度。在所描述的实例中,处理器缓冲区被分配在主存储器中,但这并不总是需要的。在一些实施方式中,处理器缓冲区分配在不同的物理存储器中或甚至分配在处理器芯片上。
[0109]
图9示出了可以与图8(并且在一些实施中,图7)的处理器和存储器配置一起使用的过程901的高级视图。如图9所示,第一和第二处理循环使用不充分的信息以在片区中成像的簇上进行完全移相校正。然而,在最初的循环中,移相不是一个重要的问题。
[0110]
为了进行完全移相校正,测序仪需要三个连续的图像数据循环。在第一个处理循环中,测序仪不进行碱基识别;它仅存储强度数据用于下一次处理(即,进行第一次碱基识别的循环)。
[0111]
如图所示,过程901开始于过程框903,其中为第一处理循环创建线程。该线程中的指令直接从第一次测序循环(i1)(即读取簇的第一个核苷酸的循环)期间簇的图像中提取强度数据。参见过程框905。图像数据存储在系统存储器中的片区缓冲区中。此时,第一个处理循环有效完成。
[0112]
该过程在过程框907处继续,其中创建新线程以准备第二处理循环。在该过程中,为第二处理循环分配第一和第二处理器缓冲区。参见框907。总之,在第二处理循环期间执行过程框907、909、911、913、915、917、919、921和923,所述第二处理循环使用在过程框907处生成的线程和处理器缓冲区来执行。
[0113]
如图所示,处理器从下一个碱基识别循环的图像中提取强度数据(i2),并将该数据存储在第一处理器缓冲区中。参见过程框909。接下来,在第二处理循环期间,处理器检索在第一处理循环期间存储在片区缓冲区中的强度数据,该强度数据用于当前碱基识别循环(i1)。参见框911。使用在第一和第二处理循环期间收集的强度数据,处理器可以计算当前碱基识别循环的预移相权重b(即,读数中的第一碱基识别)。参见过程框913。利用前两个循环的强度值和预移相权重,处理器计算第二碱基识别循环的校正强度数据值(i2)。校正的强度数据值可以存储在第二处理器缓冲区中。参见过程框915。接下来,处理器使用在框915中获得的校正的强度数据值对第二碱基识别循环进行碱基识别。参见过程框917。
[0114]
此时,测序过程准备开始准备下一个碱基识别循环。通过使用存储在片区缓冲区中的下一个(或第二)碱基识别循环强度数据(i2)和当前碱基识别循环数据(i1)确定移相校正权重a,从过程框919处开始。使用移相校正权重a,处理器接下来从在该第二处理循环期间提取的当前未校正强度数据(i2)和根据过程框921中呈现的表达式的第一处理循环的强度数据值(i1),计算移相校正(但不是预移相校正)强度数据值。这产生第二碱基识别循环的部分校正的强度值阵列(i
2(部分校正的)
)。在执行预移相校正之前,测序仪必须等待下一个处理循环。然而,此时完成了大部分计算,并且单个图像的阵列数据可以存储在片区缓冲区中以供在下一个碱基识别循环中使用。为此,处理器将移相校正的(但不是预移相校正的)强度数据存储在片区缓冲区中(使得i
2(部分校正的)
替换片区缓冲区中的i1)。参见过程框923。
[0115]
此时,完成第一和第二处理循环,并且对第一碱碱识别循环进行了碱基识别,这是第二处理循环。随后的碱基识别循环可以用完全移相校正进行,如图10所示。参见过程框925。
[0116]
图10描绘了操作顺序,其可以在进行完全移相校正的碱基识别的处理循环期间执行。当对片区的簇进行测序时,可以在第三和后续处理循环中执行这种循环。在某些实施方式中,图10中描绘的操作顺序对应于图9的过程框925。
[0117]
如图所示,该过程开始于分配线程和相关的第一和第二处理器缓冲区。参见过程框1003。接下来,处理器从用于下一个碱基识别循环的图像中提取强度数据值(i
n+1
),并将这些值存储在第一处理器缓冲区中。参见过程框1005。同时,处理器检索在前一个碱基识别循环期间存储的部分校正的强度数据值(作为非限制性实例,在图9的实施方式中为i
2(部分校正的)
,或者in–
a(i
n-1
))。这些值现在表示当前碱基识别循环的强度值(in)。它们先前存储在系统存储器的片区缓冲区中,现在从中检索出。参见过程框1007。利用经过移相校正的当前碱基识别循环的部分校正的强度数据值,处理器仅需要进行预移相校正以完成对强度数据的校正并进行必要的碱基识别以用于当前碱基识别循环。为此,处理器确定当前碱基识别循环的预移相校正权重b。这使用刚刚从图像数据中检索的用于下一个循环的提取的强度数据(i
n+1
)以及当前碱基识别循环的先前经部分校正的强度数据来完成。注意此经部分修正的数据刚刚从片区缓冲区检索出。所示部分校正的强度数据可以由表达式i
n-a(i
n-1
)表示。参见过程框1009。
[0118]
利用针对当前碱基识别循环计算的预移相校正权重b,处理器具有计算当前碱基识别循环(in)的完全移相校正强度数据阵列所需的全部。如过程框1009所示进行计算。得到的完全校正的强度数据值存储在第二处理器缓冲区中。参见处理框1011。此后,处理器使用存储在第二处理器缓冲区中的校正强度数据值对当前碱基识别循环进行碱基识别。参见过程框1013。
[0119]
当前处理循环可以开始准备将在下一个处理循环期间执行的下一个碱基识别循环。在所描绘的实施方式中,处理器使用可用于当前碱基识别循环的强度数据来确定下一个碱基识别循环的移相校正权重a。参见过程框1015。回想一下,在处理操作1005,提取了下一个碱基识别循环强度数据并将其存储在了第一处理器缓冲器中。为了进行当前碱基识别的目的,从片区缓冲区检索当前碱基识别循环的部分校正强度值。现在使用相同的部分校正的强度值来计算下一个碱基识别循环的移相校正权重a。利用现在计算的下一个碱基识别循环的移相校正权重,处理器计算移相校正(但不是预移相校正)的强度数据值,如过程框1017所示。处理器然后将下一个碱基识别循环的这些移相校正的强度数据值存储在片区缓冲区中。参见过程框1019。
[0120]
在本发明之前,据假设从移相校正的强度学习预移相权重将影响碱基识别精度。然而,本文结果表明很少或没有不准确的结果。在一些实施方案中,图像数据被压缩(例如,有损压缩),并且甚至将部分移相校正的数据压缩。在这两种情况下,已经证明可以在不损失精度的情况下执行压缩。例如,在没有压缩的情况下,一种实施方案为每个片区使用两个浮点缓冲区(浮点缓冲区的大小为4个字节)。通过压缩,一种实施方案使用单字节缓冲区,从而实现少4x的内存。
[0121]
此时,当前处理循环有效地完成,因此处理器确定在对当前片区的簇进行测序时是否还需要进行更多循环。参见决策框1021。如果不需要从簇读取其他碱基,则该过程完成并且不进行进一步的处理循环。然而,如果需要一个或多个额外的测序循环,则过程控制被引导到过程框1023,其中处理器递增当前循环,此时存储在片区缓冲区中的部分校正的强
度数据值变为当前;即,它们成为新碱基识别循环的值。然后,过程控制返回到过程框1003,其中开始下一个处理循环。
[0122]
实施例
[0123]
如所解释的,某些实施方式通过使用从已经部分移相校正的数据学习的移相权重来减少存储器负担。然而,尚不清楚可以独立地学习移相和预移相权重,并且仍然提供高品质的测序结果。图11中的实例表明这是可以的。
[0124]
如图所示,进行两次比较,每次比较使用基线过程(例如,图5和6的过程)和经优化的新过程以减少主存储器要求(例如,图8和10的过程)。在每次比较中,使用相同的测序仪和样品。具体而言,将illumina hiseqx仪器转换为使用2种染料化学品。保存测序仪的输出图像,并在相同的测序图像上测试两个移相算法,提供完全受控的测试。“簇pf”表示测序仪提供的通量;比对%表示与参考基因组成功比对的簇数,“错误率%”表示软件与参考基因组相比识别的序列的平均错误率。
[0125]
测序结果表明,存储器-有效移相算法与基线算法相当。在该实例中,存储器有效过程产生大约3%的错误率增加,其被主存储器的减少(据估计在一些实施方案中从420千兆字节减少至340千兆字节)补偿。
[0126]
测序方法
[0127]
如上所述,本发明涉及核酸样品的测序。可以使用利用用于碱基识别的一个或多个信息通道的许多测序技术中的任何一种,特别是光学通道。特别适用的技术是核酸附着在阵列中的固定位置(例如,作为簇)并且阵列被重复成像的那些技术。在不同颜色通道中获得图像的实施方式,例如,伴随着用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记的实施方式是特别适用的。在一些实施方式中,确定靶核酸的核苷酸序列的过程可以是自动化过程。某些实施方式包括合成测序(“sbs”)技术。虽然这里强调合成测序技术,但是可以采用其他测序技术。
[0128]
在许多实施方式中,sbs技术涉及通过针对模板链反复添加核苷酸来酶促延伸新生核酸链。在sbs的传统方法中,可以在每次递送时在聚合酶存在下将单核苷酸单体提供给靶核苷酸。然而,在本文所述的方法中,可以在递送时在聚合酶存在下向靶核酸提供多于一种类型的核苷酸单体。
[0129]
sbs可以利用具有终止子部分的核苷酸单体或缺乏任何终止子部分的那些核苷酸单体。利用缺乏终止子的核苷酸单体的方法包括,例如,使用γ-磷酸标记的核苷酸进行焦磷酸测序和测序。在使用缺乏终止子的核苷酸单体的方法中,每个循环中添加的核苷酸的数量通常是可变的并且取决于模板序列和核苷酸递送的模式。对于利用具有终止子部分的核苷酸单体的sbs技术,终止子可以在使用的测序条件下有效地不可逆,如使用双脱氧核苷酸的传统sanger测序的情况,或终止子可以是可逆的,如通过由solexa(现为illumina,inc.)开发的测序方法的情况。
[0130]
sbs技术可利用具有标记部分的核苷酸单体或缺乏标记部分的核苷酸单体。因此,可以基于标记的特征检测掺入事件,例如标记的荧光;核苷酸单体的特征,如分子量或电荷;核苷酸掺入的副产物,例如焦磷酸盐的释放;等等。在测序试剂中存在两种以上不同核苷酸的实施方式中,不同的核苷酸是可以彼此区分的,或者,在所使用的检测技术下,两种以上不同的标记可以是不可区分的。例如,测序试剂中存在的不同核苷酸可以具有不同的
标记,并且可以使用合适的光学器件来区分它们,例如由solexa(现为illumina,inc.)开发的测序方法。
[0131]
一些实施方式包括焦磷酸测序技术。焦磷酸测序检测无机焦磷酸(ppi)的释放,因为特定的核苷酸被掺入到新生链中(ronaghi,m.,karamohamed,s.,pettersson,b.,uhlen,m.和nyren,p.(1996)"real-time dna sequencing using detection of pyrophosphate release."analytical biochemistry 242(1),84-9;ronaghi,m.(2001)"pyrosequencing sheds light on dna sequencing."genome res.11(1),3-11;ronaghi,m.,uhlen,m.和nyren,p.(1998)"a sequencing method based on real-time pyrophosphate."science 281(5375),363;美国专利6,210,891号;美国专利6,258,568号和美国专利6,274,320号,其公开内容通过引用整体上并入本文)。在焦磷酸测序中,释放的ppi可以通过atp硫酸化酶立即转化为三磷酸腺苷(atp)来检测,并且通过荧光素酶产生的光子检测产生的atp水平。待测序的核酸可以附着到阵列中的特征,并且可以对阵列成像以捕获由于在阵列的特征处掺入核苷酸而产生的化学发光信号。在用特定核苷酸类型(例如a、t、c或g)处理阵列后,可以获得图像。添加每种核苷酸类型后获得的图像将在检测到阵列中的哪些特征方面不同。图像中的这些差异反映了阵列上特征的不同序列内容。但是,每个特征的相对位置在图像中将保持不变。可以使用本文所述的方法存储、处理和分析图像。例如,在处理具有每种不同核苷酸类型的阵列后获得的图像可以以与本文例举的相同方式处理,以用于从基于可逆终止子的测序方法的不同检测通道获得的图像。
[0132]
在另一示例性类型的sbs中,循环测序通过逐步添加可逆终止子核苷酸来完成,所述可逆终止子核苷酸含有例如可切割或可光漂白的染料标记,例如,如wo 04/018497和美国专利第7,057,026号中所述。其公开内容通过引用并入本文。该方法由solexa(现为illumina inc.)商业化,并且还描述于wo 91/06678和wo 07/123,744中,其各自通过引用并入本文。利用其中终止可以被逆转并且荧光标记可以切割的荧光标记的终止子,促进有效的循环可逆终止(crt)测序。聚合酶也可以共同工程化以有效地掺入和延伸这些经修饰的核苷酸。
[0133]
在基于可逆终止子的测序实施方式中,标记可以基本上不抑制sbs反应条件下的延伸。然而,检测标记可以是可移除的,例如,通过切割或降解。在将标记掺入阵列核酸特征后可以捕获图像。在特定实施方式中,每个循环包括将四种不同的核苷酸类型同时递送至阵列,并且每种核苷酸类型具有光谱上不同的标记。然后可以获得四个图像,每个图像使用对四种不同标记之一有选择性的检测通道。或者,可以依次添加不同的核苷酸类型,并且可以在每个添加步骤之间获得阵列的图像。在此类实施方式中,每个图像将显示掺入特定类型的核苷酸的核酸特征。由于每个特征的不同序列内容,在不同图像中将存在或不存在不同的特征。但是,特征的相对位置在图像中保持不变。从这种可逆终止子-sbs方法获得的图像可以如本文所述进行储存、处理和分析。在图像捕获步骤之后,可以去除标记并且可以去除可逆终止子部分以用于随后的核苷酸添加和检测循环。在特定循环中检测到标签之后和在后续循环之前去除标签可以提供减少背景信号和循环之间串扰的优点。
[0134]
在特定实施方式中,一些或所有核苷酸单体可包括可逆终止子。在此类实施方式中,可逆终止子/可切割的荧光物可包括通过3'酯键与核糖部分连接的荧光物(metzker,genome res.15:1767-1776(2005),其通过引用并入本文)。其他方法已将终止子化学与荧
光标记的切割分开(ruparel等,proc natl acad sci usa 102:5932-7(2005),其通过引用整体上并入本文)。ruparel等人描述了可逆终止子的开发,其使用小的3'烯丙基基团来阻断延伸,但是可以通过利用钯催化剂短期处理而容易地解封闭。荧光团通过可光切割的接头连接到碱基上,该接头可以通过暴露于长波长紫外光30秒而被容易地切割。因此,二硫化物还原或光切割可用作可切割的接头。可逆终止的另一种方法是在dntp上放置大体积染料后使用自然终止。在dntp上存在带电的大体积染料可以通过空间位阻和/或静电阻碍作用而作为有效的终止剂。除非染料被除去,否则一个掺入事件的存在阻止了进一步的掺入。染料的切割除去了荧光团并有效地逆转了终止。修饰的核苷酸的实例也描述于美国专利第7,427,673号和美国专利7,057,026号,其公开内容通过引用整体上并入本文。
[0135]
可与本文所述的方法和系统一起使用的另外的示例性sbs系统和方法描述于美国专利申请公开第2007/0166705号、美国专利申请公开第2006/0188901号、美国专利第7,057,026号、美国专利申请公开第2006/0240439号、美国专利申请公开第2006/0281109号、pct公开第wo 05/065814号、美国专利申请公开第2005/0100900号、pct公开第wo 06/064199号、pct公开第wo 07/010,251号、美国专利申请公开第2012/0270305号和美国专利申请公开第2013/0260372号,其公开内容通过引用整体上并入本文。
[0136]
一些实施方式可以使用少于四种不同标记来利用四种不同核苷酸的检测。例如,sbs可以利用美国专利申请公开第2013/0079232号的并入材料中描述的方法和系统来进行。作为第一实例,一对核苷酸类型可以在相同波长下检测,但是基于该对中一个成员与另一个成员相比的强度差异,或者基于该对中一个成员的变化来区分(例如,通过化学修饰、光化学修饰或物理修饰),该变化与对该成对的另一成员检测到的信号相比,导致明显的信号出现或消失。作为第二实例,可以在特定条件下检测四种不同核苷酸类型中的三种,而第四种核苷酸类型缺乏在这些条件下可检测的标记,或者在这些条件下检测到最低限度(例如,由于背景荧光导致的最小检测等)。可以基于前三种核苷酸类型各自信号的存在来确定前三种核苷酸类型在核酸中的掺入,并且可以基于任何信号的不存在或最小检测来确定第四核苷酸类型在核酸中的掺入。作为第三实例,一种核苷酸类型可包括在两个不同通道中检测的标记,而在不多于一个通道中检测其他核苷酸类型。不认为上述三个示例性配置是相互排斥的,并且可以以各种组合使用。组合所有三个实例的示例性实施方式是基于荧光的sbs方法,其使用在第一通道中检测到的第一核苷酸类型(例如,具有在被第一激发波长激发时在第一通道中检测到的标记的datp),在第二通道中检测到的第二核苷酸类型(例如,具有在被第二激发波长激发时在第二通道中检测到的标记的dctp),在第一和第二通道中检测到的第三核苷酸类型(例如,具有至少一个在被第一和/或第二激发波长激发时在两个通道中检测到的标记的dttp),和缺乏在任一通道中未被检测到或最低限度地检测到的标记的第四核苷酸类型(例如不具有标记的dgtp)。
[0137]
此外,如美国专利申请公开第2013/0079232号的并入材料中所述,可以使用单个通道获得测序数据。在这种所谓的单染料测序方法中,标记第一核苷酸类型,但在产生第一图像后除去标记,并且仅在产生第一图像后标记第二核苷酸类型。第三核苷酸类型在第一和第二图像中都保留其标记,第四核苷酸类型在两种图像中都保持未标记。
[0138]
一些实施方式可以利用连接技术进行测序。这些技术利用dna连接酶掺入寡核苷酸并鉴定此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中特定核苷酸的
特性(identity)相关的不同标记。与其他sbs方法一样,可以在用标记的测序试剂处理核酸特征阵列后获得图像。每个图像将显示掺入了特定类型的标记的核酸特征。由于每个特征的不同序列内容,在不同图像中将存在或不存在不同的特征,但是特征的相对位置将在图像中保持不变。如本文所述,可以存储、处理和分析从基于连接的测序方法获得的图像。可以与本文描述的方法和系统一起使用的示例性sbs系统和方法描述于美国专利第6,969,488号、美国专利第6,172,218号和美国专利第no.6,306,597号,其公开内容通过引用整体上并入本文。
[0139]
一些实施方式可以利用纳米孔测序(deamer,d.w.&akeson,m."nanopores and nucleic acids:prospects for ultrarapid sequencing."trends biotechnol.18,147-151(2000);deamer,d.和d.branton,"characterization of nucleic acids by nanopore analysis".acc.chem.res.35:817-825(2002);li,j.,m.gershow,d.stein,e.brandin和j.a.golovchenko,"dna molecules and configurations in a solid-state nanopore microscope"nat.mater.2:611-615(2003),其公开内容通过引用整体上并入本文)。在此类实施方式中,靶核酸通过纳米孔。纳米孔可以是合成孔或生物膜蛋白,例如α-溶血素。当靶核酸通过纳米孔时,可以通过测量孔的电导的波动来鉴定每个碱基对(美国专利第7,001,792号;soni,g.v.&meller,"a.progress toward ultrafast dna sequencing using solid-state nanopores."clin.chem.53,1996-2001(2007);healy,k."nanopore-based single-molecule dna analysis."nanomed.2,459-481(2007);cockroft,s.l.,chu,j.,amorin,m.&ghadiri,m.r."a single-molecule nanopore device detects dna polymerase activity with single-nucleotide resolution."j.am.chem.soc.130,818-820(2008),其公开内容通过引用整体上并入本文)。可以如本文所述存储、处理和分析从纳米孔测序获得的数据。特别地,根据本文所述的光学图像和其他图像的示例性处理,可以将数据处理为图像。
[0140]
一些实施方式可以利用涉及dna聚合酶活性的实时监测的方法。可以通过携带荧光团的聚合酶和γ-磷酸标记的核苷酸之间的荧光共振能量转移(fret)相互作用来检测核苷酸掺入,例如,如美国专利第7,329,492号和美国专利第7,211,414号(均通过引用并入本文)中所述,或者核苷酸掺入可以利用例如如美国专利第7,315,019号(其通过引用并入本文)所述的零模式波导,并使用例如如美国专利第7,405,281号和美国专利申请公开第2008/0108082号(各自通过引用并入本文)中所述的荧光核苷酸类似物和工程化聚合酶来检测。可以将照射限制在表面束缚的聚合酶周围的仄升(zeptoliter)级体积,使得可以在低背景下观察到荧光标记的核苷酸的掺入(levene,m.j.等,"zero-mode waveguides for single-molecule analysis at high concentrations."science 299,682-686(2003);lundquist,p.m.等,"parallel confocal detection of single molecules in real time."opt.lett.33,1026-1028(2008);korlach,j.等,"selective aluminum passivation for targeted immobilization of single dna polymerase molecules in zero-mode waveguide nano structures."proc.natl.acad.sci.usa 105,1176-1181(2008),其公开内容通过引用整体上并入本文)。可以如本文所述存储、处理和分析从此类方法获得的图像。
[0141]
一些sbs实施方式包括检测在将核苷酸掺入延伸产物中时释放的质子。例如,基于
释放的质子的检测的测序可以使用购自ion torrent(guilford,ct,life technologies子公司)的电子检测器和相关技术,或者us 2009/0026082 a1、us 2009/0127589a1、us 2010/0137143 a1或us 2010/0282617 a1中所述的测序方法和系统,它们各自通过引用并入本文。本文所述的用于使用动力学排除来扩增靶核酸的方法可以容易地应用于用于检测质子的基板。更具体地,本文所述的方法可用于产生用于检测质子的扩增子的克隆群。
[0142]
上述sbs方法可以有利地以多重形式进行,使得同时操作多种不同的靶核酸。在特定的实施方式中,可以在共同的反应容器中或在特定基板的表面上处理不同的靶核酸。这允许方便地递送测序试剂,去除未反应的试剂和以多重方式检测掺入事件。在使用表面结合的靶核酸的实施方式中,靶核酸可以是阵列形式。在阵列形式中,靶核酸通常可以以可空间区分的方式结合到表面。靶核酸可以通过直接共价连接,与珠或其他颗粒连接,或与聚合酶或附着于表面的其他分子结合而结合。阵列可以在每个位点包括靶核酸的单拷贝(也称为特征),或者在每个位点或特征处可以存在具有相同序列的多个拷贝。通过扩增方法,例如桥式扩增或乳液pcr,可以产生多拷贝。
[0143]
本文所述的方法可使用具有各种密度中任何一种的特征的阵列,所述密度包括例如至少约10个特征/cm2,100个特征/cm2,500个特征/cm2,1,000个特征/cm2,5,000个特征/cm2,10,000个特征/cm2,50,000个特征/cm2,100,000个特征/cm2,1,000,000个特征/cm2,5,000,000个特征/cm2或更高。
[0144]
本文所述的方法可以提供多种靶核酸的快速和有效的并行检测。因此,本发明提供了能够使用本领域已知技术制备和检测核酸的集成系统,例如上文例举的那些。因此,本发明的集成系统可以包括能够将扩增试剂和/或测序试剂递送至一个或多个固定的dna片段的流体组分,该系统包含下述组分,例如泵、阀、储库、流体管线等。流动池可以经配置和/或用于集成系统中以检测靶核酸。示例性的流动池描述于例如2010/0111768a1和us系列号13/273,666中,其各自通过引用并入本文。如以流通池为例,集成系统的一个或多个流体组件可用于扩增方法和检测方法。以核酸测序实施方式为例,集成系统的一个或多个流体组分可用于本文所述的扩增方法,并用于在测序方法中递送测序试剂,例如上文例举的那些。或者,集成系统可包括单独的流体系统以执行扩增方法和执行检测方法。能够产生扩增的核酸并且还确定核酸序列的集成测序系统的实例包括但不限于miseqtm平台(illumina,inc.,san diego,ca)和美国系列号13/273,666中所述的装置,其通过引用并入本文。
[0145]
在本文所述方法的一些实施方案中,映射(mapping)的序列标签包含约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130b、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp的序列读数。在一些情况下,当产生配对的末端读数时,将大于500bp的单端读数用于大于约1000bp的读数。通过比较标签的序列与参考序列来确定测序的核酸分子的染色体起源,而实现序列标签的映射,并且不需要特定的遗传序列信息。可以允许小程度的错配(每个序列标签0-2个错配)来解释参考基因组和混合样品中的基因组之间可能存在的微小多态性。
[0146]
用于实时分析测序数据的系统和设备
[0147]
通常使用各种计算机执行的算法和程序来进行对测序数据的分析。因此,某些实施方式采用涉及存储在一个或多个计算机系统或其他处理系统中或通过其传输的数据的
过程。本文公开的实施方式还涉及用于执行这些操作的设备。该设备可以为所需目的而专门构造,或者其可以是由存储在计算机中的计算机程序和/或数据结构选择性地激活或重新配置的通用计算机(或一组计算机)。在一些实施方式中,一组处理器协作地(例如,经由网络或云计算)和/或并行地执行所述分析操作中的一些或全部。用于执行本文描述的方法的处理器或处理器组可以是各种类型,包括微控制器和微处理器,例如可编程设备(例如,cpld和fpga)和非可编程装置,例如门阵列asic或通用微处理器。
[0148]
另外,某些实施方式涉及有形和/或非暂时性计算机可读介质或计算机程序产品,其包括用于执行各种计算机实现的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的示例包括但不限于半导体存储器装置、诸如磁盘驱动器等磁介质、磁带、诸如cd等光学介质、磁光介质以及专门配置为存储和执行程序指令的硬件装置,例如只读存储器装置(rom)和随机存取存储器(ram)。计算机可读介质可以由最终用户直接控制,或者介质可以由最终用户间接控制。直接控制的介质的实例包括位于用户设施处的介质和/或不与其他实体共享的介质。间接控制的介质的实例包括用户经由外部网络和/或通过提供诸如“云”等共享资源的服务间接访问的介质。程序指令的实例包括机器代码(例如由编译器产生的机器代码),以及包含可由计算机使用解释器执行的更高级代码的文件。
[0149]
在各种实施方式中,所公开的方法和装置中采用的数据或信息以电子格式提供。此类数据或信息可包括源自核酸样品的读数、与参考序列的特定区域比对(例如,与染色体或染色体区段比对)的此类标签的计数或密度、相邻读数或片段之间的间隔距离、这种间隔距离的分布、以及诊断等。如本文所使用的,以电子格式提供的数据或其他信息可用于存储在机器上和机器之间的传输。通常,电子格式的数据以数字方式提供,并且可以以位和/或字节为单位存储在各种数据结构、列表、数据库等中。数据可以电子、光学等方式实现。
[0150]
一个实施方式提供了一种用于确定移相和预移相系数的计算机程序产品,以及移相校正的幅度值和相关的碱基识别。计算机产品可以包含用于执行上述用于移相和碱基识别的任何一种或多种方法的指令。如所解释的,计算机产品可以包括非暂时性和/或有形计算机可读介质,其上记录有计算机可执行或可编译逻辑(例如,指令),以用于使处理器能够比对读数读取,鉴定来自经比对读数的片段和/或岛,鉴定等位基因,包括indel等位基因、杂合多态性、染色体的相部分、单倍型染色体和基因组。在一个实例中,计算机产品包括(1)计算机可读介质,其上存储有计算机可执行或可编译逻辑(例如,指令),以用于使处理器能够对核酸样品的幅度数据(例如,来自两个以上通道的颜色强度数据)进行移相校正;(2)用于进行核酸样品的碱基识别的计算机辅助逻辑;(3)用于产生表征核酸样品的输出的输出程序。
[0151]
应当理解,对于无辅助的人,执行本文公开的方法的计算操作是不实际的,或者甚至是不可能的。例如,在单个碱基识别循环期间对甚至单个片区生成移相系数,在没有计算装置的帮助的情况下可能需要多年的努力。当然,问题是复杂的,因为可靠的ngs测序通常需要对至少数千甚至数百万的读数的移相校正和碱基识别。
[0152]
可以使用用于对核酸样品进行测序的系统来进行本文公开的方法。该系统可以包括:(a)用于从测试样品接收核酸的测序仪,其提供来自样品的核酸序列信息;(b)处理器;(c)一个或多个计算机可读存储介质,其上存储有用于在处理器上执行的指令以评估来自测序仪的数据。计算机可读存储介质还可以存储来自流动池上的簇的部分移相校正的海量
数据。
[0153]
在一些实施方式中,所述方法由计算机可读介质指示,所述计算机可读介质上存储有用于执行确定序列的相位的方法的计算机可读指令。因此,一个实施方式提供了一种计算机程序产品,其包括一个或多个计算机可读的非暂时性存储介质,所述存储介质上存储有计算机可执行指令,当由计算机系统的一个或多个处理器执行时,所述计算机可执行指令使计算机系统实施用于测序dna样品的方法。该方法包括:(a)获得表示包含多个读取核酸碱基的位点的基板的图像(例如,图像本身)的数据;(b)从基板图像中获得多个位点的颜色值(或代表各个碱基/核苷酸的其他值);(c)将颜色值存储在处理器缓冲区中;(d)检索碱基识别循环的多个位点的部分移相校正的颜色值,其中部分移相校正的颜色值在紧邻的前一个的碱基识别循环期间存储在测序仪的存储器中;(e)从(i)在紧邻的前一个的碱基识别循环期间存储的部分移相校正的颜色值和(ii)存储在处理器缓冲器中的颜色值确定预移相校正;以及(f)从(i)处理器缓冲器中的颜色值,(ii)在紧邻的前一个的循环期间存储的部分移相校正值,以及(iii)预移相校正确定校正的颜色值。
[0154]
序列或其他数据可以直接或间接地输入计算机或存储在计算机可读介质上。在各种实施方式中,计算机系统在板上或直接耦合到测序装置,所述测序装置从样品中读取和/或分析核酸序列。来自这些工具的序列或其他信息通过数据传输接口提供给计算机系统(或简单地在板上处理硬件上)。另外,存储器装置可以存储读数、碱基识别品质信息、移相系数信息等。存储器还可以存储用于分析和呈现序列数据的各种例程和/或程序。这样的程序/例程可以包括用于执行统计分析等的程序。
[0155]
在一个实例中,用户将样品提供到测序设备中。通过连接到计算机的测序设备收集和/或分析数据。计算机上的软件允许数据收集和/或分析。可以存储、显示数据(通过监视器或其他类似设备),和/或将其发送到另一个位置。计算机可以连接到互联网,互联网用于将数据传输到远程用户(例如,医生、科学家或分析员)使用的手持设备。应该理解,可以在传输之前存储和/或分析数据。在一些实施方式中,收集原始数据并将其发送到将分析和/或存储数据的远程用户或设备。例如,读数可以在它们生成时或之后不久传输,并且可以远程比对和进行其他分析。传输可以通过互联网进行,但也可以通过卫星或其他连接进行。或者,数据可以存储在计算机可读介质上,并且介质可以运送给最终用户(例如,通过邮件)。远程用户可以位于相同或不同的地理位置,包括但不限于建筑物、城市、州、国家或大陆。
[0156]
在一些实施方式中,所述方法还包括收集关于多个多核苷酸序列的数据(例如,读数)并将该数据发送到计算机或其他计算系统。例如,计算机可以连接到实验室设备,例如样品收集设备、多核苷酸扩增设备或核苷酸测序设备。收集或存储的数据可以从计算机传输到远程位置,例如,通过本地网络或诸如互联网等广域网。可以在所述远程位置对传输的数据执行各种操作。
[0157]
在本文提供的任何系统的一些实施方式中,测序仪配置成执行下一代测序(ngs)。在一些实施方式中,测序仪配置成使用可逆染料终止子利用合成测序进行大规模平行测序。在其他实施方式中,测序仪配置成进行单分子测序。
[0158]
结论
[0159]
在不脱离本发明的主旨或基本特征的情况下,本发明可以以其他特定形式实施。
所描述的实施方式在所有方面都应被视为仅是说明性的而非限制性的。因此,本发明的范围由所附权利要求而不是前文的描述表示。在权利要求的含义和等同范围内的所有变化都包含在其范围内。
技术特征:
1.一种通过核酸测序仪在碱基识别循环期间从所采集的图像数据确定校正的颜色值的方法,所述核酸测序仪包括图像采集系统、一个或多个处理器以及存储器,所述方法包括:(a)获得包含读取核酸碱基的多个位点的基板的图像,其中所述位点显示代表核酸碱基类型的颜色;(b)从所述基板的图像测量所述多个位点的颜色值;(c)将所述颜色值存储在所述测序仪的一个或多个处理器的处理器缓冲区中;(d)检索所述多个位点的经移相校正的颜色值,其中所述经移相校正的颜色值在前一个碱基识别循环期间存储在所述测序仪的存储器中;和(e)根据以下确定校正的颜色值:所述处理器缓冲区中的颜色值,和在前一个循环期间存储的移相校正值。2.如权利要求1所述的方法,所述方法还包括根据以下确定预移相校正:在前一个碱基识别循环期间存储的经移相校正的颜色值,和存储在所述处理器缓冲区中的颜色值,并且其中,所述校正的颜色值另外地由所述预移相校正确定。3.如权利要求2所述的方法,其中,所述预移相校正包括权重,并且其中确定所述校正的颜色值包括将所述权重乘以从所述基板的图像测量的所述多个位点的颜色值。4.如权利要求1所述的方法,所述方法还包括:确定后一个碱基识别循环的移相校正;通过对存储在所述测序仪的存储器中的多个位点的颜色值应用移相校正,产生后一个碱基识别循环的经移相校正的颜色值,这通过对以下求和进行:所述多个位点的移相校正的颜色值,和来自在(b)中测量的基板的图像的多个位点的颜色值;以及将后一个碱基识别循环的经移相校正的颜色值存储在所述测序仪的存储器中。5.如权利要求1所述的方法,其中,所述核酸测序仪在所述多个位点处合成核酸。6.如权利要求1所述的方法,其中,从所述测序仪的两个通道确定所述颜色值。7.如权利要求1所述的方法,其中,所述颜色值是从所述测序仪的四个通道获得的。8.如权利要求1所述的方法,其中,所述基板包括流动池,其中所述流动池在逻辑上被分成片区,并且其中每个片区代表所述流动池的包括位点子集的一个区域,所述子集由所述图像采集系统捕获在单个图像中,并且其中,所述方法还包括:在操作(a)之前,向流动池提供试剂并允许所述试剂与位点相互作用以在碱基识别循环期间显示代表核酸碱基类型的颜色。9.如权利要求8所述的方法,所述方法还包括,在操作(e)之后:向所述流动池提供新鲜试剂,并允许所述新鲜试剂与所述位点相互作用,以显示代表后一个碱基识别循环的核酸碱基类型的颜色;和重复操作(a)~(e)以进行所述后一个碱基识别循环。10.如权利要求9所述的方法,所述方法还包括:创建用于进行碱基识别循环的操作(a)~(e)的第一处理器线程,以及创建用于进行后一个碱基识别循环的操作(a)~(e)的第二
处理器线程。11.一种核酸测序仪,所述核酸测序仪包括:图像采集系统;存储器;和一个或多个处理器,所述一个或多个处理器被设计或配置成:(a)获得包含读取核酸碱基的多个位点的基板的图像,其中所述位点显示代表核酸碱基类型的颜色;(b)从所述基板的图像获得所述多个位点的颜色值;(c)将所述颜色值存储在处理器缓冲区中;(d)对于碱基识别循环检索所述多个位点的经移相校正的颜色值,其中所述经移相校正的颜色值在前一个碱基识别循环期间存储在所述存储器中;和(e)根据以下确定校正的颜色值:所述处理器缓冲区中的颜色值,和在前一个循环期间存储的移相校正值。12.如权利要求11所述的核酸测序仪,其中,所述一个或多个处理器进一步被设计或配置成根据以下确定预移相校正:在前一个碱基识别循环期间存储的经移相校正的颜色值,和存储在所述处理器缓冲区中的颜色值,并且其中,所述校正的颜色值另外地由所述预移相校正确定。13.如权利要求11所述的核酸测序仪,其中,所述存储器划分为多个片区缓冲区,每个片区缓冲区被指定用于存储表示在所述基板上的片区的单个图像的数据。14.如权利要求11所述的核酸测序仪,其中,所述存储器具有约512千兆字节以下的存储容量。15.如权利要求12所述的核酸测序仪,其中,所述预移相校正包括权重,并且其中所述一个或多个处理器被设计或配置成通过将所述权重乘以从所述基板的图像测量的所述多个位点的颜色值而确定所述校正的颜色值。16.如权利要求11所述的核酸测序仪,其中,所述一个或多个处理器还被设计或配置成:确定后一个碱基识别循环的移相校正;通过对存储在所述存储器中的多个位点的颜色值应用移相校正,产生后一个碱基识别循环的经移相校正的颜色值;以及将后一个碱基识别循环的经移相校正的颜色值存储在所述存储器中。17.如权利要求16所述的核酸测序仪,其中,所述一个或多个处理器被设计或配置成通过对以下求和而产生后一个碱基识别循环的经移相校正的颜色值:所述多个位点的经移相校正的颜色值,和来自在(b)中测量的基板的图像的多个位点的颜色值。18.如权利要求16所述的核酸测序仪,其中,所述一个或多个处理器被设计或配置成通过将经移相校正的颜色值存储在所述存储器的片区缓冲区中而存储后一个碱基识别循环的经移相校正的颜色值。
19.如权利要求11所述的核酸测序仪,所述核酸测序仪还包括在所述多个位点处合成核酸的系统。20.如权利要求11所述的核酸测序仪,其中,所述一个或多个处理器被设计或配置成从两个通道获得所述颜色值。
技术总结
本发明涉及移相校正。本发明方法可以:(a)获得包括多个读取核酸碱基的位点的基板(例如,流动池的一部分)的图像;(b)从基板的图像测量多个位点的颜色值;(c)将所述颜色值存储在所述测序仪的一个或多个处理器的处理器缓冲区中;(d)检索所述多个位点的部分移相校正的颜色值,其中所述部分移相校正的颜色值在紧邻的前一碱基识别循环期间存储在所述测序仪的存储器中;(e)确定预移相校正;(f)确定校正的颜色值。在各种实现方案中,这些操作都在单个碱基识别循环期间执行。在某些实施方式中,该方法还包括使用校正的颜色值来对多个位点进行碱基识别。可以设计或配置测序仪以实施这样的方法。样的方法。样的方法。
技术研发人员:R
受保护的技术使用者:伊鲁米那股份有限公司
技术研发日:2018.01.05
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
