用于改进多核苷酸体外组装的组合物和方法与流程

未命名 10-10 阅读:116 评论:0

用于改进多核苷酸体外组装的组合物和方法


背景技术:

1.从较小的组件dna分子体外有序组装大dna分子是合成生物学的重要特征。已经开发了多种方法,包括序列和连接无关的克隆(slic)(li等人,nat.methods res,第4卷,251-256(2007))、golden gate(engler等人,plos one 3,e3647(2007)、engler等人,plosone e5553(2009))、循环聚合酶延伸克隆(cpeg)(quan等人,plosone 4,e 6441(2009),(new england biolabs,ipswich,ma)、无缝连接克隆提取物(slice)(zhang等人,nar 40,e55(2012)和枯草杆菌中有序基因组装(ogab)(tsuge等人,scientific reports,5,10655(2015))。这些方法在体外和体内组装方法、同源重组方法以及外切酶和连接酶的各种使用方面有所不同。任何组装方法的成功都取决于组装片段的频率和保真度,然而对这些参数所依赖的标准的系统分析却非常少。
2.在被称为golden gate组装的方法中,dna的片段是用在双链dna上产生单链悬链的限制性核酸内切酶而形成的。然后在多个不同的片段上的悬链之间进行连接,以由这些片段组装单一的双链分子。wo 2020/081768中描述了在期望数量的片段的指定标准下为多核苷酸片段组装确定优选悬链的方法。使用t4 dna连接酶选择优化悬链是在改变悬链序列的基础上,基于组装片段的广泛测序使用计算机软件进行整理(collate)。包括温度和温育时间的其他因素也有变化,并将这些因素的结果整合到计算分析中。对片段组装的保真度和效率的系统分析,以及所得数据以用户友好的格式的可及性,显示出促进了大量的片段以期望的顺序以时间上有效的方式组装。
3.golden gate组装方法的一个方面是对iis型限制性核酸内切酶和连接酶的依赖。识别5或6个碱基的iis型核酸内切酶可能会产生不期望的内部切割位点。这些可以通过位点定向诱变或通过在识别序列中设计组装连接点来消除,但这些消除策略需要时间并增加成本。内部位点大大降低了组装效率,因为它们使完成的构建体容易被组装反应中存在的限制酶消化,导致不正确和不需要的组装。因此,具有识别7个核苷酸的iis型内切酶以进行裂解是期望的。这样的酶对组装多片段是特别有用的,在这种情况下,组装是复杂的,并且最大效率是期望的。此外,能够彻底切割且没有可检测到的星号活性(star activity)的核酸内切酶是优选的。
4.grigaite等人,nucleic acid research 2002,vol 30e123描述了aari,它是一种具有7个核苷酸识别序列的iis型核酸内切酶。遗憾地,这种核酸内切酶具有星号活性,并且不能将dna彻底切割。aari的dna或蛋白质序列或缓冲要求都不为人所知,因此改进这种酶的选项不可得。因此,需要另外的改进的限制性核酸内切酶,它能识别7个核苷酸以形成4碱基悬链,并能彻底切割。
5.golden gate组装方法的另一个方面是它对t4连接酶的依赖。用t4 dna连接酶检测到了连接各种互补悬链的偏倚(potapov等人,acs synthetic biology,7,2665-2674(2018);nilsson等人,nucleic acids res.10:1425-1437(1982);goffin等人,nucleic acids res.15:8755-8771(1987);wu等人,gene,76:245-254(1989);harada等人,nucleic acids res.,21,2287-2291(1993);showalter等人,chem rev.106:340-360(2006);engler
等人,plosone e5553(2009);engler等人,methods mol.biol.,729:167-181(2011);engler等人,methods mol.biol.,1116,119-131(2014))。这种偏倚伴随着因连接的dna中错配序列的连接而产生的不太完美保真度,对于有序组装反应中的大量片段来说,这成为重要问题。对于大片段组装来说,选择悬链组的通用规则还没有被确定。相反,对于每种单独的情况,组装设计可以通过计算机工具来实现,该工具可以比较退火的悬链连接数据,以提供优化的悬链组或评估现有的悬链组。因为大的片段组的组装的用途增加,所以的确需要完善现有的计算机工具来进行数据优化组装设计。


技术实现要素:

6.提供了一种合成自互补寡核苷酸,其特征在于双链区和单链环,其中双链区含有(new england biolabs,inc.)的识别序列,具有不可连接的3’和5’端,并且不能被paqci裂解。本文所定义的paqci包括与野生型相比氨基酸修饰不超过10%并保留dna识别特异性和裂解特性的变体。寡核苷酸可由以下任何一个或多个特征进一步限定:双链区的长度为10-50个碱基对;寡核苷酸的长度小于110个核苷酸;寡核苷酸的3’端不是3’羟基;寡核苷酸的5’端不是5’磷酸和/或识别序列为cacctgc;和在寡核苷酸中仅出现一次。
7.提供了一种反应混合物,其包括上述合成自互补寡核苷酸和paqci限制性核酸内切酶或其变体,其氨基酸序列与seq id no:1具有至少90%的氨基酸序列一致性,其中paqci在本文中限定为包括与野生型相比氨基酸修饰不超过10%并保留dna识别特异性和裂解特性的变体。反应混合物的特征可包括以下一个或多个特征:paqci与合成自互补寡核苷酸的比在1单位paqci:0.75pmole至9pmole的寡核苷酸的范围内;包括双链dna底物和/或连接酶;dna底物含有paqci的一个或多个识别序列,并且可被paqci裂解以产生4碱基悬链;dna底物中的识别序列为cacctgc;dna连接酶选自t4 dna连接酶、t3dna连接酶、t7 dna连接酶、pbcv-1dna连接酶和hlig3;paqci与连接酶的比为2.5-20个paqci单位比200-800个连接酶单位;反应混合物包括多个质粒或pcr产物,这些质粒或pcr产物包含的片段每个侧边都有paqci的结合位点,并且其中通过paqci或其变体对质粒或pcr产物的裂解产生具有不同的4碱基悬链的片段。
8.提供了一种方法,包括以下步骤:(a)获得反应混合物,其包括(i)如上所述的合成寡核苷酸;(ii)paqci;(iii)连接酶;和(iv)dna底物库,每个底物具有至少一个paqci识别序列和切割位点;(b)用paqci切割dna底物库,产生具有4碱基悬链的片段;和(c)将互补的4碱基悬链连接起来,产生片段的有序组装物。
9.该方法可包括以下特征:库中的dna底物选自下列的一种或多种:pcr产物、质粒、基因组或染色体;步骤(c)可进一步包括将有序组装物连接到目的载体或病毒基因组中;目的载体是质粒或染色体;连接酶可选自:t4 dna连接酶、t3 dna连接酶、t7 dna连接酶、pbcv-1和人类连接酶3;有10-100个具有独特序列的dna底物,并且有序组装物包括在步骤(c)中连接在一起的10-100个片段;在反应混合物中包括至少20个具有独特序列的dna底物,并且有序组装物包括在步骤(c)中连接在一起的至少20个片段;并且反应混合物可以另外包括dna修复酶,例如脱腺苷酶endoms,例如酵母脱腺苷酶,和/或群集剂,例如分子量在600-8000的范围内的聚乙二醇(peg)。
10.步骤(a)中的方法可以包括:使用计算机工具确定反应混合物的4碱基悬链组,其
中:(i)计算机工具由数据集生成dna库的4碱基悬链组的优化的保真度和/或频率得分,其中优化的保真度和/或频率得分源自互补序列退火的数据;以及来自不同的4碱基悬链的连接酶活性的数据;和/或(ii)计算机工具在计算机序列(silico sequence)中提供断点,以生成用于在有序组装物中经由优化的4碱基悬链连接的片段序列。
11.提供了一种试剂盒,它包含上述的合成自互补寡核苷酸和包含上述限定的变体的paqci。该试剂盒的其他组件可包括以下一种或多种:连接酶;选自以下的辅助因子:修复酶、错配的特异性核酸内切酶比如endoms、脱腺苷酶和群集剂比如聚乙二醇(peg),其分子量在600-8000范围内;以及从具有4碱基悬链的组件片段合成大dna的说明书。试剂盒中的试剂可以组合在一起,或者在两个或更多个容器中。在一个实施方式中,至少有一种寡核苷酸、连接酶和paqci变体被冻干或固定在固体基底比如二维或三维表面上。
12.提供了一种计算机实施的方法,用于为在选定的连接条件下进行的有序组装反应选择悬链组,该方法包括(a)接收:(i)用于组装反应的期望的悬链数量和(ii)悬链的长度;(b)从悬链表中选择悬链组,其中选择的悬链组具有(i)中接收的期望的悬链数量和(ii)中接收的悬链长度;(c)从多种不同的连接酶选择连接酶,用于以减小的偏倚连接悬链;(d)对于该组中的每个单条悬链,计算所选择的连接酶的连接保真度得分,其中每个单条悬链的连接保真度得分表示相对于该组中的所有悬链及其互补序列,该单条悬链及其互补序列独立地连接到完全互补的悬链的频率;(e)基于步骤(d)中所输出的计算的每个单条悬链的连接保真度得分,计算该悬链组的整体连接保真度得分;(f)迭代(b)-(e),直到计算了多个整体连接保真度得分,每个得分针对不同的悬链组;和(g)提供具有选定连接酶的适合整体连接保真度得分的悬链组。
13.计算机实施的方法的一个或多个特征包括:(b)中选择的悬链组中的每个单条悬链在该组中是唯一的,并且不与该组中的另一条悬链互补,并且不是回文的;(c)中计算连接保真度得分进一步包括:查询不同连接酶的连接频率表和偏倚表,所述表包括连接事件和/或错配事件数量的单个实验限定的测量值;计算相对于在单条悬链和组中所有悬链及其互补序列与单条悬链的互补序列和组中所有悬链及其互补序列之间发生的连接事件总数,在每个单条悬链及其互补序列之间发生的连接事件和/或错配事件的数量;其中,该悬链组对应于用于有序组装成靶标多核苷酸的多个双链多核苷酸片段每一端上的各单条悬链,其中各单条悬链是由2-5个核苷酸组成的单链序列,使得每个多核苷酸片段的每一端具有不同的悬链,并且其中片段组装的顺序是在多核苷酸一端的悬链与相邻多核苷酸一端的互补悬链退火的产物。
14.该方法的另一个特征可以包括:在(a)中接收(iv)组装物的核苷酸序列;和(v)其中(iv)的核苷酸序列可以被酶切的一组区间,并在区间中确定其长度与(ii)中输入的悬链长度相同的非冗余子序列组,其中每个子序列具有悬链;并且该方法进一步包括:(h)将具有适合整体保真度得分的悬链组的非冗余子序列组存储。
15.另一个特征可以包括:通过组装物的核苷酸序列中的开始和结束坐标来限定(v)的每个区间。
16.另一个特征可以包括:在(e)中,将(b)-(d)迭代至少1000次。
17.另一个特征可以包括:在(a)中,接收选定的用于多核苷酸片段的有序组装的酶切和连接的实验条件。
18.另一个特征可以包括:接收选定的实验条件,以在(g)中提供具有适合保真度和/或频率得分的悬链组,用于退火和与选定的连接酶连接。
19.另一个特征可以包括使上述计算机实施的方法被执行,并接收包含(g)中鉴定的悬链组的输出,和/或如果(iv)和(v)被输入,则接收用于有序组装的多核苷酸片段组的序列,其中片段的末端由(g)中鉴定的悬链限定。
20.该计算机实施的方法可包括获得多核苷酸片段组的序列,该片段具有在区间中的可被酶切以产生鉴定的悬链的鉴定的非冗余子序列组。该方法的另一个特征可以包括确定,对于该组中的片段数,选定的实验条件和计算机生成的悬链组适合于以互补退火和连接酶依赖性连接的有效量的保真度和频率进行选定的多核苷酸片段组的有序组装。实验条件(连接条件)可以包括选择具有适合保真度和频率得分的dna连接酶,用于连接含有4碱基悬链的多核苷酸片段组,其中例如,连接酶是野生型t4 dna连接酶,或其选自热稳定型t4 dna连接酶和耐盐型t4 dna连接酶的变体,其中连接酶选自:t4 dna连接酶、t7 dna连接酶、hlig3 dna连接酶、t3 dna连接酶、pbcv-1dna连接酶,t4 dna连接酶、t7 dna连接酶、hlig3 dna连接酶、t3 dna连接酶或pbcv-1dna连接酶中任何一种的温度稳定变体,以及t4 dna连接酶、t7 dna连接酶、hlig3 dna连接酶、t3 dna连接酶、pbcv-1dna连接酶中任何一种的高度盐稳定性变体;和/或选择具有特征dna识别序列的iis型限制性核酸内切酶,用于对含有识别序列的多核苷酸片段组进行酶切,使得被切割的每个多核苷酸片段含有来自该悬链序列组的悬链序列,其中例如,iis型限制性核酸内切酶具有7-碱基识别序列,例如paqci。
21.用于从一组多核苷酸片段的有序组装靶标多核苷酸的选定的实验条件的其他实例包括连接条件,其包括盐浓度、dna修复酶、温度范围和/或切割和连接的热循环条件中的一种或多种。例如,盐浓度可以在50mm-150mm盐的范围内,dna修复酶是endoms或t7 endo i,温度范围是37℃-50℃,并且热循环条件选自下拉式(drop-down)、下触式(touch-down)和上触式(touch-up)温度循环。
22.在该方法的其他实施方式中,其他特征可包括:选自病毒基因组、原核生物基因组、操作子和代谢途径的组装物的核苷酸序列;以及其中产生组装物的多核苷酸片段的数量在2-100个片段的范围内。
23.提供了一种用于通过合适的软件执行所述方法的计算机可读介质。
24.提供了一种用于合成靶标多核苷酸的方法,其包括:(a)使用上述计算机实施的方法在包括选择连接酶的一组实验条件下,获得具有适合整体保真度得分的悬链组;其中计算机指示自动仪器或用户在至少部分由用户确定的一组选定的实验条件下,组装多核苷酸片段组,这些片段的序列任选地由计算机或用户确定并且是通过酶促获得的或化学合成的;(b)在仪器内或反应管中,在选定的实验条件下,通过组合连接酶、限制性核酸内切酶和多核苷酸片段,允许任选地自动有序组装靶标多核苷酸;以及(c)任选地将靶标多核苷酸引入:(i)细菌细胞;或(ii)体外系统中,用于表达一个或多个基因。
25.该方法通过重复步骤(a)和(b)实现靶标多核苷酸的组装,使得在第一轮中,多核苷酸片段的长度小于1000个碱基,从而使组装的片段形成临时靶标多核苷酸,并且临时靶标多核苷酸形成用于下一轮有序组装的多核苷酸片段,以形成最终的靶标多核苷酸。(a)中的多核苷酸片段组是2-100个片段,更具体地是20-100个片段或至少20个片段。该方法可包括在(b)之前对多核苷酸片段组进行多重扩增。在该方法中,靶标多核苷酸可以是dna,该
dna可以转录形成靶标rna。靶标多核苷酸可以是dna,并且其中该dna在细胞中表达以产生一种或多种蛋白质。例如,靶标蛋白可以是代谢途径、病毒基因组或免疫细胞基因的一部分或全部。
26.提供了一种由20-100个dna片段进行有序的dna组装以产生大dna的方法,该方法有以下步骤,可以按任何顺序进行:(a)从计算机设计工具获得优化的4碱基悬链序列组用于在有序组装反应中连接20-100个片段的的指令,其中计算机设计工具从一组或多组数据计算出优化的悬链组,其中每组数据来自对所有4碱基悬链组合的单个连接酶偏好的频率和保真度分析;以及(b)获得具有优化的4碱基悬链组的20-100个片段,以便在有序组装反应中与选定的连接酶连接,产生大dna。
27.该方法可包括:使用聚合酶链式反应(pcr)将iis型限制性核酸内切酶识别序列添加到20-100个片段中,或将20-100个片段插入到20-100个质粒中,该质粒在片段每一端的插入位点具有iis型限制性核酸内切酶识别序列,或合成具有优化的4碱基悬链的20-100个片段。
28.可以选择具有5’cacctgc3’的识别序列的iis型限制性核酸内切酶,并且产生优化的4碱基悬链组的切割位点是5’cacctgc(n4)3’(seq id no:2)和3’gtggacg(n8)5’(seq id no:3)。例如,限制性核酸内切酶是paqci。在其他特征中,连接酶可选自t4 dna连接酶、t7 dna连接酶、hlig3 dna连接酶、t3 dna连接酶或pbcv-1dna连接酶中的一种或多种。
29.提供了一种用于高通量组装定制t细胞的方法,包括以下步骤:(a)鉴定来自患者的肿瘤细胞上的表面抗原,其中蛋白质对肿瘤细胞具有特异性;(b)收集来自患者的t细胞;(c)使具有4碱基悬链的dna片段有序组装,形成编码肿瘤抗原特异性的嵌合抗原受体的大dna;以及(d)将大dna引入已被位点定向(site direct)crispr切割的t细胞的基因组。
30.在(d)中的大dna可以是多个保守的dna片段和多个可变的dna片段序列有序组装的产物,使得至少保守的dna片段被单独存储在细菌细胞的质粒中,用于定制t细胞的高通量组装。
31.提供了一种用于产生具有突变的病毒基因组的方法,包括(a)产生用于有序组装成病毒基因组的多个片段;(b)选择允许由连接酶连接多个错配的四碱基悬链;和(c)测试产品病毒基因组的抗生素活性或作为疫苗生产的底物测试该产品病毒基因组。这种方法的实例是其中连接酶是相对低保真度的连接酶,例如hlig3。可以在高通量的工作流程中使用微流体装置或机器人装置处理多个样品,重复循环连接片段,以从小的dna片段产生任何大小的dna,完成上述方法。
32.附图描述
33.图1a-1b显示了24个片段组装的paqci性能比较(效率),由每50ul生长晕(outgrowth)(总生长晕的1/20)中具有表示正确lacl/lacz组装的蓝色表型的菌落数量确定。
34.与aari相比,来自paucibacter aquatile的paqci与合成的活化剂寡核苷酸(也称为“活化剂”或“寡核苷酸”)和t4 dna连接酶一起提供了大大增强的菌落形成效率和从24个片段组装的大dna中序列的保真度。
35.图1a:在30个循环中,与对于aari所观察到的相比,paqci提供的具有正确组装的菌落数量多出10倍以上。
36.图1b:对于laci/lacz盒的24个片段组装反应,paqci在30个循环(5分钟37℃至5分钟16℃)中提供的保真度比aar1至少高15%,如通过蓝色菌落确定的。
37.图1c显示了paqci的识别序列和不对称切割位点,以产生4碱基悬链。
38.图1d显示与aari不同,paqci切割彻底,并且不表现出星号活性。按照制造商推荐的方案,用8个单位paqci(new england biolabs,ipswich,ma)或aari(thermo fisher scientific,waltham,ma)消化1μg lambda dna。在1%的琼脂糖凝胶上分析消化物。
39.图2a-2c提供了测定的示意图,该测定用于确定具有不同序列悬链的片段如何受到连接偏倚和连接事件的保真度的影响。
40.图2a:合成了含有随机四碱基悬链的库。示意性地表示了随机悬链对的样品。
41.图2b:用指定的dna连接酶连接连接底物,并形成含有正确(相同的悬链阴影)和错配(不同的悬链阴影)的产物。使用测序(pacific biosciences,menlo park,ca)对正确或错配进行分析。
42.图2c:连接保真度被定义为正确连接的比。连接偏倚是通过每条悬链形成的连接产物总数的差异来检测的。
43.图3ai/3aii-3hi/3hii)显示了不同的连接酶在序列偏好方面的显著差异,观察到正确连接和错配连接之间的差异。代表性不足的4碱基序列的数量和类型在不同连接酶之间也有差异。这揭示了至少2种类型的偏倚——对某些4碱基悬链的连接事件的偏倚或非偏倚以及对错配的连接的偏倚和对完全匹配的非偏倚,或者反之亦然。
44.3ai-hi显示了所有连接事件的连接频率热图矩阵(matrix)(对数标尺)。悬链按字母顺序从左到右(aaaa,aaac,aaag...tttg,tttt)和从下到上排列,使watson-crick配对显示在对角线上。矩阵显示了在x轴上256个4碱基悬链的每个碱基与y轴上256个4碱基悬链的连接频率。4碱基悬链中的每个碱基都有颜色编码,其中t是红色,c是蓝色,g是黄色,和a是绿色(颜色由不同的灰色色度代表)。100nm的多重四碱基悬链底物在25℃温育1小时期间,用1.75μm的t4 dna连接酶在标准连接缓冲液中进行连接,并通过smrt测序法测序。悬链序列被归一化至100,000次连接事件。
45.3ai-3hii显示了含有每条悬链的连接产物的频率的叠加条形图,对应于(a)中热图的每一列。完全watson-crick配对的连接结果用蓝色表示,并且含有一个或多个错配的连接产物为橙色(用两种灰色色度表示)a。某些悬链的代表性不足,如箭头所表示的。
46.图3ai和3aii是t4 dna连接酶。taaa、tcaa、tgaa和ttaa的代表性不足。
47.图3bi和3bii是t7连接酶。许多4碱基悬链的代表性不足。
48.图3ci和3cii是人类连接酶3(hlig3)。caag、ccag、cgag、ctag、taaa、tcaa、tgaa和ttaa的代表性不足。
49.图3di和3dii是t3连接酶。taaa、tcaa、tgaa和ttaa的代表性不足。
50.图3ei和3fii是pbvc-1连接酶。taaa、tcaa、tgaa和ttaa的代表性不足。
51.图3fi和3fii是t4连接酶+peg。taaa、tcaa、tgaa和ttaa的代表性不足。
52.图3gi和3gii是t7连接酶+peg,显示了使用t7 dna连接酶对连接的有利影响。
53.图3hi和3hii是hlig3+peg。caag、ccag、cgag、ctag、taaa、tcaa、tgaa和ttaa的代表性不足。
54.图4a显示了不同连接酶的连接中值和根据悬链碱基含量的偏倚分布是如何变化
的,这是由每种连接酶的测序库中256个不同悬链的每个组合的连接频率确定的。
55.t4 dna连接酶、t7 dna连接酶、t3 dna连接酶和pbcv-1dna连接酶具有相似的中值偏倚(由黑色横线显示),对富含gc的悬链具有相似的正偏倚分布,但对富含at的悬链在负偏倚的数量和程度上有一些差异。t7连接酶比其他连接酶表现出更大的中值连接偏倚,很少有悬链的连接非常有效,而大多数悬链的连接效率要低得多,其中连接频率(y轴)是连接效率的量度。
56.虽然这里没有显示颜色,但每个点是根据其gc含量%来着色的,0%、25%、50%、75%和100%的颜色不同。点的分布表明,与富含at的悬链相比,富含gc的悬链往往更有效地连接。所显示的结果是由连接反应的smrt测序产生的,连接反应用100nm的多重四碱基悬链底物与1.75μm的t4 dna连接酶、t7 dna连接酶、人dna连接酶3、t3dna连接酶或pbcv-1dna连接酶在标准连接缓冲液中25℃下温育1小时。
57.图4b显示t4 dna连接酶、t7 dna连接酶、人dna连接酶3、t3 dna连接酶和pbcv-1的连接保真度中值(见黑线)不同,并且在各酶之间富含gc和富含at的悬链在连接保真度曲线上的分布也不同。t7 dna连接酶显示出最高的连接保真度。hlig3显示出最低的连接保真度,并且数据点在中值线以下的分布也最广。计算并绘制了所有研究的连接酶的连接保真度。连接保真度被定义为正确(watson-crick)与不正确(错配)连接事件的百分比。
58.图5a-5f显示聚乙二醇(peg)对gc相对较低的悬链(在没有peg的情况下通常显示较低的连接频率的悬链组)的连接频率有明显的正面影响,但对连接保真度有轻微的负面影响。悬链的连接频率和连接保真度按gc含量进行分组。中值用横线表示(虚线表示在不含peg的缓冲液中完成的连接反应;黑色表示在含peg的缓冲液中完成的连接反应)。
59.图5a是t4 dna连接酶(频率)+/-peg。
60.图5b是t7 dna连接酶(频率)+/-peg。
61.图5c是hlig3 dna连接酶(频率)+/-peg。
62.图5d是t4 dna连接酶(保真度)+/-peg。
63.图5e是t7 dna连接酶(保真度)+/-peg。
64.图5f是hlig3 dna连接酶(保真度)+/-peg。
65.图6通过高级(high-level)框图显示了系统,该系统用于针对用户指定的悬链序列组;以及还有实现期望结果的实验条件,生成估计的整体连接保真度。该系统利用与服务器804双向数据通信803的客户端802,该服务器又经由808访问存储器806,其中806包括4碱基5
’‑3’
连接保真度的数据库。这也可以是2碱基、3碱基或5碱基的数据库。双向数据通信803可以使用本地连接器,比如局域网(lan)或广域网来实现。服务器804可以是专用的常驻服务器,也可以在云端实现。数据存储器806可以与服务器804共同装载。用户将数据输入客户端802,该客户端可以包括浏览器界面。除了运行浏览器,客户端802可以承载图形用户界面,用于输入5
’‑3’
4碱基的典型形式的agct组或其他悬链组,或用于选择连接的实验条件,比如选定的限制性核酸内切酶、选定的连接酶、含有peg的缓冲液、反应的温度和时间、其他实验细节。
66.图7显示了使用图8描绘的系统执行组装反应的高级流程图中的输入和输出步骤。用户输入一组任何期望长度的悬链序列,例如该组悬链序列将是一组5
’‑3’
4碱基悬链序列902。这组将包含多于一个的4碱基悬链序列,使得该组的每个成员与该组的所有其他成员
不同。每条悬链序列代表单条悬链对的成员,用户优选地希望在实验中使用该悬链对来依次连接多个双链核酸片段。4碱基悬链可以表示为watson-crick悬链对。一组中的单个悬链对在连接保真度方面可能有所不同,这取决于特定的序列是5’序列还是其互补序列。每个成员对都要与该组中的其他成员对分开考虑。用户可以选择实验条件来连接具有对应于902中输入序列的悬链的片段。这些实验条件包括,例如,与连接酶温育的时间,温育的温度,以及选定的连接酶的连接频率和保真度904。通过访问单条悬链或悬链对的连接保真度数据库,系统生成描述输入的整体悬链序列组和/或组内单条悬链对的连接保真度的输出906。系统可另外输出所选的悬链序列对的连接保真度的图形矩阵表示。如果用户输入的4碱基悬链序列组的鉴定的保真度效率被用户拒绝,则使用户能够评估相同的4碱基悬链序列组在不同的选定实验条件下的连接情况,或在相同或不同的实验条件下输入修改后的4碱基悬链序列组,以确定如何将该组双链核酸片段在有序组装中连接。
67.图8是除了系统输出步骤外还显示输入的高级流程图。
68.提供了用户输入(1302-1306)产生输出1308-1312的单个实例。然而,1302-1306中的输入参数可以由以下任何一个或多个或两个或更多个来代替或增加:
69.(a)靶标核酸序列;
70.(b)多核苷酸片段组;
71.(c)由用户提供的多核苷酸片段的部分组和由系统输出的部分组;
72.(d)具有指定接头序列的载体组;
73.(e)优选的悬链长度;
74.(f)被排除在外的悬链;
75.(g)具有指定长度的悬链组;
76.(h)由用户提供的指定长度的部分悬链组和由系统输出的部分悬链组;
77.(i)选择连接酶,例如t4 dna连接酶、t7 dna连接酶、pbcv-1、t3连接酶、hlig3或任何其他atp依赖性dna连接酶或nad+依赖性连接酶,比如taq dna连接酶;
78.(j)选择限制性核酸内切酶,例如esp3i、sapi、bbsi-hf;bspqi、hgai、bsabi、bsaji、bsai、bsai-hfv2、bsii、bsmai、bsmbi、bsmfi、bsmi、bsr di、bsri、btgzi、btsci、btsmuti、btsv2、bspqi、bpii、bfui、bspmi、paqci和它们的同切点酶中的一种或多种;
79.(k)优选的片段数量;
80.(l)优选的温育时间;例如,1小时,5小时,过夜;
81.(m)优选的温育温度,例如37℃或45℃;
82.(n)除时间和温度外的优选的反应条件;
83.(o)优选的整体连接效率;
84.(p)可接受的最低连接效率;
85.(q)最大gc含量;
86.(r)最大at含量;
87.(s)可接受的偏倚。
88.输出可包括以下一项或多项:
89.(a)未由用户指定的上述任何参数;
90.(b)如果基于手动输入的某些参数,由用户输入的参数确定的连接保真度太低,则
发出警告,其中警告可能包括内部re位点,由单条悬链对形成的低效率接头;一些连接事件比其他事件的偏倚过大;
91.(c)所有指定的悬链对的矩阵或表格格式,其显示强连接的watson crick对和错配的悬链对,用颜色编码出现的频率;
92.(d)显示所选组的预测保真度的连接酶保真度查看器网格;
93.(e)提供改变指定实验参数的替代方案;
94.(f)组装设计的图形显示,如果使用全序列则有注释;
95.(g)用于合成器的可导出的片段/引物序列。
96.然后,系统使用n-碱基悬链和5
’‑3’
连接效率的数据库,在各种反应参数下计算上述任何未由用户提供的参数,以实现所要求的输出,使用户能够以限定的连接效率产生x个片段的有序组装。
97.图9a-9d显示了如何将图3ai/3aii-hi/3hii至图5a-5f中呈现的数据整合到计算机中。除了wo 2020/081768中的连接酶保真度查看器和包括悬链长度和用于用户输入预定的悬链选择以评估频率和保真度参数的下拉菜单的版本外,另外的参数还包括在缓冲液选择中使用peg和/或aprataxin。在图9b(连接酶保真度查看器)的用户界面页面上添加的其他下拉菜单是允许选择连接酶的下拉菜单,并且这将影响基于本文所述的频率、偏倚和保真度数据的悬链选择。图9c显示了getset的下拉菜单,该界面将告知用户他们所选择的悬链组在指定的连接组装反应中的表现如何,以及某些悬链是否应该包括或排除在该组中。图9d显示了splitset的下拉菜单,它告知浏览者在计算机序列中应该包括哪些位点,以及排除哪些位点,以便通过靶向切割或dna合成从相应的dna中产生片段。
98.图10显示了与没有peg的相同dna相比,peg增加了用t4 dna连接酶和bbsi-hf限制性核酸内切酶对特定浓度的dna进行多片段组装获得的菌落频率。所有的peg大小都显示出一定的改善。优选的实施方式包括peg 3350和peg 6000。
99.图11显示了peg 6000实现了使用少于10倍的dna来在使用t4 dna连接酶和bbsi-hf组装24个dna片段后实现大量的菌落表示。
100.图12a和12b显示了具有由图9a-9d中描述的计算机工具确定的悬链的50个dna片段,其包括对t4 dna连接酶的连接偏好的调整,使得从50个片段组装t7病毒基因组的效率提高,这是由细菌的菌苔(lawn)上的菌斑(plaque)确定的。
101.图13a和13b显示了在菌苔上获得的菌斑确实含有完整的噬菌体t7 dna。
102.图14显示了使用本文所述的工具设计用于正确末端连接的悬链,对于52个片段,含有正确组装的构建体的菌落百分比至少保持在50%。这些结果从一锅法(one pot)片段组装反应获得。
103.图15显示了改进的多片段组装方法如何用于放大用于几千名个体患者的car-t细胞治疗的图。对个别患者的肿瘤细胞进行分析,以发现其独特的肿瘤特异性抗原和编码含有突变的这些新抗原的基因的dna序列。患者自身的t细胞被移除,并被工程化为在基因组中已被crispr识别和切割的靶标部位插入组装基因。然后,t细胞可以被重新引入患者体内以破坏肿瘤细胞。在这里,合成肿瘤抗原所需的多种成分的子集将是保守的,并且成分的子集将不是保守的。感兴趣的整个区域可以保持在质粒库中以备用,并且鉴定出突变的各个非保守的片段可以用于组装反应。通过这种方式,整个基因不需要为每个患者从头做起,从
而使工作流程中的样本通量更高。
104.图16显示了用于潜在的抗生素方案的噬菌体工程以治疗耐药性细菌感染的图。这里,噬菌体基因组被分成小块,并将各种突变引入任何一个或多个片段。一旦使用本文所述的多片段系统进行组装,可以对工程噬菌体入侵和破坏靶标细菌的能力进行检测。
具体实施方式
105.除非另有定义,否则本文所使用的分子生物学领域的所有技术和科学术语与本发明所属领域的普通技术人员通常理解的含义相同。singleton等人,dictionary of microbiology and molecular biology,第2版,john wiley and sons,纽约(1994)和hale&markham,the harper collinsdictionary of biology,harper perennial,n.y.(1991)向技术人员提供了本文中使用的许多分子生物学相关术语的一般含义。本文使用了某些术语,下文将对其进行解释。
106.如本文所使用的,术语“靶标多核苷酸(target polynucleotide)”(或“大dna”)是指基于有序组装片段的连接最终产物,这些片段可能是dna、rna或其混合物。
107.如本文所使用的,术语“多核苷酸片段(polynucleotide fragment)”(或“dna片段”)是指当组装时产生靶标多核苷酸的构建块。这些构件块可以来自于序列数据库,并可能包含启动子序列、增强子序列、编码序列等。多核苷酸片段可以通过化学合成(idt、coralville、ia)或通过酶法合成,例如使用基于末端转移酶的合成来制成。以这种方式制成的片段可以在初步步骤中从化学和/或酶法合成的产物组装,形成适合组装到基因中的较大的多核苷酸片段。当各个多核苷酸片段从模板扩增时,例如通过pcr,其长度不超过扩增中所使用的聚合酶的处理能力。例如,对于taq聚合酶来说,扩增子很少超过5kb-10kb,并且其最小长度可能为15个核苷酸。
108.如本文所使用的,术语“寡核苷酸(oligonucleotide)”在本意上是指至少10个,例如至少15个或至少30个核苷酸的多聚体。在一些实施方式中,寡核苷酸的长度范围可以是15-500个核苷酸,或更多。本文使用的任何寡核苷酸可以由g、a、t和c,或能够与互补核苷酸可靠配对的碱基组成。
109.如本文所使用的,术语“序列(sequence)”是指一系列字母,每个字母对应一个碱基,例如a=腺嘌呤,t=胸腺嘧啶,u=尿嘧啶,g=鸟嘌呤和c=胞嘧啶。修饰的核苷酸(核苷(碱基和脱氧核糖)和磷酸)可以任选地包括在悬链序列中,并且因此包括在连接效率数据库中。特定顺序的多个字母形象地描述了分子的碱基(也称为核苷酸)组成。
110.如本文所使用的,术语“完全匹配(perfect match)”、“互补(complementary)”以及watson和crick对都是指通过双链dna的单独链上的碱基的氢键配对,其中a与t或u匹配,并且g与c匹配。
111.如本文所使用的,术语“接头(junction)”是指靶标多核苷酸中的位置,在该位置处,组件多核苷酸片段被连接酶连接。术语“接头”还指数据库中靶标多核苷酸序列中的位置,在该位置处建议进行片段化处理,以便从一组优化的片段组装靶标多核苷酸。该词“接头”的上下文将清楚地表明这两种含义中的哪一种。本文所述的组装方法可用于在靶标多核苷酸中产生无痕接头,这意味着靶标多核苷酸中的接头将与原始多核苷酸序列中的相应位置无法区分。
112.如本文所使用的,术语“悬链(overhang)”是指双链片段多核苷酸例如dna的末端的单链区。悬链优选地由在识别区外的双链体的两条链上产生交错的核酸切割的酶形成。悬链通常是5’悬链。悬链可以由其长度和序列来限定。例如,有256种不同的可能的4碱基悬链(44)。这里举例说明由限制性核酸内切酶切割产生的2-碱基、3-碱基、4-碱基和5-碱基的悬链。悬链可以包含2-8个碱基,尽管3或4碱基悬链通常是优选的。这种偏好源于在识别位点之外切割双链dna以产生3或4碱基悬链的限制性核酸内切酶的可用性,以及源于足以优化多个多核苷酸片段的连接以形成靶标多核苷酸的一组中可能的悬链对的数量。
113.如果在混合物中加入连接酶,则将来自一个多核苷酸片段的悬链与第二个多核苷酸片段上的第二互补悬链相匹配就会产生接头,并且连接的发生取决于连接酶对悬链序列及其互补的偏好。第一悬链和第二互补悬链被称为悬链对或互补悬链。虽然不希望被理论所限制,但这里提出,将连接酶与限制性核酸内切酶结合在单一的组装反应混合物中,会大大减少不适当的杂交和连接事件。当由悬链和限制性核酸内切酶识别序列组成的裂解产物与它所裂解的组装片段重新连接或与另一种裂解产物重新连接时,就会发生这些不适当的事件。在这两种情况下,序列都会被反应混合物中的限制性核酸内切酶再次裂解,以解放多核苷酸悬链,使其与兼容的多核苷酸片段伙伴正确连接。当非互补的悬链退火,导致错配时,可能会发生其他不适当的事件。这通常只发生在具有一个或两个错配的情况下,并且除非将退火悬链的错配的发生考虑在组装策略中,否则会影响组装的顺序。
114.如本文使用的,术语“输入(input)”是指用户输入计算机的信息。这些可包括:指定的反应条件、可分为多核苷酸片段的靶标多核苷酸序列、排除的悬链、包括的悬链以及期望的片段或悬链的数量。输入参数由计算机接收。
115.如本文所使用的,术语“输出(output)”是指使用户能够制备期望的靶标多核苷酸的来自计算机的指令。这些可以包括:用于指定数量接头的具有优选的连接保真度得分的悬链组,和/或基于靶标多核苷酸的输入的完整多核苷酸片段序列。在多核苷酸片段序列是由用户输入的情况下,那么计算机输出可以包括避免内部位点、回文(palindrome)和重复悬链的悬链对,并为包括循环条件、温育时间和温度以及推荐的酶的指定的反应条件提供高的整体保真度得分,用于优化连接保真度。计算机输出可进一步提供片段组装设计和片段序列的图形显示或其链接。计算机输出还可提供所选悬链的所有组合的连接频率矩阵,以形象地图解所选悬链组及其互补序列或其链接的预测保真度。
116.在默认情况下,该工具可以在图形输出中提供连接数据,表明每个连接的一般效率。例如,在图11a-11b中,可以切换复选框以显示归一化的连接计数。在多重连接检测中,相对连接频率是在一次实验中对所有256个4碱基悬链实验确定的。每个实验的总连接事件被归一化至100,000;在这种情况下,任何一个watson-crick对的典型频率是每100,000个连接事件中有300-400个观察值。在potapov等人,nucleic acid research,46,e79(2018);potapov等人,cold spring harbor laboratory,biorxiv,doi:https://doi.org/10.1101/322297(2018);以及potapov等人,acs synthetic biology 711,2665-2675(2018)中提供了进一步的细节。
117.如本文所使用的,术语“实验条件(experimental conditions)”是指工作流程期望的连接酶、核酸内切酶和/或其他酶的选择以及它们的单位比。条件也指缓冲液和缓冲液中的辅助因子。例如,无论选择何种类型的dna连接酶或iis型限制性核酸内切酶,连接酶与
限制性核酸内切酶的单位比可在1:10-1:1000的范围内。实验条件可包括用于完成悬链连接的盐浓度、温度和时间,并且可进一步包括连接反应的循环条件。可以选择实验条件以减少大量片段的组装时间,提高所选悬链组的保真度得分,提高核酸内切酶的活性,同时保留连接酶的活性和性能和/或减少不正确组装的本底(background)。实验条件也可能影响靶标多核苷酸中错配的去除。watson/crick完全匹配可能是优选的,尽管在一些情况下,悬链的单碱基错配可能为有序组装提供比从连接频率表推断出的不容易杂交的碱基完全匹配更高的保真度得分。在组装期间也可能发生替代剪接,导致接头处的错配。可以用endoms或t7 endo i或识别错配的其他修复酶来去除错配,以在错配处切割dna。术语“实验条件”包括连接条件,并且上下文将决定这些术语是否可以互换。
118.本文所使用的,“连接频率(ligation frequency)”是指在总的连接次数(例如100,000次连接)中,一条悬链与另一条悬链连接的次数。
119.如本文所使用的,术语“连接保真度(ligation fidelity)”是指对含有错配的碱基对偏倚(优先连接特定序列而不是其他)的底物连接的判别的数值评估。连接保真度也指连接事件中正确(watson-crick连接产物)与不正确(错配产物)的比。在4碱基悬链中,可能性为没有碱基错配(watson-crick连接产物),有1-碱基错配、2-碱基错配、3-碱基错配或所有4-碱基都错配。
120.如本文所使用的,术语“悬链的连接保真度(ligation fidelity by overhang)”或“单条悬链的连接保真度得分(ligation fidelity score for an individual overhang)”是指相对于一组中的所有悬链及其互补序列,单条悬链及其互补序列独立连接到完全互补悬链的频率。保真度得分可以通过查阅连接频率表来计算,该表包括每条悬链与相同长度的所有悬链(包括其本身)的连接事件的数量的单个实验限定的测量值。单条悬链的连接保真度得分被计算为相对于在(i)单条悬链和组中的所有悬链及其互补序列;和(ii)单条悬链的互补序列和组中的所有悬链及其互补序列之间发生的连接事件的总数,在单条悬链及其互补序列之间发生的连接事件的数量。
121.如本文所使用的,术语“整个组的连接保真度(ligation fidelity of an entire set)”和“整体保真度得分(overall fidelity score)”是指基于给定的悬链组的每个成员的单个连接保真度得分,正确连接的组装与不正确连接的组装的预期比率。悬链组的整体保真度得分可以通过将该组中的悬链的单个连接保真度得分一起相乘来计算。
122.如本文所使用的,术语“整体组装保真度(overall assembly fidelity)”是指与预测的正确组装的靶标核酸的数量相比,正确组装的靶标核酸的实际数量。例如,10个具有悬链的多核苷酸的组装效率可以由靶标多核苷酸群体中所有10个接头被正确排序的次数决定。组装保真度可以大于20%、30%、40%、50%、60%、60%、70%、80%或90%。
123.术语“连接效率(ligation efficiency)”是指作为时间函数的正确组装的数量。如本文所使用的,术语“组装效率(assembly efficiency)”是指在特定时间段后,全长连接产物(由大小或菌落形成或测序确定的完整靶标核酸)在特定组装反应中积累的速率。可以选择任意的时间单位,这将为靶标多核苷酸的有序组装提供整体的平均/单位时间。然而,在选定的温育期内,连接效率可能不是线性的。
124.术语“连接产率(ligation yield)”是指正确组装的数量。
125.术语“连接准确率(ligation accuracy)”是指正确的片段末端连接的数量相对于
总组装的数量。这可以通过测序来确定。
126.上面使用的术语“连接(ligation)”是指需要dna连接酶来连接片段的组装产物。下面使用的术语“连接”可归因于不同连接酶的连接事件的偏倚和/或保真度的具体特征,其中发现变异性以可能对计划的组装有用或有害的方式存在。
127.术语“连接酶(ligase)”是指能够将两个多核苷酸共价连接的酶。许多不同的连接酶在本领域已经被描述,并且广为人知(参见ellenberger等人,annual review in biochemistry,77,313-338(2008);bauer等人,plos one,10,12:e0145046(2017))。用于组装反应的连接酶可包括atp连接酶和nad+连接酶,比如t4 dna连接酶、t7 dna连接酶、taq dna连接酶、病毒连接酶比如小球藻病毒dna连接酶(例如,pbvc-1连接酶)、细菌连接酶比如细菌liga(例如大肠杆菌dna连接酶)和ligd;弧菌(archeal)连接酶,比如嗜热栖热菌(tth)连接酶和真核生物(eukaryotic)连接酶,比如哺乳动物lig1和hlig3。
128.术语“多片段组装(multi-fragment assembly)”是指多个dna片段或一组大于约15个核苷酸的任何大小的dna片段,这些片段在含有不同插入物的质粒的细菌库中通过化学方法或在质粒内合成。这些片段可以是相似或相同的大小,或者可以有不同的大小。
129.术语“paqci”指的是一种源自pauciibacter aquatica的7碱基切割限制性核酸内切酶。这里确定为paqci的内切酶包括与seq id no:1具有至少80%、85%、90%或95%序列同一性的任何变体。
130.在一个实施方式中,将多个多核苷酸片段有序地组装成单一的dna依赖于使用两种不同的酶,即iis型限制性核酸内切酶和连接酶。iis型限制性核酸内切酶识别dna中的4、5、6或7个碱基,并在识别序列之外进行切割以提供具有长度可以是2-碱基,3-碱基、4-碱基或5-碱基的悬链的多核苷酸片段。当互补的悬链退火和连接酶封闭连接时,这些片段就会被连接起来。
131.越来越多不同的iis型限制性核酸内切酶被描述,其识别多达6个碱基,并在识别序列之外切割dna以产生2-4碱基悬链。许多目前的内切酶可以在new england biolabs(neb)(ipswich,ma)提供的商业文献(包括www.neb.com)中找到,包括识别序列和切割产生的悬链长度。在定期更新的数据库(参见来自new england biolabs的www.neb.com中的)中列举了新的内切酶。例如,这包括:acui、alwi、baei、bbsi、bbni、bcci、bcgi、bcivi、bcodi、bspmi、bfuai、bmri、bpmi、bpuei、bsai、bsaxi、bseri、bsgi、bsmai、bsmbi、bsmfi、bspcni、bspmi、bspqi、bsrdi、bsri、btgzi、btsci、btsimutl、cspci、eari、ecii、esp3i、faui、foki、hgai、hphi、hpyav、mboii、mlyi、mmei、mnii、nmeaiii、plei、sapi和sfani。只有sapi具有7-碱基的识别序列,并切割dna以产生3-碱基悬链。这些内切酶都可以获得自new england biolabs,ipswich,ma。neb描述了识别序列和悬链,以及反应缓冲液、反应温度和存储条件。还提供了同切点酶的信息。
132.本文描述的是一种新型的iis型限制性核酸内切酶(paqci),它具有特定的7-碱基识别序列,并且优选地在合成寡核苷酸的协助下,将双链dna彻底切割,并且没有星号活性(参见图1c和图1d),以产生四碱基悬链。paqci用于多核苷酸组装反应的显著优点是减少了多核苷酸片段序列中出现7个碱基识别序列的可能性。内部识别序列是不期望的,因为多核苷酸片段会被切割,并且从而破坏了片段组的有序组装。
133.paqci的识别序列是通过引物依赖性扩增或通过化学核酸合成添加到片段的末端
的。与限制性核酸内切酶识别序列相邻的序列产生悬链。优选地,选择这些以便优化包括靶标多核苷酸或大dna的有序片段组的连接。
134.尽管此处在有序多核苷酸片段组装的上下文中描述了paqci的施用,但这种酶也可用于各种其他各种生物工程方法和对包括染色质的基因组dna的分析中,其中具有六个或更多个碱基的识别序列的核酸内切酶是优选的。
135.在本发明的实施方式中,将多个多核苷酸片段有序地组装成单一的dna可以依靠使用连接酶,但不需要限制性核酸内切酶。当具有设计悬链的多核苷酸片段通过化学合成而不是核酸内切酶切割生成时,就不需要限制性核酸内切酶。然而,双酶系统的优点是可以将多核苷酸片段插入质粒中,这些质粒保留在细菌中并无限期地存储起来供将来使用。当需要时,细菌可以很容易地生长,以产生期望数量的底物用于内切酶切割和连接。
136.通过系统分析悬链连接的频率、偏倚和保真度已经极大地改善了依赖于退火悬链连接的多个多核苷酸片段的有序组装。已经鉴定的因素包括悬链的长度、悬链组中不同悬链的数量、悬链的gc含量、悬链序列边缘出现的碱基、连接反应条件和生成悬链的限制性核酸内切酶的类型(参见wo2020/081768)。
137.在目前的实施方式中,令人惊讶的是已鉴定了具有强大的末端连接活性的各种连接酶的序列偏好,并发现其以显著方式对连接产物的频率和保真度做出贡献。已经鉴定了各种连接酶的差异和相似性,包括在退火悬链之间容忍错配的程度,以及对悬链中a、t、g和c碱基的某些模式的偏好。
138.实施例中描述的连接酶都是端接连接酶,其催化一条dna链的3
′‑
羟基和另一条dna链的5
′‑
磷酸化末端之间形成磷酸二酯键。它们都含有对应于具有催化性赖氨酸残基的核苷酸转移酶结构域(ntase);和具有dna结合面的寡核苷酸结合结构域(obd)的至少两个结构域。这些连接酶还任选地包含第三个结构域。例如,t4 dna连接酶和t3 dna连接酶都含有n-末端dna结合结构域,而人类连接酶3(hlig3)含有n-末端聚adp-核糖聚合酶样锌指结构域,并且小球藻病毒dna连接酶(pbcv-1)包含闩锁(latch)结构域。然而,t7dna连接酶不包含第三个结构域。虽然不希望受到理论的限制,但第三个结构域的存在或不存在可能对连接偏倚、混乱性(promiscuity)和/或保真度起作用。
139.对四碱基悬链的256种组合和排列方式中的每一种进行末端连接活性分析。使用图2a和b中示意性描述的检测方法,从连接的悬链获得的测序数据中构建了256
×
256的序列矩阵。(参见图3ai/3aii-hi/3hii)。来自这些检测的数据被添加到图6、图7、图8和图9a和9b所述的计算机设计工具中,该工具允许用户选择一组优化的悬链序列,用于有序地组装多核苷酸片段组。
140.wo 2020/081768中描述的计算机工具提供了对基于退火模式的优化的悬链组的访问。可以从切割的选项菜单中选择限制性核酸内切酶来生成悬链。使用单一连接酶,即t4 dna连接酶,在也可选自包含缓冲液选项、温度和温育时间选项的下拉菜单的组装条件下,提供不同悬链的连接频率和保真度的指标。
141.本文和wo 2020/081768中描述的连接数据捕获了连接酶-底物的偏好,并进一步提高了先前描述的组装选项的精度。当大量的多核苷酸片段(大于约20个片段)被用于大dna的有序组装时,这一点尤其重要。计算机工具提供了合适的用户界面,用于告知用户在各种实验条件下任何片段悬链或片段悬链组的预测效率(频率)和保真度概况。获得的关于
不同连接酶的连接偏好的数据扩展了实验条件的菜单。包含下拉菜单的连接保真度查看器、getset和splitset的界面允许用户选择合适的连接酶,用于用计算机从大dna序列设计具有悬链的片段。可选地,用户可以为一组固定的悬链选择合适的连接酶。导致连接频率和错配频率的连接的不同序列偏好,以及不同的保真度概况,为多片段组装的细化和效率又增加了一层。本文还描述了对影响连接酶活性的标准连接酶缓冲液比如聚乙二醇的修改。
142.提供的工具和方法实现了更多数量片段的组装,其中组装序列中的保真度更高,并且用包括组装的dna或感染细菌菌苔的包装的病毒的目的载体转化的细菌菌落的频率更高。在改进的益处下,完整的t7病毒基因组由50个片段组装。显示新合成的病毒在细菌菌苔上产生病毒菌斑。连接酶数据的可用性为24个片段和50个片段的组装提供了改进,相比其他可能的方式多至少10%、20%、30%、40%或50%的菌落。
143.将少量多核苷酸片段组装成较大的dna(例如,少于10个片段)的能力可以相对有效地进行,而无需另外的细化。然而,存在与组装更多数量的小片段(比如大于10个片段或多达20个片段或多达50个片段或更多数量,比如多达100个片段或更多)以产生类似大小的dna相关的优势。这类优势包括:与大的合成寡核苷酸相比,小的合成寡核苷酸发生错误的几率较小,而且容易稳定地维持具有小尺寸的质粒插入的细菌克隆,其中这些克隆可以被存储并根据需要用于各种组装项目以制造大dna。这就避免了可能出现的毒性问题,因为较大的片段可在细菌克隆中表达,并影响克隆的生存能力,从而降低存储片段的库的质量。此外,涉及大量片段的组装反应提供了产生变体多核苷酸库的能力,这些变体多核苷酸可能被证明对疫苗开发、car-t治疗和使用噬菌体的抗生素开发有用,如图15和16以及实施例中所概述。
144.新型iis型限制性核酸内切酶-paqci
145.paqci的特征在于与seq id no:1具有至少80%序列同一性的蛋白质。本文所使用的paqci旨在包括与seq id no:1具有至少90%、至少92%、至少95%、至少99%序列同一性的变体。paqci依赖于多个亚基与两个识别位点相互作用,以切割dna双链体的每条链上的单个靶标部位。
146.paqci序列,510aa(seq id no:1):
147.mpydhnaeadfaasevarmlvadpglcydaaslpasisasasyepsaagwpkadglvsvleggtstqraialeykrpqegihglltaigqahgylhkgysgaaivipgrysshptpaeyvrdvlnaisgsraiavfsysppdttsptpfagriqcvrplvfdagrvhlrpanqgpktqwvhmregsttrdaffrflqvakrlsadptaprptlrselvaaigrlapgrdpieyitntadnkfltkvwqffwlewlatpavltpwkleagvysapgartrilredgtdfsqlwegrvnslketiagmlnrgeiseaqgweafvggisatgggqdkqgvrarahsyredidsalaqlrwieddglptdqgyrfmticeryggansraaidymgatliqtgryasflhyinrlserkfaenplaytkpgpggmpvfteesyweylqdletkltdelrvmrkvsgrarprvrttfqveltllrnygfvsstrhrlgvgipidweqvvqalnvdl
148.paqci的识别序列是(5
’‑
cacctgc-3’/3
’‑
gcaggtg-5’),并且它从识别序列的3’方向不对称地切割4个碱基,并且从识别序列的互补序列的5’方向切割8个碱基,产生4碱基悬链(参见图1c)。
149.本文还描述了paqci活化剂寡核苷酸,它被发现可以提高paqci的活性。该活化剂寡核苷酸是一种合成的自互补单链寡核苷酸,它被折叠成包括双链dna区和单链dna环,例如发夹(hairpin)结构。与两条单链相比,发夹的优点包括更完全的退火,因为单条合成的
dna链的两端处于完全相同的浓度。
150.活化剂寡核苷酸的双链区域含有paqci的结合(识别)序列,并且寡核苷酸包括不可连接的3’和5’端,并且不能被paqci切割,这意味着寡核苷酸的双链部分没有延伸足够远到识别位点之外,不能为paqci提供切割位点。包括双链区和环的自互补寡核苷酸的长度优选地小于100个核苷酸,并含有paqci的识别序列(5’cacctgc/3’gtggaccg),并且在5’识别序列的下游延伸不超过0-4个碱基或1-4个碱基。可以在每条链上添加一个非自然延伸的阻断部分,以便在双链区域没有正确定位的磷酸二酯键供酶切割。可选地,活化剂寡核苷酸可以包含不可切割的连接。寡核苷酸的5’和3’端可以平齐或凹陷1、2、3、4、5、6或更多个核苷酸,其中3’端或5’端都可以凹陷。寡核苷酸的环并不关键,并且在一些情况下可以是4-20个核苷酸。双链区的长度可以是10-50个碱基对,例如长度为10-30个碱基对,例如15-30个碱基。
151.活化剂寡核苷酸具有不可连接的3’和5’端,其不能被t4 dna连接缓冲液或其他合适的连接酶缓冲液中的t4 dna连接酶或其他连接酶连接到另一底物(多核苷酸片段或活化剂寡核苷酸)。不可连接的3’和5’端的实例是:不含3’羟基的3’端和不含5’磷酸的5’端;含有3’磷酸的3’端和含有c3间隔区的5’端;或可选地在3’端的连接片段(block),比如3

二脱氧-c、3

c3间隔区(c3-oh)、c6间隔区或3

氨基连接体(c6-nh2),以及在5’端的抑制连接的修饰碱基,比如倒二脱氧胸腺嘧啶(invddt)。因此,防止了活化剂相互之间或与多核苷酸片段的连接。
152.含有paqci的反应混合物还包括用于添加到旨在进行切割的靶标双链dna的一种或多种活化剂寡核苷酸。
153.利用同一反应混合物中paqci和paqci的一种或多种变体与一种或多种活化剂寡核苷酸的混合物在这些实施方式的范围内。在某些实施方式中,提供了另外包括一种或多种连接酶的方法。在某些实施方式中,paqci可与具有不同或相同特异性的其他限制性核酸内切酶混合使用。
154.已优化了paqci和活化剂的量以落在使paqci对dna底物产生基本完全的切割但没有星号活性的范围内。发现相比活化剂与靶标寡核苷酸上的识别位点的比,paqci与活化剂的比对优化酶的活性更为显著。相对于paqci,活化剂的浓度不足会导致靶标dna的不完全切割和星号活性。过多的活化剂导致不完全切割。在不希望受到理论限制的情况下,认为不完全切割是由于paqci完全与活化剂分子而不是靶标dna结合的结果。
155.一定量的paqci的最佳活化剂量可根据其预期用途而不同。使用1μl酶(10u)和1μl活化剂(20pmoles)可以实现不涉及同一试管内复杂组装反应的paqci的标准限制性消化。在这些反应中,一旦dna底物被切割,它就不容易被重新组装。
156.然而,当paqci被用于多片段组装方法时,由核酸内切酶切割生成的悬链有时会被重新退火和连接,重建原始识别位点。在这种动态情况下,任何一个dna切割点都可能需要在整个组装反应中被切割一次以上。因此,根据组装反应中片段的数量修改了核酸内切酶与活化剂的比。
157.因此,确定0.75pmole至9pmole活化剂(在标准的50ul反应体积中为15nm-180nm)/单位paqci核酸内切酶是优选的,在低于0.75pmole活化剂/单位paqci的情况下可以观察到一些少量的星号活性,而在10pmole活化剂/单位paqci下可以观察到开始有抑制活性。在某
些实施方式中,该范围可选自0.75pmole至9pmole活化剂/单位paqci、1pmole至7.5pmole活化剂/单位paqci、1pmole至5pmole活化剂/单位paqci、1.5pmole至7.5pmole活化剂/单位paqci、1.5pmole至5pmole活化剂/单位paqci、1.5pmole至4pmole活化剂/单位paqci、2pmole至5pmole活化剂/单位paqci或2pmole至4pmole活化剂/单位paqci中的任一种。
158.对于该比,一个单位被定义为在37℃下,在1x rcutsmart
tm
缓冲液(50mm乙酸钾,20mm乙酸三钠,10mm乙酸镁,100μg/ml重组白蛋白(ph7.9@25℃)中,总反应体积为50μl,1小时内消化1μgλdna所需的酶量。缓冲液的单位定义和描述不旨在是限制性的,而是作为制定活化剂/paqci的适当比的指南。其他缓冲液可根据用途(包括选定的连接酶)使用。例如,商用t4 dna连接酶缓冲液对dna片段组装方法可能是优选的。在组装方法的一个实施方式中,标准反应体积为50ul,并且每单位paqci核酸内切酶含有1pmole-8pmole活化剂(20nm至160nm),或10单位酶含有10pmole-80pmole(200nm至1600nm)的活化剂。反应混合物中的dna为1ugλdna。在另一个实施方式中,活化剂的浓度为20um,酶的浓度为10单位/ul,使得在50ul的反应中,最佳的酶和活化剂的比为1:1,各自使用1ul。对于典型的paqci反应条件,这导致了dna底物识别位点的完全切割,尽管底物位点的浓度取决于被切割的dna会不同。对于组装多核苷酸的多片段连接,可以使用较低的活化剂和酶的比(例如,1:2、1:3、1:4或1:5),其中与典型的反应条件相比,底物位点的浓度更高。通过降低活化剂用量,可以保持酶与总识别位点(底物加活化剂位点)的最佳比。
159.本文所述的推荐成分浓度范围也是针对含有不同数量的插入克隆的多片段组装方法而确定的,产生简单到复杂的组装。
160.例如,paqci或其变体可与活化剂、连接酶和多个dna底物结合在反应混合物中。在一个实施方式中,dna底物包含在质粒中,这些质粒在插入位点含有paqci识别序列,其相邻的质粒序列被设计用于底物的连接组装。在多片段组装期间,每个插入物和每个目的质粒都具有侧面有两个位点的组装活性dna片段。反应混合物可在适合内切酶切割和片段连接的时间和温度下温育(例如在37℃和60℃下进行30-60个连接周期,其中每个周期为1-5分钟,这取决于混合物中的片段数量)。期望的反应产物是由多个dna底物形成的大dna分子。如上所述,不同复杂程度的片段组装需要不同水平的paqci和dna连接酶。随着组装反应复杂性的增加,需要更多单位的酶以获得最大的性能;例如,使用t4 dna连接酶,2.5-20u的paqci可与200-800u的连接酶一起使用,优选地使用10-20u的paqci和400-800的dna连接酶的上限范围用于组装20个或更多片段。
161.paqci切割完成后,并且与活化剂结合时没有星号活化剂(参见图1d)。与aari相比,它的性能大大改善(参见图1a和1b)。
162.在实施方式中,提供了包含混合物或一个或多个容器中的试剂的试剂盒,试剂包括paqci或其变体(“paqci”)和活化剂分子。试剂盒可进一步包括连接酶。试剂盒可包括在反应缓冲液中的试剂,或者一种或多种试剂可一起或单独被冻干和/或固定在合适的底物,比如珠子或聚合物基质上。试剂盒可以在单独的容器中另外包含用于添加到试剂中的反应缓冲液。
163.各种连接酶的连接频率和保真度
164.通过将paqci与选定的连接酶结合,生成具有4碱基悬链的片段,可以实现多片段组装。有序组装取决于悬链退火的保真度和所有退火的悬链被连接酶连接的杂乱性
(promiscuous nature),而这又取决于连接的条件,包括形成无痕连续dna的片段数量。本发明的实施方式确立了各种连接酶在固有的连接酶偏好与连接相关退火中的作用。
165.t4 dna连接酶是用于末端连接和大dna组装的标准连接酶。然而,不知道的是这种连接酶是否具有序列偏好,其导致对具有某些4碱基悬链的末端连接片段观察到的不同的连接概况。此外,不知道的是t4 dna连接酶在这方面与其他连接酶相比如何。
166.这里开发了分析这个问题的方法,并利用分析的结果来改进悬链的选择,以使偏倚最小化,提高组装片段的产率,并根据需要优化保真度。附图和实施例中提供了对5种连接酶(t4 dna连接酶、t3 dna连接酶、t7 dna连接酶、hlig3 dna连接酶和pbcv-1dna连接酶)的特性的详细分析。此外,实施例中描述了通过向连接缓冲液中添加peg和/或aprataxin观察到的某些改进。
167.在实施例1中,使用含有简并的5
′‑
四碱基悬链端的末端连接发夹dna底物库,确定dna连接酶(t4 dna连接酶、t3 dna连接酶、t7 dna连接酶、pbcv-1dna连接酶和hlig3)的连接频率、偏倚和保真度概况。通过测序分析这些库的连接产物。每条悬链的读段数提供了连接效率的值;每种连接酶的序列偏倚是由所有连接产物中出现的每条悬链的相对频率推断出来的。
168.测定中的发夹底物呈现出模仿多片段的实际组装的复杂的平衡系统,其中连接需要找到片段的互补端的连接酶。如果反应中只有两个watson-crick结合的伙伴,就可以预测快速转化为连接的产物。这种测定方法提供了单独检查各条悬链所不能获得的信息深度,并允许对保真度和偏倚进行比通过平行测试每个配对更快速的评估。图3ai/3aii-fig 3hi/3hii中以热图(矩阵)显示了在相同的测定条件下不同的连接酶的每个互补4个碱基悬链的每个连接的频率的原始数据。该数据显示,库的连接频率和保真度在测试的连接酶之间有明显的差异。t4 dna连接酶、t3 dna连接酶和hlig3都产生了大于55%的连接产物。pbcv-1连接酶的产率略低(50%)。t7 dna连接酶到目前为止产率最低,只获得20%的连接产物。
169.观察到不同的整体偏倚程度,以及连接酶之间内在的不同优选序列(参见图3ai/3aii-图3hi/3hii)。t7 dna连接酶显示出最高程度的序列偏倚,倾向于连接4碱基悬链中完全匹配的碱基。研究的所有其他连接酶的连接频率分布更紧密,但在数据点围绕平均数的紧密程度上存在差异(参见图4a)。t4 dna连接酶和hlig3显示的偏倚量最小,与t7 dna连接酶相比,其数值范围小了两倍多。pbcv-1和t3具有相似的平均连接频率,但观察到的连接频率的范围稍大。
170.这里研究的连接酶显示了保真度的极端,其中t7 dna连接酶显示了最高的保真度(89%的正确连接产物),而hlig3具有最低的保真度(56%的正确连接产物)。t4 dna连接酶显示出适度的保真度(72%的正确连接产物)。t4 dna连接酶、t3 dna连接酶、pbcv-1连接酶和hlig3对单条悬链序列的保真度范围很广,一些悬链具有很少的错配连接事件,而另一些则有频繁的错配连接(图4b)。对于许多悬链,即使呈现有所有可能的伙伴,连接产物几乎都是具有watson crick伙伴。在发生每种连接酶都能容忍的特定的错配碱基对的情况下,这些更常见于5

端核苷酸(

边缘’),而不是在悬链的中间(

中间’)。一些常见的错配,特别是g:t错配,在所有测试的连接酶中都是常见的;然而,在每种连接酶的连接产物中也观察到不同的错配配对。
171.例如,当t4 dna连接酶呈现有所有可能的连接伙伴时,在90%以上的连接产物中,有几条悬链与它们的watson crick伙伴配对(例如aaaa、aaga、acaa、gaaa)。其他悬链与含有至少一个错配的伙伴连接;在超过60%的时间几条悬链与含有错配的伙伴配对(例如ggcg、ggcc、gggc、gggg)。
172.尽管对于某些多片段组合,可能期望使watson-crick匹配最大化以提供完全正确的序列,但在其他情况下,可能期望在片段组装中引入错误以建立可变的大dna。例如,因为连接酶的杂乱性,可以选择hlig3来增加一组片段中的一个片段以不正确的顺序连接到另一个片段的机会。另外,如果期望组装的最大保真度,并且连接的频率并不重要,那么t7dna连接酶可能是选择的酶。然而,如下面所显示的,连接缓冲液的添加剂,比如peg,可以在一定程度上提高连接的频率,而不会有明显的保真度损失,使得t7 dna连接酶可能是20+片段组装工作流程中选择的连接酶,否则这种连接酶可能是不太期望的。
173.加入连接增强剂peg降低了连接偏倚,但也降低了保真度
174.聚乙二醇(peg)(millipore sigma,burlington,ma)也可用于增强连接。实施例显示,分子量在600-6000范围内的peg可以增强dna的组装。例如,peg mw可选自500、600、800、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000和10,000。实施例4显示了使用peg 600、peg 3350和peg 6000在6.8%w/v时的结果。
175.加入peg后,t4 dna连接酶和t7 dna连接酶的整体库产率增加(分别从61%到73%和从20%到45%),并且hlig3的产率略有下降(从77%到72%)。在加入peg后,t4 dna连接酶的多重连接反应的整体保真度适度下降,从没有peg时的72%正确连接事件下降到有peg时的67%(参见表2,图5a-5e)。无论gc含量如何,peg的加入都使保真度下降了相同的量,除了gc含量为100%的悬链,其平均保真度没有变化。在peg存在的情况下,t7 dna连接酶的保真度也从89%明显下降到78%,并且hlig3的整体连接保真度在加入peg后也有小幅下降(分别为56%和51%)(表2)。值得注意的是,peg的加入并没有改变任何测试的连接酶所能容忍的特定错配的同一性。添加peg还使t4 dna连接酶的偏倚产生适度的变化。观察到gc含量低于50%的悬链的连接效率有所提高。有趣的是,通过添加peg降低了t7 dna连接酶的极端偏倚,并且以前完全没有连接的悬链有明显的产物积累(图5a-5e)。表6提供了从不同大小的peg中得到的结果。
176.典型的反应条件和添加剂可能影响不同的dna连接酶,并对可能改善特定应用结果的修饰提供见解。例如,对于应用比如克隆或衔接头连接,加入peg所带来的连接产物产率的提高可能胜过t4 dna连接酶和t7 dna连接酶的保真度的适度损失。然而,对于涉及高度复杂的多片段组装的应用,添加peg时观察到的保真度损失可能需要更多地考虑用于限制特定悬链组之间潜在的错配连接的特定悬链。peg的加入使t7 dna连接酶成为大型多片段组装的更有吸引力的候选者。观察到的另外的悬链的效率提高扩大了潜在的有效悬链序列库,而由于这种酶的整体保真度高,小的保真度损失是可以容忍的。
177.数据优化的组装设计
178.这里和wo 2020/0181768中描述了连接酶保真度查看器、getset和splitset工具,它们提供了大大提高了片段有序组装的成功的数据优化组装设计。这些工具依赖于菜单选择来帮助用户。下面描述的实验条件均为由连接频率和保真度的256
×
256的数据矩阵产生
的。计算机工具可以利用这些数据,为期望的片段数量和悬链类型生成优化的悬链。
179.可以通过这些工具实现适合于将选定数量的多核苷酸片段组装成靶标多核苷酸的悬链组的选择,以适当的顺序测试和安排不能通过心理行为实现的有用的悬链。在一个实施方式中,识别合适的悬链包括一个或多个步骤。已经应用了某些规则,其包括没有回文悬链,没有重复的悬链,没有一行3个碱基的悬链,例如:acca和accg;没有超过2个碱基在同一位置,例如,(acgc和atgg),以及避免有0% gc悬链和100% gc悬链的悬链(nilsson等人,nucleic acids res.,10,1425-1437(1982);goffin等人,nucleic acids res.,15,8755-8771(1987);和wu等人,gene,76,245-254(1989))。然而,本文例举的由数据优化组装设计确定的优化数据集没有这种基于规则的限制,在悬链的选择上提供了更多的灵活性。例如,根据at和gc含量,温度在悬链的整体退火程度中起作用。已发现a、t、g或c碱基在悬链中的优选的位置因所用的连接酶而异。在4碱基悬链内很少发生错配,但发现各种连接酶对悬链的任一边缘的碱基有不同的偏好。
180.实施方式描述了如何通过剖析末端连接杂交和连接保真度和偏倚来获得优化的数据集,以预测基于连接的dna组装方法的高度精确的连接集。这与现有技术的规则相比有了很大的改进,现有技术的规则将用户限制于有限数量的4碱基悬链,当序列不能被任意选择时(例如,当组装必须在编码序列内断开时),这尤其具有约束性。连接保真度剖析的应用允许知情的接头选择,并能在单一反应中使用多于20个片段进行高度灵活的组装设计。
181.在一个实施方式中,计算机设计工具在用户输入各种要求后提供悬链的选择。例如,计算机工具接收选择或输入预期发生组装反应的实验条件(例如参见表1)。实验条件将改变计算机访问的连接频率表和单条悬链连接保真度测定的选择。
182.计算机工具还将接收数字,例如:(i)用于组装反应的期望的悬链数量;(ii)悬链的长度;(iii)组装的核苷酸序列;(iv)(iii)的核苷酸序列可被切割的区间集,使该方法被执行,并且然后接收鉴定的悬链组和/或接收组装的片段组作为输出,其中片段的末端由鉴定的悬链组限定,这取决于哪些信息被输入界面。
183.该方法可进一步包括接收关于连接悬链组或包含其的片段的连接条件的指令。连接条件可包括期望的连接酶、缓冲液条件(比如盐浓度、温度、温度范围和/或热循环时间)和温度(可用于切割和连接)以及限制性核酸内切酶(如果用于生成悬链)中的一种或多种。在界面中收到连接条件(除了用于组装反应的期望的悬链数量和悬链长度之外)的情况下,对在指定连接条件下进行的连接中的悬链计算整体保真度得分。因此,可以从多个连接频率表中选择对应于指定条件的连接频率表,每个连接频率表适用于不同的连接条件。在选择了连接频率表后,就可以用该表的数据计算连接保真度得分。
184.在一些实施方式中,悬链的数量可以在5-200,例如10-100,例如10-50的范围内,尽管在一些情况下悬链的数量可以超出这些范围。悬链的长度可以是2、3、4或5个核苷酸,其中悬链的长度只受限制性核酸内切酶或其他产生悬链的方法的选择以及可能的连接反应的频率和保真度的限制。关于优选悬链长度的选择可能受制于悬链中任何核苷酸组合的可能悬链数量,该数量应超过要连接的片段数量。在接收到用于组装反应的期望的悬链数量和悬链长度后,计算机从悬链表中提供一组选定长度的悬链(例如,2、3、4或5个碱基)。例如,如果用户向计算机输入20个长度均为4碱基的悬链,那么计算机将输出一组20个独特的悬链,其中不包括重复序列、互补序列、回文序列(例如gatc)或排除序列。gatc是回文序列
的实例,因为它的反向互补序列是gatc。应避免使用回文序列,因为任何一个具有回文末端的片段都可能与另一个相同的分子退火,导致有序组装的破坏。该界面可以允许接收一个或多个应被排除或包括的悬链的列表。被排除的悬链可能是由于连接概况的保真度或频率较差,或由于悬链已在反应中用于其他地方而被选择。包括的悬链可以根据其高保真度和/或频率值的实验结果来选择。
185.显而易见的是,悬链连接频率表可以存储在计算机内存中,并可以包括所有可能的期望长度的悬链或其子集。例如,对于4碱基悬链,悬链表可以包含256个4-碱基序列,对于3-碱基悬链,悬链表可以包含64个3-碱基序列。可以按任何特定顺序选择悬链。例如,在一些实施方式中,悬链可以随机选择,而在其他实施方式中,悬链可以按规定的顺序选择。
186.基于用户从菜单中的选择,计算机为组中每个单条悬链及其互补序列计算出连接保真度得分。例如,如果该组中有20条悬链,那么就应该有20个连接保真度得分,其中每个单条悬链的连接保真度得分表示相对于该组中的所有悬链及其互补序列,单条悬链及其互补序列独立地连接到完全互补悬链的频率。例如,如果相对于该组中的所有悬链及其互补序列,特定悬链及其互补序列在90%的时间内与完全互补链连接在一起,那么计算的该悬链的连接保真度得分为0.9。如果特定的悬链及其互补序列在95%的时间内连接,那么这个差异表明可连接的错配的可计算率。这些值来自于由本文所述的方法获得的连接保真度/频率表,其中每个条目由不同实验条件下连接事件数量的单独实验限定的测量值组成。
187.连接条件
188.可以使用下拉菜单来选择连接条件,其中下拉菜单中列出的连接酶选项包括不同的连接频率表。被发现向其添加连接酶选择影响连接效率、保真度和产率的实验条件的实例影响实验确定的有序组装片段的悬链连接频率和保真度的值。
189.连接的温度条件包括静态温度和使用下拉式或下触式循环在高温和低温之间的循环。这些术语在实施例2中解释:
190.(a)有序组装的片段数量;
191.(b)悬链的长度;
192.(c)限制性核酸内切酶/连接反应的温育时间;
193.(d)限制性核酸内切酶和连接酶的类型;
194.(e)缓冲液类型,包括盐的浓度;
195.(f)辅助因子,比如群集剂、修复酶和/或脱腺苷酶(也参见表4和表5);
196.(g)连接酶的选择;
197.(h)对于或背离某些4-碱基序列的可接受的连接酶偏倚,对错配的容忍度和保真度概况;
198.(i)对于或背离某些4碱基序列的不可接受的连接酶偏倚,对错配的容忍度和保真度概况;
199.在一个实施方式中,图9b-9d中的连接保真度查看器、getset和splitset的用户界面中实验条件的下拉菜单显示在表1中。
200.表1
[0201][0202]
每个条目都具有输入到数据工具中的256
×
256的数据集,用于整合到最佳悬链的计算中。实施例1详细描述了如何为5种连接酶的比较研究收集数据。
[0203]
4碱基悬链的连接频率表应具有所有可能的悬链组合中每一种的实验值,即256
×
256/2个数据点,每个值表示在规定的实验条件下两条悬链的连接频率。在实施例1以及potapov,v.等人,(2018),acs synth.biol.,第7卷,第2665-2674页;potapov等人,nucleic acid res 2018,46e79;potapov等人,(2018)biorxiv;pryor,j.m.等人,(2020)plos one,e8592;pryor,j.m.等人,(2020)biorxiv,e4019中描述了关于如何获得该数据的细节。单条悬链的连接保真度得分可以计算为相对于发生在(i)单条悬链和该组中的所有悬链及其互补序列;以及(ii)单条悬链的互补序列和该组中的所有悬链及其互补序列之间的连接事件的总数,发生在单条悬链及其互补序列之间的连接事件的数量。
[0204]
然后,可以基于计算出的每个单条悬链的连接保真度得分生成悬链组的整体保真度得分,如上面的输出。在一些实施方式中,各个连接保真度得分可以相乘在一起,以获得整体保真度得分。例如,如果有20条保真度为0.950的悬链,那么该悬链组的整体保真度得分可以是0.36(即0.95
20
)。此外,在一些实施方式中,这种计算可以通过一条悬链与其互补序列连接的效率如何来确定悬链的权重。例如,在一些情况下,两条悬链可能有相同的保真度,但在所使用的条件下,一条比另一条更有效地连接到其互补序列。在这种情况下,以更高的效率连接的悬链可能比另一条悬链具有更高的权重。因此,在一些实施方式中,整体保真度得分可以用(i)计算出的每个单条悬链的连接保真度得分和(ii)每个单条悬链连接到
完全互补悬链的产率来计算。
[0205]
在计算出所选的悬链组的整体保真度得分后,可对另一悬链组重复该过程,以计算出多个整体保真度得分,每个得分针对不同的悬链组。在这一步骤中,在迭代步骤中选择的悬链组彼此不同(也不同于第一悬链组)。同样,在迭代步骤中,选择可以是随机的,或者可以是按照限定的顺序。在一些实施方式中,这些步骤可以使用蒙特卡洛(monte carlo)模拟进行迭代。在这种方法中,可以生成至少100、至少1,000或至少10,000个整体保真度得分,每个得分针对不同的悬链组。重复该方法的这一部分,直到为所有可能的悬链组合分配一个整体保真度得分,或者直到确定一条或多条悬链的整体保真度得分高于阈值。
[0206]
在计算出整体保真度得分后,该方法可包括鉴定具有合适的整体保真度得分的悬链组(在表7和实施例5中提供了悬链组的实例)。在一些实施方式中,所鉴定的悬链组可具有在整体保真度得分的前50%、前20%、前10%或前5%中的整体保真度得分。在一些实施方式中,鉴定的悬链组可具有最高的整体保真度得分,或在前10%或前5%最高保真度得分中的得分。可以将选定的悬链组从计算机输出到例如显示器上(参见实施例5和图9b-9d)。
[0207]
在进一步的实施方式中,该方法可包括用户向界面输入以下一项或多项:(i)用于组装反应的期望的悬链数量;(ii)悬链的长度;任选地,(iii)组装的核苷酸序列;(iv)(iii)的核苷酸序列可被切割的区间集,使该方法被执行,并且然后接收一组鉴定的悬链和/或接收一组用于组装的片段作为输出,其中片段的末端由鉴定的悬链组限定,这取决于哪些信息被输入到界面。该方法可进一步包括接收指令,该指令是关于连接该悬链组或包含其的片段的连接条件,以及任选地,用于产生片段和将它们连接在一起的热循环条件。在这些实施方式中,该方法可包括制备一组双链核酸,其具有整体连接所占分数达到或超过阈值的一组悬链,以及它们的互补序列,并且然后在单一反应中将这些片段连接在一起以产生组装物,其中在反应中,悬链决定了组装中片段的顺序。连接可以通过悬链定向连接完成,这将在上文和/或下文中更详细地解释。显而易见的是,该方法可进一步包括接收选定的连接实验条件。
[0208]
通过在wo 2020/081768中已经详细描述的连接保真度查看器、getset和splitset阐释了上述实施方式的实现。图9a-9d提供了这些应用中每个应用的用户界面。实施例中提供的连接酶数据是上文讨论的能够完善优化的悬链组的实验条件的另外的特征。这对于具有相应的大片段组的大悬链组的有序组装特别有用。
[0209]
在getset(参见图9c)中,选择悬链长度,输入悬链总数,输入需要的那些悬链,并且也可以添加排除的悬链,并可以选择实验条件,包括使用paqci和选择连接酶。然后,getset将提供一组最适合指定的连接条件的悬链。
[0210]
在splitset中,第一步可以包括接收预期组装的核苷酸序列和一组区间(例如,至少5、至少10、至少20或至少30,至多50或更多个区间),在这些区间中核苷酸序列可以被切割(除了用于组装反应的期望的悬链数量和悬链长度之外)。输入序列可以是,例如,长度为至少500个碱基的任何序列,尽管可以选择短至25个核苷酸的序列,在该区间的开始和结束处提供iis型限制性核酸内切酶识别序列。例如,该方法可以包括接收序列和多组开始和结束坐标,其中每组开始和结束坐标限定该序列可以被切割的区间。在这些情况下,只有在区间内的悬链可以从悬链表中选择,使得每个区间由选定的悬链代表。然后在区间内鉴定一组非冗余的子序列,其长度与接收到的悬链长度相同。这些子序列可以存储为悬链表本身,
或者仅来自非冗余的子序列组中的序列将选自悬链表(参见表8和表9)。区间可以由用户输入计算机,例如,通过将区间输入界面中(参见图9d)。可选地,用户可以输入序列并指定需要多少个片段。在这些实施方式中,算法可以确定输入序列可以被分割以产生期望数量的片段的大致位置,并且然后鉴定包含大致位置的区间(其可以为例如长度10-50或10-100个核苷酸)。该区间可按上述方法处理。在这些实施方式中,该方法可进一步包括在鉴定的悬链处分割组装物的核苷酸序列,从而产生组装物的一组片段,其中片段的末端由鉴定的悬链限定。splitset的界面显示在图9d中,其中通过在菜单中选择项目来提供期望的悬链长度。然后像连接保真度查看器一样选择连接条件,输入核苷酸序列,输入片段的数量。然后计算机将提供用于有序组装的优化片段组的结果。
[0211]
本文提供的实施方式是使计算机的用户通过图形表示的方式查看在选定的实验条件下从预定的片段悬链组中预期的连接保真度概况。这些特征中的每一个可以通过调整本文所述的任何参数进行修改,以提供修订后的图形表示,并使用对该组悬链序列获得的满分偏倚的图形表示来确定该变化是否改善了所选数量的悬链序列的连接保真度概况。
[0212]
本文提供了使计算机用户能够快速有效地从计算机中获得适合于将多个核酸片段组装成靶标多核苷酸的优化的悬链序列组的其他实施方式。该优化可以依赖于在选定的实验条件下针对具有单一长度的悬链的所有可能的序列组合的完整组的所有可能的悬链序列的连接保真度和连接效率(频率)值的两个或更多个数据库。第一个数据库可以是分析退火悬链的产物,其中图2a-2c和实施例1中提供了测定的实例。第二个数据库可以使用相同的测定得出,以提供识别不同的4碱基悬链和具有不同或相似偏倚的不同连接酶的连接频率和保真度的数据。整组悬链可以包括不同大小的悬链。核酸包括dna、rna或dna/rna杂交体或嵌合体。虽然为了方便起见,在说明书、实施例和权利要求书中可能会特别提到dna,但是本文的实施方式并不限于dna,而是可以应用于上述任何类型的核酸。
[0213]
确定适当长度的悬链的因素包括:期望连接多少个片段,其中悬链越长,可能的组合的组就越大。这使得更多的片段可以连接起来形成靶标多核苷酸,每个片段都具有与其相邻的片段悬链互补的独特悬链。其他因素包括解链/退火的效率,其中较短的悬链解链和退火速度较快,并且较长的悬链需要较高的解链温度。连接效率是另一个因素,其中较长的悬链可能比较短的悬链更有效地连接。连接效率也取决于核苷酸单独或一起在悬链中的特性,其中一些序列比其他序列更有效地杂交和/或连接形成接头,具有减少的偏倚,不利于或诱发错配。
[0214]
在一个实施方式中,来自系统的输出指示用户应使用哪种限制性核酸内切酶来切割核酸,以生成具有已优化的连接保真度或选择的选定连接保真度的序列的悬链。然而,还可以使用其他切割酶系统,比如尿嘧啶特异性切除试剂(,new england biolabs,ipswich,ma)、argonaute、簇状规则间隔短回文重复(crispr)或可用于生成悬链的其他切割酶。
[0215]
上面讨论的实验条件是由计算机界面的菜单提供给用户的,并且然后由用户选择或由计算机选择,计算机已经计算了组装的所有各种参数,并为有效地正确连接一组中的所有片段提供了最佳条件。使用iis型限制酶可以精确选择dna将被断裂的部位,并能从最终构建体中排除限制酶识别序列(因此实现无缝的单管组装反应)或某些类型的核酸组装物,例如对于基因编码区,不改变dna序列的无痕接头很重要。在其他应用中,例如顺反子形
成,组装反应中可能保留的另外的或改变的核苷酸可能不会干扰靶标核酸的基因表达。在一个实施方式中,适合用于生成悬链和无痕接头的内切酶包括:
[0216]
2-碱基悬链生成器(例如,btsi及其同切点酶,acui及其同切点酶),
[0217]
3-碱基悬链生成器(例如,sapi及其同切点酶,以及bspqi及其同切点酶(均为7-碱基识别)),
[0218]
4-碱基悬链生成器(例如,bsai-hfv2及其同切点酶(6-碱基识别)、bbsi及其同切点酶(6-碱基识别)、bsmbi及其同切点酶(6-碱基识别)、paqci(7-碱基识别),和
[0219]
5-碱基悬链生成器(例如,hgai及其具有5-碱基识别位点的同切点酶)。
[0220]
new england biolabs 2017/2018年目录中描述的其他限制性核酸内切酶及其同切点酶可用于那些不需要无痕的组装反应。
[0221]
2-碱基悬链产生16
×
16矩阵数据表,3-碱基悬链产生64
×
64矩阵数据表,4-碱基悬链生成256
×
256矩阵数据表,5-碱基悬链产生1024
×
1024矩阵数据表,6-碱基悬链生成4096
×
4096矩阵数据表。使用iis型限制性核酸内切酶的悬链长度的上限可以是长度为5、6、7或8个碱基。对于缺口剂比如user,悬链的碱基数可以是用户基于尿嘧啶的定位所期望的那样多。优化的watson crick配对悬链组包括能与其完全互补的伙伴有效连接的悬链对,不是回文序列,并且在该组中是唯一的。其他悬链对也是可以接受的,只要优选地没有单条悬链与含有一个或多个错配但优选地不超过一个错配的悬链伙伴形成连接产物。对于任何选定的接头数量(比如10个接头、12个接头、15个接头、20个接头等),都可以由计算机提供具有良好连接保真度的最高保真度的悬链组。接头的数量越多,该组悬链对的平均最大连接保真度就越低。
[0222]
在一些实施方式中,使用替代的酶,比如适合在dna片段中产生悬链的缺口剂,例如user(还参见例如us 7,435,572)或endoms;以及适合在dna和rna中产生悬链的argonautes和cas切割酶(其中这些酶利用引导dna或rna)来产生悬链。
[0223]
本方法的实施方式允许用户接收计算输出,该输出基于在给定的循环条件下对于切割酶和一种或多种连接酶的特定组合的切割、解链、退火和连接的净效应的测量提供优化的悬链组,其中一些或所有这些特征由用户提供。然后,输出可以为每条悬链配对提供相对连接效率和/或连接保真度值。
[0224]
计算输出还可以为用户提供执行组装的优化方案,以获得期望的整体连接保真度,详细说明温度、杂交时间、连接的循环条件和缓冲液中的至少一个。
[0225]
计算输出可以包括包含以下一个或多个特征的图形输出:(1)突出接头位点的整个组装序列;(2)输入片段与片段上标出的各个切割位点的映射,其中切割位点组已通过计算确定,以产生用于片段组装的最佳悬链组,从而形成期望产物;(3)在用户指定的条件或计算机优化的实验条件下,所选悬链的连接保真度矩阵;以及(4)一组引物序列,其包含选定的iis型限制性核酸内切酶识别序列和悬链序列以及任何另外的靶标片段序列,用于指导自动寡核苷酸合成。这组引物序列可以通过电子方式转发到接收地点,用于指导dna合成仪器制备这种引物。
[0226]
在一个实施方式中,用户选择的悬链组的结果可以由用户提供优选的条件集进行优化,以实现有效的和精确的杂交。对于大量的片段(例如,》20个),任意序列的短连接体是优选的。可以访问多个数据集,其提供不同条件下的悬链最佳值。这样的测定使用户能够选
择给予选定的悬链组尽可能高的保真度和效率的一组酶和反应条件。
[0227]
在另一个实施方式中,部分悬链对反应参数和数据集可由用户选择,并且部分悬链反应参数和任选的数据集可由计算机选择,以提供可能的最佳连接效率和保真度,以产生期望数量的连接片段。例如,总共需要15个连接对来连接16个双链核酸片段,其中6个悬链对由用户选择,并且其余的悬链在计算机生成的输出中提供,任选地与优选的的实验条件(包括连接酶的选择)一起。然后,使用户能够接收另外的优化的9个悬链对,其中任选地选择反应成分比如限制酶、连接酶,并且任选地选择包括循环时间和温度的其他反应条件,这将为15个成员的最终组提供最高的连接保真度和效率。
[0228]
在另一个实施方式中,用户将基因、基因通路、质粒或染色体序列输入计算机,以便使用优化的悬链组将其分成适合高保真度的高效组装的片段。用户可以指定靶标核酸和期望的片段数量。网络工具或图形界面在满足相关悬链的杂交参数的最佳接头处提供期望数量的片段的序列,当连接时形成无痕接头,从而使用户能够以期望的方式制备靶标多核苷酸。如果用户另外指定了最低的可接受的保真度,那么期望数量的片段的序列规格可以被改变,并且事实上,提供给用户的片段数量可能会改变,以提供最大数量的序列,以及可能提供指定的最小可接受保真度的接头。
[0229]
在另一个实施方式中,用户可以提供靶标序列,并且另外可以指定包括在设计具有预定悬链的组成片段的一些接头,以及反应条件的一些子集(或所有反应条件)。计算机向用户提供高效连接的悬链列表,以提供最佳的另外的接头和/或反应条件。
[0230]
在适合于反应中使用的所有类型的酶活性(例如,切割酶和连接酶)的单一温度或在最佳切割/解链温度和最佳退火/连接温度之间变化的任何数量的循环条件下进行组装。因此,悬链以一锅法生成并密封,并且在一个实验中可以将多片段连接在一起。
[0231]
使用计算机程序和通用计算机系统实现核酸组装
[0232]
本文所述的各种系统的各个部件可以使用通用计算机系统实施为计算机程序。这样的计算机系统通常包括与向用户显示信息的输出设备和接收用户输入的输入设备二者连接的主单元。主单元通常包括经由互连机构与存储系统连接的处理器。输入设备和输出设备也经由互连机构与处理器和存储系统连接。
[0233]
一个或多个输出设备可以连接到计算机系统。示例输出设备包括但不限于液晶显示器(lcd)、等离子显示器、阴极射线管、视频投影系统及其他视频输出设备、打印机、通过低或高带宽网络进行通信的设备,包括网络接口设备、电缆调制解调器,以及存储设备,比如磁盘或磁带。一个或多个输入设备可以连接到计算机系统。示例输入设备包括但不限于键盘、按键、跟踪球、鼠标、笔和平板电脑、触摸屏、相机、通信设备和数据输入设备。本发明不限于与计算机系统结合使用的特定输入或输出设备,或者本文所述的那些。
[0234]
计算机系统可以是通用的计算机系统,它可以使用计算机编程语言、脚本语言或者甚至汇编语言进行编程。计算机系统也可以是专门编程的专用硬件。在通用计算机系统中,处理器通常是商业上可获得的处理器。通用计算机通常也具有控制其他计算机程序的执行,并提供调度、调试、输入/输出控制、核算、编译、存储分配、数据管理和内存管理,以及通信控制和相关服务的操作系统。计算机系统可以连接到本地网络和/或广域网,比如互联网。连接的网络可以将用于在计算机上执行的程序指令、媒介数据(比如视频数据、静止图像数据或音频数据)、元数据、媒介作品的审查和批准信息、媒介注释及其他数据传送到计
算机系统和从计算机系统传送出去。
[0235]
存储系统通常包括计算机可读介质。该介质可以是易失性或非易失性的,可写或不可写的,和/或可重写或不可重写的。存储系统通常以二进制形式存储数据。这种数据可以定义由微处理器执行的应用程序,或存储在磁盘上由应用程序处理的信息。本发明不限于特定的存储系统。基于时间的媒介可以存储在磁盘、光盘或固态驱动器上和从其输入,其可以包括本地或网络连接的磁盘阵列。
[0236]
系统比如本文所述的那些可以用软件、硬件、固件或三者的组合来实现。系统的各种元件,无论是单独还是组合,都可以作为一个或多个计算机程序产品来实施,其中计算机程序指令存储在计算机可读介质上,以便由计算机执行,或经由连接的局域网或广域网传输到计算机系统。方法的各种步骤可以由执行这种计算机程序指令的计算机来执行。计算机系统可以是多处理器计算机系统,或者可以包括通过计算机网络连接的多台计算机。本文描述的部件可以是计算机程序的独立模块,或者可以是独立的计算机程序,它们在单独的计算机上是可操作的。由这些部件产生的数据可以存储在内存存储系统中,或通过各种通信媒介比如载波信号在计算机系统之间传输。
[0237]
多核苷酸有序组装的用途
[0238]
改进的方法、组合物和试剂盒可用于许多诊断和医疗环境中。下面给出一些实施例。
[0239]
实施例5描述了将多片段组装方法用于冠状病毒的组件序列,这些序列可以被设计成新型毒粒序列,转录成rna并作为疫苗开发的潜在底物进行测试。图14和图15显示了本文所述的用于cart细胞治疗和设计噬菌体抗生素的改进的多片段组装。这些方法依赖于以一锅反应制备25-50个片段的大阵列。然后,这些阵列可用于在单个的一锅反应中靶向多个基因。可选地,单个基因可以被多次和/或在多个位置靶向,以通过同源定向修复提高编辑的效率。阵列的另一个应用是产生或改变基因通路,例如,代谢通路。然后,这些代谢通路可由dcas9控制,以结合那些期望其关闭的基因。生物传感器阵列可以被设计(使用例如cas 13)为在例如多病原体传感器系统中同时感知大范围的核酸。
[0240]
在上面列出的应用中,由计算机提供并在图9a-9d中总结的整体设计规则几乎可以立即促进25-50个片段阵列的产生。使用计算机工具,将有可能产生具有相对较差保真度的片段阵列(参见hlig3)。hlig3将促进库的产生,其中包括的grna模板序列的数量经由错配连接的控制删除而变化。
[0241]
对于那些利用小的片段(例如30-70个核苷酸)的阵列,这些可以使用来自计算机工具的信息很容易地由寡核苷酸代工厂(foundry)合成,为随后仅依赖连接的组装提供最佳效果的悬链。设计者可以选择最佳的连接酶,并且也可以选择优选的悬链长度,用于正确组装片段的最佳频率以及在单步反应中的组装片段的期望保真度。
[0242]
本说明书中提到的所有出版物、专利和专利申请通过引用并入本文,其程度如同每篇单独的出版物、专利或专利申请被具体和单独指明为通过引用而并入,包括2020年12月15日提交的美国临时申请号63/125,530;2021年6月23日提交的美国临时申请号63/213,807;和2021年6月23日提交的美国临时申请号63/213,859。
[0243]
实施例
[0244]
实施例1:由不同的4-碱基序列引起的不同连接酶的连接频率的差异
[0245]
所有的酶(除hlig3外)和缓冲液都是从new england biolabs(neb,ipswich,ma)
获得的。t4 dna连接酶反应缓冲液(1x)为:50mm tris-hcl(ph 7.5),10mm mgcl2,1mm atp,10mm dtt。快速连接反应缓冲液(1x)为:66mm tris ph 7.6@25℃,10mm mgcl2,1mm dtt,1mm atp,6%聚乙二醇(peg 6000)。nebuffer 2(1x)是:10mm tris-hcl(ph 7.9),50mm nacl,10mm mgcl2,1mm dtt。buffer(1x)是:20mm tris-醋酸盐(ph 7.9),50mm醋酸钾,10mm醋酸镁,100μg/ml bsa。缓冲液是:20mm tris-hcl(ph 8.8),10mm(nh4)2so4,10mm kcl,2mm mgso4,0.1% triton-x-100。标准taq聚合酶缓冲液是:10mm tris-hcl(ph 8.3),50mm kcl,1.5mm mgcl2。寡核苷酸和连接库的所有柱清理都是使用pcr&dnacleanup kit柱(new england biolabs,ipswich,ma),按照寡核苷酸清理方案进行的。使用agilent2100(agilent,santa clara ca),使用dna 1000测定法,按照标准方案进行寡核苷酸纯度和大小测定。
[0246]
hlig3β基因由biomatik(加拿大安大略省)合成,并以n-末端his
6-标签框架亚克隆到pet28质粒。该构建体在t7 express lysy/iq大肠杆菌细胞(new england biolabs,ipswich,ma)中表达。
[0247]
根据wo 2020/081768和potapov等人(2018)acs synthetic biology,7,2665-2674产生用于四碱基悬链连接保真度测定的底物。简而言之,初始page纯化的底物前体寡核苷酸包含5
′‑
末端区,随机的四-碱基区,bsai-hfv2结合位点,恒定区域,作为合成偏倚对照的内部6-碱基随机区,以及对应于pacific biosciences smrt测序的smrt-bell测序衔接子的区域。前体寡核苷酸如前所述被扩展,并使用monarch pcr&dna cleanup kit纯化。使用bsai-hfv2切割扩展的dna以产生四碱基悬链。
[0248]
对于每个连接反应,将底物(100nm)与1x t4 dna连接酶缓冲液(或quick连接反应缓冲液,用于注明含有peg的反应)中的dna连接酶(最终浓度为1.75μm的t4dna连接酶、t3 dna连接酶、t7 dna连接酶、pbcv-1dna连接酶或hlig3)在50μl总反应体积中结合,并在25℃下温育1小时。用2.5μl连接酶反应淬灭液(500mm edta+2.5%v/v蛋白酶k)淬灭反应,并将样品加热到37℃,持续30分钟,以使连接酶被蛋白酶k dna切割。然后使用monarch pcr&dna cleanup kit并按照寡核苷酸清理方案纯化反应物。每个连接都以最少的重复(duplicate)进行,并通过agilent bioanalyzer(dna 1000)测定连接产率,并将误差报告为一个标准差。在1x标准taq聚合酶缓冲液中,用50μl体积的核酸外切酶iii(50u)和核酸外切酶vii(5u)处理连接后的库,并在37℃下温育1小时。使用monarch pcr&dna cleanup kit、寡核苷酸清理方案(包括第二次洗涤步骤)纯化库,并且然后通过agilent bioanalyzer(dna1000)定量。最终库的典型浓度在0.5到2ng/μl之间。每种连接酶都进行了两次重复实验。测序和测序数据的分析按照以前在wo 2020/081768和potapov等人(2018)nucleic acids research,46,e79-e79中的描述进行。产生了连接产物的顶部链和底部链的共识序列,并提取了每条链中的实际悬链序列。将连接产物中所有观察到的悬链对的频率制成表格,并用于推导结果。在随后的分析之前,合并来自重复实验的数据。图3ai/3aii-hi/3hii中提供了每个实验的全部结果。
[0249]
为了确定dna连接酶在末端连接中的保真度和偏倚概况,通过将每种dna连接酶(t4dna连接酶、t3 dna连接酶、t7 dna连接酶、pbcv-1dna连接酶和hlig3)与含有简并的5
′‑
4碱基悬链端的dna发夹底物混合来制备测序库,允许在每种连接酶的单一反应中观察每种
可能的序列环境(potapov等人,(2018)nucleic acids research,46,e79-e79)。与dna底物相比,连接酶存在较大的过量,以允许快速连接短的内粘端。连接反应后,使用pacbio smrt测序对库进行测序,并在表2中提供了每种连接酶的多重连接数据的总结,包括连接事件的总数、正确(watson-crick)与不正确(错配)连接的百分比,以及获得的连接产物的产率。
[0250]
表2
[0251][0252][0253]a整体保真度是通过合并所有复制的连接保真度数据计算出来的。标准偏倚是基于每个重复的整体保真度计算的。除人类dna连接酶3有4次重复,和t3 dna连接酶有3次重复外,每种连接酶都收集了两次重复。
[0254]
由于dna发夹底物的群体呈现出复杂的平衡系统,并且连接需要找到兼容的末端,预期竞争性的退火伙伴会因为存在连接效率差的退火配对限制连接产率。库在1小时内的连接产率在测试的连接酶之间差异很大。t4 dna连接酶、t3 dna连接酶和hlig3都产生了大于55%的连接产物,并且通常是最有效的末端连接连接酶之一。pbcv-1连接酶的产率略低(50%),反映出它的末端连接活性不太强。t7 dna连接酶到目前为止产率最低,只达到20%的连接产物。
[0255]
多重连接数据显示了在优选的悬链序列中的连接序列偏倚。在本实验中,每条悬链的读段数目是其连接效率的代表;每种连接酶的序列偏倚是由所有连接产物中每条悬链出现的相对频率推断出来的。在连接酶之间检测到了不同的整体偏倚程度以及内在不同的优选序列(图4a)。t7 dna连接酶显示出最高程度的序列偏倚。检查的所有其他的连接酶都有紧密得多的连接频率分布,但在数据点围绕平均值的紧密程度上存在差异。t4 dna连接酶和hlig3显示的偏倚量最小,与t7 dna连接酶相比,其数值范围小两倍以上。pbcv-1和t3的平均连接频率相似,但观察到的连接频率的范围稍大。
[0256]
当分析单条悬链的连接频率时,不同的酶之间优选或不受欢迎的具体序列有所不同。对于大多数连接酶,观察到将gc含量较高的悬链设置为更有效的连接的弱的总体趋势(图4a)。在watson-crick连接和含有至少一个错配的连接中发出现了偏向于高gc配对的偏倚,表明在这两种情况下都倾向于更强的退火序列。t7 dna连接酶最容易受到该偏倚的影响,其中低gc悬链(0%或25%的gc含量)很少被连接,而高gc含量(》50%)占连接产物的96%。这些数据表明,对于t7 dna连接酶,末端连接的效率受悬链的gc含量支配。t4 dna连接酶、t3 dna连接酶和pbcv-1对gc含量的依赖性不太明显,但仍可观察到。相反,hlig3的连接似乎与gc含量无关。然而,很明显的是,gc含量并不是造成偏倚差异的唯一因素。虽然每
一种单个酶的实验重复在优选的悬链序列上是一致的,但比较不同的dna连接酶之间的序列偏好会发现另外的复杂差异,这些差异不能容易地用gc含量或其他简单的趋势来描述。
[0257]
在t4 dna连接酶、t3 dna连接酶、pbcv-1连接酶和hlig3中观察到大多数正确的碱基配对的连接伙伴,其总体频率相似。与中值相比,具有tnna序列的悬链的连接效率低且减少(表2)。相应的annt悬链,尽管预期在底物库中存在相同的比,但与该组中的其他悬链相比,并没有显示出发生率降低。数据显示,二者都含有5
′‑
t的悬链对的连接中存在根本的效率低下。此外,含有5
′‑
c的悬链被hlig3连接的效率大大降低(图3aii)。
[0258]
这里研究的连接酶显示了保真度的极端值,其中t7 dna连接酶显示了最高的保真度(89%的正确连接产物),而hlig3的保真度最低(56%的正确连接产物)。t4 dna连接酶显示出中等的保真度(72%的正确连接产物)。t4 dna连接酶、t3 dna连接酶、pbcv-1连接酶和hlig3对单条悬链序列的保真度范围很广,一些悬链有非常少的错配连接事件,而另一些则有频繁的错配连接(图4b)。对许多悬链来说,即使当与所有可能的伙伴一起出现,连接产物几乎都是与watson crick伙伴结合。在发生每种连接酶都能容忍的特定的错配碱基对的情况下,这些更常见于5

端核苷酸(

边缘’),而不是在悬链的中间(

中间’)。一些常见的错配,特别是g:t错配,在所有测试的连接酶中都是常见的;然而,在每种连接酶的连接产物中也观察到不同的错配配对。
[0259]
例如,当t4 dna连接酶与所有可能的连接伙伴一起出现时,在90%以上的连接产物中,有几条悬链与它们的watson crick伙伴配对(例如aaaa、aaga、acaa、gaaa)。其他悬链与含有至少一个错配的伙伴连接;几条悬链与含有错配的伙伴配对的时间超过60%(例如ggcg、ggcc、gggc、gggg)。
[0260]
整体保真度为72%的t4 dna连接酶对gc含量为0%的悬链的保真度中值为90%,随着gc含量的每次递增,平均保真度下降,最终对gc含量为100%的悬链的保真度下降到52%(图5a)。在所有含有错配的整体28%的连接产物中,其中98%只有一个错配。在4碱基悬链的边缘位置(n1)处的错配连接主要是g:t和t:g错配,占边缘处所有错配连接的65%。在悬链的中间位置(n2和n3)的错配的存在受t4 dna连接酶的容忍度较低,但仍以g:t错配为主。
[0261]
比较而言,hlig3显示出大范围的连接保真度。大多数悬链连接的保真度小于50%,并且几条悬链(taag、aata、ttac、ccaa)连接的保真度大于80%。gc含量对hlig3的影响较弱,它对gc含量为0%的悬链的平均保真度为72%,并且对gc含量为100%的悬链的平均保真度为32%(图5c)。一半以上的连接产物(56%)含有错配碱基对。hlig3有大量的错配产物积累,其中有超过一个碱基对的错配,并且8%的连接产物含有两个错配。在这些双错配中,绝大多数(97%)涉及边缘位置的至少一个错配,并且通常包括至少一个g:t错配。此外,虽然g:t和t:g错配被很好地容忍,但hlig3、t3 dna连接酶和pbcv-1连接酶也对边缘和中间位置的嘌呤:嘌呤错配更宽容,其中g:a和g:g错配的连接频率几乎与g:t错配一样。
[0262]
相比之下,t7 dna连接酶的连接保真度范围更窄,只有少数几条悬链以低于80%保真度连接。无论gc含量如何,t7 dna连接酶显示出超过86%的平均保真度。t7 dna连接酶对错配连接具有整体较低的容忍度,并且只有12%的连接产物含有错配。与t4 dna连接酶类似,单个碱基对错配几乎占了所有(98%)t7 dna连接酶错配连接产物,并且主要的错配是4个碱基序列的边缘位置的g:t和t:g以及中间位置的g:t。
[0263]
实施例2:设计golden gate组装物的生物信息学工具
[0264]
图9a中确定悬链以优化连接保真度的计算机设计工具具有一起形成连接保真度工具的三个部件——连接酶保真度查看器(参见图9b)、getset查看器(参见图9c)和splitset接口(参见图9d)(例如参见wo 2020/081768)。所有这三种计算机设计工具都依赖于单一连接酶(t4 dna连接酶)。通过提供连接条件菜单下的偏好选择将这里获得的数据添加到这三种工具。可以选择具有影响悬链选择的不同碱基序列偏好的连接酶。这一另外数据的好处是可以提高多片段有序组装的工具的准确性。这些数据是从4碱基悬链获得的,但可以很容易地重复用于2-碱基、3-碱基和5-碱基的悬链。
[0265]
该数据还为用户提供了对一组给定的用户供应悬链的组装保真度的精确(refined)估计,并且如果这是不期望的,则鉴定高度可能发生错配连接的问题悬链配对。
[0266]
getset工具允许用户使用自动悬链选择生成具有最大组装保真度的悬链组。getset返回与悬链数量、悬链长度和连接条件的输入标准相匹配的高保真的悬链组。用户可以指定结果中必须包括或必须从结果中排除的悬链序列。重要的是,getset不使用预先计算的结果,而是使用随机搜索算法鉴定新的(de novo)高保真悬链组。因此,随机搜索算法可从相同的输入标准中返回不同的推荐悬链组,这意味着重复搜索可产生具有类似预测保真度的不同接头。因此,我们包括了特征以保存和调用先前的getset搜索结果。作为实例,getset工具被用来扩展植物合成生物学中使用的标准悬链组;该组的大小可以从11条悬链增加到20条悬链,而预测的组装保真度只有从81%至80%的微不足道减小。
[0267]
splitset工具从期望的靶标dna序列设计高保真度的组装片段。为了使用这个工具,用户输入dna序列、期望的片段数量、连接条件和融合位点的近似搜索窗口(默认情况下,程序选择等间隔的搜索区间)。splitset工具在选择的参数范围内在最高保真度的一组接头处分割输入的dna序列。此外,用户可以排除特定的融合位点序列,以确保与已有的模块克隆系统的兼容性,或者包括通过设置狭窄的搜索窗口来覆盖必须使用的一个或多个位点的固定位点。
[0268]
其他特征包括检查片段中是否存在可能影响选择iis型限制酶指导组装的任何内部位点或提醒用户通过驯化去除这种内部位点。该程序还可以为dna片段自动生成一组引物,以增加对于直接使用的插入物的扩增子生成或预克隆是必需的侧翼碱基和识别位点。最后,可以生成一份报告,其描述用彩色编码的图形读出的完整组装物、你最终的组装序列以及插入物之间的每个接头的描述。
[0269]
实施例3:goldengate组装物中的aprataxin/5’脱腺苷酶和peg
[0270]
在下面的表格中描述的反应中,按照规定,有序的组装反应由预克隆的dna片段(每个3nm)或pcr片段(每个3nm)和t4 dna连接酶缓冲液或blunt t/a连接酶缓冲液(new england biolabs,ipswich,ma)中指定量的限制酶和连接酶组成。如实施例3中所描述的,使用三种不同的连接方案之一温育组装反应物,接着在60℃下进行5分钟的最后温育步骤,然后在转化前进行最后的4℃保温。使用添加到铺在合适的生长培养基上的50μl感受态t7 express化学感受态大肠杆菌(new england biolabs,ipswich,ma)的2μl每种组装反应物进行转化,并在37℃下培养以形成菌落。
[0271]
将正确组装的靶标多核苷酸编码为lac操作子(约5kb)的盒,使得在iptg/xgal/chloramphenicol平板上,正确组装片段的蓝色菌落可以与含有不正确组装的白色菌落区分开。
[0272]
一般来说,发现加入5’脱腺苷酶或peg 600-6000增加了正确组装的产率。
[0273]
表3在优化的浓度范围内,5’脱腺苷酶使组装产率增加》2倍(下拉循环)
[0274][0275]
表4:5’脱腺苷酶使组装产率增加~7-10倍(静态循环)
[0276][0277]
表5:5’脱腺苷酶使组装产率增加》3倍(下触式循环)
[0278][0279]
表6:peg 600-6000使组装产率增加~2-5倍
[0280][0281]
产率-阳性组装物或菌斑的总量
[0282]
保真度-产率/总组装物或产物(蓝色菌落/白色菌落)。
[0283]
效率-产率/小时
[0284]
[蛋白质]-连接酶浓度(单位)和iis型浓度(单位)/20μl反应物
[0285]
准确度-正确的末端连接片段的数量相对于总组装物的数量
[0286]
hi-t4-热稳定的t4 dna连接酶变体
[0287]5’
脱腺苷酶和蛋白质的浓度,单位(u)
[0288]
实施例4:测试反应温度对多片段组装保真度以及从52个片段组装lac操作子盒的影响
[0289]
依赖于两种酶混合物(限制性核酸内切酶和连接酶)的多片段组装通常利用两步循环方案,在16℃温育步骤和37-42℃温育步骤之间交替进行,前者可最大限度地提高dna连接效率,后者可最大限度地提高片段消化效率。测试了省略16℃温育以确定对多片段组装保真度的影响,因为已经显示较高的反应温度可以提高dna连接酶的保真度。在多重高通
量dna测序测定中,对37℃或42℃的多片段组装错误频率进行了量化,并将结果与使用37/16℃或42/16℃传统热循环方案的反应进行了比较。将在恒定温育温度下进行的反应温育延长的时间段(16小时)以补偿连接效率的下降。结果显示,当省略16℃温育步骤时,连接错误的频率减少了》2倍,每个错配对出现的频率有所降低。
[0290]
多片段组装反应中使用单一温度温育(静态)的每个反应可超过50个片段。在使用bsai或bsmbi限制性核酸内切酶的这个实例中,在传统的37/16℃或42/16℃循环条件下,50个片段的估计组装保真度下降到10%以下,但37℃或42℃的静态温育方案可以允许》50个片段被组装,精确度》40%。静态37℃或42℃的静态温度利用较长的温育时间来补偿省略16℃温育步骤所引起的效率损失。
[0291]
组装反应的错配频率根据核苷酸错配(a:a、a:c、a:g、c:c、c:t、g:g、g:t、t:t)进行分组。用t4 dna连接酶以及bsai-hfv2在37℃下或bsmbi-v2在42℃下进行组装反应。为了比较,显示了使用传统的热循环方案与t4 dna连接酶以及bsai-hfv2在37℃和16℃下或bsmbi-v2在42℃和16℃下进行组装反应的错配频率。使用bsai-hf-v2(37℃)或bsmbi-v2(42℃)在单一温度下的错配频率明显低于循环所观察到的。
[0292]
为了测试本文的预测值,在单一的组装回合中,将4.9kb的lac操作子的盒从52个组成部分克隆到大肠杆菌目的载体中。重要的是,这里使用的lac操作子盒系统模仿了传统的克隆反应,其中在将组装反应物转化到大肠杆菌细胞中后,可以很容易地观察到携带正确或不正确组装的构建体的菌落。这个测试系统提供了一个比色读出器来区分携带正确和不正确组装产物的转化体。
[0293]
克隆形成(clonogenic)测定
[0294]
将重建lac操作子盒的组装反应转化到具有化学感受态大肠杆菌细胞中,并通过反向蓝白筛选将菌落形成单位评分为携带正确的或错误的组装构建体,如前所述。简而言之,按照制造商的说明,使用2μl每个组装反应物添加到50μl的t7表达感受态细胞中进行转化。将产生的生长晕铺到琼脂板上(补充有1mg/ml葡萄糖、1mg/ml mgcl2、30μg/ml氯霉素、200μm iptg和80μg/ml x-gal的luria-bertani发酵液)。重要的是,携带正确组装的构建体的转化体在含有iptg和x-gal的培养基上温育后会变成蓝色,而携带有组装错误的构建体的转化体会形成白色菌落。
[0295]
验证52个片段的lac操作子盒的组装
[0296]
使用monarch plasmid miniprep试剂盒(new england biolabs,ipswich,ma)从18个蓝色菌落分离出质粒dna。用在期望的插入位点两侧的扩增引物对12个构建体进行pcr。每个构建体产生与所有52个片段的组装物一致的扩增子大小,表明蓝色菌落含有期望数量的插入物。使用9种不同的测序引物对6个分离的构建体进行测序,以覆盖整个4.9kb的预期插入物。所有6个构建体都包含所有52个插入物的有序无误的组装物。
[0297]
52-片段的lac组装物:4碱基悬链(bsai-hfv2):
[0298]
悬链:
[0299]
ggag、ccag、atgt、taca、ggca、tatc、taag、cagc、gaac、caac、gctt、tagt、ctat、ggaa、ttcg、agac、gtat、gcgt、gatt、ttac、tatt、tcgt、caga、ggga、ctca、gcaa、tgga、cgtc、aacc、agta、taga、gaaa、aggg、ttct、acaa、aggt、tgtt、gagt、tggc、accg、atta、gtgc、agcg、tctt、cgtg、ccga、atca、tctc、caaa、ttca、tagg、tatg、ccat
[0300]
(片段大小(碱基对):83、125、103、45、114、83、122、81、89、139、81、119、62、96、92、92、107、113、85、82、113、95、110、78、96、78、101、103、115、75、113、98、115、63、99、126、93、69、102、86、139、56、121、73、128、110、67、93、144、90、96、77)
[0301]
发现,49%的观察到的转化体携带了正确组装的构建体,与预测的40%的保真度非常一致。为了进一步确认所有52个插入物的成功组装,从菌落子集中纯化了构建体,并通过pcr和sanger测序分析了插入物;所有接受另外筛选的菌落都被发现携带具有预期大小和序列的插入物的构建体。
[0302]
使用monarch plasmid miniprep kit(new england biolabs,ipswich,ma)从18个蓝色菌落分离出质粒dna。用在期望的插入位点两侧的扩增引物对12个所得构建体进行pcr。每个构建体产生与所有52个片段的组装物一致的扩增子大小,表明蓝色菌落含有期望数量的插入物。使用9种不同的测序引物对6个分离的构建体进行了测序,以覆盖整个4.9kb的预期插入物。所有6个构建体都包含所有52个插入物的有序无误的组装物。
[0303]
综上所述,噬菌体t7 dna和lac操作子盒的一步组装展现了一种产生和设计难以通过目前的克隆和基因合成方法获得和操作的大型/复杂dna构建体的变体的有效的和具有成本效益的方法。这里显示了多片段组装,用于从使用标准分子生物学技术容易进行操作和繁殖的几十个较小的构成部分快速组装有毒的和/或高分子量的dna构建体。这些发现极大地减少了通过体外组装产生大型构建体所需的分层组装回合数量,并可用于在单一反应中组装整个代谢途径以及甚至小的基因组。
[0304]
实施例5:从50个40kb的t7噬菌体dna片段快速一锅法构建dna分子
[0305]
除非另有说明,否则酶、缓冲液和培养基均从new england biolabs,ipswich,ma(neb,ipswich,ma)获得。合成寡核苷酸从integrated dna technologies(idt,coralville,ia)或sigma aldrich(sigma,st.louis,mo)获得。由于噬菌体基因组包含许多对大肠杆菌细胞有毒的基因,噬菌体gdna是由pcr生成的dna片段重建的,以避免有毒基因的亚克隆。使用这一策略,将16个沉默突变引入噬菌体基因组中,以去除基因组中预先存在的bsmbi iis型限制酶切位点。这些变化具有双重目的,既允许iis型组装,又作为组装验证的突变标记。
[0306]
从许多小片段在单回合中组装大靶标是如下测试的:对如下规定的条件,使用下拉菜单中的连接条件,将52个片段用于构建38kb的t7噬菌体基因组,通过splitset从完整的t7病毒基因组中选择52个不同的优化的4碱基悬链,并通过getset验证所选择的4碱基悬链组。
[0307]
通过数据优化组装设计获得的悬链序列
[0308]
52片段t7噬菌体组装物(bsmbi)
[0309]
悬链:
[0310]
aaat、agaa、agcg、atgt、tagt、tcgc、ctgg、acaa、agac、gctg、ggca、accc、accg、aagc、tact、aatc、aagg、gaaa、ggtt、caac、cgtc、ccta、tggg、taag、tcat、acgg、gtaa、catt、tatc、tgag、gcac、ccac、ttcg、tctg、agga、acgc、tggc、gtat、cgtg、ctat、gaga、actc、ggtg、tcca、ggga、gttc、ttgc、gaag、ggaa、caaa、atca、tgtt
[0311]
(片段大小(碱基对):779、918、512、465、810、756、731、820、690、759、813、743、644、1043、494、887、526、918、854、837、540、880、678、812、732、802、976、530、745、568、885、1130、148、1008、847、667、748、831、842、753、947、428、928、411、301、1383、424、1056、893、
653、815、1735)
[0312]
多片段组装反应
[0313]
通过pcr(hot-start high-fidelity 2x母液混合物(new england biolabs,ipswich,ma))与寡核苷酸引物(idt)产生组装片段,并使用monarch pcr&dna cleanup kit进行纯化。使用agilent bioanalyzer 2100评估片段质量,并使用qubit assay(thermo fisher scientific,waltham,ma)对每个组装部分进行量化。在1x t4 dna连接酶缓冲液中用3nm的每个dna片段和0.5μl的适当的多片段组装混合物(golden gate assembly mix(new england biolabs,ipswich,ma)进行多片段组装反应(最终体积为5μl);将bsmbi-v2混合物用于组装t7噬菌体基因组。将生产t7噬菌体基因组的反应物在42℃和16℃之间循环,在每个温度下持续5分钟,共96个循环,并且然后进行60℃温育,持续5分钟,最后在4℃下保温,直到转化到大肠杆菌中。
[0314]
菌斑测定
[0315]
按照制造商的说明,使用在25μl感受态细胞中的1μl反应混合物,将组装好的t7噬菌体基因组转化到neb 10-β电转感受态细胞中。将转染混合物回收到975μl neb 10-β/稳定生长培养基中,并且然后与3ml 50℃熔融的顶层琼脂(含0.7%琼脂的luria发酵液)合并。将得到的平板倒置,并在37℃下温育~5小时,直到大肠杆菌菌苔和噬菌体菌斑肉眼可见。在转化后,获得每微升组装反应物约20个噬菌体菌斑,表明噬菌体基因组的成功组装。
[0316]
验证52个片段的t7噬菌体gdna组装物
[0317]
通过菌斑pcr和限制酶消化法选择几个噬菌体菌斑用于另外的筛选,以确保它们包含完整和正确排序的t7噬菌体基因组拷贝;所有接受另外筛选的菌斑都包含预期的基因组排列,并携带预期的沉默突变。菌斑pcr是使用4组扩增引物进行的,该扩增引物一起跨越40kb的噬菌体基因组。使用dna 12000测定,通过agilient bioanalyzer 2100解析扩增子的长度。在用ndei限制酶消化或未消化后,将来自5个噬菌体菌斑的扩增子与亲本的wt t7噬菌体基因组进行比较。在所有情况下,噬菌体菌斑都产生了与亲本wt t7 gdna相同的图案。组装的基因组携带了期望的沉默突变,该突变除去了初始(native)bsmbi限制酶切位点,并且通过用bsmbi对亲本t7噬菌体基因组和菌斑进行扩增子消化,验证了观察到的菌斑不是来自亲本t7噬菌体gdna的携带污染的结果。来自亲本t7噬菌体基因组的扩增子被bsmbi消化后产生了预期大小的条带,而来自组装的噬菌体基因组的扩增子对通过bsmbi的切割是惰性的。
[0318]
此外,为了确保观察到的噬菌体菌斑是体外组装的结果,而不是通过细胞dna修复机制在大肠杆菌内的dna片段组装,进行了缺乏t4 dna连接酶的对照反应,并在这些对照反应的转化中没有观察到噬菌体菌斑。这些结果表明,使用高严格度筛选可以使用数据优化组装设计在有序的组装条件下快速组装》50个dna片段。
[0319]
注意到,高温组装方案的变化对产生感染性噬菌体菌斑不是必需的;推测由于菌斑形成测定的选择更加严格,因为t7噬菌体基因组的不当组装变体不太可能产生有活力的噬菌体,并且因此没有来自不正确组装产物的本底。这与lac操作子盒测试系统从使用了循环的52个片段的另一成功的组装形成对比。综合来看,这些结果证明了噬菌体基因组的快速组装,并表明这里开发的方法可以应用于其他大型和/或复杂的dna靶标。
[0320]
表7.根据本文的方法,计算机生成的优化的悬链组的实例
[0321][0322][0323]
使用bsai-hfv2、bsmbi或bspqi的数据生成悬链:
[0324]
以下是表8中使用的悬链。
[0325]
这里的悬链是按5’到3’的方向写的,并省略了磷酸。
[0326]
24-片段lac组装物:4碱基悬链(bsai-hfv2;bsmbi):
[0327]
悬链:
[0328]
ggag、gata、ggca、ggtc、tcgc、gagg、cagt、gtaa、tcca、caca、gaat、atag、agta、atca、tctt、aggt、caaa、aagc、gcac、caac、cgaa、gtct、tcag、ccat
[0329]
(片段大小(碱基对):118、222、222、199、137、217、197、244、293、173、127、208、287、310、291、259、176、217、135、176、184、133、203、119)
[0330]
24-片段t4噬菌体组装物(bsmbi):
[0331]
悬链:
[0332]
ggag、gata、ggca、ggtc、tcgc、gagg、cagt、gtaa、tcca、caca、gaat、atag、agta、atca、tctt、aggt、caaa、aagc、gcac、caac、cgaa、gtct、tcag、ccat
[0333]
(片段大小:8kb)
[0334]
24-片段t4噬菌体组装物(bsmbi):
[0335]
悬链:
[0336]
ttgc、tgga、tgag、tagg、acag、aagc、agcc、gtca、cgtt、attt、ttct、gaaa、gatg、gtat、gcac、tcgt、ggtc、cggg、cact、acta、acct、tctc、atgg、gtag
[0337]
(片段大小(碱基对):4631、9473、7031、7465、10181、1595、8807、3851、4152、10945、11254、7290、1680、10213、7152、6898、7162、7104、6967、6827、8052、8947、4304、7018)
[0338]
30-片段通用悬链组(任意4-切割物):
[0339]
悬链:
[0340]
aaac、aaca、aaga、aagt、aatg、acac、acga、agaa、agcc、aggg、agta、atag、atca、atga、attc、caaa、cacg、caga、ccag、ccta、cgaa、cggc、ctcc、ctta、gagc、gata、gcaa、ggga、gtaa、tcca
[0341]
52-片段t7噬菌体组装物(bsmbi)
[0342]
悬链:
[0343]
aaat、agaa、agcg、atgt、tagt、tcgc、ctgg、acaa、agac、gctg、ggca、accc、accg、aagc、tact、aatc、aagg、gaaa、ggtt、caac、cgtc、ccta、tggg、taag、tcat、acgg、gtaa、catt、tatc、tgag、gcac、ccac、ttcg、tctg、agga、acgc、tggc、gtat、cgtg、ctat、gaga、actc、ggtg、tcca、ggga、gttc、ttgc、gaag、ggaa、caaa、atca、tgtt
[0344]
(片段大小(碱基对):779、918、512、465、810、756、731、820、690、759、813、743、644、1043、494、887、526、918、854、837、540、880、678、812、732、802、976、530、745、568、885、1130、148、1008、847、667、748、831、842、753、947、428、928、411、301、1383、424、1056、893、653、815、1735)
[0345]
52-片段lac组装物:4碱基悬链(bsai-hfv2):
[0346]
悬链:
[0347]
ggag、ccag、atgt、taca、ggca、tatc、taag、cagc、gaac、caac、gctt、tagt、ctat、ggaa、ttcg、agac、gtat、gcgt、gatt、ttac、tatt、tcgt、caga、ggga、ctca、gcaa、tgga、cgtc、
aacc、agta、taga、gaaa、aggg、ttct、acaa、aggt、tgtt、gagt、tggc、accg、atta、gtgc、agcg、tctt、cgtg、ccga、atca、tctc、caaa、ttca、tagg、tatg、ccat
[0348]
(片段大小(碱基对):83、125、103、45、114、83、122、81、89、139、81、119、62、96、92、92、107、113、85、82、113、95、110、78、96、78、101、103、115、75、113、98、115、63、99、126、93、69、102、86、139、56、121、73、128、110、67、93、144、90、96、77)
[0349]
100-片段t4噬菌体组装物(bsmbi):
[0350]
悬链:
[0351]
ttac、ccca、aact、tttt、tgta、cgaa、ggag、tagc、caag、acaa、ctat、ggtc、tggc、agaa、actt、agtg、tctg、atgc、aagg、caac、tctt、gaag、gtgg、ttga、tcgg、ctct、ggta、gatg、aatc、gaca、acta、cgca、tgaa、atcg、ccaa、ccat、cata、gaga、taga、tcgt、ggtt、ctcg、aaag、ggat、tgct、tatt、ctca、attc、tgat、catt、ctgg、gtta、ctaa、aacg、gtag、acgc、tgtg、gcac、gcaa、attt、ggct、tccg、ctgc、tcac、tcat、tagg、ccgt、gata、agac、taag、tccc、gggt、gagt、atac、gttt、tcca、accg、actg、caaa、ggcg、gact、tgtt、gaaa、tacg、tcag、gttc、gcga、gctt、gctc、tact、agat、tggt、agga、taat、ggaa、acct、caat、cccc、atgt、tgac
[0352]
(片段大小(碱基对):395、383、424、367、451、506、287、411、352、355、419、357、519、208、448、379、412、380、422、475、337、481、242、537、320、450、522、149、562、329、312、567、389、328、456、301、390、479、282、402、494、340、450、287、569、380、396、334、390、412、295、487、199、627、290、557、382、409、296、418、906、143、193、296、436、412、465、295、511、312、341、369、448、451、421、297、380、425、479、150、679、320、356、495、223、562、399、319、317、268、628、435、368、355、451、308、555、336、357、1074)
[0353]
实施例6:用于研究和疫苗开发的病毒基因组例如冠状病毒的合成和工程化
[0354]
依赖于体外连接的反转基因系统为研究人员提供了一种相对快速/高效的方法来产生rna病毒的变体,用于研究目的和疫苗开发工作。这种方法在操纵几种病毒方面发挥了作用,但尚未成功应用于许多高价值的靶标,包括冠状病毒(尽管有几次尝试)。可能是一些病毒基因组的大尺寸和固有的毒性/重复性禁止了用传统技术在大肠杆菌细胞中维持病毒基因组dna。然而,使用本文所述的方法可以完成从许多部分有效组装病毒基因组。有毒的病毒基因组可以被细分为小的片段,以便于在大肠杆菌细胞中操作,允许在几个小时内对病毒cdna进行单管组装。作为实例,我们在下面展示了12个片段、24个片段和50个片段的线性病毒基因组组装物(基因库id:nc_045512,来自严重急性呼吸道综合征冠状病毒2号分离物,完整基因组)的设计。这些片段可以包含在质粒中,质粒的插入位点上有选定的限制性核酸内切酶的识别序列。例如,限制性核酸内切酶可选自:bsai-hfv2、bsmbi-v2、bbsi-hf、sapi、bspqi和paqci。如果选择paqci进行病毒组装,反应混合物中应包括上述的活化剂分子。用这些限制性核酸内切酶中的任何一种切割的产物都会产生悬链。wo 2020/081768为各种限制性核酸内切酶提供了悬链序列的优化,其中增加了paqci的数据(表8),并使用了wo 2020/081768中描述的计算机工具,并通过引用将其并入。paqci切割和t4 dna连接的反应条件。使用75ng/ul目的质粒(1ul)的进行反应,加入2ul的t4dna连接酶缓冲液(10x),0.5-2ul的paqci(10u/ul)、paqci活化剂(20um)0.25-0.5ul、t4dna连接酶(400u/ul)0.50-2ul和无核酸酶水,至20ul。组装方案是(37℃,5分钟

16℃,5分钟)
×
30-60个循环

37℃,5分钟

60℃,5分钟。
[0355]
表8.使用t4 dna连接酶和缓冲液(neb)和paqci(在37℃下5分钟,然后在16℃下5分钟,60个循环)对5

磷酸化的4碱基悬链的多片段组装保真度
[0356]
[0357]
[0358]
[0359]
[0360]
[0361]
[0362]
[0363][0364]1保真度被计算为对于给定悬链,正确连接所占分数除以连接总所占分数。
[0365]2给出了每条悬链的最经常观察到的错配伙伴。所有的悬链都是按5
′‑3′
方向写的。括号中的数字是给定的错配连接相对于该悬链的错配连接总数的百分比。
[0366]
使用多片段组装方法组装冠状病毒基因组时的片段选择。
[0367]
表9:12-片段病毒基因组的区段(基因库id:nc_045512)
[0368][0369][0370]
表10:24-片段冠状病毒cv-2病毒基因组的区段(基因库id:nc_045512)
[0371]
片段#范围长度5'端3'端
11-12451275bp ttca21246-25001285bptgaagtgt32501-37351265bpacacaggg43736-49851280bpcccttcta54986-62341279bptagaaaca66235-74701266bptgttaccg77471-87291289bpcggtgtag88730-99641265bpctaccgag99965-112201286bpctcggacc1011221-124681278bpggtctttg1112469-137131275bpcaaaaatc1213714-149491266bpgattgaaa1314950-162011282bptttctcat1416202-174511280bpatgacagg1517452-186901269bpcctgtgga1618691-199391279bptccagcta1719940-211901281bptagctcag1821191-224371277bpctgaaagt1922438-236801273bpacttagta2023681-249211271bptactaaat2124922-261571266bpattttaac2226158-274051278bpgttaaaag2327406-286491274bpctttttgt2428650-299031284bpacaa [0372]
表11:50-片段病毒基因组(冠状病毒cv-2基因组)的区段(基因库id:nc_045512)
[0373]
[0374][0375]
实施例7:生成将多核苷酸有序组装为靶标多核苷酸的自动化工作流程
[0376]
工作流程可以主要地或完全地在单台机器上完成,各种组件的输入可以一起或按顺序呈现。在假设的工作流程中,将期望的序列输入计算机。然后计算机提供描述合适的片
段的输出以及源自附加有规则集的连接频率表的悬链,用于期望序列的有序组装。
[0377]
计算机输出可能与微流控芯片(lab on a chip)或其他包含多个试剂区室的仪器交互。反应步骤的调节可以在芯片上通过基于电泳的液体转移来控制。例如,平台(sharp life sciences,oxford,uk)可以在“微流控芯片”设备上对微尺度液滴进行电子操控。另一个平台是基于声音的液体转移(beckman coulter,brea,ca)。可选地,可以使用磁珠进行工作流程以根据需要在不同的阶段从反应容器中除去不需要的酶/底物。
[0378]
因此,可以根据计算机的输出,在原地或从第二来源合成片段。合成的片段可以通过克隆或通过扩增方法(比如pcr)进行扩增。后者可以通过将所有单独合成的片段结合在单一混合物中并进行多重pcr来实现。聚合酶可被灭活,并加入连接酶和限制性核酸内切酶,以利用本文所述的方法实现有序的dna组装。随后组装的靶标dna可被:(i)并入载体中,其又通过载体的转化引入宿主细胞中;(ii)封装在病毒中并通过感染引入宿主细胞中;(iii)以裸dna的形式或与伙伴蛋白分子一起直接引入真核细胞中;(iv)引入体外表达系统中以确定组装的dna的转录物是否正常运转。任选地,可以将组装的产物移到平台位置以比如通过全分子测序仪(oxford nanopore或pacific biosystems)进行测序。
[0379]
使用本文所述的方法对dna分子进行有序组装是合成单个基因或代谢途径,并且也是对真核细胞进行潜在的基因修饰的有力工具。它还提供了一种合成有毒蛋白质,比如新型核酸酶的方法以确定其特异性及其他功能。编码有毒蛋白质的有序组装物可使用体外转录系统(new england biolabs,ipswich,ma)进行转录,并且然后测试dna切割,以确定是否实现了期望的功能。然后可以在专门的条件下在细胞中制造选定的阳性蛋白。
[0380]
在自动化工作流程的实例中——其中大分子是由小片段构建,第一步是通过酶法(例如,使用末端转移酶)或化学合成或作为pcr的产物从较大的底物或一组重叠片段合成一组长度为至少20个碱基的片段。
[0381]
这些片段可以使用本文所述的方案进行组装。50个25-碱基的片段的组装将生成1000个碱基的靶标多核苷酸。限制性核酸内切酶和连接酶可以任选地在下一组装步骤前在60℃下进行热杀。
[0382]
可以用新产生的多核苷酸片段再次重复组装过程。例如,然后可以通过多重pcr生成用于扩增前一步骤中新形成的多核苷酸片段的引物、适配体和聚合酶。随后,对扩增的多核苷酸片段进行限制性核酸内切酶切割和连接,以从50
×
250bp的多核苷酸中生成12,500bp的片段,或从50
×
1000bp的片段中产生50,000bp的多核苷酸。
[0383]
然后可以通过例如将50
×
12,500(625kb)片段或50
×
50,000bp片段(2.5mb)结合重复组装,随后进行切割和连接以生成625kb或2.5mb的靶标多核苷酸。
[0384]
工作流程的另一个实例是使用大量大小为200-1000bp的dna片段进行一步式dna组装。
[0385]
片段的连接效率取决于悬链、酶和实验条件,但不取决于用于组装的多核苷酸片段的长度,其至少长达1kb。在超过24个片段的组装物中使用的大量片段的组装可以优选地通过延长温育期来完成。在这些温育期超过24小时的情况下,使用静态连接方案代替下触式或下拉式方案可能是更优选的。在高达由42℃/16℃的下拉式条件所定义的温度的热循环中可以使用wt t4连接酶。在高于42℃,热稳定的连接酶是优选的。
[0386]
本文所述的工作流程的拟议用途
[0387]
一个管子,多个构建体:乳化的(emulsified)有序组装工作流程可以使用户从基于小液滴形式的多片段生成不同的构建体,其中“阳性”液滴可以通过facs分类用于下游应用。在有序组装期间的错配连接可以使用户通过有目的的使用与多个伙伴配对良好的悬链(一条或多条),在一个管子中产生不同的构建体变型。例如,用户可以在一个管子中用几个不同的启动子产生相同的基因电路(genetic circuit),并通过基因筛选确定最佳构建体。
[0388]
较高的有序dna结构(使用非标准的dna部分)的组装。dna折纸术(origami)可以使用户组装dna结构,以通过控制组装分子的形状促进转染和一致的基因调节。枝状构建体的生成可以使用户创造出具有枝状构造的未来型构建体,以实现平行调控。例如,使用非标准的部分组装片段(1个双链体到2个双链体连接器等)可以定位到接近同一绝缘子元件的编码序列。
[0389]
由于使用多于一种iis型酶而产生的有序组装的混合悬链长度可以使组装的片段数量最大化,并允许用户通过混合不同长度的正交悬链组来增加单一反应中可能的悬链数。这种方法还可以产生带有气泡的最终构建体,以方便下游应用(包括核酸酶(例如,t7 endo i)对产物进行链侵入或切割)。
[0390]
在现在描述了示例性的实施方式后,本领域的技术人员应该清楚,上述内容仅仅是说明性的,而不是限制性的,只是以举例的方式提出。许多修改及其他实施方式都在本领域普通技术人员的范围内,并被认为属于本发明的范围。

技术特征:
1.一种包括双链区和单链环的合成自互补寡核苷酸,其中所述双链区含有paqci的识别序列、具有不可连接的3’和5’端并且不能被paqci切割。2.根据权利要求1所述的寡核苷酸,其中所述双链区的长度是10-50个碱基对。3.根据权利要求1-2中任一项所述的寡核苷酸,其中所述寡核苷酸的长度小于110个核苷酸。4.根据权利要求1-3中任一项所述的寡核苷酸,其中所述寡核苷酸的3’端不是3’羟基。5.根据权利要求1-4中任一项所述的寡核苷酸,其中所述寡核苷酸的5’端不是5’磷酸。6.根据权利要求1-5中任一项所述的寡核苷酸,其中所述识别序列是(5
’‑
cacctgc-3’/3
’‑
gcaggtg-5’)。7.一种反应混合物,其包括:(a)根据权利要求1-6中任一项所述的合成自互补寡核苷酸;和(b)paqci或其变体,其具有与seq id no:1具有至少90%氨基酸序列同一性的氨基酸序列。8.根据权利要求7所述的反应混合物,其中paqci与所述合成自互补寡核苷酸的比在1单位paqci:0.75pmole-9pmole寡核苷酸的范围内。9.根据权利要求7或8所述的反应混合物,进一步包括双链dna底物,其中所述底物含有paqci的识别序列并且可被paqci切割以产生4碱基悬链。10.根据权利要求9所述的反应混合物,其中所述dna底物中的识别序列是(5
’‑
cacctgc-3’/3
’‑
gcaggtg-5’)。11.根据权利要求7-10中任一项所述的反应混合物,进一步包括dna连接酶。12.根据权利要求11所述的反应混合物,其中所述dna连接酶选自t4 dna连接酶、t3 dna连接酶、t7 dna连接酶、pbcv-1dna连接酶和人类连接酶3(hlig3)。13.根据权利要求7-12中任一项所述的反应混合物,进一步包括含有片段的多个质粒或pcr产物,每个片段的侧翼是paqci的结合位点,并且其中通过paqci或其变体切割所述质粒或pcr产物产生具有不同的4碱基悬链的片段。14.根据权利要求7至13中任一项所述的反应混合物,其中所述paqci与连接酶的比为2.5-20个paqci单位比200-800个连接酶单位。15.一种方法,其包括:(a)获得反应混合物,其包括:(i)根据权利要求1-6中任一项所述的合成寡核苷酸;(ii)paqci;(iii)连接酶;和(iv)dna底物库,每个底物具有至少一个paqci识别序列和切割位点;(b)用paqci切割所述dna底物库,以生成具有4碱基悬链的片段;和(c)将互补的4碱基悬链连接在一起以产生片段的有序组装物。16.根据权利要求15所述的方法,其中所述库中的dna底物选自下列中的一种或多种:pcr产物、质粒、基因组或染色体。17.根据权利要求15或16所述的方法,其中(c)进一步包括将所述有序组装物连接到目的载体或病毒基因组中。
18.根据权利要求17所述的方法,其中所述目的载体为质粒或染色体。19.根据权利要求15-18中任一项所述的方法,其中所述连接酶选自:t4 dna连接酶、t3 dna连接酶、t7 dna连接酶、pbcv-1和人类连接酶3(hlig3)。20.根据权利要求15至19中任一项所述的方法,其中有10-100个具有独特序列的dna底物,并且所述有序组装物包括在步骤(c)中连接在一起的10-100个片段。21.根据权利要求20所述的方法,其中有至少20个具有独特序列的dna底物,并且所述有序组装物包括至少20个在步骤(c)中连接在一起的片段。22.根据权利要求15-21中任一项所述的方法,其中所述反应混合物进一步包括以下一种或多种:dna修复酶、脱腺苷酶和/或群集剂。23.根据权利要求22所述的方法,其中所述群集剂是分子量在600-8000的范围内的聚乙二醇(peg)。24.根据权利要求22所述的方法,其中所述脱腺苷酶是酵母脱腺苷酶。25.根据权利要求22所述的方法,其中所述dna修复酶是endoms。26.根据权利要求15-25中任一项所述的方法,其中步骤(a)进一步包括使用计算机工具确定反应混合物的4碱基悬链组,其中:(i)所述计算机工具由数据集生成所述dna库的4碱基悬链组的优化的保真度和/或频率得分,其中所述优化的保真度和/或频率得分源自互补序列退火的数据;和来自不同的4碱基悬链的连接酶活性的数据;和/或(ii)所述计算机工具在计算机序列中提供断点以生成在有序组装物中经由优化的4碱基悬链连接的片段序列。27.一种试剂盒,其包括:根据权利要求1所述的合成自互补寡核苷酸,和paqci。28.根据权利要求27所述的试剂盒,进一步包括连接酶。29.根据权利要求27或28所述的试剂盒,进一步包括选自修复酶、脱腺苷酶和群集剂的辅助因子。30.根据权利要求27至29中任一项所述的试剂盒,包括从具有4碱基悬链的组件片段合成大dna的说明书。31.根据权利要求27-30中任一项所述的试剂盒,其中所述paqci和活化剂与连接酶组合在单个容器中或存在于单独的容器中。32.根据权利要求27-31中任一项所述的试剂盒,其中所述寡核苷酸、连接酶和paqci变体中的至少一种被冻干或固定在固体基底比如二维或三维表面上。33.根据权利要求27-32中任一项所述的试剂盒,其中所述群集剂是聚乙二醇(peg)并且具有在600-8000的范围内的分子量。34.根据权利要求27-33中任一项所述的试剂盒,其中所述修复酶包括错配的特异性核酸内切酶。35.一种为在选定的连接条件下进行的有序组装反应选择悬链组的计算机实施的方法,其包括:(a)接收:(i)用于组装反应的期望的悬链数量和(ii)所述悬链的长度;(b)从悬链表中选择悬链组,其中选择的悬链组具有(i)中接收的期望的悬链数量和(ii)中接收的悬链的长度;
(c)从多种不同的连接酶选择连接酶,用于以减小的偏倚连接所述悬链;(d)对于组中的每个单条悬链,计算所选择的连接酶的连接保真度得分,其中每个单条悬链的连接保真度得分表示相对于组中的所有悬链及其互补序列,所述单条悬链及其互补序列独立地连接到完全互补的悬链的频率;(e)基于步骤(d)中所输出的计算的每个单条悬链的连接保真度得分,计算所述悬链组的整体连接保真度得分;(f)迭代(b)-(e),直到计算了多个整体连接保真度得分,每个得分针对不同的悬链组;和(g)提供具有选定连接酶的适合整体连接保真度得分的悬链组。36.根据权利要求35所述的方法,其中在(b)中选择的所述悬链组中的每个单条悬链在所述组中是唯一的,与所述组中的另一条悬链不互补,并且不是回文的。37.根据权利要求35或36所述的方法,其中(c)中计算连接保真度得分进一步包括查阅不同连接酶的连接频率表和偏倚表,所述表包括连接事件和/或错配事件数量的单个实验限定的测量值。38.根据权利要求35-37中任一项所述的方法,进一步包括:计算相对于在所述单条悬链和所述组中所有悬链及其互补序列与所述单条悬链的互补序列和所述组中所有悬链及其互补序列之间发生的连接事件总数,在每个单条悬链及其互补序列之间发生的连接事件和/或错配事件的数量。39.根据权利要求35-38中任一项所述的方法,其中所述悬链组对应于用于有序组装成靶标多核苷酸的多个双链多核苷酸片段每一端上的各单条悬链,其中各单条悬链是由2-5个核苷酸组成的单链序列,使得每个多核苷酸片段的每一端具有不同的悬链,并且其中片段组装的顺序是在多核苷酸一端的悬链与相邻多核苷酸一端的互补悬链退火的产物。40.根据权利要求35-39中任一项所述的方法,其中(a)进一步包括,接收:(iv)组装物的核苷酸序列;和(v)(iv)的所述核苷酸序列可以被酶切的一组区间,并在所述区间中确定其长度与(ii)中输入的悬链长度相同的非冗余子序列组,其中每个子序列具有悬链;并且所述方法进一步包括:(h)将具有适合整体保真度得分的所述悬链组的所述非冗余子序列组存储。41.根据权利要求40所述的方法,进一步包括通过所述组装物的核苷酸序列中的开始和结束坐标限定(v)的每个区间。42.根据权利要求35-41中任一项所述的方法,其中在(e)中进一步包括将(b)-(d)至少迭代1000次。43.根据权利要求35-42中任一项所述的方法,其中(a)进一步包括接收选定的用于所述多核苷酸片段的有序组装的酶切和连接的实验条件。44.根据权利要求35-43中任一项所述的方法,进一步包括接收选定的实验条件,以在(g)中提供具有适合保真度和/或频率得分的悬链组,用于退火和与选定的连接酶连接。45.根据权利要求35-44中任一项所述的方法,其中所述方法包括:使根据权利要求35-44中任一项所述的计算机实施的方法被执行;并接收包含(g)中鉴定的悬链组的输出,和/或如果(iv)和(v)被输入,则接收用于有序组装的多核苷酸片段组的序列,其中所述片段的末端由(g)中鉴定的悬链限定。
46.根据权利要求35-45中任一项所述的方法,进一步包括:获得多核苷酸片段组的序列,所述片段具有在所述区间中的可被酶切以产生鉴定的悬链的鉴定的非冗余子序列组。47.根据权利要求43-46中任一项所述的方法,其中对于所述组中的片段数,选定的实验条件和计算机生成的悬链组适合于以互补退火和连接酶依赖性连接的有效量的保真度和频率进行选定的多核苷酸片段组的有序组装。48.根据权利要求43-47中任一项所述的方法,其中所述选定的实验条件包括:选择具有适合保真度和频率得分的dna连接酶,用于连接含有4碱基悬链的多核苷酸片段组。49.根据权利要求43-48中任一项所述的方法,其中所述选定的实验条件包括:选择具有特征dna识别序列的iis型限制性核酸内切酶,用于对含有所述识别序列的多核苷酸片段组进行酶切,使得被切割的每个多核苷酸片段含有来自悬链序列组的悬链序列。50.根据权利要求49所述的方法,其中所述iis型限制性核酸内切酶具有7-碱基识别序列,例如,paqci。51.根据权利要求48所述的方法,其中所述连接酶是野生型t4 dna连接酶,或其选自热稳定型t4 dna连接酶和耐盐型t4 dna连接酶的变体,其中所述连接酶选自:t4 dna连接酶、t7 dna连接酶、人类连接酶3(hlig3)dna连接酶、t3 dna连接酶、pbcv-1dna连接酶,t4 dna连接酶、t7 dna连接酶、hlig3 dna连接酶、t3 dna连接酶或pbcv-1dna连接酶中任何一种的温度稳定变体,以及t4 dna连接酶、t7 dna连接酶、hlig3 dna连接酶、t3 dna连接酶、pbcv-1dna连接酶中任何一种的高度盐稳定性变体。52.根据权利要求43-51中任一项所述的方法,其中用于从所述多核苷酸片段组有序组装靶标多核苷酸的选定的实验条件进一步包括连接条件,其包括盐浓度、dna修复酶、温度范围和/或切割和连接的热循环条件中的一种或多种。53.根据权利要求52所述的方法,其中所述盐浓度在50mm-150mm盐的范围内,所述dna修复酶是endoms或t7 endo i,所述温度范围是37oc-50oc,并且所述热循环条件选自下拉式、下触式和上触式温度循环。54.根据权利要求35-53中任一项所述的方法,其中组装物的核苷酸序列选自病毒基因组、原核生物基因组、操作子和代谢途径。55.根据权利要求39-52中任一项所述的方法,其中产生组装物的多核苷酸片段的数量在2-100个片段的范围内。56.一种包括用于执行根据权利要求35-55中任一项所述的方法的程序的计算机可读介质。57.一种用于合成靶标多核苷酸的方法,其包括:a.使用根据权利要求35-55中任一项所述的计算机实施的方法,在包括选择连接酶的一组实验条件下,获得具有适合整体保真度得分的悬链组;其中所述计算机指示自动仪器或用户在至少部分由所述用户确定的一组选定的实验条件下,组装多核苷酸片段组,这些片段的序列任选地由所述计算机或所述用户确定并且是通过酶促获得的或化学合成的;b.在所述仪器内或反应管中,在选定的实验条件下,通过组合连接酶、限制性核酸内切酶和多核苷酸片段,允许任选地自动有序组装靶标多核苷酸;和c.任选地将所述靶标多核苷酸引入(i)细菌细胞或(ii)体外系统中,用于表达一个或多个基因。
58.根据权利要求57所述的方法,其中重复(a)和(b)以组装所述靶标多核苷酸,其中在第一轮中,所述多核苷酸片段的长度小于1000个碱基,从而使组装的片段形成临时靶标多核苷酸,并且所述临时靶标多核苷酸形成用于下一轮有序组装的多核苷酸片段,以形成最终的靶标多核苷酸。59.根据权利要求57或58所述的方法,其中所述多核苷酸片段组是2-100个片段。60.根据权利要求57-59中任一项所述的方法,进一步包括在(b)之前对所述多核苷酸片段组进行多重扩增。61.根据权利要求57-60中任一项所述的方法,其中所述靶标多核苷酸是dna,并且其中所述dna被转录以形成靶标rna。62.根据权利要求57-61中任一项所述的方法,其中所述靶标多核苷酸是dna,并且其中所述dna在细胞中表达以产生一种或多种蛋白质。63.根据权利要求57-62中任一项所述的方法,其中所述靶标蛋白质是代谢途径、病毒基因组或免疫细胞基因的一部分或全部。64.一种由20-100个dna片段进行有序的dna组装以产生大dna的方法,其包括:(a)从计算机设计工具获得优化的4碱基悬链序列组用于在有序组装反应中连接20-100个片段的指令,其中所述计算机设计工具从一组或多组数据计算出优化的悬链组,其中每组数据来自对所有4碱基悬链组合的单个连接酶偏好的频率和保真度分析,和(b)获得具有优化的4碱基悬链组的20-100个片段,以便在有序组装反应中与选定的连接酶连接,产生大dna。65.根据权利要求64所述的方法,其中(b)进一步包括:使用聚合酶链式反应(pcr)将iis型限制性核酸内切酶识别序列添加到所述20-100个片段中,或将所述20-100个片段插入到20-100个质粒中,该质粒在片段每一端的插入位点具有iis型限制性核酸内切酶识别序列,或合成具有优化的4碱基悬链的所述20-100个片段。66.根据权利要求65所述的方法,其中所述iis型限制性核酸内切酶识别序列是5’cacctgc3’,并且产生所述优化的4碱基悬链组的切割位点是5’cacctgc(n4)3’(seq id no:2)和3’gtggacg(n8)5’(seq id no:3)。67.根据权利要求65或66所述的方法,其中所述限制性核酸内切酶是paqci。68.根据权利要求65至67中任一项所述的方法,其中所述连接酶选自t4 dna连接酶、t7 dna连接酶、hlig3 dna连接酶、t3 dna连接酶或pbcv-1dna连接酶中的一种或多种。69.一种用于高通量组装定制t细胞的方法,其包括:(a)鉴定来自患者的肿瘤细胞上的表面抗原,其中蛋白质对所述肿瘤细胞具有特异性;(b)收集来自所述患者的t细胞;(c)使具有4碱基悬链的dna片段有序组装,形成编码肿瘤抗原特异性的嵌合抗原受体的大dna;以及(d)将所述大dna引入已被位点定向crispr切割的所述t细胞的基因组。70.根据权利要求69所述的方法,其中所述大dna是多个保守的dna片段和多个可变的dna片段序列有序组装的产物,使得至少所述保守的dna片段被单独存储在细菌细胞的质粒中,用于所述定制t细胞的高通量组装。71.一种用于产生具有突变的病毒基因组的方法,其包括:
(a)产生用于有序组装成病毒基因组的多个片段;(b)选择允许由连接酶连接多个错配的4碱基悬链;和(c)测试产品病毒基因组的抗生素活性或作为疫苗生产的底物测试产品病毒基因组。72.根据权利要求71所述的方法,其中所述连接酶是低保真度连接酶,例如,人类连接酶3(hlig3)。

技术总结
将大量的片段有序地组装成单个大DNA在组装产物的频率和保真度方面都得到了改善。这是通过新的组合物和方法实现的,这些组合物和方法被用于计算机系统,该系统整合了来自多个来源的综合连接数据,以提供优化的合成悬链或来自限制性核酸内切酶切割DNA片段的悬链,以便通过连接进行组装。通过使用新型的识别7个核苷酸(碱基)并切割DNA的限制性核酸内切酶,以在合成活化剂寡核苷酸的帮助下形成4碱基悬链,避免了基因内切割位点。不同连接酶的连接偏好的变化为组装反应提供了额外的精度。使用该改进的方法的实例是从52个片段的病毒基因组成功组装,以及还有细菌操作子的52个片段的有序组装。有序组装。


技术研发人员:G
受保护的技术使用者:新英格兰生物实验室公司
技术研发日:2021.12.15
技术公布日:2023/10/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐