一种基于调制作用的DNA信息编解码方法

未命名 08-18 阅读:84 评论:0

一种基于调制作用的dna信息编解码方法
技术领域
1.本发明涉及计算机信息编解码技术领域,特别是涉及一种基于调制作用的dna信息编解码方法。


背景技术:

2.随着互联网技术和人工智能、云计算等技术的发展,全球进入了信息化时代,与之相应的,是数据的爆炸式增长,每个人无时无刻都在产生数据和处理数据。据相关资料统计,目前累计的数据已经超过20泽字节,并且还在以每年增长50%的速度进行增长,这会导致不久的将来将会出现巨大的信息存储缺口。为了解决这个问题,人们将目光放到了分子存储领域,dna、多肽等具体特殊结构和序列的生物分子成为人们的研究热点,这些分子存储介质,相比于闪存等光电磁存储介质,具有更小的存储体积和更大的存储密度。在各种分子存储介质中,dna又以其较高的稳定性、能够在简易条件下长期存储、易于复制等特点,最有希望成为新一代的存储介质。
3.dna信息存储,就是用四种脱氧核糖核苷酸“a”、“t”、“c”、“g”的排列顺序来存储信息。其一般过程是先将计算机信息编解码为dna序列信息,将dna序列信息存入到文本文件中,然后根据dna序列合成dna来存储信息。当合成用于存储信息的dna时,读取存入到文件中的dna序列信息,按照编码的序列合成dna。与只能用“0”和“1”两种状态来存储信息的传统信息存储方式相比,dna信息存储以四进制存储能存储更多的信息,且纳米级别结构尺寸的dna体积更小,这些优势导致dna存储的体积密度比闪存等传统光电存储介质高几个数量级。四进制的编码方式是dna存储理论上的存储密度,实际编码过程中,由于dna测序和合成技术的限制,还必须满足一定的约束条件,具体来说,主要包含两个约束条件:1、脱氧核糖核苷酸中的g、c两者的含量应该在40%~60%;2、转换的dna链中应尽可能不出现单重复碱基,也就是单种脱氧核糖核苷酸不能连续出现4个及以上。这些约束条件的限制,保证了编码出的dna链能够正确地被合成和测序,但也同时限制了dna信息存储地编码密度。因此,为了提高dna信息存储地实际使用价值,需要开发出满足约束条件的高密度的编码方式。另外,随着dna信息存储数据规模的扩大,信息检索也成为了限制其数据规模扩大的因素之一。目前主流的大规模数据的检索方式主要是基于pcr扩增的方法,有资料显示,该方法能够在200mb存储信息中,检索出需要的目标文件。但是pcr扩增法需要构建一个具有特异性的pcr引物库,引物自身、引物与存储信息间都要具备特异性。
4.总的来说,如何在满足约束条件下,创造出高密度的编码方式和高容量的pcr引物库,对于dna信息存储的实际应用来说是十分必要的。
5.需要说明的是,在上述背景技术部分公开的信息仅用于对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

6.本发明的主要目的在于有效解决现有的dna信息存储面临的上述问题,提供一种
基于调制作用的dna信息编解码方法。
7.为实现上述目的,本发明采用以下技术方案:
8.一种基于调制作用的dna信息编码方法,包括以下步骤:
9.s1、信息分块:将待编码的文件信息进行数据分块得到多个信息块,并且为每个信息块分配一个索引序号;
10.s2、信息校验:为每个信息块添加校验信息;
11.s3、序列转换:将每个信息块中的字节流数据先转换为二进制信息,再转换为碱基序列;
12.s4、调制优化:构建调制引物,判断所述碱基序列是否满足约束条件,对不满足约束条件的碱基序列,使用所述调制引物对其进行优化;
13.s5、生成标志序列:根据调制过程信息,为每个信息块生成唯一的标志序列;
14.s6、生成寻址序列:根据每个信息块的调制引物和索引序号,生成每个信息块的寻址序列;
15.s7、输出:将每个信息块与其标志序列、寻址序列连接,组装成完整的dna链,输出到文本中进行存储。
16.进一步地:
17.步骤s3包括,通过类四进制编码规则将信息块中的信息转换为碱基序列形式,其中“00”、“01”、“10”、“11”分别对应碱基“a”、“t”、“c”、“g”。
18.步骤s4包括:为每一个信息块构建gc调制引物和均聚物调制引物,调制引物是具有50%gc含量且没有均聚物的、长度为4的碱基序列,通过调制引物的调制使信息序列的gc含量和均聚物满足约束条件;
19.采用如下调制策略:若碱基序列满足约束条件,则不调制;若碱基序列gc含量或者均聚物存在问题,则使用对应的调制引物进行调制;碱基序列gc含量和均聚物都存在问题,则同时使用两个调制引物进行调制;
20.优选地,对gc含量不满足要求的序列,直接对整个序列进行整体调制;对具有过长均聚物的序列,定位到含有均聚物的位置,仅对该位置的均聚物进行局部调制;
21.优选地,从调制优化后满足约束条件的序列中挑选标志序列最短的调制结果作为约束序列;
22.优选地,调制优化的调制过程是一个2位的异或操作,将碱基序列的碱基依序分组,每组碱基分别与调制引物对应,逐个碱基进行异或操作,运算结果为调制结果。
23.步骤s5包括:生成每个信息块唯一的标志序列以记录调制过程信息,记录在标志序列中的调制过程信息包含三部分:是否使用gc调制引物进行了整体调制;进行均聚物调制的具体位置;以及进行均聚物调制的次数;
24.优选地,使用1位二进制信息表示是否使用gc引物进行整体调制,进行均聚物调制的具体位置以8位二进制数字表示,而均聚物调制次数以7位二进制信息存储,与前面的1位gc调制信息组合成8位二进制信息;
25.优选地,使用类四进制编码规则将标志序列转换为碱基序列,再使用gc调制引物和/或均聚物调整引物对碱基序列进行调制。
26.步骤s6包括:将索引序号和调制引物并入到寻址序列中,采用结构化寻址序列设
计方法生成每个信息块的寻址序列;
27.所述结构化寻址序列设计方法将标志物、平衡序列、所述调制引物、所述索引序号组合成寻址序列,其中所述标志物是用于保证寻址序列的特异性的均聚物,所述平衡序列为随机生成的多位碱基,用于保证gc含量平衡;在每条dna链的前后两端各放置一个寻址序列,分别称为前、后寻址序列,其中前寻址序列上保存gc调制引物,后寻址序列上保存均聚物调制引物。
28.步骤s7包括:将调制优化后的约束序列与其前后引物、标志序列组合在一起,形成用于存储信息的dna链的完整结构,输出到文本文件中进行存储。
29.一种基于调制作用的dna信息解码方法,用于解码使用所述的dna信息编码方法编码的dna链,包括以下步骤:
30.t1、寻址序列复原:读取dna链的寻址序列,并复原得到调制引物和索引序号;
31.t2:调制复原:复原标志序列,并根据标志序列信息和调制引物,将碱基序列解码为未经调制的序列;
32.t3:序列转换:将未经调制的序列先转换为二进制序列,再恢复为字节流数据;
33.t4:信息校验:根据校验算法和冗余信息,对存储信息进行校验和纠错;
34.t5:信息重组:根据索引序号,将正确的存储信息恢复为原始信息。
35.进一步地:
36.步骤t1包括:根据读取的dna序列,从中划分出寻址序列的位置,并根据寻址序列结构,拆解得到调制引物和索引序列;
37.步骤t2包括:先从dna序列中找到标志序列,解码出调制过程信息,再结合引物中解析出的调制引物,对dna序列进行逆向调制,得到未经调制的存储信息序列;
38.步骤t3包括:先将未经调制的存储信息序列,从碱基序列转换为二进制序列,再通过进制转换为字节流数据;
39.步骤t4包括:经过调制和转换的字节流数据,包含存储信息和校验信息,使用校验算法,对信息进行校验,并对信息错误进行纠正;
40.步骤t5包括:通过解码、校验后的信息,根据其索引序号,使用排序算法进行排序,恢复成原始存储信息,最后输出为其原始存储文件。
41.一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实施所述的dna信息编码方法和/或所述的dna信息解码方法。
42.一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时实施所述的dna信息编码方法和/或所述的dna信息解码方法。
43.本发明具有如下有益效果:
44.本发明提出了一种基于调制作用的dna信息编解码方法,本发明的方法在编码时能够通过特殊构造的调制引物对碱基序列进行优化,让碱基序列满足约束条件,同时构造出标志序列,在解码时能恢复成正确的原始信息。进一步地,本发明中的结构化寻址序列设计方法,将调制引物、索引序列与引物序列结合,既能保存自身寻址的功能,还可作为pcr引物进行使用,大大减少了信息冗余。与现有技术相比,本发明中的编解码方案可以针对任意计算机存储的数字信息进行编解码,并且其编码密度接近理论极限,达到1.9bits/nt。同时可以通过结构化寻址序列设计方法,生成与碱基序列规模匹配的具有特异性的寻址序列数
量,满足调制、寻址、pcr扩增、信息检索等多种功能的需要。
45.使用本发明基于调制作用的dna信息编解码方法及结构化寻址序列设计方法,对计算机数字信息进行编解码,可以以高密度编码密度将其转换为满足合成、测序需要的dna碱基序列。
46.在优选的实施例中,通过更换引物和筛选dna链质量的方法,可以在不添加过多冗余的情况下,以非常高的编码密度对数字信息进行编码。同时为了后续基于pcr的信息检索操作,使用结构化寻址序列设计方法,生成大量具有特异性的寻址序列,在减少dna链上信息冗余的同时,具备寻址、pcr引物的功能,简化pcr引物生成过程。
附图说明
47.图1示出本发明实施例的编码流程图。
48.图2示出本发明实施例的类四进制编码规则图。
49.图3示出本发明实施例的调制结果表。
50.图4示出本发明实施例的调制过程示意图。
51.图5示出本发明实施例的调制引物表。
52.图6示出本发明实施例的标志序列生成示意图。
53.图7示出本发明实施例的前寻址序列结构示意图。
54.图8示出本发明实施例的后寻址序列结构示意图。
55.图9示出本发明实施例的寻址序列表。
56.图10示出本发明实施例的dna链结构图。
57.图11示出本发明实施例的dna链碱基序列表,将《道德经》第一章信息的txt文本文件转换为dna链碱基序列。
58.图12示出本发明实施例的解码流程图。
具体实施方式
59.以下对本发明的实施方式做详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
60.需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接既可以是用于固定作用也可以是用于耦合或连通作用。
61.需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
62.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
63.参阅图1,本发明实施例提供一种基于调制作用的dna信息编码方法,包括以下步骤:
64.s1、信息分块:将待编码的文件信息进行数据分块得到多个信息块,并且为每个信息块分配一个索引序号;
65.s2、信息校验:为每个信息块添加校验信息;
66.s3、序列转换:将每个信息块中的字节流数据先转换为二进制信息,再转换为碱基序列;
67.s4、调制优化:构建调制引物,判断所述碱基序列是否满足约束条件,对不满足约束条件的碱基序列,使用所述调制引物对其进行优化;
68.s5、生成标志序列:根据调制过程信息,为每个信息块生成唯一的标志序列;
69.s6、生成寻址序列:根据每个信息块的调制引物和索引序号,生成每个信息块的寻址序列;
70.s7、输出:将每个信息块与其标志序列、寻址序列连接,组装成完整的dna链,输出到文本中进行存储。
71.参阅图12,本发明实施例还提供一种基于调制作用的dna信息解码方法,用于解码使用所述的dna信息编码方法编码的dna链,包括以下步骤:
72.t1、寻址序列复原:读取dna链的寻址序列,并复原得到调制引物和索引序号;
73.t2:调制复原:复原标志序列,并根据标志序列信息和调制引物,将碱基序列解码为未经调制的序列;
74.t3:序列转换:将未经调制的序列先转换为二进制序列,再恢复为字节流数据;
75.t4:信息校验:根据校验算法和冗余信息,对存储信息进行校验和纠错;
76.t5:信息重组:根据索引序号,将正确的存储信息恢复为原始信息。
77.在一些实施例中,一种基于调制作用的dna信息编码方法具体步骤包括:
78.步骤1:信息分块,读取文件,按照索引顺序对文件数据分块;
79.步骤2:信息校验,通过rs校验算法添加一定量的逻辑冗余信息;
80.步骤3:序列转换,将字节流数据,先转换为“01001100”这样的二进制序列,再转换为“tcag”这样的碱基序列;
81.步骤4:调制优化,构建调制引物,判断碱基序列是否满足约束条件,对不满足约束条件的碱基序列,使用调制引物对其进行优化;
82.步骤5:生成标志序列,根据调制优化过程,记录调制过程信息,并生成标志序列;
83.步骤6:生成寻址序列,根据每个信息块的调制引物和索引序号,使用结构化引物设计方法,设计每个信息块的寻址序列;
84.步骤7:输出,将碱基序列与标志序列、前后pcr引物连接,组装成完整dna链,并且输出到保存文件中存储。
85.所述步骤1中信息分块,读取文件是将待存储的计算机文件,以二进制的形式读入,读入的文件会转换为字节流数据。
86.所述步骤1中信息分块,由于单条dna链合成方法的限制,一般来说,单条dna链的长度为200-300nt左右。所以要对读取的数据进行分块,将数据划分为单条dna链能够存储的信息块大小。
87.所述步骤1中信息分块,在划分信息块的同时,根据分块顺序,给每个信息块分配一个索引序号。这里的索引序号根据设计需要,可以选择8位二进制信息、16位二进制信息等多种形式,其最多能够存储2n个信息块。对于存储内容较多的时候,为了存储更多信息块,可对索引序号长度继续进行扩充。
88.所述步骤2中信息校验,对每个信息块使用rs校验算法添加一定的冗余信息,可纠错的字节数为添加的冗余信息大小(字节数)的一半。使用rs校验算法主要是针对存储过程中的替换错误进行校正,对于插入和删除错误,也可以转换为替换错误进行校正。另外,在此处信息校验中,也可使用ldpc校验算法、循环冗余校验算法等多种校验方法,仅在添加的冗余信息大小和纠错能力上有所差别,都只起信息校验的功能。
89.所述步骤2中信息校验,通过rs校验算法添加的冗余信息仍然为字节流数据,将划分的每个信息块与其添加的校验信息组合在一起,组成编码前的信息块。
90.所述步骤3中序列转换,完成信息分块和校验的信息块仍然是以字节流数据的形式存在,通过进制转换,可以将字节流数据转换为二进制序列,且统一扩充为8位二进制形式。
91.所述步骤3中序列转换,转换为二进制形式的信息块,再通过类四进制编码规则,转换为碱基序列。类四进制编码规则就是“00”、“01”、“10”、“11”分别对应“a”、“t”、“c”、“g”。
92.所述步骤4中调制优化,调制引物是具有50%gc含量且没有均聚物的、长度为4的碱基序列,其具体生成方式是通过随机组合后筛选得到的。在此处的调制引物根据调制过程的设计,可采用不同的长度。
93.所述步骤4中调制优化,每一个信息块都要生成两个调制引物,按照功能不同,分为gc调制引物和均聚物调制引物。
94.所述步骤4中调制优化,对于不同的碱基序列,有不同的调制策略,具体分为三种情况:1、碱基序列满足约束条件,则不需要通过调制;2、碱基序列gc含量或者均聚物存在问题,则使用对应的调制引物进行调制;3、碱基序列gc含量和均聚物都存在问题,则将两个调制引物同时使用。
95.所述步骤4中调制优化,调制过程是一个2位的异或操作,将碱基序列每4个碱基分为一组,每一组碱基分别与调制引物对应,逐个碱基进行异或操作,其运算结果为调制结果。例:碱基序列“aaaactag
……”
,均聚物调制引物“actg”,两者进行调制后,结果为“actgcgta
……”
。在调制优化过程中,也可选择每8个碱基一组等其他形式,只需要相应的更改调制引物的长度即可,但整个调制过程还是遵循2位的异或操作,得到调制结构。
96.所述步骤4中调制优化,对gc含量不满足要求的序列,直接对整个序列进行上述的调制过程,是整体调制。
97.所述步骤4中调制优化,对具有过长均聚物的序列,需要定位到含有均聚物的位置,仅对此位置的均聚物进行调制,是局部调制。
98.所述步骤4中调制优化,经过调制优化后,还需要对优化后的碱基序列进行质量评估,判断其是否满足约束条件。如果不满足约束条件,需要重写生成调制引物,再次进行调制优化,直到其满足约束条件。如果满足约束条件,还要挑选标志序列最短的调制结果,则将其调制结果保存,并称为约束序列,同时还要保存使用的两个调制引物。
99.所述步骤5生成标志序列,在步骤4中进行的调制优化过程,需要生成标志序列,记录调制过程信息。
100.所述步骤5生成标志序列,标志序列记录的调制过程信息主要包含三部分:1、是否使用gc引物进行整体调制;2、进行均聚物调制的具体位置;3、进行均聚物调制的次数。
101.所述步骤5生成标志序列,使用1位二进制信息表示是否使用gc引物进行整体调制,“0”代表未使用,“1”代表使用。均聚物调制信息直接以其位置的8位二进制数字表示,例如:在第4组4碱基组上发生了均聚物调制,位置信息则为“00000100”。均聚物调制次数转换为7位二进制信息存储,与前面的1位gc调制信息组合成8位二进制信息。在上述标志序列的生成过程中,可根据实际使用情况对每部分的结构形式进行调整,例如:更改均聚物调整信息的长度、更改均聚物调整次数的长度等。
102.所述步骤5生成标志序列,将全为二进制信息的标志序列,同样使用类四进制编码规则转换为碱基序列。再使用gc调制引物对碱基序列进行调制,同时也可以使用均聚物调整引物进行调制,得到最后的标志序列。
103.所述步骤6生成寻址序列,经过前面的5个步骤后,保存的信息除了约束序列和标志序列外,信息块的索引序号和两个调制引物也十分重要。现将索引序号和调制引物并入到寻址序列中,使用结构化寻址序列设计方法生成寻址序列进行保存。
104.所述步骤6生成寻址序列,结构化寻址序列设计方法将寻址序列分成四个部分:标志物、平衡序列、调制引物、索引序号。其中标志物是长度为4的均聚物—“aaaa”、“tttt”、“cccc”、“gggg”,用于保证寻址序列的特异性。标志物也可根据实际使用过程进行调整,例如:使用长度为5的均聚物等。平衡序列为随机生成的多位碱基,用于保证整个pcr引物的gc含量平衡,具体的长度根据pcr引物整体长度确定。调制引物和索引序号均为前几步操作保存的信息,将这四部分进行组合,即为寻址序列。
105.所述步骤6生成寻址序列,在每条dna链上,前后两端各放置一个寻址序列,分别称为前、后寻址序列。前、后寻址序列的生成方式相同,都是采用上述的结构化寻址序列生成方式,但两者也存在区别,前寻址序列上保存的是gc调制引物,后寻址序列上保存的是均聚物调制引物。另外两者之间的结构也可根据实际情况进行调整。
106.所述步骤7输出,将经过调制的约束序列与标志序列、寻址序列组合,组成完整的dna链,具备信息存储的功能。再将经过编码后的所有dna链序列存入到保存文件中存储。
107.本发明实施例提出的基于调制的dna编码方法中,先将存储信息以类四进制编码规则转换为碱基序列,再构建出符合要求的调制引物序列,使用调制引物对转换得到的碱基序列进行调制优化,直到其满足约束条件,同时保存调制引物,生成标志序列,完成信息分块和信息校验。通过这种编码方法,能够将原始信息以非常高的编码密度转换为满足约束条件的碱基序列,并同时生成相应的寻址序列,满足后续的pcr扩增等操作的需要。
108.在另一些实施例中,一种基于调制作用的dna信息解码方法,其包括以下步骤:
109.步骤1:寻址序列复原,读取dna链碱基序列,从中拆解寻址序列,得到调制引物和索引序号;
110.步骤2:调制复原,先读取标志序列,获取调制过程信息,再将碱基序列解码为未经调制的序列;
111.步骤3:序列转换,将解码后的信息块先从碱基序列转换为二进制序列,再恢复为
字节流数据;
112.步骤4:信息校验,根据rs校验算法,对存储信息和冗余信息进行校验和纠错;
113.步骤5:信息重组,根据索引序号,对信息块进行排序,恢复为原始信息。
114.所述寻址序列复原中,读取dna链的碱基序列后,前后两端的碱基序列即为前、后寻址序列,根据具体的寻址序列长度根据设计确定每条dna链的寻址序列。
115.所述寻址序列复原中,从寻址序列上,根据结构化寻址序列设计方法,可以拆解得到每条dna链的索引序号和两个调制引物。
116.所述调制复原中,对去除寻址序列的dna碱基序列,分为信息序列和标志序列两部分。
117.所述调制复原中,首先将标志序列通过gc调制引物复原,再将其恢复成二进制信息,得到均聚物调制位置信息等调制过程信息。
118.所述调制复原中,根据标志序列得到的调制过程信息和两个调制引物,重新对信息序列在相同位置再进行一次调制,将信息序列恢复成未经调制的碱基序列形式。
119.所述序列转换中,经过调制复原后的碱基序列,逆向使用类四进制编码规则,将碱基序列转换为二进制序列。
120.所述序列转换中,再经过进制转换,将二进制序列转换为字节流数据。
121.所述信息校验,在字节流数据中,数据被分为两部分,存储信息和校验冗余信息,使用rs校验算法,检查存储信息中是否有错误,并对错误进行纠正。在信息校验过程中,也可使用ldpc校验算法、循环冗余校验算法等多种校验方法,根据编码时使用的校验算法,选泽对应的校验算法,对信息进行校正和纠错即可。
122.所述信息重组中,根据寻址序列拆解得到的索引序号,使用冒泡排序、二分排序等排序算法,将经过校正的存储信息组合在一起,恢复成正确、完整的原始信息,再输出为相应的计算机文件进行存储。
123.以下进一步描述本发明的具体实施例。
124.示例性地,实施例中以《道德经》第一章内容作为编码对象,其具体内容为“01.道可道,非常道。名可名,非常名。无名天地之始。有名万物之母。故常无欲以观其妙。常有欲以观其徼。此两者同出而异名,同谓之玄。玄之又玄,众妙之门。”总计216字节数据。
125.图1为以《道德经》第一章内容作为编码对象的编码方案的流程图,其具体步骤是:首先读取保存有《道德经》第一章内容的txt文本文件,按照存储设计对其进行分块,并分配索引序号,再分别对每个信息块进行信息校验,添加校验冗余信息。对添加了校验冗余信息的信息块,先进行进制转换,转换为二进制序列,再使用类四进制编码规则,转换为碱基序列。随机生成调制引物,对碱基序列进行质量评估,不满足gc含量要求或者含有过长均聚物序列的碱基序列,使用对应的调制引物进行调制,直到让碱基序列满足约束条件。同时根据调制过程,生成标志序列。再使用结构化寻址序列设计方法,生成每个信息块的前、后寻址序列,并组合成完整的dna链结构,输出到txt文本中存储。
126.上述编码过程中,信息分块选定的信息块大小为60字节,这是由于单条dna链的长度为200-300nt,选择60字节大小的信息块,最后编码出的dna链长度在308nt左右,能最大程度地利用单条dna链的存储能力,同时减少索引序号的开销。
127.上述编码过程中,总计216字节数据,根据设计的信息块大小,可以分为4个信息
块,其中3个为60字节,最后一个为36字节。在本实施例中,按照分块顺序为4个信息块分配的索引序号为“1、2、3、4”,再将这4个索引序号按照序列转换步骤的过程,转换为碱基序列,得到4个4nt长度的索引序号。
128.上述编码过程中,在本实施例中,信息校验使用的是rs校验算法,在每个信息块后添加6字节信息,也就是10%的校验冗余信息。那么,添加了校验冗余信息后的信息块大小为66字节,最后一个为42字节,可以对其中的3字节信息错误进行纠错。
129.上述编码过程中,序列转换的第一步是进制转换,通过16进制与2进制之间的数学关系,将字节流数据转换为“01000100”这样的8位二进制序列,再使用类四进制编码规则,就是“00”、“01”、“10”、“11”分别对应“a”、“t”、“c”、“g”,具体见图2。将信息块转换为碱基序列,4个碱基序列的长度分别为264nt、264nt、264nt、168nt。
130.上述编码过程中,生成调制引物时,采用随机化生成方式,但是生成的调制序列具有50%gc含量,并且没有长均聚物,是完美满足约束条件的序列。
131.上述编码过程中,调制过程实际上是两位的异或运算操作,且结果可以按照异或结果获得,也可直接查找调制结果表获得,具体如图3所示。例如:存储信息为“agcc”,调制引物为“atcg”,先进行第一位调制,也就是“a”和“a”,按照异或操作,就是“00”与“00”异或,其结果仍然为“00”,也就是“a”,查调制结果表,结果同样如此。
132.上述编码过程中,调制优化过程分为两步,如图4调制过程示意图所示,先是检查碱基序列中的gc含量是否满足要求,不满足就使用gc调制引物进行整体调制,再对碱基序列进行均聚物筛查,如果有均聚物,则对出现均聚物的位置使用均聚物调制引物进行调制。
133.上述编码过程中,调制优化过程是一个多次循环过程,通过不断更换不同的调制引物,达到让碱基序列满足约束条件的要求,同时还要根据均聚物调制的次数,选择均聚物调制次数最少,也就是标志序列长度最短的一组结果,作为最后的约束序列。在实施例中,使用的调制引物如图5所示。
134.上述编码过程中,标志序列的生成方式如图6所示。先使用1位二进制信息表示是否使用gc引物进行整体调制,“0”代表未使用,“1”代表使用。均聚物调制信息直接以其位置的8位二进制数字表示,例如:在第1组4碱基组上发生了均聚物调制,位置信息则为“00000001”。均聚物调制次数转换为7位二进制信息存储,与前面的1位gc调制信息组合成8位二进制信息。再将全为二进制信息的标志序列,同样使用类四进制编码规则转换为碱基序列。最后使用gc调制引物对碱基序列进行一步调制,得到最后的标志序列。如图6所示,展示了一个没有进行gc调制,但进行了两次均聚物调制的标志序列的生成过程。
135.上述编码过程中,调制优化过程已经选择了最优的调制引物,在实施例中,选择的四组调制引物,对4个信息块进行的调制优化过程中,均没有进行均聚物调制,因此标志序列为最短的4nt长度。另外,前三个碱基序列都没有进行gc含量调制,仅最后一个进行了gc含量调制。
136.上述编码过程中,在本实施例中,设计的寻址序列长度为20nt,包括:4nt标志物、8ntgc平衡序列,4nt调制引物,4nt索引序号。其中标志物为随机生成的长度为4的均聚物,gc平衡序列也是随机生成的,用于保证整个寻址序列的gc含量在要求范围内。调制引物为在调制过程中使用的,索引序号为信息分块时分配的索引顺序经过调制引物调制后得到的碱基序列。
137.上述编码过程中,寻址序列分为前、后寻址序列,同一条dna链上的前寻址序列和后寻址序列生成方式相同,但是各组成部分顺序不同,具体如图7、图8引物结构图所示。另外,前引物中的调制引物是gc调制引物,后引物中的调制引物是均聚物调制引物。在实施例中,生成的四组寻址序列如图9所示。
138.上述编码中,完整的dna链结构包括碱基序列、标志序列与前后寻址序列,如图10所示。
139.上述编码中,将信息块的每个部分组装成完整的dna链,实施例前三条dna链由264nt的碱基序列,4nt标志序列,20nt前寻址序列,20nt后寻址序列组成,总共308nt。最后一条链由168nt碱基序列,4nt标志序列,20nt前寻址序列,20nt后寻址序列组成,总共212nt。
140.经过上述编码过程,将216字节的《道德经》第一章信息的txt文本文件,转换为了4条dna链,4条dna链长度分别为:308nt,308nt,308nt,212nt。其中每条dna链的具体碱基序列见图11所示。
141.图12为与编码过程对应的解码流程。在dna链中,寻址序列长度为20nt。根据dna链结构,可以从dna链获得前、后寻址序列,再根据寻址序列的的结构设计,可以进一步得到两个调制引物和dna链的索引序号。再从dna链上拆分出碱基序列和标志序列,根据标志序列的调制过程信息,再对碱基序列进行一次调制,就可以得到未经调制的碱基序列,然后对其进行序列转换,将碱基序列恢复为字节流数据。最后对每个dna链进行信息校正和纠错,将正确的信息按照索引序号组装为原始存储信息,并输出为txt文本,完成解码过程。
142.上述解码过程中,拆解dna链和寻址序列的过程,需要根据实际使用中设计的dna链结构和寻址序列结构进行拆解。标志序列信息的复原也同样要根据标志序列的结构进行。
143.上述解码过程中,序列转换仍然分为两步,第一步是将碱基序列转换为二进制序列信息,第二步是进制转换为字节流数据。
144.上述解码过程中,进行信息校验使用的是rs校验算法,dna链排序是通过冒泡排序算法进行的。经过了信息校验和信息重组以后,dna链信息才组装成为了正确完整的原始信息,将其输出为txt文本,即为《道德经》的第一章信息。
145.综上所述,根据本发明提供的基于调制作用的dna信息编解码方法,在编码时能够通过特殊构造的调制引物对碱基序列进行优化,让碱基序列满足约束条件,同时构造出标志序列,在解码时能恢复成正确的原始信息。进一步地,本发明中的结构化寻址序列设计方法,将调制引物、索引序列与引物序列结合,既能保存自身寻址的功能,还可作为pcr引物进行使用,大大减少了信息冗余。与现有技术相比,本发明中的编解码方案可以针对任意计算机存储的数字信息进行编解码,并且其编码密度接近理论极限,达到1.9bits/nt。同时可以通过结构化寻址序列设计方法,生成与碱基序列规模匹配的具有特异性的寻址序列数量,满足调制、寻址、pcr扩增、信息检索等多种功能的需要。
146.使用本发明基于调制作用的dna信息编解码方法及结构化寻址序列设计方法,对计算机数字信息进行编解码,可以以高密度编码密度将其转换为满足合成、测序需要的dna碱基序列。
147.在优选的实施例中,通过更换引物和筛选dna链质量的方法,可以在不添加过多冗
余的情况下,以非常高的编码密度对数字信息进行编码。同时为了后续基于pcr的信息检索操作,使用结构化寻址序列设计方法,生成大量具有特异性的寻址序列,在减少dna链上信息冗余的同时,具备寻址、pcr引物的功能,简化pcr引物生成过程。
148.本发明实施例还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实施所述的dna信息编码方法和/或所述的dna信息解码方法。
149.本发明实施例还提供一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时实施所述的dna信息编码方法和/或所述的dna信息解码方法。
150.本发明实施例还提供一种处理器,所述处理器执行计算机程序,至少执行如上所述的方法。
151.所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory)、可擦除可编程只读存储器(eprom,erasableprogrammable read-only memory)、电可擦除可编程只读存储器(eeprom,electricallyerasable programmable read-only memory)、磁性随机存取存储器(fram,ferromagneticrandom access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,random access memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,static random access memory)、同步静态随机存取存储器(ssram,synchronousstatic random access memory)、动态随机存取存储器(dram,dynamic random accessmemory)、同步动态随机存取存储器(sdram,synchronous dynamic random accessmemory)、双倍数据速率同步动态随机存取存储器(ddrsdram,double data ratesynchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram,enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram,synclink dynamic random access memory)、直接内存总线随机存取存储器(drram,direct rambus random access memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
152.在本技术所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
153.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
154.另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述
集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
155.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
156.或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
157.本技术所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
158.本技术所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
159.本技术所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。

技术特征:
1.一种基于调制作用的dna信息编码方法,其特征在于,包括以下步骤:s1、信息分块:将待编码的文件信息进行数据分块得到多个信息块,并且为每个信息块分配一个索引序号;s2、信息校验:为每个信息块添加校验信息;s3、序列转换:将每个信息块中的字节流数据先转换为二进制信息,再转换为碱基序列;s4、调制优化:构建调制引物,判断所述碱基序列是否满足约束条件,对不满足约束条件的碱基序列,使用所述调制引物对其进行优化;s5、生成标志序列:根据调制过程信息,为每个信息块生成唯一的标志序列;s6、生成寻址序列:根据每个信息块的调制引物和索引序号,生成每个信息块的寻址序列;s7、输出:将每个信息块与其标志序列、寻址序列连接,组装成完整的dna链,输出到文本中进行存储。2.如权利要求1所述的基于调制作用的dna信息编码方法,其特征在于,步骤s3包括,通过类四进制编码规则将信息块中的信息转换为碱基序列形式,其中“00”、“01”、“10”、“11”分别对应碱基“a”、“t”、“c”、“g”。3.如权利要求1所述的基于调制作用的dna信息编码方法,其特征在于,步骤s4包括:为每一个信息块构建gc调制引物和均聚物调制引物,调制引物是具有50%gc含量且没有均聚物的、长度为4的碱基序列,通过调制引物的调制使信息序列的gc含量和均聚物满足约束条件;采用如下调制策略:若碱基序列满足约束条件,则不调制;若碱基序列gc含量或者均聚物存在问题,则使用对应的调制引物进行调制;碱基序列gc含量和均聚物都存在问题,则同时使用两个调制引物进行调制;优选地,对gc含量不满足要求的序列,直接对整个序列进行整体调制;对具有过长均聚物的序列,定位到含有均聚物的位置,仅对该位置的均聚物进行局部调制;优选地,从调制优化后满足约束条件的序列中挑选标志序列最短的调制结果作为约束序列;优选地,调制优化的调制过程是一个2位的异或操作,将碱基序列的碱基依序分组,每组碱基分别与调制引物对应,逐个碱基进行异或操作,运算结果为调制结果。4.如权利要求1所述的基于调制作用的dna信息编码方法,其特征在于,步骤s5包括:生成每个信息块唯一的标志序列以记录调制过程信息,记录在标志序列中的调制过程信息包含三部分:是否使用gc调制引物进行了整体调制;进行均聚物调制的具体位置;以及进行均聚物调制的次数;优选地,使用1位二进制信息表示是否使用gc引物进行整体调制,进行均聚物调制的具体位置以8位二进制数字表示,而均聚物调制次数以7位二进制信息存储,与前面的1位gc调制信息组合成8位二进制信息;优选地,使用类四进制编码规则将标志序列转换为碱基序列,再使用gc调制引物和/或均聚物调整引物对碱基序列进行调制。5.如权利要求1所述的基于调制作用的dna信息编码方法,其特征在于,步骤s6包括:将
索引序号和调制引物并入到寻址序列中,采用结构化寻址序列设计方法生成每个信息块的寻址序列;所述结构化寻址序列设计方法将标志物、平衡序列、所述调制引物、所述索引序号组合成寻址序列,其中所述标志物是用于保证寻址序列的特异性的均聚物,所述平衡序列为随机生成的多位碱基,用于保证gc含量平衡;在每条dna链的前后两端各放置一个寻址序列,分别称为前、后寻址序列,其中前寻址序列上保存gc调制引物,后寻址序列上保存均聚物调制引物。6.如权利要求1所述的基于调制作用的dna信息编码方法,其特征在于,步骤s7包括:将调制优化后的约束序列与其前后引物、标志序列组合在一起,形成用于存储信息的dna链的完整结构,输出到文本文件中进行存储。7.一种基于调制作用的dna信息解码方法,用于解码使用如权利要求1至6任一项所述的dna信息编码方法编码的dna链,其特征在于,包括以下步骤:t1、寻址序列复原:读取dna链的寻址序列,并复原得到调制引物和索引序号;t2:调制复原:复原标志序列,并根据标志序列信息和调制引物,将碱基序列解码为未经调制的序列;t3:序列转换:将未经调制的序列先转换为二进制序列,再恢复为字节流数据;t4:信息校验:根据校验算法和冗余信息,对存储信息进行校验和纠错;t5:信息重组:根据索引序号,将正确的存储信息恢复为原始信息。8.如权利要求7所述的基于调制作用的dna信息解码方法,其特征在于,步骤t1包括:根据读取的dna序列,从中划分出寻址序列的位置,并根据寻址序列结构,拆解得到调制引物和索引序列;步骤t2包括:先从dna序列中找到标志序列,解码出调制过程信息,再结合引物中解析出的调制引物,对dna序列进行逆向调制,得到未经调制的存储信息序列;步骤t3包括:先将未经调制的存储信息序列,从碱基序列转换为二进制序列,再通过进制转换为字节流数据;步骤t4包括:经过调制和转换的字节流数据,包含存储信息和校验信息,使用校验算法,对信息进行校验,并对信息错误进行纠正;步骤t5包括:通过解码、校验后的信息,根据其索引序号,使用排序算法进行排序,恢复成原始存储信息,最后输出为其原始存储文件。9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序由处理器执行时,实施如权利要求1至6任一项所述的dna信息编码方法和/或如权利要求7至8任一项所述的dna信息解码方法。10.一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时实施如权利要求1至6任一项所述的dna信息编码方法和/或如权利要求7至8任一项所述的dna信息解码方法。

技术总结
本发明提出了一种基于调制作用的DNA信息编解码方法,其中编码方法包括:信息分块、信息校验、序列转换、调制优化、生成标志序列、生成寻址序列以及输出,在编码时能够通过特殊构造的调制引物对碱基序列进行优化,让碱基序列满足约束条件,同时构造出标志序列,在解码时能恢复成正确的原始信息。可将调制引物、索引序列与引物序列结合,既能保存自身寻址的功能,还可作为PCR引物进行使用,大大减少了信息冗余。此编解码方案可以针对任意计算机存储的数字信息进行编解码,并且其编码密度接近理论极限。还生成与碱基序列规模匹配的具有特异性的寻址序列数量,满足调制、寻址、PCR扩增、信息检索等多种功能的需要。索等多种功能的需要。索等多种功能的需要。


技术研发人员:弥胜利 曹让利 黄玉 任钱伦 梁玮峰
受保护的技术使用者:清华大学深圳国际研究生院
技术研发日:2023.05.22
技术公布日:2023/8/16
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐