一种基于自适应编码的蛋白存储文件管理系统及方法
未命名
10-08
阅读:69
评论:0

1.本发明涉及一种基于自适应编码的蛋白存储文件管理系统及方法,属于计算机和生物学领域。
背景技术:
2.如今,随着互联网和人工智能等信息技术的快速发展使得信息量呈指数级增长。这一数据增长趋势将很快超过现有硬盘等存储介质得承受能力,现阶段使用的大量存储设备具有存储期限短、数据易受环境影响、能源消耗大、维护成本高以及污染环境等缺陷和弊端。因此寻找一种新的数据存储介质是非常有必要的。
3.蛋白质是大分子化合物,由氨基酸构成,具有存储密度高、存储时间长、可塑性强等特点。与传统的硅基介质不同,蛋白存储与编码的信息写入方式是将信息利用固相多肽合成技术和蛋白连接技术,制备一定长度的多肽链,合成后多肽链以粉末方式保存或通过物理参杂、化学交联等方式混入特定物件中,实现信息的长时间、无痕、稳定保存。利用人工合成的蛋白来存储文本、图像音频等数据,需要时通过质谱测序技术将多肽链进行测序,测序后的片段拼接后进行解码,即可重新生成原始数据。
4.蛋白编码是蛋白存储中的关键技术,其结果直接影响存储性能的优劣和数据读写的完整。蛋白存储技术以氨基酸结构单元作为信息存储和编码的载体,具有存储密度大、存储时间长、稳定性高、可塑性强等特性。因此,借助自适应编码的蛋白存储文件管理方法,是很有必要的。
技术实现要素:
5.本发明的目的是:实现存储密度高、测序覆盖率低、存储时间长、耦合度高、可塑性强的蛋白存储技术。
6.为了达到上述目的,本发明的一个技术方案是提供了一种基于自适应编码的蛋白存储文件管理系统,该蛋白存储文件管理系统是一个可视化的操作平台,其特征在于,包括原始文件上传模块、信息编码模块、信息解码模块、编码记录数据库、解码记录数据库、结果输出模块,其中:
7.用户通过网页上显示的控件调用原始文件上传模块,上传原始文件;
8.用户通过网页上显示的控件调用信息编码模块,通过信息编码模块将原始文件上传模块上传的原始文件编码为氨基酸序列;若编码成功,则信息编码模块通过网页向用户反馈编码成功信息,表示代码编码结束;在编码过程中,信息编码模块访问编码记录数据库,将信息编码过程中产生的文件及操作记录保存至编码记录数据库内;
9.用户通过网页上显示的控件调用信息解码模块,信息解码模块对蛋白多肽链进行测序得到氨基酸片段序列,并基于用户输入的信息编码过程中产生的文件及操作记录,将氨基酸片段序列解码为原始文件;结果输出模块将信息解码模块输出的原始文件通过网页反馈给用户;在解码过程中,信息解码模块访问解码记录数据库,将信息解码过程中产生的
文件及操作记录保存至解码记录数据库内;
10.用户通过信息检索页面调用信息检索模块,在信息检索页面上输入关键字后,信息检索模块获取用户输入的关键字,根据关键字访问编码记录数据库或解码记录数据库,查询得到相匹配的信息编码过程或信息解码过程中产生的文件及操作记录后,通过信息检索页面反馈给用户。
11.优选地,所述原始文件包括文本文件、图像文件或音频文件。
12.优选地,所述信息编码模块对不同的编码区位置采用不同的编码方案,并采用自适应生成编码约束阈值的方法。
13.优选地,所述结果输出模块通过浏览器的下载功能将文件导出到本地计算机。
14.本发明的另一个技术方案是提供了一种自适应编码的蛋白存储文件管理方法,其特征在于,包括如下步骤:
15.s100、预处理:将原始文件转换为二进制码;
16.s200、加入冗余:在步骤s100中生成的二进制码中使用reed-solomon纠错码添加冗余信息;
17.s300、分段:将添加完冗余信息的二进制码分割成等长的n个分段,在每个分段两端添加编号信息序列和可实现随机数据访问的信息序列,并基于robust soliton分布产生一个随机整数d;
18.s400、自适应编码:
19.根据编码位置的特点,对上一步所获得编码中的有效载荷和非有效载荷两种不同情况采用不同的编码方式,其中,有效载荷指的是一步所获得编码中未添加冗余之前的部分,非有效载荷是指分段时添加在每段两端的编号信息序列和可实现随机的数据访问的信息序列;
20.s500、蛋白合成:将步骤s400中生成的氨基酸序列合成为多肽链并制成蛋白信息存储材料;
21.s600、信息解码:将氨基酸序列重新还原为原始文件;
22.s700、结果展示:利用结果输出模块将步骤s600中生成的原始文件通过显示屏显示结果,并将结果保存至编码记录数据库中。
23.优选地,所述步骤s400中,对于有效载荷部分采用喷泉码进行编码。
24.优选地,所述步骤s400中,对于有效载荷部分进行编码包括以下步骤:
25.s401、luby变换:根据步骤s300中获得的d值,在n个分段中选出d个进行xor异或运算生成编码符号,为了保障存储质量,引入两个字节的rs纠错码,然后将编码符号和纠错码组合成一个液滴,作为luby变换的输出;
26.s402、筛选:首先将液滴的二进制序列转换为氨基酸序列,然后运用算法对液滴的均聚物及gc含量进行筛选;若通过筛选,则认为液滴是有效的并将它添加至文件中进行存储,若未通过筛选,则认为是无效液滴,将其删除;
27.s403、计算约束阈值:通过有效载荷编码的gc内容根据公式来自适应地计算非有效载荷编码时的gc含量阈值,使得在蛋白合成和测序中,gc的含量保持在50%左右,以获得更好的效果。
28.优选地,所述步骤s400中,对于非有效载荷部分的编码采用约束过滤策略。
29.优选地,所述步骤s400中,对于非有效载荷部分进行编码具体包括以下步骤:
30.s404、计算有效载荷编码集的gc内容和连续性等特征值;
31.s405、计算生成非有效载荷编码集gc内容的阈值、连续性阈值,针对不同的存储条件、存储内容、不同的实验环境和不同的存储开销,合理地选择算法和约束,以保证非有效载荷部分的编码质量,支持的算法包括k均值多节优化器算法(kmvo)、阻尼多节优化器算法(dmvo)、双策略黑寡妇优化算法(bmvo)和柯西和利维突变策略算法(clgbo),为了减少氨基酸序列间的相似性,设计了汉明距离约束(hamming)和存储编辑距离约束(edit),使用最小自由能约束(mfe)和解链温度约束(tm)筛选出更具热稳定性的氨基酸序列,非游程长度约束(non-run)可以避免连续相同的氨基酸,而gc约束用于约束非有效载荷编码集中gc内容的阈值;s406、输入对非有效载荷编码集合进行编码所需的地址位数,判断当前非有效载荷编码集gc内容的阈值条件是否超过非有效载荷编码集合的下界;
32.s407、如果超过,则返回步骤s406,否则,执行步骤s408;
33.s408、使用当前的非有效载荷编码阈值继续下一个编码过程。
34.优选地,步骤s600中,信息解码的过程包括以下步骤:
35.首先对蛋白进行pcr扩展和测序,采用reed-solomon纠错码进行纠错,最后去除氨基酸序列中的冗余信息并将其还原成原始文件。
36.与现有技术相比,本发明具有如下有益效果:
37.本发明结构设计合理,利用一种自适应编码技术,根据编码位置的特点,对有效载荷和非有效载荷两种不同情况采用不同的编码方式,将文本、图像、音频三种格式的原始文件编码为具有存储密度高、测序覆盖率低、存储时间长、耦合度高、可塑性强的蛋白存储材料,保证数据存储的安全性、可靠性和持久性。
附图说明
38.图1为本发明基于自适应编码的蛋白存储文件管理系统的整体框架图;
39.图2为本发明基于自适应编码的蛋白存储文件管理方法的整体框架图;
40.图3为本发明基于自适应编码的蛋白存储文件管理系统的二进制码与氨基酸映射关系图;
41.图4为本发明基于自适应编码的蛋白存储文件管理系统的信息编码模块流程框图;
42.图5为本发明基于自适应编码的蛋白存储文件管理系统的信息编码模块中非有效载荷编码流程图;
43.图6为本发明基于自适应编码的蛋白存储文件管理系统的解码流程图。
具体实施方式
44.下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
45.如图1所示,本发明实施例提出了一种基于自适应编码的蛋白存储文件管理系统,
该蛋白存储文件管理系统是一个可视化的操作平台,包括原始文件上传模块、信息编码模块、信息解码模块、编码记录数据库、解码记录数据库、结果输出模块,其中:
46.用户通过网页上显示的控件调用原始文件上传模块,上传原始文件,该原始文件包括文本文件、图像文件或音频文件。
47.用户通过网页上显示的控件调用信息编码模块,通过信息编码模块将原始文件上传模块上传的原始文件编码为氨基酸序列。若编码成功,则信息编码模块通过网页向用户反馈编码成功信息,表示代码编码结束。在编码过程中,信息编码模块访问编码记录数据库,将信息编码过程中产生的文件及操作记录保存至编码记录数据库内。
48.用户通过网页上显示的控件调用信息解码模块,信息解码模块对蛋白多肽链进行测序得到氨基酸片段序列,并基于用户输入的信息编码过程中产生的文件及操作记录,将氨基酸片段序列解码为原始文件。结果输出模块将信息解码模块输出的原始文件通过网页反馈给用户。在解码过程中,信息解码模块访问解码记录数据库,将信息解码过程中产生的文件及操作记录保存至解码记录数据库内。
49.用户通过信息检索页面调用信息检索模块,在信息检索页面上输入关键字后,信息检索模块获取用户输入的关键字,根据关键字访问编码记录数据库或解码记录数据库,查询得到相匹配的信息编码过程或信息解码过程中产生的文件及操作记录后,通过信息检索页面反馈给用户。
50.在本实施方式中,信息编码模块对不同的编码区位置采用不同的编码方案,并采用自适应生成编码约束阈值的方法,在系统级进行优化,以保证各环节的高效运行,使得合成的蛋白质具有高存储密度和低读取覆盖率。
51.在本实施方式中,结果输出模块通过浏览器的下载功能将文件导出到本地计算机。
52.以下列举所述基于自适应编码的蛋白存储文件管理系统的较优实施例,以清楚的说明本发明的内容,应当明确的是,本发明的内容并不限制于以下实施例,其他通过本领域普通技术人员的常规技术手段的改进亦在本发明的思想范围之内。
53.如图2所示,本发明实施例提出了一种自适应编码的蛋白存储文件管理方法,包括如下步骤:
54.s100、预处理:
55.在对原始文件进行编码操作前,需要先将其转换成二进制文件,将原始文件转换为二进制码。本实施例中,可以选择文本、图像、音频三种格式的文件作为原始文件
56.s200、加入冗余:
57.在步骤s100中生成的二进制码中使用reed-solomon(rs)纠错码添加冗余信息,通过使用rs纠错码在二进制码中添加冗余信息,来降低存储错误率,确保存储前后信息的一致性。
58.s300、分段:
59.将添加完冗余信息的二进制码分割成等长的n个分段,在每个分段两端添加编号信息序列和可实现随机数据访问的信息序列,并基于robust soliton分布产生一个随机整数d。
60.s400、自适应编码:
61.根据编码位置的特点,对上一步所获得编码中的有效载荷和非有效载荷两种不同情况采用不同的编码方式,其中,有效载荷指的是一步所获得编码中未添加冗余之前的部分,非有效载荷是指分段时添加在每段两端的编号信息序列和可实现随机的数据访问的信息序列:
62.对于有效载荷部分采用喷泉码进行编码,具体包括以下步骤:
63.s401、luby变换:根据步骤s300中获得的d值,在n个分段中选出d个进行xor异或运算生成编码符号,为了保障存储质量,引入两个字节的rs纠错码,然后将编码符号和纠错码组合成一个液滴,作为luby变换的输出;
64.s402、筛选:首先将液滴的二进制序列转换为氨基酸序列,然后运用算法对液滴的均聚物及gc含量进行筛选;若通过筛选,则认为液滴是有效的并将它添加至文件中进行存储,若未通过筛选,则认为是无效液滴,将其删除;
65.s403、计算约束阈值:通过有效载荷编码的gc内容根据公式来自适应地计算非有效载荷编码时的gc含量阈值,使得在蛋白合成和测序中,gc的含量保持在50%左右,以获得更好的效果,如图4所示;
66.对于非有效载荷部分的编码采用约束过滤策略,并提供多种算法和组合约束可供选择,具体包括以下步骤:
67.s404、计算有效载荷编码集的gc内容和连续性等特征值;
68.s405、计算生成非有效载荷编码集gc内容的阈值、连续性阈值,针对不同的存储条件、存储内容、不同的实验环境和不同的存储开销,合理地选择算法和约束,以保证非有效载荷部分的编码质量,支持的算法包括k均值多节优化器算法(kmvo)、阻尼多节优化器算法(dmvo)、双策略黑寡妇优化算法(bmvo)和柯西和利维突变策略算法(clgbo),为了减少氨基酸序列间的相似性,设计了汉明距离约束(hamming)和存储编辑距离约束(edit),使用最小自由能约束(mfe)和解链温度约束(tm)筛选出更具热稳定性的氨基酸序列,非游程长度约束(non-run)可以避免连续相同的氨基酸,而gc约束用于约束非有效载荷编码集中gc内容的阈值;
69.s406、输入对非有效载荷编码集合进行编码所需的地址位数,判断当前非有效载荷编码集gc内容的阈值条件是否超过非有效载荷编码集合的下界;
70.s407、如果超过,则返回步骤s406,否则,执行步骤s408;
71.s408、使用当前的非有效载荷编码阈值继续下一个编码过程,如图5所示。
72.s500、蛋白合成:将步骤s400中生成的氨基酸序列合成为多肽链并制成蛋白信息存储材料。
73.s600、信息解码:将氨基酸序列重新还原为原始文件,如图6所示。
74.具体的,信息解码的过程是信息编码的逆过程,首先需要对蛋白进行pcr扩展和测序,为防止信息读取过程中出现错误,采用rs纠错码进行纠错,最后去除氨基酸序列中的冗余信息并将其还原成原始文件。
75.s700、结果展示:利用结果输出模块将步骤s600中生成的原始文件通过显示屏显示结果,并将结果保存至编码记录数据库中。
76.综上所述,本发明相对于现有技术,具有如下优势:
77.本发明利用一种自适应编码技术,根据编码位置的特点,对有效载荷和非有效载
荷两种不同情况采用不同的编码方式,将文本、图像、音频三种格式的原始文件编码为具有存储密度高、测序覆盖率低、存储时间长、耦合度高、可塑性强的蛋白存储材料,保证数据存储的安全性、可靠性和持久性。
技术特征:
1.一种基于自适应编码的蛋白存储文件管理系统,该蛋白存储文件管理系统是一个可视化的操作平台,其特征在于,包括原始文件上传模块、信息编码模块、信息解码模块、编码记录数据库、解码记录数据库、结果输出模块,其中:用户通过网页上显示的控件调用原始文件上传模块,上传原始文件;用户通过网页上显示的控件调用信息编码模块,通过信息编码模块将原始文件上传模块上传的原始文件编码为氨基酸序列;若编码成功,则信息编码模块通过网页向用户反馈编码成功信息,表示代码编码结束;在编码过程中,信息编码模块访问编码记录数据库,将信息编码过程中产生的文件及操作记录保存至编码记录数据库内;用户通过网页上显示的控件调用信息解码模块,信息解码模块对蛋白多肽链进行测序得到氨基酸片段序列,并基于用户输入的信息编码过程中产生的文件及操作记录,将氨基酸片段序列解码为原始文件;结果输出模块将信息解码模块输出的原始文件通过网页反馈给用户;在解码过程中,信息解码模块访问解码记录数据库,将信息解码过程中产生的文件及操作记录保存至解码记录数据库内;用户通过信息检索页面调用信息检索模块,在信息检索页面上输入关键字后,信息检索模块获取用户输入的关键字,根据关键字访问编码记录数据库或解码记录数据库,查询得到相匹配的信息编码过程或信息解码过程中产生的文件及操作记录后,通过信息检索页面反馈给用户。2.如权利要求1所述的一种基于自适应编码的蛋白存储文件管理系统,其特征在于,所述原始文件包括文本文件、图像文件或音频文件。3.如权利要求1所述的一种基于自适应编码的蛋白存储文件管理系统,其特征在于,所述信息编码模块对不同的编码区位置采用不同的编码方案,并采用自适应生成编码约束阈值的方法。4.如权利要求1所述的一种基于自适应编码的蛋白存储文件管理系统,其特征在于,所述结果输出模块通过浏览器的下载功能将文件导出到本地计算机。5.一种自适应编码的蛋白存储文件管理方法,其特征在于,包括如下步骤:s100、预处理:将原始文件转换为二进制码;s200、加入冗余:在步骤s100中生成的二进制码中使用reed-solomon纠错码添加冗余信息;s300、分段:将添加完冗余信息的二进制码分割成等长的n个分段,在每个分段两端添加编号信息序列和可实现随机数据访问的信息序列,并基于robust soliton分布产生一个随机整数d;s400、自适应编码:根据编码位置的特点,对上一步所获得编码中的有效载荷和非有效载荷两种不同情况采用不同的编码方式,其中,有效载荷指的是一步所获得编码中未添加冗余之前的部分,非有效载荷是指分段时添加在每段两端的编号信息序列和可实现随机的数据访问的信息序列;s500、蛋白合成:将步骤s400中生成的氨基酸序列合成为多肽链并制成蛋白信息存储材料;s600、信息解码:将氨基酸序列重新还原为原始文件;
s700、结果展示:利用结果输出模块将步骤s600中生成的原始文件通过显示屏显示结果,并将结果保存至编码记录数据库中。6.如权利要求5所述的一种自适应编码的蛋白存储文件管理方法,其特征在于,所述步骤s400中,对于有效载荷部分采用喷泉码进行编码。7.如权利要求6所述的一种自适应编码的蛋白存储文件管理方法,其特征在于,所述步骤s400中,对于有效载荷部分进行编码包括以下步骤:s401、luby变换:根据步骤s300中获得的d值,在n个分段中选出d个进行xor异或运算生成编码符号,为了保障存储质量,引入两个字节的rs纠错码,然后将编码符号和纠错码组合成一个液滴,作为luby变换的输出;s402、筛选:首先将液滴的二进制序列转换为氨基酸序列,然后运用算法对液滴的均聚物及gc含量进行筛选;若通过筛选,则认为液滴是有效的并将它添加至文件中进行存储,若未通过筛选,则认为是无效液滴,将其删除;s403、计算约束阈值:通过有效载荷编码的gc内容根据公式来自适应地计算非有效载荷编码时的gc含量阈值,使得在蛋白合成和测序中,gc的含量保持在50%左右,以获得更好的效果。8.如权利要求5所述的一种自适应编码的蛋白存储文件管理方法,其特征在于,所述步骤s400中,对于非有效载荷部分的编码采用约束过滤策略。9.如权利要求8所述的一种自适应编码的蛋白存储文件管理方法,其特征在于,所述步骤s400中,对于非有效载荷部分进行编码具体包括以下步骤:s404、计算有效载荷编码集的gc内容和连续性等特征值;s405、计算生成非有效载荷编码集gc内容的阈值、连续性阈值,针对不同的存储条件、存储内容、不同的实验环境和不同的存储开销,合理地选择算法和约束,以保证非有效载荷部分的编码质量,支持的算法包括k均值多节优化器算法、阻尼多节优化器算法、双策略黑寡妇优化算法和柯西和利维突变策略算法,为了减少氨基酸序列间的相似性,设计了汉明距离约束和存储编辑距离约束,使用最小自由能约束和解链温度约束筛选出更具热稳定性的氨基酸序列,非游程长度约束可以避免连续相同的氨基酸,而gc约束用于约束非有效载荷编码集中gc内容的阈值;s406、输入对非有效载荷编码集合进行编码所需的地址位数,判断当前非有效载荷编码集gc内容的阈值条件是否超过非有效载荷编码集合的下界;s407、如果超过,则返回步骤s406,否则,执行步骤s408;s408、使用当前的非有效载荷编码阈值继续下一个编码过程。10.如权利要求5所述的一种自适应编码的蛋白存储文件管理方法,其特征在于,步骤s600中,信息解码的过程包括以下步骤:首先对蛋白进行pcr扩展和测序,采用reed-solomon纠错码进行纠错,最后去除氨基酸序列中的冗余信息并将其还原成原始文件。
技术总结
本发明揭示了一种基于自适应编码的蛋白存储文件管理系统及方法,包括编码记录数据库、解码记录数据库,信息编码模块、信息检索模块、信息解码模块和结果输出模块;信息编码模块用于将文件编码为氨基酸序列;信息检索模块用于查询编码记录和解码记录,根据编码记录得到编码文件地址用于后续的解码操作;信息解码模块用于将氨基酸序列解码为源文件;结果输出模块用于对编码和解码产生的结果进行输出。本发明提供的基于自适应编码的蛋白存储文件管理系统及方法,实现了具有存储密度高、测序覆盖率低、存储时间长、耦合度高、可塑性强的蛋白存储系统,保证数据存储的安全性、可靠性和持久性。久性。久性。
技术研发人员:武星 胡宏岗 董昕 苏笠 胡明涛
受保护的技术使用者:上海大学
技术研发日:2022.11.28
技术公布日:2023/10/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/