一种利用dna进行信息存储的编码方法和解码方法
【技术领域】
[0001]本发明涉及一种利用脱氧核糖核苷酸(DNA)序列存储计算机多媒体信息过程中的编码和解码方法。
【背景技术】
[0002]人类文明的发展就是信息的创造、传播和存储的过程。在漫长的文明发展过程中,先后出现了多种信息的存储方式。纸张的发明使人们能够将文字信息和绘画信息进行存储;感光胶片的发明将人类带入文字、图像、声音、视频的多媒体时代;计算机硬盘这种磁性存储材料的出现极大的降低了信息存储的成本,引领了信息时代的到来。时至今日,互联网大数据时代带来了信息的急速膨胀,IDC的研究报告指出全球的数据资料存储量到2020年将达到40ZB,这个数目相当于地球上沙滩上所有沙粒总和的47倍;如果把40ZB全存到蓝光光碟中,光碟的重量将与424台10万吨级航母相当。面对如此迅猛的信息增长量,以计算机硬盘为主的磁性存储介质存在的“信息体积比相对较大、存储寿命较短”等缺点逐渐显现,因此寻找新的存储媒介成为人类不得不面对的问题。
[0003]随着分子遗传学和基因组学的发展,脱氧核糖核苷酸(DNA)这种生物遗传信息的存储物质逐渐进入人们的视野,引发了人们利用DNA进行信息存储的尝试。DNA存储技术,其本质是将文本、图像等数字信息存储于DNA这种生物载体中。由于读取、写入、更新等多方面因素的制约,以往在高通量生物信息存储方面一直没有大的突破。随着高通量测序和合成生物学研究领域的发展,目前大规模生物存储已成为可能。DNA存储具有“存储信息量大,信息体积比很小、信息拷贝成本低,信息存储时间长,存储成本低”等优势,非常适合特大数据的长时间存储。DNA存储信息体积比小,存储700TB的计算机数据仅需要Ig左右的DNA核苷酸合成物;DNA核苷酸合成物易于保存,只要保存在普通的_80°C的冰箱内,原则上保存时间可以达上万年;DNA核苷酸合成物存储的信息只要通过简单的聚合酶链式反应(PCR)就可以上万倍的扩增,拷贝成本极低。
[0004]为了适应DNA存储技术的发展,探索有效的信息编码解码方式显得尤为重要,本发明就是为了解决DNA信息存储过程中编码方法这一关键问题。
【发明内容】
[0005]针对DNA存储这种新型存储方式在信息写入和信息读取过程的特殊性,本发明所要解决的技术问题在于,设计合理的信息编码方法和解码方法,保证信息读写和存储的高效进行。
[0006]本发明为实现上述目的所采用的技术方案是:一种利用DNA进行信息存储的编码方法,包括以下步骤:
[0007]步骤1:将计算机文件代码二进制化,将计算机文件的二进制序列转换为三进制序列;
[0008]步骤2:将所述三进制序列转换为A、T、G、C四种脱氧核糖核苷酸表示的DNA序列;
[0009]步骤3:将所述DNA序列打断成若干个DNA片段,并在各个DNA片段序列两端添加起始终止信息;
[0010]步骤4:对步骤3得到的每个DNA片段添加序列首部信息区;
[0011]步骤5:对步骤4得到的每一个DNA片段添加前向引物接头和后向引物接头;
[0012]步骤6:将步骤5所述的DNA片段合成实物的DNA寡核苷酸片段并储存。
[0013]所述将计算机文件的二进制序列转换为三进制序列为:采用霍夫曼编码的编码规则将二进制代码O、I转换为三进制代码0、1、2。
[0014]所述步骤2采用抗同聚物的编码方式将三进制代码0、1、2转换为A、T、G、C四种脱氧核糖核苷酸表示的DNA序列。
[0015]所述步骤3中的DNA片段的长度为80bp_100bp。
[0016]所述步骤3中的DNA片段打断采用四倍重叠打断,相邻DNA片段之间有75%长度的重叠区,使除了前后DNA片段,其他位置都是在前后相邻的4个片段中重复出现。
[0017]所述首部信息区序列包含文件编号、序列编号、序列编号校验、数据信息校验四部分。
[0018]所述数据信息校验采用循环冗余校验方法。
[0019]一种利用DNA进行信息存储的解码方法,包括以下步骤:
[0020]步骤1:将存储有实际信息的DNA寡核苷酸片段进行DNA测序,并对测序后的DNA片段进行错误校验和去冗余;
[0021]步骤2,对多个校验和去冗余后的DNA片段进行拼接;
[0022]步骤3,将拼接后的DNA序列转码为三进制序列,进而转换为二进制序列,最终得到计算机原始文件。
[0023]所述错误校验是根据DNA编码过程中添加的校验码进行校验的,检验序列中保存的校验码和实际测序得到的编码数据序列按照同样方法生成的校验码是否一致,一致的话就说明所述编码数据序列正确。
[0024]所述拼接为根据DNA寡核苷酸片中的首部信息区中的文件编号和序列编号,按照前后顺序进行拼接。
[0025]与传统的计算机磁性介质不同,DNA存储的信息写入方式是将信息编码后利用寡核苷酸链合成技术合成一定长度的寡核苷酸链,合成后的寡核苷酸链以粉末方式保存;DNA存储的读取技术是利用高通量测序技术将寡核苷酸链进行测序,测序后的片段拼接后进行转码即可恢复原始的计算机多媒体文件。由于DNA寡核苷酸链具有的特性,在设计编码方式时应该充分考虑DNA合成和测序过程中可能存在的随机误差,对DNA片段进行错误校验和多重覆盖分割。具体地,本发明具有以下优点及有益效果:
[0026]1,本发明所构建的用于DNA存储技术的编码方法简便易行,可以应用于各种格式的计算机多媒体文件转换为DNA序列从而进行信息存储。
[0027]2,本发明所构建的方法充分考虑了信息存储的高效性、信息的安全性和对存储信息的压缩,为进行DNA存储打好了基础。
[0028]3,本发明所构建的方法充分考虑了脱氧核糖核苷酸链(DNA)这种遗传物质自身具有的特性,利用有效的编码方式避免了信息写入和读取过程中潜在的误差。
[0029]4,本发明通过添加前后弓I物接头保证了信息拷贝的便捷性和经济性。
【附图说明】
[0030]图1为抗同聚物编码策略的编码示意图;
[0031]图2为编码完成后的DNA片段的结构实施例图;
[0032]图3为应用于DNA存储的编码方式进行DNA信息存储的完整流程图;
[0033]图4为针对一张图片的DNA编码存储流程的实施例图。
【具体实施方式】
[0034]下面结合附图及实施例对本发明做进一步的详细说明。
[0035]图1为抗同聚物编码策略的编码不意图。米用这种编码策略编码得到的DNA序列前后相邻两个碱基不会出现相同。
[0036]图2为编码完成后的DNA片段的结构实施例图。该DNA片段包括首向引物接头(ISbp)、序列首部信息区(16bp)、序列数据区(10bp)和反向引物接头(ISbp)。其中,序