核酸分子数字信息存储技术的研究进展

2024-12-01 00:00:00徐怀胜徐苗苗
电脑知识与技术 2024年32期

摘要:DNA数据存储已成为一种利用脱氧核糖核苷酸作为存储介质来存储大量数据的解决方案。与闪存和硬盘驱动器等传统存储介质相比,DNA具有极高的存储密度、较长的保存寿命和较低的维护成本。DNA数据存储包括以下步骤:编码、DNA合成(即写入)、保存、检索、DNA测序(即读取)和解码。在过去的十年来,利用DNA材料存储数据取得了快速发展,在本篇综述中,提供了DNA数据存储的整个过程,介绍了每个步骤的最新进展,最后,对DNA数据存储未来发展方向进行了展望。

关键词:DNA存储;DNA纳米技术;DNA合成;DNA序列

中图分类号:Q819 文献标识码:A

文章编号:1009-3044(2024)32-0077-03 开放科学(资源服务)标识码(OSID) :

0 引言

随着数据生成速度的不断加快,预计到2025年全球数字数据量将达到175泽字节 (ZB)[1],在不断变化的数据存储需求的驱动下,到目前为止,已经开发了从磁带到闪存的几代存储介质,目的是在控制成本的同时提高性能、可靠性、耐用性和存储容量[2]。由于当前存储介质的最大密度为103 GB/mm3,传统存储方法难以跟上步伐。脱氧核糖核酸(DNA)正在成为一种新的替代存储技术。

DNA作为天然的信息载体,由四种碱基组成,分别是腺嘌呤(A) 、鸟嘌呤(G) 、胞嘧啶(C) 和胸腺嘧啶(T) 。碱基通过氢键配对,形成双螺旋结构中的碱基对,其中,A与T配对,C与G配对。DNA数据存储有许多优点,比如,存储密度较高、存储寿命长、维护成本低等。早在2013 年,理论估计就表明每克单链DNA可以存储0.455ZB的数据[3],因此1千克 DNA可以存储世界上所有的数据[4]。此外,研究表明,在合适的存储介质中,DNA可以保存高达200万年[5]。随着测序技术的爆炸式增长,目前可以以最快的速度读取DNA序列,这使得DNA成为理想的存储介质。

1 DNA 存储流程

DNA数据存储按保存方式可以分为体内存储和体外存储,体内存储是将数据编码到活细胞的DNA 中,通过转基因技术将合成的DNA片段插入到生物体(如细菌、酵母或植物等)内,这样生物体就可以携带和复制这些数据。体外存储是将数据编码到合成的DNA片段中,并在实验室条件下保存这些DNA序列。与体内存储不同,体外存储不依赖于活细胞,而是利用合成和纯化的DNA分子进行数据存储。而如果按数据的存储策略分,DNA数据存储可以分为基于DNA 序列的方案和基于DNA纳米技术的方案,基于DNA 序列的方案是将数字数据直接编码到DNA的碱基序列中,通过合成和测序技术实现数据的存储和读取。基于DNA纳米技术的方案是利用DNA的纳米结构和自组装特性,将数据存储在复杂的DNA纳米结构中,通过控制DNA分子的空间排列和相互作用来实现数据存储和读取。

1.1 编码

编码是DNA数据存储最初的步骤,是指利用计算机编码算法,将数字信息映射到DNA中的过程,不同的编码方式直接影响DNA 数据存储的编码容量。2012年,Church等人提出了一种二进制转换方法[6],将每位数据用一个碱基表示(A或C代表0,G或T代表1) ,他们的编码方式为DNA数据存储技术打下了坚实的基础,并推动了该领域的应用和研究。2013年欧洲Goldman 团队提出了三进制霍夫曼编码[3],编码后的文件还原率超过99.99%。2017年,哥伦比亚大学Erlich等人采用了DNA喷泉编码方案[7],该方案可以从给定的一组源数据包中生成无限的编码符号序列,理想情况下只需要比原始文件液滴总量稍多一点就可以恢复源数据信息,该方案实现了每克 DNA0.215EB极高的存储密度。2019年,Anavy等人提出了一种使用复合DNA字母的编码方案[8],该方案利用合成和测序信息的冗余来编码和减少DNA合成周期,通过使用复合DNA 字母增加了DNA 存储的逻辑密度。2020年,Yi Zhang等人开发了一种优化后的Base64方案[9],该方案通过将一些随机数据信息编码成一个DNA序列,然后合成对应的DNA分子,在转码过程中有效地解决了GC含量和连续碱基问题,该方案存储密度高达1.77位/碱基。Zhi Ping等人提出了阴阳编码方案[10],该方案使用特定的规则将2个二进制位编码为一个碱基,实验表明,该方案对多种数据类型都有较高的鲁棒性。

DNA数据存储在编码的同时需要满足生物化学约束,通常,合成DNA链长不超过150-300 nts长度,可以有效降低错误率,对于更长的序列,合成误差呈指数增长。因此,为了减少出错的可能性,需要将要合成的DNA序列切成短片。因此,任何DNA数据存储编码算法都应当遵循生物化学约束限制,这样可以尽可能地减少测序过程出现错误的可能。除此之外,为了实现可靠的解码,还需要在编码数据中引入一些冗余,以便进行错误检测和纠正。

1.2 写入

将数据编码完成后,需要采用适当的方法将编码后的数据存储到DNA中,目前有两种写入方案,一种是基于DNA序列的写入,另外一种是基于DNA纳米技术的写入[11]。近年来,随着DNA纳米技术的快速发展,如体外DNA修饰和DNA折纸技术,使得将数据存储到DNA纳米结构中变得越来越可行。将信息写入DNA序列可以通过DNA的合成来实现,其中化学合成是体外最常用的方法[12]。1981年,Caruthers首次描述了寡核苷酸合成的固相亚磷酰胺方法[13]。在这种方法中,每个携带碱基的亚磷酰胺单体被用作合成单元,单体经历一系列化学反应,通过受控方式延长核苷酸链。到目前为止,这仍然是DNA化学合成的标准方案。

1.3 DNA 保存

数据长期存储的可靠性与存储介质的寿命息息相关,目前的存储介质,包括磁性、光学和电气存储设备,使用寿命通常有限,从几十年到150年不等。在理想条件下,DNA的稳定性比传统的存储介质高,但是,在特定因素下,DNA极易受到影响,如电离辐射、紫外线照射、DNA酶等因素,这些因素主要通过导致链断裂、水解损伤和核碱基修饰来改变DNA的完整性。因此,设计相应的保存方法来延长DNA 的寿命非常重要。

目前,保存DNA的方法主要有三种,脱水、封装和体内保存。水会加速DNA的水解,进而损害DNA的稳定性,因此脱水会使DNA延长寿命,有研究表明,干燥下的DNA比在溶液中的DNA更稳定[14],并且在室温下可以稳定保存数年[15]。然而长期存储所需高昂成本远远超过了其所带来的好处。在其他脱水方法中,比如将DNA存储在乙醇中[10],也被证明可以长期保存DNA样本。将DNA封装在无机基质中也是长期保存DNA样本的方式之一,二氧化硅是封装DNA最常用的材料,有研究表明,二氧化硅可以保护DNA避免受热和氧化等环境因素影响,从而提高DNA的稳定性,在9.4摄氏度下将带有编码数据的DNA封装到二氧化硅下,DNA的寿命可延长至2000年[16]。然而,封装对于DNA存储也有明显的缺点,将DNA封装到无机基质中,存储密度会显著降低。迄今为止,通过优化组合的方式,通过二氧化硅封装最佳的存储密度为3.4wt%[17]。除此之外,把带有编码数据的DNA保存到生物体内也是一种可行的DNA保存策略,可以将包含数据的DNA片段组装成人工染色体,或加载到质粒中,然后将其存储到酵母或细菌中。由于在生物体内具有高保真度的DNA复制,存储有数字数据的DNA 在生物体内扩增比其他体外扩增方法更准确、更高效。最初,在2003年,人们证明数字数据可以存储在细菌中,尽管当时存储的数据量比较少[18]。随着DNA 合成技术的高速发展,有研究表明利用CIRSPR/Cas 技术,可以将带有编码数据的DNA直接存储在细菌群体的基因组中[19]。总而言之,用于保存带有数字信息DNA的方法多种多样,目前体内信息存储对于DNA 存储来说是可行的。

1.4 随机访问

随机访问是指从大型存储池中高效、快速地检索请求的数据,从DNA池中选择特定DNA数据集的步骤,是存储的系统的关键要素,在传统的存储介质中使用寻址方案和数据索引的方式实现随机访问相对比较简单,但是在DNA存储系统中,要实现随机访问面临着巨大的挑战,当在存储系统中频繁访问数据时,随机访问尤为重要。目前,在DNA数据存储系统中随机访问已取得了重大进展,对于基于DNA序列的数据存储,已经证明使用PCR扩增的方法可以实现随机访问。相比之下,对于基于DNA纳米技术的数据存储,随机访问尚未取得很好的发展。

PCR是DNA序列存储中随机访问的主要方法,通过引入正交引物对,可以方便、多路复用的方式提取具有独特引物的数据集,使用与目标序列侧翼区域结合的引物,PCR只能扩增所需的目标区域,从而能够更准确地检索编码数据,从而减少数字信息解码过程中的错误。Kashiwamura等人引入嵌套引物分子记忆(NPMM)[20],将数据分成特定的DNA序列,称为使用引物地址位点寻址的数据块,通过指定地址引物的顺序,实现特定的数据访问。SM Yazdi等人使用两侧为地址块的1 000 bps数据块[21],通过使用PCR选择性的检索信息,该方案能够随机访问数据块并重写存储在块内任意位置的信息。Organick L等人在超过1.3×107个DNA 寡核苷酸中编码并存储了35 个不同的文件[22],使用随机访问方法可以单独恢复每一个文件,数据量超过了200 MB。

1.5 DNA 测序

数据被检索后,就可以准确、完整地读取。读取技术的可靠性对于确保数据恢复得准确无误至关重要。对于基于 DNA 序列的存储,通常使用测序方法(包括所有三代测序技术)来读取数据。对于使用DNA纳米技术存储的数据,通常采用直接可视化技术(例如荧光显微镜、原子力显微镜、电子显微镜和凝胶电泳)以及先进的纳米孔技术,根据所选的写入策略来读取数据。

1.6 解码

解码是编码的逆过程,通过使用相应的算法将上一步地读出数据转换回原始文件。理想的编解码算法还应包含纠错功能,因为在DNA存储过程中不可避免会出现错误,尤其是在写入和读取的过程中。为了开发纠错方案,添加逻辑冗余是最常用的策略之一。随着技术的不断进步,DNA存储每个步骤中的错误率可能会进一步下降。这些进步将改变开发合适的编码/解码算法方案。判断好的算法的一个基本标准是确保数据准确性的同时,最大化数据存储密度。

2 研究展望

DNA已经成为下一代数据存储最有潜力的材料之一,由于具有超高存储密度、可复制性、在适宜环境下寿命长等特点,DNA分子作为新一代数字数据存储的代表被广泛研究。本篇综述总结了目前的DNA存储方法。这些方法不仅增加了DNA信息分子的稳定性,还赋予DNA信息多种功能,如磁场信息集中、图形索引等。

随着高通量DNA合成与测序技术的发展,未来DNA数据存储平台的存储密度和读取速度将得到提升,数据写入和读取的处理时间将大大缩短。尽管过去十年来,DNA存储取得了重大的成就,但DNA存储领域仍然面临着许多挑战,与传统的存储技术相比,DNA数据存储在成本、速度和随机访问能力方面存在相当大的不足,这些不足阻碍了DNA数据存储的实际商业应用。其次,缺乏自动化,与传统的存储方法不同,DNA数据存储所涉及的各个步骤相对脱节。例如,在基于DNA序列的数据存储中,使用DNA合成的方法将数据信息写入,在适当的条件下保存,通过测序技术检索数据,最终解码获取原始信息,对于复杂且昂贵的仪器的需求进一步限制了DNA数据存储在日常生活中的广泛应用。最后,对于存储在DNA中的数据进行大规模计算仍然面临着挑战,由于缺乏相关的软件设备,因此需要进行DNA测序、计算机计算然后合成新的DNA,这种方法既耗时也非常昂贵。总体而言,DNA数据存储仍面临重大的挑战,需要解决这些挑战才能使DNA数据存储得到广泛应用。

参考文献:

[1] GU M,LI X P,CAO Y Y.Optical storage arrays:a perspective for future big data storage[J].Light:Science & Applications,2014,3(5):e177.

[2] ANŽEL A,HEIDER D,HATTAB G.The visual story of data stor⁃age:from storage properties to user interfaces[J].Computational and Structural Biotechnology Journal,2021,19:4904-4918.

[3] GOLDMAN N,BERTONE P,CHEN S Y,et al.Towards practical,high-capacity,low-maintenance information storage in synthe⁃sized DNA[J].Nature,2013,494(7435):77-80.

[4] EXTANCE A.How DNA could store all the world’s data[J].Na⁃ture,2016,537(7618):22-24.

[5] KJÆR K H, PEDERSEN M W, DE SANCTIS B, et al. A 2-million-year-old ecosystem in Greenland uncovered by envi⁃ronmental DNA[J].Nature,2022,612(7939):283-291.

[6] CHURCH G M,GAO Y,KOSURI S.Next-generation digital in⁃formation storage in DNA[J].Science,2012,337(6102):1628.

[7] ERLICH Y,ZIELINSKI D.DNA Fountain enables a robust and efficient storage architecture[J].Science,2017,355(6328):950-954.

[8] ANAVY L,VAKNIN I,ATAR O,et al.Data storage in DNA with fewer synthesis cycles using composite DNA letters[J].Nature Biotechnology,2019,37(10):1229-1236.

[9] ZHANG Y,KONG L L,WANG F,et al.Information stored in na⁃noscale:Encoding data in a single DNA strand with Base64[J].Nano Today,2020,33:100871.

[10] PING Z,CHEN S H,ZHOU G Y,et al.Towards practical and ro⁃bust DNA-based data archiving using the Yin-Yang codec system[J].Nature Computational Science,2022,2(4):234-242.

[11] CEZE L,NIVALA J,STRAUSS K.Molecular digital data stor⁃age using DNA[J].Nature Reviews Genetics,2019,20(8):456-466.

[12] HOOSE A,VELLACOTT R,STORCH M,et al.DNA synthesis technologies to close the gene writing gap[J].Nature Reviews Chemistry,2023,7(3):144-161.

[13] BEAUCAGE S L,CARUTHERS M H.Deoxynucleoside phos⁃phoramidites—a new class of key intermediates for deoxypoly⁃nucleotide synthesis[J]. Tetrahedron Letters, 1981, 22(20):1859-1862.

[14] ORGANICK L,NGUYEN B H,MCAMIS R,et al.An empirical comparison of preservation methods for synthetic DNA data storage[J].Small Methods,2021,5(5):e2001094.

[15] BONNET J,COLOTTE M,COUDY D,et al.Chain and confor⁃mation stability of solid-state DNA:implications for room tem⁃perature storage[J].Nucleic Acids Research,2010,38(5):1531-1546.

[16] GRASS R N,HECKEL R,PUDDU M,et al.Robust chemical preservation of digital information on DNA in silica with error-correcting codes[J]. Angewandte Chemie (International Ed in English),2015,54(8):2552-2555.

[17] CHEN W D,KOHLL A X,NGUYEN B H,et al.Combining data longevity with high storage capacity—layer-by-layer DNA encapsulated in magnetic nanoparticles[J]. Advanced Func⁃tional Materials,2019,29(28):1901672.

[18] WONG P C,WONG K K,FOOTE H.Organic data memory us⁃ing the DNA approach[J].Communications of the ACM,2003,46(1):95-98.

[19] SHIPMAN S L,NIVALA J,MACKLIS J D,et al.CRISPR-Cas encoding of a digital movie into the genomes of a population of living bacteria[J].Nature,2017,547(7663):345-349.

[20] KASHIWAMURA S,YAMAMOTO M,KAMEDA A,et al.Hier⁃archical DNA memory based on nested PCR[M]//Lecture Notes in Computer Science.Berlin,Heidelberg:Springer Berlin Heidelberg,2003:112-123.

[21] YAZDI S M,YUAN Y B,MA J,et al.A rewritable,randomaccess DNA-based storage system[J].Scientific Reports,2015,5:14138.

[22] ORGANICK L,ANG S D,CHEN Y J,et al.Random access in large-scale DNA data storage[J].Nature Biotechnology,2018,36(3):242-248.

【通联编辑:李雅琪】