新一代数据存储介质
——DNA

2020-03-02 14:33吴琦琨赖浪文徐怀胜
关键词:存储介质错误率碱基

吴琦琨, 赖浪文, 徐怀胜, 寇 铮

(广州大学 计算科技研究院, 广东 广州 510006)

随着科学技术的快速发展,人类社会产生的数据量正在以指数级的速率增长[1-2],这对于目前的数据存储介质提出了更高的要求.当前使用的存储介质主要有磁性介质(例如磁带、磁盘等)和光学介质(例如光盘)[3],这些存储介质存在存储时间不够长、存储密度不够大和耗电量高等缺点,无法满足未来对于超大数据规模存储量的需求.因此,许多科研工作者将目光转向了DNA.作为遗传信息的载体,DNA存储了从微生物到人类的亿万生命的遗传信息,本身就是一种优良的存储介质[4],基于DNA的数据存储具有存储密度大、存储时间长、能耗低以及高耐用性等优势,是一种有着巨大潜力的数据存储方式.

DNA作为数据存储介质的想法最初来自于21世纪60年代Wiener和Neiman讨论的“基因记忆”[5-7],但是受限于当时的DNA测序和合成技术,基于DNA的数据存储未能实现.1998年,Davis[8]在其开创性的艺术作品《微金星》中进行了一次开创性的尝试,先将一个图像的像素信息转换成一串二进制序列,然后将信息编码到一个28 bp的DNA分子中,最后通过DNA测序技术,成功地恢复了原始图像.1999年,Clelland等[9]提出了一种基于“DNA微点”的方法来存储DNA分子中的信息.然而,这些早期的尝试存储的数据量太小并且缺乏通用性,无法扩展到实际应用中.直到2012年和2013年,Church等[10]和Goldman等[11]的开创性工作才使基于DNA的数据存储重新兴起.Church成功地在DNA分子中存储了约0.65 Mb的数据,而Goldman存储了0.75 Mb的数据.更振奋人心的是,这两项研究中存储的数据不仅包含文本,还包含图像、声音和PDF文件等,这极大地扩展了基于DNA的数据存储的适用性,使其距离实用阶段更进了一步.自Church和Goldman的开创性成果发表以来,大量的科研机构和公司的研究人员也加入了DNA信息存储的研究,创造了大量的研究成果,同时带动了DNA信息存储领域的飞速发展.

DNA存储主要包括编码/解码、合成、存储和测序等四个步骤:①通过编码将二进制0,1数据映射为碱基A,T,C,G序列;②通过各种技术合成特定的DNA序列;③可以选择体内或者体外存储形式进行保存;④想要读取数据时,一般需要先使用特定的引物序列扩增目标DNA,然后对提取的目标DNA进行测序得到目标DNA序列,再根据解码规则将DNA序列还原为二进制数据.本文将以基于DNA的信息存储为主题,介绍其一般流程,重点描述近年来在编码、合成、存储以及测序等方面的新进展,并在最后分析DNA存储目前面临的挑战.

1 编码/解码

DNA编码是通过一定的算法,将待存储的信息以二进制流的形式转换为DNA 碱基序列,从而实现数据信息与DNA序列之间的关系转换.在找到DNA编码算法前有几个不得不考虑的因素:①每一个DNA在被编码时都要被有效利用到,这主要是由于DNA长链的成本一直居高不下,虽然合成DNA的成本每年都在下降,但是合成长链DNA仍然需要一笔不菲的开销;②进行纠错设计,以免传输的信息并非百分百正确所造成的不准确;③设计一个简单而直接的数据检索方式,不应把大量时间放在检索上.

报告表明每个碱基每个位置大概就会有1%的误差,科学家在使用Illumina仪器对DNA序列测序时发现会出现约有1%的错误率.2019年Zhang等[12]提出了一种新方案用于DNA数据存储的编码,该方案采用四进制哈夫曼编码对原始二进制流文件进行压缩并使用一种低冗余度的四元汉明码用于纠错,然后将其转化为DNA序列,这种方案具有较高的存储密度和良好的纠错能力.2020年Zhang等[13]开发了一种基于Base64代码的编码算法,以减少均聚物的可能性并将CG含量控制在50%左右.编码算法主要包括3个步骤:①将文本信息转换为Base64代码,其中包含64种不同的打印内容;②重塑Base64代码并将其转换为两组8位二进制数据,其中一组由特定代码平衡;③将平衡码和二进制码按照自定义的映射规则映射到DNA序列中.DNA序列中的均聚物和GC含量由平衡码和定制的作图规则控制,这样就有效降低了测序错误率.这种方法既适用于文本和图形信息的存储,又适用于视频和音频文件的存储,为实际的数字存储和其他技术应用提供了巨大的潜力.

2 DNA序列合成

到目前为止,用于DNA数据存储的碱基主要是基于Caruthers等[14]的磷酰胺化学法,以单碱基精度合成DNA是一种高效且强大的合成方法,已经发展了数十年之久[15-16].该方法使用保护单个核苷酸来防止长均聚物链的形成.用酸性溶液除去保护组,然后通过基于阵列控制的下一个碱基的沉积或保护基的局部去除,DNA合成可以并行进行.但是这种有机合成极大地限制了合成DNA的质量和数量.因此,科学家们便对酶促合成DNA这种方法产生了浓厚的兴趣,酶促合成DNA既可以在水性环境下合成,还能以更低的试剂成本生成更长的DNA序列[17-19].酶促法合成DNA反应条件较为温和,还可以减少副产物的产生.2019年Lee等[20]利用一种不依赖于模板的DNA聚合酶——末端脱氧核苷酰转移酶(TdT),在温和条件下快速催化自然发生的核苷酸三磷酸连接,以此合成DNA并且应用于DNA信息存储中.2020年Tabatabaei等[21]通过使用现成天然DNA,使其避免高成本、读写延迟和错误率的问题.由于自然DNA的序列内容是固定的,人们可以修改拓扑结构来编码信息.通过使用DNA穿孔卡片,其中数据以缺口的形式写入天然双链DNA主干上的预定位置.该平台可容纳正交DNA片段上的并行缺口和酶促立足点的创建,从而实现单比特随机访问和内存计算.本研究利用糠秕焦球菌(Pyrococcus furiosus Argonaute)将文件插入大肠杆菌基因组DNA的PCR产物中,然后通过高通量测序和比对准确地重建编码数据.基于合成DNA的数据存储导致较高的合成错误率,相比之下,使用天然DNA的方法具有较高的可靠性.

然而,不管是用什么样的合成方法,如果合成的DNA序列较长,出现错误的几率大大增加.几篇有关DNA数据存储的报告显示,在合成和测序后大概1%的读数在对应位置上会有错误,有意思的是,磁性介质存储的错误率也约为1%[22-24].故需要一种纠错方式来尽量减少合成错误带来的误差,如Press等[25]写的HEDGES 纠错码,证明了以0.6%(每核苷酸1.2位)的码率对DNA进行大规模无错误恢复的可行性.Chen等[26]通过量化DNA存储系统的分子偏倚来确定误差的主要来源.

3 DNA保存

DNA的保存方式主要分为体内存储和体外存储两种.体内存储就是将合成的DNA链保存在细胞内部,在细胞内存储数据[27].体外存储则将可以合成的DNA链通过脱水、冻干、添加剂或者使用保护材料等其他方法进行保存.2019年Newman等[28]设计了一种通过数字微流脱水来实现对DNA链的存储,并且成功实现对数据的检索,这种方法最大的好处是可以实现自动化DNA数据存储.

受当前技术能力的限制,合成大的DNA片段(通常超过千个核苷酸)是一个非常耗时和昂贵的过程.此外,在细胞内高效转化大DNA相对复杂.因此,到目前为止,体内DNA储存只在一个相对较小的规模上进行了测试,不超过几千个核苷酸,这远远小于体外存储系统.在存储容量方面,大量短寡聚物池在扩展性和合成成本方面具有优势.然而,DNA在细胞内储存具有长期稳定、复制成本低等优点.2020年,Hao等[29]展示了一种活体DNA存储技术,使用携带大量DNA寡核苷酸的细菌细胞的混合培养作为存储材料,以用于大规模数据存储.最终以快速、经济的方式实现了总计445 kB数字文件的活体存储,这是目前活体细胞中规模最大的档案数据存储,为利用体外合成能力和活细胞的生物能量、经济高效地进行生物数据存储铺平了道路,并且对开发实用的冷数据存储至关重要.

微生物细胞能够合成具有许多先进功能的DNA材料用于档案信息存储.与体外无细胞系统相比,活细胞的基因组维持机制保证了DNA分子的高保真复制,从而获得更高的稳定性和更长的存储期.此外,DNA复制率比一般的体外复制方法(如PCR)高出几个数量级.这些先进的特性使活细胞成为一种极具吸引力的材料,可以低成本复制和传播信息.

4 DNA测序

自1977年Sanger测序法发明以来,DNA测序已发展成为一项完备的技术,其成本近年来下降了10万倍[30].根据作用机制,DNA测序可分为三代:第一代测序、高通量测序/NGS和单分子测序.第一代DNA测序技术用的是1977年由Sanger等[31]开创的链终止法,其基于双脱氧终止测序结合荧光标记和毛细管阵列电泳.目前,第一代DNA测序仍被广泛应用.

第一代测序技术的主要特点是测序读长可以达到1 000 bp,准确性高达99.999%,但其测序成本高、通量低等方面的缺点严重影响了大规模的应用.所以第一代测序技术并不是最理想的测序方法.经过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa、Hiseq技术和ABI公司的Solid技术为代表的第二代测序技术诞生了[32-35].第二代测序技术大大降低了测序的成本[36],同时还大幅提高了测序速度,并且保持了较高的准确性,但是NGS的序列读长方面比第一代测序技术要短很多[37].Illumina是当今最广泛的测序平台,大多数的测序都是通过Illumina来测序,该系统采用的都是边合成边测序的方法.Illumina的测序技术每次只添加一个dNTP的特点能够很好地解决均聚物长度的准确测量问题,它的主要测序错误来源于碱基的替换,目前它的测序错误率在1.0%~1.5%之间,测序周期较短[30].当前对DNA链进行随机测序有两种流行的解决方案,即PCR扩增和磁珠提取[38],Organick等[39]设计了一种基于PCR对大规模DNA数据进行随机访问的方法.

第三代测序技术主要是指SMRT和纳米孔单分子测序技术,与前两代相比,其最大的特点就是单分子测序,测序过程无需进行PCR扩增.其中PacBio SMRT技术其实也应用了边合成边测序的思想[40],并以SMRT芯片为测序载体.SMRT技术的测序速度很快,每秒约10个dNTP.与此同时其测序错误率比较高,达到15.0%,但是它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错.牛津纳米孔技术公司所开发的纳米单分子测序技术与以往的测序技术皆不同,它是基于电信号而不是光信号的测序技术[41].纳米孔测序的主要特点是:读长很长,可以达到几十kb甚至上百kb;错误率介于1.0%~4.0%,且是随机错误而不会聚集在读取的两端;数据可实时读取;通量很高;初始DNA在测序过程中不被破坏;样品制备简单又便宜.

除了消除对PCR扩增的依赖外,第三代测序还显著地增加了读长和读取速度.尽管其成本和精度目前还不尽如人意,但随着技术的进一步发展,预计会有所提高,使其更适用于DNA信息存储[42-47].

5 DNA数据存储面临的问题

如果要投入商业化运作,DNA数据存储目前最大的对手是磁性介质存储.从大规模工业化的角度来看,DNA数据存储的合成和测序成本相比于磁性介质存储还是太高了,在2016年磁带存储的成本大约是$16/Tb[48],并且每年成本还以10%的速度下降.而每阵列的DNA合成成本大概需要0.000 1美元,相当于1Tb需要花费8亿美元,这比磁带高了7~8个数量级,如此高昂的成本令人对DNA数据存储大规模应用望而却步.

DNA数据存储还有一个较大的问题就是相对于磁性介质存储来说读取速度慢,目前最新的测序技术——纳米孔测序读取DNA序列的速度只有每秒200 Kb[31,33-35],相对比磁性介质几十兆每秒的读取速度来说延迟太高.由此可见,在短期内DNA数据存储比较适合用在档案存储这种对于读取速度要求不是那么高的应用方面.

6 结束语

本文简单地介绍了编码解码、DNA序列合成、DNA保存以及测序的研究进展,并且指出了DNA存储面临的问题.目前,DNA 存储具有以下优点:成本低,稳定可靠,可并行存取,具有信息相联检索, 数据快速访问性和抗电磁干扰能力强.相信随着生物技术和计算技术的发展以及存储应用领域的扩大,在不久的将来有望开发出实用的DNA 存储系统.如果DNA在数据存储方面进入商业应用,它会对未来的存储领域产生重大影响.

猜你喜欢
存储介质错误率碱基
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
小学生分数计算高错误率成因及对策
档案馆移动存储介质管理方法探讨
一种使用存储介质驱动的方式
正视错误,寻求策略
解析小学高段学生英语单词抄写作业错误原因
降低学生计算错误率的有效策略