DNA存储技术的研究概述

2018-06-21 07:49周谷成范艳艳肖义军
生物学通报 2018年8期
关键词:存储介质存储技术碱基

周谷成 范艳艳 肖义军

(福建师范大学生命科学学院 福建福州 350108)

生命的信息存在于DNA 分子之中,构成DNA的4 种碱基的不同排列方式,存储了地球上所有生命的信息,因此DNA 分子是一种容量巨大的信息存储工具。 随着现代社会数字化信息的不断积累,数据的存储需求越来越高,有研究表明到2020年,包含在全球计算机及历史档案、电影、照片、企业系统和移动设备中的数据量将达到44 万亿G。 现在使用的磁介质(磁带、磁盘、硬盘等)和光介质(CD、DVD 等)在存储量上将很难达到要求。为了满足人们未来对数据存储的需求,寻找具有更好存储性能的新材料、 新技术成为一个重要的问题。 DNA 存储技术有望成为可用于某些特定领域的新型信息存储技术。

1 DNA 存储技术的原理

DNA 存储技术是指用人工合成的脱氧核苷酸链对文档、 图片和音频等信息进行存储并能完整读取的技术。DNA 是由4 种碱基——腺嘌呤(A)和胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)按照碱基互补配对的特定顺序排列构成的双链分子,作为遗传信息,指导生物体生长发育。DNA 存储技术就是在这4 个碱基“字母”的基础上,开发区别于生物体的“语言”代码。 储存数据时先将数据编码成二进制的数字串,然后用脱氧核苷酸中的碱基A、T、C、G 编码二进制相对应的数字,这样数据就能以脱氧核苷酸链的形式完成目标DNA 分子的构建(图1),再通过人工合成相应的DNA 分子,数据即被储存在DNA 分子中。 实际应用时并非将所有数据储存在一个长分子的DNA 中,而是分成多个携带一些索引细节的片段,这样既能明确各数据在整体序列中的位置,又可以降低因片段遭损毁导致全部数据丢失的可能性。 读取数据时只需对目标DNA 进行测序,还原为二进制格式的数字串,再完成解码工作即可[1]。 对于DNA 储存来说,数据写入即是人工合成DNA,数据读取即是DNA测序,数据的拷贝即是DNA 的复制。

DNA 作为新型的信息存储载体,有其得天独厚的优点。 第1,DNA 存储期限长。 生物体内的DNA能保证生命准确无误地繁衍遗传,上万年的样本仍可被恢复为完整的DNA 片段,表明DNA 保存期限长且无需过多地被维护。 存储在阴凉干燥处的DNA,可被保存数10 万年[3],这是其他存储介质无法媲美的。 磁介质是建立在电磁的基础上,工作环境易受到限制和干扰,容易出现消磁现象。光介质虽受环境影响小一些,但耐久性不理想,保存时间有限,一般只有几十年。 第2,DNA 存储密度大。 DNA 分子是一种令人难以置信的密集存储介质,1 g DNA 即可储存2.15 亿G 的信息。而硬盘的存储量虽可达上百G,但在体积不变的情况下,硬盘数据存储密度提升的空间有限,容量难以实现大幅突破。 CD、DVD 等光介质存储对表面积的要求很大,只能单层平铺保存信息,单位存储量更小。 第3,就读取方式而言,DNA 存储不涉及兼容问题。第4,从环保的角度,其他存储介质会用到生物不可降解的物质,对环境造成不良的影响。 基于DNA 存储技术的上述优点,研究人员认为,一些不常用但却需要长期保存的信息,例如政府文件、历史档案等,尤其适合采用DNA 存储方式。

2 DNA 存储技术的研究历程与进展

20世纪70年代科学家即意识到DNA 碱基不同的排列方式可以代表不同的信息,从而萌生了DNA 可作为存储介质的想法。 1988年首次证明可以将信息存储在DNA 分子中。 1995年,研究人员提出了构建DNA 存储器的模型,奠定了DNA 存储技术研究的基础。 1999年,研究人员利用DNA 存储技术编码和恢复了一条长23 个字母的信息。 进入21世纪以后,特别是近年来,DNA 存储技术的研究取得了很大的突破。2012年,哈佛大学维斯生物工程研究所的研究人员尝试将一本约有5.34万个单词的书籍和11 张图片及一段JavaScript 程序编码到不足一沙克(亿万分之一克)的DNA 微芯片中,完成了当时人类使用DNA 储存数据量最大的一次实验[4]。2013年,Science 杂志报导有研究者将马丁·路德的“我有一个梦想”的演讲及一些其他的名人作品编入DNA 分子中[5]。 同年英国分子生物学家Goldman 等[6]在Nature 杂志中报道他们通过设计更为复杂的加密系统对部分重叠的字符串数据进行编码,使用没有同聚体(连续2 个以上相同碱基)的DNA 序列编码文件,减少了同聚体序列导致的在高通量测序中可能产生的错误。2016年,微软公司和华盛顿大学研究人员合作,将《战争与和平》等100 部经典文学作品及数字图书馆排名前100 位的电子书等约200MB 的数据成功地一次性“写”入DNA 分子中,且在从DNA池中读取数据的测序过程中,没有出现任何错误。Erlich 等[3]发明了一种所谓的“水滴”储存法,利用他们设计的DNA 喷泉算法(有容错纠错机制),将二进制字符串(喷泉)随机包装成“水滴”(即数据包),每个“水滴”中的0 和1 映射到DNA 的4 种碱基(A、G、C 和T)上,通过这种方法能使每个核苷酸编码1.6Bt 的数据,合成的文件中也无任何错误(图3)。 在最近的一项研究中,研究者通过CRISPR-Cas9 系统(一种基因编辑技术)将一个短视频成功储存到了大肠杆菌的基因组中,证实了可将信息存储到活细菌的基因组中[7]。 研究人员首先用一张张按出现时间顺序排列的图片表示该视频,将图像文件分解为像素,通过编码技术用DNA 片段表达像素信息;将代表该视频信息的全部DNA 片段及CRISPR-Cas9 系统所需的酶系统全部转入大肠杆菌内;最后利用CRISPR-Cas9 系统将DNA 片段整合进大肠杆菌的基因组中,随着大肠杆菌的繁殖,完成信息的存储与复制,信息的准确度高达90%。 这意味着利用活体细胞可以实现数据的存储和复制。

3 DNA 存储技术尚存在的问题

现阶段DNA 存储还存在很多需要解决的技术问题。 首先,目前人工合成DNA 的成本过高且费时。磁介质0、1 之间的转换只需通过加磁消磁即可实现,光介质可以通过刻录机将数据写在光盘上,这些比较容易实现。 而将数据“写”入DNA 则困难得多,虽然已经有自动合成仪可将碱基连接起来形成DNA 序列,但一般只能合成短链DNA,难以做到“即时写”,且DNA 存储系统是通过增加冗余度提高容错能力的,这更增加了成本和时间。 其次,DNA 的测序还远不够完美,目前的测序技术只能批量读取数据,即使只从存储系统中访问一个字节的信息,系统也必须对整个DNA 池进行测序和解码,导致检索文件耗时过长。 虽然可以通过聚合酶链式反应(PCR)精确复制需要提取字符串的副本以加快读取速度,但相对于其他的存储技术依然没有优势[8],造成无法“即时写”也无法“即时读”。 同时DNA 存储技术在编码之后不能改变或重写,在读取或恢复数据时会不可避免地存在一些错误,这相对于其他存储介质也是一个较大的缺点,因此在DNA 存储中,微小的错误可能会产生很大的影响,造成存储信息不能被读取或难以理解。所以就目前来说,DNA 存储技术用途有限,要取代当前的存储技术还有很多问题需要解决。

目前信息存储技术的主流方向聚焦在存储密度、 保存时间和低耗能等方面,DNA 存储汇集了这些优点。 目前来看,成本问题是DNA 存储技术发展与普及的最大阻碍,如果能很好地解决成本问题,DNA 存储技术取代现有存储技术的可能性极大。 现今其成本问题也已得到一定程度的改善(如今的DNA 测序费用是2002年的5 万分之一)。 DNA 存储技术的未来价值已经引起了许多电影公司、博物馆、档案馆及对诸如谷歌、亚马逊等这类有长期信息储存需求机构的兴趣,微软公司于2016年宣布将购买1 000 万条的DNA,用于研究数据存储。 DNA 存储将是未来最有前景的信息存储技术之一。

猜你喜欢
存储介质存储技术碱基
应用思维进阶构建模型 例谈培养学生创造性思维
中国科学家创建出新型糖基化酶碱基编辑器
生命“字母表”迎来4名新成员
生命“字母表”迎来4名新成员
关于计算机网络存储技术分析
档案馆移动存储介质管理方法探讨
一种使用存储介质驱动的方式
网络存储技术在档案管理中的应用探微
数据存储技术的应用
基于FPGA的并行测试高速存储技术