陈建华
信息保存对人类和社会的发展非常重要。目前信息保存最久远的方式是结绳和雕刻,正因为如此,我们能一睹古代的石刻、甲骨文和金文。雕刻受限于保存信息密度低、种类少的缺点,此后演化出了简牍、帛、纸张和书籍。不过,纸张寿命不过千年,且对储备条件和储备空间要求较高。发展到信息时代,人们将资料保存在磁带、磁盘、硬盘、服务器和云端。上世纪末以来,以硅基为基础材料的硬盘成为存储介质的主流,简称为“硅基存储”,其长期保存涉及定期数据备份及持续电力与存储空间等投入,成本巨大。
从社会和自然界发展历程看,最天然和最长久的信息保存方式存在于生命之中。人类、动植物、微生物繁衍亿万年,都遵循由DNA(脱氧核糖核酸,以下“核酸”)控制的生命中心法则:DNA包含的四种碱基(ATCG)的排列组合构成基因,控制着生命体的生存、健康与繁衍。人体40万亿个细胞几乎都含有完整的基因组(约60亿个碱基),这是每个人与生俱来、最为重要的生命信息。人们可以将基于0和1的二进制数字信号,转化成以核酸碱基ATCG为基础的四进制生命信号。通过合成相应的核酸,将信息以碳基形式完整地保存亿万年。若需读取,只需要进行核酸测序即可。这一方式,行业内称为“DNA存储”,相对于硅基硬盘可简称为“碳基存储”。
硅基存储造价低,但保存成本高且年限不长,摩尔定律边际效应减弱。碳基存储造价高,但保存成本低且年限长,开始进入摩尔定律加速期,未来应用前景可期。
在数据的KB、MB、GB、TB、PB、EB 六个阶段,硅基存储未能满足EB阶段海量数据存储的需求。碳基存储是较有前途可供选择的技术路线之一,这是一个新兴科学领域(图1)。根据我在深圳华大生命科学研究院考察调研和工作实践体会,基于我国在DNA合成、检测和时空组学技术方面的领先能力,建议国家尽快组织开展DNA存储产业布局,以确保我国在这一领域始终保持并跑和领跑的地位。
图1 碳基存储的基本技术流程说明①
DNA存储作为新兴概念,是由DNA高通量合成与测序技术催生的信息与生物相融合的新领域(图2),通过DNA分子的碱基序列直接编码数字信息,由高通量合成技术合成序列进行信息写入,并利用高通量测序技术实现信息的读取,以实现存储数据的信息还原,近年受到广泛关注。DNA存储的早期研究,国外在上世纪90年代已有所涉及,但DNA数字存储概念是由美国哈佛大学教授 George 于 2012 年在Science正式提出[1]。自此DNA 数字存储成为新兴领域。2020年11月微软联合15家机构成立DNA数据存储联盟,就算法、合成、测序进行全面合作[2],加速生物技术与信息技术的融合发展。
图2 DNA存储系统的数据“写入与读出”及上下游关键技术及瓶颈②
近年也出现了基于DNA 折纸等自组装技术,通过构建微纳米结构体,利用其控制的金属物质空间排布构建DNA电路,然而其本质上不能在碱基序列上直接存储信息,且依赖于超分辨率显微镜等精密设备进行读取,与可形成百万比特信息量存储的主流技术相比,该技术尚不成熟,缺乏技术普及与广泛应用的基础。另外,也有团队提出利用DNA分子的电性质存储信息,然而其主要利用DNA的加工技术形成DNA电路,领域内一般认为这并非真正意义上的DNA存储。因此在高通量DNA合成和测序技术支撑下的DNA碱基序列存储数字信息技术是该领域的主流。
目前DNA存储通用流程一般为:一是将数字文件中二进制信息提出,转换为DNA 编码;二是将DNA编码序列进行合成寡聚核苷酸引物库 (Oligonucleotide Pool)或 DNA 片 段 (DNA Fragment)形式;三是选择合适载体(体内/体外)将合成的DNA序列进行存储。合成的序列一般由数据区、索引区及引物区组成,需要高度保真时,还可加入纠错编码。读取时利用测序获得序列信息,根据编码方法进行相应解码。
图3 DNA存储通用流程③
2012年至今DNA存储的各项研究及成果均集中在编解码算法开发和介质研究方面,也有个别报道涉及端到端全流程自动化的DNA存储仪器。但全球范围内DNA 存储理论研究尚属空白,也缺乏系统性的体内、体外DNA 存储研究,集成化DNA 存储设备亦效率极低。因此,可以将DNA存储理论研究作为切入点,在理论指导下进行体内外介质研究,充分利用DNA合成与测序技术的新突破,进行DNA全流程的集成,逐渐形成小型化、自动化的DNA存储设备。
深圳华大生命科学研究院自2016 年起在DNA存储领域进行了战略布局与项目投入,已申报基于“活字印刷”“阴阳”双编码DNA存储体系的国际专利。北京化工大学研发的SED3B自侦错编码系统实现了细菌体内的存储,理论上可保存万年。中国科学院深圳先进技术研究院合成基因组学研究中心研发的“将数据进行生物存储及还原的方法”建立了生物体存储的“数据-DNA”编码方法。天津大学于2021年初实现基于人工染色体的细胞内DNA存储。苏州泓迅生物科技股份有限公司申报了两项相关国内专利,对应文本文件的DNA存储编码及通用DNA存储的简单编码。综上所述,我国DNA存储研究在编码系统开发方面与国外同行基本处于并跑水平,其中以华大为代表的“阴阳”双编码系统及适配的数据写入(即高通量合成技术)与数据读出(即DNA检测和时空组学技术等)等方面处于领跑水平。
当今世界,随着大数据的发展,传统存储介质,如磁带、光盘、硬盘等逐渐不能满足现有数据存储的迫切需要。有报道称,2020年世界范围内的数据中心仅能满足50%的存储需求。同时,数据中心也占用了大量的电力和资源。面对海量数据无处可存的窘境,寻找新型存储介质和存储技术迫在眉睫。DNA分子作为一种新型信息存储介质,在存储密度、复制与维护成本、存储寿命等方面都具有颠覆现有信息存储技术的巨大潜能。利用DNA进行信息存储,不仅可以解决目前资源紧迫的问题,还可以减少运营成本,形成绿色的可持续发展存储体系。
DNA存储虽然有明显的优势,但和传统硅基存储相比,它依赖于上下游的关键技术,即高通量DNA合成与测序技术。受限于此,与硅基存储等相比,读写速度慢(相差约6-7 个数量级),成本高(相差约6-7个数量级)。因此,目前的体量较小,已知最大的存储体系仅在数百MB级别。同时,由于DNA分子的生化特性,在某些情况下序列不易合成和测序,给实际应用带来了一定的困难。除此之外,DNA存储体系的随机读取技术仍处于起步阶段,因此在文件归档的查询等存储系统的基本功能方面还需进一步研究。目前市场上尚无成熟的商业DNA存储产业,但已有部分欧美科技公司以DNA存储作为未来产品并获得了投资。去年以来,基于在深圳华大生命科学研究院的调研,该领域研究进展基本遵循“摩尔定律”,已在提高读写速度和降低成本方面取得重大进展,近期的差距有望减少至2-3个数量级。如果国家加以扶持,若干年内有可能再减少1-2个数量级,将进入大规模数据中心应用阶段,数据保存成本将大幅度降低,保存年限将大幅度提升,应用前景十分广阔。
我国在DNA存储领域的研究起步较晚。近年尽管科技部在该领域进行初步布局,但仍然停留在学术层面,与产业方向的结合相对匮乏。对DNA存储相关技术进行技术研究与战略布局,对历史重要资料的备份进行应用示范,有助于我国在该领域实现技术突破,在存储技术的国际竞争中占领制高点,且DNA 存储在信息长期存储、数据归档等方面亦具有国家战略意义。
基于上述分析,建议科技部牵头,组织开展DNA存储产业布局。
数据安全在信息技术和DNA存储技术中都是十分重要的一环。无论从个人隐私安全,还是特殊应用场景的角度来看,数据安全性都是存储系统必要的模块。建议通过编码学、信息学的共同协作,通过开发新的数学模型,建立DNA存储的数据安全体系并不断完善,挖掘DNA存储的生化特性,开发依靠数学方法的DNA存储安全技术,同时牵头制定相关国内国际标准,提升DNA存储领域话语权。
DNA存储依赖于上下游DNA高通量合成与测序技术,实现DNA 存储技术的全面自主可控。通过上下游两端,即拥有自主知识产权的合成与测序技术有机衔接,进行各阶段技术模块的集成,设计以多类型DNA存储介质为中心的新型海量、长程、高密度存储集成系统,实现从起端(合成)到终端(测序)的多类型数据随存随取及对多种典型复杂环境进行灾备模拟,实现相应DNA存储数据灾备存储的应用示范。建议通过DNA存储比特-碱基转码方案,与上下游技术进行串联,实现DNA存储的自主技术闭环。针对DNA存储的数据写入过程(即DNA合成),进行合成过程安全管控能力的建设,进行具备不依赖国外技术的全自主高通量合成能力的战略布局。
充分发挥IT、人工智能等方面的优势,通过促进IT与BT产业的深化合作,以DNA存储为切入点,结合新基建,将“干”的信息系统与“湿”的生化检测系统结合,形成基于我国自主研制的新一代高通量合成仪器、测序仪器的的生化实验室产业示范,布局建设全球首个规模化基地式DNA存储数据中心,形成规模化DNA大数据存储产业链,促进生物技术与信息技术的有机结合,实现DNA存储在社会、经济、文化、生活等方面的场景应用,支撑我国大数据行业的发展。
注释
①②③图片来源:深圳华大生命科学研究院。