开发活细胞内DNA大数据存储与定点修改系统准确率百分之九十以上

2022-03-16 12:51综合整理
海外星云 2022年20期
关键词:刘凯编码利用

DNA是一种非常稳定的分子,半衰期超过500年,低温条件下可以保存成千上万年。而目前的磁或光数据存储系统保存数据一般不能超过一个世纪。除了稳定性,DNA存储数据的另一大优点是存储密度。DNA信息存储密度的数量级是已知任何存储技术的若干倍。例如,1千克DNA可以存储2x 1024bits;相同数量的闪存需要多于109千克的硅。几十千克的DNA就可以满足全世界几个世纪的需求。

不过,目前利用DNA进行信息存储还不够灵活,被认为更适用于存储重要且无需经常访问、调用的“冷数据”。这是因为,与硅质存储芯片的毫秒级读写速度相比,DNA存储从编码写入到读取,整个过程都比较慢;另一方面,对存储在细胞内DNA中的数字数据进行目标特异性重写仍然是一个巨大的挑战。

研究表明,在大肠杆菌活细胞内,文字、密码表、图片等信息可以被长期稳定地存储、修改和复制,研究人员开发了一种双质粒编辑系统用于准确处理微生物载体中的数字信息。

“细胞内存在各种酶,这决定了DNA在活细胞内有它独特的存在形态,与其在体外进行信息存储的方式不一样。我们设想,利用目前热门的基因编辑技术,实现在活细胞内对DNA进行编码和写入,同时通过Cas酶对存储在细胞内DNA中的数字数据灵活地进行修改。最终在活细胞内将DNA的写入、保存、修改、读取快速地结合起来。”本文的通讯作者之一、清华大学化学系的刘凯教授说。

刘凯博士毕业于荷兰格罗宁根大学,之后在哈佛大学开展博士后研究工作。回国后,团队于2018年承担科技部的重点研发计划之一,利用DNA作为基元进行编码信息存储。这也是目前刘凯课题组主要开展的研究工作之一。

实现活细胞内DNA存储信息的灵活改写

DNA数据存储技术一般有两种模式,即“体外硬盘模式”和“体内CD模式”。体内模式的主要优点是其通过细胞复制低成本、可靠地复制染色体DNA。由于这个特性,它可以用于快速和低成本的数据复制传播。然而,由于某些信息的编码DNA序列包含大量重复和均聚物的出现,因此这些信息只能“写入”和“读取”,而不能准确地“重写”。

研究团队建立的活细胞DNA信息存储与改写系统

“在传统的存储介质如电脑、硬盘中,信息可以直接进行修改,例如,在Word文件上,我们可以轻易地修改任何一个字,且准确率能够达到100%。但是想要在细胞内实现这种定点、精确的修改,涉及的技术非常重要。利用双质粒编辑系统对DNA存储进行优化和设计,帮助其从冷存储转向热存储,是我们整个研究团队的初衷。”刘凯表示。

团队通过利用CRISPR/Cas基因编辑技术,在活细胞中构建了集存储与改写功能于一体的双质粒信息存储体系,与已有的DNA信息存储方式相比,在降低写入信息冗余度、提高活细胞信息存储能力、简化信息读取流程、提升信息保存安全性上都有显著提升。该研究充分探索了DNA序列的编码能力,不需要任何寻址索引和备份序列,并兼容多种编码算法,最高的编码效率可达每个核苷酸4.0位。

例如:在进行小学数学的有关几何图形相关知识的学习过程中,老师就要对学生积极进行提问,促进学生的合作学习。比如,在为学生进行了几何图形的初步讲解之后,老师就要对学生进行提问:“学生们进行几何图形的学习对我们会有什么样的帮助?在我们的生活中又有什么样的用处呢?”然后让学生以小组的形式进行讨论,注意每一组中都要保证组员之间的成绩以及性格都有所不同。然后老师在组织学生进行几何图形的制作,让他们进一步掌握相关内容。这样的学习方式,促进学生的个性化发展,也有利于学生的共同进步,有利于小学数学高效课堂的构建。

值得注意的是,该研究设计的信息存储与定点修改技术,不仅可以利用活细胞对外源数字信息实现高密度存储和稳定拷贝,还能利用活细胞内的蛋白质工具实现灵活的信息处理。

利用预设并优化的CRISPR-Cas12a体系导向crRNA结合序列,可以实现与现有基因编辑相媲美的编辑成功率,并完成在分子水平精准靶向多种类型复杂信息的修改处理目标。另外,创新性引入荧光蛋白作为“报告器”进一步使信息改写可视化,极大地提高了改写信息的读取鲁棒性,使分子水平信息存储和修改的状态直观可见。这一研究解决了DNA作为存储介质无法对大数据信息进行精准改写的难点,克服了DNA基质只能作为冷数据存储的弊端,提升了DNA作为信息热存储介质的能力。

“目前,通过这一系统我们能够实现90%以上的重写准确率,虽然没有达到100%,但是已经很高了。”

在活细胞内对编码的密码表、图片等DNA信息的存储与改写

将由大肠杆菌转向真核细胞

“我们相信这种策略也可以应用于具有更大基因组的活宿主,例如酵母,这将进一步为大数据存储的实际应用铺平道路。”刘凯说。

他进一步解释道,这项研究选择大肠杆菌细胞进行操作,是因为与真核细胞和人源细胞相比较,大肠杆菌的基因组非常小,相当于做了一个小的存储体系的数据修改和概念验证。不过,利用大肠杆菌能够存储的数据量有限,针对和大数据、超大数据匹配性更强的酵母系列或者人源细胞进行研究,可能更有意义。

“而如何实现在更高级的活细胞的基础上进行精确的数据删除和修改,是需要进一步研究的。”

刘凯还表示,这一研究继续展开来非常有前景且能够真正朝着产业化的方向推动,对于整个领域的发展非常重要。

他也透露,DNA信息存储这一部分的研究接下来可能在长三角布局。

谈及不久前我国发布的国内首部DNA 存储行研报告《DNA 存储蓝皮书》,刘凯表示,BT和IT融合是近10年兴起的新领域,这方面中国与西方国家的差距本来就很小,尤其是针对信息存储这一块。此次整个研究路线图的发布,对于促进中国国内BT和IT融合的快速发展非常重要。

他继续说道,我国非常重视这一新兴交叉领域的发展。国家科技部早在2021年就正式成立了BTIT专项,即生物技术和信息技术交叉融合专项。另外国家自然科学基金委交叉学部也支持了上海交大樊春海院士承担的核酸信息材料的基础科学中心项目。

刘凯说:“在我看来,未来的存储形态会发生一个质的变化,而且,我认为这也并不是一个新的学科,DNA本就是生命世界的信息存储材料,DNA存储不过是将外源性的大数据存储的思路应用于内源性的作为遗传物质的信息载体的基础之上。这是一脉相承的,其发展非常有价值。”

除了DNA存储的研究,刘凯的另一个主要研究方向是稀土生物合成系统的创建和应用,利用开发的底盘细胞进行上游的稀土尾矿绿色处理到下游的稀土高性能生物材料的设计和制备,满足不同的应用场景的应用需求,这些高性能材料主要包括高性能稀土生物纤维、粘附的蛋白胶水、稀土诊疗材料等。

刘凯表示,团队已经开发出了一种针对大动脉或者说紧急救治的材料,可以实现在一秒内的快速止血,该项工作尚未发表。

截至目前,团队已经有专利申请50项,授权24项,多项正在落地转化。

接下来,团队仍将重点发展合成生物学技术,一方面是围绕DNA存储领域,另一方面将继续为制备快速救治和装备的高性能材料服务。

猜你喜欢
刘凯编码利用
利用min{a,b}的积分表示解决一类绝对值不等式
Speedup of self-propelled helical swimmers in a long cylindrical pipe
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
利用一半进行移多补少
子带编码在图像压缩编码中的应用
Genome and healthcare
利用数的分解来思考
Roommate is necessary when far away from home
一个卖“前程”的受贿贪官