2016年9月22日,位于深圳大鹏新区,占地面积超过5万平方米,总建筑面积11.6万平方米的国家基因库正式运营。国家基因库的核心是基因保存,截至目前,国家基因库的基因信息数据总量达60PB,生物样本存储能力达1000万份,其可访问数据量和数据存储能力,以及可访问样本量和样本存储能力均居世界前列。
Tips:1PB到底有多大
以一部电影500MB计算,1PB=1024TB=10242GB=10243MB,相当于200多万部电影。假设一个人一天看一部电影,需要5000多年才能看完。
基因——控制生命活动的“密码”
基因又称遗传因子,不同的基因包含着不同的遗传信息,从而使生物具有不同的性状。例如有的基因决定你是什么血型,有的基因决定你是蓝眼睛还是黑眼睛。植物、动物、真菌以及细菌的细胞中都有很多基因,而人类的头发、牙齿以及血样、脐带血、干细胞也包含着人的基因序列。
基因到底是如何控制生物体性状的呢?基因是具有遗传效应的DNA片段。构成DNA的四种脱氧核苷酸呈线性排列,它们各含有一种碱基,四种碱基各不相同,由此基因上碱基序列便含有特定的遗传信息。遗传信息的表达是这样进行的:DNA上的碱基序列转录形成信使RNA的碱基序列,信使RNA上相邻的三个碱基对应一个密码子,编码形成一个氨基酸,DNA的碱基序列由此便确定了构成蛋白质的氨基酸序列。正是通过这一信息传递过程,基因上抽象的遗传信息被翻译成特定的蛋白质。蛋白质是生命活动的体现者,基因正是通过控制蛋白质的合成,从而控制生物体性状的。
揭开国家基因库的神秘面纱
国家基因库是宝贵的生物资源平台,它犹如人类博物馆、植物园、动物园、微生物馆的一个集合。这里不单搜集了生物的基因数据,还包含植物、昆虫、鸟类等生物样本。农耕时代的核心资源是耕地,工业时代是能源,而生命科学时代则是基因。国家基因库储存了来自全球的生物样本、生物信息数据,不仅能有效保护、开发和利用我国珍贵的遗传资源,提高我国生命科学研究水平,还有利于促进我国生命科学和生物产业的发展,维护国家生物信息安全。
21世纪是生命科学的时代,目前,美国、欧洲、日本都分别建立了大型基因数据库,而中国国家基因库则为我国生物技术产业的创新发展提供了一个强大的平台。
别出心裁的选址和造型
国家基因库位于深圳最后的“桃花源”——大鹏半岛,面朝大海,三面环山。选址于这个相对封闭的环境中并不是决策者一时的心血来潮,而是有缘由的。国家基因库中储存的基因资源非常珍贵,为了确保这些生物信息的安全,因此选址相对封闭。此外,大鹏半岛毗邻深圳大鹏的液化天然气码头,能够便捷地利用液化天然气生产过程中产生的大量冷能来冷却样品。国家基因库的主体建筑依照选址地山体的自然坡度建设,每一层都有山体结构的支撑,稳固性非常好。
除了独特的选址,国家基因库的造型也让人眼前一亮。国家基因库仿照美丽的云南哈尼梯田进行外形设计,一层一层的建筑顺着山势蜿蜒而上,造型十分别致。走进大厅,你会发现,从大厅通往二楼的楼梯呈螺旋状上升的状态,这正是仿照DNA的双螺旋结构设计的,整体造型宛如一个特大号的DNA片段,契合基因库储存基因的功用。
功能全面的三库两平台
不单拥有别出心裁的选址和造型,国家基因库的结构功能也十分完善,它由“三库两平台”组成。“三库”是生物资源样本库、生物信息数据中心和生物活体库,“两平台”为数字化平台和合成与编辑平台。
生物资源样本库
—存储和管理本国特有的遗传资源
生物资源样本库用于保存动植物、微生物和人类组织细胞等样本,存储和管理本国特有的遗传资源,确保我国生物资源,尤其是我国的特有物种、濒危物种、具有重要经济价值和科学研究价值的物种以及生态系统物种种群的安全性,从而有效保护我国生物资源的多样性。
生物信息数据中心
—建成生物大数据时代的搜索引擎
生物信息数据中心汇集着基因、蛋白质、分子、影像等多种生物信息。目前,国家基因库与国家超级计算机中心合作建立了大型数据库,统一检索系统已经囊括了国际千种植物转录组项目、万种动物线粒体基因组项目、千种昆虫转录组进化项目、国际万种鸟类项目、国际癌症基因组联盟等非人方向和人方向项目,整合了7000个以上的物种/品种、27个人种、几万个样本、百万个基因、千万条突变信息,总可检索条目数超过一个亿。
生物活体库
—打造中国的“诺亚方舟”
生物活体库犹如中国的“诺亚方舟”,保护和保存着世界上约30万种植物、百万种动物、近千万种微生物的活体资源。随着人口的快速增长,野生生物的栖息地急剧减少,很多物种濒临灭绝。一个物种的灭绝意味着这个物种所带的特有基因从此消失。如果当年野生稻的雄性不育株稀少甚至灭绝了,雄性不育基因随之消失,杂交水稻之父袁隆平就不可能选育出亩产超1000千克的杂交稻。建立了基因库,我们不仅可以保护濒危生物,还可以长期保存濒危灭绝生物的活体标本和遗传信息数据,使灭绝生物将来有可能重现世间,为子孙后代留下宝贵的遗产。
数字化平台
—读取样本的遗传信息数据
数字化平台是进行基因测序的平台,简称读平台,用于“读取”基因的核苷酸序列,并把遗传信息的数据保存下来,从而获取样本的遗传信息数据。基因测序是进一步研究和改造目的基因的基础,因此具有重要的意义。20世纪末开始实施的人类基因组计划,历时数十年,耗资数十亿美元,对人类DNA进行测序。而2007年,第一个完整的人类基因组序列图谱诞生,只花费了150万美元,耗时仅3个月。随着基因测序技术的发展,也许在不久的将来,人们仅仅需要上千元就能测定自己的基因信息,进而掌握自己的健康状况。
合成与编辑平台又称写平台,可以根据生物的遗传信息合成基因,或对已有的遗传信息进行有目的的编辑和修改,以合成人类需要的基因,使生物具有新的性状,甚至创造新的生命。
目前,国家基因库已与国际生物和环境样本库协会、挪威世界末日种子库、中国科学院海洋研究所等国内外一百多家科研机构、行业组织开展合作。随着国家基因库存储容量的增加,中国的这座承载着人类及其他生物遗传密码的“生命银行”也将为人类健康及科学研究提供更多的生物数据。未来,国家基因库还将成为一个面向大众的科普教育平台,为更多的人提供与科学对话的机会!
Tips:全球四大国家级基因库
国家级基因库是储存本国特有的遗传资源、生物信息和基因数据的样本库。在中国国家基因库建立之前,世界上最权威、最广泛的基因库主要有欧洲生物信息学研究所(EBI)的EMBL数据库、美国国家生物技术信息中心(NCBI)的GenBank数据库和日本国立遗传学研究所(NIG)的DDBJ数据库。随着互联网的发展,三大数据库所储存的遗传信息能够互相交换,以保证数据的全面性。
在中国国家基因库正式运营后,它也将与国际上现有的三大基因库开展数据交换与共享,推动我国的国家基因库向国际基因库转变。中国国家基因库不仅注重数据的存储,同时也尝试在基因密码破译、精准医疗和精准农业等生物科学领域对数据进行研发利用。