鲍一明 薛勇彪
1 中国科学院北京基因组研究所 北京 100101 2 中国科学院大学 北京 100049
地球已经进入到了“人类纪”(Anthropocene),人类的活动给地球的地质、生态系统造成了巨大的影响。全球变暖引起的冻土融化导致已灭绝的病原菌“重见天日”;世界人口持续增长并出现老龄化,据估计,到 2020 年我国 65 岁以上老龄人口将达 1.67 亿,约占全世界的 1/4;全球农业生产力已经连续 4 年低于期望值,如不改观将不能满足地球上不断增长的人口的需求;局部冲突造成难民人数不断增加,从而引发严重的社会及经济危机;犯罪率上升、恐怖袭击、突发事件等严重威胁公共安全;重大慢病严重威胁全民健康,统计数字表明,我国有超过 3.4 亿的重大慢病患者,平均每分钟有 8 人被确诊为癌症,5 人因癌症而离世。
1.2.1 生命与健康大数据飞速增长
大数据,尤其是生命与健康大数据,将为应对上述人类社会问题起到积极的作用。生命与健康大数据是指无法在较快的时间内用传统的应用方法处理的庞大、复杂的生命与健康数据集。生命科学领域的基础研究、健康领域均产出大数据。近年来,我国生命健康方面的科技投入持续增强,国家重点研发计划启动了“精准医学研究”“重大慢性非传染性疾病防控”“生殖健康及重大出生缺陷防控研究”等重点专项,预计今后 5 年我国将产生 300 PB 以上的基因组数据。国际上,多个国家相继开展不同规模甚至百万人级的基因组测序计划。估计到 2025 年,全球每年将产出 1 ZB 的基因组数据[1]。随着健康医疗技术的不断发展,生命健康领域数据的产出越来越多。据估计,平均每个医院每年将产生 665 TB 的医疗数据;按此计算,仅全国 1 300 多家三甲医院每年就会积累约 850 PB 的数据。
1.2.2 健康科学的发展依赖于精准医学大数据
现代医学已经发展到基于生物信息大数据的精准医学阶段,这为恶性肿瘤、心脑血管疾病和常见病的防控和治疗提供了革命性的重大历史机遇。通过全基因组测序指导 2 型糖尿病治疗[2],利用可穿戴设备收集健康大数据[3],采用深度学习等人工智能技术帮助皮肤癌诊断[4],运用多组学大数据整合分析进行癌症精准分型和个性化治疗[5],以及根据 DNA 中包含的信息推断外貌表型、种族、地域、年龄和生活习惯[6]等,这些只是越来越多的大数据成功应用中的少数案例而已。
2.1.1 国外各类基因组测序计划催生了海量的生命与健康大数据
1977 年,Frederick Sanger 发表的双脱氧链终止法标志着测序技术的成熟。1986 年,人类基因组计划启动,并于 2001 年完成了人类基因组草图。2005 年,454 测序仪出现,下一代测序技术开始投入使用。此后,生命与健康领域的大型测序项目层出不穷,例如美国国家人类基因组研究所(NHGRI)于 2003 年 9月启动了 DNA 元件百科全书计划(ENCODE Project),其主要任务是鉴定和分析人类基因组中所有功能元件。作为 ENCODE 项目的补充,2007 年美国国立卫生研究院(NIH)启动了路线图表观基因组项目(Roadmap Epigenomics Project),该项目的目标是创建不同细胞类型的参考表观基因组图谱。几乎与此同时,欧洲的 Wellcome Trust 资助了千人基因组计划(1000-Genome Project)[7]。该计划由欧洲生物信息研究所(EMBL-EBI)于 2008—2015 年运行,主要目标是寻找在研究的人类群体中出现频率至少为 1% 的遗传变异。类似地,在 2008 年初启动的拟南芥 1001 基因组计划的目的是在至少 1001 个品系中发现相对于拟南芥参考基因组的序列变异。由美国 NHGRI 和 NIH 资助的 TCGA 计划[8-10]则对数千个肿瘤细胞的基因组、外显子组和转录组进行测序,试图鉴别出驱动癌症发展的公共的基因突变。NIH 资助的人类微生物组计划(HMP)对生活在人类肠道和皮肤上的微生物的 16S rRNA 扩增子组进行测序,以期找到一组核心的、影响人类健康的微生物组。2012 年,英国 10 万人基因组计划启动[11]。而更大的、酝酿了 3 年的美国政府资助的健康大数据项目 100 万人基因组计划已于 2018 年 5 月20日启动,该项目将建立 100 万人的健康大数据队列,预计耗资 15 亿美元,为期 10 年。
2.1.2 国外形成了完整的生命与健康数据中心布局
发达国家政府很早就开始重视生命与健康大数据的收集、分析和应用。早在 1988 年 11月,美国国家医学图书馆(NLM)就意识到了“发展新的信息技术以促进对控制健康和疾病的分子过程的理解”的重要性,把 Lister Hill 国家生物医学交流中心的一个项目独立出来,成立了美国国家生物技术信息中心(NCBI)。从创立之初,NCBI 的职责之一就是收集全世界的生物技术数据。30 年来,NCBI 不断发展壮大,员工数从 20 人增加到目前的 700 余人,美国国会每年拨付的经费由 1990 年的 507.3 万美元增加到 2014 年顶峰时的 9 583.3 万美元。在这个过程中,NCBI 积累了全世界最大的生命与健康数据库(如 GenBank、PubMed、SRA、dbGaP 等)和软件资源(如 BLAST、e-Utilities 等),目前数据库中存储的总数据量已达 30 PB,每天访问网站的用户有 420 万,下载数据达 60 TB 以上,高峰时段的点击量超过每秒 7 000 次。
欧洲生物信息学研究所(EBI)的前身是 1980 年在德国海德堡建立的欧洲分子生物学实验室(EMBL)核酸序列数据库。1992 年,EMBL 在英国 Hinxton 建立了 EBI。EBI 最早的数据库只有两个:欧洲核酸归档库(ENA)和蛋白序列资源库(UniProt),而现在 EBI 已建成世界上最全面的分子生物学数据库集合,其管理的总数据量达 12 PB,每月用户数为 320 万人。EBI 目前有员工约 600 人,2016 年运行经费为 8 820 万美元,主要来自欧盟各国政府,特别是英国政府。
在 EMBL 和 GenBank 的邀请下,日本政府成立了日本 DNA 数据库(DDBJ)。1987 年 DDBJ 发布了 DDBJ release 1,标志着该机构开始正式运行。目前,DDBJ 的自有数据量约为 3 PB,年用户数为 268 800 人;共有约 50 名员工,年经费为 891 万美元,由日本文部省资助。
2005 年 5月,NCBI、EBI 和 DDBJ 成立了国际核酸序列数据库联盟(INSDC)。INSDC 是国际上公共领域数据共享方面最著名的组织之一,其成员每天进行数据交换,每年召开内部会议,讨论有关建立和维护序列存档的问题,并制定了一系列统一的标准和政策。INSDC 在国际生命与健康大数据收集上有着巨大的影响力,作为惯例,在主流生物医学期刊发表论文前都要将数据上传到 INSDC 成员数据库公开。
瑞士生物信息学研究所(SIB)是一个联合瑞士境内生物信息学活动的非营利性学术基金会,成立于 1998 年。SIB 的数据涵盖生命科学的不同领域,包括基因组、蛋白质组、医药健康、进化、结构生物学和系统生物学等。2017 年,SIB 核心资源被全球约 600 万用户使用,当年 SIB 管理的资金总额达到了 2 676.5 万美元。
在健康大数据领域,Epic 是美国最大的电子病历供应商,约有 1.9 亿的个人用户使用 Epic 公司的系统储存自己的电子医疗信息。Cerner 也是美国最大的电子病历供应商之一,目前,Cerner 在全世界 35 个国家支撑了 27 000 个不同大小的医疗机构。Google 的控股公司 Alphabet 旗下的 DeepMind 公司正在使用人工智能看各种医学影像,试图学会那些医生需要花上几年学习获得的经验,从而使机器学会判断病症。
2.2.1 国内各种类型的生命与健康大数据中心相继建成
具有代表性的包括:① 深圳国家基因库,以自产数据为主,作为节点替 EBI 收集数据。② 上海生物医学大数据中心,以中国科学院上海生命科学研究院自产数据为主,支持数据递交、发布、管理和共享。③ 微生物资源与大数据中心,以微生物资源库为主,提供微生物资源注册、查询,微生物知识查询等,用户遍布国际微生物领域。④ 国家人口与健康科学数据共享服务平台,包含约 400 个医学数据库的访问入口,以医药卫生科学数据为主。⑤ 全国公安机关 DNA 数据库[12],于 2004 年启动,截至 2016 年 5 月31 日,已有各类数据 4 435.8 万条,其中违法犯罪人员信息 4 071.9 万条、现场物证 149.8 万条;“打拐”DNA 数据库,累计录入人员数据 59.4 万条,DNA 数据 51.3 万条;两库数据总量达到 4 487.1 万条[12]。⑥ 北京基因组研究所生命与健康大数据中心[13-15],数据主要来自于用户递交,数据库支持数据递交、管理、发布、共享、检索、下载、在线分析等。该数据库拥有近 100 个机构的 300 余数据递交用户,70 多个国家和地区的数据访问与下载用户,被 40 余家国际期刊认可;2018 年被生物大数据领域权威期刊 Nucleic Acids Research (《核酸研究》)列为与美国 NCBI、欧洲 EBI 齐名的全球核心数据中心[16]。
2.2.2 存在的问题
(1)我国缺乏生命健康大数据管理公共平台,数据流失严重。生命健康领域的期刊杂志通常要求论文的递交者把发表的数据在学界认可的数据库公开。由于我国缺乏国家层面自上而下的统一部署和规划,造成数据资源严重流失。据统计,2016 年中国大陆第一作者发表的 SCI 论文有 29.06 万篇,但其中绝大部分的数据只能被递交到 NCBI、EBI 等国际知名数据库。据估计,NCBI 数据库中 25% 以上的数据来自中国。
(2)我国缺乏生命健康大数据管理共享机制,形成数据孤岛,利用效率低。过去的十几年里,我国通过项目经费扶持而非国家专项基金支持的形式产出了大量的数据库资源。据基于 Database Commons 数据库①http://databasecommons.org/.的最新统计,我国的数据库资源总数位居世界第二;然而,大部分数据库缺少长期维护,严重缺乏深度的人工审编,数据库内容边缘化。这些因素导致大量数据库资源质量不高,利用率低,数据得不到有效共享。缺乏国家级框架的设计与部署导致我国数据库资源小而散,难以培育出处于国际领先地位的大规模优质数据中心。同样基于 Database Commons 数据库信息统计,我国引用数超过 500 次的数据库凤毛麟角,超过 1 000 次的更是为零。
(3)我国缺乏生命大数据与健康大数据的整合。生命大数据(尤其是组学大数据)与健康大数据通常是由不同主管部门下属的单位产出的。由于部门的分割及利益关系,并且缺少国家顶层的协调和制约,这两大类数据往往脱节,难以形成合力,发挥出最大效果。
生命与健康大数据是国家人口健康和生物安全的重要基础资源。目前,我国缺少国家级的框架与技术,对资源再利用的顶层设计、协调、管理,数据共享机制,以及长期稳定的经费支持等,这些均是制约我国生命与健康大数据研究发展的主要因素,从而造成我国数据严重流失、主权丢失、安全无法保障、再利用效率极低。因此,亟待加快建设国家级的生命与健康大数据中心,形成国家生物大数据集中管理与共享服务平台。具体来说,就是需要建成具有千万亿次计算能力和 EB 量级生物大数据储存能力的生物信息基础设施,形成能够有效承接我国生物资源、人口健康、环境与农业等大数据和支撑国家人类遗传资源有效管理的能力;建成以信息科学、生命科学、计算科学、临床医学综合交叉为基础,以云计算、人工智能等先进技术为牵引的一流生物信息平台,形成国际生物信息研究与应用开发中心。
致谢作者感谢马英克博士对本文的编辑和整理工作。