张学工 江瑞 汪小我 古槿 陈挺
【作者单位:清华大学自动化系,计算机科学与技术系,生命科学学院,教育部生物信息学重点实验室,清华信息科学与技术国家实验室生物信息学研究部,清华大学数据科学研究院医疗健康大数据研究中心】
从生物大数据到知识大发现:十年进展与未来展望
张学工 江瑞 汪小我 古槿 陈挺
15年前,2001年2月15日《Nature》杂志发表了长达62页的论文《人类基因组的初始测序与分析》,标志着历时十几年、耗资约27亿美元的人类基因组计划初步完成,人类对生命科学的探索进入了一个新的时代。在人类基因组计划开始初期,还有人怀疑花费如此巨大的人力物力获取人类基因组数据是否有价值,但这种怀疑很快被打破,以DNA测序、基因芯片、生物信息学算法等为代表的大规模生物数据获取与处理技术,迅速登上了生命科学的核心舞台,数据成为生命科学研究的基本资源。2005年7月,《Science》杂志在纪念创刊125周年之际刊登了125个最具挑战性的科学问题,其中一个重要的问题就是,怎样才能从生物数据的海洋中获得生物学的大图景(How will big pictures emerge from a sea of biological data?)。文章指出,基于海量生物学数据的系统生物学研究被认为是获得对复杂生命系统全面认识的必由之路,将对生物医学尤其是理解疾病的风险因素产生巨大作用。但是,人们尚不知道,这种数学、工程学与生物学高度交叉的研究以及迅速提升的计算能力,是否能够对生命的工作机理带来深入的、高度结构化的全面认识。又一个十年过去了,在这十年里,生物数据的获取和分析技术都取得了突飞猛进的发展,我们有必要重新审视一下当初提出的这个挑战,回顾人类朝向用数据去理解生命奥秘这一目标所迈出的步伐。
在过去的十年里,生物和医学领域一个引人瞩目的发展,是新一代测序技术的快速发展和由此带来的一系列应用。21世纪初完成的人类基因组计划,全世界几十个实验室合作花费了十几年时间,耗资近30亿美元。2005年开始,以大规模并行测序为特点的第二代测序技术得到了突飞猛进的发展,以单分子实时测序为特点的第三代测序技术也迅速崛起,到目前为止,很多测序机构已经能够用1000美元以下的成本完成一个人的全基因组测序。已经有人开始大胆地预测,测序一个人的基因组的成本将会降到一百美元以下。
新一代测序技术的发展,为现代生命科学研究带来了多方位的革命,数据成为很多研究的核心。一方面,完成基因组测序的物种数目迅速增加;另一方面,对人群的遗传多样性的研究也进一步深入。千人基因组计划(1000 Genomes Project)已经完成,大量全外显子测序计划迅速开展,在各种公共数据库中已经积累了至少2504个人类个体的全基因组数据、涉及1302002个个体的全基因组关联分析(GWAS)数据(http://www. ncbi.nlm.nih.gov/gap/)、涉及60706个个体的全外显子测序数据(http:// exac.broadinstitute.org/)等。美国2015年启动精准医学计划,拟针对癌症采集一百万人规模的基因组数据。人们对人类遗传多样性的研究,已经从集中在对人群中发生频率5%以上的遗传多态性位点的研究,扩展到对发生频率在1%甚至0.1%的遗传多态性位点的研究。
新一代测序技术的应用远远不止于对基因组DNA序列的测序,而是通过与其他多种技术的结合深入到分子和系统生物学的各个方面。通过反转录进行RNA测序,已经迅速成为继基因芯片之后研究转录组的主要技术手段,为研究基因表达、基因的选择性剪接和非编码基因提供了有效手段。通过与染色质免疫沉降技术结合的ChIP-Seq技术,可以高分辨率获取转录因子等DNA结合蛋白在基因组上的结合位点,为解读复杂的基因转录调控系统打开了一个重要缺口;可以获得各种组蛋白修饰的全基因组图谱,揭示组蛋白修饰对基因转录、组织特异性表达等的组合调控作用。通过对RNA结合蛋白的抓取,CLIP-Seq技术可以获得RNA转录后调控因子在RNA上的结合位点,精确揭示RNA调控,通过亚硫酸盐测序(Bisulfite-Seq),可以对全基因组范围内的DNA甲基化进行高分辨率检测。通过染色质构象捕获技术(3C,Hi-C)及其扩展技术,可以获得基因组三维结构和长程相互作用等。这些技术,很多已经发展到能够对单个细胞或少量细胞进行观测,出现了单细胞DNA测序、单细胞RNA测序、单细胞基因组和RNA联合测序等单细胞测序技术,为精细研究干细胞发育和分化、癌症发生发展等重要过程中的细胞异质性提供了有效的研究手段。与此同时,以单分子实时测序为代表特点的第三代测序技术也在不断发展和走向成熟,通过第三代测序技术,不但能够直接读取很长的DNA或RNA片段,还能够通过实时的DNA合成过程中的动态数据推断DNA修饰,为同时读取基因组序列和表观遗传修饰信息开辟了新的道路。
这些新技术的发展,使得各种基因组学、表观基因组学、转录组学和微生物群落宏基因组学数据迅速增加。2008年启动的千人基因组计划到2015年已经完成,在其最新的数据中已包含了来自26个人种2504个个体的全基因组数据,世界各国启动了多个目标在几十万到上百万人的全基因组测序计划。在美国NCBI用于存储公开的测序数据的数据库SRA中,到2016年数据总量已经达到5×1015碱基的数量级。
随着测序通量的提高和测序成本的降低,外显子组测序技术和全基因组测序技术在解析人类疾病致病遗传因素的研究中获得了广泛应用。外显子组测序通过捕获和富集外显子区域DNA再进行高通量测序来检测发生在蛋白质编码区的遗传变异,具有成本相对较低、灵敏度高、可解释性强等优点,不仅是鉴定罕见疾病致病遗传因素最有效的策略,还被成功应用于复杂疾病易感基因的研究和临床诊断中。基于外显子组测序技术,目前已成功检测了导致米勒综合征、儿童自闭症、肌萎缩性侧索硬化(渐冻人)、精神分裂症、心血管疾病、糖尿病、关节炎]等疾病的多个致病遗传变异。
全基因组测序通过对个人DNA序列进行扩增和高通量测序来检测所有可能的遗传变异,具有覆盖面广的优点,不仅可以检测大量的单核苷酸变异,还能检测插入删除位点、结构变异位点和拷贝数变异片段。随着测序成本的快速降低,全基因组测序已经被越来越广泛地应用于遗传疾病的研究中。这种基于全基因组测序的遗传学研究,目前已在混合性软骨瘤病、腓侧肌萎缩等罕见疾病以及婴儿癫痫性、自闭症等常见疾病的致病机理研究上取得显著进展。
除了科研应用,外显子组测序和全基因组测序作为遗传学检测的重要手段,近两年来已开始被应用于基因检测以辅助临床诊断。
随着基因组研究的快速发展,近年来基因编辑技术得到了多项重要突破,人们对基因组信息的研究从“只读模式”开始迈向“读写模式”。以TALE和CRISPR/Cas为代表的基因组编辑方法极大地改变了人们研究功能基因组尤其是哺乳动物基因功能的方式。以CRISPR系统为例,它最早被发现是一种细菌中用于抵抗外来噬菌体病毒的一种获得性免疫机制。通过改造后的CRISPR/Cas系统在人工设计合成的特异性sgRNA引导下,通过RNA与DNA的碱基配对,可以定点切割基因组DNA,从而可以定点导致目标基因功能失活,或在特定位置插入外源基因序列。应用这一技术,通过对胚胎细胞基因组编辑实现对动物甚至人的基因组进行人工改写已经成为可能,这项技术因此受到科学家和全社会的广泛关注。但实际上,基因编辑技术的应用非常广泛,比如,人们将这种方法与DNA芯片合成及测序技术相结合,开发出了功能强大的高通量基因功能筛选方法。基本思路为针对每一个基因人工设计若干个能敲除该基因的sgRNA序列。利用基因芯片的寡核苷酸序列并行合成技术,在芯片上一次性合成10万余种的不同DNA序列,每种DNA序列编码一种特定的sgRNA。通过克隆建立携带这些编码sgRNA序列的质粒文库,用慢病毒包装后感染目的细胞。通过调整病毒感染的效能,可以使得每个被感染细胞平均只携带一种sgRNA编码序列,即该细胞内只有这种sgRNA对应的基因被敲除。这样通过细胞群体中含有的sgRNA编码序列的高通量测序,就可以知道带有这种特定基因敲除的细胞在群体中所占的比例。比较使用不同药物作用下细胞群体中携带各种sgRNA编码序列比例的变化,经统计学模型计算,就可以知道携带哪些类型基因敲除的细胞其增殖速率相对较快(较慢),从而推测这些基因在该种药物作用下促进(抑制)细胞增殖。这种方法可以用来高通量筛选在特定因素或药物作用下的靶点和功能基因,大大加快了人们对药物靶点基因的筛选能力。
以DNA序列合成、组装以及基因组编辑等为代表的合成生物学新技术为我们定量研究基因网络的调控机理提供了新的途径和思路。例如,我们可以利用荧光蛋白等报告基因构建人工合成的基因线路并将其植入细胞内,如同传感器一样来感知分子浓度的变化,实现对细胞状态的实时定量观测。由于人工合成基因线路具有可控、可调的特点,通过改变人工基因线路的作用方式和强度,可以帮助我们理解不同的参数和网络结构对基因调控的影响,从而建立定量的数学模型来描述分子调控的本质规律。例如,我们将系统生物学建模分析与合成生物学实验相结合,建立了microRNA调控的数学模型,构建对应的合成基因线路并植入细胞中模拟microRNA靶基因的竞争性调控效应,证实了靶RNA和microRNA浓度对竞争性调控效应的阈值现象,发现了microRNA的靶位点结合能力对竞争性调控效应强度影响的函数关系,阐述了microRNA通路和RNAi通路竞争效应的不对称性,并从理论上提出了RNAi技术的改进方向,为理解复杂的microRNA调控系统和未来用RNAi技术有效设计疾病基因靶向治疗等提供了理论基础。又如,通过这样“以建而学”的方式,研究人员提出了艾滋病病毒(HIV)潜伏和激活的随机模型,为治疗HIV的药物研发提供了新的线索;提出了解析调控网络中直接与间接相互作用的数学理论工具;以及实现了对微小RNA噪声调控效应的观测和建模,等等。
癌症是人类健康的重大威胁,最新统计数据表明我国每年新发癌症病例数将高达约430万,死亡人数约280万。近年来,基于组学技术的生物医学大数据极大地促进了癌症的分子分型、分子标志物和药物靶点等方面的研究进展,也为揭示癌症的分子机制提供了大量新的线索。临床医学实践中对癌症的诊疗主要是在器官、组织层面,随着肿瘤生物学的研究进展,人们认识到要更好地实现癌症诊疗,必须深入到细胞、生物分子等多个层次去理解其生物学的机制。以癌症基因组图谱(the cancer genome altas,TCGA)为代表的大规模癌症基因组学研究,希望用组学技术对多种癌症发生的分子变异进行系统的刻画,目前TCGA已完成约30种癌症约15000例临床样本的多组学检测,并对乳腺癌、大肠癌、肺癌等常见癌症开展了系统的描述,绘制了癌症分子变异图谱(http://cancergenome.nih.gov/)。癌症基因组学研究还有更大的目标,就是希望从分子变异角度对癌症进行重新分类定义。
癌症分子生物学与基因组学等方向的研究表明, 不同组织来源的癌症有很多共同的生物学基础, 如持续增殖、基因组不稳定、免疫逃逸等[40]。人们提出了泛癌症(pancancer)的概念:寻找泛癌症的分子变异可更好地找到驱动肿瘤发生发展的共同的生物学机制,也能对不同类型的癌症提供更系统的理解;从信息的角度考虑,将不同癌症类型的分子数据放在一起可显著提高样本数量,有利于发现低频的具有驱动作用的分子变异。
基因组学对癌症临床实践也有重要的贡献,近年来癌症靶向药物的快速研发,使得基于分子变异的癌症精准分型成为当前精准医学的核心。比如,针对BRAF-V600E突变的靶向药对结肠癌、黑色素瘤等多种癌症类型的突变携带患者均具有很好的疗效;近年来的明星药物,作用于免疫检验点(immune check point)PD1/PD-L1通路的抑制剂,对具有丰富新生抗原(neoantigen)的多种癌症有明显抑制作用。一项基于大规模组学数据的计算分析表明,利用分子分型,可将已通过临床实验的靶向药物潜在受益人群从5.9%扩展到40.2%。除了靶向药物,基因组学数据对常用化疗药也有一定的预测作用。
基因组学和系统生物学基础研究的迅速发展、基因组检测技术的快速普及,使得生物大数据在临床医学上的大规模应用成为一个重要的发展趋势。人类基因组计划的一个主要初衷,就是为复杂疾病的研究建立基础。在“向癌症宣战计划”和“人类基因组计划”这两个美国政府主导生物医学发展的科学计划之后,2015年1月20日,美国总统奥巴马宣布启动“精准医学计划”,致力于通过对健康记录和基因组信息进行整合分析,实现对癌症等疾病的个性化治疗。2016年3月16日,中国政府正式启动国家重点研发计划精准医学研究重点专项,旨在通过整合临床表型、生命组学、影像组学等生物医学大数据,实现对肿瘤、罕见病、慢性病的个性化防诊治,从整体上提高我国的医学水平。随着大规模组学数据的积累,可以期待我们对癌症的认识将会更加系统、深入,癌症的精准分型与用药将在临床上得到更加广泛的应用。
人体的健康不但取决于人自身的细胞和基因,在人体体内和体表多个部位存在着大量微生物, 它们是人体不可或缺的重要伙伴甚至是组成部分,与人体健康密切相关。据估计,这些微生物细胞总量可能比人自身细胞总数多出一个数量级,而它们所包含的遗传物质总量则比人类基因组高2~3个数量级。从这个意义上,人体并不是单个物种的独立个体,而是由人和众多共生微生物组成的一个复杂生态系统。
人体各部位上的微生物是一个复杂的群落,通常被称作“微生物组”(microbiome或microbiota)。一个微生物群落中往往包含成百上千种微生物,其中多数很难分离和培养,最有效的研究手段是对其中全部遗传物质进行混合的DNA测序,称作元基因组或宏基因组(metagenome)测序。有人把这个系统中来自微生物的遗传信息总和称作我们的“第二基因组”。近十年来,随着第二代高通量测序技术快速发展,宏基因组测序成为微生物组研究的主流方法,大量数据不断产生,人们在此基础上发现了很多关于微生物组构成与宿主健康状态之间的关联,比如,肥胖和营养性疾病与微生物组的关系,口腔疾病、消化道疾病、糖尿病、癌症甚至是神经发育类疾病与微生物组之间的关系,等等。同时,人们已开始对微生物组与人类代谢系统、免疫系统之间的相互作用机理展开研究,并尝试把改造微生物组构成作为干预某些疾病的手段。
为了理解微生物组的基本规律,多个国家和地区设立了多个科学计划,系统获取来自人体多个部位的微生物组数据,试图建立人类微生物组基本图谱。在欧洲的EBI宏基因组数据库中,已经包含了来自全球632个微生物组项目的10418个宏基因组和1025个宏转录组的数据样本。这些进展充分说明了微生物组对人类健康有重要作用,同时也揭示出宏基因组数据的高度复杂性和现有数据分析方法的局限和不足。2015年底,《Science》和《Nature》杂志上分别发表评述,呼吁对微生物组及其信息学进行更系统和深入的研究。2016年5月,美国启动了国家微生物组计划,对人体、植物、土壤、海洋和大气中的微生物组开展大规模深入研究(https://www.whitehouse. gov/the-press-office/2016/05/12/factsheet-announcing-national-microbio me-initiative)。
进入21世纪以来,生物医学大数据的种类、性质和内容都在不断拓展,如何通过这些大数据获得出对生命理解的大图景,这不仅是《Science》杂志的提问,更是整个科技界乃至全社会的提问。回顾这短暂的十几年,我们欣慰地看到,不论是生物信息学与系统生物学对生命基本规律的认识,还是合成生物学对生命的改造,还是精准医学对人类疾病的控制和干预能力上,都得到了快速的发展。但是,生命是高度复杂的系统,人们对它的认识仍处在从局部走向全面的过程中,对于生命个体发育、疾病、生命的演化、生命与非生命构成的生态系统等等,人们的认识仍然刚刚开始。获取大量和多尺度的生物学和医学大数据并加以智能处理与挖掘,是加快这一认识过程的重要路径。
以高通量测序技术为代表的组学大数据已经为生物学研究带来巨大变革。随着这些技术的进步,还将不断催生新的衍生技术,从不同角度和不同层次解析基因的表达调控过程。例如,以单分子测序和单细胞检测为代表的新技术,将使我们能在前所未有的精细尺度上解析生命过程。而随着这些组学实验成本的快速下降,未来除了获取更多的样本外,另一个重点是对研究对象在不同的时间尺度上获取更多的观测数据,例如跟踪疾病的整个发生发展过程。这将为探索生物复杂现象的全貌和疾病的发生机理提供重要的基础。
但是,我们也必须清醒地认识到,这些数据中包含了巨大的宝藏,但要有效地挖掘出这些宝藏,还需要大量艰苦的生物信息学与系统生物学理论、方法与技术研究,人们可以用越来越低的成本获得测序数据,而对数据的分析任务却变得越来越繁重和充满挑战。数据本身并不能产生知识,只有有效地对数据进行处理、分析和挖掘,才能发挥出数据的价值。值得高兴的是,近十几年来,在组学数据大发展的同时,信息科学领域中以机器学习为代表的人工智能技术和大数据计算和存储技术都有了突飞猛进的发展,将统计学、机器学习与大数据计算与生物组学大数据有效地结合起来,为我们探索生命的奥秘开拓了广阔的天地。
应当看到,以基因组学数据为代表的生物组学大数据,只是与生命相关的大数据中的一部分,还有很多其他类型的生物大数据,例如近年来代谢组学和蛋白质组学都取得了重要进展。从人类医疗健康角度看,更多的和更普遍的数据是各种表型和生理、病理数据. 随着信息技术在日常医疗健康领域中的应用日益普及,以电子病历、医学影像资料和新近发展的各种可穿戴设备所记录的日常生理数据为核心的医疗大数据,包含了更大量的信息。但是,这些信息的采集是日常医疗实践和健康体检过程中积累起来的,具有结构化程度弱、噪声大、不同医院甚至不同科室之间技术衔接不佳等问题,而数据来源和分布上比通过实验设计采集的数据具有更大的自发性和随意性,对数据处理和分析的方法都提出了新的要求。实现医院内部信息管理系统的互联互通和数据整合,进而从政府层面对地区乃至全国的海量医院管理数据进行深度挖掘,已经在医疗政策、医保管理等领域展现出迫切需求和极大的潜在价值。通过大数据技术手段整合各种生物组学大数据,以及临床表型、影像组学、医院管理、公共卫生等医学大数据,再使用统计分析、自然语言处理、影像分析、深度学习与模式识别、智能搜索推荐等人工智能技术对这些数据进行深度挖掘,将使生物和医疗大数据早日迈向造福于人民健康的知识大发现,这必将成为人类医疗健康事业发展的必由之路。♦
【作者单位:清华大学自动化系,计算机科学与技术系,生命科学学院,教育部生物信息学重点实验室,清华信息科学与技术国家实验室生物信息学研究部,清华大学数据科学研究院医疗健康大数据研究中心】
(摘自《科学通报》2016年第36期)
责任编辑:吴晓丽