朱联辉,李京京,曹诚
军事医学研究院 生物工程研究所,北京 100071
随着基因组测序技术的迅猛发展,我们目前所面临的最紧迫问题已经不再是测序技术本身,而是面对基于高通量测序技术产出的海量数据,如何进行储存、管理和分析挖掘。按照现在的测序能力,一个星期产生的数据量即相当于几年前一个大型基因组测序中心一年的产出量。如何面对这种兆兆级字节(terabyte)的数据量,已经成为各个从事基因组研究工作的实验室必须解决的问题。面对海量的基因组大数据,如何应用其来创新探索未来的生命科学和医学科学,乃至其他科学和产业领域,以及如何在庞大的数据资源中快速获取信息以提升人类生物安全能力,是亟待探讨的现实问题[1]。
近几年来,随着科研工作者和相关产业人士的共同努力,使得基因组大数据的应用对生命科学、医学和相关产业的推动效应已初见端倪,并成功地助力病原体进化溯源分析、微生物领域科学突破、精准医学新检测方法和治疗药物开发等方面,为提高生物安全防护能力研究提供了重要的基础。
2013年3月底,一种新型H7N9流感在中国暴发,随后疫情迅速扩散到华东与华北地区的多个省市。因为其较高的感染性,引发了社会各界的高度关注。Gao等[2]依据最早获得的流感病毒序列构建系统发育树,发现其HA节段与我国2011年在浙江分离的H7N3鸭流感病毒HA节段在进化上具有共同起源;NA节段与2011年在韩国野鸟中发现的H7N9流感病毒NA片段具有共同起源;其他6个片段与国内禽类中广泛流行的H9N2流感病毒具有共同起源,因而提出该流感病毒为“三重重组”病毒。
中国科学院和国家流感中心等单位一起勾勒出了病毒形成与演化的路径,指出它经历了复杂的重配和突变过程。研究表明[3],2013年暴发的H7N9禽流感病毒是一株多重重组病毒,经历了多次重组事件,形成了由禽到人的跨宿主传播,即由野鸟到家鸭,由家鸭到家鸡,最后由家鸡感染人的过程。通过对H7N9禽流感病毒的溯源工作,发现加强对家禽和野鸟中不同亚型流感病毒的监控,可有效判断病毒的来源,切断病毒的重配与传播途径。通过家禽可能是其传播中间宿主的结论,及时关闭了一些地区的家禽交易市场,从而实现了对疫情的有效控制。同时通过监控数据的分析,能够提前预知禽流感暴发的潜在风险,从而做出有效预警。
2014年初在西非暴发的埃博拉疫情造成了数以万计的感染和死亡病例。最初的报道指出此次疫情源自几内亚南部一个叫Gueckedou的森林地区[4],随后病毒扩散到几内亚首都科纳克里(Conakry)以及邻近国家,包括塞拉利昂、利比里亚、尼日利亚、马里等。关于此次2014西非埃博拉疫情早期的分子进化研究[5]主要由美国的研究团队完成,他们在塞拉利昂地区的78个病人身上分离了99株病毒并完成了其完整基因组的测序,分析结果提示病毒大约在2014年5月由几内亚传播到塞拉利昂,同时指出此次流行的埃博拉病毒的进化速率是以往疫情病毒进化速率的近2倍,需要加强对病毒进化的持续监测。
国内原军事医学科学院等多家单位也开展了针对塞拉利昂175个阳性样本的新测序结果的研究分析,分析结果表明此次埃博拉病毒的突变速率约为1.23×10-3,较以往的突变速率略有增加,但远没有达到之前报道的以往进化速率的2倍之多。研究共发现了440个2014年新产生的突变位点,这些位点将为埃博拉相关疫苗和药物研发提供重要的参考价值。同时确定了此次埃博拉疫情在塞拉里昂西部地区传播的3个重要传播节点,分别是首都弗里敦(Freetown)和塞拉里昂西部的2个重要交通枢纽Waterloo和Maforki Chief⁃dom。研究显示在此次疫情的传播网络中,这3个地区充当了关键的路由节点,为病毒的突变和谱系发生提供了重要场所。相关研究结果发表在《Nature》上[6],有文章以“最新数据排除埃博拉快速突变”为题对我国的研究成果进行评论[7]。
科学家们通过对在几内亚流行的埃博拉病毒株进行基因组测序,追踪了病毒的传播,并监测了这一国家的病毒进化情况。研究揭示出有3种不同的病毒变种在几内亚,尤其是首都的城市区域和附近的市镇同时传播[8]。
来自英国牛津大学和巴西Evandro Chagas研究所等机构的研究人员对巴西暴发的寨卡病毒进行首个基因组分析,从而提供了关于这种病毒如何和何时可能进入美洲方面的新信息。基因组测序研究已对巴西的寨卡病毒传播有了更加清晰的了解。然而,仍然迫切需要更多的基因组数据来理解这种病毒在美洲和巴西的起源、空间扩散和进化[9]。
人类发展、迁移与扩张进化历史就是人类不断适应环境的历史。世界各地的地理位置、环境气候、疾病流行情况不同,不同人群文化发展如饮食习惯、农业形式、人口密度等风格迥异,人类在适应各自不同的地理、文化环境过程中必然导致不同人群所特有的遗传变异即适应性突变和相应的特征性表型如肤色、发质、体型等的出现,因此适应性突变通常具有明显的人群特异性。
适应性突变或不同人群特有遗传变异的研究,对于揭示人类进化历史、不同人群对疾病(遗传性,感染性)的易感性及相关防治特别是群体特异性、甚至个体化医学的发展,意义重大。此外,在生物安全与反恐方面更具有非常重要的现实意义。人群特异性遗传、表观遗传标记的存在及其相继被系统生物学的不同层面所揭示,为生物安全的研究提出了更大的挑战。
人类微生物组计划旨在揭示与健康改变相关的微生物组变化。人类微生物组计划联盟的200多名科学家历时5年,对来自300名健康成人18个不同部位(包括口腔、鼻子、肠、耳背后以及手肘内侧等)的样本进行了分析。密歇根大学的研究人员发表在《Nature》上的研究结果[10]从新的角度证实了健康人体微生物群落的广泛差异,每个人都拥有一套独特的菌群,这是由个人生活经历以及菌群与环境、饮食和用药相互影响的结果。例如一个人的性别、教育水平,甚至是否曾接受母乳喂养都与他们的一些身体部位的菌群种类有关。
华南理工大学、深圳华大基因研究院和丹麦哥本哈根大学等单位合作完成了人类肠道微生物组最高质量的参考基因集[11]。该研究基于249个新的人体肠道宏基因组和之前已公布的1018个被测序样本,加上511株与人肠道密切相关的基因组已测序的细菌与古细菌信息,构建了一个高质量、近乎完整的人类肠道微生物组数据集,共包含9 879 896个基因,是更具代表性和高质量的人类肠道微生物组参考基因集,有利于我们通过宏基因组、宏转录组以及宏蛋白组等方法,量化肠道微生物菌群在不同人群中的差异情况,从而理解它们在人类健康和疾病中的重要作用。
自2005年以来,国际科学界开展了至少8项人体微生物组计划,如美国人类微生物组项目、加拿大微生物组研究项目及日本人体元基因组项目。中国科学家近年也积极参与或牵头实施了中法肠道元基因组研究、十万食源性病原微生物基因组计划、万种微生物基因组计划等。
美国2016年5月13日宣布启动“国家微生物组计划”,这是奥巴马政府继脑计划、精确医学、抗癌“登月”之后推出的又一个重大国家科研计划。最近10年来,人们逐渐认识到,从肥胖、糖尿病、哮喘等人类健康问题到海洋“死区”等环境问题,从农业生产到气候变化,或多或少都与微生物组相关联。肠道微生物组甚至被称为人体的“第二基因组”。2016年,《Science》和《Nature》两大顶级学术刊物相继以专刊的形式介绍肠道菌群的最新研究进展。
美国能源部联合基因组研究院的研究人员利用来自世界各地最大规模采集的组装宏基因组数据集,揭示了125 000个部分及完整的病毒基因组,其中大多数病毒感染微生物。这一研究努力将已知的病毒基因数量提高了16倍,构建出第一个全球病毒分布图,为研究人员提供了独特的病毒序列信息资源[12]。
比利时鲁汶大学和荷兰格林宁根大学的2个研究团队分别在《Science》发表论文,通过2项大型研究计划找出了肠道核心微生物群,为进一步建立生物标记体系,评估肠道菌群是否正常提供了线索。结合2项研究的数据库及其他英美国家的研究,确定了包含664个属的人类核心微生物群,即95%的人肠道都有这些菌属[13-14]。
一篇发表在《Ecosphere》上的研究论文中,来自北卡罗来纳州立大学的研究人员首次绘制了引发人类疾病的病原菌图谱[15]。研究者发现依据传播媒介相关的人类疾病,世界可以被分为7大区域,这些疾病媒介都包括通过害虫进行的传播,比如蚊子传播的疟疾;而依据非病原媒介相关疾病(如霍乱)来划分的话,世界可以被分为5大区域。同时图谱显示,并不是所有区域都是连续的,诸如不列颠群岛及其以前的殖民地,由于这些地区存在相似的疾病,因此被划分为相同的病原媒介及非病原媒介传播区域。但是在非洲及亚洲的英国前殖民地却包含着不同类型的疾病,因此其就被划分为不同的区域,这就表明殖民地化只是多种因素中的一个,就好比气候和政治状态一样,影响着特殊区域疾病的流行。该研究表明不仅仅是人类的运动,气候、历史以及地理都是影响疾病发生、发展及扩散的因素,理解这众多因素同病原菌之间的相互影响和作用,对于全球的公众健康具有非常重要的意义。
人类基因组计划取得的巨大成果,催生了一项新的项目,即精准医学。精准医学就是以个体化医疗为基础,随着基因组测序技术快速进步以及生物信息与大数据科学的交叉应用而发展起来的新型医学概念与医疗模式,最终将实现对特定疾病和特定患者的个性化精准治疗的目的,提高疾病诊疗与预防的效益。即使在所有基因功能清楚之前,也可以通过连锁分析确定基因组的哪一部分与人类遗传特性及疾病有关,随后的深入研究就会发现与疾病有关的特定基因。突变分析以及基因多态性和等位频率的确定将有助于了解疾病的易感性,掌握外源物质(如药物、环境、病原等)对基因表达的调控机理会促进药物研发与疾病治疗。目前最主要的应用就是在疾病的新检测方法和新治疗药物的研发上,也取得了一定的进展。
2014年,Broad研究所和麻省总医院的研究人员在ExAC数据库(Exome Aggregation Consor⁃tium,外显子组整合数据库)中公布了约1000万个遗传变异。近期,研究人员基于该数据库中的60 702个欧洲人、非裔美国人、东亚人、南亚人和拉美人的外显子组测序数据,鉴定出3200个可能与人类遗传病发展相关的基因[16]。
美国宾夕法尼亚大学的研究人员开发了一个Canopy软件,将采集的同一肿瘤组织不同位置、不同时间的多份样本进行全外显子测序分析后的数据输入Canopy软件,可获取肿瘤的“进化树”。借助Canopy软件,肿瘤学家能够更好地了解肿瘤的发展趋势,筛选出肿瘤样本中不同癌细胞的潜在生物标志物。这些生物标志物与耐药性、侵袭性恶性肿瘤等有关联,从而有助于早期患者得到准确的诊断和预后[17]。
大数据分析推动乳腺癌的精准治疗。来自葡萄牙里斯本Champalimaud临床研究中心的Car⁃doso和她的同事们用乳腺癌高通量基因检测系统MammaPrint对6693位早期乳腺癌患者的70个乳腺癌标志基因进行了检测,初步研究结果显示6693位乳腺癌患者中有1550位具有较高的临床恶化风险,而基因表达谱分析结果却显示这些患者的临床恶化风险较低,这一数字占总人数的23.2%。研究结果表明通过MammaPrint可以鉴别不需要化疗的高临床风险早期乳腺癌患者[18]。来自英国剑桥大学的一项包含120 000名女性的国际研究确定了影响乳腺癌风险的5个基因变异,这些突变被认为影响乳腺癌细胞对雌激素的反应。这一发现将有助于乳腺癌风险的预测以及特定类型乳腺癌风险的确定[19]。
科学家们系统分析了620万丹麦人在14.9年中的电子健康数据,跟踪了丹麦全国的疾病发展情况。他们将这些海量数据归类为1171个主要的疾病进程模式,涵盖了糖尿病、慢性阻塞性肺病、癌症、关节炎、心血管疾病等多种疾病。在此基础上,医生们能够预测某个个体是否正在酝酿着某种疾病,是否需要采取医疗手段进行干涉[20]。
来自布朗大学的研究人员开发了一种新型计算机程序HotNet2,可用于分析癌症基因组图谱计划(TCGA)中12种不同类型癌症的遗传数据。此次研究人员聚焦的是体细胞突变,也就是我们会携带一生的非父母遗传的突变。他们在3281个样品中发现了16个关键基因网络,其中几个在之前的研究中并未发现其与癌症的重要关联[21]。
美国华盛顿大学的研究人员提出了一种新的计算工具——HotSpot3D,可通过蛋白质三维结构来识别突变-突变和突变-药物的聚类关系,并找出这些聚类与功能突变、结构域及蛋白之间的对应关系。研究人员通过检测癌症基因图谱中19种癌症的4000个肿瘤组织,确定了6000多种聚类的相互作用,而大多数相互作用是无法通过常规方法检测到的。此外,通过药物与变异之间的多维相互关系确定了800种具有前景的可药化的突变点,对未来癌症疗法有很大意义[22]。
加州大学旧金山分校的科学家们开发了数据分析软件ClusterFinder,依据土壤和海洋微生物的生物合成基因簇(BGC),系统分析了人类微生物组计划数据库,发现我们体内生活的细菌可以生产大量药用分子,为新药开发提供了异常丰富的资源[23]。
开发基于新一代测序数据的病原体及抗生素耐药性的快速鉴定算法,对于选择正确的治疗方案非常重要,也有助于预防医院获得性感染疾病的暴发,并确定新出现的感染[24];不同药物会偏好不同受体的中间态,模拟受体3D结构变化的新方法能指导科学家设计出针对受体的强效药物[25]。通过开发药物,阻止衣壳组装或去组装,从而导致衣壳功能障碍,或许可以阻止病毒增殖,编程模拟DNA分子可以植入病人体内用于传输药物和诊断疾病[26]。Drugable在线平台可以使药物研究人员在药物化学结构的基础上预测新药如何在人体内发挥作用以及在何处发挥作用,为药物研发提供捷径[27]。
大数据分析推动前列腺癌精准治疗。来自美国加利福尼亚大学洛杉矶分校的癌症研究人员开发了一组复杂的分析工具,对患有转移性前列腺癌的病例进行分析,绘制了帮助前列腺癌细胞增殖和抵抗治疗的复杂基因和蛋白质网络的详细图谱(基因组、转录组和磷酸化蛋白质组学数据)。研究人员还开发了一种计算方法来分析病人个体化数据,帮助每位病人选择最有效的治疗药物[28]。
上海交通大学Bio-X研究院联合美国IBM沃森研究院、哈佛大学、加州大学伯克利分校等医药大数据前沿机构的研究人员通力协作,共同构建了基于医药大数据的药物互相作用搜索引擎,进而在个体化用药研究方面取得重要进展[29]。
基因组领域的大数据时代已然到来。据相关统计,全球每年生物数据总量已经达到EB量级(260Bytes)。完整的人体基因组有约30亿个碱基对,个体化基因组差异达6百万碱基,基于个性化的遗传背景产生了巨大数据。高效利用这些大数据无疑将为生命科学行业带来无限机遇。生命科学正面临从实验驱动向数据驱动转型,而加快生物大数据应用必将进一步促力生命科学、医疗临床、公共卫生、农业、环境和食品安全等更多领域更快更好的发展,也将成为国防事业和生物安全领域的研究重点。
值得注意的是,人类基因组数据涉及许多问题,如数据安全、个人隐私、数据使用时的知情同意问题等。基因组数据从根本上来说都是非常容易辨认的,所以还需要制定其他安全保障措施。在没有入侵任何数据库,不须破解任何特殊密码的情况下,通过搜索公开数据库即可确定捐赠DNA的匿名志愿者的研究,将个人与其基因组遗传信息关联,是生物安全的一项新挑战[30]。所以应制定一系列法律法规保障基因组信息的安全,防止这些数据被滥用。目前中国开展的各种大规模测序项目,应更加注意特有遗传信息的安全性问题,从而有效防范将来的“基因组黑客”。
[1] Kahn S D.On the future of genomic data[J].Science,2011,331:728-729.
[2] Gao R,Cao B,Hu Y,et al.Human infection with a novel avian-origin influenza A(H7N9)virus[J].N Engl J Med,2013,368(20):1888-1897.
[3] Lam T Y,Wang J,Shen Y,et al.The genesis and source of the H7N9 influenza viruses causing human infections in China[J].Nature,2013,502(7470):241-244.
[4] Baize S,Pannetier D,Oestereich L,et al.Emergence of Zaire Ebola virus disease in Guinea[J].N Engl J Med,2014,371(15):1418-1425.
[5] Gire S K,Goba A,Andersen K G,et al.Genomic sur⁃veillance elucidates Ebola virus origin and transmis⁃sion during the 2014 outbreak[J].Science,2014,345:1369-1372.
[6] Tong Y G,Shi W F,Liu D,et al.Genetic diversity and evolutionary dynamics of Ebola virus in Sierra Le⁃one[J].Nature,2015,524(7563):93-96.
[7] Hayden E C.Latest Ebola data rule out rapid mutation[EB/OL].http://www.nature.com/news/latest-ebola-datarule-out-rapid-mutation-1.17554.
[8] Simon-Loriere E,Faye O,Faye O,et al.Distinct lin⁃eages of Ebola virus in Guinea during the 2014 West African epidemic[J].Nature,2015,524:102-104.
[9] Faria N R,Azevedo R D S D S,Kraemer M U G,et al.Zika virus in the Americas:early epidemiological and genetic findings[J].Science,2016,352:345-349.
[10]Ding T,Schloss P D.Dynamics and associations of mi⁃crobial community types across the human body[J].Na⁃ture,2014,509:357-360.
[11]Li J,Jia H,Cai X,et al.An integrated catalog of ref⁃erence genes in the human gut microbiome[J].Nat Bio⁃technol,2014,32:834-841.
[12]Paez-Espino D,Eloe-Fadrosh E A,Pavlopoulos G A,et al.Uncovering earth′s virome[J].Nature,2015,536:425-430.
[13]Zhernakova A,Kurilshikov A,Bonder M J,et al.Pop⁃ulation-based metagenomics analysis reveals markers for gut microbiome composition and diversity[J].Sci⁃ence,2015,352:565-569.
[14]Falony G,Joossens M,Vieira-Silva S,et al.Popula⁃tion-level analysis of gut microbiome variation[J].Sci⁃ence,2015,352:560-564.
[15]Just M G,Norton J F,Traud A L,et al.Global bio⁃geographic regions in a human-dominated world:the case of human diseases[J].Ecosphere,2014,5:art143.
[16]Lek M,Karczewski K J,Minikel E V,et al.Analysis of protein-coding genetic variation in 60706 humans[J].Nature,2015,536:285-291.
[17]Jiang Yuchao,Qiu Yu,Minn A J,et al.Assessing in⁃tratumorheterogeneity and tracking longitudinaland spatial clonal evolutionary history by next-generation sequencing[J].Proc Natl Acad Sci USA,2016,113(37):E5528-E5537.
[18]Cardoso F,van′t Veer L J,Bogaerts J,et al.70-Gene signature as an aid to treatment decisions in early-stage breast cancer[J].N Engl J Med,2016,375(8):717-729.
[19]Dunning A M,Michailidou K,Kuchenbaecker K B,et al.Breast cancer risk variants at 6q25 display differ⁃ent phenotype associations and regulate ESR1,RMND1 and CCDC170[J].Nat Genet,2016,48(4):374-386.
[20]Jensen A B,Moseley P L,Oprea T I,et al.Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients[J].Nat Com⁃mun,2014,5:4022.
[21]Leiserson M D,Vandin F,Wu H T,et al.Pan-can⁃cer network analysis identifies combinations of rare so⁃matic mutations across pathways and protein complexes[J].Nat Genet,2014,47:106-114.
[22]Niu Beifang,Scott A D,Sengupta S,et al.Proteinstructure-guided discovery of functional mutations across 19 cancer types[J].Nat Genet,2016,48(8):827-837.
[23]Donia M S,Cimermancic P,Schulze C J,et al.A sys⁃tematic analysis of biosynthetic gene clusters in the human microbiome reveals a common family of antibi⁃otics[J].Cell,2014,158:1402-1414.
[24]Hasman H,Saputra D,Sicheritz-Ponten T,et al.Rap⁃id whole-genome sequencing for detection and charac⁃terization of microorganisms directly from clinical sam⁃ples[J].J Clin Microbiol,2013,52:139-146.
[25]Battich N,Stoeger T,Pelkmans L.Image-based tran⁃scriptomics for thousands of single human cells at sin⁃gle-molecule resolution[J].Nat Methods,2013,10:1127-1133.
[26]Goldman N,Bertone P,Chen S,et al.Towards practi⁃cal,high-capacity,low-maintenance information stor⁃age in synthesized DNA[J].Nature,2013,494:77-80.
[27]Reardon S.Project ranks billions of drug interactions[J].Nature,2013.503:449-450.
[28]Drake J M,Paull E O,Graham N A,et al.Phospho⁃proteome integration reveals patient-specific networks in prostate cancer[J].Cell,2016,166:1041-1054.
[29]Luo H,Zhang P,Huang H,et al.DDI-CPI,a server that predicts drug-drug interactions through implement⁃ing the chemical-protein interactome[J].Nucleic Acids Res,2014,42:W46-52.
[30]Gymrek M,McGurie A L,Golan D,et al.Identifying personalgenomes by surname inference[J].Science,2013,339:321-324.