文/本刊记者 刘文生
英特尔:迎战基因组学
文/本刊记者 刘文生
英特尔在存储、计算、网络及系统等各方面都将为推动基因测序应用提供重要技术支持
基因组医学正从前沿科技走向临床实现。
在癌症和其它恶性疾病的突破性治疗方面,技术将起到至关重要的作用。这是行业共识。科研人员正试图不断识别更多类型的基因突变,这是找到更具靶向性和更高效抗癌方法的重要基础。单个肿瘤内可能有大量的基因多样性,而目前通用的化疗、放疗和手术等治疗方法都没有精准的针对性,造成了“千癌一治”的困境。
2015年中国约有280万人死于癌症,治疗无效率高达75%。且在癌症致死原因中近三分之一是治疗不当。长久以来,全球科研人员一直在寻求一种更有针对性的疗法来控制导致癌细胞生成的特定基因突变,现在,人类终于拥有了可在分子水平追踪基因突变的疗法。
这种新型疗法以基因组测序为基础。2003年,人类实现首次基因组测序,耗资高达27亿美元。2009年,全球第一例中国人标准基因组图谱完成,历时3年,耗资几千万人民币。但如今,一次全基因组测序的成本已在万元以下且还在不断降低。
通过基因组测序,医生可以发现关键的基因突变,从而有针对性地实施靶向疗法和免疫疗法。同疫苗和抗生素的出现一样,下一代基因组测序技术(NGS)是人类医疗进程中的又一次突破。
一位癌症晚期患者的生命因为其医生发现的临床试用药物而延长了两年,该药物专门针对此类患者体内由变异引发的分子通道;一次漫长艰难的诊断借助基因技术获得突破,为一位患有罕见基因疾病的儿童带去了新的希望;一家医院的儿科在病理部门的帮助下,迅速找到并控制了金黄色葡萄球菌(MRSA)发病源,避免了一次大规模疫情。
英特尔健康与生命科学事业部全球营销总监Bryce Olson也是受益者之一。他说:“像我这样已经发生骨转移,且化疗后病情仍在发展的晚期前列腺癌患者,平均生命只剩21个月。因为参加了一项采用基因测序来识别和阻断变异细胞信号传递路径的临床试验,现在我已延续了29个月的生命。”
近年来,得益于基因技术的案例比比皆是。新的基因技术能深入疾病分子层面,让精准医疗成为可能,为肿瘤、儿科疾病和传染病等众多医疗领域带来积极影响。就癌症而言,精准医疗能让医生掌握患者体内肿瘤的基因组信息,并结合肿瘤分子异常(如基因突变)等方面的知识,为患者选择最合适的治疗方案。
在另一个至关重要的领域,最新的基因组学技术有望成为人类应对超级细菌的强大助手。它能帮助科研人员精准识别感染源和病原体的耐药源,从而研制出应对药物。随着埃博拉、寨卡及其他严重传染病的不断出现,这些新型基因组武器变得比以往任何时候都更加重要。
与更具靶向性的疗法相比,对传染性疾病的追踪能更好地体现全基因组测序的精准特征。在癌症和其他领域,研究人员往往只对已知的几个重要基因测序,无需全基因组测序。但在分析传染性病原体时,通过对所有基因进行极为精准的分析,研究人员可以准确地发现基因突变点位及其时间,以及哪些突变可能导致耐药性。
这对于下一代抗菌素的研发意义重大。通常,研究人员会通过培育土壤细菌并识别其产生的抗菌化合物来发现新的抗生素。但大多数土壤细菌在体外并不能很好成长,所以此过程非常耗时,甚至会无果而终。而基因组学则提供了全新的解决方案,能让研究人员在更短时间内发现细菌弱点和潜在的抗菌化合物。
以全球第二大传染病——结核病为例,世界卫生组织《2016年全球结核病年报》显示,2015年全球新增感染人数高达1040万,死亡人数也高达140万,其中新增的多重耐药性结核病例为48万。我国目前每年新增结核感染患者93万,居全球第三位。对结核杆菌进行深度的基因组测序能帮助研究人员快速识别出其抗药机制,从而促进相关新药的研发,最终挽救众多生命。
此外,有一些病原体无法通过已知技术培育。这意味着它们一直存在,但并不被察觉,是巨大的公共健康隐患。如今,借助基因组测序,研究人员也可以对此类病原体进行识别。
基因测序领域的科研突破也催生了新的实用技术,比如能识别菌株及其抗药性信息的软件已经问世,并能在几分钟内给出详细全面的识别报告。目前,基因组测序已被用于追踪西非的埃博拉病毒和巴西的寨卡病毒。追踪埃博拉病毒时,研究人员可将新型便携式测序仪放在行李箱中,飞赴目的地,并能在24小时内识别出菌株,从而快速绘制出传播模式。
越来越多的肿瘤病例证明,单一药剂的靶向疗法无法激发长效且可靠的病患响应,因为单个肿瘤内可能存在多种变异——包括癌症在内的一些疾病具有肿瘤异质性,会引发分子生物学或基因方面的改变,其后果难以预知,因而带来的难题往往比解决方案还要多。
“即使在新的免疫药物方面,医生在为每位病患确定适当的综合治疗方案时也需要对预测性和预后性生物标志物有更好的理解,而这要求更深层次的研究。” Bryce Olson如是说。
幸运的是,先进的下一代基因组测序(NGS)技术为科研人员提供了更庞大的基因组测序数据,从而推动了对癌细胞生物性的更深层次研究,也推动了新的诊断标志物和治疗靶点的发现。与此同时,肿瘤表达谱和基因检测还推动了一系列全新临床试验的出现,帮助将科研发现转变为新的诊断测试和靶向疗法。
然而,正如英特尔健康与生命科学事业部全球总裁Jennifer Esposito所言:“随着对基因组测序需求的不断增加,需要处理、存储和管理的数据量也在增加。” 一个人一次高质量全基因组测序将产生近1TB的数据量。由此推算,中国计划建立的百万级基因样本数据库将是全球各行业最大的数据库之一。如何读取和利用类似这样的“庞然大物”成为了巨大挑战。毕竟,癌症患者无法等待数周甚至数月才获得分析结果和治疗方案。
英特尔健康与生命科学解决方案高级架构师Michael McManus博士给出了一个答案。他表示:“数据分析的速度越快,也就能越及时地帮助医生确定治疗方案。对他们而言,最佳的解决方案不仅要快,还要方便操作,并能大规模应用于大量基因数据分析。而这正是我们的全新解决方案能做到的:我们利用开源的商业基因组分析软件,结合硬件OEM合作伙伴,帮助科研人员简化基因组测序的工作流程,并极大地降低拥有成本。”
在McManus博士帮助各大临床实验室进行的典型基因工作流程中,他们会从患者的血液或肿瘤样本中提取DNA,之后使用基因组测序仪器进行处理(将人类DNA样本数字化)。获得测试数据后,科研人员会使用高性能计算(HPC)集群迅速地进行基因分析(获取生物信息)。从中得出的结果将会用来破译具有临床意义的基因改变,从而引导治疗方案,包括针对具体病患的特定药物。
下一代基因组测序技术 (NGS)是人类医疗进程中的又一次突破。
McManus博士是高分子化学家和合成有机化学家,他职业生涯的大部分时间都致力于为基因组学和生物信息学提供计算解决方案。在英特尔,他成功地制定出各类医疗机构在应对不同基因组数据处理量时的计算和存储硬件配置标准。他说:“可以将基因组数据工作流程看作一场化学反应。我们的集群规模指南能告诉你最初需要什么,随着规模扩大还会需要什么。”
英特尔可扩展系统框架(SSF)可以作为基因组集群的参考架构基础,在处理更大量基因组数据的同时,通过更高效的硬件设备设计降低所需节点个数。在德国生物信息公司凯杰(QIAGEN),英特尔设计了专门的32节点集群,搭配10台测序仪 (Illumina HiSeq X Ten系统)进行基因组学数据分析。
“我们帮助凯杰制定的解决方案能将每次全基因组分析的费用降至22美元。”McManus博士表示,“而且所需节点数要比Illumina(当前业界最高数据处理量基因组测序系统的制造商)推荐的减少了62%,从而让凯杰的基因组分析解决方案总成本降低了47%。”
英特尔与凯杰在基因测序方面的技术让中国的医院和检测机构等终端获益。他们与多家生物企业以及硬件厂商和云服务公司合作,共同提供整合各方优势的综合平台和高效的全方位服务。
除提升速度之外,McManus博士还指出:“科研机构和医院的下一个重大需求是如何准确地预测每个基因组集群的处理量。只有这样他们才会购买最高效的系统,而且也能按照预测的样本增加数量来衡量所需的额外计算和存储硬件,从而让投资效率最大化。”
当数据处理量能被很好地预测时,硬件扩充规模才能更好地计算出来。也就是说,在已有硬件的规模性能被验证后,英特尔很快能计算出将来拓展处理能力时需要多少额外集群。
先进的技术推动基因组测序迈向新的境界,然而庞大的数据所带来新的问题却日益成为基因测序发展的障碍
目前全球多个国家已宣布十万人甚至百万人的庞大基因组计划。在我国,由发改委、财政部、工信部及国家卫生计生委联合批复的国家基因库项目已经启动,目前已存储多种生物资源样本1000万份,建成了20PB数据的可访问能力,并规划在二期完成500PB数据的可访问能力。
事实上,精准医疗需要的并不仅仅是大量基因组数据的简单堆积,而是让这些数据发挥作用。基因组测序需要强大的数据分析和对患者癌症基因变异的临床解读作为支撑,并要确保数据能交到治疗一线的医生手中。
美国国立卫生研究院(NIH)院长Francis Collins及副院长Kath Hudson在发表于2016年《新英格兰医学期刊》上的联合署名文章中写到“快速的数据共享对类基因组工程(Human Genome Project)的成功起到了至关重要的作用。过去20年来,数据共享理念在生物医学界已深入人心,技术的进步和大数据的发展则使数据共享与查询进入了全新时代。”
尽管如此,由于各种因素的限制数据的获取和使用目前依然严重受阻。多数基因组数据仍掌握在收集这些数据的各种机构手中。比如,美国虽然有法令要求学术中心等机构公布其成果,但所共享的数据也仅占其全部数据的50%。这无疑严重阻碍了科研活动的发展和病患的救治。
Bryce Olson指出:“并没有商业利益激励科研人员彼此共享数据。”他们要相互竞争并在重量级学术刊物上发布成果,如果共享数据,则意味着失去在《科学》或《自然》等权威出版物上发表论文的机会,而这种机会也许一生只有一次。同样,私立机构也会相互竞争,这就要求有强于他人的竞争优势,而其中重要的一项就是科研成果。
管理机构和业界专家都清楚,这种仅关注短期利益的想法急需改变。作为一位受益于关闭其分子水平突变路径的临床试验药物的晚期前列腺癌患者,Olson本人对此深有体会。“当前,各种疾病都已被细化为多个独特类型,单个医院不可能获得所有类型疾病所需的有意义的数据。”的确,只有共享才会让医疗机构有足够的数据推进科学发展,从而帮助更多像Olson一样的患者。
个人隐私安全问题上的顾虑也在阻碍数据的共享。尽管基因组数据在共享前通常都会删除可识别患者身份的信息,但医疗机构的负责人总是担心触犯个人隐私法律,因此造成了数据被过度保护。此外还有经费问题。即便大家都同意共享数据,医疗机构也不得不考虑庞大的专业人员及IT资源支出。
技术与文化差异也是数据共享的障碍。即便是在机构内部,研究人员可能并不知道自己的同事那里有相关数据。存储、格式和获取程序上缺乏灵活性还会导致数据难以查阅和检索。这些操作有时需要花费大量时间,以致科研人员最终找到所需数据时,它们已经过时了。
要解决这些问题,需要政策法规的支持、医疗机构自身的努力以及患者团体的推动。
在政策层面,我国已经展开积极的行动。2016年3月,科技部在《精准医学研究重点专项2016年度申报指南》中对精准医疗数据规范化与分享性都表示了明确的支持,具体到“面向精准医学研究和应用的大数据搜索引擎和跨库检索分析技术系统……数据访问、数据搜索、安全隐私、知识检索、规则创建等共性服务组件”等多项内容。并要求其要“符合伦理规范”。
在行业内部,如果某家机构想要加强在某个具体领域的数据共享,他们首先需要了解数据掌握在哪些机构手中,然后将其联合起来组成利益共同体,这样各方都会更愿意共享数据。而且,他们还要清楚,数据共享并不会导致竞争优势的丧失。Olson指出,“数据自身只是数据,它并非知识产权。各机构只有对共有数据库进行分析后得出的成果才是知识产权,比建立自己的数据孤岛要有意义得多。” 我国在癌症领域的资源相对集中,领先的300家医院汇集了近70%的癌症患者。在数据共享方面,这或许是优势。
在解决资金困境方面,从患者团体着手是个不错的选择。他们不仅渴望分享数据,而且易于组织并拥有一定的联络资源。行业赞助商与合作伙伴也可能向他们提供资助。其他资金来源还包括关注某种特定疾病的患者倡导团体、机构或基金会。
在获得了数据和资金之后,技术问题是另一大挑战。行业需要强大的技术确保数据容易读取,并采用通用的标准术语且可重复使用(如通过开源许可实现共享)。
那么,该如何推动数据的读取呢?大型数据库显然无法移动。“所以我们要建立联合式共享平台。”Jennifer Esposito指出,“这样既可以共享数据,又不必将其移动到别处。”
此外,医疗服务提供商须密切关注仍在不断发展变化的数据集成与分类标准。在业界制定出通用标准前,数据中心的架构必须具有一定的灵活性和集成性。正如Esposito所言:“我们需要能帮助医疗行业安全有效地转向云端的基础设施。在医疗数字变革的进程中,我们要建立适当的基础架构,确保未来的规模化拓展。”
正是基于这一未来展望,2015年10月,英特尔联合华大基因和阿里云在深圳宣布共建中国精准医疗混合云平台,充分利用其在高性能计算、存储和传输方面的实力,为精准医疗计算云平台的设计提供了一个重要参考。
为让数据共享更为有效,还需要患者的大力支持。Olson提到:“其实患者本身并不想将自己的数据孤立起来。”所以,让患者了解数据共享的重要性并积极参与进来是真正的关键所在。他还表示,推动更多数据实现共享的方法之一是让患者意识到自己的数据极有价值,也可能是找到更多生命答案的钥匙。患者想知道是否有新的实验可以提供与自身分子特征匹配的药物。而要找到可行的临床实验,需要有效地共享数据。
另外,技术本身还要简单易用、方便获取。“各机构最终需要解决的问题是,如何以简单易行的方式收集和获取比他们各自拥有的数据量要大得多的数据。” Olson说,“我们希望医生在为患者寻找适当疗法时,获取数据能像网上银行操作那样简单。”
只有打破这些商业和技术壁垒,才能让精准医疗走入快车道。
“我从事医疗行业已近20年,而且自己也曾是一名患者,”Esposito说,“从医患两方面,我都见证了技术的真正作用。与其他行业比较,医疗行业在数字化方面的变革有些落后。但令人欣喜的是,我们最终找到了驱动数据创新的方法,而下一步就是学会如何共享数据。”