大规模癌症基因组测序时代的转折点

2020-03-27 08:22编译舒愉棉

世界科学 2020年3期

关键词：基因组标签编码

编译舒愉棉

癌症基因组研究的未来就藏身于临床信息之中。2020年2月5日，《自然》杂志基于PCAWG成果发布的系列论文对癌症的遗传学原因给出了新的解释，而这些研究结果为我们展示了人类对癌症理解的最新进展，以及未来我们还有多远的路要走。

科学家如今对引发癌症的遗传学改变有了前所未有的了解，这些癌症里包括鳞状细胞癌，一种常见的口腔癌

全基因组泛癌分析联盟（PCAWG，又称为泛癌症全基因组分析合作项目）联合了跨越四大洲的约750家合作单位，对代表38个癌种、超过2 600份样本进行了全基因组测序，所获成果刊登在《自然》杂志上。

这一项目了不起的地方在于其所具有的广度与复杂度。从获取样本到把上万亿字节的数据交到研究者手中，同时还要保护病人的隐私，项目的每一步都面临着各种挑战，而它的庞大规模亦是挑战的来源之一。

多亏联盟的努力以及此前的全基因组测序成果，科学家如今对引发癌症的遗传学改变有了前所未有的了解，对现有知识中的空白部分也有了更清晰的认识。通过合作，研究组找到了在癌症基因组中反复出现的705个遗传突变，并指出这些突变可能对于肿瘤生长有重要作用。在这705个突变中，有约100个突变发生在基因组蛋白质编码区以外。随着对非编码区进行分析的计算技术水平的提高，未来将会有更多这样的突变被人发现。总而言之，论文作者发现了平均每个癌症基因组含有4～5个导致肿瘤生长的遗传突变，但同时他们也发现有5%的病例不含有这些突变。

尽管癌症基因组测序完成时间超过十年，研究人员及这一研究的资助者现在仍旧必须要克服接下来的挑战。癌症基因组测序研究的目标一直都是改善癌症患者的生活，而测序项目积累起来的大量数据的确有所帮助。这些数据被研究人员用于寻找新的药物靶点和合成能够用于匹配病人与最佳治疗方案的肿瘤标记物。

但是，直至今日，绝大部分的数据都在一个关键部分受到限制，那就是样本捐赠者的临床信息通常是缺失的。癌症基因组图谱计划（TCGA，是一项由美国国家癌症研究所与美国国家人类基因组研究所共同资助、2006至2018年期间开展的大规模多癌症全基因组测序项目）收集到的第一批样本就是典型，除了样本捐赠者的性别、疾病诊断以及就诊年龄这些信息，其他伴随样本而来的信息寥寥。缺失的必要信息还包括捐赠者家族史或用药史、接受过的治疗记录以及病人对治疗出现的反应记录，如果想要将癌症基因组测序所得信息用来帮助病人，上述的信息都至关重要。

下一代癌症基因组测序项目将致力于改变这一点，但是收集详细的临床信息比基因组测序更困难也更昂贵，尤其是在许多缺少统一医疗系统的国家更是如此。在那里，要获取医疗记录很复杂：不同的医院分别储存着不同的记录；病人常常从一家医疗中心转诊到另一个；不同医院的记录质量千差万别。与此同时，更详细的记录在隐私遭到侵犯时也意味着个体暴露的风险更大，因此对样本捐赠者保护的力度也要再次加大。

这些迫在眉睫的问题不仅存在于癌症研究之中，整个医疗研究都面临着这些问题。人们正在努力将居民健康档案转化为更易获取、更易研究，同时更安全的新格式，比如美国癌症研究协会（AACR）的一项国际基因组和临床数据共享项目（GENIE）就对70 000份肿瘤DNA序列信息和现实世界的临床数据记录进行了编辑，而英国的10万人基因组计划也旨在将DNA序列信息与临床信息配对以供不同使用需求。协调过众多肿瘤测序工作的国际癌症基因组联盟（ICGC）也启动了新的阶段性工作，这一次的工作重点将聚焦在临床信息。

汇集大量样本形成样本池可以有效寻找引发癌症的遗传学改变，并为研究这些遗传学改变如何引发癌症提供一个起跑点。然而，只有在这些数据能够用于为病人量身定制治疗方案时，所有的付出才算是真正有了回报。而为了实现这一点，研究对象的临床背景信息是不可或缺的。

当癌症基因组测序项目首次启动时，人们希望这一项目能提供引发癌症的遗传突变清单，并能够揭示可以作为药物研发基础的普适性遗传特征。这一任务的核心目标已经完成，但许多癌症被证实比人们所预期的要更为复杂。看上去相似的癌症会包含相当不同的遗传突变组合，没有什么癌症与另一个癌症是完全一样的。

正如生物医学研究中经常出现的情况那样，问题的答案比最初设想的要复杂得多。不过，能够认识到问题的复杂性，这本身就是能力的提升，而善用这一认知在寻求更好的治疗方法的过程中将必不可少。

探秘癌症复杂成因

《自然》杂志2020年2月5日发布的6篇研究论文中，全基因组泛癌分析联盟为读者呈现了迄今为止最全面和最宏伟的癌症基因组元分析成果。与过去主要集中精力投入癌症基因组蛋白质编码区的研究不同，PCAWG联盟这次对癌症的全基因组进行了分析。每一篇论文都仔细研究了癌症遗传学的一个重要方向，而合在一起，这些成果将会成为全面理解癌症遗传学复杂性的关键。

首篇研究论文对PCAWG数据集的广度与深度进行了概述。该文称，平均每个癌症基因组含有4～5个驱动突变，这让癌症细胞具有选择性优势。研究中仅有5%的肿瘤样本中未检测出驱动突变。与之相对的，许多癌症样本呈现出基因组灾难性事件的标记，其中包括染色体重排（占肿瘤样本17.8%）及染色体碎裂（22.3%），这些都会导致严重的基因组结构性改变。

另外五篇论文则分别从不同方面对数据集进行了更加详细的探讨。比如在第二篇论文中，莱因巴伊（Esther Reinbay）等人就试图在非编码DNA中鉴定出驱动突变，这一目标可谓是雄心勃勃，毕竟要在非编码区中准确地检测出突变基因以及评估其重复率都要比在编码区内困难得多，而作者则采用了细致的模型来对非编码区驱动突变进行排除和系统性鉴定。

他们的研究结果对之前报道的非编码区驱动突变——例如名为NEAT1和MALAT1的长链非编码RNA——提出了质疑，同时他们也发现了一些新的驱动突变。例如，该文报道了他们一个在关键肿瘤抑制基因TP53的非编码区发现的频发突变，以及在端粒酶基因TERT的非编码区发现的一种相对高频的基因突变，后一种突变会导致端粒酶过表达（端粒酶过表达会让肿瘤细胞不受控制地分裂增殖），这一结果与之前在转移性肿瘤上进行的泛癌研究中发现的端粒酶高发突变（12%）的结果相对应。尽管这一研究不能将其他非编码区驱动基因的存在排除在外，它依然决定性地显示出这类突变并不正常。

在第三篇和第四篇论文中，亚历山德罗夫（Ludmil B. Alexandrov）等人及李（Yilong Li）等人则聚焦在名为突变标签的基因组变异上。不同的遗传诱变过程——例如DNA修复系统缺陷或者是暴露于环境诱变剂——会产生具有典型特征的DNA变异，如果我们想要提炼已知标签和发现新标签，那么海量的基因组数据集是必不可少的。这一次，亚历山德罗夫等人及李等人鉴定出了97个突变标签，这一研究成果令人印象深刻。这一在过去工作的基础上进行的拓展研究不仅涵盖了传统的单核苷酸标签，还涵盖了涉及多核苷酸突变以及DNA短片段插入与删除的突变标签。

值得注意的是，李及其同事是第一批发现了基因组结构变异（SVs，即基因组大范围的结构重组）等可复制突变标签的研究团队之一。由于基因组结构变异的多样性与复杂性，该项工作比鉴定突变标签要更为错综复杂。

通过一系列突变分组操作，研究人员鉴定出了16种基因组结构变异标签，并由此获得新发现，例如他们推测出在基因片段缺失和倒位突变（即DNA片段方发生向翻转）这两种基因组结构变异之间可能存在联动机制。他们还对这16种变异标签在癌症中所起作用有了进一步了解，在一些特定的DNA修复基因里发生的突变显示出与典型的癌症突变标签存在关联。例如，研究人员发现在CDK12基因上的突变与DNA串联复制有关，而DNA修复酶MBD4的截短异构体与另一种含有CpG岛（一种DNA序列）的突变标签会同时出现。放在一起，这些新发现的突变标签为理解癌症发展的机制以及诱变剂暴露在突变过程中所起作用奠定了基础。

“癌症发展是一种进化的过程”这一概念最开始是在1976年被提出来的。自那儿开始，癌症演化就一直都以随机突变与自然选择作为其标志性特征。获得了高适应性突变的癌症细胞会迅速扩散，并将成为细胞群中占主导地位的细胞克隆。这一现象被称为克隆清除，常发生于癌症细胞生长时反复进行的细胞周期。癌症演化最有效的研究方法是对肿瘤多个区域随着时间推移进行多次测序，不过这一过程也可以通过单次活检来进行重构，而这正是格尔斯顿（Moritz Gerstung）等人在第五篇论文中采用的方法。

该文作者引入了“分子时间”这一概念来区分克隆突变（指或早或晚都会在所有肿瘤细胞中出现的突变）与亚克隆突变（指仅出现在癌症细胞的一种子细胞集里的突变）。他们对克隆突变进行了分类，分类的依据在于突变出现的时间是在细胞克隆经历拷贝数增益（一种基因或染色体区域拷贝数量增加的现象）之前还是之后，并推断出亚克隆突变会在癌症演化的晚期出现。研究人员整合了来自多种肿瘤的演化数据，并由此鉴定出了诸如APC-KRASTP53突变进程等常见的突变轨迹，APCKRAS-TP53突变进程描述的正是在直肠癌中突变出现的典型顺序。

格尔斯顿等人还发现，在一个已知癌症中最常出现的驱动突变往往也出现得最早。类似的，如果拷贝数增益在特定某类癌症中高频发生，那么其发生的时间也往往是在早期。举例来说，5号染色体的局部拷贝数增益常见于透明细胞型肾癌，并且常出现于这一癌症演化早期。反过来说，全基因组复制在这一癌症中出现得相对较晚。最终，研究人员发现随着时间推移，突变标签在40%的肿瘤中发生了改变，这些改变反映出了环境暴露在疾病进程中重要性的下降以及DNA修复缺陷发生频率及其严重性的上升。总的来看，这些发现意味着驱动突变可能发生在癌症确诊的数年之前，并会对癌症的早期筛查和生物标记物发展产生影响。

在最后一篇论文中，PCAWG转录组核心研究组及其合作者利用1 188份与转录组数据匹配的PCAWG样本，将DNA改变和RNA改变功能性地联系在了一起。研究组发现了600多个单核苷酸DNA突变与相邻基因表达之间存在关联。不过，拷贝数变化更大的突变才是癌症细胞基因表达发生改变的主要驱动力。突变还与RNA转录物结构的变化相关，例如在一个非编码区（内含子）里形成了一个新的蛋白编码区（外显子）。

作者还鉴定出了桥式融合（即两个基因由于第三个DNA片段介入而发生融合的现象）的发生频率。尽管在被分析的1 188份样品中有87份不含有DNA水平上的驱动突变，最终的研究结果显示每一份样品中都含有RNA水平上的改变。这些研究成果展现出了RNA测序分析与DNA测序分析的整合运用在癌症研究中所具备的强大功能。

这六篇研究论文连同发表在其他地方的配套论文可谓是癌症与云计算基因组学研究的里程碑。通过聚焦于推导论证，PCAWG联盟成功地对十年来主要基于现象观察的癌症测序分析进行了详细阐释。值得注意的是，尽管推导论证分析对癌症的研究比描述性研究开展得更深入，其研究结果所具备的不确定性也更高。

几乎可以肯定的是，PCAWG数据集的广泛可用性及其高质量将会掀起生物学研究与方法学发展的浪潮，而把它与其他功能性基因组数据集整合使用（比如用于基因组三维结构探测）更是将毫无疑问地深化人们对遗传变异前因后果的理解。

目前研究的最大瓶颈在于缺乏与患者病情后续发展及治疗手段相关的临床数据，这些数据可以让研究人员鉴别出能够预测临床结果的遗传学改变。幸运的是，名为“国际癌症基因组联盟-加速基因组肿瘤学研究”（ICGC-ARGO）的项目目前正在进行中，这将会为超过10万癌症患者创造一个类似的资源库。

PCAWG联盟让成千上万的科学家们联手，为实现共同目标一起努力，这带来的长期影响将不止于现在所发表的这些研究论文，经过这一项目，这个全球联盟的成员之间所建立的合作关系以及所进行的知识交换也将会产生深远的影响。