首个完整无间隙人类基因组序列出炉

2022-12-30 10:34:36

中国科学探险 2022年9期

国际科学团队端粒到端粒联盟（T2T）宣告第一个完整的、无间隙的人类基因组序列问世，这本人类生命“天书”终于完整了。其首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异，这是对标准人类参考基因组，即2013年发布的参考基因组序列（GRCh38）的重大升级。

人类的基因组常常被比作生命的“天书”——A、T、G、C四种碱基构成了DNA，却配对出超过60亿种可能，足见其纷繁复杂。

在由中、美、英、法、德、日6国科学家共同参与研究的人类基因组序列草图正式发布20多年后，国际科学团队端粒到端粒联盟（T2T）宣告第一个完整的、无间隙的人类基因组序列问世，这本人类生命“天书”终于完整了。它首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异，这是对标准人类参考基因组，即2013年发布的参考基因组序列（GRCh38）的重大升级。

4月1日，《科学》杂志连发6篇论文报道了这一成果。

这一成果将从根本上改变我们治疗多种疾病的方式。随着新冠病毒新变种的频繁出现，科学家们可以使用完整的基因组测序来寻找与该疾病相关的突变，他们还可以更详细地利用其来研究人类遗传变异的进化，或将彻底改变人们理解人类进化的方式。

8%的“空白区”不是“垃圾”

2001年2月12日，国际人类基因组计划首次公布人类基因组图谱及初步分析结果；2003年4月15日，人类基因组序列草图正式公布。然而，由于技术条件限制，当初的人类基因组图谱留下了大约8%的空白间隙。这一很难被测序的部分，由高度重复的DNA序列组成，包含染色体末端的端粒和染色体中心节点的着丝粒。

着丝粒背后的异染色质序列位于染色体的关键部位，在人类基因组序列草图中，它们都被标记为N的长序列，表示“未知的碱基”。13、14、15、21和22号染色体的短臂序列也同样被忽略。

美国国立卫生研究院下属的国家人类基因组研究所（NHGRI）所长、医学博士埃里克·格林称，缺少片段的基因组“就像缺少句子的段落”一样不完整。

华盛顿大学霍华德·休斯医学研究所研究员埃文·艾希勒说，对DNA进行测序就像解决拼图游戏一样。科学家们必须首先将DNA分解成更小的部分，然后使用测序仪以正确的顺序将其拼凑在一起。

现在，新的T2T基因组图谱补足了拼图盒图片上8%的空白，并更正了此前拼图中存在的数千个错误。大多数新添加的DNA序列位于重复端粒和着丝粒附近。

新的无间隙版本被称为T2T—CHM13，由30.55亿个碱基对和19969个蛋白质编码基因组成，增加了近2亿个碱基对的新DNA序列，包括99个可能编码蛋白质的基因和其中近2000个需要进一步研究的候选基因。这些候选基因大多数是失活的，但其中115个仍然可能表达。研究团队还在人类基因组中发现了大约200万个额外的变异，其中622个出现在与医学相关的基因中。此外，新序列还纠正了GRCh38中的数千个结构错误，消除了每个样本中数以万计的假阳性变异，包括269个与疾病相关的已知或疑似基因的变异。

根据艾希勒的说法，事实证明，许多研究人员认为“垃圾或无关紧要”的那些重复序列实际上非常重要。

由于之前的GRCh38模型（称为参考基因组）是多个个体基因组的组合，基本上将一个人的基因组与另一个人的基因组“缝合在一起”，因此存在一些错误和重叠。而新的、完整的版本消除了这些缝隙，更能代表一个人的实际基因组的样子。

助力破解最后的“黑匣子”

由于重复区域的复杂性，剩下的8%的人类基因组多年来一直困扰着科学家。一方面，它包含具有多次重复的DNA区域，这使得使用以前的测序方法以正确的顺序将DNA串在一起具有挑战性。

早期，被称为“短读长”的DNA测序技术一次只能读取相对较短的序列，也就是提供数百个DNA碱基序列。这是20年前唯一可用的基因组图谱技术。例如，假设基因组的一部分由连续重复9次的句子“只工作不玩耍，聪明孩子也变傻”组成。该技术只会显示其中的一部分，例如“只工作”“聪明”“孩子也”等。研究人员将这些简短的部分拼凑在一起，组成了这句话，但他们无法知道它被重复了9次。因此，运用该技术仍然会在组装的基因组序列中留下部分空白。

对于10000块拼图，当它们看起来相似时，很难正确排列小块的区域，就像对重复DNA的小片段进行测序一样。但是对于500块拼图，正确排列大范围区域，即较长的DNA片段，要容易得多。因此，“长读长”技术应运而生。技术的巨大进步使得研究人员能够对那些难以阅读的重复序列进行排序。

在过去的10年中，出现了两种新的DNA测序技术——“长读长”技术，可在不影响准确性的情况下生成更长的DNA序列读数，甚至可一次阅读整个“句子”或“段落”。

牛津纳米孔（Nanopore）的DNA测序方法（超长读长）一次可读取多达100万个DNA字母，准确度适中；而太平洋生物科学公司（PacBio HiFi）的DNA测序方法（高保真读长技术）可读取约20000个字母，准确度近乎完美。这两种测序的结合使T2T研究人员能够避开区域的重复，并确保装配的基因序列高度准确。

还有一种工具是默芬（Merfin），研究人员用它来清理人类基因组中一些最困难的序列。默芬使准确测试序列成为可能，它可以感测可能不正确的代码并自动纠正错误。因为生成现代序列的技术更加准确，所以默芬仅用于最棘手的情况。例如，现有的技术很难评估像AAA这样的完全相同的碱基对，而默芬纠正了这种序列错误。

换句话说，科学家们曾经以为，重复区域的拼图有着几乎一样的颜色和形状，比如看起来都像蓝天。但现在，更先进的测序技术使科学家们发现，这些重复的碎片图案实际不仅仅是蓝天，还有草地和太阳。

破解生命“天书”最后“黑匣子”的第二个挑战是寻找仅包含一个基因组的细胞。标准的人类细胞包含两组DNA，一组是母系DNA，另一组是父系DNA，但T2T团队使用的是一组被称为完全性葡萄胎的细胞的DNA，其中仅包含父系DNA的副本。完全性葡萄胎是一种罕见的妊娠并发症，由来源于胎盘的细胞异常生长引起。

这种方法简化了基因组，因此科学家只需对一组DNA进行测序，而不是两组DNA。

基因组学一个关键里程碑

新序列补齐了人类基因组最后一块拼图，标志着基因组学领域的一个关键里程碑。

新序列揭示了关于着丝粒周围区域的前所未见的细节。这将大大增加人们对染色体的了解，尤其是着丝粒及其作用。因为该区域对于了解人类进化和遗传多样性以及对许多疾病的抵抗力或易感性至关重要。

同时，新序列揭示了以前未被发现的节段重复，即在基因组中重复的长DNA片段。在人类基因组的20000个基因中，大约950个起源于节段重复。这些人类特有的节段重复是新基因的储存库，这些基因会在发育的大脑中驱动更多神经元的形成，并增强额叶皮质突触的连接性——可能与人类特有的高级思维、推理、逻辑和语言功能有关。

而更准确的5条染色体臂图谱的呈现，或帮助科学家开辟新的研究方向，有助于回答有关染色体如何正确分离和分裂的基本生物学问题。

“生成真正完整的人类基因组序列代表了一项令人难以置信的科学成就，提供了人类基因蓝图的第一个全面视图。”格林说，“这些基础信息将推进许多正在进行的努力，帮助我们了解人类基因组的细节，这反过来又将为人类疾病的基因研究提供支持。”

除了完成组装拼图的医学研究意义之外，它还有助于回答：我们的基因组中包含什么使我们成为人类？与其他猿类相比，原始基因组中的一些空白基因现在被认为对于帮助人类制造更大的大脑至关重要。着丝粒的变异性也可能为人类祖先如何进化提供新证据。

现在，科学家能够随时间变化跟踪这些新的基因组区域，从而能够对一代又一代、不同起源的人或物种进行更严格的比较。

例如，艾希勒实验室的研究生哈维·吉塔特对与人类前额叶皮质扩张相关的基因家族TBC1D3的分析显示，在灵长类动物进化的不同点上发生了反复和独立的扩张。最近一次发生在约260万到200万年前，大概是人属出现的时候。令人惊讶的是，人类的TBC1D3基因家族在一部分样本中显示出显著的大规模结构变异。

研究人员在其论文中解释说，不同的人有着截然不同的TBC1D3基因家族的互补和排列方式。对于一个被认为对大脑功能如此重要的基因来说，这是令人意想不到的。科学家们还发现了LPA基因复杂结构的多样性，这种脂蛋白基因部分的变异性是血液中血脂水平异常导致心血管疾病的最重要的遗传风险因素。

研究人员还研究了SMN基因（一种运动神经元基因），其突变与某些神经肌肉疾病有关。对脊髓性肌萎缩区域（5号染色体上最难完成测序的区域之一）进行更好的序列识别，从而有助于确定疾病风险并进一步治疗，因为重复基因SMN2是最有效基因疗法之一的靶点。

此外，许多疾病与着丝粒中的结构重复有关，因此，新序列有助于科学家研究与基因相关的疾病。

众所周知，着丝粒在细胞繁殖时在DNA复制中发挥作用，如果显著改变它们在染色体中的位置，就可以产生全新的物种。当某些异染色质着丝粒基因过度表达时，癌细胞会疯狂分裂；细胞分裂和细胞之间遗传物质分配出错也可能导致产前发育的异常，如唐氏综合症或罗伯逊易位，而对着丝粒基因组的全面了解可能为治疗这些疾病打开新大门。

基于这些和其他发现，科学家们指出，新的参考基因组“揭示了对神经发育和人类疾病很重要的基因中人类遗传变异的前所未有的水平”。

这不是结束而是新的开始

此次，T2T团队使用的葡萄胎细胞只保留了XX染色体——一组重复的染色体，缺失了Y染色体。而完成单倍体基因组测序并不是“人类基因组计划”的最终目标和结果，更是一个新的开始。

艾希勒称：“我们已经完成了一个基因组。在接下来的几年里，将会有数百甚至数千个基因组。我认为我们对人类彼此不同的看法将发生转变，更复杂的遗传变异不仅对了解什么使我们成为人类很重要，而且对了解什么使我们与众不同也很重要。”

下一阶段，科学家们将对多个不同个体的基因组进行测序，以充分掌握人类的多样性、疾病以及人类与其他灵长类动物的关系。

好消息是，研究人员也即将发布来自不同来源细胞的Y染色体的完整序列。对这一新Y染色体序列的分析将出现在未来的出版物中。

此外，T2T联盟还有一个新目标——从不同种族或血统的人中提取350个基因组（目前已破译了70个基因组）。NHGRI基因信息学部门负责人亚当·菲利普博士说，该项目将总共花费数百万美元或更多。但与2003年人类基因组计划完成最终测序所花费的近4.5亿美元相比，这只是一个零头。随着新技术的出现，测序只会变得越来越便宜。

就目前而言，对每个人来说，测序自己的基因组仍然过于昂贵和耗时，但使用全新基因组序列来确定某些基因差异是否与特定癌症有关的研究已经在路上。

菲利普博士表示，在未来几年内，对一个人的整个基因组进行测序应该会变得更便宜、更简单。

“未来，当某人对其基因组进行测序时，我们将能够识别他们DNA中的所有变异，并利用这些信息更好地指导他们的医疗保健。”菲利普指出，“真正完成人类基因组序列就像戴上一副新眼镜，现在我们可以清楚地看到一切，而我们离理解这一切意味着什么又近了一步。”