■文/田晓雪
H i-C 技术自2009年由美国马萨诸塞大学医学院教授乔布·德克尔(Job Dekker)研究团队首次提出以来,发展得如火如荼。这把揭秘三维基因组的钥匙将会在哪些方面助力科研、造福人类呢?
众所周知,一颗受精卵经过不断增殖、分化,可以生长发育为一个由种类高达200 余种、数目以万亿计的细胞组成的复杂机体。然而,共享一套遗传系统的细胞是如何发育成为形态、功能各异的组织器官的呢?作为主要的遗传物质,脱氧核糖核酸(Deoxyribonucleic acid,DNA)的展开长度可以达到2 米,这些DNA 是如何被放置在一个直径只有10 微米左右的细胞核中的呢?在这种极度压缩的环境下,它们又是如何精确调控细胞功能,维持机体稳态的呢?
长期以来,这些难题像一把“枷锁”,严重阻碍了生命科学的发展进程。高通量染色质构象捕获(High-throughput/resolution chromosome conformation capture,Hi-C)技术的出现,帮助我们深入探究基因组三维结构之谜,为基因研究提供了强大的推动力,是一把名副其实的基因钥匙。
以我们自身为例,人类体细胞的核内存在着彼此独立又相互联系的46 条染色体,它们主要由遗传物质DNA 和组蛋白组成。其中,DNA 一般以染色质丝的形式存在,染色质丝缠绕在组蛋白复合物上,形成串珠样结构。串珠样的染色质会进一步像电话线一样缠绕折叠,形成极度压缩而又高度有序的状态,分布在细胞核的特定位置,称为染色质疆域(Chromosome territories,CT)。简单来讲,染色质疆域指的是不同染色体占据的不同空间。一直以来,我们主要通过X 射线、显微镜等传统方式观察染色质和其折叠状态。受限于分辨率低、通量小等因素,我们对其折叠的具体机制知之甚少。作为基因组密钥,Hi-C 技术的出现为我们提供了新的视角。
Hi-C 技术源于染色体构象捕获(Chromosome conformation capture,3C)技术,以整个细胞核为研究对象,利用高通量测序技术,结合生物信息分析方法,研究全基因组范围内整个染色质DNA 在空间位置上的关系,通过对染色质内全部DNA 相互作用模式进行捕获,获得高分辨率的染色质三维结构。实验流程并不复杂,主要包括细胞交联(Crosslink)、酶切(Digestion)、环化连接(Ligation)、纯化建库(Purification and Library preparation)和测序分析(Sequencing)等步骤(见图1)。
图1 Hi-C 实验流程
染色质疆域是我们对染色质空间结构认知的第一步,Hi-C 技术不仅可以高分辨地解析出传统方法观察不到的染色质疆域,而且能进一步帮助我们解析出染色质疆域内各种亚结构。如图2 所示,按照基因组从大到小的顺序排列,依次为A/B 染色质区室(A/B compartments)、域(domain)和染色质环(Chromatin loop,CL)。具体来讲,放大染色质疆域的某一空间,我们可以根据染色质的活性将其分为A/B 区室。A 区染色质为活跃区,基因表达较为丰富,鸟嘌呤和胞嘧啶(GC)含量较高,通常高度转录,包含用于主动转录的组蛋白标记,位于细胞核的内部;B 区是关闭的染色质,结构紧凑,基因表达丰度和转录活性均较低,含有基因沉默的组蛋白标志物,位于核的外围。在A/B 区室中,我们将比例尺进一步放大,可以发现互相作用相对频繁的基因组区域,这些就是域,如拓扑相关结构域(Topologically associated domain,TAD) 等。TAD 是一个高度自关联的连续区域,通过明显的边界与相邻区域分离开来。TAD 边界通常具有大量的绝缘子蛋白和黏连蛋白,对结构的维持及稳定性具有重要作用。TAD 是一个独立的调控单元,在哺乳动物基因组中,TAD 通常由转录抑制因子CTCF 分割开来。CTCF 非常活跃,它可以和黏连蛋白复合物结合,把分布较远的增强子(enhancer)和启动子(promoter)等DNA 元件绑到一起,形成染色质环,作为染色质三维结构的基本结构。利用Hi-C 技术,我们可以从A/B 区室、TAD 和染色质环三个层次解析基因组的三维结构,更好地理解机体内正在发生的生理生化过程。
科学家利用Hi-C 技术以机体发育和衰老等生理过程为模型,增进了对染色质层级结构的发生机制及其与基因组功能关系的理解。其中,染色质环可以使空间上相隔较远的DNA 调控元件,如启动子和增强子等在物理维度上相互接近,从而调控基因转录、核糖核酸(Ribonucleic acid,RNA)剪接等重要的生化过程。TAD 作为更大、更保守的结构功能单元,通过限制、引导和促进增强子-启动子的相互作用,从而协调基因调控。此外,科学家还发现:在机体发育早期,TAD 和A/B 区室等染色质高级结构存在着缓慢建立的过程;在配子发生、合子基因组激活及组织分化发育等一系列事件中,包括TAD、A/B 区室等在内的基因组三维结构会经历剧烈且特异性的消失-重建过程。
图2 基于3C 技术的三维基因组的层次结构
基因组三维结构异常与表观遗传修饰如DNA修饰、组蛋白修饰等密切相关,在疾病的发生、发展中发挥着重要作用。Hi-C 技术帮助我们深刻认识到,许多疾病的发生、发展与基因组三维结构的异常存在相关性。当基因组结构发生变异,如单核苷酸突变、小片段核酸序列(50 个碱基对以下)的异常插入或缺失(Insertion-deletion,InDel)和染色体结构变异均可导致疾病的发生、发展。例如,染色质环的重要组成部分黏连蛋白发生突变时,会引起基因组的结构异常,导致Cornelia de lange 综合征(CdLS)等遗传病的发生。WNT6/IHH/EPHA4/PAX3 等基因位点TAD 区域遭到破坏时,会引起异常的增强子-启动子相互作用,从而使基因错误表达,导致先天性发育障碍。
基因组三维结构与病毒感染密切相关。科学家应用Hi-C 技术发现休眠状态下的乙型肝炎病毒(HBV)主要寄宿在19 号染色体的异染色质附近区域,但当其活化后,则会更多地寄宿在基因组转录活跃区域。同样的,对罕见的艾滋病自愈者进行Hi-C 数据分析发现,艾滋病病毒(HIV)主要存在于19 号染色体的中心粒卫星DNA 或KRAB-ZNF 基因位置,且多异染色体标记,与基因转录起始位置或开放染色质相距较远。
另外,基因组三维结构在肿瘤发生、发展中也发挥着重要作用。绝缘子蛋白CTCF 的旁系同源蛋白CTCFL 在多种肿瘤中表达异常,可维持肿瘤干细胞的活性,提高肿瘤风险等级,而且严重影响肿瘤药物的治疗作用。Hi-C 技术与其他组学技术的联合开发应用,为我们理解肿瘤的发生、发展提供了新的视角。科学家应用Hi-C 技术和多组学技术发现:相比正常细胞,乳腺癌细胞中约12%的基因组区域发生了A/B 区室的转换;前列腺癌细胞比正常细胞具有更多的TAD 和更小的TAD 长度,并且在具有拷贝数变异的区域里发现了许多癌症特异性的TAD 边界;在转移性胰腺癌细胞中,A/B 区室、TAD 和染色质环都发生了显著变化;在多发性骨髓瘤中,拷贝数变异的断点常与TAD 边界重合;对脊索瘤进行Hi-C、RNA 高通量测序(RNA-seq)等多组学分析发现,碳酸酐酶2(Carbonic anhydrase II,CA2)在脊索瘤中高表达,可以作为新的治疗靶点。由此可见,Hi-C 技术在疾病的诊断和治疗方面发挥着独特作用。
此外,Hi-C 技术在基因组从头拼接、物种进化树构建方面也发挥了巨大作用。目前,高通量测序方法只能够将基因组组装到重叠群/脚手架(Contig/Scaffold)水平,无法获得染色体水平的基因组信息。Hi-C 辅助组装技术可将Contig/Scaffold 挂载到不同的染色体上,提升基因组质量。真核生物间Hi-C 图谱的比较使我们对物种间差异有了进一步的认识,并有助于揭示物种进化和选择的奥秘。
随着Hi-C 衍生技术的开发应用,我们对细胞内的微观世界有了更深入的了解和认识。然而,我们还应该认识到,Hi-C 技术依然存在诸多局限性:分辨率较低、与高分辨率显微镜结果拟合度较低、实验门槛较高和数据分析难度较大等。但是,我们坚信,随着技术的更新迭代和多种组学技术的联合开发应用,我们将会慢慢揭开三维基因组的奥秘,助力疾病研究,为人类福祉作出贡献。