郭晓强
Hi-C是一种分析染色体空间构象的高通量测序技水,它有助于研究者理解染色体三维空间结构、染色体之间相互作用以及基因表达的空间调控机制,相关结果深化了对组织发育和瘩症发生等过程的认识,而这种技术的诞生,缘起千科学家对染色体及其结构持续不断之探素。
染色体是一种存在于真核细胞核内的特殊结构,通过影响遗传物质DNA活性而对细胞行为的各方面发挥关键性影响。根据“结构决定功能”原则,染色体二维(three-dimension,3D)结构自然成为理解其生物学功能的基础,然而限于技术上的原因,对染色体3D结构的解析,进展一直较为缓慢。
染色体:遗传的物质和结构基础
首先回顾一下染色体研究的历程。
1879年,德国细胞生物学家弗莱明(W.Flemming)在研究细胞时发现,细胞核内存在可被碱性染料高度着色的物质,根据这一特性于次年将其命名为染色质(chromatin);1888年,另一位德国解剖学家冯.瓦尔代耶一哈茨(H.W: G.von Waldeyer-Hartz)创造出染色体(chromosome)一词。染色质和染色体两个术语存在一定差异。首先所描绘的状态不同:在细胞分裂间期,核内结构较为松散,无固定形态,一般称为染色质;在细胞分裂期,结构浓缩,产生可明显辨识的形态,称染色体。其次侧重点不同:染色质侧重于物质组成(类似“蛋白质”命名),而染色体倾向于结构(类似“线粒体”命名),因此提及二维结构时更多使用染色体一词。早在1869年,瑞士医生米歇尔(F.Miescher)鉴定出染色质的核心成分——核酸(主要是DNA);而1884年,德国科学家科赛尔(A.Kossel)进一步发现染色质的另一关键成分——组蛋白,从而明确了染色质的物质基础。
19世纪末,德国科学家博韦里(T.H.Boveri)和美国遗传学家萨顿(W.S.Sutton)基于细胞分裂过程中的染色体变化,提出“遗传的染色体决定”学说。美国遗传学家摩尔根(T.H.Morgan )进一步用果蝇实验证实了这一理论,从而肯定了染色体在遗传学乃至生命科学研究中的核心地位。1944年,美国细菌学家艾弗里(O.T.Avery)等借助肺炎球菌转化实验,证实DNA是遗传物质,进一步将染色体研究聚焦到了DNA。
1953年,沃森(J.D.Watson)和克里克(F.H.C.Crick)提出DNA双螺旋模型,阐明了DNA二级结构;1977年桑格(F.Sanger)发明酶法测序技术,并测定出一种噬菌体DNA的碱基排列顺序,从而弄清了DNA一级结构。2003年人类基因组计划的完成,标志着人类24条染色体(22条常染色体加X, Y两条性染色体)中DNA一级结构的全解析。
一个人体细胞含有23对染色体,如果將所含的DNA拉直,并首尾相连,总长度可达2米,而细胞核的直径只有6微米。可以想象一下,将一条马拉松长度(10公里)的细线,有序地放人一只乒乓球(直径4厘米)内,难度该有多大!特别是,细胞核内除DNA外,还包含多种其他成分、空间更显狭窄,因此DNA必然需要经过折叠、弯曲等一系列变化,从而使原本空间距离漫长的一条染色体的各局部或者不同的染色体之间互相靠近。现在的问题是,如何获悉细胞核内染色体(重点是DNA)的3D结构。
染色体构象捕获技术:3C时代的到来
尽管染色体3D结构十分重要,但由于维系这种结构的力很弱,远远低于维系一级结构的磷酸二酯键和维系二级结构的氢键(还包括碱基堆积力),因此研究起来困难重重。传统的方法主要借助电子显微镜技术,受分辨率所限,无法获得较清晰的图像。2002年,哈佛大学德克尔(J.Dekker)小组首先发明染色体构象捕获(chromosome conformation capture)技术[1],从而为解析染色体3D结构奠定了坚实基础,由于该技术3个英文单词的首字母均为C,故又称3C技术。
归纳起来,3C技术主要包括6步[2]。第一步,固定。使用固定剂(常为甲醛)将靠近染色体的2个区域相连,固定剂在这里发挥了“双面胶”的双向抓牢作用,使原本结构可变的染色体“静止”,以利于后续操作。如果一条染色体内部被固定,常形成环状结构。第二步,酶切。对固定后的染色体使用限制性内切酶处理。一般使用识别6碱基的限制性内切酶进行操作,理论上每4096(46)个碱基就存在一个酶切位点。通过酶切,可将环内部剪切为多个片段。第三步,连接。使用DNA连接酶使切断的DNA片段重新连接,形成一个DNA环。第四步,解环。被固定的DNA解除交联,使环状DNA线性化。第五步,扩增。例如,原来线性DNA存在A-E共5个片段,推测形成空间结构后,A和E可能靠近,因此在A片段和E片段靠近限制性内切酶识别位点之处,设计引物,并以线性DNA为模板,进行半定量或定量的聚合酶链反应(PCR)扩增。第六步,判定。根据不同引物组合的扩增效率,确定2个片段空间靠近的概率。3C技术主要确定“一对一”关系,就是线性距离较远的2个DNA片段之空间关系。例如借助3C技术阐明了,在红细胞内阶珠蛋白基因表达过程中,存在远距离调控的现象。
3C技术的发明在染色体DNA空间结构研究领域具有里程碑意义,该技术随后被进一步完善与发展,导致一系列衍生技术的问世。
4C(3C-on-chip或circular3C)是2006年在3C基础上的一种改进技术。接着3C技术的第四步,对解环后的DNA再进行限制性内切酶处理(此步骤一般用4碱基识别酶),然后连接环化产生一个新的DNA环,以此DNA为模板进行扩增。在引物设计方面,都在A片段靠近酶切位点之处,从而扩增到与A可能存在空间关系的片段,再借助基因芯片或者测序方法确定这些片段的位置。从原理上可以看出,4C解决的是DNA片段“一对多”的关系。
SC(3C carbon copy)技术是在2006年出现的另一版本的3C衍生技术。其原理在于,对3C第四步解环DNA两端加上接头(携带有通用性引物),然后在中间酶切位点处设计左向和右向引物,这些引物除与靶点配对外,还外加一段兼并序列,随后进行扩增,用扩增产物通过基因芯片或测序来确定具体位置。从实验过程可以得出,SC解决的是DNA片段“多对多”的关系。此外,3C还演变出ChIP-loop [chromatinimmunaprecipitation(染色质免疫共沉淀)-loop]技术,它是在3C技术酶解和连接两步之间补充一个染色质免疫共沉淀过程,目的在于研究DNA成环过程中相关蛋白质的作用。
尽管从3C演变到5C,极大地深化了对染色体片段间相互关系的理解,但仍无法从整体上认识染色体的3D结构。
Mi-C技术:3C到3D的转变
2009年,德克尔与基因组测序专家兰德尔(E.S,Lander)合作发明了高通量3C(high throughput 3C,Hi-C)技术[3],再次实现技术的升级。Hi-C技术在3C技术第三步(連接)的地方进行了修改,通过添加生物素标记的核什酸,使后续连接而成的环中携带生物素解交联产生的线性DNA,再借助机械力剪切,产生许多小片段DNA,利用亲和素特异性结合生物素的原理,将携带生物素核背酸的DNA片段富集,并对这些DNA片段的两端添加测序接头,进而采用二代测序和对结果进行比对分析:如果一个短片段DNA限制性酶切位点两侧的序列分别位于空间位置较远的两段DNA内部(既可为同一条染色体,也可为不同染色体),则初步判断两者可能存在空间作用,根据这种组合出现的频率多少而得出DNA片段间的关联性强弱,最终形成一个涵盖所有DNA片段在内的空间关联图,也即染色体3D结构
与此几乎同时,还诞生了ChIA-PET(chromatininteraction analysis by paired-end tag sequencing,染色质相互作用的配对末端标记测序分析)技术跟3C升级到Hi-C相类似,ChIA-PET可以看作ChIP-loop的提升版,从研究单环形成过程中的蛋自质作用转变为研究染色体3D结构形成中的蛋自质功能,从而为Hi-C提供重要的信息补充
3C及其一系列衍生技术,特别是Hi-C,为染色质3D结构研究提供了强大的工具,从而可以更清晰地观察染色体的空间构象,达到对染色体功能和基因表达调节的新认识,同时对染色体在细胞发育和疾病发生过程中的分子机制也能得到新的理解
H i-C的成就:更清晰的染色体结构
3C系列技术的快速发展,极大地提升了对染色体3D结构的认识传统认知是从DNA双螺旋(或超螺旋)直接到显微镜下可见的染色体形态。随着分辨率的提升,又观察到层次分明的一系列亚结构lal
染色质环(loop)是两段直线距离较远的DNA片段(如调节性DNA和编码基因启动子)由于空间靠近而形成的一种染色质结构借助Hi-C技术发现,人染色体含有10000个左右的这种结构.它们主要与基因的表达调控有关。根据成环后效果的差异.主要可分为两类:一类具有增强子(enhancer,一段增强基因转录的DNA)效应,成环有利于基因的表达;另一类具有绝缘子(insulator一段表达抑制功能的DNA)效应,成环使基因激活受阻活性染色质中心(active chromatin hub,ACH)是用干描述基因转录激活形成的环状结构,这种结构较为普遍,除红细胞p一珠蛋自基因外,还包含。一珠蛋白基因H19-Igf2基因座等在哺乳动物中,绝缘子与靶基因成环往往还需要CCCTC结合因子(CCCTC-binding factor,CTCF)辅助CTCF是一种抑制性转录因子,其介导的绝缘子与靶基因成环,通过占位效应破坏增强子成环,从而产生抑制基因转录的效果[5]。
通过Hi-C技术所做出的一个重大发现是,从染色体中鉴定出大量的拓扑相关结构域(topologicallyassociated domain,TAD)[6]。TAD是指一个DNA区域,区域内DNA片段更倾向于自我相互作用,而不与其他DNA片段接触TAD结构在果蝇和哺乳动物中普遍存在,既被认为是一种染色体亚结构,又被看作一种功能单元TAD通常由多个染色体环组成,而且其结构的形成和维持还要CTCF和黏连蛋白(cohesin)复合物等参与
借助Hi-C技术还发现,整个染色体可分为2类明显的区室(compartment)结构,分别称为区室A和区室B。与TAD的性质类似,区室结构也具有空间自我相互作用(A更倾向于A,B更倾向于B)、区室A聚集了活性表达基因,结构较为疏松,一般位于细胞核的中心区;区室B则极少含有编码基因,转录不活跃,结构紧凑,主要占据细胞核的外周区。区室结构的存在说明,染色体基因在空间上具有成簇性,从而有利于细胞核中心区的转录复合物在发挥活性的时候提高效率。
染色体域(chromosome territory)是指某条染色体倾向于占据细胞核内特定的位置,如人19号染色体富含基因,它通常占据活跃转录的中心区;而含基因较少的18号染色体,则更多地被排斥于外周区。染色体域的存在,说明单条染色体并非随机排布,而是根据需要有序地排列二不同染色体的占位以及它们之间的相互作用,对于它们功能的发挥有重要影响。
借助Hi-C等技术,已经揭示了真核生物染色体在细胞核内可形成层次分明的各级结构,从线性一级结构、双螺旋(超螺旋)、染色质环、TAD、区室、染色体域,一直到完整的多染色体3D结构。不同层次结构的有序性,是细胞正常功能的基础,而这些结构的紊乱,是多种疾病发生的重要原因。
Hi-C的应用:发育和疾病的新机制探索
借助Hi-C解析的高分辨率染色体3D结构,加深了对细胞发育和疾病发生的理解。
对小鼠早期胚胎的研究发现,受精后染色质呈现出一种明显松散的状态,DNA片段间相互作用较弱;8细胞期前,父本和母本染色体互相分离,占据自身的染色体域;胚胎植入前,逐渐形成高度有序的3D结构;3D结构的形成与DNA复制、DNA甲基化、组蛋白修饰等密切相关。这些知识加深了对胚胎发育过程中染色体结构变化的理解。
由于一级结构是空间结构的基础,因此DNA一级结构的异常,往往带来染色体3D结构的变化,常见的异常包括单核昔酸变异(single-nucleotidevariant,SNV)、微插入/缺失(insertion/deletions,indels)等。此外,表观修饰如DNA甲基化和组蛋白修饰等异常,也可破坏染色体3D结构。目前,对染色体不同层次结构中TAD异常与疾病发生之间的关联,研究得较为清晰。通常,TAD内部或边缘区序列或甲基化变异,可导致增强子和基因启动子之间异常结合,而造成基因异常激活,破坏基因表达的内稳态。越来越多的证据表明,非编码DNA变异可通过破坏染色体局部或整体空间构象,导致疾病的发生。
通过人为增加小鼠特定染色体位置的indels而改变肢体发育基因座周围的TAD结构,造成DNA片段间的相互作用异常,进而破坏正常基因表达模式,使肢体发育异常而出现畸形。这一发现使人们对许多非编码区基因突变或多态性的生物作用有了新的理解。
急性髓细胞白血病(AML)患者3號染色体内部存在高频倒位和易位,常常导致原癌基因EVI1异常激活。借助4C技术发现,这源于染色体倒位和易位造成原本无关的一段增强子与EVI1基因形成相互作用,而使基因“被动”高表达。
胶质瘤常存在高频的异柠檬酸脱氢酶1/2(isocitrate dehydrogenase 1/2,IDH1/2)基因突变。染色体结构分析发现IDH1/2突变可引发DNA甲基化增强,这一异常变化破坏了CTCF介导的绝缘子与血小板衍生生长因子A(platelet-derived growth factorreceptor A,PDGFRA)增强子之间形成染色质环结构,从而造成原癌基因PDGFRA组成型激活并引发胶质瘤。当绝缘子功能恢复后,PDGFRA表达显著下调。对于无IDH1/2突变的细胞,破坏其CTCF活性也可导致PDGFRA激活而增加致瘤性。这一发现揭示了胶质瘤发生的新机制,为治疗提供了新策略。
结肠癌中普遍存在胰岛素样生长因子2(insulin-like growth factor 2,IGF2)基因表达上调的现象。染色体结构分析发现,这源于一个TAD边界处出现结构异常(插入一段序列而引发串联重复),造成IGF2启动子和一个原本无关的超级增强子“无意间”结合,产生新的染色质环,进而引发原癌基因IGF2超表达,一导致结肠癌发生。
Hi-C的前条:充满挑战
3C相关技术的发展,革新了对染色体3D结构的认识:一是结构层次性(见上);二是相对稳定性,每种细胞都有自身相对固定的染色体结构;三是动态变化性,细胞周期不同阶段的染色体结构,存在一定程度的变化(而非恒定不变);四是结构可塑性,在细胞分化、重编程和组织发育等过程中都发生了染色体结构的局部和整体层面的重排;五是结构适应性,外界刺激如激素处理、营养胁迫、低氧环境和温度变化等都可引发染色体3D结构的重新组织,进而改变基因表达模式,增加环境适应性。
Hi-C技术为我们提供了令人着迷的染色体3D结构,但所揭示的内容仅是冰山一角,所提供的信息还较为有限。就目前的知识而言,DNA遗传信息主要由一级结构(核苷酸顺序)决定,3D结构也发挥了重要作用,但目前尚处于描述阶段,由于被认识和技术所限,还无法给出一个全面的理解与认识。
Hi-C技术还面临诸多挑战。首先,技术本身有待完善和改进,要一方面增加染色体3D结构分辨率,另一方面更精准全面地解析相关数据。其次,要探索更多发育过程中的染色体3D结构动态变化。最后,要全面研究多种疾病发生过程中染色体3D结构的变化,既有利于拓展对疾病机制的理解,又有望为疾病治疗提供新思路。
[1]Dekker J,Rippe K,Dekker M,et al.Capturing chromosome conformati-on.Science,2002,295(5558):1306.
[2]de Wit E,de Laat W.A decade of 3C technologies:Insights into nuclearorganization.Genes Dev,2012,26(1):11.
[3]Lieberman-Aiden E,van Berkum NL,Williams L,et al.Comprehensive mapping of long range interactions reveals foldingprinciples of the human genome.Science,2009,326(5950):289.
[4]Denker A,de Laat W.The second decade of 3C technologies:Detailedinsights into nuclear organization.Genes Dev,2016,30(12):1357.
[5]Dekker J,Mirny L.The 3D genome as moderator of chromosomalcommunication.Cell,2016,164(6):1110.
[6]Eagen K P.Principles of chromosome architecture revealed by Hi-C.Trends Biochem Sci,2018,43(6):469.
关键词:染色体 三维结构 3C技术 Hi-C技术 癌症