基于一维序列的三维染色质相分离:驱动力、过程与功能

2020-04-02 02:52:48刘思睿权慧田昊周瑞杨立江高毅勤
物理化学学报 2020年1期
关键词:染色质表观草原

刘思睿,权慧,田昊,周瑞,杨立江,高毅勤,,*

1北京大学化学与分子工程学院,北京 100871

2北京大学生物医学前沿创新中心(BIOPIC),北京 100871

1 引言

在生命有机体中,通常由DNA编码RNA,RNA经过一定修饰和处理后再翻译为蛋白质来行使细胞内的诸多功能。作为遗传信息的载体,DNA承载着海量信息,以人类为例,其基因组碱基对数目高达30亿对,且线性长度达到2 m。这样长链的DNA被压缩在几十微米量级的细胞核中1,势必经过高度复杂的折叠组装,同时为了实现高效的动态检索,这种折叠又势必是有序的。过去人们对染色质在较小尺度的分层组装结构已经有了较多认识。在真核生物中,DNA与蛋白质共同构成染色质,其中一类较为重要的蛋白质是组蛋白。DNA-组蛋白复合形成的核小体核心颗粒(nucleosome core particle,NCP)由双链DNA沿组蛋白八聚体缠绕1.7圈构成,其DNA长度约为147 bp (base pair,碱基对)2,相邻的NCP由长度范围为20-60 bp的连接(linker)DNA相连,形成宽度约为10 nm的“beadson-a-string”纤维结构3,并在H1组蛋白的辅助下,可能进一步折叠形成30 nm纤维4。在较大尺度上,染色质由转录相对活跃、结构相对松散的常染色质和折叠紧密的异染色质两种区域构成。间期染色质在核内空间非随机地占据不同区域从而形成染色质域(chromosome territories,CTs),且其在核内的径向分布在进化上具有一定保守性5。

近二十年来,伴随着染色质构象捕获技术的发展,尤其是近十年来以Hi-C6、ChIA-PET7为代表的基于二代测序的全基因组构象捕捉技术的提出,人们对千碱基(kb)、兆碱基(Mb)乃至数十兆碱基尺度下染色质高级结构的认识有了长足的进步,先后发现和验证了全局结构区室6(compartment)、局域单元TAD8-10(topologically associated domain)、染色质环11(loop)等高级结构。在不同类型的样本中,区室的翻转广泛存在,TAD则在组织间和进化中都相对保守12,13。

染色质高级结构在基因调控中起到重要作用,染色质结构在不同生命过程中如何受到调控而发生变化、并参与细胞功能的实现,一直以来受到人们的关注。多种因素与染色质结构的形成与调节相互关联,例如:染色质高级结构与表观遗传性质存在关联14,而以CTCF (CCCTC binding factor)为代表的结构蛋白在TAD边界富集从而与染色质的结构联系8,15,Bernardi等人发现GC含量等容区(isochore)的边界与TAD边界显著重合16,因此与染色质结构紧密相关等。近年来“相分离”作为一种染色质结构形成的物理机制受到了广泛关注,然而已有的相分离模型更多关注转录机器等蛋白复合物的结合对局域结构的影响,很少能体现DNA序列不均一性在其中的作用。序列不均一性作为最基本的性质之一,其在染色质结构形成中的作用,即不同细胞状态中多变的染色质结构形成过程对序列依赖的程度和方式,亟待开展研究。

本文系统综述了基于序列的染色质相分离模型的研究进展,着重介绍了在该模型框架下对不同生命过程、不同物种的分析与解释,以及相分离可能的物理机制。

2 染色质模型研究进展

借助Hi-C等实验数据构建染色质结构、理解其形成机制,是研究者们关心的一类重要问题。目前对不同物种的染色质建模工作已经取得了一些进展,如对酵母与果蝇的全染色质建模可以验证端粒与着丝粒的聚集及其对染色质的束缚效果2,17。酵母染色质的行为相对简单,其长度较短且固定在纺锤极体上,由简单物理定律就可以较好描述18,且可以通过高分子模拟重构出其间期的核区结构18,19。通过构建果蝇由表观遗传性质不同的区段构成的嵌段共聚高分子模型,可以较好地重复数个Mb尺度的Hi-C接触模式,且能够将TAD的形成与相图上的多稳态区对应20。

染色质结构模型可以完全基于机器学习等计算工具与方法,重复结构的一部分特性,也可以通过建立物理模型,对其结构形成机理进行探究。应用细胞的表观遗传等特性可以一定程度上对结构性质进行预测,除了Filion等人借助蛋白结合等数据定义果蝇的主要染色质状态21外,组蛋白修饰、染色质可及性、RNA-seq等多组学数据可以用于共同预测染色质的TAD内相互作用,且与启动子、增强子序列元件的接触有关22;有研究者认为TAD边界与“核心”相互作用位点(chromatin interaction hubs)仅依赖组蛋白信息就可以进行预测23;去除CpG岛后的低分辨率甲基化数据的长程相关性信息能够较好预测区室A、B24。

三维结构模型的构建可以帮助人们理解染色质结构形成的物理机制。研究者可以用高分子模型模拟染色质结构,比较分形球等模型的优劣6,25。针对细菌拟核所提出的概念性的“智能高分子”模型认为该结构能够使染色质对温度、pH等外界条件的细微变化作出敏感的响应26。通过视神经细胞的染色质结构重建工作,人们对常染色质、常规异染色质和结构性异染色质三种不同类型区段间作用力进行了系统研究,发现异染色质可能是区室化的驱动力27。Di Pierro等人利用组蛋白修饰差异区域之间相互作用能不同的假设,基于最大熵原理建立的三维结构模型具有不同染色体间通用的势函数28。Zhang等人对染色质结构的能量景观与相图进行了构建,研究了其液晶相态与手性变化,并认为染色质的构象形成过程可能由非平衡玻璃态的动态学与动力学控制29。这些模型探讨了表观遗传等局域性质差异对染色质结构的影响、以及染色质的热力学与动力学。

Hi-C接触数据可以被直接用于建立符合接触概率约束的染色质结构模型30。该方法通过计算不同序列距离下的平均接触强度得到接触强度与序列距离的一一对应,并假设序列距离与空间距离满足立方幂次关系,由此可以得到建立空间距离与接触强度之间的对应关系,并将任意两个单元间的Hi-C接触强度转化为两点间的空间距离约束。为了减少远程数据噪音的影响,增强方法的鲁棒性,该方法需要对远程接触强度进行粗粒化处理。应用这个方法构建的染色质结构模型能够较好满足约束,具有不打结的特性,且能够较好地重现Hi-C接触矩阵。将多种性质投影到该建模结构上,我们发现DNase超敏位点、RNA聚合酶(Pol II)结合位点等多种生物特性均在三维空间中聚集;区室A/B在三维空间中分离,且染色质环的尺寸与其聚集程度和在核内的分布有关,较大、较小的染色质环倾向于分别聚集;大尺寸的局域TAD结构更多位于区室B,更倾向于位于核膜一侧,并与核膜结合核纤层关联域有关。总的来讲,在这个模型中结构与表观遗传性质不同的区域均倾向于在空间内分别聚集。

由于染色质具有较高的核内体积占比,我们可以将染色质结构看作粗粒化单元聚集体并用分子拥挤(molecular crowding)模型对它进行描述31,32。分子拥挤效应传统上指有限体积内较高大分子浓度对体系自由能以及多种动力学性质的影响,狭义来说这些大分子应当是功能无关且可溶的33。对物种和相互作用都较为简单的模型体系,其物理化学性质借助理论、体外实验或模拟已经得到了较多研究34-37,主要表现为扩散的减慢、大分子较大的体积分数带来的体积排阻(volume exclusion)效应、以及生化反应自由能和速率的改变18。值得注意的是,大分子浓度和物种数的变化对体系拥挤效应的影响都具有非线性特征38-41,而复杂体内环境使得实验中惰性探针的选择较为困难,因而目前对核内环境分子拥挤效应的实验和模拟依然是较有挑战性的问题。Bancaud等人42用惰性荧光探针对活体细胞的扩散行为进行探测,认为拥挤效应导致的动力学与分型模型一致,且异染色质与常染色质的分形结构不同。Kim等人用不同拥挤条件下的随机环高分子的结构变化来模拟环境变化对染色质结构的影响,发现高分子的压缩程度随体积分数的变化存在极大值43;Wu等人的实验与分子动力学模拟也表明细胞尺寸对染色质的大小和位置都起着重要作用44。Walter等人则认为染色质自身的分子拥挤特性不论对异染色质的形成或维持都不必要45,其在拥挤介质中的高分子性质更可能是导致不同区室出现的驱动力18。

染色质的“相分离”模型是近年来受到较多关注的一类生物物理模型。早期一些研究者利用高分子模型对多亲分子与转录对染色质共定位的作用进行过讨论,例如两种基于高分子排空力(depletion force)的熵驱动模型均指出共转录可以导致共定位现象46,47;研究者认为包括转录因子、非编码RNA等因子在内的多亲性分子组装体(multivalent molecule assembly)在其中可能起到了桥联作用47-49。近年来对染色质相分离机制的讨论更多基于一些实验观察。比较具有代表性的是对异染色质结构蛋白HP1与异染色质分相行为的研究:人类的HP1a蛋白具有可溶性,但其发生N端磷酸化或与DNA结合后会形成与水相分离的液滴50;果蝇的HP1a蛋白在体外实验中表现出液-液分离,且在体内可以聚集形成液滴;异染色质区域的动力学与液体分相行为相似51。这些观察促使人们提出异染色质的形成可能由液-液分相介导,最近的模拟工作也表明异染色质间相互作用可能对视神经细胞中染色质结构的形成起到重要作用27。另一类较具有代表性的工作关注了转录活跃区域的相分离,转录活跃区可以发生空间聚集,研究者认为多种转录因子的结合可能与染色质环等局域结构形成有关52,53。

人们提出的染色质相分离模型通常需要结合因子的辅助,根据结合因子作用的不同,可以将这些模型大致分为两类54,一类是高分子-高分子相分离(polymer-polymer phase separation,PPPS),另一类是液-液相分离(liquid-liquid phase separation,LLPS)。第一类模型中,结合因子间不需要存在相互作用,它们与DNA的结合可以实现结合片段间的空间聚集,因而起到桥联作用,与不同桥联因子相互作用的区域之间可发生相分离。空间限域作用与体积排空力更多被认为是这类模型的驱动力,如CTCF与黏连蛋白(cohesin)介导的环推挤模型55-57,仅由CTCF结合位点就可以建模重现较多Hi-C实验结果56,57;转录因子YY1也被认为可能介导染色质调控网络建立58。另一类模型LLPS通常要求结合因子的多亲性,依赖于多亲分子间、以及多亲分子和染色质间的静电吸引等相互作用。这些多亲蛋白本身就可以发生聚集,且这种聚集常常与包含内禀无规区(intrinsically disordered region,IDR)的因子有关59,60。以OCT4-MED1体系为例52,OCT4转录因子在体外环境下不会自发形成液滴,但加入MED1的内禀无规区后可以自发形成大小在微米量级的OCT4-MED1-IDR液滴,其他多种转录因子也可以在MED1-IDR介导下形成液滴,进而将基因激活与相分离关联。但需要注意的是,染色质的相分离未必仅仅由上述两种简单机制之一介导,如HP1既具有和H3K9me3组蛋白修饰区域特异性结合的能力,又能够在体外环境下直接(在果蝇中)或与DNA结合后(在人类中)发生液-液相分离,其行为不能由上述任何单一模型完全描述。

先前人们提出的相分离模型均主要关注蛋白的结合能力或序列的表观遗传特性,较大程度忽略了DNA自身性质沿序列的差异分布,即序列本身作为“嵌段高分子”的性质对相分离过程的直接影响。已有的相分离模型可以帮助我们重建特定约束下的染色质结构或解释特定细胞状态下的染色质行为,而序列特性的引入则能够在统一框架下理解不同过程中的染色质结构变化及其驱动力。

3 序列不均一性与基于序列的染色质性质差异

哺乳动物的基因组包含大量非编码区,其序列具有多个层级的不均一分布的特性,而染色质组装同样是分层实现的。这种序列特征如何影响染色质三维结构是一个复杂且具有挑战性的问题。DNA包含腺嘌呤(A,adenine)、胸腺嘧啶(T,thymine)、胞嘧啶(C,cytosine)、鸟嘌呤(G,guanine)四种碱基,其中A-T、C-G两两配对。前人根据GC碱基含量沿序列的不同,将其划分为内部GC含量相对均一、区域间GC含量不同的等容区61,62。等容区边界不仅与TAD存在对应,而且低GC含量区与核纤层关联域有关16。这种不均一性可以被高频短序列的出现放大,如对AT含量为60%和AT含量为40%的序列,虽然AT单碱基含量仅相差0.5倍,ATATA随机出现的频率可以相差6.6倍之多63。借助这些短序列的识别蛋白,原本微小的差异可以被放大而影响结构。GC含量涨落的基础上,CpG二核苷酸沿序列的分布也具有不均一性,可以一维特异性聚集形成CpG岛(CpG island,CGI),并与基因调控密切相关,例如位于基因启动子(promoter)区域的CGI高甲基化与基因沉默关联,并通过多梳蛋白复合物与转录因子的结合起到调控作用64。

与DNA序列组成的不均一性对应的是,DNA序列具有显著的长程相关,且其自相关性在数十kb尺度上表现为幂次衰减,这一特征尺度恰好与基因和染色质环较为匹配11,65。幂次定律通常意味着尺寸不变性,其成因可能是多种多样的66,如复制-变异模型(duplication-mutation)基于碱基随机变异与复制/删除随时间的累积,可以得到长度分布服从幂次衰减的不同性质的序列区域,从进化的角度解释DNA序列的幂次定律67;Azbel用Ising模型来理解DNA中核酸序列的可能关联68-70。长程关联性的另一个典型例子则是相变点附近的临界现象,在临界温度附近涨落的关联长度满足幂次定律

式中ξ为关联长度,Tc为临界温度,vc为所满足的幂次。从而温度越靠近相变点,结构越能够表现出长程相关性。序列与结构中均存在的多层级特征和长程相关性暗示着对序列特性的研究可能是理解染色质结构形成机制的一个重要入口。1993年,Grosberg等人就曾提出DNA序列的长程相关性与其三维结构存在关联71。

从CGI分布的不均一性出发,我们基于相邻CGI距离分布与随机分布的差异,将序列进一步划分为具有高CGI密度的CGI森林区域和低CGI密度的CGI草原区域72。在随机情形下,将DNA序列等效为时间序列,则CGI的出现是一个泊松过程,相邻CGI的距离分布应当服从泊松过程的首达时分布

其中p(r)为相邻距离为r时的概率密度,α为常数。以此为依据,将CGI的实际相邻距离分布与该随机分布比较,注意到二者主要有两个标志性交点,在第一个交点前与第二个交点后实际分布密度均高于随机。这说明实际序列的CGI分布相对随机存在特异性聚集,从而第一个交点前的聚集对应CGI簇内相邻距离,第二个交点后对应CGI簇间最近距离。因此我们选取第二个交点位置作为该序列的特征距离,根据相邻CGI距离划分出了CGI富集的森林与贫乏的草原区域。

基于DNA序列、甲基化、染色质三维结构、结构与转录因子结合、组蛋白占据与修饰和基因表达量等数据的整合分析72表明,CGI“森林”和CGI“草原”两种区域的基因密度、功能、表达、表观遗传等特性均表现出不同(表1、图1)。森林区域的基因密度、尤其是管家基因密度更高,平均表达水平也高于草原区域。二者的基因功能也表现出不同,草原区域虽然基因密度低,但位于该区域的管家基因相对森林区域特异性地富集染色质结构重塑、DNA损伤修复、p53通路、氧化压力响应等功能,其中部分功能直接与染色质结构相关。与森林区域更高的基因密度和基因表达水平相对应,这些区域富集激活性表观遗传修饰,如H3K4me1、H3K4me3,同时它们的染色质更为可及,更容易结合与转录密切相关的Pol II蛋白;相比之下,草原区域不仅基因密度和表达水平较低,染色质也更不可及,相对更多包含结构性异染色质标记H3K9me3,甲基化的更强的周期性分布间接暗示草原区域的DNA缠绕更为规整。二者一定程度上分别构成了常染色质与异染色质的序列基础。

4 不同生命过程中基于序列的分相-混相平衡

在发育与分化、乃至疾病与衰老过程中,由几乎完全一致的基因组能够得到不同的基因表达与表观遗传谱,因此理解基因组如何影响表观遗传,组织与细胞特异的基因表达如何在发育与分化中不断建立并在衰老中改变等问题是十分重要的。CGI森林与草原区域的划分为在统一框架下理解序列与不同生命过程中染色质结构变化的关系提供了支持,这两种兆碱基尺度的元件在不同的细胞类型表现出不同程度的空间分离(图2),“森林”和“草原”在发育、分化和衰老过程中逐渐分离,同时多尺度的森林-草原空间纠缠具有明显细胞类型特异性,而且在分化中增强,从而辅助细胞身份的确立72。

表1 CGI森林与草原区域的性质差异Table 1 Differences between forest and prairie domains in sequential and epigenetic properties.

图1 CGI森林与草原区域的性质截然不同。(a) CGI、基因、组蛋白修饰、Pol II结合位点和DNase超敏感区位点沿序列的分布;(b)森林与草原区域的基因表达水平;(c)二者的结构性质差异。图1(b,c)改编自已发表工作72,出版商为Oxford University PressFig.1 Forest and prairie domains are distinct in properties.(a) IGV snapshot showing the distribution of CGI,housekeeping genes, histone marks, Pol II, and DHS distribution along the genome, (b) average gene expression levels in forest and prairie domains, (c) structural properties for forest and prairie domains.Fig.1b,c were adopted from published work72 with Oxford University Press as the original publisher.

CGI森林与草原区域在早期胚胎发育中整体上表现出系统性的空间分离,伴随着区域内相互作用减少与长程相互作用建立,这与该过程中区室与TAD等高级结构的建立73-76对应。但是在两个特殊的时间节点—合子基因组激活(zygotic gene activation,ZGA)和着床期(implantation),则表现出两种性质序列区域的混合77。细胞的分化伴随着异染色质的积累。早期胚胎与多能性细胞表观遗传序列差异较小,异染色质占比较低73,74,78,79。随着分化进行,同种类型和不同类型区域间的远程相互作用均增加,但同种类型的区域间相互作用增加更为明显,该现象在低CGI密度的草原区域尤为显著。对小鼠重编程样本,随着样本分化程度提高,中远程的区域间相互作用在多个尺度下均有明显增加,且对低CGI密度区的同类型相互作用这一效应最为明显。分化过程同时伴随着区室B占比的增加,与异染色质累积78,79和抑制性组蛋白修饰覆盖区域在分化中增加80,81的现象相对应。在小鼠神经发育中,区室B内部相互作用增加82,也与主要构成区室B的草原区域间相互作用的增加对应。在区域尺度上高、低CGI密度区进一步趋于空间分离,这一过程由非特异性相互作用驱动。伴随着结构分相的加强,两种区域的甲基化修饰等稳定表观遗传性质的差异也更为显著,表观遗传性质的差异程度也可以作为结构变化的一个反映。

除区域尺度的森林-草原分离,分化过程还伴随着多个尺度的森林-草原特异性混合,这种混相行为影响基因表达,能够有效解释组织特异性的调控机制72。在以40 kb为单元的较小尺度上,随着分化程度的增加,森林与草原趋向于具有更强的混合,且基因三维局域环境的森林或草原占比影响表达,处于草原环境的基因平均表达水平更低。序列与局域环境特性相反的“逆转区域”(处于低GC含量环境的高CGI密度的序列,或者相反)则特异性富集免疫与炎症相关的基因,暗示这些基因能够被更为灵活地调控,与它们的功能对应。这种调控能力根植于它们所处的序列位置,具有序列基础。对组织类型特异的逆转草原区域,即特异性地处于相对转录活跃的高CGI密度环境的草原,其基因功能与细胞类型有关,反映了局域环境对序列区域的特异性激活,是局域结构-功能关系的有效体现。在更大的尺度上,森林与草原区域在区室A/B的分配也与细胞类型相关,随着分化进行,位于转录活跃的区室A的草原基因表达量升高最为显著,且这部分基因与分化细胞的类型密切相关。由于草原区域的基因表达水平在不同细胞类型间的差异相对森林区域更大,草原区域的基因可能更具有在不同细胞类型中被特异性调控的潜力。

多种证据表明分相程度增强的趋势在衰老过程中得以持续,与之相伴的是低GC含量区局域相互作用的丢失83,相对于区域间相互作用,低CGI密度区域的区域内相互作用进一步减少,结构性异染色质和H3K9me3抑制性修饰空间聚集83,84,草原相对森林更加分离。

图2 不同细胞状态的染色质分相情况。(a)早期胚胎或多能性样本;(b)分化体细胞,其不同序列性质的区域既整体相互分离,又发生功能特异的混合;(c)衰老细胞,其草原区域间相互作用进一步增强;(d)增殖细胞,与普通细胞相比,森林-草原更为分相,且伴随着隔间B的累积。本图片改编自已发表工作72,出版商为Oxford University PressFig.2 A schematic picture of the forest-prairie phase separation in different cell types.(a) early embryonic or pluripotent cells, (b) differentiated somatic cells, in which regions with different sequential properties tend to segregate from each other although accompanied by tissue/cell specific mixing; (c) senescent cells, in which inter-prairie region interactions enhance compared to growing samples; (d) proliferating cells, which have more segregated chromatin structure than normal samples and have compartment B accumulated.This figure was adopted from published work72 with Oxford University Press as the original publisher.

对不断增殖的样本如肝脏与细胞系,它们的森林-草原区域间相互作用较弱、草原-草原间相互作用的提高在中长程尤为明显,意味着更多同类型DNA长程相互作用的建立。同时,草原与森林区域分离也更明显,而较大的森林-草原甲基化差异表明表观遗传的差异程度与序列差异在增殖样本中较为一致。与衰老体系不同的是,增殖细胞的染色质结构近距离相互作用增强,暗示着其染色质结构表现出局域作用增强的趋势。

实体瘤样本与不断增殖的细胞样本的表观遗传特性相似,相对正常体细胞,二者均具有更强的甲基化序列差异。对实体瘤的染色质结构和可及性、DNA甲基化与组蛋白修饰数据的联合分析表明,相比正常细胞,癌细胞的染色质中森林-草原分相程度提高,区室B增加,森林与草原区域的甲基化差异与表达量差异也在癌变过程中升高,这一点也暗示着分相程度的增强。癌变过程的相分离更为明显,可能与该过程中组织特异性的减弱乃至消失相关。相应地衰老过程中细胞特异性得以维持,可能达到与组织类型有关的染色质结构的局域稳态,且由于衰老过程特异的异染色质聚集,亚稳态的形成可能阻止全局稳态的实现。对癌变过程染色质结构变化、构效关系与表观遗传的研究可能为我们理解和治疗癌症提供新的思路。

森林-草原序列区域在不同过程中既有区域间分相的不断加强,又有细胞或组织类型特异的不同类型DNA序列的混合(图2),产生这些变化的原因既包含热力学驱动力,又有动力学的扰动。基于对染色质序列特征和三维结构的观察,我们猜测在分化与衰老过程中热力学稳定性增强,染色质结构逆转较为困难,这是诱导重编程过程需要ATP辅助染色质重塑因子的帮助85-87的一个可能原因。而在有性生殖过程中,已分化的配子的染色质结构进行重组73,74,76,所产生的早期胚胎细胞的染色质回到CGI森林-草原表观遗传性质差异较小且结构上相对混合的状态。对处于特定状态的细胞,分相-混相行为的平衡对于染色质结构的稳定和细胞身份的维持有重要意义,影响相分离的物理因素可能影响染色质结构,进而与细胞的分化、疾病状态等存在关联。

5 相分离模型的可能驱动力与物理影响因素

5.1 相分离的可能驱动力

在不同的细胞类型中,CGI森林和草原区域表现出了程度不同但普遍存在的空间分离,相同序列距离下,不同类型区域间的相互作用几乎总弱于同种类型区域间相互作用。这两种高-低CGI密度区的空间相分离行为体现了常染色质-异染色质分相的序列基础。已有的相分离模型更多基于对结合蛋白和表观遗传状态的观察,但实际上,CTCF与黏连蛋白对TAD的形成既非充分也非必要11,88,结合蛋白在TAD与区室消失又重建的有丝分裂过程中被大量剥离89-93,细胞衰老中的表观遗传重塑与染色质结构变化可能相对独立84,这都表明结合蛋白与表观遗传因素对染色质结构形成与维持的影响需要被更为慎重地考虑。小到TAD、大到染色质域的保守性,都暗示着更加内在的结构决定因素。

CGI森林-草原序列的不同确实为其结构差异提供了基础,森林与草原分别主要由type A与type B30两种结构元件构成,且其边界与TAD和区室边界均显著重合72,可见该序列划分较好分隔了不同结构特征。由于DNA序列带负电,而组蛋白带正电,草原规整、高密度的组蛋白缠绕意味着区域内的电性能够被更好地中和,因此我们推断这些区域相对更为疏水,从而在合适的温度与浓度下,草原区域倾向于发生相对森林区域的疏水分离。这种分段镶嵌式的序列可能为染色质的形成提供基本的驱动力。除Hi-C实验结果与分析外,荧光原位杂交(Fluorescence in situ hybridization,FISH)等其他染色质结构探测方法与体外实验的结果也支持这一推测。如庄小威实验室对转录活跃区、惰性区、多梳蛋白结合区三种染色质的FISH实验表明14这三种染色质不仅三维结构不同,而且多梳蛋白抑制区空间上更倾向于排除周围的活跃染色质,这一实验虽然是从表观特性的角度出发,其结果与草原序列和转录活跃的森林区域的结构差异和空间分离一致。草原序列相对森林的疏水分离与从蛋白角度观察到的异染色质标志蛋白HP1α在体外环境下的液-液相分离一致50,51,也与近期对异染色质相分离的实验观察和基于异染色质表观特征得到的分相更多由异染色质相互作用主导的模拟结果一致27。

除序列本身性质的差异,转录因子、RNA等的结合与协同作用可能对染色质结构的形成造成调控和扰动。结合因子对染色质结构可能具有不同的影响:广谱的结合因子通过自加强的结合,预期会进一步加强森林-草原的结构差异,有利于二者分离,如HP1对草原区域的结合;另一方面,具有细胞/组织特异性的结合因子(如YY1)辅助细胞类型特异的调控网络的建立,通过其结合将具有不同序列性质的区域聚集起来,参与森林-草原间细胞类型特异的相互作用。如与胚胎干细胞多能性密切相关的OCT4转录因子52,该转录因子在多个关键的多能性基因的超级增强子区域聚集,且可以与和它共定位的媒介子(mediator)在体外形成相分离的液滴,暗示着该细胞类型特异转录因子可能的结构调控作用。值得注意的是,媒介子不仅可以帮助OCT4发生液-液相分离,还可以帮助多种转录因子发生类液相沉积,并帮助维持细胞身份关键基因的表达52,94。该过程虽然可能较为动态,但细胞类型特异的转录相对稳定,依然可能辅助细胞类型特异的相互作用的建立。

除上述两种相对稳定的相分离或沉积过程外,多种蛋白和RNA的复合物还可能发生类液相沉积,这种液滴常与转录有关,不仅尺寸较小,而且更为动态。实验上发现RNA与转录因子共同介导转录活跃相从不活跃相的相分离53;外显子和剪切事件更多的基因趋向于相互聚集82,同样暗示了相似转录性质区域的聚集可能由RNA与转录因子介导。人为控制的RNA大量转录能够影响染色质的局域结构,但这种影响非常动态,转录停止后可以迅速消失95,96。除RNA与转录因子,Pol II与染色质结构的形成也关系密切,65%的RNA聚合酶Pol II结合位点与染色质环形成有关,且部分Pol II位点倾向于聚集97,暗示着Pol II对转录活跃的局域相的动态形成可能的贡献。与转录尺度相匹配地,核小体精度的micro-C技术可以探测更加精细的染色质结构98,99,从而将基因的动态调控与染色质局域结构变化关联。该技术发现酵母染色质中存在比TAD更小的microTAD结构,而Pol II协助的转录对染色质结构的调控作用显著体现在基因尺度100,佐证了Pol II结构调控的局域特性。从这个角度看,高CGI密度的森林区域与低CGI密度草原区域与转录复合物的非特异性结合能力差异可能使前者更多提供了具有激活性动态调控潜质的序列基础,从而二者在平均结构行为上依然表现出稳定差异与相互分离。转录因子密度也可能影响TAD的形成101。除实验观察外,目前已经有一些高分子模型探讨了转录因子及其它可能的多亲分子对染色质空间相互作用的介导作用47-49,102。此外,管家基因有较小的基因调控网络,倾向于自反馈97,103,而世系特异的基因更依赖于长程相互作用,倾向于形成更复杂的调控网络103,104,也暗示了细胞特异性因子在结构调控中的作用。与之对应的是,micro-C实验表明酵母的基因间相互作用更多发生在近程98,99,与其单细胞从而不具有细胞特异性的生物性质一致。

蛋白、RNA等分子与序列的结合往往与表观遗传修饰关联,但不同的表观遗传修饰与染色质分相行为的耦合尺度可能存在差异。组蛋白的酰基化、磷酸化、泛素化等修饰对染色质局部结构的动态调控有重要影响:组蛋白超乙酰化可能通过增强电荷互斥造成高密度染色质的解聚而使染色质更为均一,并改变染色质的拥挤效应105;磷酸化修饰与有丝分裂及其中的结构变化密切相关106-108;泛素化修饰与转录密切相关109,和Pol II延展及转录延伸中的结构重建均有关联110,体外实验中111H2B的泛素化修饰不利于30 nm纤维的形成,且能够提高其生化可及性,对纤维结构造成影响。目前对这些修饰的研究更多集中在核小体或数个核小体的空间尺度上,对体内更大尺度结构影响的探讨相对较少。值得注意的是,乙酰化修饰在有丝分裂中被大量擦除89,112,磷酸化修饰直接与细胞周期有关,而泛素化修饰与转录动态调控相关,这些修饰因而较为动态,更可能与空间、时间尺度较小的液-液相分离关联。在细胞周期中组蛋白甲基化修饰则相对稳定89,DNA甲基化的平均行为相对其他修饰有更强的细胞身份特异性,因而更可能与发育、分化、衰老等过程中同种细胞类型内相对稳定的分相-混相行为关联。

有丝分裂伴随着TAD与区室结构的消失与重建113,114。在这个过程中,除少数“书签蛋白”与一些表观遗传修饰得以保留外,HP1、多梳蛋白等大量结构蛋白从染色质剥离,酰基化修饰从序列上擦除89,112。但是,重建的染色质不仅能够重新结合这些蛋白和发生修饰,而且能够维持相似的结构特征,如转录活跃区的相对靠近6,115,因此在这个过程中,序列和序列依赖的表观遗传修饰可能在一定程度上指导了染色质重建。随着有丝分裂的不断进行,染色质的结构调整以及表观遗传和转录因子等的剥离与重新发生或结合类似重复退火过程,使表观遗传特征逐渐趋于和序列特征一致,而表观遗传特征又能加强不同序列区的物理差异,从而有利于森林-草原区域的进一步分离,形成了正反馈。因此染色质相分离可能借助重复进行的有丝分裂实现和增强。

染色质的相分离过程由热力学因素与动力学因素共同介导,是趋向基于序列差异的热力学稳定态和转录因子、能量驱动的结构重整酶等生物分子提供的动力学微扰共同作用的结果。我们提出一维马赛克序列在三维空间的相分离可能是染色质组装和大规模沉默的一个潜在驱动力,这一驱动力与细胞类型特异的表观遗传修饰与转录因子共同塑造了不同细胞类型中的染色质结构。在更小的时空尺度上,动态的表观遗传修饰与RNA、TF、Pol II等结合因子可能共同调控染色质的局域相分离,而森林与草原区域的序列差异带来了其动态调控潜力的差别,从而表现出平均行为的差异。

5.2 物理因素对结构的可能影响

对具有几乎完全相同序列的不同器官,所处环境的区别可能与其不同的染色质分相能力有关。肝脏染色质的区域内相互作用更强,其草原-草原区域间相互作用在中长程上明显较高,三维结构模型也表现出较强的森林-草原区域分离。此外,肝脏样本染色质区域间具有较大的甲基化水平差异,且其甲基化自相关函数表现出相对其它体细胞样本显著更强的长程相关72,意味着其表观遗传特性更好地遵从序列差异。与肝脏形成对比的是,大脑皮质染色质结构较为松散,森林和草原两相混杂。脑的森林-草原甲基化水平差异小,且甲基化自关联衰减较其他体细胞更快116,结构和表观遗传特征都表明它是一个更为混相的体系。

我们注意到肝脏是人体温度最高的器官117,而脑的温度较低,二者结构的差异可能与森林-草原的疏水分相作为一个熵驱动过程、升温有利于相分离加强有关。这些现象的因果关系值得进一步研究。从另一方面来看,肝脏具有增殖活性,可以多次分裂,而大多数神经细胞很难增殖,有丝分裂次数的差异也有可能带来染色质结构,特别是相分离程度的差异。进一步来讲,肝脏与脑中不同的森林-草原相互作用模式暗示着它们具有不同的基因调控机制。肝脏的森林、草原区域相对分离,其特异性基因可能在森林或草原序列上相对更为聚集,从而对不同序列性质的区域间的特异性相互作用需求更少;而脑的特异性基因调控可能更加需要部分特异性草原基因与森林的相互作用,建立森林-草原纠缠的调控网络。小鼠中,大脑皮质的温度低于脂肪组织与肝脏,肝脏温度又高于脂肪118,这三种组织的温度也与其染色质结构的相分离程度一致。除哺乳动物,水稻秧苗在低温压力下染色质结构变得更加松散119,也暗示着温度与染色质结构的关联。

人类、小鼠等物种明确的森林-草原区域划分暗示着染色质具有较强的相分离趋势,因而是温度敏感的。对一些生命过程如疾病发生、胚胎发育,温度的控制可能与这些过程的染色质结构变化存在关联。在早期胚胎发育过程中,染色质结构从森林-草原相对混合的状态趋于更强的相分离,但在ZGA与着床期出现特异混相,恰好与母体在受孕后的温度升高与ZGA和着床期两次特异性温度降低的时间节点对应77。该现象对小鼠样本与人类样本均存在,可见温度控制对二者的胚胎发育起到重要作用,也与相分离模型的预测一致。另外,神经退行性疾病患者的脑样本中森林-草原的甲基化差异较普通脑细胞更小,甲基化自关联衰减更快,人类阿尔兹海默症与痴呆(Alzheimer’s disease and dementia)的发展和体温降低有关120,121,暗示着这些疾病中染色质相分离及相分离温度效应存在值得深入探讨的关系。与之对应,癌变则伴随着体温的升高122,这与癌症染色质结构趋于分相的观察一致。另外,炎症也伴随着局部温度的升高123,我们推测这可能与森林、草原区域中免疫基因的分别聚集有关。衰老过程伴随着分相的加强,与之对应,低温可能与啮齿类、小鼠和人的寿命延长有关124-126。多个过程中染色质或表观遗传差异的变化均与其温度变化对应,暗示了温度对于染色质结构中相分离的影响,以及在生命功能的调节中的重要意义。

从染色质相分离模型的角度出发,不同物种的DNA序列差异程度和区域长度的分布等特征不同,从而可能具有不同的染色质分相能力,形成不同的三维结构,进而具有不同的温度响应模式。相对于变温动物,恒温动物的序列不均一性更强127,其温度区间窄且具有物种特异性128;爬行类的体温区间则更宽129。按照相分离机制,较强的序列分布差异对应较窄的相变温度区间,恒温、变温动物的体温控制范围与其序列差异可以较好对应。对比古老物种与现代物种的CpG密度分布,在早期演化过程中CpG密度逐渐降低,但其沿序列分布的差异较小,而较为后期的演化过程(如冷血动物与温血动物的分离时)则更多表现为CpG沿序列的差异增大,相应地CpG平均密度的变化很小。之前的研究指出,CpG甲基化/去甲基化是导致CpG向TpA的演化的一个可能原因130。而二核苷酸倾向于空间分离的特性与随机变异可能共同导致了不同物种中的基因组变化。不同物种的DNA序列可能影响其染色质组装,这种序列-结构关系提供了更为丰富的关于进化的信息。

6 总结与展望

在染色质结构的形成与调控过程中,相分离机制起到的作用引起越来越多的关注。基于序列的相分离模型,将序列不均一性对染色质结构的影响纳入考虑,通过对序列的有效划分,可以得到基因、表观遗传和结构性质差异明显的两类区域,为TAD结构形成和染色质隔间化提供了序列基础。

DNA序列的森林和草原区域对表观遗传区域的有效划分使我们能够建立DNA序列和染色质状态之间的广泛联系,而染色质结构的序列依赖性为讨论不同生物过程中染色质结构的演变提供了一致的讨论框架和机制。在序列差异的热力学因素与转录等动力学因素的共同驱动下,在早期胚胎发育、分化、衰老等过程中,一方面森林-草原区域的分相不断加深,另一方面多个尺度下细胞类型特异的森林-草原间相互作用辅助细胞身份建立。基于该模型,一些物理因素可能对染色质结构造成影响,对相同的序列,不同温度对应结构的不同相分离程度,温度变化可能影响发育、分化等生命过程,温度也与疾病等特殊状态对应;对不同物种,序列特性本身影响染色质的分相模式,并可能与其温度适应范围与温度响应能力有关。

一维序列与三维结构的形成与演化背后的物理和化学原理还需要进一步探索。从物理上理解不同细胞状态和组织的基因调控网络,有利于更高效和系统地寻找致病的关键因子,乃至寻找更好的治疗方案。我们也希望从物理的视角理解不同物种的序列差异如何影响染色质组装,序列的差异如何在演化过程中逐渐产生,演化路径如何被物理性质所影响或驱动。为了达到这一系列目标,我们需要应用生物信息学和机器学习工具,系统、全面地分析已有实验数据,充分利用统计物理学和多尺度分子模拟方法构建物理模型,并与实验测量相结合。近年来,不同组织与细胞状态的表观遗传数据快速增加,表观遗传与生物功能的联系逐渐建立,为多组学数据的联合分析提供了可能。单细胞数据的积累有助于理解染色质结构的细胞差异与组织差异之间尺度和行为上的联系与区别。DNA Zoo131等项目对多物种结构、基因组等数据的系统搜集大大方便了跨物种的比较研究。粗粒化模型从Hi-C等实验数据重构染色质结构可以实现染色质三维组织方式的可视化,有助于从原理上理解三维结构的形成,结合更高分辨率的ChIA-PET 数据与全基因组覆盖的Hi-C数据,可能实现更高精度的结构重建。在更小尺度上,单核小体分辨率的micro-C等技术可以探测基因环、30 nm纤维等精细结构的形成,补充染色质折叠的重要环节;全原子模型分子动力学模拟与 NMR/2-D IR技术可以用于验证相似DNA序列倾向于空间聚集的猜测。通过发展深度学习方法,借助深度卷积神经网络(deep convolutional neural network)等方法优化自由能景观,可能从不同分辨率重构染色质,可解释的机器学习模型为理解一维信息影响结构和表达的方式以及贡献程度提供了工具。生命过程虽然多种多样且高度复杂,目前的分析暗示着它们之间存在密切的联系,对这些过程的整体的理解不仅是我们的愿望,随着各种数据的不断积累也越来越可能成为现实。

猜你喜欢
染色质表观草原
染色质开放性与动物胚胎发育关系的研究进展
讲解《草原图》
哺乳动物合子基因组激活过程中的染色质重塑
《当周大草原》
散文诗(2021年22期)2022-01-12 06:14:28
一生的草原
散文诗(2021年22期)2022-01-12 06:14:10
绿盲蝽为害与赤霞珠葡萄防御互作中的表观响应
河北果树(2021年4期)2021-12-02 01:14:50
钢结构表观裂纹监测技术对比与展望
上海公路(2019年3期)2019-11-25 07:39:28
染色质可接近性在前列腺癌研究中的作用
“哺乳动物卵母细胞生发泡染色质构型的研究进展”一文附图
生物学通报(2019年2期)2019-06-15 01:33:42
例析对高中表观遗传学的认识