史竹兵,白晓辰,于洪涛③†
①得克萨斯大学 西南医学中心药理学系,美国得克萨斯州 达拉斯市 75390;②得克萨斯大学 西南医学中心生物物理学系和细胞生物学系,美国得克萨斯州 达拉斯市 75390;③西湖大学 生命科学学院,杭州 310024
生命体通过传递遗传物质给下一代进行繁殖,具有双螺旋结构的脱氧核糖核苷酸(DNA)是生命体的遗传信息储存载体。单个细胞内的所有DNA组成了有机体的基因组。不同类型生命体的基因组大小差异显著。细菌的基因组大小在60万~800万碱基对之间,单细胞生物酿酒酵母的基因组大小约为1 350万碱基对,而高等动物人类的双倍体基因组约为64亿碱基对,总长度达到2 m。真核生物的基因组主要包含在细胞核里,而细胞核的大小一般小于10 μm。如何将宏观尺度的基因组包装入微米级的细胞核中,是生命科学的基本问题之一。
在细胞中,基因组的组织不是杂乱无章的,而是形成特定的结构和形态。组蛋白结合DNA从而形成核小体结构,并被进一步包裹成染色质。真核生物通过细胞周期来完成自我增殖。基因组在细胞周期的两个不同时期——分裂间期和分裂期——具有不同的形态。在细胞分裂间期,基因组形成纤维样结构[1];而在细胞分裂期,染色体高度聚缩形成X形。一类被命名为染色体结构维持(SMC)的蛋白质复合物对于维持基因组结构至关重要。在脊椎动物中,两类SMC复合物——黏连蛋白(cohesin)和凝缩蛋白(condensin)——分别调控细胞分裂间期和分裂期的基因组结构[2-5]。黏连蛋白同时介导细胞周期中姐妹染色单体黏连,与凝缩蛋白一起保证了细胞分裂中染色体的正确分离[6-9]。黏连蛋白相关的研究一直是基因组生物学的重点领域。近几年的突破性科学发现正慢慢揭开黏连蛋白的神秘面纱。
在20世纪90年代, Kim A. Nasmyth以及Douglas Koshland等研究组先驱性的工作发现了黏连蛋白的主要组分在姐妹染色体黏连中的重要作用[10-14]。1999年,Kim A. Nasmyth研究组率先鉴定出酵母黏连蛋白的四个主要亚基,分别为SMC1、SMC3、SCC1(也被称为RAD21或MCD1)以及SCC3[14]。2000年,Jan-Michael Peters和Tatsuya Hirano研究组完成了脊椎动物,包括人类黏连蛋白的鉴定工作[15-16]。在脊椎动物体细胞中,SCC3有两个同源蛋白,分别命名为STAG1和STAG2。随后,SCC2、SCC4、PDS5、WAPL以及ECO1等对黏连蛋白起重要调控作用的蛋白也逐一展现在人们的眼前。
在脊椎动物细胞期末期,或者在酵母细胞G1期,黏连蛋白在SCC2-SCC4(在脊椎动物中被命名为NIPBL-MAU2)装载复合物的帮助下加载到染色质上[17]。反之,释放因子WAPL在PDS5的介导下促进黏连蛋白从染色质上释放下来[18-22](图1(a))。在S期,伴随着DNA的复制,姐妹染色单体被黏连蛋白黏连在一起[23]。乙酰基转移酶ECO1在DNA复制过程中被招募到复制机器上并乙酰化SMC3[24-27]。SMC3乙酰化抑制黏连蛋白的活性,拮抗WAPL-PDS5复合物的功能,从而使得部分黏连蛋白稳定地定位于染色质上。PDS5又可以增强SMC3的乙酰化,促进黏连蛋白在染色质上滞留[28]。在哺乳动物细胞中,sororin通过直接与WAPL竞争结合PDS5并抑制WAPL的作用来帮助黏连蛋白与染色质结合[29]。在细胞分裂期前期,包括Aurora B、CDK1和PLK1在内的对细胞周期起调控作用的蛋白激酶磷酸化sororin和STAG1/2,解除了对WAPL-PDS5的抑制作用,从而促进位于染色体臂上的大部分黏连蛋白解离[15,30-32]。这一“前期途径”(prophase pathway)目前仅在后生动物中被发现。在着丝粒区域,shugoshin结合STAG1/2并招募磷酸酶PP2A,通过去磷酸化sororin和STAG1/2来保护黏连蛋白,使之免于被WAPL-PDS5解离[33-34]。
图1 黏连蛋白介导基因组折叠与姐妹染色体黏连。(a)黏连蛋白在SCC2-SCC4装载复合物的帮助下加载到染色质上。伴随着DNA复制,黏连蛋白将姐妹染色单体黏连在一起。(b)黏连蛋白通过环挤压方式压缩基因组,而CTCF限制该环挤压过程。黏连蛋白与CTCF一起介导细胞周期间期染色质环和拓扑关联结构域的形成
当细胞从细胞周期中期向后期过渡时,泛素连接酶后期促进复合物/细胞周期体(APC/C)泛素化分离酶抑制蛋白(securin),导致其降解[35-37]。激活的分离酶(separase)可以切割SCC1,使得黏连蛋白从染色体上解离下来,引起姐妹染色单体分离[38-41]。姐妹染色单体的正常分离是细胞周期正常运行的前提条件。染色单体分离异常将导致非整倍性,从而引起细胞凋亡以及疾病发生[42-43]。因此,黏连蛋白的精确调控确保了有丝分裂中基因组的稳定性。
真核生物基因组构象极具复杂性并高度动态。近年来,借助于高通量测序技术的迅猛发展,高维度染色质构象捕获技术(Hi-C)成为研究基因组构象的重要工具,该技术在染色质构象捕获技术(3C)基础上开发而来。Hi-C数据显示人类细胞的基因组形成兆碱基对尺度的区室(compartment)[44],不同区室对应着不同的染色质活性状态:A和B区室分别具有开放、活性和关闭、非活性状态的染色质结构。区室进一步可分为不同的亚区室(subcompartment)结构[45]。区室结构与特异蛋白包括HP1α介导的相分离相关[46]。拓扑关联结构域(topologically associating domain, TAD)和染色质环(loop)是亚兆碱基对尺度的染色质组织方式[45,47-48]。染色质绝缘蛋白CTCF定位于染色质环和拓扑关联域的边界[45,49](图1(b))。在黏连蛋白释放因子WAPL或PDS5敲除细胞中,染色质高度聚缩成“细面条”样形态[18,50],暗示黏连蛋白在染色质压缩过程中也起着关键作用。事实上,诱导黏连蛋白亚基RAD21或其装载复合物降解削弱甚至瓦解了拓扑关联结构域和染色质环[51-53],而去除细胞中的WAPL或PDS5导致相反的作用[52,54]。
早在2001年,Kim A. Nasmyth提出环挤压(loop extrusion)模型来解释染色质压缩过程[55](图1(b))。该模型认为:ATP驱动的分子机器——环挤压器(如黏连蛋白),首先通过其上两个位点结合DNA,形成小的染色质环[55-56];接着,该分子机器依赖于ATP水解在DNA上移动,挤压形成大的染色质环;最终,染色质环的边界元素(如CTCF结合位点)将该分子机器制止在基因组上的特定位置,完成染色质的压缩过程。该模型与大量的实验证据以及分子动力学模拟结果相吻合[57-60],合理地解释了黏连蛋白和CTCF在染色质压缩中的特异功能,以及为什么锚定染色质环和拓扑关联域边界的一对CTCF结合位点倾向于会聚的取向[45,49,58,61-62]。然而,黏连蛋白介导的环挤压功能直至最近才被证实。2019年,Jan-Michael Peters研究组和笔者研究组相互独立地利用单分子成像技术实时观测到黏连蛋白介导的环挤压过程[63-64]。该过程需要装载蛋白的帮助,并依赖于ATP的水解。与压缩DNA的速率类似,黏连蛋白介导的环挤压过程的平均速率可
达到0.5~1 kb/s。除了压缩裸露的DNA,笔者研究组观测到黏连蛋白也能够以同样速率压缩核小体包裹的DNA分子。与之前报道的凝缩蛋白介导的不对称环挤压过程[65]不同的是,单分子成像显示黏连蛋白双侧同时压缩DNA,形成对称的DNA环结构。黏连蛋白被认为以两种方式结合DNA,分别是拓扑和非拓扑形式。黏连蛋白以拓扑形式结合DNA来介导姐妹染色单体黏连,但是以非拓扑结合形式来执行DNA压缩过程[63-64,66-67]。对于黏连蛋白是以单体还是以寡聚体的形式来压缩DNA仍存有争论,需进一步的实验验证。值得一提的是,黏连蛋白以二聚体来介导对称的DNA环的形成更能与模拟模型相符合[64,68]。
黏连蛋白的SMC1和SMC3亚基为ATP酶,由N末端和C末端形成的head结构域(HD)、中间的hinge结构域以及连接二者的长卷曲螺旋(coiled coil)区域组成。hinge结构域介导SMC1和SMC3形成异源二聚体[69-70]。SMC1的HD和SMC3的HD附近的卷曲螺旋区域分别识别SCC1的C末端winged helix结构域(WHD)和N末端的螺旋结构域(N-terminal helical domain,NHD),从而形成闭合的环形结构[70-73]。SCC1还通过中间的无规卷曲区域结合含有HEAT重复基序的SCC3、SCC2和PDS5[28,70,74-76]。SCC3可以招募多种调节蛋白,其中包括shugoshin和CTCF[33,77]。SCC2与PDS5竞争性地结合SCC1,调节黏连蛋白的装载与解离[78]。
之前的Rotary shadowing以及负染电镜研究发现黏连蛋白存在多种构象,包括“O”或“V”形环状、“I”形棒状以及卷曲螺旋完全回折的折叠构象[79-82]。对细菌SMC蛋白的研究显示ATP与DNA的结合会影响SMC复合物构象[83-85]。当没有ATP存在时,SMC1和SMC3的长卷曲螺旋区域毗邻在一起,形成“I”形棒状结构。ATP结合诱导SMC蛋白的HD形成同源或异源二聚体,同时使得它们的卷曲螺旋区域分开,形成“O”形环状结构。ATP的结合使得黏连蛋白环形结构分成两个区室,分别为由SMC1和SMC3组成的SMC区室以及由SMC1、SMC3和SCC1组成的kleisin/SCC1区室[86]。DNA在装载过程中被认为起始位于SMC区室,而在有丝分裂期,姐妹染色单体被认为处于kleisin/SCC1区室[86-87]。DNA进入SMC环亦会打开毗邻的SMC1和SMC3卷曲螺旋区域,促进“O”形环状结构的形成[85]。
近期,笔者研究组利用单颗粒冷冻电镜技术解析了DNA装载状态的人类黏连蛋白与装载蛋白NIPBL复合物的三维结构,揭示了黏连蛋白、装载蛋白以及DNA三者的相互作用方式[88](图2)。整个复合物尺寸约为200 Å × 150 Å(1Å=0.1 nm)。整体上,该复合物可以分为三层,分别为由SMC1与SMC3的HD和部分卷曲螺旋区域组成的第一层,由NIPBL保守的HEAT重复基序结构域组成的第二层,以及由STAG1与SMC1和SMC3的hinge结构域组成的第三层。三个层次之间紧密相互作用。RAD21依次与SMC3、NIPBL、STAG1以及SMC1结合,将三个层次串联在一起。72个碱基对、富含A/T碱基的双链DNA位于整个复合物的中央,与黏连蛋白四个亚基以及NIPBL直接接触。RAD21与DNA共同使得整个复合物处于相对稳定的构象。
图2 人类黏连蛋白、NIPBL与DNA复合物的电镜结构图。(a)复合物电子密度图。HD:head结构域;CC:卷曲螺旋。(b)复合物的三维结构卡通模型
在该结构中,ATP类似物AMP-PNP介导SMC1和SMC3的HD结合,形成“V”形异源二聚体。“U”形NIPBL的两臂广泛地作用于“V”形SMC1和SMC3异源二聚体的HD和卷曲螺旋,以“背靠背”的方式相互结合。DNA位于SMC区室,与SMC1和SMC3的HD相互作用,并处于它们的卷曲螺旋之间。DNA还被尚未鉴定的由SMC3和NIPBL组成的区室圈套住,并且在该处发生约45°的弯曲。NIPBL与DNA的结合使得SMC1和SMC3的构象发生大幅度改变。它们直接识别SMC蛋白HD上的参与ATP结合和催化的关键基序,从而刺激黏连蛋白的ATP酶活性。另外,NIPBL和DNA还与SMC3的乙酰化位点邻近,因此SMC3的乙酰化会直接影响NIPBL与DNA的结合,这解释了为什么SMC3的乙酰化会削弱它们对黏连蛋白的激活作用以及黏连蛋白的染色质压缩功能[89-90]。
NIPBL被SMC1与SMC3形成的异源二聚体和STAG1夹在中间。“U”形NIPBL与“U”形STAG1以反平行的方式依靠二者的左臂结合在一起。RAD21上靠近NHD和WHD的无规卷曲区域分别识别NIPBL和STAG1的“U”形中间凹槽。DNA横跨NIPBL两臂,并伸向STAG1。与单独的SCC3与DNA复合物结构[91]不同的是,在整个复合物中,DNA与STAG1的结合不是非常紧密,暗示着STAG1/SCC3在复合物形成之后,DNA的具体识别方式发生改变。
SMC1与SMC3 的hinge结构域对姐妹染色体黏连以及基因组折叠都有重要贡献[67]。在该复合物所处的构象中,SMC蛋白的hinge结构域异源二聚体与STAG1的“U”形底部直接结合,并接触NIPBL的HEAT重复基序结构域N末端区域。由于构象柔性,SMC1和SMC3上的大部分卷曲螺旋不可见。然而,为了处于该种特定构象,它们需要在中间区域发生大角度的弯曲,类似于之前所观察到的“折叠”构象[82]。SMC蛋白的hinge结构域异源二聚体可以结合单链和双链DNA[92],并被认为是DNA进入黏连蛋白环的入口[93]。单独的SMC蛋白hinge结构域二聚体形成赝对称的闭合环状结构[69],该二聚体具有两个界面。在DNA存在的情况下,hinge结构域二聚体的两个界面可以分别处于开放状态。晶体结构显示单链DNA可以结合在hinge结构域二聚体的表面,并与STAG1结合区域部分重叠,暗示两个相互作用之间互斥。
黏连蛋白与NIPBL以及DNA复合物的电镜结构向人们展现了DNA装载状态的黏连蛋白复合物活性构象,解释了众多已观察到但未能被详细理解的实验现象。科学家根据已有的实验证据提出了各种黏连蛋白折叠DNA的机制模型(详见Hassler、van Ruite以及Yatskevich等人综述论文[2,94-95])。单分子成像显示黏连蛋白伴随着DNA环的延伸而随之迁移[63-64],说明黏连蛋白在DNA折叠中没有固定的DNA结合位点。电镜结构显示黏连蛋白与NIPBL复合物处于折叠构象,并具有多个DNA结合位点[88]。但是SMC蛋白的hinge结构域并未参与DNA的直接结合,这与之前的所有机制模型不相符合。依据三维结构以及单分子成像结果,笔者提出另一种“尺蠖(inchworm)”模型来解释黏连蛋白在DNA上的移动机制。在该模型中,SMC1与SMC3的HD、STAG1以及NIPBL为DNA的结合位点。其中SMC蛋白的HD只有在ATP存在的时候才可以固定住DNA,因此ATP的结合和水解可以调节DNA的结合和解离并引起黏连蛋白的构象变化。ATP的水解引发黏连蛋白形成棒状结构,使得STAG1与SMC的HD(和NIPBL)分开,从而驱动黏连蛋白在DNA上向前移动。ATP的再次结合诱导折叠构象的形成,STAG1与SMC、NIPBL可以再次结合在一起,实现黏连蛋白在DNA上的移动。如此ATP结合与水解循环促进黏连蛋白在DNA上的持续移动。当黏连蛋白形成二聚体时,两个复合物可以相互作为锚定点,介导对称的DNA环的形成。这一机制仍需后续的实验证据支持。
黏连蛋白对于基因组稳定性起着不可或缺的作用,但对于黏连蛋白的研究仍存在许多问题和挑战。黏连蛋白的三维结构处于动态变化的过程,并与ATP、DNA以及各种调控因子的结合与解离相关。目前,我们仍不清楚在介导姐妹染色体黏连以及基因组压缩中,黏连蛋白分别如何与调节蛋白以及DNA互作,并发生何种相应的构象改变。虽然我们对黏连蛋白装载DNA时的构象有了初步了解,然而对于DNA如何进入黏连蛋白环,以及WAPL和PDS5如何介导黏连蛋白解离的分子机制仍不清楚。WAPL和PDS5一方面促进黏连蛋白从染色体上解离下来,另一方面对于染色质结构域边界的维持以及会聚规则具有一定的贡献[52,96]。这二者之间是如何协调的?作为结合染色质结构域边界元素的重要因子,CTCF是如何行使该功能的?黏连蛋白与CTCF可以调控特定基因的转录,这又是如何发生的?更重要的是,黏连蛋白亚基以及NIPBL的突变与多种癌症以及遗传性疾病包括德朗热综合征的发生相关[42,97-99],这又是怎样引起的?这些问题的解答将加深理解黏连蛋白的功能机制以及相关疾病的发生机理,并有助于寻找新的疾病诊治策略。