刘玉兵,刘辰辰,千日成
(同济大学附属第十人民医院,上海 200072)
哺乳动物精子与卵子受精后形成合子,来源于精子和卵子的染色体重构为一套新的染色体。初期源于精子和卵子的基因组是转录沉默的,一直到合子基因组激活(zygotic genome activation, ZGA),合子基因组开始转录,胚胎由母型控制逐步转换为合子型控制[1]。ZGA不是一个瞬时的事件,而是一个合子基因逐渐激活转录的过程。主要包括两个阶段:早期卵裂期间发生的小规模合子基因激活(minor ZGA),晚期卵裂期发生的大规模合子基因组激活(major ZGA)[1-2]。不同物种之间ZGA的起始时间和持续时间差异很大,但是在同一物种内,该过程受到严格控制,如人类minor ZGA主要发生在4细胞阶段,小鼠minor ZGA主要发生在2细胞阶段[3]。ZGA是早期胚胎继续发育的必要条件,它如何起始以及如何调控一直是个谜[4]。在低等动物中,ZGA是由母源的先导因子控制的。如果蝇中母源的Zelda基因在ZGA中发挥主要作用[5-6],但是在哺乳动物中尚未找到控制ZGA的母源因子。
DUX4(double homeobox 4, DUX4)最初在面肩肱型肌营养不良症(facioscapulohumeral muscular dystrophy, FSHD)患者肌肉细胞中被发现,其异常表达会激活人类早期胚胎特异基因和逆转录病毒转座子,从而引发细胞凋亡[7-8]。有不同的研究团队[9-12]在细胞模型中同时发现DUX4可以激活数百种ZGA基因(如ZSCAN4、KDM4E和PRAMEF家族基因)和逆转录病毒转座子(MERVL/HERVL家族),DUX4可能是调控人类胚胎ZGA的关键转录因子。为了增强对早期胚胎基因组激活机制的深入了解,本文对人类DUX4及其在小鼠中的同源基因Dux在早期胚胎发育中的作用进行综述。
人类DUX4基因以11到100个单位的数组嵌套在4号染色体的D4Z4大卫星重复序列中(图1),灵长类动物的DUX4基因位于端粒或着丝粒周围区域,而小鼠Dux串联重复序列位于类似于亚着丝粒的小鼠特异性染色体融合点附近[13]。
每个D4Z4重复单元都包含1个启动子和1个DUX4开放阅读框,但缺少聚腺苷酸化信号(polyadenylation signal, PAS),导致DUX4转录产物迅速降解[14]。只有从4qA等位基因上的远端D4Z4单元中起始的转录产物可以延伸至重复序列之外,并到达侧翼pLAM序列中的PAS,所得的多聚腺苷酸尾巴可稳定DUX4 mRNA,并使其翻译成蛋白质[15-18]。DUX4属于双同源盒转录因子,双同源盒转录因子是真兽类哺乳动物所特有的,特征是两个间隔很近的同源框(paired-related-domain,PRD)[19]。同源框可以编码60个氨基酸的同源域(homeodomains, HDs),以头对头的方式与DNA结合[20]。
DUX4基因的过度表达与面肩肱型肌营养不良症(FSHD)有关,在人类肌肉细胞和干细胞中过表达DUX4,会引起早期ZGA基因上调,包括ZSCAN4、ACRO1、HSATII卫星重复序列相关基因以及HERVL逆转录病毒转座子等[22-23]。DUX4 mRNA及蛋白在人类胚胎ZGA之前(2细胞到4细胞阶段)表达,而其预测的靶基因转录产物约出现在2细胞阶段,在8细胞阶段达到峰值,与ZGA过程重合[9-10, 24],提示DUX4可能有直接激活ZGA转录谱的作用。
在过表达DUX4的人类胚胎干细胞(human embryonic stem cells, hESCs)和肌肉细胞中获得的ChIP-seq(chromatin immunoprecipitation sequencing)数据显示,DUX4主要与早期ZGA基因转录起始位点(transcription start sites,TSS)区域结合,与母源基因和晚期ZGA基因结合较少。DUX4还与一些基因的转录起始位点的相邻序列结合,可通过替代启动子以驱动其靶基因的表达[23]。将DUX4结合基因与人类胚胎单细胞RNA测序数据比对发现,大多数早期ZGA基因与DUX4结合位点重叠。另外,DUX4还被募集到几组转座子(transposable elements,TEs)上,特别是内源性逆转录病毒转座子,如HERVL、MER11B和C。DUX4还与激活的长末端重复序列(long terminal repeat,LTR),如MLT2A1、MLT2A2和HSATII卫星序列结合[25]。所有这些与DUX4结合的基因、转座子和重复序列,其表达在ZGA时也增加,提示DUX4可能通过与靶基因结合,启动了合子基因组的转录激活。以上结果仅仅是在细胞模型中进行研究和推测,由于材料和实验方法的限制,DUX4在人类胚胎中的作用研究进展缓慢。
近年来,科学家成功开发出微量起始样本的染色质开放性(chromatin accessibility)检验技术,实现了人类胚胎染色质开放性和转录组的同时检测[26-29],DUX4在人类早期胚胎发育过程中的结合位点和靶基因表达情况才得以研究。结果发现,2 782个DUX4结合位点(通过ChIP-seq技术在hESCs中检测到的)中有697个在胚胎早期阶段染色质是开放的。进一步研究发现,DUX4结合位点在2到8细胞阶段之间表现出染色质的瞬时开放,但许多DUX4靶基因(将位于DUX4结合位点上10 kb或下游10 kb的基因定义为DUX4靶基因)的表达水平却并不是同步变化的。主要有3种不同的模式,第1组基因在4和8细胞阶段瞬时增加,如ZSCAN4、LEUTX、KDM4E和KLF17;第2组基因在胚胎发育过程中表达量逐渐下调,这些可能是母源基因;第3组中的基因显示出逐渐增加的表达趋势,这表明DUX4可能启动了其他在胚胎发育后期起关键作用的转录因子[26-27]。推测DUX4主要通过与靶基因结合,在早期诱导广泛的染色质重塑来触发ZGA。但是如何在胚胎水平验证这一结论,目前仍是一个难题。利用CRISPR/Cas9技术显微注射小鼠胚胎进行Dux基因敲除,敲除效率只有5.6%,不适合在人类胚胎发育中进行基因功能研究。本课题组前期利用腺嘌呤碱基编辑器(adenine base editor, ABE)将多拷贝基因簇DUX4基因的起始密码子进行破坏,在人类胚胎中实现了DUX4基因的沉默(编辑效率可以达到80%,见图2),发现DUX4沉默可以引起胚胎早期发育阻滞,转录组测序发现DUX4主要影响合子基因组激活和母源基因降解过程,DUX4可能是人类胚胎基因组激活启动的关键先锋转录因子(图3)。
图2 在人类胚胎中实现高效的DUX4基因编辑
图3 DUX4基因在人类早期胚胎发育中的作用
综上所述,通过胚胎干细胞模型和胚胎模型发现,人类DUX4主要通过与靶基因和卫星重复序列以及逆转录病毒转座子结合,调控染色质开放性,进而诱导早期胚胎ZGA相关基因和特异性重复序列表达,DUX4是ZGA的一个重要的起始因子。由于材料限制和缺少高效的基因编辑工具,直接在人类胚胎中进行基因功能研究十分困难,DUX4是否是人类ZGA所必须的仍然不清楚,DUX4的上游调控机制仍然认识不足,DUX4在人类胚胎中的作用还需要进一步研究。