尚芝群,陈宣蓉,田 昊,李常颖,牛远杰
(天津医科大学第二医院泌尿外科,天津市泌尿外科研究所,天津 300211)
在对生命奥秘探索的历程中,人们逐渐认识到真核生物的遗传信息主要储存在细胞核内且以染色质的形式存在。染色质主要由DNA与组蛋白组成[1]。先前的研究普遍认为解码DNA携带的遗传信息就可以解释整个基因表达调控规律。随着对组蛋白修饰研究的深入,人们认识到在基因表达的动态平衡调控中,组蛋白所处的修饰状态,染色质的高级结构变化及染色质可接近程度的变化也发挥着重要作用[2-4]。因此,对前列腺癌遗传规律的解码,将从染色质层面揭示其发生变化规律,从而更深入的认识肿瘤的基因表达调控[5-7]。
基因的表达调控瞬息万变,同时染色质也处于动态变化中,包含组蛋白、核小体等染色质结构的变化[8]。真核生物中,组蛋白被DNA紧密地缠绕形成核小体,一个核小体约含有147 bp的双螺旋DNA。接着核小体再由链接DNA(linker DNA)连接并进行高度折叠形成染色质,最终将总长近2 m的基因组DNA分子包装进细胞核中[9-10]。当特定的转录因子结合到可接近的染色质区域后,募集转录相关蛋白和RNA聚合酶,使附近的基因开始转录[11]。此时,由于转录因子与染色质可接近区的DNA发生结合,原有的核小体被取代呈现出裸露状态。[12]
研究发现染色质上不同区域的DNA对核酸酶的敏感性差异明显,其中易受DNA酶I作用的位点称为DNA酶I超敏感位点(DNaseI hypersensitive site)[13-14]。染色质在染色质重塑因子的作用下,通过改变核小体的装配、拆解和重排等方式来发生重塑[15]。重塑后的染色质结构或趋于疏松,或趋于致密[16-17]。其中经过重塑后结构趋于疏松的染色质,表现出对DNA酶I的高度敏感,核小体结构消失或排列松散等特性,称为染色质可接近性[18]。
基因转录调控过程中,真核细胞中染色质的可接近性处于动态变化中:处于疏松状态的染色质增加了转录因子对染色质DNA的可接近性,使得RNA聚合酶能募集到特定DNA序列上,从而激活基因的转录;处于致密状态的染色质使得转录因子和RNA聚合酶对染色质DNA的可接近性减弱,从而抑制基因的转录。以往的研究主要关注特定的某一个具有调控功能的顺式作用因子和其反式作用元件在转录调控发挥的作用,同时需要借助包括RNA-seq,ChIP-seq在内的多个组学进行切入。而当我们对染色质可接近性在基因组层面有全局的认识后,可以了解整个转录的活性和惰性区域,从而更加精确的了解基因的转录调控机制或规律[19]。基于此概念,研究人员启动了人类基因组调控元件百科全书计划(encyclopedia of DNA elements,ENCODE),从多个角度来解码调控元件与转录因子和染色质之间复杂的相互关系[20]。
染色质的可接近性在整个基因调控过程中也与核小体的动态定位息息相关。核小体对于染色质DNA片段选择的特性称为核小体定位。于较疏松的染色质区域来说,其拥有数量较多的核小体;对于处于较开放状态的染色质区域来说,其拥有数量较少的核小体且大部分转录因子的结合位点得以暴露,使得基因的转录可以顺利进行。当我们对转录失调节的肿瘤基因组无从下手时,可以转变思路去探究失调的基因组中核小体定位、染色质可接近性是否发生改变,便可以解码基因转录调控中的有效的调控元件,为深入认识肿瘤的基因调控提供了新的思路。
随着第2代高通量测序技术的到来,BOYLE[21]等利用DNaseⅠ酶对染色质上已有的超敏感位点切割的特性,将其酶切后的染色质DNA片段进行测序文库构建,并进行二代测序,得到了人CD4+T细胞中数万个DNA酶I超敏感位点。基于DNase-seq技术可以识别不同类型的具有活性的基因调控元件[22]。FAIRE测序(FAIRE-seq)技术则是利用超声打断与高通量测序技术相结合的方式来鉴定的开放染色质区,其利用了开放的染色质区易于被超声打断的原理[23]。由于超声打断的技术要求和甲醛交联的条件不易明确等缺陷而没有被研究人员大量应用。ATAC 测序(ATAC-seq)技术则是利用了Tn5转座子在开放的染色质区域的偏好插入的特性进行鉴定染色质的可接近性[24]。由于其对样本的需求量较低,且整个实验流程简单快速的优点而受到研究人员的青睐,而广泛应用[25-28]。随着人们对染色质可接近性探索的深入,研究人员发现ATAC-seq存在对较大的染色质可接近区的偏好选择的缺点,使得较小的染色质可接近区会被忽略。于是,SOS等[29]改进了ATAC-seq的实验流程,发明了THS-seq(transposome hypersensitive sites sequencing)使得对染色质可接近区的鉴定更加完整。表1对现有基于高通量测序手段鉴定染色质可接近区技术进行了归纳和总结。
表1 利用高通量技术检测开放染色质位点的技术比较
技术名称样品细胞量要求(个)技术特点DNase-seq5× 106基于DNase Ⅰ特性FAIRE-seq1× 106~5× 107基于超声打断ATAC-seq5×102~5×104基于转座子THS-seq1×102基于ATAC-seq基础改进
前列腺癌(prostate cancer,PCa)是男性泌尿生殖系统最常见的恶性肿瘤。根据2018 年全球癌症统计报告,前列腺癌的发病率已高居整个男性肿瘤发病率的第二位[30]。前列腺癌中,雄激素受体(androgen receptor,AR)在维持雄性表型和前列腺癌的发生、进展中起关键作用[31-32]。人们发现AR信号通路所介导的转录调控可以导致前列腺上皮细胞的特异性转化,驱动前列腺癌的发生,与去势抵抗性前列腺癌的进展有关[33]。CHEN等[34]发现在雄激素或特异性配体的作用下,AR作为转录因子进入细胞核内来调控靶基因的转录,引起靶基因的转录激活或转录抑制。TEWARI等[35]利用DNase-seq技术结合AR-ChIP-seq 和RNA-seq数据,详细分析了前列腺癌细胞LNCaP细胞在雄激素处理前后的基因转录的改变。雄激素激活后的AR会引起全基因组范围的染色质结构发生改变,这些变化的位点具有明确的AR结合位点和与转录应答有关等特点。与其他的DNA结合因子所不同的是,AR的结合位点不仅仅局限在雄激素处理前就已经可以接近的染色质区域,而是主动增加基因组其他位点的染色质的可接近性,从而影响基因的表达[36]。以上研究指出AR-转录调控和染色质结构之间有着动态的定量平衡关系,为前列腺癌在去势治疗前后应答的改变建立了理论基础。去势抵抗性前列腺癌患者中大约有37%存在视网膜母细胞瘤基因(retinoblastoma,RB)的突变,且这种突变往往和极差的临床预后有关。MCNAIR[37]等结合多种高通量技术,从转录组、顺反子组、染色质结构组等多个组学出发,阐明了RB蛋白的缺失差异性地重编程了E2F1在基因组的分布,改变了整个原有的转录调控网络从而趋向于恶性进展。利用ATAC-seq技术,作者系统性的分析了在RB缺失前后整个染色质的开放和关闭程度的变化情况,得出了E2F1的重编程不是由于整个染色质的可接近程度变化引起的结论。CHEN等[34]利用ChIP-exo(chromatin immunoprecipitation-exonuclease)技术对AR蛋白不同的配体进行测序分析染色质结构会影响AR结合。在这一观念的基础上,其又整合ATAC-seq和ChIP-exo数据分析发现AR剪切变异体7(AR-V7)和AR蛋白在前列腺癌不同阶段有着不同的结合偏好性。在进一步分析的基础上,CHEN等[38-39]也发现HoxB13作为AR-V7驱动的转录组的关键上游调节因子,表明HoxB13可以作为AR-V7驱动的前列腺肿瘤的治疗靶标。利用染色质可接近性和其他组学的整合分析,越来越受到研究者的重视和应用。
在前列腺癌的新药研发和临床前药物作用机理的研究中,染色质组学也越来越受到人们的关注。XIAO 等[40]利用RNA-seq,ChIP-seq和ATAC-seq三个组学整合分析,发现使用反义寡核苷酸(antisense oligonucleotides,ASO)共同靶向EZH2(Enhancer of zeste homolog 2)和AR后能明显对去势抵抗性前列腺癌产生抑制和杀伤作用。借助ATAC-seq作者发现单独ASO靶向EZH2后,会引起染色质的可接近性大大增强,这提示整个肿瘤细胞在药物处理后转录水平可能会明显升高。在结合ChIP-seq数据和RNA-seq数据共同分析后,该药物可以重编程AR的顺反子组同时上调整个AR信号通路,这一改变也增强了其对AR靶向药物的敏感性。这为应用双靶向的ASO药物在CRPC患者的治疗提供了充足的理论基础和临床前数据支持。
在整个肿瘤的基础研究中,染色质可接近性这一概念也开始得到广泛的认知和应用[41-43]。无论是在对前列腺癌中特异的转录失调节的研究中,还是在对CRPC患者治疗的药物研发中均得到广泛应用。
利用ATAC-seq 或THS-seq 技术,我们可以对整个基因组的染色质开放与否的全貌进行观察和分析。在整个基因转录调节研究中,我们越来越发现仅仅利用一个组学是不能对整个纷繁复杂的转录调控过程进行解读的[25-27,44]。而将染色质可接近性和染色质组学融入整个转录调控关系的研究中,会使得我们能从染色质层面去解读以前未能解开的转录谜题,使得我们能更进一步地对基因转录调控进行研究和应用。