汪徐春,孙玉洁
南京医科大学基础医学院细胞生物学系,江苏省人类功能基因组学重点实验室,江苏 南京 211166
增强子最早于1981 年由Banerji 等[1]在猿猴空泡病毒SV40的DNA 序列5′端发现,它能使HeLa 细胞中兔血红蛋白β1 基因表达增加200 倍。之后,Gillies 等[2]在哺乳动物免疫球蛋白重链基因中也发现增强子的存在,并且该增强子的功能与序列方向、靶基因启动子的位置无关。近年来,人类基因组DNA 元件百科全书(encyclopedia of DNA elements,ENCODE)[3]和表观遗传组学蓝图计划[4]揭示了基因组中分布着大量潜在的增强子调控元件。
基因的转录失调是肿瘤发生和发展的重要机制[5],而增强子调控异常在其中发挥重要作用[6]。在肿瘤的发生和发展过程中,增强子在基因组中的分布发生动态变化,即基因组增强子重塑。增强子重塑包括新增强子的形成或原有增强子的消失,进而形成新的增强子分布[7-8]。此外,肿瘤细胞中原有增强子的活性也会异常升高或减弱。无论是增强子重塑还是原有增强子活性的异常,均有可能促进癌基因的转录激活以及抑癌基因的异常失活,成为肿瘤发生和发展的重要驱动因素。
本文简述了增强子的结构特征、调控模式,在肿瘤发生和发展过程中增强子调控异常的形成机制、增强子鉴定的技术手段及常用数据库,这将有助于从一个不同的视角理解肿瘤发生发展的病理机制,并为增强子的深入研究提供新视野。
增强子是一段能显著增强靶基因转录效率的DNA 序列,长度100~2 000 bp[9]。增强子具有特征性组蛋白修饰特征,依据修饰种类被分为3 种状态[10]:①预激活状态,仅有H3K4me1(H3 lysine 4 monomethylation)修饰;②活性状态,既包含H3K4me1 又存在H3K27ac(H3 lysine 27 acetylation)修饰;③静止状态,同时存在H3K4me1 和H3K27me3(H3 lysine 27 trimethylation)修饰。预激活和静止状态的增强子均无法发挥促进转录的作用,只有转变为活性状态才能发挥调控功能。
增强子序列中含有不同转录因子的结合基序。大多数转录因子结合在染色质开放区域,能够招募增强子相关组蛋白修饰酶等改变增强子活性。有些转录因子作为先驱转录因子在沉默的染色质区域结合,开放染色质后招募其他转录因子形成增强子,调控胚胎发育和细胞分化等生物学过程[11]。
相当一部分增强子具有细胞特异性,只在特定细胞类型或细胞生长发育的特定阶段发挥调控功能,这是由细胞中特异性的蛋白决定的。如心血管谱系特异性转录因子GATA4(GATA bingding protein 4)作为先驱因子打开沉默的染色质区域,募集NKX2-5(NK2 homeobox 5)和ETS1(ETS protooncogene 1)形成对心脏发育至关重要的增强子[12]。
增强子通过与靶基因启动子形成染色质环结构上调靶基因表达。目前,已报道有多种关键因子参与染色质环的形成,如转录因子CCCTC结合因子(CCCTC-binding factor,CTCF)、癌基因c-myc的产物MYC 蛋白以及核基质结合蛋白1(SATB homeobox 1,SATB1)等。基因组中相距一定距离的两个CTCF可通过凝集素复合物“挤压”形成柔性染色质环,使处于CTCF结合位点之间的增强子与靶基因启动子物理距离接近,再募集中介复合物促进增强子和启动子接触,向启动子传递转录信号[13]。CTCF 和凝集素还是拓扑关联结构域(topologically assocaited domain,TAD)的重要组成部分。TAD 是染色质结构单元,平均大小约1 Mb,能够限制染色质环的范围[14]。最近研究发现,远端增强子与靶基因启动子的染色质环是动态变化的。在小鼠胚胎干细胞中,凝集素释放因子WAPL(WAPL cohesin release factor)形成游离的蛋白库,通过循环的凝集素蛋白与染色质的结合和释放介导增强子和启动子之间动态的相互作用[15]。而在骨肉瘤细胞中,增强子和启动子相互作用区域MYC 的累积可以加强染色质相互作用,增加染色质接触频率,进而驱动重塑致癌染色质[16]。此外,本课题组研究发现,核基质结合蛋白SATB1可以介导BCL2基因3′-UTR内的增强子元件与BCL2 基因启动子区的染色质环形成,通过上调BCL2基因表达调节细胞凋亡[17]。SATB1还可通过形成启动子-增强子染色质环,调节参与T细胞发育的重要基因BCL6的表达[18]。
近年来的研究发现,不仅启动子可以招募RNA聚合酶Ⅱ(RNA polymeraseⅡ,RNAPⅡ)起始基因转录,部分活性增强子区域也能够募集RNAPⅡ转录形成非编码RNA 发挥调控作用,即增强子RNA(enhancer RNA,eRNA)[19]。eRNA序列通常小于200 bp,非多聚腺苷酸化,具有半衰期短和不稳定的特点。由于eRNA 能够促进增强子和启动子的相互作用,eRNA的表达水平与增强子的活性高度相关。如在雌二醇处理的乳腺癌细胞中,雌激素受体(estrogen receptor,ER)反应性增强子转录的eRNA 可与凝集素相互作用,稳定增强子与靶基因启动子之间形成的染色质环,上调靶基因表达发挥促癌作用[20]。
增强子的活性受到众多因素影响,遗传变异、表观修饰异常以及转录因子异常均可能造成增强子的活性升高或者降低。此外,表观修饰异常以及转录因子异常还能导致基因组中增强子的重塑,同时改变多个下游靶基因的表达水平,从而在肿瘤的发生和发展中发挥重要作用。
增强子序列的遗传变异包括单核苷酸多态性和结构变异。单核苷酸多态性是人类可遗传变异中最常见的一种。近年来,针对肺癌、乳腺癌、结肠癌、前列腺癌和胰腺癌等不同恶性肿瘤的全基因组关联研究(genome-wide association study,GWAS)[21]发现了大量肿瘤风险遗传变异[22-23],其中多数位于增强子元件内部[3]。研究显示,增强子遗传变异能够改变增强子与转录因子的结合能力,进而增强或削弱其对靶基因的调控,导致靶基因表达失调,是恶性肿瘤发生发展的重要遗传基础之一[24-26]。本课题组研究发现,在13q12.12 染色质区存在1 个肺组织特异性增强子,而其中与肺癌风险SNP rs753955(A>G)强连锁的3 个SNP 可显著降低该增强子与p53的结合能力及其对p53蛋白的反应性,进而抑制其对下游靶基因的调控活性,促进肺特异性致癌物诱导的支气管上皮细胞恶性转化[27]。转录因子NK3 同源盒1(NK3 homeobox 1,NKX3.1)和YY1 结合基序分别与前列腺癌风险SNP rs11672691和其强连锁的SNP 位点重叠。NKX3.1 和YY1 与野生型SNP 结合后使相应SNP 所在区域启动子活性升高,激活长链非编码RNA 前列腺癌转录本19(prostate cancer associated transcript 19,PCAT19)短亚型的转录。这两个SNP 位点的突变使NKX3.1和YY1结合减弱,导致短亚型的启动子活性下降,而作为促癌转录本PCAT19 长亚型的增强子发挥功能,从而促进前列腺癌进展[28]。
电子锁通过RTC时钟与服务器进行时间同步,每隔60 s生成一个新密码,用户通过权限验证后从认证服务器获得密码并通过键盘输入主控制器,STM32主控制器将输入密码与电子锁当前生成动态密码进行比对,如果匹配则控制继电器打开电磁锁,并将开锁状态通过蓝牙模块发送至树莓派核心,输入错误累计3次则报警,图4为动态密码电子锁程序流程图。
此外,某些SNP 变异能够使增强子与转录因子的结合能力增强,提高增强子活性。如位于19q13侵袭性前列腺癌染色质区域的增强子内部SNP 变异增强了转录因子同源框A2(homeobox A2,HOXA2)与增强子的结合,升高增强子活性,上调PCAT19 和CEA 细胞粘附分子21(CEA cell adhesion molecule 21,CEACAM21)基因的转录,进而促进前列腺癌细胞的侵袭和迁移能力[29]。SNP也可能在增强子区域引入新的结合位点,导致活性增强子形成。如神经母细胞瘤保护性SNP 变异可增进转录因子GATA 的结合,促进H3K27ac 修饰形成活性增强子,增强致癌靶基因转录发挥促癌作用[30]。
基因组结构变异通常是指基因组长片段(>50 bp)的序列和位置改变,包括长片段的插入和缺失、基因拷贝数变异、染色体内部或染色体间的易位等不同类型。基因组片段的缺失可破坏细胞拓扑关联结构域边界,使增强子和原癌基因之间的边界消失,促进癌基因表达[31]。增强子的拷贝数变异可增加癌基因的表达,促进头颈部鳞状细胞癌、肺腺癌等恶性进展[32]。
此外,增强子结构变异还会造成“增强子劫持”,即将某一特定的增强子“劫持”到基因组中的其他位置,失去对原有靶基因的调控,而使新的靶基因表达明显增加的现象。2014 年,Northcott 等[33]研究发现3 亚型髓母细胞瘤的基因组中9q34 染色质区域发生长片段缺失、染色体重排等不同类型的结构变异。无论变异类型如何,都会使原本调控DEAD 盒蛋白31(DEAD-box helicase 31,DDX31)基因的增强子被劫持到生长因子非依赖性1B 转录抑制因子(growth factor independent 1B transcriptional repressor,GFI1B)基因约31 kb 范围内,激活GFI1B癌基因转录促进3 亚型髓母细胞瘤的发生。2021年,Montefiori 等[34]研究发现染色体重排驱动BCL11转录因子B(BCL11 transcription factor B,BCL11B)基因与造血祖细胞中活性增强子在基因组中位置并列,劫持的增强子上调BCL11B 基因表达驱动急性白血病发生。
组蛋白H3K4me1 修饰是增强子的标志。H3K4me1 修饰由赖氨酸甲基转移酶2C(lysine methyltransferase 2C,KMT2C,又称MLL3)和KMT2D(又称MLL4)催化完成。而赖氨酸去甲基转移酶1A(lysine demethylase 1A,KDM1A)和KDM1B 介导H3K4去单甲基化。此外,组蛋白H3K27me3修饰是无活性静止状态增强子的标志,KDM6A 和KDM6B介导H3K27去三甲基化。因此,这些修饰酶基因的缺失或表达异常增高会导致增强子调控的异常,使细胞的转录模式发生改变,进而促进肿瘤的形成和发展。值得关注的是,虽然KMT2C 和KMT2D 是特异性的H3K4me1修饰酶,但是研究发现这两个基因的缺失均能够造成增强子区域H3K4me1 和H3K27ac 信号的同时减弱,提示KMT2C 和KMT2D的修饰功能存在相互依存。在ER阳性的乳腺癌中,KMT2C 缺失导致ERα结合的促癌增强子H3K4me1和H3K27ac丢失,抑制乳腺癌细胞增殖[35]。KMT2D缺失使前列腺癌[36]和黑色素瘤[37]细胞全基因组中H3K4me1和H3K27ac信号减弱,发挥致癌作用。
此外,在前列腺癌细胞中,KDM1A 表达下降会破坏FOXA1 与染色质结合,进而下调雄激素受体(androgen receptor,AR)介导的增强子活性及相应基因转录,显著降低癌细胞生长能力[38]。研究发现KDM6A 能够通过H3K27me3 去甲基化酶活性非依赖性的方式招募MLL3/4 和p300,实现对增强子活性的调节。以骨髓恶性肿瘤为例[39],尽管KDM6A缺失后全基因组H3K27me3 改变不明显,但是H3K27ac和染色质可及性发生了显著变化。从机制上说,KDM6A 抑制致癌因子ETS 与DNA 结合,当KDM6A缺失后基因组中ETS结合增加,ETS通过招募组蛋白乙酰转移酶促进H3K27ac 修饰,升高增强子活性发挥促癌效应。与KDM6A 有所不同,KDM6B 通过抑制H3K27me3 修饰以稳定增强子-启动子相互作用,上调癌基因MYCN和c-myc转录,在神经母细胞瘤中发挥肿瘤促进作用[40]。
除了组蛋白甲基化修饰,增强子活性还受组蛋白乙酰化修饰的调节。其中,H3K27ac 修饰与增强子的调控活性显著正相关。研究较多的组蛋白乙酰转移酶是p300(也称为KAT3B)和环磷酸腺苷反应元件结合蛋白(cAMP-response element binding protein,CREB)的结合蛋白(CREB binding protein,CBP,也称KAT3A)。CBP 由CREBBP 基因编码,p300 由EP300 基因编码。CBP 和p300 具有高度保守的结构。它们的乙酰转移酶结构域、乙酰赖氨酸结合溴结构域几乎相同。有研究报道p300 缺失会使基因组中H3K27ac 信号减弱,进而重塑增强子,使参与细胞分化和白血病转化的基因表达受限,从而加速骨髓增生异常综合征的进展[41]。另外,有研究报道在急性淋巴细胞白血病中,CBP和MYB结合的增强子共定位,促进H3K27ac 富集,上调增强子活性驱动癌基因表达[42]。
DNA甲基化是在基因序列不改变的前提下,通过DNA甲基转移酶介导,以s-腺苷甲硫氨酸为甲基供体,将甲基添加到胞嘧啶的第5 位碳原子上,形成5-甲基胞嘧啶的过程。相比于正常组织,肿瘤组织细胞中基因组DNA 甲基化修饰水平发生显著变化[43-44]。研究发现,在肿瘤的进展过程中,增强子始终是甲基化改变最大的区域[45]。肿瘤细胞中增强子区域异常低甲基化上调下游靶基因表达,而异常高甲基化则导致下游靶基因表达下调,并且增强子甲基化与癌症基因失调之间的相关性显著高于启动子甲基化与基因失调的相关性[46]。
已知增强子区域的低甲基化有助于转录因子结合进而提高增强子的活性。例如,ER阳性的乳腺癌细胞中增强子区域的异常低甲基化,可增加ERα、FOXA1 和GATA 结合蛋白3(GATA binding protein 3,GATA3)与增强子的结合,激活雌激素依赖性的肿瘤生长基因表达,发挥促癌作用[47]。Yang等[48]发现在急性髓性白血病细胞中,DNA甲基转移酶3A(DNA methyltransferase 3 alpha,DNMT3A)的缺失导致增强子区域的DNA低甲基化,并促进ETS转录因子FLI1(Fli-1 proto-oncogene,ETS transcription factor)与增强子的结合,增加其调控活性,上调促T 细胞增殖的靶基因转录从而促进白血病的发生和发展。此外,增强子的低甲基化还可通过促进eRNA转录,稳定增强子与启动子的相互作用,发挥促癌作用[49]。
SWI/SNF家族成员的基因突变或表达水平异常可导致增强子活性异常,使下游靶基因转录失调进而产生致癌效应。虽然SWI/SNF 家族蛋白在所有癌症中的平均突变率约为20%[51],但是单个亚基的突变频率在不同肿瘤类型中的差异很大。如催化亚基染色质亚家族B 调节因子1(SWI/SNF related matrix associated actin dependent regulator of chromatin subfamily B member 1,SMARCB1)基因在恶性横纹肌肿瘤中突变率约95%,主要表现为双等位基因缺失。野生型SMARCB1蛋白不仅可与p300相互作用促进H3K27ac 修饰[52],还可促进经典BRG/BRM相关因子复合物(canonical Brg/Brahma-associated factors,cBAF)的稳定性,维持基因组中抑癌功能增强子的活性,进而抑制横纹肌肿瘤的发生[53]。然而,含ARID 结构域的1A(AT-rich interaction domain 1A,ARID1A)基因在乳腺癌中的突变率仅为5%。野生型ARID1A能在ER结合的潜在增强子处富集,通过募集组蛋白去乙酰化酶1(histone deacetylase 1,HDAC1)发挥转录抑制作用。在ARID1A 基因发生失活突变后,HDAC1 不再结合在增强子区域,使该区域BRD4结合增加,乙酰化修饰增强,促进肿瘤细胞生长[54]。有别于SMARCB1 和ARID1A 的作用机制,SMARCE1 基因在透明细胞脑膜瘤中的失活突变,能够降低全基因组中远端增强子cBAF 结合率和DNA 可及性,产生脑膜瘤特征性的转录图谱,促进肿瘤进展[55]。另外,SWI/SNF家族成员催化亚基染色质肌动蛋白依赖性调节因子4(SWI/SNF related matrix associated actin dependent regulator of chromatin subfamily A member 4,SMARCA4)的异常高表达促进PAX3-FOXO1 融合阳性横纹肌肉瘤恶性进展。SMARCA4 通过促进转录因子MYCN 与增强子的结合,升高MYCN 反应性增强子的H3K27ac水平,驱动靶基因转录发挥促癌作用[56]。
CHD 家族成员的基因缺失或异常高表达也会改变增强子的活性,发挥促癌作用。其中,CHD1基因在约15%的前列腺癌患者中缺失。野生型CHD1与AR 在前列腺细胞特异性增强子上共定位。在CHD1 基因丢失后,全基因组中AR 结合分布改变,使其更倾向于结合在同源盒蛋白B13(homeobox B13,HOXB13)反应性增强子,驱动致癌途径激活相关基因的表达[57]。CHD8在前列腺癌细胞中异常高表达,通过与AR直接相互作用,在跨膜丝氨酸蛋白酶2(transmembrane serine protease 2,TMPRSS2)基因的增强子区域共定位,发挥促癌效应[58]。在横纹肌肉瘤细胞中异常高表达的CHD4蛋白与PAX3-FOXO1蛋白协同作用,激活增强子上调癌基因表达[59]。
转录因子在调节增强子活性中发挥重要作用。转录因子的突变、表达水平异常以及染色体易位形成融合基因后编码的嵌合转录因子能够通过不同机制,使增强子活性发生异常,甚至形成增强子重塑现象[60]。
转录因子突变可影响其与增强子序列及共转录因子结合的能力,进而改变增强子活性以及基因组增强子重塑。例如,急性髓性白血病中CCAAT增强子结合蛋白α(CCAAT enhancer binding protein alpha,CEBPα)的突变使其与DNA结合能力受损,导致UL16 结合蛋白2(UL16 binding protein 2,ULBP2),ULBP5 和ULBP6 基因的增强子活性下降,使肿瘤细胞逃避自然杀伤细胞介导的细胞裂解[61]。转录因子p53 DNA 结合域的突变使之在基因组中的结合分布发生改变,通过招募与增强子形成相关的蛋白,形成新的增强子。在结直肠癌中,R273H突变型p53 能够与p65 直接相互作用并在p65 反应元件处富集,促进新的增强子形成并响应肿瘤坏死因子α信号。从机制上说,一方面由于突变型p53能够与MLL4 直接相互作用,促进基因组中p65 结合区域H3K4me1修饰[62]。另一方面,突变型p53可与含溴结构域4(bromodomain containing 4,BRD4)蛋白直接相互作用,富集p65 结合区域H3K27ac 信号[63]。此外,突变型p53 可募集RNAPⅡ到新的增强子区域转录eRNA,激活癌基因的转录促进结直肠癌细胞的侵袭[64]。
肿瘤细胞中转录因子的异常高表达可改变增强子组蛋白修饰调控增强子活性或者造成增强子重塑。例如,先驱转录因子叉头框蛋白1(forkhead box A1,FOXA1)在ER阳性乳腺癌中异常高表达,通过与MLL3 相互作用,使基因组中ER 结合区域H3K4me1 修饰增加,形成新的增强子致使转录激活,促进乳腺癌细胞增殖[65]。HOXA9异常高表达招募CEBPα和MLL3/MLL4复合物,通过形成新的增强子促进白血病形成[66]。p63的N 末端亚型ΔNp63可通过招募p300重塑肺干细胞的增强子,驱动肺腺癌和鳞癌发生[7]。此外,转录因子异常高表达还能够显著增加增强子与癌基因启动子的相互作用频率,促进肿瘤进展[16]。
染色体易位形成融合基因后所编码的嵌合转录因子,可通过获得异常的转录活性调节增强子的活性。例如,正常肌生成早期的转录因子配对盒基因(paired box,PAX)家族成员和晚期调节因子肌源性因子4(myogenin,MYOG)在肌肉发育过程中的表达相互排斥。但是,基于染色体易位形成的融合基因PAX3-FOXO1,除了转录活性比野生型PAX3 高10~100倍之外,还与MYOG等肌源性转录因子在横纹肌肉瘤中同时高表达。二者通过招募BRD4蛋白增强H3K27ac 信号,形成活性增强子,使肌源性转录失调促进肿瘤发生[67]。
基因组中增强子的鉴定和功能研究对探讨其在肿瘤中的作用具有重要意义。根据增强子的研究角度将这些研究手段分为两大类:①增强子及其活性鉴定,这些技术包括染色质免疫共沉淀测序(chromatin immunoprecipitation sequencing,ChIPseq),核酸酶靶向切割与释放(cleavage under targets and release using,CUT&RUN)以及利用转座酶检测染色质可及性测序(assay for transposase accessible chromatin with high-throughput sequencing,ATAC-seq)技术,大规模并行报告基因检测(massively parallel reporter assay,MPRA)和自转录活性调控区域测序(self-transcribing active regulatory region sequencing,STARR-seq),新生RNA 测序(global nuclear runon sequencing,GRO-seq)等;②增强子的靶基因鉴定及其功能研究,这些技术包括染色质构象捕获(capturing chromosome conformation,3C)及其衍生技术,间隔成簇短回文重复序列-核酸酶9(clustered regularly interspaced short palindromic repeats-associated9,CRISPR-Cas9)和CRISPR-钝化Cas9(CRISPRdead Cas9,CRISPR-dCas9)等。
随着对增强子特征的认识和高通量技术的快速发展,近年来人们主要利用增强子的表观修饰特征,结合二代测序的技术方法对全基因组中潜在增强子进行分析和鉴定。最常用的ChIP-seq 技术是通过富集增强子特征修饰的组蛋白或转录因子结合的DNA 序列,再通过测序在全基因组鉴定潜在增强子。2017 年,Skene 等[68]优化该技术开发出CUT&RUN,CUT&RUN通过微球菌核酸酶进行抗体靶向的特定蛋白质-DNA 酶切和纯化,再测序分析,具有细胞起始量低、实验周期短和信噪比高等优点。此外,利用ATAC-seq对染色质开放区域的分析有助于增强子的鉴定。Tn5转座酶与Tn5转座子形成转座复合物,通过切割靶DNA序列将Tn5转座子插入其中。只有DNA 与组蛋白结合松散时,Tn5 转座酶才能酶切并完成转座。ATAC-seq 利用这一特点,将改造后携带测序接头的Tn5 转座酶加入细胞核中,Tn5转座酶首先在染色质开放区域进行酶切,然后再完成已知测序接头的转座,通过建库测序分析染色质可及性。有研究者使用ATAC-seq 结合ChIP-seq对含有间充质型胃癌的特征性增强子进行全基因组分析[69]。
除了分析鉴定基因组中的增强子,还可利用MPRA、STARR-seq和GRO-seq等技术直接分析增强子的活性。经典的MPRA技术是先给待测增强子标记特有的条形码序列,再分别将每个增强子克隆到pGL4.23 载体,对应的条形码序列克隆到荧光素酶基因的3′UTR,通过RNA-seq 检测条形码序列的丰度来反映增强子的活性。作为MPRA 的升级版,STARR-seq 技术以增强子序列本身作为条形码序列,通过自转录及丰度检测来反映增强子活性[70]。这两种方法均是在外源性环境中批量检测全基因组具有增强子活性的DNA序列,因此无法反映内源性染色质环境的增强子活性。GRO-seq能够定量活性增强子合成的eRNA。它通过先冻结胞核内转录过程,再在体外恢复的方法,使体外合成的新生转录本中含有NTP 类似物BrU(bromouridine),通过BrU 抗体富集后建库测序,分析RNA 体外合成的位置和丰度。2020年,Wang等[71]通过分析GRO-seq数据,在7种肿瘤细胞系中鉴定了活性增强子。
确定增强子的靶基因是探讨增强子生物学功能的重要环节。3C 及其衍生技术为鉴定增强子的靶基因提供了重要手段[72]。3C 技术的基本原理:用甲醛固定活细胞以稳定DNA 和蛋白质的相互作用后,先用合适的内切酶消化DNA,再用连接酶连接,然后通过逆交联使DNA 与蛋白质分离,提取DNA,最后在连接位点两侧设置引物进行PCR 反应,从而定性和定量检测一对一的增强子启动子相互作用[17]。高通量染色体构象捕获(high-resolution chromosome conformation capture,Hi-C)技术的出现,使得从全基因组水平分析染色质相互作用成为可能。Hi-C 是在3C 技术的连接步骤中加入生物素标记的寡核苷酸,进行平末端连接,DNA 纯化和超声后,对寡核苷酸进行高通量测序[73]。
利用CRISPR-Cas9技术敲除细胞中某段增强子序列或者通过构建sgRNA 文库随机敲除基因组中的增强子元件已成为研究增强子功能的重要手段。已有研究利用CRISPR-Cas9 技术敲除调控癌基因表达的增强子,研究增强子在肿瘤发生中的作用机制[28]。在CRISPR-Cas9 基础上发展起来的CRISPR-dCas9 技术,不仅能直接改变基因组序列,还能在特定位置引入表观修饰。基于CRISPR/dCas9技术,人们通过增强子CRISPR激活(enhancer CRISPR activation,enCRISPRa)和增强子CRISPR抑制(enhancer CRISPR interference,enCRISPRi)系统在体内局部重塑增强子,从而研究增强子的调控功能[74]。
近年来数据库的开发和应用也为增强子的研究提供了便利,充分利用相关数据库将大大提高研究效率。研究增强子的常用数据库主要包括:ENCODE 数据库(https://www.encodeproject.org/)和Cistrome数据库(http://cistrome.org/db/#/)[75],其收录了许多正常组织和肿瘤组织中增强子特征性组蛋白修饰及转录因子的ChIP-seq 和ATAC-seq 可视化数据;EnhancerAtlas 数据库(http://www.enhanceratlas.org/)[76]能够提供人、小鼠、果蝇等9 个物种的增强子注释;HACER 数据库(http://bioinfo.vanderbilt.edu/AE/HACER/index.html)[77]可通过整合GRO-seq数据分析eRNA 鉴定活性增强子。此外,RAEdb 数据库(http://www.computationalbiology.cn/RAEdb/enhancer.html)汇集了MPRA 和STARR-seq 数据,可用于筛选具有调控活性的增强子。
增强子作为增强基因表达的顺式调控元件,其活性异常在恶性肿瘤发生和发展中的重要作用已成为肿瘤研究领域的焦点之一。然而,尽管增强子研究在过去几十年中取得了显著进展,但这一领域仍有很多未知。例如,导致肿瘤基因组中增强子重塑的因素有哪些?增强子重塑与肿瘤发生发展有何具体联系?增强子如何特异性地识别靶基因发挥其调控功能?不同增强子之间如何相互协调,共同调节下游靶基因的表达?不同肿瘤组织中增强子调控活性异常的分子机制和生物学效应有何共性和特异性?eRNA转录本蕴藏的生物学功能究竟有哪些?超级增强子是如何形成的?未来需要在充分利用大数据和分子生物学技术的基础上,围绕临床相关的增强子异常,利用体内模型开展深入的研究,从而更好地阐述增强子相关的基础理论和临床问题,这将有助于基础研究向临床转化,更好地促进肿瘤治疗和干预。