DNA鸟嘌呤四联体研究进展

2020-08-04 03:02冯逸龙张文利
生物技术通报 2020年7期
关键词:染色质生物学基因组

冯逸龙 张文利

(南京农业大学农学院 南京农业大学作物遗传与种质创新国家重点实验室 江苏省现代作物生产协同创新中心,南京 210095)

鸟嘌呤(G)四联体,又称作G-quadruplex或G4等,广泛存在于生物体基因组中。它是由富含G串联重复序列的DNA或RNA折叠形成的一种高级结构。相同或不同平面的G主要是以CGC三联体形式,通过Hoogsteen氢键相互连接形成了一种更加稳定的二级结构[1]。DNA-G4假设模型最早于1958年被提出,但直到1962年才由Gellert 等[2]通过X-Ray手段证实了该模型的真实性。由于受到当时研究手段的制约,人们对G4结构及其生物学功能认识非常有限。直到20世纪90年代,一系列用于体内外检测G4位点的物理、生化以及免疫学等相关检测技术的发展和应用,G4结构及其生物学功能重新引起了人们的广泛关注。目前,人和动物G4研究已成为人类疾病治疗和药物基因组学研究的热点之一。

目前已有的研究结果表明,生物体G4具有一系列重要的生物学功能,如稳定染色质状态[3-4]、参与细胞周期[5]、调节离子跨膜运输[6]、参与表观遗传调控[7-11]、调控基因表达[9,12-13]以及参与DNA损伤和修复[14]等。尤为重要的是,G4现已作为潜在的靶标位点用于人类疾病治疗[15-19]。例如,I期临床试验结果显示,小分子合物CX-5461用于治疗因BRCA1/2缺陷而引起的肿瘤是与它可以稳定体内G4有关[20]。与人及动物G4研究相比,植物G4的鉴定及其生物学功能研究远远滞后。目前,除G4-seq被首次用于在全基因组水平鉴定拟南芥G4位点外,多数植物G4的位点还主要依赖于生物信息学方法,根据形成G4的核心序列在全基因组水平进行预测[21],这种预测的准确性还有待于进一步验证。

根据含有预测G4位点相关的植物基因功能聚类分析结果,植物G4也可能具有一系列重要的生物学功能,如参与基因表达调控[22]、胁迫响应[23-25]和调节植物正常生长发育[26]等。本文系统总结了生物体G4研究方法;重点综述了人和动物G4的生物学功能及其最新研究进展;最后对植物G4研究进行了总结和展望。

1 G4的主要研究方法

目前,广泛用于体内外G4研究的方法主要有:物理学、生物化学、免疫学和基因组学等。根据每次检测G4位点数量,这些方法可分为每次检测数量有限的低通量法和在全基因组水平进行研究的高通量法两大类。

1.1 物理学方法

研究G4结构的物理学方法主要包括表面离子共振法(Surface plasmon resonance,SPR)、光谱检测法以及毛细管电泳法(Capillary electrophoresis,CE)等。其中,光谱法主要有圆二色谱法(Circular dichroism,CD)、荧光光谱法(Fluorescence spectrum,FS)、荧光共振能量转移(Fluorescence resonance energy transfer,FRET)、核磁共振(Nuclear magnetic resonance,NMR)及X-射线晶体衍射(X-ray diffraction by crystals)等[27]。1962 年,Gellert 等[2]通过对DNA片段进行高温变性后缓慢复性处理在体外重建了G4结构,并运用X-Ray的方法首次拍摄到G4四链结构。2002年,Cary 等[28]通过X-射线晶体衍射证实了染色体端粒的G重复序列也能形成G4结构。由于G4结构在260 nm处有一个明显的吸收峰,Garg等[7,29]利用圆二色谱手段证实了G4广泛存在于多种植物基因组中。荧光共振能量转移法主要是利用具有类似激发波长的外源竞争物引起荧光标记的G4序列发生荧光偏移来鉴定G4结构。Xu等[20]通过该方法鉴定了CX-5461可作一种有前景的药物用于癌症的治疗;2018年,Chen等[30]利用核磁共振方法证明了DEAH/RHA解旋酶DHX36通过解除G4结构参与调节基因组中G4相关的生物学功能。有报道表明,远红外探针方法也可用于G4结构的鉴定[31]。目前,圆二色光谱法广泛用于验证基因组中预测的或经其它手段鉴定的G4位点[32]。物理学方法检测G4具有快速准确,适用性较大等优点;但该方法需要借助一些特殊或较昂贵的仪器设备,并且每次鉴定的G4数量有限,不适于大批量的鉴定G4位点。因此物理学方法检测G4结构虽可行,但很难在不具备条件的实验室或科研院所全面推广。

1.2 生物化学方法

研究G4结构的生物化学法主要有硫酸二甲酯印迹法(Dimethylsulfate,DMS)、凝胶迁移阻滞实验(Electrophoretic mobility shift assay,EMSA)和 DNA聚合酶终止法(DNA polymerase stop assay)等[33]。

DMS常与EMSA结合来检测或验证G4,其原理主要是对含有G4的DNA片段进行DMS甲基化处理,DMS可使非G4中的G甲基化,但G4中的G因受Hoogsteen氢键保护而不能被DMS甲基化,然后利用六氢吡啶对DMS处理后的寡核苷酸片段进行差异性切割,寡核苷酸片段中甲基化的鸟嘌呤受六氢吡啶特异性化学切割而发生断裂,而六氢吡啶不能化学切割G4中未被甲基化的G,最后利用变性PAGE分离经六氢吡啶处理后的寡核苷酸片段,根据片段大小推断寡核苷酸片段中形成G4的位置。Armond等[34]应用该方法证实了缺氧诱导因子1R启动子中存在G4结构。

DNA聚合酶终止法的原理:DNA聚合酶在DNA模板链上移动过程中,受G4结构的阻碍从模板上脱落而终止反应,导致所扩增DNA片段长短不一,然后通过PAGE电泳分离目的片段,根据片段大小推断DNA模板中形成G4的位置。反应中加入K、Na等一价金属阳离子及PDS或PEG等小分子化合物可稳定G4结构,以增加反应效果[35-39]。该方法已应用于部分G4位点的鉴定和验证[21]。凝胶迁移实验主要运用含有G4的荧光标记的序列及探针在PAGE电泳中的迁移速度不同,进行目的片段分离,该方法常结合聚合酶终止法鉴定或验证G4位点[40-42]。另外,G4结构的稳定性与其loop的长度有关,正向平行及适当的loop长度将有助于增加G4稳定性[43]。

DMS、EMSA以及DNA聚合酶终止法有着适用性广、结果准确、实验周期短的优点,可适用于多数实验室开展G4相关研究,但每次鉴定G4位点数量有限,属于低通量鉴定方法。

1.3 免疫学方法

检测G4的免疫学方法主要是基于D1、1H6、hf2和BG4等特异结合G4抗体的制备及应用[5]。它主要包括免疫荧光检测法和免疫点杂交法两种。2013年Biffi 等[5]利用重组BG4抗体鉴定了细胞分裂时期G4位点并观察了其分布。同样,D1与1H6抗体也被应用于细胞水平识别G4结构[44]。例如,Henderson 等[45]通过基于1H6抗体的荧光染色方法检测了人和小鼠细胞G4,同时证实了FANCJDNA解旋酶能够清除基因组G4结构。hf2抗体用于检测c-kit原癌基因启动子区平行G4结构[46]。上述几种抗体均有被用于检测G4结构的报道,但是每种抗体识别细胞核内G4结构的特异性方面存在一定的差异。D1抗体对平行性G4结构具有很高的亲和性,但不能用于检测反向平行和杂合G4结构,也不能结合双链DNA、随机单链DNA和DNA发夹结构等[47];1H6抗体对多数G4结构具有广谱亲和性,如对分子内或分子间G4结构均具有相似的结合力,但对分子间RNA G4结构和DNA三链结构亲和力低,不结合由[AGGG(TTAGGG)3]序列组成的分子内G4结构,也不结合任何不能形成G4的单链或双链DNA[45];hf2抗体对 DNA G4结构的结合力比对双链DNA的结合力强1 000倍以上,并且对两种分子内相关的平行性G4结构的结合力相差100倍,因此该抗体对不同G4结构具有选择性识别作用[46];BG4抗体对分子内和分子间DNA G4结构具有高的亲和力,包括平行和反平行G4等,但不结合RNA发夹结构以及单链或双链DNA[5]。因此,可以针对每种抗体对G4结构的结合特性,选择性研究细胞核内某一类或几类的G4结构及其生物学功能。目前,只有BG4抗体结合高通量测序被广泛用于全基因组水平G4的鉴定和相关生物学功能研究。其它几种抗体能否用于在全基因组水平鉴定G4结构还有待于进一步验证。

免疫学方法能够识别体内生理状态下G4位点,相对简单易操作,也可在全基因组水平鉴定G4位点,但该方法依赖于抗体的特异性,并且不能分辨G4在基因组内分布的详细信息,相关抗体在不同物种间的通用性还有待于进一步验证。

1.4 G4基因组学方法

目前,在全基因组水平鉴定G4位点的高通量方法主要有ChIP-Seq和G4-Seq两种方法。其中,G4-Seq的原理是DNA聚合酶在合成DNA新生链过程中,G4结构的存在可阻止聚合酶的移动并导致新合成DNA链中G4位点处产生错配碱基,结合二代测序数据,在全基因组水平通过鉴定错配碱基来鉴定G4位点[21]。目前,该方法已经用于在全基因组水平鉴定了拟南芥等12个动植物G4位点,与之相类似的方法也可以用于鉴定RNA G4位点[48-49]。通过多物种比较分析发现,G4位点既具有一定的物种特异性,又呈现发育时期特异性[21,48-50]。另一类基于特异识别G4抗体的ChIP-Seq 方法也被广泛用于全基因组水平鉴定G4。与交联ChIP-seq方法相似,该方法主要技术流程包括:首先对受试细胞系或组织材料进行交联处理,再将交联染色质进行片段化处理成大小适宜的染色持片段,随后进行基于抗体如BG4的染色质免疫共沉淀反应,最后将抗体特异结合的G4 DNA进行解交联,纯化经抗体富集的G4 DNA用于高通量测序,经生物信息学分析鉴定全基因组G4位点。目前该方法成功的应用于鉴定人体癌症细胞系的G4位点[32],发现G4位点具有部分调控染色质特性,如与基因组中部分开放性染色质位点(ATAC)共分布,并且G4与核小体松紧程度成正相关[51]。

G4-Seq主要利用G4空间结构所具有特性在DNA水平鉴定G4位点,因此该方法不受物种限制,适用性较广,但该方法主要用于体外鉴定G4,不能真正反应生理状态下的G4位点;基于G4抗体的ChIP-Seq方法具有特异性较强,可以用于体内外鉴定G4位点,但该方法易受抗体特异性影响,并且抗体在不同物种间的通用性还有待于验证。

2 人和动物基因组中G4生物学功能

现阶段人及动物的相关研究结果表明,G4主要影响染色质及基因组结构稳定性、调控基因表达、调节离子跨膜运输及参与表观互作等方面(图1)。

2.1 影响染色质及基因组稳定性

端粒及着丝粒区域的富G序列能够形成G4结构[28,52]。G4是端粒DNA中富含G序列形成的一种特殊二级结构,稳定G4可以有效阻止端粒酶与端粒DNA相结合从而抑制端粒延伸。应用促进G4的形成或稳定的配合体或小分子合物来抑制端粒酶活性,最终可抑制肿瘤细胞的生长和繁殖以达到抗癌目的,这是基于G4的药物基因组学和癌症治疗的主要关注点之一。因此,端粒G4的形成和稳定导致肿瘤细胞基因组的不稳定性增加。另一方面,由于G4结构具有抵制外切核酸酶对端粒DNA的切割作用,从而有利于维持端粒的稳定性。例如,酵母基因组中因缺失一种端粒加帽蛋白复合体Cdc13导致端粒不稳定性增加,但是G4结构的存在可显著降低这种端粒的不稳定性[53]。另外,G4在正常的DNA双链的某一条单链上出现会造成DNA链的断裂,造成基因组的不稳定[14]。总之,G4对染色质及基因组稳定性具有双重调节功能。

2.2 调控基因表达

G4既可以介导全基因组水平基因表达变化,也可以调节单个基因位点表达水平。转录组学分析结果显示,G4稳定性配体TMPyP4通过增加人肿瘤细胞中G4稳定性来改变1 200个基因表达水平[54]。G4可直接参与调控基因表达。在DNA转录时,DNA模板链上G4通过阻断RNA聚合酶移动导致转录停滞甚至终止,从而降低了基因的表达量[55-56];3' UTR区G4通过阻止RNA聚合酶II移动而及时终止转录,防止了通读现象的发生。mRNA G4可阻碍翻译机器核糖体的结合或移动,从而降低或终止mRNA翻译过程,导致蛋白表达量降低和基因沉默[48-49,57]。

其次,G4可通过与一些因子互作来间接调控基因表达。PPL3C等有机物质通过与c-MYC和BCL-2启动子区G4结合,降低这两个基因的表达量[7];原癌基因MYC和RAS启动子G4可显著下调基因表达,这主要是由于G4区含有转录因子SP1结合位点,G4形成将不利于转录因子SP1的结合,从而抑制了该转录因子对基因表达的促进作用[58]。白屈菜赤碱通过抑制启动子区G4的形成,降低VEGFA、BCL2和KRAS基因的表达[12],不过串联的G4仍然影响相关的基因表达[13];另外,在全基因组水平,G4可通过影响其附近染色质水平变化来调节相关基因表达[52]。

最后,microRNA前体中G4结构也可间接参与调控基因表达。TmPyP4通过破坏miRNA-149前体中G4结构使癌细胞中成熟的miRNA-149浓度升高,进而降低其靶蛋白蛋白ZBTB2的表达量,最终抑制癌细胞增殖[59]。最新研究结果显示,在染色质三维水平,G4明显富集于拓扑关联区(TAD),并且G4序列富集一些转录因子结合位点,从而暗示G4既可以调控附近基因表达也可以通过染色质成环而远程调控相关基因表达[60]。总之,G4可直接和间接影响基因表达。目前G4对基因表达调控的研究还仍然有限,特别是G4调控基因表达的分子机理还有待于深入研究。

2.3 影响疾病发生

目前发现与G4有关的神经性疾病至少有30种[61]。其中解旋酶功能缺陷相关的疾病有9种[62],如解旋酶XPB/XPD作为TFIIH主要组成成份之一,通过与G4结合参与核酸切除修复,其功能缺陷导致色性干皮病(Xeroderma pigmentosum);解旋酶FANCJ通过解除G4结构,它与REV1聚合酶一起参与正常的DNA复制,其功能缺陷导致范可尼贫血症(Fanconi anemia,FA);解旋酶ATRX主要参与G4区域的染色质重排[63],其功能缺陷导致α地中海贫血伴随智力低下症(Alpha thalassemia with mental retardation)等。另外,人FMR1基因中CGG重复序列大量扩增超过200次,扩增后的CGG序列通过形成四联体结构影响FMR1基因表达,从而导致脆性X染色体综合症(Fragile X syndrome)。同样,位于人基因组中第9号染色体上C9ORF72位点的一个基因,其GGGGCC重复序列的大量扩增引起RNA或DNA水平G4结构形成,从而下调该基因表达,导致两种不同的神经退行性疾病的发生,一种是肌萎缩侧索硬化(ALS),另一种是额颞痴呆(FTD)。另外,G4也可以通过影响一些癌症相关基因的表达,它与人类一些癌症的发生密切相关[64-65],但它也可以作为一种潜在的靶标位点用于肿瘤等疾病的诊断和治疗,从而为治疗肿瘤等疾病药物开发提供了契机。

2.4 影响表观修饰

人基因组研究结果显示,与非G4序列相比,G4对应的DNA序列是低甲基化,这主要与G4结构是通过抑制DNA甲基化转移酶1(DNMT1)结合或向G4周围序列扩散有关[10]。在染色质水平,G4可以作为基因组中表观调控的靶标位点,说明G4可影响对其附近的染色质水平的表观修饰。例如a-球蛋白基因的数量可变串联重复区(VNTR)富含易形成G4结构的G碱基序列,SWI/SNF染色质重塑家庭的成员的ATRX可特异结合该G4序列,进而招募有利于基因表达的激活性染色质修饰,从而促进a-球蛋白基因的表达[63]。另外,G4可以作为表观遗传调控元件影响基因启动子区附近的组蛋白修饰[66]。这样,G4可以直接或间接影响局部DNA或染色质等表观修饰。

R-Loop即DNA单链及其对应的DNA和RNA杂合链形成的一种三链结构,它普遍于生物体基因组中。已有的研究结果表明,人和植物基因组中存在R-Loop和G4共分布现象[8,67]。基因启动子区域R-Loop和G4共存显著抑制基因的转录,消除R-loop可降低这种抑制作用,从而说明R-loop可增强G4的作用[8]。在细胞分裂S期时,R-Loop可通过促进G4的形成来抑制基因表达[68];另外,G4通过稳定R-Loop结构参与DNA损伤修复[69]。不过,R-loop与G4间相互作用的模式或机制目前仍不是十分清楚。此外,G4结构也可能参与人体细胞的离子跨膜运输过程[6],DNA复制[70]、免疫球蛋白类别转换和B细胞高频突变[71]等重要的生物学过程。

图1 G4在人和植物中的主要生物学功能

3 植物G4生物学功能

与人、动物和酵母等基因组中G4研究相比,植物G4研究远远滞后。植物G4研究主要集中在基于生物信息学的预测分析上[72]。目前,利用生物信息手段预测了水稻、玉米和拟南芥等16种已测序的单双子叶植物基因组中G4位点,并且利用CD和DNA聚合酶终止实验,在体外初步验证了水稻和拟南芥等4种植物基因组中部分G4序列[73-74]。另外,利用生物信息手段构建了196种植物的G4数据库,从而方便查询相关植物基因组中可能存在的G4位点[72]。序列分析结果显示,基因组中 G4的loop长度具有一定亚基因组分布倾向性,如G3L1-3和G3L1-7的G4结构倾向于富集在启动子区。通过对单双子叶植物基因组中含有G4序列的直系同源基因进行功能聚类分析,发现相关基因主要参与了基因表达调控、生殖发育、离子等跨膜运输、能量代谢以及体内外胁迫响应等生物学过程[73-74],说明G4同样参与了植物一些基本生物学过程。Marsico等[21]利用G4-seq在全基因组水平鉴定了拟南芥G4位点,并对其序列特征进行了初步分析,但并未涉及G4相关的生物学功能研究。因此,植物基因组中DNA G4的生物学功能以及相关的作用机制研究还有待于深入开展。

同样,RNA G4具有调控植物基因表达和正常生长发育等生物学功能。例如,SMXL4/5基因mRNA未形成G4时,SMXL4/5蛋白能够正常表达参与了韧皮部细胞的分化与生长,其mRNA G4可抑制该基因表达并影响韧皮部细胞的分化[26]。

SHR mRNA及其突变体相关的研究表明,SHR mRNA G4结构能够调节植物根细胞液-液分离[75],说明RNA G4可能在植物生理调节方面起到了重要的作用。光对G4结构的建成与消失具有一定的催化作用,推测G4也可能参与了植物光合作用,但需要进一步研究提供相关证据[76-77]。与动物不同,目前未发现植物microRNA前体上的G4具有调控其靶基因表达的作用[78]。

4 总结与展望

G4是普遍存在于生物体基因组中一种高级结构。它广泛参与了动植物体生长发育、基因组结构稳定性、基因表达调控和DNA损伤及修复等一系列重要的生物学过程。随着全基因组水平鉴定G4方法的发展和应用,将大力推进动植物体G4生物学功能研究。特别是G4在动植物体作用的分子机制还有待于深入研究,例如,G4是如何通过招募或排斥一些反式作用因子来实现其生物学功能;G4是如何通过影响表观修饰或与表观修饰因子互作来参与一些生物学过程的调控等。

深入解析G4对人类疾病发生的机制将有助于加深人们对癌症发病机理的认识。目前,G4作为靶标位点用于抗癌药物设计[79],癌症和神经性疾病的诊断和治疗[16-18],从而加速了现代医学的发展。例如,肝癌细胞中G4分布增加,因此 G4可用于肝癌早期辅助诊断[64]。G4作为潜在的药物靶标用于治疗精神类疾病等[19]。

同样,阐明植物G4生物学功能及其作用机制,将为基于基因表达调控的作物表观遗传育种提供理论参考。逆境胁迫特异的G4可作为分子标记用于作物抗逆分子育种,加速其育种进程。总之,随着研究的深入,G4在人类疾病诊断和治疗,农用物分子育种等方面将具有更加广阔的应用前景。

猜你喜欢
染色质生物学基因组
染色质开放性与动物胚胎发育关系的研究进展
哺乳动物合子基因组激活过程中的染色质重塑
牛参考基因组中发现被忽视基因
谷稗的生物学特性和栽培技术
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
初中生物学纠错本的建立与使用
“哺乳动物卵母细胞生发泡染色质构型的研究进展”一文附图
哺乳动物卵母细胞生发泡染色质构型的研究进展*
初中生物学纠错本的建立与使用