邹枚伶 夏志强 王文泉
(1中国热带农业科学院热带生物技术研究所海南海口571101;2海南大学海南海口570228;3华中农业大学湖北武汉430070)
自Waddington在1942年第一次提出表观遗传 学(Epigenetic)的概念,即“基因与环境互作导致表型的出现”,标志着表观遗传学问世。Waddington[1]对表观遗传学现象的描述强调了其“变异”的特点。以Bird[2]为代表的现代表观遗传又进一步定义为“不基于DNA序列变异的基因表达的可遗传改变”,强调了“表观遗传中的变异大部分可以在世代间稳定遗传”。但二者都是对现象的描述,缺少合理和深入的分子机理的阐述解释。Nei等于1975年提出基于研究群体中基因型频率及遗传结构关系的群体遗传学,但当时并未考虑到群体表观遗传的影响。后续对植物群体表观遗传的研究,弥补了群体遗传学对于不符合孟德尔遗传定律的表型的重要认识。DNA甲基化(DNA methylation)是DNA化学修饰的一种形式,也是表观遗传学的重要组成部分,指通过DNA复制后,经各类DNA甲基转移酶催化,将S-腺苷甲硫氨酸上的甲基共价结合到DNA分子的胞嘧啶碱基或腺嘌呤上的过程,能够在不改变DNA序列的前提下,改变遗传表现。植物群体中DNA甲基化(DNA Methylation in Plant Population)的变异是植物表型和基因表达变异的重要来源之一。近年来随着基因组学和分子生物学快速发展,使得DNA甲基化遗传和变异的分子机理得以基本阐明,并使植物群体DNA甲基化成为研究热点。
在植物不同的生物学过程中,作为重要的表观遗传标志物之一,DNA甲基化是表观遗传学的重要组成部分,在维持植物基因组稳定、调控基因表达、响应外界环境胁迫等方面发挥重要作用[3-7]。DNA甲基化通常发生在植物胞嘧啶碱基中,包含CG、CHG和CHH(H代表A,T或C)类型[8-9]。CG类型甲基化水平明显高于CHG或CHH甲基化类型[10]。Zhang等[7]发表了第一张植物全基因组甲基化图谱,发现超过三分之一的表达基因在基因区含有甲基化,而只有约5%的基因在启动子区内显示甲基化,并发现基因区甲基化的拟南芥基因高度表达。随后Inagaki等[11]发现,基因区甲基化在转录区比在非转录区高,然而这种关联的机制还不明确。
DNA甲基化检测目前常用的主要方法有甲基化敏感扩增多态性方法[12](methylation sensitive amplified polymorphism,MSAP)、高效液相色谱法[13](high performance liquid chromatography,HPLC)、甲基化DNA免 疫沉淀测定法[14](methylated DNA immunoprecipitation-sequencing,MeDIP-seq)、AFSM法[15](Amplifiedfragment single nucleotide polymorphism and methylation),以亚硫酸氢盐测序法[16](bisulfite sequencing)等。到目前为止,亚硫酸氢盐测序法仍是用于检测全基因组DNA甲基化的最经典和最重要的方法,尽管昂贵的费用可能会限制其样本的检测数量。而AFSM技术基于二代测序利用不同甲基化敏感程度的限制性内切酶进行双酶切,降低基因组复杂度,同时利用标签技术,可以用超低成本,同时对大规模无参考基因组的非模式植物群体样本进行高性价比的DNA甲基化和SNP分析[17-20]。
植物中建立和维护甲基化,以及去甲基化的主流研究认为,主要分为从头甲基化和甲基化维护,以及去甲基化机制[21]。发生在以前未甲基化的胞嘧啶的甲基化被称为从头甲基化机制[21],是由同源甲基转移酶DRM2和DNMT3催化。在全基因组中一旦建立起DNA甲基化模式,就必须稳定地维护,以确保转座子保持在沉默状态,并维护识别的细胞类型。目前研究发现,维护甲基化主要通过以下3种途径:第一种是通过DNA甲基转移酶MET1(也称为DMT1)、DNMT1同源甲基化转移酶和MSH1等甲基酶维护CG甲基化;第二种是通过植物特有的DNA甲基转移酶色氨酸甲酯酶CMT3维护CHG甲基化;第三种是通过包含DNA甲基转移酶DRM1/2和RNAi的RNA介导的DNA甲基化(RdDM)途径,维护CHH甲基化[22-23]。
CG、CHG和CHH这3种类型的甲基化均可以通过RdDM途径发生从头DNA甲基化。在植物中RNA介导的DNA甲基化现象[24-25]最早是1994年由Wassenegger等[26]发现。在植物生长发育过程中发现,双链RNA靶向同源基因组DNA序列导致胞嘧啶甲基化,即RdDM[26]。RdDM通过一套复杂的机制来沉默重复序列和转座子[27]。除了RNAi和DRM1/2外,RdDM还需要植物特异性RNA聚合酶Pol II、Pol IV和Pol V,来调节DNA甲基化途径[25,28-29]。Zemach等[30]发现,拟南芥RdDM途径主要介导短的转座子和常染色质区域,以及长的异染色质转座子边缘的CHH甲基化,而长染色质基因区CHH甲基化由CMT2甲基转移酶独立维护。
在植物中,CG甲基化是最丰富的DNA甲基化类型,广泛分布于基因区、转座元件和重复序列中[10,31],可以通过DNA复制过程中简单的复制机制维护[32]。MET1是CG甲基化维护中重要的DNA甲基转移酶[7,10,31,33]。Bewick等[34]发现,植物组成型表达基因的基因区中有大量CG甲基化位点,在进化中丢失了GBM的被子植物中同时也缺失甲基转移酶CMT3,证明了维护被子植物基因区甲基化需要CMT3。Stroud等[25]发现,met1拟南芥缺陷型突变株在全基因组中无CG类型甲基化,而vim1/2/3拟南芥缺陷型突变株中全基因组CG类型甲基化也大大缺失,并发现在ddm1拟南芥缺陷型突变株异染色质甲基化大大缺失。植物中ddm1突变体可引起H3K9甲基化缺失[35],H3K9高度甲基化与植物基因表达沉默相关[36]。Virdi等[37]发现,拟南芥msh1突变株CG甲基化类型发生超甲基化。
CHG甲基化被认为通过由包含组蛋白H3K9me2和DNA甲基化的加强环维护[32,36,38-39]。CMT3是拟南芥中主要负责维护CHG甲基化的甲基转移酶,Stroud等[25]研究发现,CMT3拟南芥缺陷型植株中CHG甲基化水平相比野生型大大减少。其它研究中也发现,当DNA甲基转移酶CMT3或者负责H3K9甲基化的组蛋白甲基转移酶KYP(又称SUVH4)减少时,将导致CHG类型甲基化水平显著降低[40-42]。观察到的DNA和组蛋白修饰的相互依赖性可以通过CMT3和KYP的复合结构域结构发现。除了其组蛋白甲基转移酶结构域,KYP具有特异性结合CHG甲基化的SRA结构域,这表明CHG甲基化可影响KYP。另一方面,CMT3具有结合甲基化组蛋白H3尾部的结合位点,这表明KYP的组蛋白甲基化也可影响CMT3[38-39,43]。另外,除KYP外,负责H3K9甲基化的组蛋白甲基转移酶SUVH5和SUVH6也是重要的CHG甲基化转移酶,kyp、suvh5/6缺陷株中CHG甲基化类型相比野生型也是大大减少[25,44-45]。在许多情况下,这些修饰之间的联系似乎涉及组蛋白和DNA甲基转移酶之间的蛋白互作[46]。
CHH甲基化是通过CMT2和RdDM从头甲基化来形成和维护[5,47]。CMT2对于植物维护CHH甲基化,特别是长异染色质元件的CHH甲基化,起了非常重要的作用[30]。然而在一些位点,CHH甲基化由CMT3、DRM1/2控制[25,48]。另外还发现,KYP SUVH5/6、通过另外的甲基化途径维护部分CHH甲基化[25]。
CG甲基化与非CG甲基化也是相互依存关系。Stroud等[25]还发现CG甲基化需要用于维护CHG甲基化,而同时CG甲基化取决于特定位点的非CG甲基化,在KYP suvh5/6,cmt3和drm1/2拟南芥缺陷突变株中,CG甲基化的缺失与非CG甲基化的缺失有关。
尽管大多数的植物DNA甲基化是一种较为稳定的表观遗传标记,但植物仍可以主动或者被动地发生去甲基化[49-50]。Ikeda等[51]和Zhu[52]的研究发现,植物可能通过DNA糖基化酶,与碱基切除修复途径BER结合,产生去甲基化。在拟南芥中发现了DEMETER(DME)、沉默代谢物ROS1、DEMETERLIKE 2(DML2)和DML3[53-56]等DNA糖基化酶,糖基化酶的DME/ROS1家族与HhH-GPD具有同源性,是双功能酶,其可以打破N-糖苷键,去除碱基和DNA主链[57-59]。拟南芥的糖基化酶识别并从dsDNA寡核苷酸中去除甲基化的胞嘧啶[55-56,60-62]。通常参与BER的DNA糖基化酶识别和去除诱变底物,包括氧化和烷基化碱基,以及T/G错配,其通常由甲基化胞嘧啶脱氨产生[57]。Hsieh等[50]在植物生长发育过程中观察到了甲基化水平减少的现象。Niederhuth等[49]在克隆繁殖的植物中也发现了去甲基化现象。
植物群体DNA甲基化在进化上很重要,也是重要进化过程中的间接结果,通常与基因沉默有关。Niederhuth等[49]对34种不同被子植物甲基化进行研究发现,广泛的DNA甲基化模式,在进化方面反映了植物的差异性,如十字花科植物中CHG类型甲基化水平低、基因区CG甲基化类型少或者缺失,而禾本科中异染色质CHH类型甲基化少或缺失,且基因区富集CHH类型甲基化。Takuno等[63]发现,蕨类植物和被子植物CG甲基化相对水平具有一致性,但是CHG甲基化与基因组大小相关。基因区甲基化(GBM)在各种植物直系同源物种中具有高度保守性[63-65]。
植物DNA甲基化的遗传变异是自然变异的潜在来源,影响植物遗传多样性,对植物进化及对当地环境的适应性产生重要贡献[66]。Graaf等[67]由拟南芥积累的突变评估每一代每个单倍体中每个CpG位点的突变率发现,拟南芥中正向突变率(即甲基化增加速率)约为2.56×10-4,而反向突变率(即甲基化损失速率)约为6.30×10-4,这些甲基化突变速率比Ossowski等[68]研究发现的基因突变率(约7×10-9)高约5个数量级,因此,提出在进化过程中表观遗传突变与DNA序列单倍型分离的一种进化机制,分离的程度取决于精确的表观遗传率和潜在的表观遗传选择效应[67]。拟南芥DNA甲基化的改变可产生可遗传的表型多样性,表明复杂性状表观遗传的诱导和自然突变的产生可能是进化中适应不同生态环境的一种途径[67,69-70]。
虽然通过自然突变可以产生DNA甲基化的改变[71-72],但遗传和环境因素对于DNA甲基化的改变更为重要。DNA甲基化变化的遗传基础包括TE插入和缺失、染色体重排、甲基化相关因子突变等[73],而重要的环境条件包括温度及其它胁迫条件等[4-5,74-75]。Marí-Ordóñez等[76]发现,转座元件活动导致基因多样化,从而提供适应进化的潜在性状来源,因此也在植物进化中发挥了关键作用。常见由TE诱导而导致基因功能缺失,即形成无效突变,从而改变表型。TE诱导无效突变已在植物驯化过程中被多次选择。Kawase等[77]发现,低直链淀粉率(糯性)地方品种中由于TE插入,淀粉合酶基因GBSS具有弱或无效等位基因。另外白色和粉色的葡萄品种[78-79]、无核苹果[80],以及进化中多种花色的形成[81-82]也是由于TE插入形成无效突变引起的。TE插入后还能增强基因表达或阻碍基因表达[83]。在大量玉米、水稻、拟南芥等的研究中发现,TEs可以介导染色体结构的大规模变化,从而使发生缺失、倒位、易位或者其它染色体重排[83-87]。植物通过DNA甲基化还表现出对于环境的局部适应性。Shen等[88]发现,依赖于CMT2的CHH甲基化可能影响拟南芥的耐热性。Dubin等[5]发现CHH甲基化随温度增加而增加,而在基因转录区CG甲基化与拟南芥起源纬度相关。但有另一种观点认为,从长时间进化角度来看,可遗传的表观遗传变异中环境诱导对于甲基化变化仅是次要因素[6]。
植物种内遗传多样性可能是群体和生态系统功能的重要组成部分,大部分研究表明,种内多样性效应归因于DNA序列的潜在变化,然而种内表型差异及潜在的功能多样性同样也可通过表观遗传变异产生。由于植物通常会在同一地理位置生活很长时间,因此植物有可能更倾向于利用DNA甲基化,产生多样性的表观遗传,来快速地适应不断变化的环境。
Latzel等[89]在拟南芥群体中发现,表观遗传多样性增加后其群体产量增加了40%,且表观遗传多样性增加的群体抗病能力更强。Kawakatsu等[8]通过对来自全球的1 028份拟南芥自然种群甲基化分析发现,不同种质中基因区甲基化基因数,具有很大的差异性,并且与这些基因的CG甲基化水平相关。甲基化与种质的地理起源以及气候有非常明显的相关性。从地理起源来看,来源于瑞典的拟南芥种质表现出高甲基化,而来源于西班牙的拟南芥种质表现出低甲基化。而从当地气候温度来看,CHH甲基化水平与当地气候温度呈正相关。Schmitz等[27]在拟南芥群体中观察到诱导和自发的表观遗传变异,植物表观遗传多样性的增加,有利于增加其抗性、产量和保持其物种稳定性。
DNA甲基化可以通过有丝分裂和减数分裂稳定遗传[89]。目前对植物全基因组群体DNA甲基化遗传学研究还很少,而大都集中在模式植物拟南芥[5-6,90],玉米[91-92]和大豆[93]中。虽然不同植物物种间的总甲基化含量差异很大[94],很可能是由于基因组大小和组织的差异[94-95],特异性甲基化变异的模式似乎都比较保守[5-6,47,90-91,93,96-97]。富含基因的独立区域往往是最可变的,而在转座元件富集的异染色区域中的变化在很大程度上被抑制[27,67,90-91]。异染色质区域缺乏变异与TE序列通过RNA介导机制的稳定沉默一致[22]。Schmitz等[90]利用全基因组亚硫酸氢盐测序技术对来自全球的155份拟南芥进行DMR识别,并将该数据与其全基因组DNA序列数据整合,在植物中第一次进行了群体全基因组DNA甲基化研究。在玉米和大豆群体中也发现DMR受到强烈的遗传控制[91,93]。有研究表明,许多在植物种群中检测到的关联是因为SNP等位基因标记附近的结构突变,例如TE插入,这些突变会影响DNA甲基化[98-99]。
Cortijo等[100]研究发现,在同基因型拟南芥群体中实验诱导的DMR可以显著稳定地遗传。实验诱导的DMR在该物种的自然种群中也是可变的,表明这些DMR在野生植株中也会发生表观突变,并且可能也潜在地受到自然的选择。为更进一步了解进化机制,近年来对植物群体表观遗传变异进行了大量的研究[69,101-109]。
随着DNA甲基化测序技术的发展和测序成本的下降,以及相关生物信息学方法的开发与优化,使得可以对更大量的样品、更多种类的植物组织进行表观遗传学研究,表观遗传学将逐步由研究植物个体DNA甲基化图谱发展为研究植物群体DNA甲基化。
DNA甲基化可以影响基因表达,并导致明显的表型差异,以及一些适应环境变化的性状。不像转座子甲基化,在基因区的CG甲基化并不引起沉默,因为这些基因更倾向于在许多组织中被适度表达[2,33]。Sun等[110]发现,小麦杂种中甲基化程度降低与基因表达增强有关。Takuno等[63]研究植物基因区甲基化发现,针叶树表达基因中有较高水平的CG和CHG甲基化水平。尽管如此,在met1突变体中,一些基因区甲基化的基因表达上调[33],这表明基因区甲基化与转录水平间的相互作用。推测可能基因区甲基化抑制了某些启动子产生反义转录物[33,111]。然而鲜有发现met1突变体中反义转录增加,并且与基因区甲基化的基因并不相关[2]。植物遗传群体杂交种中亲本甲基化模式的变异可能有助于新的基因表达,进而出现杂种优势;而植物自然群体出现的甲基化变异通过影响基因表达水平,从而产生表型变异,影响原植物的进化进程。但目前植物群体甲基化、基因表达与表型之间相关研究还较少。近年来,在植物群体中结合DNA甲基化和基因差异表达研究,为研究植物群体DNA甲基化机制提供了新的思路。Feng等[112]通过在水稻中全基因组DNA甲基化测序,结合转录组测序分析等发现,抗逆、金属离子转运和转录因子等基因发生甲基化变异可引起其基因表达发生变化,经5-氮胞苷处理后可通过降低DNA甲基化水平从而促进水稻植株的生长和镉的积累,从而解析了水稻通过DNA甲基化变异对镉反应的分子机制。Zou等[17]利用基于二代测序的AFSM技术,高通量地检测了186份木薯杂交群体的半甲基化位点、全甲基化位点及SNP位点,解析了两亲本和子代甲基化遗传特征,构建了木薯遗传连锁图谱、DNA甲基化图谱等,并结合多年多点表型数据进行了耐寒和产量品质相关QTL和表观QTL定位,同时结合全基因组转录组测序,解析了差异甲基化区域差异表达基因的功能及其相关性。因此,在植物群体中结合转录组分析研究植物群体的DNA甲基化变异是可行的。
随着基因编辑技术的发展,使得结合基因编辑技术探讨去甲基化也成为了以后研究植物群体DNA甲基化机制的新的有效途径之一。Ji[113]和Gallego-Bartolome[114]分别开发了拟南芥基因组中随机、高效、快速去DNA甲基化和高特异性、低脱靶效应的特定位点靶向去除DNA甲基化的两大类去甲基化新工具,可用于揭示植物群体甲基化变异机理。
根据经典遗传学理论,Ainouche等[115]认为,远缘杂种和异源多倍体在进化上的潜力要低于二倍体亲本,但后来通过越来越多的研究发现,异源多倍体具有普遍性,甚至典型二倍体小基因组植物拟南芥和水稻等在其进化过程中也经历了多倍化事件[116]。高等植物基因组进化和新物种形成与有性杂交和有性渐渗杂交有关[117],杂交在高等植物新种形成和进化上具有重要意义。远缘杂交后产生的杂种可以通过完整基因组加倍形成异源多倍体,或者通过回交使主效基因和主效QTL通过直接或间接方式(如基因互作等)产生新的基因组变异,甚至是产生表型变异,进而改变自然选择条件下物种进化的进程。在一些极端情况下,远缘杂种还可以在同倍体水平适应不同生境方面具有明显杂种优势,且与亲本生殖隔离的新种[115]。植物在远缘杂交和异源多倍体进化过程中,编码基因和转座子等DNA甲基化水平及模式等的改变,使得F1杂种或异源多倍体中同一基因组中同源基因和不同基因组中部分同源基因之间的相互作用,从而诱导产生出基因表达差异,进而出现大量广泛的“不符合孟德尔遗传规律的表型变异”的一些进化优势,但具体机理还不清楚。随着甲基化测序技术的发展,以后可以在植物群体全基因组甲基化水平进一步深入解析远缘杂种和多倍体进化过程中DNA甲基化变异及其遗传调控机制。这将有利于进一步阐明群体表观遗传变异的遗传来源、植物表观遗传变异的因果,解析植物中通过杂交导致的杂种优势,甚至新物种形成的机制,种内和种间多样性,对于生长环境的适应性、作物驯化的分子基础。同时,杂种优势高效利用新途径对于探索表观遗传和复杂表型间的关系具有重要意义。另外,受到环境影响的甲基化如何由短期效应变为长期效应也是很值得研究。