张会 , 王凯
1.南通大学生命科学学院,江苏南通 226019;2.南通大学教务处,江苏 南通226019
着丝粒是染色体三大功能元件之一,在真核生物细胞分裂过程中发挥着保障染色体正确分离的重要作用。着丝粒在染色体形态上表现为中期的主缢痕,分子结构上则是一个DNA-蛋白的复合体。具体而言,着丝粒主要由内部的着丝粒染色质(DNA 及组蛋白)以及外部的蛋白复合体组成。这一外部复合体即动粒(kinetochore)结构,在细胞分裂过程中,纺锤丝微管通过与动粒相连从而实现牵引染色体的运动与分离(图1)[1-2]。目前,已发现的动粒蛋白超过100 种,且在不同物种间都显示出较高的保守性[3-6]。
图1 着丝粒结构Fig.1 The structure of centromere
着丝粒的显著特征之一是其核小体含有H3组蛋白变体CenH3(果蝇中称作CID,动物中称作CENP-A)[7]。CenH3与H3组蛋白虽然具有高度相似性,但不同物种在其N端存在高度变异,即使在近缘物种间仍可能存在一定差异。因此,CenH3的N 端序列常用于开发物种特异引物和制备CenH3 抗体。CenH3 的组蛋白折叠区(histone fold domain,HFD)是另一个重要区域,其内部的第1 个折叠环(loop1)和第2 个α 折叠螺旋(α2-helix)在CenH3 靶向结合到着丝粒核小体过程中发挥决定性作用。因此,这一区域被称为CenH3 的靶向结构域(CenH3-targeting domain,CATD)[3,5]。另外,基于CenH3 在真核生物着丝粒中的普遍存在特征以及在动粒组装过程的重要作用[8],CenH3也被作为功能着丝粒的标志[9-12],用于界定真正意义上的着丝粒区。
着丝粒区域往往由大量重复序列DNA 组成,主要包含串联重复序列(亦称卫星重复序列,tandem repeat or satellite repeat)与转座子重复序列。虽然着丝粒功能及其组成蛋白在物种间高度保守,但是重复DNA 序列则呈现快速演化特征,具有高度物种特异性。近年来,染色质免疫共沉淀结合高通量测序技术(chromatin immunocoprecipitation combined with high-throughput sequencing,ChIP-seq)以及重复序列分析等新技术解决了着丝粒DNA 分离的难题,从而推动了着丝粒DNA结构及演化研究的深入开展。另外,作为染色体的基本功能元件之一,着丝粒也是合成生物学研究的重要内容。本文针对植物着丝粒DNA 的相关研究进行了综述,以期为后继研究提供借鉴。
植物着丝粒DNA 主要由串联重复亦称卫星重复序列、反转录转座子(centromeric retrotransposon)以及低拷贝序列组成[13-15]。串联重复序列由拷贝数不等的重复单元组成[16-17],往往与着丝粒特异的反转录转座子交替分布于着丝粒区[18-19]。着丝粒区同时存在低拷贝序列,并包含具有转录活性的基因[20-22]。
真核生物中,串联重复是着丝粒区域分布最为丰富的一类重复序列。研究表明,着丝粒串联重复在某些物种中可以占据几乎全部着丝粒区域,如人类中,由171 bp重复单元组成的卫星重复(亦称α 卫星DNA)可组成长度250 kb~5 Mb 的串联序列,占据着丝粒的绝大部分区域,并可延伸至功能着丝粒区外部。串联重复也是多数植物着丝粒的主要成分(表1),如拟南芥(Arabidopsis thaliana)着丝粒长度范围在2.8~4.0 Mb 之间,其主要由重复单元为180 bp 的串联重复组成;二穗短柄草(Brachypodium distachyon)、水稻(Oryza sativa)、玉米(Zea mays)以及甘蔗(Saccharum officinarum)等禾本科植物的着丝粒同样含有大量串联重复序列,这些串联重复的重复单元大小为140~156 bp,可组成长度达2 Mb的序列,占据着丝粒的大部分区域[22,24-26]。
表1 植物中已知的着丝粒串联重复序列[23]Table 1 Known centromeric tandem repeats in plants[23]
研究发现,不同物种着丝粒串联重复的显著特征是重复单元大小近似于缠绕1 个核小体的DNA 长度,即约150 bp。分析认为,这一特征可能与着丝粒核小体特殊的结构及DNA 缠绕方式有关。然而,在马铃薯与甘蔗的研究中发现,其着丝粒串联重复的重复单元可长达数kb[19,22]。分析证实,这些重复序列与反转录转座子具有高度相似性,说明其很可能来源于反转录转座子。推测反转录转座子的频繁转座事件推动了具有长重复单元的串联重复序列的形成,而这些长重复单元的串联重复经适应性选择后演变成具有约150 bp的着丝粒串联重复单元。由此认为,那些具有重复单元约为150 bp串联重复序列的着丝粒可能处于进化上的中后期,即处于成熟着丝粒阶段;反之,长重复单元的着丝粒则可能处于进化上相对较早的阶段。
着丝粒串联重复序列通常具有种属高度特异性,不同物种间存在极低相似性,这说明着丝粒串联重复序列具有快速演化特性[6]。不同物种比较发现,着丝粒串联重复序列具有极低的同源性[2],即使是属内亲缘相近的种间材料,其着丝粒串联重复序列也可能不尽相同,如栽培稻的着丝粒串联重复序列CentO 在稻属(Oryza)中广泛存在,但在近缘的FF 组野生稻(Oryza brachyantha)和CC组野生稻(Oryza rhizomatis)的着丝粒中却并未发现[19,21]。目前,仅发现玉米、水稻等禾本科物种的着丝粒串联重复单元间具有约80 bp 的同源区段[27-29],这一保守的序列被认为包含了着丝粒核心功能信息。深入分析发现,这一保守序列可形成与着丝粒核小体间更佳的缠绕结构,这一点也说明了着丝粒DNA 序列的结构在其功能行使中发挥重要作用[22]。
着丝粒反转录转座子(centromeric retrotransposons)是分布于着丝粒区域的一类转座元件,往往为LTR 类型反转录转座子[30]。研究发现,植物着丝粒的转座元件大部分是由LTR 型的Ty3/gypsy类反转录转座子组成[31-32](表2)。例如,拟南芥着丝粒特异的反转录转座子Athila(Ty3/gypsy)与串联重复穿插分布于着丝粒,两者共同形成着丝粒核心区域3 Mb 的着丝粒中央结构域;与之类似,水稻着丝粒也由大量Ty3/gypsy 反转录转座子CRR(centromere-specific retrotransposon of rice)与着丝粒串联重复CentO 组成[27,33]。同样,着丝粒特异的反转录转座子CRM(CR of maize)也大量分布在玉米着丝粒中[34]。已知最古老的被子植物无油樟的研究表明,转座元件在其进化早期就已经插入到着丝粒中[35],说明着丝粒反转录转座子在早期着丝粒形成中发挥重要作用。
表2 植物着丝粒特异反转录转座子序列[23]Table 2 The centromeric retrotransposons in plants[23]
着丝粒反转录转座子序列的分布虽然具有一定的着丝粒特异性,但往往也会延伸分布于着丝粒旁侧区域。例如,对玉米、水稻、棉花等研究发现,着丝粒反转录转座子序列主要集中在具有CenH3的功能着丝粒区域,但是,也有大量拷贝延伸分布到非CenH3 结合的着丝粒附近区域,甚至在远离着丝粒的染色体臂上亦有发现[36];同时,棉花着丝粒反转录转座子也被发现与rDNA 分布重叠,暗示着丝粒与rDNA 重复序列间可能存在某种共有特性,适于着丝粒反转录转座子的插入[37]。这一发现为探究着丝粒反转录转座子的形成与着丝粒区特异富集机制提供了新的线索。
然而,并非所有植物着丝粒LTR 类反转录转座子都是Ty3/gypsy 类型。在中国古代莲(Nelumbo nuciferaGaertn.)的研究中发现,其着丝粒主要分布于Ty1/copia 类反转录转座子上[38];另外,Ty1/copia 类型反转录转座子也是小麦着丝粒的主要转座元件[39]。值得注意的是,古代莲和小麦着丝粒中仍然存在部分Ty3/gypsy 类型的反转录转座子序列[38],表明这两类反转录转座子均可形成着丝粒特异序列。但是,Ty3/gypsy 类型的反转录转座子序列如何在多数物种着丝粒中获得进化优势仍然是未解之谜。
由于存在大量重复序列以及异染色质化,着丝粒区遗传重组及转录活性受到显著抑制,早期认为不存在功能基因[40-41]。水稻8 号染色体着丝粒中具有转录活性基因的发现突破了这一认知[10,42]。目前,在模式材料拟南芥、二穗短柄草以及马铃薯、棉花等作物着丝粒区均发现存在转录活性基因[17,19,21,24,37]。但与常染色质区不同,着丝粒区的基因密度显著低于常染色质区,例如,棉花着丝粒的基因密度为510 kb 分布1 个基因,而基因组其他区域的密度则达到20 kb 分布1 个基因[37];同样,在禾本科模式物种二穗短柄草的着丝粒区平均每60 kb 分布1 个基因,而在非着丝粒区基因的密度为8 kb 分布1 个基因[24];并且,这些基因往往分布在H3 组蛋白存在的核小体区域,CenH3 核小体区域则极少含有转录活性基因,这一点也说明CenH3 的存在与基因转录具有负相关的特征。目前,着丝粒区的基因表达还未发现具有普遍的时空特异性,但其表达量通常较低[24,37,43],这也印证了着丝粒抑制基因表达的特性。
分析发现,着丝粒基因功能多数是未知的。但在水稻、木瓜中的研究揭示着丝粒中的基因可能具有重要的生物学意义。抑制重组是性染色体形成的主要因素,交换抑制导致性别决定基因不能被交换到同源染色体上,最终将性别决定基因固定到特定染色体,从而形成了带有固定性别决定基因的性染色体。在木瓜的研究中发现,其性别决定区位于着丝粒内[44],这与上述着丝粒区抑制交换从而形成性染色体的猜想是吻合的。水稻中,EBR1是一个介导广谱细菌和真菌抗性的基因,而该基因也被定位于着丝粒区[45]。印证着丝粒可能存在具有重要生物学功能的基因。这一基因的定位和克隆经过了长期的研究,这主要是由于着丝粒区交换频率低、难以获得重组个体导致,这一点值得研究者在开展着丝粒区基因的研究中加以关注。总之,木瓜性别决定基因和水稻EBR1基因的研究证实了着丝粒区可能存在具有特殊生物学功能的基因,但其定位和克隆将是一个挑战。
研究认为,着丝粒起源于新着丝粒区,与成熟着丝粒不同,新着丝粒位于缺乏重复序列的常染色质区,但随着重复序列在新着丝粒的产生和扩增,最后占据功能着丝粒区域,形成富含串联重复的成熟着丝粒[21]。然而,着丝粒重复序列如何形成并特异富集在着丝粒区仍然未有定论。目前认为,着丝粒形成后,可能存在多种不同的串联重复序列,并在未知的选择压力下某一类型形成适应着丝粒结构后迅速占据主导地位,从而成为着丝粒区的主要成分[19,21],这一观点在马铃薯着丝粒的研究中得以验证。马铃薯12 个着丝粒分布着不同类型的串联序列,并且有5 条染色体的着丝粒区并未发现串联重复序列存在;同时,比较分析发现,多个串联重复序列在马铃薯近缘物种的着丝粒中并不存在,进而说明这些序列处于快速演化的阶段。但这些结果仍然无法解答着丝粒串联序列如何形成、如何在着丝粒中特异富集等问题。
有研究认为,着丝粒反转录转座子通过其高频转座形成串联重复序列,但这一假设一直未能得到证实。在对陆地棉祖先种雷蒙德棉的研究中发现,其着丝粒中仅含有反转录转座子序列,并未发现卫星序列存在;同时,反转录转座子序列也呈现多种类型[37]。这一发现暗示,着丝粒重复序列可能起源于反转录转座子。而在马铃薯、甘蔗等研究中的发现为这一观点提供了新的证据。马铃薯与甘蔗着丝粒均存在长重复单元的串联重复序列,而其序列与反转录转座子呈现高度相似性,由此可以推断,这些串联重复序列很可能来自反转录转座子[19,21-22]。最近,在甘蔗中发现了多个着丝粒串联重复序列具有末端重复序列特征;分析显示,这一结构可导致DNA 发生环化[22],而通过DNA 的环化扩增,可以快速形成不同长度的串联重复序列[46];这些串联重复序列可以借助末端同源序列重新整合到染色体上(图2),从而为着丝粒反转录转座子形成串联重复序列提供了新的线索,也为着丝粒串联序列演化提出了一个新的完整的路径。
图2 基于体外环化机制的着丝粒串联重复DNA演化模式Fig 2 The proposed eccDNA-based on rolling circle amplification mechanism.
着丝粒重复序列如何特异地在着丝粒富集一直是一个未解之谜。通过对着丝粒重复序列与端粒序列比较分析发现,在少数物种中着丝粒序列与端粒序列具有较高的相似性[47-49]。同样,在棉花中的研究发现,着丝粒反转录转座子序列与rDNA在染色体上呈现重叠分布,比较分析并未发现两者具有任何序列同源性。但这一发现可能暗示丝粒区与rDNA 及端粒区域存在某种类似结构特征,导致了着丝粒反转录转座子的特异插入[37]。这一结构特征可能是着丝粒核小体的特殊结构所决定的。例如,在水稻、柳枝稷及甘蔗中均发现其占主要成分的重复序列与CenH3 核小体具有一定缠绕吻合特征,这一特征使得着丝粒重复序列与核小体形成更加牢固的结构,利于着丝粒稳定结构和行使功能[22,29,50]。这些发现进一步说明,在着丝粒重复序列的演化过程中,具有适宜着丝粒核小体结构的重复序列可能发挥了决定性的选择作用,推动了着丝粒重复序列的演化以及着丝粒特异富集。
由于着丝粒重复序列的物种特异性,常规比较基因组学方法往往难以对其进行有效的分离和分析。近年来,根据着丝粒存在特异组蛋白CenH3 的特点,研究者建立了基于CenH3 抗体的ChIP-seq 的着丝粒分离分析方法[51],使得分离不同物种着丝粒DNA 得以实现,并极大推动了着丝粒研究的深入开展。
在获得着丝粒ChIP-seq 数据后,通过与基因组序列比对筛选,获得在基因组上具有单一拷贝的数据,并将其锚定到对应物种的基因组上,即可获得ChIP-seq 富集的峰图,该峰图则指示着丝粒区。这一方法目前已被用于着丝粒的基因组精确定位[21,24,37,52];同时,由于大量高度重复序列的存在,着丝粒往往是基因组拼装工作中最为困难的区域,因此,着丝粒区的组装质量往往决定和反应了基因组的整体组装质量。因此,可以根据每条染色体是否获得单一、完整的着丝粒区间来判断基因组组装质量[51]。这一点对基因组组装质量评估具有重要的参考价值。
由于着丝粒DNA 的复杂性,目前已绘制基因组草图的物种极少有完整组装的着丝粒。因此,难以将ChIP-seq数据通过与基因组比对获得着丝粒特异重复序列。近年来,由Nowak 等[53]提出的1种重复序列分析方法在着丝粒的重复序列研究中广泛应用,其原理是采用较低深度的基因组数据构建重复序列家族,并根据序列相似性组装并聚类成不同的重复簇;然后将均一化后的ChIP-seq与基因组对照(input)数据锚定到不同重复簇上,从而获得两者在各个重复簇上的富集度差,具有高的ChIP-seq/input 富集度差的重复序列则被认为是在着丝粒中富集的,即候选着丝粒重复序列[19,21]。结合细胞学的荧光原位杂交技术验证,最终可鉴定出着丝粒区域特异的重复序列。这一策略已在包括马铃薯、玉米、棉花、二穗短柄草、甘蔗、古代莲等多个物种的着丝粒重复序列分析中得以成功应用[21-22,24,26,37-38],充分显示了该方法在着丝粒重复序列鉴定与分析中的有效性。随着三代单分子测序技术的发展,着丝粒序列的研究也将更加深入。结合单分子测序数据以及原有的ChIP-seq 测序数据,可以更加确切地获得重复序列在着丝粒区的分布方式,进一步揭开着丝粒序列的组成与演化之谜。
着丝粒是真核生物染色体不可或缺的功能元件,继续开展着丝粒组成、结构及演化研究是揭示着丝粒功能之谜的关键;同时,着丝粒、端粒及复制原点是合成有功能染色体的3 个基本元件,因此,着丝粒形成与演化之谜的揭示也是未来合成生物学的必经之路。
就现阶段而言,尽管测序技术已有极大提升,但对于长度较长且富含重复序列的着丝粒而言,其正确拼装仍然是基因组绘制的一个巨大挑战,着丝粒区也因此被称为是基因组研究的最后阵地。着丝粒序列的鉴定和分析对于基因组组装工作而言具有重要的推动作用和借鉴意义。借助着丝粒组蛋白ChIP-seq 的分析策略,实现了不同物种着丝粒序列的正确分离和鉴定,借助ChIP-seq的单拷贝序列回帖基因组实现了着丝粒的精确定位,这些极大推动了着丝粒区的组装工作。随着更长读长和更高准确率的测序技术的应用,着丝粒重复序列将被更加准确的拼接组装,着丝粒序列组成之谜也将进一步被破解,这也将推动着丝粒起源、演化乃至基因组工作的深入开展。