张 瑞 ,张天留,宋美华,徐凌洋,高会江,李俊雅,陈 燕*,高 雪*
(1.中国农业科学院北京畜牧兽医研究所,北京 100193;2.山东省栖霞市庄园兽医站,山东栖霞 265300)
重复序列(Repetitive Sequence)是指在整个基因组中以多个拷贝出现的核酸序列,分布在染色体不同位置,是真核生物基因组的重要组成部分[1-2]。最新研究表明,过去被认为是“垃圾DNA”的重复序列在基因组中扮演着重要角色[3],对物种进化、基因遗传变异、转录调控等具有重要意义[4]。病毒或原核生物中的重复序列存在较少,而重复序列在真核生物中存在广泛。从病毒、原核生物到真核生物,重复序列在基因组中的比例呈逐渐提高的趋势:病毒中重复序列不足1%[4];啤酒酵母为3.4%[4];植物基因组中比例波动很大,水稻的重复序列占35%[5],大豆42%[6],小麦80%[7];哺乳动物中比例较为稳定,人类重复序列为47%[8],小鼠为42%[9];牛亚科物种中,普通牛、欧洲野牛、大额牛的重复序列分别为48.81%[10]、47.03%[11]、48.13%[12],非洲水牛中重复序列占37.21%,相对其他几个牛种比例略低[13]。根据重复序列在基因组中的分布方式,可分为串联重复序列(Tandem Repetitive Sequence)和散在重复序列(Interspersed Repetitive Sequence)。本文对重复序列的分类和特点进行综述,重点关注串联重复序列和散在重复序列在牛亚科中的研究进展,并分析了这两大类重复序列在牛亚科物种进化中的作用。
1.1 串联重复序列的分类 串联重复序列是指核心重复单元以首尾相连的方式多次重复所组成的序列,广泛存在于真核生物和部分原核生物基因组中,主要分布于染色体着丝粒和端粒区[14],对有丝分裂和减数分裂中染色体的分离以及染色体结构稳定性至关重要[15-16]。根据串联重复单元的长度,串联重复序列可分为3 大类,即卫星DNA(Satellite DNA,>100 bp)、小卫星DNA(Minisatellite DNA,10~100 bp)和微卫星DNA(Microsatellite DNA,<10 bp)[17]。
1.1.1 卫星DNA 卫星DNA 是指重复单元长度大于100 bp的序列,是异染色质的重要组成部分,一般为高度串联重复,主要集中在中心体周围和亚端粒处。大多数动植物基因组卫星DNA 在150~180 bp 或300~360 bp[18],具有富含AT 的特点[2]。
1.1.2 小卫星DNA 小卫星DNA 也称可变数目串联重复序列(Variable Number Tandem Repeats,VNTRs),是指重复单元长度在10~100 bp 的序列,一般为中度串联重复,主要位于常染色质区域,与基因的转录与调控等生物功能相关[19]。第一个小卫星DNA 是由Weller 等[20]在人类肌红蛋白基因的内含子中发现的。小卫星的大小通常在细胞减数分裂期通过同源重组的扩张和收缩而发生改变[21]。
1.1.3 微卫星DNA 微卫星DNA 又称为简单重复序列(Simple tandem repeats,STR),其重复单元一般在10 bp 以内[22],通常为中度串联重复,主要位于基因组非编码区或内含子区域[17,23-24],是染色体上端粒的重要组成部分。
1.2 串联重复序列的特点
1.2.1 卫星DNA 的保守性 同一类型卫星序列具有高度的保守性,尤其是着丝粒区卫星序列。1978 年,Macaya 等[25]通过密度梯度离心技术从牛基因组DNA中分离出1.706、1.711a、1.711b、1.715、1.720、1.723 等8 种不同的卫星DNA,其中1.706、1.711、1.720 卫星序列相似性较高。1982 年,Taparowsky 等[26]提出了卫星序列进化的假设模型,并将卫星DNA 分成了A、B 两大家族。家族A 包括1.706、1.711a、1.720 卫星序列,其来源于一个12 bp 的重复单元(GATCAGGCAA(G)CT);而家族B 则包括1.715、1.711b 卫星序列,来源于另外一个12 bp 的重复单元(A(T)CTCGGGGTTC C),但这些序列共同起源于一个9 bp(ATCGGGCTA)的简单重复序列。1996 年,Modi 等[27]通过Southern印迹杂交(Southern Blotting)和荧光原位杂交技术(Fluorescence in situ hybridization,FISH)对偶蹄目下46 个物种进行比较分析,发现bovine-Pst 和着丝粒区特异性卫星序列1.715 卫星家族广泛存在于反刍动物中,结果表明这两个家族在反刍物种间具有高度的保守性。Kopecna 等[28]2012 年利用激光显微技术分离了10个牛科种群着丝粒特异性卫星DNA-1.715 卫星家族,并通过卫星DNA 的保守性分析了它们之间的亲缘关系,发现普通牛和野牛、亚洲水牛和非洲水牛4 个物种亲缘关系更加紧密。2013 年,Melters 等[29]对282 个动植物基因组分析发现,着丝粒区存在大量的串联重复序列,其中普通牛、瘤牛、欧洲野牛、牦牛和水牛等物种着丝粒区存在680 bp(1.723 卫星家族)和1 410 bp(1.715卫星家族)两类重复序列,但两者序列无相似性,且前者的丰度较低,密度更小,如在普通牛中,680 bp 的序列在基因组中所占比例为29%,而1 410 bp 的序列达到了71%。
1.2.2 微卫星DNA 分布的不均性 微卫星DNA 在基因组中分布具有不均性。人类基因组中90%的微卫星DNA是在近端粒区发现的[30],由大量高度重复的TTAGGG序列组成,昆虫则由TTAGG 组成[31]。真核生物中,二碱基微卫星DNA 丰度最高[32],人及其他哺乳动物以AC最为丰富,植物以AT 最丰富[33]。Adams 等[32]对71 个脊椎动物基因组微卫星序列进行了分析,结果发现鱼类、爬行动物和哺乳动物的微卫星含量最多,丰度分别为716.86 loci/Mbp、628.26 loci/Mbp、491.23 loci/Mbp,其中4-mer 微卫星丰度最高,但2-mer 微卫星密度最大;在普通牛中2-mer 密度达到1.8 kb/Mb,而6-mer 微卫星密度只有148 bp/Mb。此外,利用不同的计算方法和软件得到的微卫星DNA 虽然存在差异,但结果均表明微卫星并不是均匀的分布在染色体上,而是富集在重复序列丰富或者匮乏的地方。在牛科基因组中,不同染色体上微卫星的丰度和密度各异,Y 染色体上最高,整体上与各染色体的长度无关,而与GC 含量呈负相关[34]。
1.2.3 小卫星和微卫星DNA 的多态性 小卫星DNA GC 含量丰富,具有高度多态性和不稳定性[35]。研究发现,酵母、真菌、植物和高等真核生物在内的大多数生物中都存在富含GC 的小卫星序列,少部分AT 含量丰富的小卫星倾向于形成回文序列和发夹结构,使基因组的不稳定性加强[36]。在人类基因组中,小卫星的平均突变率大于0.5%,其中高突变位点可达10%[35]。小卫星的多态性及与基因组中其他类似位点杂交的能力,使其可以作为个体鉴定的DNA 指纹图谱[37]。Jeffers 等[38]以小卫星作探针,对20 个英国白种人的血样分析发现,DNA 指纹图谱的一致性越高,个体间的亲缘关系就越近,表明DNA 指纹图谱具有个体特异性。Vasil'ev 等[39]利用小卫星与牛属(Bos)和野牛属(Bison)中多个物种杂交获得指纹图谱,并根据杂交片段数量与个体血液组成之间的相关性,鉴定牛亚科中的种间杂交、属间杂交以及远缘杂交的物种。Perret 等[40]利用牛亚科基因组Y 染色体上特异性小卫星序列的遗传多样性,进行胚胎着床前的性别鉴定。
Glowatzki 等[41]首次利用微卫星对瑞士褐牛、西门塔尔牛、荷斯坦牛等进行亲子鉴定,解决了传统检测方法(如血型、血清蛋白、红细胞酶等)无法鉴定的亲子关系。Heyen 等[42]利用17 条染色体上的22 个微卫星对5 个品种牛进行了血缘关系分析。郭立平等[43]利用8 个微卫星DNA 作为标记对西门塔尔牛进行亲子遗传关系的鉴定,既节约了成本,又填补了缺失的系谱信息。利用微卫星的多态性不仅可以用于亲子鉴定,还可用于研究基因与性状及群体的遗传关系。王斌等[44]利用微卫星分析了宣汉牛体高、胸围等生长发育性状,发现在11 个微卫星位点上的59 个等位基因与生长发育呈正相关,44 个等位基因与生长发育呈负相关。与小卫星相比,微卫星DNA 指纹图谱更适合进行群体遗传分析。张相伦等[45]利用20 个微卫星序列作为标记分析了西门塔尔牛、利木赞牛、鲁西黄牛和利鲁牛4 个牛群体间的遗传关系。杨红文等[46]针对黎平牛、关岭牛等贵州地方牛品种,利用23 对微卫星引物进行了遗传多样性分析,结果表明其品种间的遗传分化为71.3%,而品种内为28.7%,其中思南牛与关岭牛的遗传距离最小、与黎平牛的遗传距离最大。
1.2.4 串联重复序列进化快速 串联重复DNA 的进化似乎比预期快得多,累积突变、不等交换、大片段的复制影响串联重复家族在较短时期内发生改变[47],其中卫星DNA 通过扩张和收缩而快速进化[48]。Melters 等[29]利用生物信息学方法对不同物种的串联重复序列进行比较分析,结果表明几乎所有动植物基因组的着丝粒处都存在高拷贝的卫星序列,但序列组成和长度差异很大,且卫星DNA 在物种间快速进化,尤其当分化超过5 000 万年,着丝粒重复序列相似度迅速降低。
此外,高阶重复序列(Higher-order repeat,HOR)的形成也加速了串联重复序列的进化,增加了基因组的复杂性。α卫星序列作为人类基因组中最丰富的串联重复序列,在基因组中以2 种形式存在:一种是作为长度为170 bp 的重复单体,另一种是由2 个相邻单体同时扩增形成“ABABAB……”的高阶重复序列[29]。这在其他哺乳动物中也有发现,如小鼠、猪、牛、马等[49],表明这种形式在物种内具有普遍性。牛科的1.709 卫星序列,经过脉冲凝胶电泳等方法分析发现凝胶的单列中出现多个条带,推断牛科基因组中也存在类似于人α 卫星序列的大小不等的高阶重复序列[50]。
2.1 转座子的分类 散在重复序列是指重复单元在基因组中各不相连,而是以散在的形式存在于整个基因组中,又称为转座元件或者转座子(Transposable elements,TEs),一般为中度重复序列,几乎存在于所有的真核生物中。在哺乳动物中,1/3~1/2 的基因组序列由转座子组成[51],如人类基因组中达到45%[8],小鼠中为38%[9],普通牛中为47%[10]。
根据转座介导元素不同,可将转座子分为两大类[52]。第一类为反转录转座子(Retrotransposon),是以RNA为中间媒介进行转座,为“复制-粘贴”型,包括长末端重复(Long Terminal Repeat,LTR)和非长末端重复(Non-Long Terminal Repeat,non-LTR),后者又由长散在重复(Long Interspersed Nuclear Elements,LINE)和短散在重复(Short Interspersed Nuclear Elements,SINE)组成。第二类为DNA 转座子(DNA Transposon),以DNA 为中间体进行转座,为“剪切-粘贴”型。
2.2 转座子的特点
2.2.1 转座子的移动性 20 世纪40 年代,美国科学家Barbara McClintock 在玉米基因组中首次发现可移动的元素——转座子[53],它可以从基因组的一个位置“跳跃”到另一位置上。1999 年Haren[54]提出转座子是一段不连续的DNA 片段,能够在基因组内或者不同基因组间从一个位置移动到另一位置;Kidwell[55]认为转座子是具有改变基因组位置能力的DNA 序列;Piégu[56]2015年再次提到,转座子能够从宿主基因组内染色体或质粒的一个位置移动到另外一个位置,并通过横向转移到新宿主的基因组上。
2.2.2 转座子在不同物种基因组中的差异 不同类型的转座子在物种间所占比例有所差异。哺乳动物基因组中的转座子重复序列主要由LINE 和SINE 组成,其次是LTR 和DNA 转座子[51],人类基因组中的比例分别为20%、13%、8% 和3%,小鼠中依次对应的比例为19%、8%、10%和1%[8-9]。通过对普通牛、欧洲水牛、非洲水牛和大额牛4 个牛科物种的转座子进行分析发现,LINE 转座子的含量最高,均大于20%,其中欧洲野牛和大额牛的LINE 转座子在基因组中的覆盖率接近40%,最高可达到1.15Gb[12];其次是SINE 和LTR 转座子,所占比例在3%~18%不等;最后是DNA 转座子,在基因组中含量最少(低于5%),可能与其缺少自主型转座子有关[57]。
2.2.3 转座子的分布与GC 含量和基因密度的关系 基因组中GC 含量和基因密度的不均匀性影响转座子的分布。人类基因组中,位于常染色体和X 染色体上的L1转座子富集在GC 含量丰富的区域[8]。反刍动物中的BovB、Bov-tA、Bov-A2 和ART2A 转座子与基因密度呈负相关,主要集中在基因密度较低的区域;而较为古老的L2 和MIR 转座子,则与基因密度呈正相关,主要富集在基因密度较高的区域[58]。在牛基因组中,LINE转座子主要集中在GC 含量较高的区域,而BovB 则主要存在于GC 含量较低的区域[59]。
2.2.4 活性转座子在基因组中的含量 大部分转座子由于没有完整的开放阅读框而失去活性,少部分可能是潜在具有活性的转座子。人类基因组中的转座子只有0.05% 具有活性[60-61],其中LINE 家族中只有部分L1转座子具有活性[8]。牛基因组中的转座子也大都失去活性,如文献中报道的811 个完整的L1 转座子中,只有73 个(9%)可能具有活性,而与L1 转座子相比,BovB 在牛基因组中的活性更低,1 248 个高度保守的BovB 转座子中,只有9 个(0.72%)是具有活性的[58]。
2.3 散在重复序列对基因组的影响
2.3.1 转座子对基因表达的影响 转座子可以调节或改变基因表达。Tang 等[62]发现8 000 多个人类特异性转座子分布在4 900 个基因附近,包括编码区、外显子、内含子、启动子等区域,影响基因的表达。有些转座子可作为启动子、转录因子结合位点等调控元件,在基因组中移动时,可将其自身的调控元件转移到新的位点上。当转座子插入到基因的5' 调控区域,可调节基因的表达[63],当插入到基因内时,为编码蛋白的序列提供了原始的进化材料。刘震等[64]分析了LTR 转座子内部的基因,通过GO 注释发现这些基因在细胞代谢、催化活性等方面发挥作用。
2.3.2 转座子的水平转移对基因组的影响 哺乳动物的转座子在基因组间主要通过垂直传播的方式进行扩散[51],而转座子的水平转移(Horizontal Transfer,HT)也是基因组交流的一种方式[65]。在过去1.6 亿年间,哺乳动物转座子发生水平转移的事件至多20 起,而昆虫在5 000 万年中则有2 248 起水平转移事件[66]。这表明与昆虫相比,哺乳动物中发生水平转移的事件很少,但水平转移在基因组进化中仍发挥着重要作用。如BovB 转座子通过水平转移将其传播到包括非洲兽类(如大象)、反刍动物(如牛和鹿)、有袋动物(如袋鼠)等多种哺乳动物的基因组中[51],促进了哺乳动物基因组之间的交流。
重复序列是生物基因组中的重要组成部分,在分子标记、疾病诊断、动植物育种等方面得到广泛应用。然而与人类、模式生物及植物中的研究相比,牛亚科中重复序列的报道较少,尤其在基因调控活动、生物功能、进化机制等方面有待进一步研究。高通量测序技术的出现和应用推动了基因组学在各个领域中的研究,为深入了解基因组中的重复序列等复杂结构带来革命性突破。同时,组学数据的大量积累促使生物信息学在重复序列的鉴定和研究方法上不断推陈出新,为从比较基因学和多组学等层面研究牛亚科的遗传与进化提供可能,为深入解析牛亚科重复序列的鉴定、分类、特征与功能预测等提供技术与海量数据支撑,也为进一步挖掘重复序列的结构特点、生物学功能及其在物种进化中的作用提供了重要依据。