张雪艳,余浩洋,孙天琳,邱实,蔡延森,李静
(四川大学生命科学学院,生物资源与生态环境教育部重点实验室, 四川省濒危野生动物保护生物学重点实验室,成都610065)
转座子(transposable elements,TEs)是灵长目Primates动物基因组的重要组成,对基因功能、基因表达调控和基因组进化有重要影响(Feschotte,2008;Deininger,2011),根据序列结构特征,可以分为短散在重复序列(short interspersed elements,SINEs)、长散在重复序列(long interspersed elements,LINEs)、长末端重复序列(long terminal repeat,LTR)和DNA元件(Deiningeretal.,2002;Wickeretal.,2007)。其中,Alu元件是灵长目动物特有的SINEs家族,也是灵长目基因组中进化最成功、数量最多的TEs,在人类基因组中超过100万个拷贝,占10.6%以上(Landeretal.,2001)。完整的Alu元件长约300 bp,需要借助另一种逆转座子L1编码的酶,通过逆转座作用在基因组中扩增(Dewannieuxetal.,2003)。
基因组中绝大多数的Alu元件没有转座能力,只有少数source genes具有转座活性,可以进行自我复制,并插入到基因组的新位置(Deininger,2011)。这些source genes会随着宿主基因组的进化不断积累突变,从而衍生出新的Alu亚家族。根据碱基突变,可将Alu分为3个主要的亚家族:最古老的AluJ、中间的AluS和最年轻的AluY(Batzer &Deininger,2002;Hanetal.,2007;Liuetal.,2009)。古老的Alu亚家族在灵长类物种分化前就存在于祖先基因组中,因此,在不同的物种中分布非常相似。而一些年轻的Alu元件在基因组中插入时间较短,尚未在基因组中固定下来,因而在不同物种间呈现出插入/缺失的状态(Deininger,2002)。研究Alu元件在不同灵长目动物基因组中的插入/缺失多态性,有助于阐明它们对灵长目基因组多样性的影响。
猴科Cercopithecidae即旧世界猴,是物种最丰富的灵长目类群,分为猕猴亚科Cercopithecinae和疣猴亚科Colobinae,它们在大约15百万年前由共同祖先分化而来(Perelmanetal.,2011;Pozzietal.,2014)。东非狒狒Papioanubis、猕猴Macacamulatta和绿猴Chlorocebussabaeus属于猕猴亚科,其中,东非狒狒主要分布于非洲,是狒狒属Papio中分布最广的一种;猕猴是猕猴属Macaca代表动物,是生物医学领域常用的模式动物(Hanetal.,2007);绿猴在西非国家几乎都有分布,也被广泛应用于生物医学研究(Tchitcheketal.,2012)。长鼻猴Nasalislarvatus属于疣猴亚科,仅分布于亚洲东南部的加里曼丹岛,被世界自然保护联盟(IUCN)列为濒危(EN)物种(Meijaandetal.,2008)。随着高通量测序技术的迅速发展,这4种猴科动物的基因组序列都已公布,为全基因组水平的TEs研究奠定了基础。尽管这些猴科动物基因组公布时已有关于TEs的数量、频率等的分析,但它们在不同基因组之间的差异尚未揭示。本研究基于更新的Repbase数据库对东非狒狒、猕猴、绿猴和长鼻猴基因组中的TEs进行了重新注释,并比较了TEs的组成和分布特征,着重分析了灵长类特有的Alu元件在不同旧世界猴基因组中的插入/缺失多态性,旨在揭示TEs对旧世界猴基因组多样性和进化的影响。
东非狒狒(GCF_000264685.2,2 724 327 674 bp)、猕猴(GCF_000772875.2,2 824 209 708 bp)、绿猴(GCF_000409795.2,2 503 700 750 bp)和长鼻猴(GCA_000772465.1,2 672 372 328 bp)的基因组序列下载于NCBI(http:/www.ncbi.nlm.nih.gov/)。
基因组公布时,不同研究者进行重复序列注释时所用的Repbase数据库不一致,不利于挖掘物种间的差异。因此,本研究基于更新的Repbase数据库,使用RepeatMasker(http://www.repeatmasker.org/)对东非狒狒、猕猴、绿猴和长鼻猴基因组的TEs进行分析,RepeatMasker的使用参数设置为“-e crossmatch-Pa 8-nolow species primates-s-gff”,其他为默认参数。将RepeatMasker的输出结果按照不同TEs的亚家族名称分为独立的文件,用来分析不同TEs的长度、占基因组比例、拷贝数和分歧率。
通过基因组两两比较的方法,鉴定东非狒狒、猕猴、绿猴和长鼻猴基因组中存在的插入/缺失多态性的Alu逆转座子,其方法如下:
提取长度大于250 bp的Alu逆转座子及其上、下游各200 bp的侧翼序列。使用Blat将提取的序列分别比对到其他3个物种的基因组上,参数minIdentity设为95,即序列的长度和序列相似度都大于95%的序列时,认为这个位点是2个物种共有的位点。如果只有侧翼序列的相似度达到95%以上,但中间存在1段长度约300 bp的序列缺失,那么这个位点可能是潜在多态性的。
根据Blat比对结果,提取这些潜在插入/缺失多态性的位点上、下游各200 bp的侧翼序列,将侧翼序列连接起来,重新比对到目标基因组上,如果在该基因组上只能匹配到1个长度和序列相似度都大于95%的片段,则该位点为2个基因组上具有插入/缺失多态性的位点。
将基因组两两比较筛选的插入/缺失多态性的位点做韦恩图,找出在1个基因组中插入而在其他3个基因组中都缺失的位点,这样的位点即成为该物种特有的插入位点。
东非狒狒、猕猴和绿猴基因组约47%(47.34%~47.96%)由TEs组成,而长鼻猴的仅36.12%(表1)。长鼻猴各种类型的TEs都明显少于其他3个物种,这可能是由于其基因组是引导到猕猴染色体组装的,其3条染色体(21、22和23号染色体)的TEs尚未包含在内。LINEs是占比最高的TEs,在长鼻猴基因组中的占比为16.37%,在其他3个基因组中占比均超过20%;其次为SINEs和LTR元件;DNA元件占比最低。SINEs是拷贝数最丰富且平均分歧率最低的TEs。尽管长鼻猴的SINEs拷贝数最少,但其分歧率在4个基因组中却最大。
4个基因组中,SINEs在分歧率为13%和30%左右存在2个峰,表明SINEs在这2个阶段存在活跃的转座活动。而LINEs、LTR和DNA元件都仅在分歧率为20%左右存在1个峰(图1)。分歧率小于10%的TEs都来自SINEs和LINEs。此外,东非狒狒和猕猴TEs的分歧率分布非常相似,尤其是分歧率<5%的TEs数量明显多于绿猴和长鼻猴,其中主要是SINEs。
东非狒狒、猕猴、绿猴和长鼻猴基因组中分别鉴定出1 140 275个、1 179 668个、1 037 140个和764 499个Alu元件,占总SINEs的64.32%~68.85%。去除长度≤250 bp的Alu元件后,分别保留了887 182个、936 449个、812 029个和562 850个Alu元件,其中AluS的数量远多于AluJ和AluY家族(表2)。AluJ分为4个亚家族,其中,AluJb和AluJr较多;AluS包含17个亚家族,其中以AluSz、AluSx和AluSx1为主;AluY包含18个亚家族,其中AluY(未划分到其他特定亚家族的AluY元件)和AluYRa1最丰富。4个基因组中,猕猴的Alu元件比其他3个物种多,东非狒狒在各亚家族组成和数量上都与猕猴类似,而长鼻猴基因组AluJ、AluS和AluY家族的拷贝数明显少于其他3个物种。另外,4个物种在AluJ和AluS的组成和数量上的差异不大,而在AluY上有较大的差异。如东非狒狒和猕猴基因组中的AluY和AluYRa1数量远高于绿猴、长鼻猴,而绿猴基因组中的AluYRc0数量约为其他3个物种的2倍;长鼻猴基因组中的AluYRa2几乎为其他3个物种的3倍(图2)。
表1 东非狒狒、猕猴、绿猴和长鼻猴基因组中主要转座子的分布概况Table 1 The distribution of major transposable elements in the genomes of Papio anubis,Macaca mulatta, Chlorocebus sabaeus and Nasalis larvatus
图1 4个旧世界猴基因组中主要转座子的分歧率Fig.1 Divergence rates of major transposable elements in the genomes of the 4 Old World monkey species
在东非狒狒基因组插入而在猕猴基因组同源位置无Alu插入的位点共20 231个,是4个基因组间多态性位点最多的。插入长鼻猴基因组而在其他任意一个基因组中缺失的位点数目均远低于其他3个基因组之间的多态性位点。东非狒狒与猕猴2个基因组间多态性位点数量大致相当;与之不同,插入东非狒狒和猕猴基因组,而在绿猴基因组缺失的位点分别有18 371个和17 684个。插入绿猴基因组而在东非狒狒和猕猴基因组中缺失的位点数仅有7 397个和7 646个(表3)。
表2 4个旧世界猴基因组中AluJ、AluS和AluY家族的拷贝数(长度≥250 bp)Table 2 The copy number of AluJ,AluS and AluY families with length of ≥ 250 bp in the genomes of 4 Old World monkey species
基于基因组间比对的结果,进一步鉴定了各物种特有的Alu插入(species specificAlu,SSA),即该元件仅插入某物种,而在其他3个基因组的同源区域都缺失的位点(图3)。共获得了7 882个SSA位点,包括东非狒狒2 321个、猕猴2 228个、绿猴1 202个以及长鼻猴2 131个。长鼻猴基因组中的多态性位点中约85%以上都是特有的,而其他 3个基因组的比例均未超过13%(图3)。研究这些特有Alu亚家族发现,95%以上的SSA位点都属于AluY亚家族,猕猴亚科3个物种的SSA主要属于AluYRa1亚家族,而长鼻猴的主要属于AluYRa2亚家族(图4)。猕猴中分别有309个和364个位点属于AluYRb2和AluYRb3亚家族,明显多于其他3个物种。长鼻猴和绿猴中AluYc亚家族分别有376个和182个,多于东非狒狒(10个)和猕猴(2个)(图4)。此外,3个猕猴亚科动物中,AluS和AluJ的数量很少,而长鼻猴中有100个位点属于AluS(表3)。
图2 4个旧世界猴基因组中≥250 bp的AluJ、AluS和AluY家族的亚家族分布Fig.2 The subfamily distribution of AluJ,AluS and AluY families with length of ≥250 bp in the genomes of 4 Old World monkey species
表3 4个旧世界猴基因组中具有插入/缺失多态性的Alu位点Table 3 Alu loci with insertion/deletion polymorphism in the genomes of 4 Old World monkey species
注:+ 表示在该物种同源区域有Alu插入,- 表示在该物种同源区域有Alu缺失;下同
Notes:+ represents that there is anAluinsertion in the homologous region of the species,- represents the absence ofAluin the homologous region of the species;the same below
图3 4个旧世界猴物种特有的Alu插入位点Fig.3 Species-specific Alu insertions in 4 Old World monkey speciesP.a.东非狒狒Papio anubis,M.m.猕猴Macaca mulatta,C.s.绿猴Chlorocebus sabaeus,N.l.长鼻猴Nasalis larvatus
图4 4个旧世界猴物种特有的Alu位点上的亚家族分布Fig.4 Subfamily distribution of the species-specific Alu insertions in 4 Old World monkey species
Han等(2007)在全基因组水平揭示了猕猴TEs的组成和进化,并鉴定了旧世界猴特有的4个AluY亚家族,分别命名为AluYRa~AluYRd,并认为它们是旧世界猴中最年轻、最活跃的TEs。虽然许多旧世界猴基因组已被报道,但是关于这些基因组在TEs组成及分布上的差异,以及TEs对旧世界猴基因组多样性的影响的研究较少。本研究对4种旧世界猴基因组中的TEs进行了分析和比较,包括1个疣猴亚科物种(长鼻猴)和3个猕猴亚科物种(东非狒狒、猕猴和绿猴),其中,东非狒狒和猕猴同属于狒狒族。结果显示,4个基因组中TEs的组成和分布与它们的进化关系吻合,东非狒狒和猕猴的TEs特征相似,二者又与绿猴、长鼻猴有较大差异,尤其是新近整合到基因组上的TEs(分歧率<10%),其数量显著多于绿猴和长鼻猴。分歧率是根据TEs序列中累积的突变位点计算其与Repbase数据库中一致序列的分化程度。一般说来,TEs上累积的突变越多,分歧率就越大,表明其插入基因组的时间越长,是更古老的TEs,反之亦然(Pengetal.,2018)。分歧率<10%的TEs都来自SINEs和LINEs,表明这两类转座子中都包含许多相对年轻的转座元件,这与已经报道的其他灵长目动物基因组中情况一致(Konkeletal.,2007;Mclainetal.,2013)。进一步分析显示,这种差异的重要来源是灵长类特有的Alu元件的差异,尤其是最年轻的AluY家族,在4个旧世界猴基因组中差异显著。东非狒狒和猕猴基因组中AluY和AluYRa1亚家族数量远高于绿猴、长鼻猴,这2个亚家族可能是狒狒族中转座最活跃的。与之不同,绿猴基因组中AluYRc0的数量约为其他物种的2倍;长鼻猴基因组中AluYRa2的数量是其他物种的3倍,这与AluYRa2亚家族在长鼻猴中的拷贝数显著多于其他3个物种的结果一致。本研究结果表明,随着灵长目动物的进化和物种分化,各Alu亚家族在不同物种中的扩增活性存在较大差异,从而累积不同的拷贝数,而正是由于Alu特定亚家族在基因组中扩增的差异,塑造了不同灵长目动物基因组的多样性。
灵长目动物特有的Alu家族随着灵长目动物的进化而进化,其扩增活性在进化历史的不同阶段不相同(Konkeletal.,2010)。AluJ的转座高峰约在灵长目动物分化早期,目前绝大部分AluJ已不具备转座活性,固定在各灵长目动物基因组中;AluS是由AluJ家族分化而来,在大约45百万年前大量扩增;AluY是最晚整合到灵长目动物基因组的,因此一些AluY在人类基因组中仍具有转座活性(Roy-Engeletal.,2008)。由于这些元件在距今较短的时间插入基因组,尚未在基因组中固定下来,因此在不同物种基因组中具有插入/缺失多态性。这也是构成灵长目动物基因组多样性的重要因素,同时这些多态性的位点也可作为遗传标记,用于揭示不同灵长目动物之间的系统发育关系(Salemetal.,2003;Rayetal.,2005)。通过4个旧世界猴基因组的两两比较,我们鉴定了大量在不同基因组间具有插入/缺失多态性的Alu位点。值得注意的是,除去组装质量不高的长鼻猴外,同为猕猴亚科的3个物种,东非狒狒或猕猴基因组插入而在绿猴基因组缺失的位点数是绿猴基因组插入而在东非狒狒或猕猴中缺失的位点数的2倍多。这一结果提示在狒狒族与其他旧世界猴分化后,Alu在基因组中的扩增活性显著高于绿猴,从而累积了更多的拷贝。我们进一步鉴定了4个旧世界猴物种特有的7 882个Alu位点,它们是不同物种分化之后整合到基因组的最年轻的元件。和预期一致,这些位点超过95%来源于AluY家族。然而我们仍然发现长鼻猴SSA中有100个AluS元件,这表明在长鼻猴所属的疣猴亚科和猕猴亚科分化时一些AluS元件仍然存在转座活性,从而在疣猴亚科动物基因组中特异地扩增。也正因为疣猴亚科的长鼻猴与其他3个猕猴亚科物种的分歧较早,因此基因组也存在更多的特有插入。这些物种特有的插入在不同灵长目动物中来源的亚家族不同,3个猕猴亚科物种SSA数量最多的都属于AluYRa1,而长鼻猴则属于AluYRa2,这表明这2个亚家族可能在不同旧世界猴基因组中仍然存在转座活性。
综上,本研究比较了4种旧世界猴TEs的组成与分布,尤其是灵长目动物特有的Alu家族的特征。并且揭示了AluY家族的转座活动对于旧世界猴基因组的进化及多样性具有重要意义。鉴定的插入/缺失多态性位点和物种特有的Alu位点也为今后开展系统进化以及种群遗传学研究提供了丰富的遗传标记。