绿豆Copia类反转座子全基因组注释及进化分析

2020-09-10 04:18刘大亮翟小杰徐照龙杜建厂
江苏农业学报 2020年4期
关键词:转座子拷贝数谱系

李 阳, 袁 娜, 刘大亮, 翟小杰, 徐照龙, 程 静, 杜建厂

(1.南京农业大学园艺学院/作物遗传与种质创新国家重点实验室,江苏 南京 210095; 2.江苏省农业科学院种质资源与生物技术研究所/江苏省农业生物学重点实验室,江苏 南京 210014)

转座元件(Transposable elements),又叫转座子,是基因组中可以移动的DNA片段。根据转座方式的不同,植物中的转座子一般可分为2种类型,即以RNA为媒介的反转座子和以DNA为媒介的DNA转座子。根据结构的不同,反转座子又可以分为LTR(Long terminal repeat)类反转座子和非LTR类反转座子[1]。研究结果表明,LTR类反转座子是植物基因组的主要组成部分。在玉米中,LTR类反转座子的DNA含量可以达到75%[2]。根据序列相似性和转座酶的先后顺序,LTR类反转座子又可以分为Copia和Gypsy 2个超家族。两者在结构上的区别主要在于整合酶INT的位置不同。Copia类反转座子具有INT-RT-RH结构,而Gypsy型反转座子则具有RT-RH-INT结构[1]。

一个完整的LTR-反转座子(Intact element)通常具有一些明显的结构特征,如包含2个正向重复的LTR序列,通常以TG开头,CA结尾,往往在其插入位点附近形成4~6 bp的正向重复序列(Target site duplications,TSDs),含有与转录起始和终止有关的tRNA结合位点(Primer binding site,PBS)和多聚嘌呤序列(Polypurine tract,PPT)。除了完整的LTR-反转座子(Intact element)外,基因组中也存在大量的单个LTR序列(solo LTR)以及部分缺失的LTR元件(Truncated element)[3-4]。一般认为,这2种类型的LTR转座子是由于各种类型的重组事件而产生的[5-6]。

由于同一个LTR-反转座子的2个LTR序列来自于同一个mRNA分子,因此,一个新的LTR-反转座子在形成时具有2个序列完全一致的LTR序列[4]。随着进化时间的推移,同样的2个LTR序列逐渐产生和积累变异。因此,根据2个LTR序列之间的核苷酸序列差异,以及LTR-反转座子的大致进化速率,可以估算LTR-反转座子的插入时间。比如,在大豆基因组中,>90%的鉴定完整的LTR-反转座子是在最近3.0 MYA产生的,并且>3 000个LTR-反转座子在最近0.5 MYA内产生[7]。

作为植物中主要的重复序列类型之一,Copia类反转座子是构成植物基因组的重要组成部分。已有研究结果表明,4%的水稻基因组DNA[8]、12%的大豆基因组DNA[9]以及24%的玉米基因组DNA[10]由各种类型的Copia类反转座子组成。尽管大多数转座元件含有插入/缺失、移码突变、终止密码子等,在基因组中不再活跃,一些Copia类反转座子在特殊生长条件下仍然具有转座活性。如在组织培养条件下,水稻中的Tos17转座子被大量激活,并偏向性的插入到基因富集的区域[8]。利用Tos17这种特性,科研人员创造了大量的水稻突变体库,从而更有助于水稻基因功能的研究[11]。另外,一些Copia类反转座子还直接介导了植物器官的产生和性状的形成。已有研究结果表明,Copia类反转座子Rider参与了番茄SUN基因的复制,进而影响了番茄果实的形状和大小[12]。橙子中Copia类反转座子Tcs1插入到Ruby基因的上游,促进了花色素苷的合成,使得果肉颜色呈现红色[13]。这些结果表明,Copia类反转座子对于植物基因组的构成,突变体库的建立,以及植物表型的产生都可能具有重要作用。

绿豆(Vignaradiata)是一种重要的经济作物。由于其具有生长期短、适应性广、营养价值高等优点,被广泛作为倒茬轮作、间作套种、减灾救灾等作物,以及用于豆芽、粉丝、糕点等食品的制作[14]。绿豆基因组具有22条染色体,基因组大小约579 Mb[15]。尽管绿豆基因组序列已组装完成,但是由于其基因组进化时间较长,成分较多,很多重复序列种类多、结构复杂。因此,绿豆基因组的注释还有待于进一步完善,这对于后续功能基因的研究以及绿豆分子育种工作都可能提供更好的便利和数据来源。

鉴于Copia类反转座子在植物基因和基因组进化过程中的重要作用,本研究利用公开发表的二倍体绿豆基因组序列(V.radiatavar.radiataVC1973A),从基因组水平上系统注释了绿豆Copia类反转座子,初步明确了绿豆Copia类反转座子的数量、类型、分类、分布、亲缘关系,以及与功能基因之间的相互关系,为后续深入研究Copia类转座子在绿豆基因和基因组进化过程中所起的作用提供依据,也为后续进一步开展绿豆功能基因的研究,活性转座子的鉴定和筛选可利用的转座子分子标记提供数据来源。

1 材料与方法

1.1 绿豆基因组数据来源及Copia类反转座子的注释

本研究中所用的绿豆(Vignaradiata)基因组数据来自GenBank数据库(https://www.ncbi.nlm.nih.gov/)。基于结构从头寻找和同源比对相结合的方法,利用LTR_STRUC软件搜索绿豆全基因组序列,获得完整的LTR-反转座子元件[16]。然后,以这些完整的LTR-反转座子元件为目标序列,利用Cross_match软件(默认参数)对绿豆基因组序列进行同源比对搜索。根据比对结果,利用perl脚本进一步分析处理,再经人工检查确定所有LTR-反转座子的结构和插入位置。根据LTR-反转座子的内部结构、同源性和80-80-80规则,鉴定出所有的Copia类LTR-反转座子,并将它们分为不同的家族[1]。

1.2 绿豆Copia类反转座子基因组分布特征分析

本研究使用以下方法对绿豆LTR-反转座子进行随机性分布检验。首先,将绿豆基因组按连续无重叠1 Mb的窗口进行划分,并对每个窗口内鉴定的LTR-反转座子数量进行统计。然后,借助perl脚本,将鉴定的所有LTR-反转座子分别随机分配到各个窗口中,并重复10 000次,同时计算每次每个窗口内的LTR-反转座子数量。最后,根据公式P=(m+1)/(10 000+1)计算每个窗口中的P值。其中,m指在10 000次模拟结果中有m次结果等于或小于实际统计数值,当0.025

1.3 绿豆Copia类反转座子插入时间的估算

提取含有TSD位点的完整LTR-反转座子两端的LTR序列,利用MUSCLE软件(默认参数)进行序列比对[18]。根据公式T=K/2r计算插入时间。其中进化速率r=1.3×10-8,核苷酸差异K用Jukes-Cantor方法进行计算。

1.4 绿豆Copia类反转座子的系统进化树分析

提取绿豆Copia类反转座子中反转座酶RT基因的保守序列,并从每个家族中选取年轻且RT基因结构相对完整的序列作为参照序列。利用MUSCLE软件(默认参数),对Copia类家族的RT基因序列进行序列比对。用MEGA7软件中的P-distance模块构建邻近进化树,重复500次。

1.5 绿豆Copia类反转座子与功能基因之间的关系

根据绿豆Copia类反转座子与基因间的位置关系,提取内部和上下游1 kb范围内存在转座元件的功能基因,利用Blast2GO 5软件对这些功能基因进行注释,并使用WEGO2.0软件(http://wego.genomics.org.cn/)进行富集分析[19-20]。

2 结果与分析

2.1 绿豆Copia类反转座子的鉴定及注释

本研究基于结构从头寻找和同源比对的方法,从绿豆基因组中共鉴定出2 236个插入位置明确的Copia类反转座子,其中,1 198个为完整转座子元件,1 038个为solo LTR。从数量上来看,两者的比值(S/I)为0.87∶1.00。在1 198个完整转座子元件中,长度在20 kb以上的元件有11个,15~20 kb的元件有9个,10~15 kb的元件有33个,5~10 kb的元件有212个,1~5 kb的元件有622个,1 kb以下的元件有311个。根据统一的转座子的分类标准,这些元件可分为126个不同的家族,拷贝数从1到589不等。其中,共有111个Copia类反转座子家族含有RT转座酶序列,而剩余的15个家族不含有RT转座酶序列,提示它们可能属于非自主型转座子。拷贝数最大的家族为Vrar_C1,含有333个完整转座子元件和256个solo LTR;元件两端含有2个120 bp的LTR序列;元件全长为6 134 bp(表1)。另外,其他高拷贝(>100)的家族有5个,分别是Vrar_C2(317个),Vrar_C3(277个),Vrar_C4(157个),Vrar_C5(112个),和Vrar_C6(109个)。元件长度最长的为Vrar_C2,达到16 029 bp,含有44个完整转座子元件273个solo LTR(表1)。元件长度最短的为Vrar_C30,全长仅有909 bp,LTR序列为173 bp,仅含有6个拷贝(表1)。这些结果说明,尽管同属于Copia类反转座子,但不同家族具有各自的遗传特征,可能在绿豆基因和基因组的进化过程中扮演着不同的角色。

表1 绿豆Copia类反转座子部分家族信息汇总表

2.2 绿豆Copia类反转座子在基因组中的分布

为了探讨Copia类反转座子在绿豆基因组中的分布规律及特征,我们对463个1 Mb窗口中LTR-反转座子的分布进行了随机性检验。其中,有61个(13%)窗口中Copia类反转座子的模拟值与理论值之间存在显著差异,说明这些LTR-反转座子具有偏向分布的特点(图1)。其发生的频率远低于大豆的79%,略高于梨的10%[7,21],提示在不同的基因组中,LTR-反转座子在染色体上的分布存在较大差异。另外,我们的研究结果也显示,solo LTR和完整转座子元件具有相似的分布特点,均富集在染色体的异染色质区域(图1)。

A:染色体;B:基因;C:完整LTR元件;D:单个LTR元件。图1 绿豆Copia类反转座子在染色体上的分布Fig.1 Distribution of Copia retrotransposons along the chromosomes in mung bean

为了便于比较,我们用同样的方法,对绿豆基因组中功能基因的分布也进行了随机性检验。研究结果显示,在绿豆中,336个(73%)窗口中的基因具有偏向性分布的特点。这一比例略低于大豆基因的80%,略高于梨基因的68%[7,21]。从染色体上的分布来看,绿豆中的基因更多分布在染色体两端(图1)。

为了明确Copia类反转座子的分布是否与基因的分布呈一定的相关性,我们对两者进行了相关性分析。结果显示,在绿豆基因组中,Copia类反转座子元件密度与基因密度之间呈现显著的负相关关系(图2)。这一结果提示,基因的密度可能是影响Copia类反转座子分布的一个因素。

图2 Copia类元件与基因的相关性Fig.2 The association between Copia element density and gene density

2.3 绿豆Copia类反转座子的插入时间

为估算绿豆Copia类反转座子的大致插入时间,我们对含有TSD位点的完整转座元件进行了进一步分析。结果显示,在绿豆中,绝大多数元件(91.8%)在最近5.0 MYA插入到基因组中,并在1.0~2.0 MYA左右具有最高活性(图3)。有84个元件在0.5 MYA内插入到寄主基因组中(图3)。需要特别指出的是,23个元件的插入时间为0,提示它们是新近插入到绿豆基因组中的,可能仍然具有转录和转座活性(图3)。

从单个家族来看,在126个Copia类反转座子家族中,有106个家族(84.1%)中元件的平均插入时间<3.0 MYA;47个家族(37.3%)中元件的平均插入时间在1.0~2.0 MYA;28个家族(22.2%)中元件的平均插入时间<1.0 MYA;有6个家族中元件的平均插入时间为0,提示该家族可能仍然具有活性。

a:0~0.5 MYA;b:0.5~1.0 MYA;c:1.0~1.5 MYA;d:1.5~2.0 MYA;e:2.0~2.5 MYA;f:2.5~3.0 MYA;g:3.0~3.5 MYA;h:3.5~4.0 MYA;i:4.0~4.5 MYA;j:4.5~5.0 MYA;k:5.0~5.5 MYA;l:5.5~6.0 MYA;m:6.0~6.5 MYA;n:6.5~7.0 MYA;o:7.0~7.5 MYA;p:7.5~8.0 MYA;q:>8.0 MYA。图3 绿豆Copia类反转座子插入时间分布Fig.3 Insertion time of Copia retrotransposons in mung bean

2.4 绿豆Copia类反转座子S/I与插入时间和LTR长度之间的相关性

我们前期在大豆上的研究结果表明,solo LTR与完整转座子元件拷贝数之间的比例(S/I)与LTR长度存在显著的相关性,而与平均插入时间不存在相关性[7]。为了验证这一结论在绿豆中是否仍然成立,我们统计分析了拷贝数最多的前30个家族。研究结果显示,绿豆中S/I值与LTR长度之间具有显著的正相关关系(图4)。这说明,随着LTR长度的增加,可能更有利于同一个Copia类反转座子2个LTR序列之间重组事件的发生,从而更有利于solo LTR序列的形成。研究结果也显示,绿豆中S/I值与Copia类反转座子家族的平均插入时间之间不存在相关关系(图4),说明solo LTR的形成可能主要与重组率有关,而与进化时间关系不大。这一结论可能不是物种特异性的,而可能适用于不同的豆类植物基因组中。

图4 S/I与平均插入时间(A)和LTR长度(B)之间的相关性Fig.4 Association of S/I with average insertion time (A) and LTR size (B)

2.5 绿豆Copia类反转座子的系统进化树分析

已有的研究结果表明,植物中Copia类反转座子可大致分为6种谱系,包括Angela、Ale、Bianca、Ivana、Maximus和TAR[6,22-23]。为了进一步明确绿豆Copia类反转座子在系统进化树上的相互关系和发生的频率,我们对保守的逆转录酶RT进行多序列比对。结果显示,绿豆Copia类反转座子具有植物普遍存在的6种谱系,但是家族的数量和每个家族的拷贝数差异很大(图5、表2)。比如,在6种谱系中,Ivana谱系含有57个家族,占总家族数的51.4%,但是其对应的元件数量仅为118个,占总拷贝数的5.6%;Ale谱系含有37个家族,占总家族数的33.3%,其拷贝数则为1 277个,占总拷贝数的60.8%;Bianca谱系家族和拷贝数均较少,分别为6个和54个,分别占总家族数和总拷贝数的5.4%和2.6%;Maximus谱系家族数很少,但是拷贝数却很多;TAR和Angela谱系含有的家族数和拷贝数均很低。这些结果表明,在不同的谱系中,家族数反映的是转座元件遗传多样性的大小,而拷贝数反映的是转座子元件转座活性的高低和活性持续的时间长短。因此,家族数和拷贝数没有必然的正相关关系。

2.6 绿豆Copia类反转座子与功能基因之间的关系

为了明确绿豆中Copia类反转座子与功能基因之间的关系,我们统计了绿豆中Copia类反转座子插入基因及基因两端临近区域(<1 kb)的元件数量(表3)。统计结果显示,共有43个家族的563个Copia类反转座子插入到基因的内部,48个家族的157个Copia类反转座子插入到基因的附近区域(<1 kb)。功能富集分析结果显示,这些基因的功能主要为细胞组分、分子功能和生物进程。进一步分析显示,细胞组分方面主要集中在细胞,细胞组分及细胞器等;分子功能方面主要集中在催化活动及拼接;生物进程方面主要集中在细胞进程和代谢进程(图6)。

●表示其它物种Copia类反转座子家族RT基因序列。图5 绿豆Copia类反转座子谱系进化树Fig.5 Phylogenetic relationships of Copia retrotransposon lineages in mung bean

表2 绿豆Copia类反转座子谱系信息汇总表

表3 绿豆Copia类反转座子与功能基因信息汇总表

a1:细胞;a2:细胞组分;a3:细胞器;a4:细胞器组分;a5:腔上包膜;a6:胞外区;a7:含蛋白质复合物;a8:膜;a9:胞外区组分。b1:催化活性;b2:结构分子活性;b3:拼接;b4:转录调节活性;b5:转运活性;b6:分子功能调节剂。c1:发展过程;c2:多细胞生物过程;c3:细胞组分组织或合成;c4:细胞进程;c5:定位;c6:代谢进程;c7:生长;c8:生物调节;c9:细胞增殖;c10:生物过程调节;c11:信号;c12:刺激反应;c13:再生。图6 绿豆Copia类反转座子相关基因的功能聚类分析Fig.6 Functional cluster analysis of genes related to Copia retrotransposons in mung bean

3 讨 论

尽管绿豆基因组序列已于2014年对外公开发布,但是原有的研究主要是估算了转座元件的DNA在整个基因组中所占的比例[15]。由于转座元件种类多、结构复杂,在基因组中又经常以“巢式”的方式存在,通常的软件(如RepeatMasker)仅能检测转座元件的某些片段,不能完整反映转座元件在基因组中的准确位置和进化特征。具有TSD完整的LTR-反转座子和solo LTR转座子由于具有明确的插入位置,在许多完成测序的植物基因组中都先后被注释出来[2,7,24]。本研究中,联合运用基于结构从头寻找和同源比对的方法,我们从绿豆基因组中系统鉴定出1 198个完整转座子元件和1 038个solo LTR的Copia类反转座子。这些转座元件的注释为深入研究Copia类反转座子在绿豆基因和基因组进化中的作用提供了数据来源。

从插入时间来看,绝大多数Copia类反转座子是在最近5.0 MYA插入到绿豆基因组中的,这与之前水稻的研究结果是基本一致的[4]。而从爆发的时期来看,与大豆基因组中的LTR-反转座子不同,绿豆Copia类反转座子不是在最近(<0.5 MYA)具有最高的拷贝数,而是在1.0~2.0 MYA具有最高的拷贝数,提示它们在该时期具有一个活性升高的爆发时期。这一现象也在我们之前番茄的研究结果中得到了印证[25]。对番茄LTR-反转座子插入时间的统计分析结果表明,其最活跃的时期是2.0~3.0 MYA[25]。而对于梨的Copia类反转座子来说,除了最近(<0.5 MYA)具有最高的拷贝数以外,在2.5~3.0 MYA和5.0~5.5 MYA也具有较多的拷贝数[21]。这些结果表明,对于不同的植物基因组而言,尽管转座元件的拷贝数呈现出随进化时间延长逐渐减少的指数分布,但是爆发的集中时间和爆发所持续的时间不相同,也说明不同的基因组可能具有不同的进化历史。

前人对拟南芥、水稻和麦类作物的599个Copia类反转座子进行了系统进化树构建和比较研究[6]。结果表明,Copia类反转座子可划分为6个非常保守的谱系,即Angela、Ale、Bianca、Ivana、Maximus和TAR,并在单子叶和双子叶植物分化之前就已经产生[6]。我们在大豆上的研究结果也表明,除Bianca谱系外,大豆Copia类反转座子也具有其他5个谱系[7]。本研究的结果表明,绿豆Copia类反转座子也可以聚类到上述6个谱系中。这进一步说明,植物Copia类反转座子的谱系具有古老性和保守性。需要指出的是,对于不同的基因组,同一谱系内家族的数量和拷贝数可能不同。比如,在大豆中Maximus谱系和Ivana谱系具有较高的元件数量和家族数量[7],水稻中Maximus谱系和Ale谱系元件数量和家族数量较高[24],而在绿豆中,Ale谱系具有较高的元件数量,Ivana谱系具有较高的家族数量。这些结果也进一步表明,对于不同的基因组而言,Copia类反转座子家族爆发的程度和持续的时间可能很不相同,这也可能是造成不同植物基因组大小具有明显差异的原因之一。

总之,本研究以公开发表的绿豆基因组为研究对象,在对Copia类反转座子进行精细注释的基础上,系统研究了其家族分类、染色体分布、插入时间、系统进化树,以及与功能基因的关系,为后续进一步鉴定活性转座子,开发可利用的转座子分子标记,筛选相关的绿豆突变体,加快相关基因功能的研究提供了数据来源和理论依据。

猜你喜欢
转座子拷贝数谱系
神族谱系
线粒体DNA拷贝数在儿童脑性瘫痪患者中的表达及临床意义
毛竹Mariner-like element自主转座子的鉴定与生物信息学分析*
线粒体DNA拷贝数变异机制及疾病预测价值分析
毛竹长末端重复序列反转录转座子的全基因组特征及进化分析
百年大党精神谱系的赓续与文化自信
王锡良陶瓷世家谱系
淅川乌骨鸡全基因组转座子的鉴定与分析
胎儿染色体组拷贝数变异与产前超声异常的相关性分析
再论东周时期铜簠的谱系和源流