地熊蜂基因组中具有潜在活性的转座子鉴定

2021-05-22 02:59
中国蜂业 2021年5期
关键词:转座子熊蜂拷贝数

(中国农业科学院蜜蜂研究所,北京 100093)

转座子(TEs)是能够从基因组一个位点转移到另一个位点,在此过程中通常会发生自我复制的DNA 片段[1]。转座子可分为逆转录转座子和DNA 转座子两大类。逆转录转座子借助转座子转录后产生的mRNA 而完成转座过程,转座后逆转录转座子的拷贝数增加;而DNA 转座子是借助自身的DNA 序列发生转座,可以是复制或非复制型的转座[2,3]。在几乎所有生物的基因组中都发现了转座子,通常数量很多。例如在脊椎动物基因组中,转座子含量的变化范围从绿河豚的6%到斑马鱼的55%以上[4]。在植物中,转座子更为普遍,转座子覆盖了多达90%的玉米基因组[5]。在昆虫中,转座子的基因组部分从南极蠓中的低至1%[6]到蝗虫中的高达65%[7]。由于转座子可以在一个生物的基因组中发生跳动,这一方面可能破坏基因的编码序列或调控序列,造成个体的表型发生变异;还可能为染色体的异位重组提供热点,从而导致宿主基因组中的染色体发生缺失、重复、倒位和易位等变异[8,9]。目前科学家利用活跃的转座子可以破坏基因组中功能基因的这一特点,为许多种生物创制了突变体,并利用这些突变体鉴定出了许多功能基因。例如,利用Sleeping Beauty转座子诱变小鼠,鉴定出涉及胶质瘤产生的候选基因[10];在逆转座子Tos17诱导产生的水稻胎生突变体中捕获了影响水稻脱落酸合成的OsABA1和OsTATC基因[11];根据P转座子创造的果蝇突变体的表型特征,发现了与睡眠调节有关的SLEEPLESS基因[12]等。鉴定出的功能基因在生物的遗传育种和品质改良中发挥了重要作用。

熊蜂是植物重要的传粉者,具有重要经济和生态价值[13]。在世界范围内,熊蜂为超过4 万公顷的温室作物授粉,产生的经济价值约为120 亿欧元/年[14]。但目前只有少数几种熊蜂能够提供授粉服务,其余大多数熊蜂由于繁育或授粉性能差而不能被很好地使用。近年来,随着全球环境变化的加剧,野外生存的熊蜂正在遭受自然界中各种生物和非生物因素的影响,导致一些熊蜂的数量显著减少[15]。鉴于熊蜂在农业生产上的重要性及它们在野外环境中受到的威胁,挖掘出与熊蜂繁育、授粉及环境抗性等性状相关的基因,对于促进熊蜂更好地服务农业生产、更好地提供生态服务非常重要。但是目前熊蜂中尚无高效的功能基因挖掘系统。

近年来,科学家成功地在昆虫中应用转座子进行了功能基因的挖掘,但相关研究主要集中于双翅目的果蝇中[16-18]。本研究旨在对地熊蜂基因组中的转座子进行全面的鉴定、分类和注释,并鉴定出具有潜在转座活性的转座子,以用于熊蜂功能基因的挖掘。

1 材料与方法

1.1 基因组与已知重复序列数据库的来源

地熊蜂的基因组序列从NCBIGenebank 数据库下载获得(www.ncbi.nlm.nih.gov/),assembly accession:GCF_000214255.1。

1.2 转座子数据库的构建

RepeatModeler[19]是一个从头(de novo) 鉴定和分类转座子的软件,其中包括RECON[20]和RepeatScout 两个程序[21],用于转座子家族的从头鉴定并构建全基因组转座子的非冗余数据库。此外,除了重复序列组装的一般方法外,我们还采用基于结构的转座子预测方法,使用两个专门的软件来检测小的非自主性转座子,这是因为它们缺少编码区,因此更难通过与同源物的分类来进行区分。MITE-Hunter[22]用于鉴定一种属于DNA 转座子的微型反向重复转座元件(MITEs)。SINE_scan[23]鉴定非自主型的非LTR逆转座子,称为短散在元件(SINE)。SINE_scan 是基于SINE-Finder[24]的从头识别SINE 的软件,不同于SINE-Finder 仅能鉴定tRNA 来源的SINE,SINE_scan 可以识别所有三种已知的SINE 类型,即tRNA、7SLRNA 和5SRNA。

将RepeatModerler、MITE-Hunter 和SINE_scan产生的一致性序列(consensus sequence)合并,并使用cd-hit[25]软件去冗余(-n 5-d 0-aL 0.99-c 0.8-s 0.8),进而得到整个基因组中非冗余的转座子数据库。

1.3 基因组转座子注释

使用RepeatMasker 软件对得到的转座子一致性序列进行注释和分类(使用-a、-lib 参数),并使用软件内置的buildSummary.pl 脚本总结转座子超家族估计的拷贝数和基因组比例(基于每个转座子被屏蔽的碱基数)。

1.4 转座子间序列差异分析

一致性序列与不同拷贝之间的差异可以用K 值(kimura distance)[26]来表示。把buildSummary.pl 脚本的结果文件用作createrepeatlandscape.pl和calcdivergencefromalign.pl 脚本的输入,以计算Kimura 距离,我们对createrepeatlandscape.pl 做出更改,对转座子家族一致性的序列与拷贝之间的差异合并到类,并用编写的R 脚本绘制差异分布统计图。三个脚本都是RepeatMasker 软件包中的Perl脚本。

1.5 潜在活性转座子的鉴定

使用编写的shell 脚本对RepeatMasker 的结果.out文件进行进一步筛选,对于每个与其转座子家族的一致性序列(推测的祖先序列)差异度小于等于2%、覆盖度大于98%的转座子,我们提取出它们的序列,并手动验证其是否具有活跃转座子的序列特征。对于满足上述所有条件的转座子,认为它们是具有潜在活性的转座子。

2 结果

2.1 地熊蜂基因组转座子鉴定结果

表1 地熊蜂全基因组转座子统计分析结果

经过RepeatMasker 的统计结果,我们在地熊蜂基因组中一共鉴定出了167 条一致性序列,被划分到22 个超家族中(表1)。DNA 转座子和逆转录转座子占比几乎相同,TcMar、Jockey 和Maverick 是含量最丰富的转座子,代表了基因组中超过50%的转座子,P 转座子含量最低。LTR 主要的类别都存在于地熊蜂基因组中,其中Gypsy 和Pao 类别最多。与DNA、LINE、LTR 转座子相比,SINE 转座子所占比例最小。

2.2 转座子差异分布分析结果

图1 基于Kimura distance计算的地熊蜂转座子拷贝之间的差异性

我们通过计算K 值来估算转座子的年龄和转座历史,其中每一个波峰可以代表物种在进化过程中发生了转座子拷贝数迅速增加(爆发)。从结果可以看出,在地熊蜂的基因组中发生了两次爆发事件(图1)。在第一次爆发事件中,DNA 转座子是最主要的成分,显示出DNA 转座子在此阶段极为活跃。转座子的第二次也就是最近的一次爆发中,DNA、MITE以及LINE 都出现了拷贝数的增加。对于地熊蜂基因组来说,DNA 转座子的活跃转座贯穿了两次爆发事件。

2.3 潜在的活跃转座子

在地熊蜂基因组中,我们鉴定出两条MITE 转座子,它们与祖先序列的分化程度小于2%并且具有完整的转座子结构,我们认为它们是具有潜在活性的转座子。序列如下:

3 讨论

在基因组中对转座子进行全面注释与研究至关重要,但是大多数测序项目都对与表型特征相关的基因组成分感兴趣,通常会忽略基因组的重复序列或仅给予很少关注。转座子是一大类在生物基因组中广泛存在的序列。转座子是挖掘功能基因的有力工具,果蝇中人们已经成功地利用活跃的转座子来创制果蝇的突变体,进行功能基因的挖掘[27-29]。本研究在地熊蜂基因组鉴定出2 条潜在活跃的MITE 转座子,若能进一步通过实验验证其活性,将对熊蜂功能基因挖掘及优良品种培育具有重要意义。

猜你喜欢
转座子熊蜂拷贝数
毛竹Mariner-like element自主转座子的鉴定与生物信息学分析*
线粒体DNA拷贝数变异机制及疾病预测价值分析
安徽省首次从国外进口熊蜂
淅川乌骨鸡全基因组转座子的鉴定与分析
胎儿染色体组拷贝数变异与产前超声异常的相关性分析
云的世界你不懂
魔手花,神奇果
花叶矢竹转录组中的转座子表达分析
HBV相关性肝细胞癌组织及癌旁组织PDCD1基因拷贝数差异分析
乐器也疯狂