苏璇,方瑜,方颖,刘璐瑶,李飞燕,冯蕊,褚凌渺,左泽涛,金岳龙,孙恩涛
1.皖南医学院公共卫生学院,安徽 芜湖 241002;2.皖南医学院检验学院
疥螨目螨类完整的线粒体基因组通常包含13个蛋白质编码基因、22个tRNA基因和2个rRNA基因,在一些种类的疥螨目螨类中有tRNA基因丢失的报道[1]。疥螨目螨类线粒体基因组中多数tRNA基因的长度较短(平均为54 bp),且具有缺乏T-臂或D-臂的非典型结构,无法形成典型的三叶草结构[2],这为其tRNA基因的注释增添了难度。因此,在疥螨目螨类线粒体基因组预测过程中,tRNA基因可能会被遗漏[3]。欧亚鸲特鲁螨(Trouessartia rubecula)属于疥螨目(Sarcoptiformes)无气门股(Astigmatina)羽螨总科(Analgoidea),是一种栖息在欧洲知更鸟羽毛上的羽螨。Esteban[4]首次对欧亚鸲特鲁螨线粒体全序列进行测序,发现欧亚鸲特鲁螨缺失了5个tRNA基因,分别为trnA、trnE、trnI、trnY和trnV基因。为了确认欧亚鸲特鲁螨线粒体tRNA基因是否丢失,本研究采用了一套完整的注释流程重新对欧亚鸲特鲁螨线粒体tRNA基因进行注释。
1.1 rRNA的确定 基于高度保守的基因序列基序,通过NCBI的BLASTn[5]搜索识别出rrnL(16S核糖体RNA,16S ribosomal RNA)和rrnS(12S核糖体RNA,12S ribosomal RNA)。将这些基因的5” 端紧跟在上游基因的3” 端之后,将rRNA的3” 端紧跟在下游基因的前面,两者之间没有间隙[6]。
1.2 “丢失”tRNA的确定 采用图1中的注释方法,使用MITOS[7]、tRNAscan-SE[8]、ARWEN[9]和MITOS2(http://mitos2.bioinf.uni-leipzig.de)预测tRNA基因。若以上软件注释了所有tRNA基因,则进入人工序列检查。
图1 tRNA基因注释的工作流程
对上述程序预测的tRNA基因进行人工检查[2],确保注释的tRNA其一级序列和二级结构与近缘种相比均高度保守。在通过人工序列检查排除了软件错误预测的tRNA基因之后,若软件注释的所有tRNA基因正确,则流程结束。若上述程序未能正确预测tRNA基因或未注释全部tRNA基因,本研究使用蛋白质编码区之间的序列作为模板,允许基因之间少量的重叠。随后,在模板区域基于近缘种反密码子环和反密码子臂进行人工手动查找[10],通过分析tRNA基因反密码子、二级结构与它们的近缘种核苷酸序列进行手动比对,确保其一级序列和二级结构均高度保守。从Vienna RNA安装包(v2.3.3)中使用RNAeval分别计算二级结构的最小自由能(minimum free energy,MFE)[11],选择出最稳定的tRNA基因二级结构(首选MFE最低)[5]。
首先使用MITOS[7]进行基因注释,预测到3个tRNA基因:trnY、trnI和trnE。接着使用tRNAscan-SE[8]、ARWEN[9]和MITOS2等tRNA预测程序进行注释。tRNAscan-SE未预测到缺失的tRNA基因;MITOS2未预测到缺失的tRNA基因;ARWEN预测到3个tRNA基因:trnE、trnA、trnV,见表1。对于程序预测的结果,本研究进行了人工序列检查,成功找回了欧亚鸲特鲁螨线粒体基因组“缺失”的5个tRNA基因。
表1 预测程序预测的tRNA基因
1.2.1trnY和trnI基因 经人工序列检查后,MITOS预测的trnY、trnI基因一级序列和二级结构均高度保守,故采用。
1.2.2trnE基因 MITOS预测的trnE基因位于12 785~12 841 bp,氨基酸接受臂长度为7 bp;ARWEN预测的trnE基因位于12 786~12 840 bp,在5” 端和3” 端各缩短1 bp,氨基酸接受臂长度为6 bp。由于螨类通常的tRNA基因氨基酸接受臂长度为7 bp[5],因此,本研究选择了MITOS预测的结果。
1.2.3trnA和trnV基因 ARWEN预测的trnA基因位于正链4 536~4 588 bp,与trnC基因(4 531~4 583 bp)重合,其最小自由能(MFE)为0.60。ARWEN预测的trnV基因位于正链9 515~9 578 bp,与nad4基因(8 360~9 659 bp)完全重合,并且其反密码子环及反密码子臂与其他无气门股已测序螨类差异较大,最小自由能(MFE)为99 997.60。因此本研究对于这2个基因重新进行了人工手动查找。通注:用灰色阴影表示保守核苷酸,反密码子采用加粗字体表示,在臂(受体臂、D臂、反密码子臂和T臂)上配对的核苷酸都标注了下划线。对比的序列来自Aleuroglyphus ovatus(Ao)、Caloglyphus berlesei(Cb)、Rhizoglyphus robini(Rr)、Ardeacarus ardeae(Aa)、Dermatophagoides farinae(Df)、Trouessartia rubecula(Tr)。过分析其反密码子和二级结构,并与它们在无气门股中的近缘种进行手动比对注释[12],确保其tRNA二级结构表现出高度的相似性,见表2。最后根据最小自由能(MFE)确认二级结构。图2为trnA和trnV基因的二级结构图。
图2 ARWEN与人工注释的trn A和trn V基因二级结构对比图
表2 6种无气门股螨类线粒体trn A和trn V基因的核苷酸序列比对
2.1 tRNA基因 MITOS预测的trnY基因处于正链,位于trnP和trnK基因之间,二级结构缺少配对的D-臂,呈D-loop结构,其最小自由能(MFE)为-12.40。MITOS预测的trnI基因在负链上,位于trnQ基因和nad2基因之间,其最小自由能(MFE)为-12.30,trnI基因的二级结构缺失T-臂和配对的茎,呈TV-loop结构。MITOS预测trnE基因在负链上,位于nad2基因和cob基因之间,其最小自由能(MFE)为-8.20。以上3个tRNA基因(trnY、trnI、trnE基因)均存在一定程度的碱基错配,并以G·U弱配对为主,其一级序列和二级结构均与其他无气门股已测序螨类高度保守。人工手动查找的trnV基因和trnA基因位于正链上,二级结构缺少配对的D-臂,呈D-loop结构,而且推断的T-臂非常短(仅1~2 bp配对的臂),这种现象在本研究预测的trnY基因中也被发现。重新注释的5个tRNA基因位置见表3。
2.2 rRNA基因 未重新注释前的rrnL基因只有650 bp,相较于其他无气门股螨类的rrnL基因长度较短。重新注释后的rrnL基因长度为999 bp,rrnS基因长度也由之前的623 bp变为662 bp,见表3。rrnS基因和rrnL基因的A/T碱基含量分别为72.81%和76.68%,其中rrnS基因位置在trnN与trnV之间,rrnL基因位置在trnV与trnW之间。
2.3 蛋白质编码基因 重新注释的线粒体基因组蛋白质基因序列位置与之前的排列方式相同,各基因所在位置见表3。
表3 欧亚鸲特鲁螨线粒体基因组重新注释后基因序列表格
有关甲螨亚目基因的研究中,Domes[9]等首次报道大盖卷甲螨(Steganacarus magnus)的线粒体基因组全序列,22个tRNA基因中有16个缺失。Klimov和O” connor[12]重新注释了trnW和trnS2两个tRNA基因;Edwards等[13]重新注释了3个缺失的tRNA基因(trnG、trnS1和trnE);Schäffer等[3]重新注释了大盖卷甲螨的12个tRNA基因,而薛晓峰等[14]利用tRNAscan-SE、ARWEN和基于反密码子和二级结构的人工注释,认为大盖卷甲螨具有完整的22个tRNA基因,并未存在丢失。Schäffer等[3]对一种甲螨Paraleius leontonychus测序发现,缺少两个tRNA基因(trnG和trnY);詹雪冰等[1]通过tRNAscan-SE、ARWEN、MITOS和MITOS2结合人工注释的方法发现疥螨目盛若甲螨线粒体基因组也拥有22个tRNA基因,说明tRNA基因的缺失在疥螨目中并不普遍。在无气门股基因的研究中,tRNA基因的丢失也是长期以来被关注的问题。在疥螨科的Sarcoptes scabiei中有2个tRNA基因(trnA和trnY)缺失,随后被薛晓峰等[14]通过重新注释和分析找回。在粉螨科的食酪螨属中,首次报道的腐食酪螨和长食酪螨缺失3个tRNA基因(trnF、trnS1和trnQ),薛晓峰等[14]重新注释找回了丢失的trnF和trnS1基因。在此基础上,薛晓峰等[14]不支持疥螨目中线粒体tRNA基因的缺失,詹雪冰等[1]也认为tRNA基因的丢失在甲螨亚目中并不普遍。前期研究发现,通过重新测序腐食酪螨和首次报道范张食酪螨的线粒体基因组全序列,都拥有完整的22个tRNA基因[15-16]。线粒体基因组中存在的tRNA基因对线粒体翻译系统至关重要,22个tRNA基因中的任何一个的缺失都会严重影响翻译系统[1]。目前相关研究均不支持疥螨目tRNA基因的丢失。
在所有已发表的无气门股线粒体基因组中均发现了截断的tRNA[6,8],此外,无气门股线粒体基因组tRNA基因的茎中经常发生不匹配,这两点都增加了无气门股线粒体tRNA基因的预测难度。tRNA基因的检测和注释一直以来都是一个具有挑战性的问题,不同的方法对tRNA基因的非典型二级结构有不同的预测潜力,使用不同类型和数量的tRNA预测方法会导致注释结果存在差异。因此,大量专门的tRNA基因预测工具被开发[17]。在这些预测工具中,tRNAscan-SE基于寻找的完整三叶草结构,不适合处理高度分化的序列[18]。ARWEN首先只识别出最保守的结构域,即反密码子茎,随后进行可能的D-臂和T-臂结构的评估,以及寻找一个受体茎,然后提供特异性[9]。但ARWEN的敏感性以评分阈值的降低和错误发现率增多为代价而增加,不能排除假基因被确定为tRNA基因的可能性[19]。MITOS和MITOS2预测的tRNA基因二级结构通常没有最小的自由能,因为茎中存在核苷酸不匹配或截断的二级结构[19]。本研究使用这四种程序预测欧亚鸲特鲁螨线粒体tRNA基因时,MITOS预测的3个“缺失”tRNA基因都具有较高的保守性和稳定的二级结构,而ARWEN预测的3个“缺失”tRNA基因在反密码子茎上呈现出较高的保守性。首次报道的欧亚鸲特鲁螨线粒体基因组序列采用MITOS2直接注释,这可能是本研究未能使用MITOS2寻找到“丢失”tRNA基因的原因。tRNAscan-SE未能发现“缺失”的tRNA,这可能由于无气门股中截断的tRNA难以满足tRNAscan-SE所要求的完整三叶草结构。上述四种预测程序中,MITOS的注释结果最为可靠,但是仍旧难以获得完整的tRNA基因。对于截断的tRNA基因的注释中单独使用以上的某一种工具或程序通常不能完整地获得所有的tRNA基因,容易出现错误。欧亚鸲特鲁螨线粒体基因组序列5个tRNA基因的“缺失”可能是由于使用单一的预测程序和缺乏人工序列检查,而寻找更加全面的注释tRNA基因的流程有助于解决这一问题。
本研究重新注释并分析了欧亚鸲特鲁螨线粒体基因组全序列,采用一套完整的无气门股螨类线粒体基因组tRNA基因注释流程,找回了先前报道的在欧亚鸲特鲁螨线粒体基因组中“丢失”的trnA、trnE、trnI、trnV和trnY基因。这种预测流程减少了单一程序预测以及注释程序本身预测方法所导致的偏差,使tRNA注释结果更为准确。本研究结果并不支持无气门股螨类线粒体基因组tRNA基因的丢失。无气门股线粒体基因组序列的进一步研究将有助于验证这种“丢失”的tRNA是真正缺失还是由于高度非典型结构而未被一些软件程序检测到。