邱忠营,黄 原,茹凝玉,崔媛媛
(1.西安医学院基础医学部,陕西西安 710021;2.陕西师范大学生命科学学院,陕西西安 710062)
昆虫线粒体基因组是长度约15 kb 的环状双链共价闭合分子,具有结构简单、基因重排少及基因进化速率快等特点[1],是分子系统发生学、物种鉴定、谱系地理学以及种群遗传结构领域等重要的分子标记[2-4]。随着高通量测序技术的发展,测序时间大大缩短,线粒体基因组数据增长速度很快。截至2020年7月,NCBI数据库公布的直翅目(Orthoptera)昆虫线粒体基因组序列有218 个,蝗亚目(Locustodea)138 个,螽亚目(Ensifera)80 个,但关于橄蝗属(Tagasta)昆虫未见报道。直翅目昆虫的线粒体基因组由37 个基因组成,包括13 个蛋白编码基因(PCGs)、22 个转运RNA(tRNAs)、2 个核糖体RNA(rRNAs)和非编码区,也称为A + T 富集区或控制区。印度橄蝗(Tagasta indica)隶属于橄蝗属,橄蝗亚科(Tagastinae),瘤锥蝗科(Chrotogonidae),蝗总科(Acridoidea),直翅目。在中国,印度橄蝗主要分布在福建、广东和广西等地,国外分布在印度和泰国等地。从形态上看,瘤锥蝗科的头型与锥头蝗科(Pyrgomorphidae)基本一致,均为锥型,体型也均呈纺锤形;两者的不同之处主要在于瘤锥蝗科昆虫的触角为丝状,锥头蝗科昆虫的触角为剑状。根据22个形态学性状,无法区分瘤锥蝗科和锥头蝗科,许升全等[5]建议将二者合为一个科;刘殿锋等[6]应用18S rDNA 序列构建蝗总科系统发生关系,也认为将瘤锥蝗科和锥头蝗科合为一个科较合适。目前,关于直翅目昆虫系统发生关系的研究已有很多[2-4,7-8],但涉及的瘤锥蝗科昆虫较少,仅有4 条全线粒体基因组序列被测出。为更好地确定瘤锥蝗科与锥头蝗科的分类地位及系统发生关系,本研究测定了瘤锥蝗科印度橄蝗的全线粒体基因组,并初步构建了蝗总科的系统进化树,为瘤锥蝗科的分类地位和系统发生关系提供数据支持和分子证据。
印度橄蝗标本于2009年9月17日采自广西桂林三里店(110°32’E,25°27’N),现保存于陕西师范大学分子进化生物学实验室。取单头虫后足股节肌肉,采用DNA 提取试剂盒(QIAGEN 公司生产)提取总DNA。测序策略是将整个线粒体基因组分成2个大片段,以此为模板,参考通用引物序列[9-10],以长PCR 产物为模板,扩增500 ~1 000 bp 长度片段,最终扩增出覆盖线粒体基因组全长的序列;短的PCR片段直接送华大科技测序公司测序。
应用拼接软件Standen package对测序所得序列进行拼接,序列注释应用Geneious 9.1.2 软件[11]完成。应用在线软件tRNAscan-SE(http://lowelab.ucsc.edu/tRNAscan-SE/)[11]进行tRNA 基因的预测。以短额负蝗(Atractomorpha sinensis)线粒体基因组为参考基因组进行序列比对,确定蛋白编码基因和核糖体rRNAs的基因位置。
选取包括印度橄蝗在内的蝗总科的20 个物种及1 个外群物种摩门螽斯(Anabrus simplex)共21 个物种的线粒体基因组序列,构建系统发生树。所选物种的GenBank 序列号及分类信息见表1。应用Geneious 9.1.2 软件对21 个物种线粒体基因组序列的13 个PCGs 及2 个rRNAs 进行提取和比对[12]。应用软件SequenceMatrix 1.7.8将单个基因比对结果连接成1 个联合数据集,并利用MrBayes 3.1.2 软件构建贝叶斯(BI)树[13]。
表1 系统发育分析中线粒体基因组的分类信息Tab.1 Taxonomic information of mitochondrial genomes for phylogenetic analysis
续表1 Continued
试剂盒提取的DNA 中包括核DNA 和线粒体DNA,由于线粒体DNA所占比例较小,本研究通过2对直翅目昆虫线粒体基因组通用引物扩增出覆盖线粒体基因组序列全长的片段,再以此长片段为模板,扩增出500 ~1 000 bp 长度的片段进行测序,并应用软件Standen Package 进行组装,去除两端冗余序列,获得线粒体基因组全长序列。
印度橄蝗线粒体基因组全长序列15 531 bp(GenBank 登陆号:MK080200),共编码37 个基因,包 括13 个PCGs(atp6, atp8,cox1-3,cytb,nad1-6,nad4l)、2个rRNAs(rrnS和rrnL)和22个tRNAs,以及1 个控制区(control region,CR)(图1)。其中,N 链编码14 个基因(4 个PCGs、8 个tRNAs 和2 个rRNAs),J链编码剩余基因(9 个PCGs 和14 个tRNAs)。印度橄蝗线粒体基因组结构紧凑,基因间隔区长度为0~30 bp,没有基因缺失;基因排列顺序与蝗亚目昆虫线粒体基因典型排列顺序相同,没有基因重排现象(表2)。
图1 印度橄蝗线粒体全基因组结构Fig.1 Structure of T.indica mitochondrial genome
表2 印度橄蝗线粒体全基因组Tab.2 Organization of T.indica mitochondrial genome
续表2 Continued
2.2.1 蛋白编码基因和核苷酸组成
印度橄蝗线粒体基因组全序列碱基组成为A(42.3%)、T(31.1%)、C(16.0%)和G(10.6%),AT含量(73.4%)明显大于CG 含量(26.6%),存在明显的AT 偏斜,与其他直翅目昆虫碱基组成类似(表3)。基因组中,rRNAs、tRNAs、PCGs 和AT 富集区的AT 含量分别为75.7%、75.4%、72.4%和81.0%,存在明显的AT-skew。从核苷酸组成密码子偏好性上,蛋白编码基因密码子第3 位点的AT 含量最高(82.0%),其次是蛋白编码基因密码子第1 位点(69%.0),蛋白编码基因密码子第2 位点最低(66.2%)。AT 偏向性最显著的是蛋白编码基因密码子第2 位点,AT-skew 值为-0.39(T 含量远大于A)。
表3 印度橄蝗线粒体基因核苷酸组成Tab.3 Nucleotide composition of T.indica mitochondrial genome
印度橄蝗线粒体基因排列相对紧密,存在少量的基因重叠和间隔区。在线粒体基因组的37 个基因中,有11 处重叠,其中两处存在于蛋白编码基因间,分别是nad4L/nad4(7 bp)和atp8/atp6(7 bp),其余9 处存在于tRNA 与蛋白编码基因组和tRNA 之间。基因间隔区有15处,长度为1 ~31 bp,其中trn-SUCN(Ser)和nad1基因间隔区最长(31 bp),剩余9 个基因紧密相连。
13个蛋白编码基因中,起始密码子有3个蛋白编码基因为非标准起始密码子,分别是nad2为GTG、cox1为ACT及nad6为TTG;其余10个蛋白编码基因均为标准的ATN。终止密码子中,除nad4和cox3分别为TAG和TA外,其余均为TAA。不完整的终止密码子普遍存在于直翅目昆虫的mtDNA 中,研究表明终止密码子受选择压力小,缩短的终止密码子可通过转录后多腺苷酸化补充[31]。印度橄蝗的13个蛋白编码基因密码子有3 716个,使用频率最高的密码子为UUA,n(RSCU)值为312(3.54),使用频率最低的是UGC和CGG,仅3次(图2)。在编码的3 716个氨基酸中,使用频率最高的为Leu,占所有氨基酸的14.24%。
图2 印度橄蝗全线粒体基因组蛋白编码基因密码子使用情况Fig.2 Codon usage of all PCGs in T.indica mitochondrial genome
2.2.2 RNA和控制区
通过tRNAScan-SE软件预测印度橄蝗粒体基因组tRNAs的位置和二级结构,未预测出的tRNAs通过与近缘物种序列比对确定位置。印度橄蝗线粒体基因包括22个tRNAs,长度为64 ~72 bp;trnSAGN二氢尿嘧啶臂缺失,二级结构不是典型的三叶草结构;其余21个tRNAs的二级结构均形成典型的三叶草结构[32]。三叶草结构包含4个臂,上方为氨基酸接受臂,下方为反密码子臂,左边为双氢尿嘧啶臂(DHU),右方为T&C环(图3)。22个tRNAs在折叠过程中,共存在23处错配,其中G-U 错配20 处;A-G 错配1 处,位于trnW的氨基酸接受臂上;U-U 错配2 处,分别位于trnC的DHU臂和trnH的反密码子臂上。印度橄蝗线粒体基因组含有rrnL和rrnS,分别位于trnLCUN和trnV之间以及trnV和控制区之间。rrnS长度为793 bp,rrnL长度为1 308 bp。线粒体基因组的控制区介于rrnS与trnI基因之间,长度731 bp,A + T 含量高达81%,高于PCGs、rRNAs和tRNAs区域的A+T含量。
直翅目昆虫线粒体基因组为环状双链闭合结构,一般在15 kb左右,包含37个基因。印度橄蝗线粒体基因组全长15 531 bp,介于已报道的直翅目昆虫线粒体基因组长度范围内(13 ~18 kb)[33]。
直翅目昆虫的线粒体蛋白编码基因中,几乎都以ATN为标准起始密码子,但有个别基因起始密码子会出现非标准情况,尤以cox1起始密码子变化较多(CCG、AAA、CAA、TTA、ACG、ATT和CTA等)[34],还有四联密码子ATGA、ATAA 和GTGA 等都是可能的cox1起始密码子[35]。这些非正常起始密码子可转录后经过RNA 编辑转换成正常的密码子,从而完成翻译。印度橄蝗的线粒体蛋白编码基因中nad2、cox1和nad6基因均为非标准起始密码子,分别为GTG、ACT和TTG;其余均为标准起始密码子ATN。
图3 印度橄蝗线粒体基因组tRNAs的二级结构Fig.3 Secondary structure of tRNAs in T.indica mitochondrial genome
直翅目昆虫线粒体蛋白编码基因的终止密码子较为一致,大多数蛋白编码基因以TAA 或TAG 为完整终止密码子,少数基因以T或TA 为不完整终止密码子。印度橄蝗的线粒体蛋白编码基因中,除cox3的终止密码子为TA终止密码子外,其他蛋白编码基因的终止密码子均为TAA 或TAG。RNA 加工过程中添加polyA尾巴可将不完整T或TA转变为完整的终止密码子。
目前已测出的直翅目昆虫线粒体基因组编码的22 个tRNAs 中,大部分的trnSAGN为不完整的三叶草结构,缺少DHU 臂;其余21 个tRNAs 可折叠形成典型的三叶草结构。tRNA形成三叶草结构时,会发生错配,大部分错配为G-U 错配,也有少量的A-A、A-G、C-A 或U-U 错配等,这些错配通过编辑可以校正过来,不会影响转运功能[36]。印度橄蝗的线粒体中,22个tRNAs的二级结构都较保守,除trnSAGN缺少DHU 臂外,其余均为典型的三叶草结构;错配方式主要为G-U错配。
核糖体RNA 有rrnL和rrnS,其二级结构较为保守,分为茎区和环区。核糖体rrnL二级结构包含6个结构(I,II,III,IV,V 和VI)。结构区III 缺失,结构区IV 和V 高度保守,其他结构部分变化较大。核糖体rrnS二级结构有4 个结构,变化较大的是结构一和结构二,相对保守的是结构三和结构四。
有中国学者将蝗总科分成9个科,其中8个科在中国分布,分别为斑腿蝗科(Catantopidae)、斑翅蝗科(Oedipodidae)、网翅蝗科(Arcypteridae)、剑角蝗科(Acrididae)、癞蝗科(Pamphagidae)、槌角蝗科(Gomphoceridea)、瘤锥蝗科和锥头蝗科。在直翅目昆虫分类地位上,中国与国外的分类系统区别较大。Otte分类系统中将蝗总科分为11科,确立了瘤蝗科(Dericorythidae)和Lithidiidae。本研究选取摩门螽斯作为外群,与测得的印度橄蝗和Genbank已公布的蝗总科19 个物种的全线粒体基因组中的13 个蛋白编码基因和2个核糖体RNA基因构建贝叶斯树(图4),结果显示蝗总科内部分支进化关系中,四川乡城湄公蝗(Mekongiana xiangchengensis)和印度橄蝗聚为一支形成姐妹群,金澜沧蝗(Mekongiell akingdoni)和西藏澜沧蝗(M.xizangensis)聚为一支形成姐妹群,之后这4个物种再聚为一支共同构成了瘤锥蝗科,支持瘤锥蝗科的单系性;锥头蝗科只有1 个物种短额负蝗(Atractomorpha sinensis),与瘤锥蝗科的4个物种最先聚在一起,提示瘤锥蝗科和锥头蝗科亲缘关系较近。本研究中,瘤锥蝗科与锥头蝗科的系统发生关系与常会会等[37]用线粒体基因组蛋白编码基因构建的系统树一致;白洁等[38]应用80 种直翅目昆虫的线粒体nad2基因构建系统发育树,认为瘤锥蝗科和锥头蝗科亲缘关系较近;印红等[39]应用18S rDNA 构建蝗总科系统发生关系,也支持瘤锥蝗科和锥头蝗科亲缘关系较近的结论,其位于蝗总科的基部,是蝗总科最原始的类群。由于锥头蝗科物种只有短额负蝗1种,锥头蝗科物种是否具有单系性还需增加物种进行确认。本研究测定的印度橄蝗共有4种瘤锥蝗科物种线粒体基因组序列,数据稍显单薄,瘤锥蝗科和锥头蝗科分类地位的进一步确认还需增加物种。
图4 基于PCGs+rRNAs数据集的蝗总科贝叶斯系统树Fig.4 BI phylogenetic tree of Acridoidea based on mitochondrial PCGs and rRNAs concatenated data set