瓮青芬, 赵卓, 曹振民, 翟卿
(河南农业大学植物保护学院,河南 郑州 450002)
蝴蝶是重要的环境指示昆虫,种类众多。菜粉蝶(Pierisrapae)隶属于鳞翅目 (Lepidopetera),粉蝶科(Pieridae),粉蝶属(Pieris),在中国各地都有分布。菜粉蝶幼虫主要危害十字花科、百合科、菊科等9科35种植物[1]。目前有关菜粉蝶的研究主要集中在外部形态、线粒体基因组特征和系统发育、生态毒理、电生理等方面[2-6]。昆虫线粒体基因组是闭合环状的双链DNA分子,包括37个基因和一段控制区,37个基因包括13个蛋白质编码基因(PCG)、22个转运RNA基因(tRNA)和2个核糖体RNA(rRNA),控制区又叫A+T富含区[7]。线粒体基因组进化速率较快、结构简单、含有丰富的遗传进化信息[8-9]。许多学者也对粉蝶科不同属进行了不同的研究。如许丽等[10]基于线粒体cox1和cytb基因得出黄粉蝶亚科不是单系群,迁粉蝶亚科和豆粉蝶亚科聚为一支,粉蝶属、云粉蝶属和飞龙粉蝶属有较近的关系。汪江等[11]基于nad1和cox1基因部分序列,以灵奇尖粉蝶为外群,对中国迁粉蝶属的系统发育关系进行分析。倪艳等[12]基于cox1、cox2和cytb基因部分序列分析了斑粉蝶属系统发育。郝娟娟[13]基于线粒体基因组对6种粉蝶的系统发育关系进行分析,得出粉蝶属与襟粉蝶属互为姐妹群关系,斑粉蝶属与绢粉蝶属互为姐妹群关系。丁昌萍等[14]基于cox1和EF-1α基因得出妹粉蝶属应归于绢粉蝶属。本研究基于线粒体基因组对菜粉蝶和粉蝶科部分属间系统发育关系进行分析,以期为粉蝶科属级分类阶元的系统发育提供依据。
本研究所用的菜粉蝶成虫体长17 mm,翅展52 mm,于2019-8-20采自鲁山县尧山镇西大河,无水乙醇里浸泡,-20 ℃冰箱保存。
取1只完整菜粉蝶胸部肌肉组织,根据天根公司血液/细胞/组织基因组DNA提取试剂盒(TIANamp Genoic DNA Kit)步骤获取总DNA。
总DNA由中国北京诺和基因生物信息技术有限公司利用Illumina HiSeq 2500平台进行二代测序,将得到的原始序列利用NGS QC工具箱[15]修剪序列片段,删除低质量序列、未配对序列,质控后序列利用IDBA-tran[16]来进行组装拼接。
将组装拼接得到的contigs通过IDBA-tran构建Blast本地数据库,利用GenBank中已有近缘种的线粒体基因组进行比对搜索,将比对得到的近似线粒体基因组序列基于默认设置并选择无脊椎动物线粒DNA(invertebrate mitochondrial DNA,InvMtDNA),在Mitos(http://mitos.bioinf.uni-leipzig.de/index.py)[17]下注释分析,将分析后的线粒体基因组在NCBI Blast 和BOLD 数据库进行分子鉴定,该线粒体基因组属于菜粉蝶(Pierisrapae),与形态鉴定结果一致[18]。
蛋白质编码基因利用MEGA 5 软件[19]翻译比对。使用Gblocks v0.91[21]删除模糊对齐的位点,每一个tRNA和rRNA基因都在MAFFT[20]服务器上对齐,采用“E-INS-i”策略。使用Gblocks v0.91[21]对对齐不良的区域进行修剪。不同基因类型的比对用FASconCAT_v1.0连接[22]。编制3种不同的连锁矩阵:(1)PCG_nt(13个PCGs的核苷酸序列),(2)PCG_aa(13个PCGs的氨基酸序列),(3)PCGnt+RNA(13个PCGs、22个tRNA基因和2个rRNA基因的组合核苷酸序列)。
利用OGDRAW网站(https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)绘制线粒体基因组结构图。使用MEGA 5软件[19]对菜粉蝶线粒体基因组的13个蛋白质编码基因(PCG)密码子使用频率和碱基组成进行分析。根据Mitos分析结果绘制22个tRNA二级结构。
本研究基于菜粉蝶线粒体基因组结合GenBank中已有的16个(13种粉蝶和作为外群的3种蛾,登录号见图3)线粒体基因组数据构建系统发育树,利用IQ-TREE(http://iqtree.cibiv.univie.ac.at/)网上服务器[23-24]构建最大似然树(ML),使用的模型如表1,最大似然树的节点支持率由自举检验置信度(3 000次重复)进行评估。在CIPRES Science Gateway(https://www.phylo.org/portal2/login!input.action) 网上服务器用MrBayes构建贝叶斯树(BI),贝叶斯树的节点支持率由贝叶斯后验概率(Bayesian posterior probabilities)表示。
表1 ModelFinder选择的分区方案和最适合的模型Table 1 The partitioning scheme and the best-fitting models selected by ModelFinder
菜粉蝶(P.rapae)的线粒体基因组长度为15 106 bp,包括37个基因和一段控制区,其中,A、T、G、C的平均含量分别为35.4%、43.6%、11.2%、9.8%,A+T的含量明显高于G+C的含量。菜粉蝶线粒体基因组结构如图1所示,基因组注释结果如表2。线粒体基因组提交至NCBI数据库(https://www.ncbi.nlm.nih.gov/WebSub/),登录号为MW448362。
13个蛋白质编码基因的A、T、G、C的平均含量分别为33.2%、44.8%、11.3%、10.6%,A+T的含量明显高于G+C的含量。其中cox1、cox2、nad2、nad3、nad4、nad4L、nad5、nad6、cox3、cytb、atp8和atp6基因的起始密码子均为典型的ATN,nad1
注:加粗线条外侧表示基因方向为顺时针,内侧表示基因方向为逆时针。 Note: The outer circle indicates that the gene direction is clockwise, while the inner circle indicates that the gene direction is anticlock wise.图1 菜粉蝶线粒体基因组结构Fig.1 Mitochondrial genome structure of Pieris rapae
表2 菜粉蝶线粒体基因组注释结果
基因的起始密码子为GTG;nad1、nad2、nad4、nad4l、nad6、cox1、cox2、cox3、cytb和atp6基因的终止密码子均以TAA或TAG结尾,nad3基因以TAG结尾,nad5基因以ATT结尾,atp8基因以TGA结尾。13个蛋白质编码基因的密码子平均使用频率中,亮氨酸(Leu)、异亮氨酸(Ile)、苯丙氨酸(Phe)和丝氨酸(Ser)平均使用频率较高,依次是14.605%、11.701%、10.193%和8.824%。半胱氨酸(Cys)、精氨酸(Arg)、谷氨酰胺(Gln)、天冬氨酸(Asp)和组氨酸(His)使用频率较低,分别是0.894%、1.452%、1.620%、1.731%和1.731%。atp8基因中出现的氨基酸种类最少,谷氨酸(Glu)、天冬氨酸(Asp)、组氨酸(His)、丙氨酸(Ala)、精氨酸(Arg)、甘氨酸(Gly)、苏氨酸(Thr)和缬氨酸(Val)未出现。半胱氨酸(Cys)未出现在atp6、nad6和cox1基因中,nad2基因中未出现组氨酸(His)、缬氨酸(Val)和天冬氨酸(Asp),出现19种氨基酸的基因有4个,有7个基因序列中出现20种氨基酸。13个蛋白质编码基因的密码子使用频率如表3所示。
表3 菜粉蝶线粒体基因组13个蛋白质编码基因密码子使用频率Table 3 Relative synonymous codon usage of 13 protein-coding genes of the mitochondrial genome of Pieris rapae
菜粉蝶线粒体基因组中22个tRNA基因的A、T、G、C的含量分别是41.1%、39.2%、11.3%和8.5%,A+T的含量大于G+C的含量。22个tRNA基因的二级结构除trnS1之外皆是典型的三叶草结构,trnS1基因缺失DHU臂,二级结构如图2。每个tRNA基因的长度范围均在60~71 bp之间。trnG、trnA、trnR、trnN、trnS1、trnE、trnT、trnS2、trnM、trnI、trnW、trnL2、trnK和trnD14个基因由H链编码,另8个基因由L链编码。碱基配对中大多为A-U和G-C,遵循Waston-Crick配对规律,也有G-U非典型配对和碱基错配现象。trnA、trnC、trnF、trnG、trnH、trnI、trnL1、trnL2、trnM、trnP、trnQ、trnS1、trnV和trnW出现了非典型配对G-U,trnC和trnS2出现了U-U碱基配对,trnS2还出现了A-G碱基配对,可能是昆虫线粒体基因组欠缺DNA重组功能导致。
菜粉蝶线粒体基因组中rrnS基因的长度为774 bp,位于trnM和trnV之间,A+T和G+C的含量分别是85.5%和14.5%,rrnL基因的长度为1 262 bp,位于trnL1和trnV之间,A+T和G+C的含量分别是82.7%和17.2%。
控制区又叫A+T富含区,是线粒体基因组的非编码序列,菜粉蝶线粒体基因组控制区位于rrnS基因和trnM基因之间,长度为381 bp。
本研究使用DAMBE软件用XIA[25]的方法选择无脊椎动物线粒体 DNA第5套密码子表对核苷酸序列进行核苷酸替代饱和性分析,分析结果显示序列不饱和(Iss=0.259 9,Iss.cSym=0.843 1,Iss.cAsym=0.663 3;Iss:替换饱和指数;Iss.cSym: 假设拓扑结构对称;Iss.cAsym: 假设拓扑结构不对称)。
以紫斑谷螟(Pyralisfarinalis)、家蚕(Bombyxmori)和美国白蛾(Hyphantriacunea)作为外群,基于不同属的14种粉蝶的线粒体基因组的13个蛋白质编码基因的核苷酸序列构建ML树和BI树。2种树的拓扑结构一致,仅自举检验置信度和贝叶斯后验概率不同,用一棵树表示,如图3。粉蝶科属间的系统发育关系为:((襟粉蝶属Anthocharis+鹤顶粉蝶属Hebomoia)+(((绢粉蝶属Aporia+妹粉蝶属Mesapia)+斑粉蝶属Delias)+尖粉蝶属Appias)+((粉蝶属Pieris+飞龙粉蝶属Talbotia)+云粉蝶属Pontia)))+(黄粉蝶属Eurema+((迁粉蝶属Catopsilia+豆粉蝶属Colias)+钩粉蝶属Gonepteryx))。绢粉蝶属与妹粉蝶属互为姐妹群,所组类群与斑粉蝶属互为姐妹群;尖粉蝶属单独成一支;粉蝶属与飞龙粉蝶属互为姐妹群,两者组成的类群和云粉蝶属互为姐妹群;迁粉蝶属与豆粉蝶属互为姐妹群,所组类群与钩粉蝶属互为姐妹群;襟粉蝶属和鹤顶粉蝶属互为姐妹群。
注:+表示GU非典型配对。 Note:+ means GU atypical pairing.图2 菜粉蝶线粒体基因组22个tRNA基因二级结构Fig.2 The secondary structure of 22 tRNA genes in the mitochondrial genome of Pieris rapae
菜粉蝶线粒体基因组总长度为15 106 bp,包括37个基因和一段控制区。菜粉蝶线粒体基因组排列方向和顺序与已测的其他鳞翅目线粒体基因组方向和顺序一致[26-28],未发生基因重排与缺失。分析线粒体基因组中13个蛋白质编码基因、22个tRNA基因和2个rRNA基因的核苷酸组成,发现A+T的含量明显高于G+C的含量,这表明了菜粉蝶线粒体基因组具有明显的AT偏向性,符合昆虫线粒体基因组有AT偏向性的特点。
在13个蛋白质编码基因中发现有11个基因的起始密码子为典型的ATN。半胱氨酸(Cys)未出现在atp6、nad6和cox1基因中,nad2基因中未出现组氨酸(His)、缬氨酸(Val)和天冬氨酸(Asp),出现19种氨基酸的基因有4个,有7个基因序列中出现20种氨基酸。菜粉蝶线粒体基因组中的tRNA基因,除trnS1之外,有21个基因二级结构皆是典型的三叶草结构,trnS1基因缺失DHU臂,这在蛱蝶类、绢蝶类、灰蝶类中也出现过[26,29-31]。每个tRNA基因的长度范围均在60~71 bp之间,有14个基因由H链编码,8个基因由L链编码。碱基配对中大多遵循Waston-Crick配对A-U和G-C,有G-U碱基配对现象,也有一些碱基错配现象,如U-U碱基配对、A-G碱基配对。
注:节点旁数字表示2个树的节点支持率,左边是ML树的支持率,右边是BI树的后验概率。 Note:The numbers near the nodes indicate the nodal support rate of the two trees. The left is the bootstrap support for the ML tree, and the right is the posterior probability for the BI tree.图3 最大似然法和贝叶斯法构建的基于线粒体基因组13个蛋白质编码基因核苷酸序列的系统发育树Fig.3 A phylogenetic tree constructed by the maximum likelihood and Bayesian methods based on the nucleotide sequence of 13 protein-coding genes in the mitochondrial genome
本研究构建了14种蝴蝶的ML树和BI树,分析粉蝶科属间的系统发育关系,得到的2种树的拓扑结构一致。分析后发现粉蝶属和飞龙粉蝶属互为姐妹群,亲缘关系较近,节点支持率为99,它们与云粉蝶属构成姐妹群,节点支持率为100。豆粉蝶属与迁粉蝶属互为姐妹群,两者和钩粉蝶属互为姐妹群,此结果与许丽等[10]和丁昌萍[32]结果一致。妹粉蝶属与绢粉蝶属互为姐妹群,此结果与丁昌萍[14,32]结果有差异,丁昌萍支持将妹粉蝶属并入绢粉蝶属。鹤顶粉蝶属和襟粉蝶属互为姐妹群,此结果与曹燕[33]的研究结果一致。小粉蝶属为单系群,与其余13个蝶属所构成类群聚为一支,支持斑粉蝶属、尖粉蝶属、钩粉蝶属为单系群。本研究构建的系统发育树总体的节点支持率较高(100),个别节点支持率较低(61),分析原因可能是每个属所只选取了1个物种,不具有代表性,有的属未取到样。