赵婉清,史淦琳,高诗聪,张虎芳
(忻州师范学院 生物系,山西 忻州 034000)
盲蝽科(Miridae)隶属于半翅目(Hemiptera)异翅亚目(Heteroptera)臭虫次目(Cimicomorpha),大部分种类为重要的经济昆虫,主要危害小麦、棉花、苜蓿、马铃薯、甜菜、芝麻、烟草等[1,2]。一些盲蝽为捕食性昆虫,如异须盲蝽、黑食齿爪盲蝽、烟盲蝽、中华微刺盲蝽等,可作为天敌昆虫用于生物防治[3~6]。盲蝽物种丰富,体型小且体色多样,所以常用分子生物学手段来辅助鉴定[7]。随着生物技术的发展,线粒体基因组在昆虫系统学中的应用越来越广,它包含的遗传信息量更大,对昆虫系统进化研究具有重要意义[8]。
线粒体具有独立的遗传物质和体系,为半自主型细胞器,除了本身的细胞功能外,还参与细胞分化、信息传递和凋亡、调控细胞的增长速度和细胞周期的能力。昆虫线粒体基因组为共价闭合的环状DNA 分子,通常为15~18 kb 的长度,包含一条重链和一条轻链。昆虫线粒体基因组共编码37 个基因,分别为13 个蛋白编码基因(PCGs),2 个核糖体RNA 基因(rRNAs)和22 个 转 运RNA 基 因(tRNAs)[9,10]。其中,13 个蛋白编码基因是常用的昆虫分子进化研究标记。
本研究选取盲蝽科14 个属的代表物种,通过比较分析线粒体基因组中13 个蛋白质编码基因的密码子使用情况、碱基组成,以及核苷酸进化速率等序列特征,并基于最大似然法(ML)和贝叶斯法(BI)构建系统发育树,旨在为盲蝽科系统分类学研究提供分子生物学依据。
本研究选取盲蝽14 个属的代表物种进行昆虫线粒体蛋白编码基因进行研究,所有序列均从NC⁃BI 数据库(https//www ncbi. Nlm. nih. gov/)下载得到,详细的序列信息见表1。
表1 本研究所用序列信息Table 1 List of sequence information in this study
利用Geneious 8. 0. 4 软件[11]从线粒体基因组序列中抽提13 个蛋白编码基因,统计起始和终止密码子的使用情况。在MEGA7. 0[12]中打开不同物种的同一基因序列(同源序列),删除序列末尾的终止密码子后,将核苷酸序列转换为氨基酸序列进行Mus⁃cle 比对,保存比对后的整齐核苷酸矩阵序列。分别将蛋白编码基因串联成13 个蛋白编码基因(PC⁃Gs)、重链编码的蛋白编码基因(PCGs-J)和轻链编码的蛋白编码基因(PCGs-J)3 个数据集。 在MEGA7. 0 中统计各基因和数据集的碱基组成、信息位点和密码子使用情况。在DNAsp 6. 0 软件[13]中计算13 个蛋白编码基因的非同义替换率(non⁃synonymous substitution rate,Ka)和同义替换率(synonymous substitution rate,Ks),进而统计每个基因的核苷酸进化速率,即Ka/Ks 值。
为了研究盲蝽科昆虫的亲缘关系,选择网蝽科1 种Pseudacysta perseae作为外群,基于最大似然法(ML)和贝叶斯法(BI)构建系统发育树。利用Par⁃titionFinder[14]分别对2 种建树方法选择最优的分区和模型,对13 个蛋白编码基因的3 位密码子进行划分(表2)。ML 发育树在RAxML-7. 0. 3[15]中生成,自展检验值为1 000。BI 发育树在MrBayes3. 2. 2[16]中运行计算,运行10 000 000 代,每1 000 代抽样一次,舍去收敛前的样本。
表2 系统发育分析采用的数据集分区和最优模型结果Table 2 Subset partition and best optimal model of datasets for phylogenetic analysis
盲蝽科昆虫线粒体蛋白编码基因序列中,A+T 碱基含量为75. 5%,呈明显的AT 偏好性,具体占比 为T(43. 1%)>A(34. 2%)>G(12. 3%)>C(12. 2%)。 13 个蛋白编码基因中,除nad1、nad4、nad4L和nad5在N 链编码外,其余9 个基因均在J链编码。 PCGs-J 的碱基含量为T(51. 4%)>A(26. 6%)>G(13. 7%)>C(8. 4%),PCGs-N 碱基含量为A(38. 9%)>T(35. 1%)>C(14. 6%)>G(11. 4%),可以看出,N 链编码基因的A+T 含量高于J 链。另外,在这13 个蛋白编码基因中,atp8基因的A+T 含量最高(83. 4%),cox1基因的A+T含量最低(68. 8%)。
对PCGs、PCGs-J、PCGs-N 链和13 个蛋白编码基因的AT、CG 偏向性进行了统计(表3)。PCGs和PCGs-N 链均为负偏向性,PCGs-J 则均为正偏向性。
表3 盲蝽科线粒体蛋白编码基因的核苷酸组成Table 3 Nucleotide composition of the mitochondrial genome of Miridae
本研究对盲蝽科昆虫13 个蛋白编码基因的核苷酸和氨基酸串联序列的信息位点进行了分析。在核苷酸序列中,保守位点有4 958 个,约占42. 7%;变异位点有6 149 个,约占53. 0%;简约信息位点有3 977个,约占34. 3%。在氨基酸序列中,保守位点有764 个,约占19. 7%;变异位点有2 846 个,约占73. 6%;简约信息位点有1 910个,约占49. 4%。
本研究对盲蝽科14 属代表物种的昆虫线粒体蛋白编码基因的起始和终止密码子进行了统计(图1、图2)。 在起始密码子使用中,密码子ATG 和ATT 的使用频率较高,而密码子ATC 和ATA 的使用频率相对较低。atp6和cox1的起始密码子均为ATG,而且ATG 在cox3和cytb中的占比也很大。nad4L的起始密码子全为ATT,而且在nad1、nad2、nad4和nad5中ATT 都有-很高的占比。cox2中起始密码子的种类最丰富,其中ATC 使用频率最高。
图1 起始密码子的使用情况Fig.1 Start codons usage of Miridae protein-coding genes
图2 终止密码子的使用情况Fig.2 Stop codons usage of Miridae protein-coding genes
在终止密码子的使用中,密码子TAA 和T 的使用频率较高,而TAG 较少使用。nad6的终止密码子均为TAA,且TAA 在atp6、cytb、nad1、nad2和nad4L中的使用频率也很高。cox3的终止密码子均为T,且T 在cox1、nad4和nad5中也很占优势。TAG 在atp8中的使用频率最高,有11 个物种使用该终止密码子。cytb和nad3的终止密码子种类最丰富,且nad3对几种终止密码子的使用次数相对平均。
本研究对蛋白编码基因的RSCU 值统计分析(图3)。密码子使用频率最高是UUA(L),其次为UCU(S)、GCU(A)和GUU(V)等,使用频率相对较低为CGC(R)、GGC(G)和ACG(T)。在编码氨基酸的同义密码子中,第3 位点为A 或者T 的密码子使用频率较高。例如:编码亮氨酸Leu(L)的同义密码子中,密码子UUA(RSCU=3. 18)使用频率远高于UUG(RSCU=1. 15);编码异亮氨酸的同义密码子中,密码子AUU(RSCU=1. 6)使用频率远高于密码子AUC(RSCU=0. 4)。
图3 同义密码子相对使用频率Fig.3 The codon usage of PCGs in Miridae mitogenomes
13 个线粒体蛋白编码基因的核苷酸同义替换率(Ks)、非同义替换率(Ka)和Ka/Ks 值得统计结果见图4。所有蛋白编码基因的Ka/Ks 值都小于1,即同义替换率Ks 值都大于非同义替换率Ka 值,说明13 个蛋白编码基因都受到了纯化选择的影响。对同义替换率Ks 来说,nad3的值最大,nad4的值最小;对非同义替换率Ka 来说,atp8的值最大,cox1的值最小。Ka/Ks 的比较结果显示,cox1的值最小,进化速率最慢;atp8的值最大,进化速率最快。
图4 盲蝽科昆虫蛋白编码基因同义替换率及非同义替换率Fig.4 The Ka,Ks and Ka/Ks values of protein-coding genes of Miridae
以网蝽科Pseudacysta perseae为外群,采用13个线粒体蛋白编码基因构建了盲蝽科14 属的系统发育关系。基于最大似然法(ML)和贝叶斯法(BI)构建的系统发育树结果一致,且节点支持率均较高(PP=1. 00/BP>73)。结果表明,整个系统发育树分成3 支,网蝽科作为外群为一支,盲蝽亚科为一支,叶盲蝽亚科为一支。在盲蝽亚科中,狭盲蝽族Stenodemini 和盲蝽族Mirini 互为姐妹群关系,盲蝽族内系统发育关系为:(Apolygus+Lygus)+(Adel⁃phocoris+Creontiades)。叶盲蝽亚科中,叶盲蝽族没有形成单系群,该类群的系统发育关系有待进一步论证。
昆虫线粒体蛋白编码基因,在适应性进化的过程中形成了本身独有的一些特征,再加上其包含大量的遗传信息,已成为昆虫系统进化和遗传分化研究的重要分子标记[17]。另外,昆虫蛋白编码基因在密码子使用上也有一定的偏好性,不同基因的核苷酸进化速率也有差别,这些信息对物种特殊功能进化的研究有着重要的作用[18]。
盲蝽科线粒体基因组的结构较保守,蛋白编码基因的排列与其他异翅亚目昆虫的原始排布一致。在密码子的使用上,ATN 是盲蝽科线粒体蛋白编码基因偏好使用的起始密码子,没有发现TTG 和GTG 起始密码子。在终止密码子的使用中,盲蝽科线粒体蛋白编码基因使用TAA 和T 的频率较高,不完整的终止密码子在多聚腺苷酸化作用下,转录为mRNA 后补齐变成完整的终止密码子[19]。同义密码子使用频率的统计结果表明,使用频率较高的同义密码子大部分以A/T 结尾,也从另一方面体现了线粒体基因组的高AT 特性[20]。同时,密码子的偏好使用也体现了线粒体基因组的保守性[21]。盲蝽科昆虫线粒体蛋白编码基因的AT 含量高达75. 5%,显著高于GC 的含量,ATGC 碱基含量不均衡。
13 个蛋白编码基因中,有些基因进化速率适中,适合作为DNA 条形码分子标记来鉴定物种,有些基因的进化速率较快,可以作为种下阶元的亲缘关系研究[22]。对盲蝽科昆虫的核苷酸进化速率分析表明,cox1的进化速率较慢,atp8的进化速率最快,前者的同义替换率相对较高,说明在其进化过程中受到了更强的纯化选择作用,与先前有关异翅亚目昆虫的研究保持一致。
通过不同方法构建的盲蝽科系统发育关系,ML 和BI 发育树均支持盲蝽亚科和叶盲蝽亚科的单系性,且盲蝽亚科中的狭盲蝽族Stenodemini 和盲蝽族Mirini 也为单系,与张乐采用支序分类研究盲蝽亚科的结果一致[23]。 叶盲蝽亚科中,叶盲蝽族Phylini 和奇盲蝽族Leucophoropterini 的单系性没有得到支持,由于奇盲蝽族线粒体基因组数据太少,此结果有待进一步论证。盲蝽科属级阶元系统发育关系的研究甚少,Wang 对其中5 属的研究结果Nesidiocoris+ (Trigonotylus+ (Adelphocoris+(Apolygus+Lygus)))与本研究结果一致[24]。盲蝽科昆虫的种类众多,但是其体型小且柔弱,标本极易破坏,所以相较异翅亚目其它类群,该科系统学研究相对薄弱,分子数据也积累较少。随着测序技术的发展,今后增加更多的线粒体基因组数据,将会对盲蝽科的分类和遗传进化有重要意义。
图5 基于13 个PCG 基因构建的盲蝽科系统发育树(分支节点处所示为贝叶斯后验概率/Bootstrap 值)Fig.5 The phylogenetic tree of Miridae based on PCGs dataset.(Bayesian posterior Probability/ Bootstrap value on the left/right branch node)
本研究选取盲蝽科2 亚科14 属的代表物种,旨在对线粒体基因组中13 个蛋白质编码基因的碱基组成、密码子使用以及核苷酸进化速率进行比较分析。盲蝽科线粒体蛋白编码基因序列的碱基组成,具有明显的AT 偏好性。在同义密码子的使用中,第3 位是A/T 结尾的密码子使用频率较高。盲蝽科昆虫都以ATN 作为起始密码子,终止密码子偏好使用TAA 密码子。利用Ka/Ks 比值对比蛋白编码基因的进化速率差异,cox1的进化速率最慢,atp8的进化速率最快。ML 和BI 系统发育分析结果一致,与传统形态学分类基本一致。此项研究将为该科昆虫的分子进化信息增添有益的数据,同时也为后续的盲蝽科系统发生关系研究奠定理论基础。