蝎蝽次目线粒体蛋白质编码基因的比较研究

2020-07-09 02:57张丹丽李敏张苗苗田菁李悦锐张虎芳
关键词:密码子核苷酸线粒体

张丹丽 ,李敏 ,张苗苗 ,田菁 ,李悦锐 ,张虎芳

(1.太原师范学院生物系,山西晋中030619;2.忻州师范学院生物系,山西忻州034000)

线粒体拥有独立的遗传物质,即线粒体基因组,其特点为:母系遗传、结构保守紧凑且进化速率快,突变速率适中,具有一定多态性,可作为标记基因使用。随着高通量测序技术的发展,线粒体基因组很容易获得全长或接近全长的序列,全面而完善的线粒体全基因组数据库能够为系统发育、进化及其生理功能研究提供重要的支持,因此近年来线粒体基因组被广泛应用于系统发育、种群遗传学、谱系地理学和进化生物学的研究[1]。昆虫的线粒体基因组为双链环状DNA,14~20kb,包括13 个蛋白质编码基因(PCG,protein coding gene)、22 个转运 RNA 基因(tRNA)、2 个核糖体RNA 基因(12S rRNA 和 16S rRNA)和 1 个控制区(control region)。线粒体13 个蛋白质编码基因为COI、COII 和 COIII(细 胞 色 素 氧 化 酶 的 3 个 亚基)、CytB(细胞色素 b)、ATP6 和 ATP8(ATP 酶的 2 个亚基)、ND1~ND6 及 ND4L(NADH 脱氢酶的7 个亚基)。蛋白质编码基因是分子系统学研究中使用的最为广泛的分子标记。

蝎蝽次目的分类地位为昆虫纲半翅目异翅亚目,共分为6 总科11 科。以往蝎蝽次目的13 个蛋白质编码基因主要是用于系统发育研究[2~5],而对13 个蛋白质编码基因的比较研究相对较少。本研究选取蝎蝽次目类群共11 科,综合蝎蝽次目线粒体基因组中所有的PCG 信息,进行比较研究和系统发育研究。

本研究选取半翅目异翅亚目蝎蝽次目6 总科11 科 14 种为研究对象,通过 GenBank 获取 13 个PCG 序列,对蝎蝽次目11 科PCG 的密码子使用情况、A+T 含量、氨基酸序列和核苷酸序列信息位点以及核苷酸进化速率进行比较研究。系统发育的外群为头喙亚目1 种和黾蝽次目2 种,分别基于最大似然法(Maximum likelihood,ML)和贝叶斯法(Bayesian inference,BI)构建蝎蝽次目总科及科间的系统发育关系。

1 材料与方法

1.1 材料

本研究选取半翅目异翅亚目蝎蝽次目6 总科11 科14 种为研究对象,通过GenBank 获取所有14个种的13 个PCG 基因序列如表1 所示。

表1 本研究所选物种Table 1 List of species used in this study

1.2 分析方法

在 NCBI(https://www. ncbi. nlm. nih. gov/)中下载蝎蝽次目11 科14 个代表种全线粒体基因组序列,获取代表种的13 个PCG 基因序列。统计蝎蝽次目起始密码子和终止密码子的使用频率。将每一个同源 PCG 基因分别导入 MEGA 6.0[6]进行比对,首先去掉终止密码子,将PCG 转换为氨基酸再进行Muscle 比对,并将各个基因序列取齐,最后利用 BioEdit 7.1[7]将 13 个 PCG 基因的比对数据串联起来,分别保存核苷酸串联序列和氨基酸串联序列。用MEGA 6.0 选取核苷酸串联序列中的第一位、第二位和第三位碱基序列。在BioEdit 7.1 中计算核苷酸串联序列第一位、第二位、第三位和一二三位密码子A+T 含量。在MEGA 6.0中计算核苷酸串联序列和氨基酸串联序列的保守位点、信息简约位点和自裔位点。用软件DnaSP 6.0[8]计算蛋白质编码基因每个位点的非同义替代率(nonsynonymous substitution rate,Ka)和同义替代率(synonymous substitution rate,Ks),由此分析每个基因的核苷酸进化速率Ka/Ks。在RAxML 8.2.8[9]中利用最大似然法构建系统发育树;在MrBayes 3.2.5[10]中利用贝叶斯法构建系统发育树 。 用 jModelTest 2.1.1[11]预 测 进 化 模 型 ,为GTR+I+G 模型。

2 结果与分析

2.1 PCG 起始密码子和终止密码子使用情况

本研究统计了蝎蝽次目11 科14 个代表种的线粒体基因组的13 个PCG 的起始密码子(图1)。基因ND4L 和ND5 使用的起始密码子种类最为丰富,包括 6 类 ATG、ATA、ATT、ATC、TTG 和GTG,其 次 是 COI、ND1、ND2 和 ND6。 ATP6、COIII 和CytB 仅使用ATG 作为起始密码子。除了 ND4L 使用 ATG、TTG 和 GTG 同等数量外,其余每个基因内都存在一种使用最为频繁的起始密码子,使用ATG 最频繁的基因为ATP6、COIII、CytB、ND2、ND4 和 ND5,使用 ATA 最频繁的基因为COII 和ND3,使用ATT 最为频繁的基因为ATP8、ND1 和 ND6,使用 TTG 最为频繁的基因为COI。所有蝎蝽次目使用的6 种起始密码子中,ATG 的使用频率最高,其次为ATA 和ATT,TTG 和GTG 的使用频率最低。

图1 起始密码子Fig.1 Start codon

图2 终止密码子Fig.2 Stop codon

本研究统计了蝎蝽次目11 科14 个代表种的线粒体基因组的13 个PCG 的终止密码子使用情况(图2)。发现多数基因使用完整的终止密码子TAA(79)和不完整的终止密码子 T(80),ATP8仅使用TAA 为终止密码子。使用TAA 最频繁的基因为 ATP8、ND1、ND2、ND4L 和 ND6,其余基因均使用T 最为频繁。所有蝎蝽次目使用的4 种终止密码子中,TAA 和T 的使用频率最高,其次为TAG,TA 的使用频率最低。

2.2 PCG 核苷酸组成A+T 含量分析

在昆虫线粒体基因组中,碱基组成的偏好性也导致了蛋白质编码基因密码子使用的偏好性,通常使得线粒体基因组更偏向于使用富含AT 的密码。在蝎蝽次目14 个种内,每一位密码子的A+T 碱基组成含量表明第三位密码子的AT 含量最高,远远高于第一位与第二位密码子。PCG123 位AT 含量仅低于第三位密码子,高于第一位和第二位密码子。

2.3 PCG 氨基酸串联序列和核苷酸串联序列信息位点分析

本研究对蝎蝽次目昆虫13 个PCG 氨基酸串联序列和核苷酸串联序列的保守位点、简约信息位点和自裔位点进行了统计分析(图4)。在氨基酸和核苷酸序列中,COI 的保守位点数最多,其次为 CytB 和 ND5,ATP8 和 ND4L 的保守位点数最少;ND5 的简约信息位点数最多,其次为ND2 和ND4。自裔位点数在氨基酸序列中ND4 最多,ATP8 为最少;在核苷酸序列中ND5 最多,ATP8为最少。保守位点数大于简约信息位点数的基因有 COI、COIII、CytB 和 ND1,其余基因均为简约信息位点数大于保守位点数。自裔位点数均小于保守位点和简约信息位点数。

2.4 PCG 核苷酸进化速率分析

通过对非同义替代率(Ka)、同义替代率(Ks)和Ka/Ks 的统计来比较线粒体基因组13 个PCG在蝎蝽次目昆虫中进化速率的差异,分析结果表明:进化速率最快的基因为ATP8,ND6 基因次之,进化速率最慢的基因为COI,其结果见图5。由图5 可见,它各基因的进化速率依次为:ND2 >ND4L >ND4 >ND5 >ATP6 >ND3 >NDl >COII >CytB >COIII。这与之前关于 13 个蛋白质编码基因的进化速率的研究中ATP8 基因进化速率最快而 COI 进化最慢的结果是一致的[12~14],并且所有13 个蛋白质编码基因的Ka/Ks 值都小于1,表明可能存在净化选择作用[15]。

2.5 系统发育分析

系统发育结果(图 6)显示,ML 和 BI 算法所获得的系统发育树拓扑结构一致,蝎蝽次目各个总科的关系得到了很好的解析,并且有很高的节点支持率。蝎蝽次目各个总科均为单系,基部分支为划蝽总科,蟾蝽总科是蝎蝽总科的姐妹群,仰泳蝽总科和固蝽总科为姐妹群关系,其他分支关系如下:(划蝽总科+((蟾蝽总科+蝎蝽总科)+(潜蝽总科+(仰泳蝽总科+固蝽总科))))。

图3 PCG 核苷酸序列第一位(PCG-1)、第二位(PCG-2)、第三位(PCG-3)和一二三位(PCG)A+T 含量Fig.3 The A+T content of the first(PCG-1),second(PCG-2),third(PCG-3)codon of nucleotide sequence and all sites(PCG)of nucleotide sequence

图4 PCG 氨基酸序列和核苷酸序列保守位点(C)、简约信息位点(P)和自裔位点(S)(左为氨基酸,右为核苷酸)Fig.4 The conserved sites(C),parsimony informative sites(P)and singleton sites(S)(amino acid left,nucleotide sequence right)

3 讨论

图5 13 个PCG 核苷酸替代速率Fig.5 Evolutionary rates of 13 PCGs in Nepomorpha

图6 基于13 个PCG 基因构建的ML 和BI 系统发育树(分支节点左为Bootstrap 值,右为贝叶斯后验概率)Fig.6 Phylogenetic tree inferred from PCG123 constructed using ML and BI analysis(Bootstrap value on the left branch node,Bayesian posterior probability on the right branch node)

昆虫线粒体基因组中,通常使用ATN(ATA、ATC、ATT、ATG)、GTG 和 TTG 作为起始密码子。蝎蝽次目昆虫起始密码子使用中,ATN 的使用频率明显高于GTG 和TTG。昆虫线粒体基因组完整的蛋白质终止密码子为TAA 与TAG,但有些昆虫以不完整的T 或TA 作为终止密码子,这种现象在其他昆虫线粒体基因组中也很常见,可能是在转录mRNA 后,3’端的多腺苷酸作用将不完整的终止密码子补充完整[16]。所有蝎蝽次目使用的4 种终止密码子中,TAA 和T 的使用频率最高。在本研究中,蝎蝽次目昆虫线粒体基因组14个种的PCG 中AT 含量均在60%以上,明显高于GC 含量,呈现明显的AT 偏向性,4 种碱基的组成比例并不均衡。蝎蝽次目每一位密码子的碱基组成含量表明第三位密码子的AT 含量最高,远远高于第一位与第二位密码子。这一结果与昆虫纲线粒体基因组的AT 偏向性是一致的[1]。

对蝎蝽次目昆虫13 个PCG 氨基酸串联序列和核苷酸串联序列信息位点的统计分析中,COI的保守位点数最多,其次为 CytB 和 ND5,ATP8 和ND4L 的保守位点数最少,氨基酸和核苷酸序列保守位点数和简约信息位点数呈现一致的趋势。核苷酸进化速率的分析中,ATP8 基因的进化速率最快,COI 基因进化速率最慢,这一结果也反映了ATP8 保守位点数最少,而COI 保守位点数最多。所有13 个蛋白质编码基因的Ka/Ks 值都小于1,表明它们可能经历了净化选择[15]。13 个蛋白质编码基因中ATP8 进化最快而COI 进化最慢的模式与之前的研究是一致的[12~14]。由于线粒体基因编码的蛋白质在氧化磷酸化的过程中起着很重要的作用,为细胞提供所需95%的能量[17]。非同义突变能够通过降低代谢效率而对呼吸链的活动产生影响,它们一般都是有害的[18,19]。为了维持功能的需要,COI 经历了较强的进化压力[20,21],而 ATP8经历了较弱的进化压力以及功能限制,这种代谢限制的放松会使得在线粒体基因组中积累更多的突变。

基于ML 和BI 算法的系统发育结果基本一致,蝎蝽次目各个总科的关系得到了很好的解析,并且具有很高的节点支持率。分支关系如下:(划蝽总科+((蟾蝽总科+蝎蝽总科)+(潜蝽总科+(仰泳蝽总科+固蝽总科))))。这一结果与 Li[3]和Zhang[5]的 研 究 中 基 于 BI 算 法 的 PCG123RT 和PCG12RT 以及基于 ML 算法的 PCG12RT 结果一致,与 Li[3]和 Zhang[5]研究中基于 BI 和 ML 算法的PCG123 结果不一致。本研究仅选择了线粒体基因用于蝎蝽次目的系统发育分析,随着测序技术的发展,大量的核基因序列也越来越容易获得,所以线粒体基因组和核基因的联合使用将会更有效地解析蝎蝽次目各总科及科间的系统发育关系。

4 结论

本研究通过对蝎蝽次目11 科线粒体基因组中13 个蛋白质编码基因的密码子使用情况、A+T 含量、氨基酸序列和核苷酸序列信息位点以及核苷酸进化速率进行比较研究,补充了蛋白质编码基因在蝎蝽次目比较线粒体基因组学研究中的不足,揭示了蛋白质编码基因在比较线粒体基因组学研究中的重要性,为今后异翅亚目乃至昆虫纲的线粒体比较基因组学奠定了基础。

猜你喜欢
密码子核苷酸线粒体
线粒体质量控制在缺血性脑卒中的作用研究进展
特发性肺纤维化中的线粒体质量控制
线粒体自噬在纤维化疾病中作用的研究进展
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
线粒体自噬在蛛网膜下腔出血中的研究进展
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
Acknowledgment to reviewers—November 2018 to September 2019
新型密码子、反密码子、氨基酸对应盘
对“翻译”过程中几个问题的探讨