2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析

2018-05-14 08:59王鹏飞高欢欢苏玲蒋锡龙吴新颖杨立英任凤山王咏梅
安徽农业科学 2018年1期
关键词:基因簇密码子果蝇

王鹏飞 高欢欢 苏玲 蒋锡龙 吴新颖 杨立英 任凤山 王咏梅

摘要 [目的]分析2种果蝇( Drosophila melanogaster与D.sechellia )线粒体基因组及NADH dehydrogenase subunit基因的密码子偏好性。[方法]利用CodonW1.4计算密码子偏好性参数的相关参数。[结果]2种果蝇线粒体中蛋白编码基因的AT含量比GC含量更高。 D.sechellia 的线粒体基因组的密码子偏好性比黑腹果蝇 D.melanogastera 的线粒体基因组的密码子偏好性略强。2种果蝇线粒体基因组中各蛋白编码基因CDs中,RSCU值大于1的密码子都是以A或U结尾,而并不以C或G结尾。2种果蝇线粒体基因组及NADH dehydrogenase subunit基因簇基因的密码子偏好性都可能受到突变压力影响。 D.melanogaster 线粒体基因组中不存在密码子CGC。NADH dehydrogenase subunit 3基因的密码子偏好性可能比其他NADH dehydrogenase subunit基因更高。此外,尽管大部分NADH dehydrogenase subunit基因偏爱使用A或U结尾的密码子,但是在NADH dehydrogenase subunit 6基因中,有2个AU结尾的密码子(AGA、GCA)的RSCU也为0。[结论]该研究结果为2种果蝇线粒体的进化研究提供了新观点。

关键词 果蝇;葡萄;线粒体;密码子偏好性;NADH dehydrogenase subunit;RSCU

中图分类号 S188文献标识码 A文章编号 0517-6611(2018)01-0096-06

Abstract [Objective]To analyze codon usage bias in Drosophila melanogaster and D. sechellia mitochondrion and NADH dehydrogenase subunit gene family. [Method] We calculated the related codon usage bias parameter using the software CodonW1.4. [Result] We found the AT content was higher than the CG content of the protein coding genes of the two kinds of fruit fly mitochondrion. The codon usage bias of D. sechellia mitochondrion was stronger than the codon usage of D. melanogastera . The codons whose RSCU was more than 1 end with “A or U” rather than end with “C or G” in the two kinds of fruit fly mitochondrion. The codon usage bias of NADH dehydrogenase subunit gene family of the two kinds of fruit fly mitochondrion may be affected by mutation pressure. D. melanogastera mitochondrion didnt contain the codon “CGC”. The codon usage bias of NADH dehydrogenase subunit 3 gene was stronger than other NADH dehydrogenase subunit gene family members. Additionally, though NADH dehydrogenase subunit gene family prefers using the codons end with “A or U”, the RSCU of codons AGA and GCA were both 0. [Conclusion] The study provided the new views for research of evolution of the two kinds of fruit fly mitochondrion.

Key words Fruit fly;Grape;Mitochondrion;Codon usage bias;NADH dehydrogenase subunit;RSCU

果蠅是一种体长约3 mm的小型昆虫,属于双翅目(Diptera)、果蝇科(Drosophilidae),在全世界各地均有发现[1-2]。果蝇的生命周期短,但繁殖力极强[1],其主要以腐烂水果为食,对葡萄、樱桃、杨梅等果树的危害极大[3],果蝇也是葡萄酸腐病的主要传播者。果蝇的种类很多,包括 Drosophila melanogaster(黑腹果蝇)、D.sechellia、D.pseudoobscura、D.nasuta、D.obscura、D.navojoa、D.suzukii(斑翅果蝇)等。目前公布的基因组包括D.melanogaster、D.sechellia、D.pseudoobscura、D.nasuta等20种,但是大多没有拼接完全,且对于果蝇基因组的比较分析较少。 目前,D.melanogaster与D.sechellia 的线粒体基因组序列已经公布[4-6],这为果蝇线粒体(mitochondrion)基因组的比较分析提供了基础。昆虫的线粒体基因组与其他动物的线粒体基因组一样,含有37个基因,其中蛋白编码基因仅有13个,这13个基因中包括7个NADH dehydrogenase subunit基因,ATP合成酶基因 ATP6、ATP8,细胞色素氧化酶基因COX1、COX2、COX3等[7]。

蛋白编码基因的密码子包括64个三联密码子,这些三联密码子有的属于同义密码子,即可以编码相同的氨基酸。这64种三联密码子一共可以编码20种氨基酸。在基因组或基因中,不同同义密码子的被使用频率是不同的,这就是所谓的密码子使用的偏好性[8- 9]。突变压力(mutation pressure)和自然选择(nature selective pressure)被认为是造成这种密码子使用偏好性的2种最主要的原因[8]。1981年,Kimura[10]引入密码子使用偏好性(codon usage bias)这一概念来衡量密码子的使用频率。如果编码基因的密码子使用偏好性与GC含量相关,则表明密码子的使用偏好性受突变压力影响[11-12];反之,則说明密码子的使用偏好性是受自然选择压力影响的[13-14]。

目前,果蝇线粒体的密码子偏好性及不同果蝇线粒体密码子偏好性的比较工作尚未开展,而该工作将为果蝇线粒体的分子进化提供一点理论基础。因此,对2种果蝇的线粒体基因组密码子偏好性进行了分析,并对二者的线粒体密码子偏好性进行了综合比较。NADH dehydrogenase是由线粒体中各个亚基基因编码的亚基组成的[15],在果蝇或其他昆虫中,NADH dehydrogenase subunit基因家族是线粒体中最大的家族[7]。为了了解果蝇线粒体中NADH dehydrogenase subunit类基因的密码子偏好性如何,并且比较所有的NADH dehydrogenase subunit基因的密码子偏好性及其所受的选择压力,笔者研究了2种果蝇中NADH dehydrogenase subunit基因簇的密码子偏好性,以及不同NADH dehydrogenase subunit基因的基因特异的密码子偏好性,以期为2种果蝇线粒体的分子进化提供新观点。

1 材料与方法

1.1 2种果蝇线粒体基因组数据的获得

黑腹果蝇 D.melanogaster 的线粒体基因组及其蛋白编码基因信息下载于NCBI genome database(https://www.ncbi.nlm.nih.gov/nuccore/NC_024511.2)。果蝇 D.sechellia 的线粒体基因组及其蛋白编码基因信息来源于NCBI genome database(https://www.ncbi.nlm.nih.gov/nuccore/NC_005780.1)。

1.2 密码子使用偏好性参数的计算

利用软件CodonW1.4计算同义密码子相对使用频率(relative synonymous codon usage,RSCU),最优密码子使用频率(frequency of optimal codons,FOP),GC3s(GC3s为密码子第3位GC含量),密码子偏好指数(codon bias index,CBI),密码子适应指数(codon adaptation index,CAI)等参数。

1.3 相关性分析

为了研究密码子使用偏好性所受到的影响因素,笔者还分析了FOP、CBI、CAI与外显子GC含量和外显子GC3s的相关性。采用软件JMP9.0(SAS Institute,Inc.,Cary,NC,USA)进行相关性分析,采用T-test 双尾检验进行显著性分析。

2 结果与分析

2.1 2种果蝇线粒体基因组的密码子偏好性

结果显示,2个果蝇线粒体基因组中都有13个基因,包括NADH dehydrogenase subunit1、2、3、4、4L、5、7基因, COX1~3,ATP6,ATP8以及CYTB, 且13个基因的排序是一致的。2个果蝇线粒体基因组中13个基因的CDs序列被用于计算密码子偏好性指数。 D.melanogaster 的线粒体基因组中全部CDs的平均GC含量是21.53%,而全部CDs的平均GC3s(同义密码子第3位GC)含量仅有5.2%。 D.sechellia 的线粒体基因组中全部CDs的平均GC含量是22.05%,而全部CDs的平均GC3s含量仅有7.97%。这2种果蝇线粒体中蛋白编码基因的GC含量均低于50%,说明2种果蝇线粒体中蛋白编码基因的AT含量更高。最优密码子使用频率(frequency of optimal codons,FOP)、密码子偏好指数(codon bias index,CBI)、密码子适应指数(codon adaptation index,CAI)等都是衡量密码子偏好性的一些参数[16]。结果显示 D.melanogaster 的线粒体基因组中全部CDs的FOP、CBI、CAI这3个指数分别略低于 D.sechellia 的线粒体基因组中全部CDs的FOP、CBI、CAI数值(表1)。这说明 D.sechellia 的线粒体基因组的密码子偏好性比 D.melanogastera 的线粒体基因组的密码子偏好性略为强烈。

为揭示密码子使用偏好性是否受到突变压力或者自然选择的影响,分析了FOP、CAI、CBI与外显子GC含量和外显子GC3s含量的相关性。结果显示,在 D.melanogaster 的线粒体基因组中,FOP与GC含量相关性并不显著( P =0.71)。CAI,CBI与GC含量呈正相关(CAI与GC含量的相关系数 r=0.48,P <0.01;CBI与GC含量的相关系数 r=0.17,P <0.01)(表2)。FOP,CAI与GC3s含量呈正相关(FOP与GC3s含量的相关系数 r=0.30,P <0.01;CAI与GC3s的相关系数 r=0.66,P <0.01)。CBI与GC3s含量虽然是显著正相关,但是相关系数较低( r<0.10,P <0.01)。

由表2可知,在 D.sechellia 的线粒体基因组中,FOP与GC含量相关性不显著( P =0.48)。虽然CAI与GC含量呈显著正相关,但是相关系数较低( r<0.10,P <0.01)。CBI与GC含量呈正相关( r=0.26,P <0.01)。FOP、CBI与GC3s含量呈正相关(FOP与GC3s含量的相关系数 r=0.30,P <0.01;CAI与GC3s的相关系数 r=0.65,P <0.01)。CBI与GC3s含量虽然呈显著正相关,但是相关系数较低( r<0.10,P<0.01)。

在 D.melanogaster 的线粒体基因组中,27个密码子的同义密码子相对使用频率(relative synonymous codon usage,RSCU)大于1。由图1可知,这些RSCU值>1的密码子都是以A或U结尾的。密码子GCU(编码丙氨酸)的RSCU值为3.17,是最大的,而密码子AGC(编码丝氨酸)的RSCU值为0.04,仅大于密码子CGC(编码精氨酸)。密码子CGC的RSCU值为0,说明在果蝇 D.melanogaster 的线粒体基因组中,这个密码子是没有的,而密码子GCU在果蝇 D.melanogaster 的线粒体基因组中的使用频率最高,密码子AGC的使用频率最低。

在 D.sechellia 的線粒体基因组中,25个密码子的RSCU大于1。与 D.melanogaster 的线粒体基因组相同,全部这些RSCU值>1的密码子都是以A或U结尾的。密码子UUA(编码亮氨酸)的RSCU值为3.95,是最大的,而密码子GGC(甘氨酸)的RSCU值为0.03,是最小的。密码子UUA在果蝇 D.sechellia 的线粒体基因组中的使用频率最高,密码子GGC的使用频率最低。

2.2 2种果蝇NADH dehydrogenase subunit基因簇的密码子偏好性

在 D.melanogaster 的NADH dehydrogenase subunit基因簇中,只有ND4和ND4L是以ATG为起始密码子。 D.melanogaster 的NADH dehydrogenase subunit基因簇中CDs的平均GC含量是18.57%,而CDs的平均GC3s(同义密码子第3位GC)含量仅有4.46%,都低于线粒体基因组中全部CDs的平均数值。 D.melanogaster 的NADH dehydrogenase subunit基因簇中CDs的平均CBI值略高于线粒体基因组中全部CDs的平均数值,而FOP和CAI的平均值均略低于线粒体基因组中全部CDs的平均数值。在 D.sechellia 的NADH dehydrogenase subunit基因簇中,也只有ND4和ND4L是以ATG为起始密码子。 D.sechellia 的NADH dehydrogenase subunit基因簇中CDs的平均GC含量是19.13%,而CDs的平均GC3s(同义密码子第3位GC)含量仅有5.09%,都略低于线粒体基因组中全部CDs的平均数值。 D.sechellia 的NADH dehydrogenase subunit基因簇中CDs的平均FOP、CAI和CBI值都略低于线粒体基因组中全部CDs的平均数值,但是均略高于 D.melanogaster 的NADH dehydrogenase subunit基因簇中CDs的平均FOP、CBI和CAI值(表3)。

由表4可知,在 D.melanogaster 的NADH dehydrogenase subunit基因簇中,FOP、CAI、CBI与GC含量呈显著正相关(FOP与GC含量的相关系数 r=0.77,P <0.01;CAI与GC含量的相关系数 r=0.58,P <0.01;CBI与GC含量的相关系数 r=0.76,P <0.01)。FOP、CAI、CBI与GC3s含量也呈正相关(FOP与GC3s含量的相关系数 r=0.35,P <0.01;CAI与GC3s含量的相关系数 r=0.41,P <0.01;CBI与GC3s含量的相关系数 r=0.30,P <0.01),但相关系数都不如其与GC含量的相关系数高。

在 D.sechellia 的NADH dehydrogenase subunit基因簇中,FOP、CAI、CBI与GC含量呈显著正相关(FOP与GC含量的相关系数 r=0.70,P <0.01;CAI与GC含量的相关系数 r=0.44,P <0.01;CBI与GC含量的相关系数 r=0.69,P <0.01)。FOP、CAI、CBI与GC3s含量也呈显著正相关(FOP与GC3s含量的相关系数 r=0.66,P <0.01;CAI与GC3s含量的相关系数 R=0.41,P <0.01;CBI与GC3s含量的相关系数 r=0.66,P <0.01)。

在 D.melanogaster 的NADH dehydrogenase subunit基因簇中,25个密码子的同义密码子相对使用频率大于1。全部这些RSCU值>1的密码子都是以A或U结尾的。密码子CUG(亮氨酸)、CCG(脯氨酸)、CAC(组氨酸)、CGC(精氨酸)的RSCU值为0,说明在果蝇 D.melanogaster 的NADH dehydrogenase subunit基因簇中,这些密码子不被使用。

在 D.sechellia 的NADH dehydrogenase subunit基因簇中,22个密码子的RSCU值>1。与 D.melanogaster 的NADH dehydrogenase subunit基因簇相同,全部这些RSCU值>1的密码子都是以A或U结尾的(图2)。

2.3 果蝇中各类NADH dehydrogenase subunit基因的密码子偏好性

比较果蝇中各类NADH dehydrogenase subunit基因的密码子偏好性指数,结果显示NADH dehydrogenase subunit 1基因的GC含量最高(21.8%),而NADH dehydrogenase subunit 6的GC含量最低(15.3%)。NADH dehydrogenase subunit 2基因的GC3s含量最高(16.7%),NADH dehydrogenase subunit 6基因的GC3s含量最低(2.9%)。NADH dehydrogenase subunit 1基因的FOP值最高(0.258),NADH dehydrogenase subunit 4L基因的FOP值最低(0.138)。NADH dehydrogenase subunit 3基因的CBI和CAI值最高(CBI=-0.213;CAI=0.138),NADH dehydrogenase subunit 4L基因的CBI和CAI值最低(CBI=-0.384;CAI=0.077)(表5)。

在NADH dehydrogenase subunit 1基因中,21个密码子的同义密码子相对使用频率大于1。全部这些RSCU值>1的密码子都是以A或U结尾的。20个密码子的RSCU值为0,说明在果蝇的NADH dehydrogenase subunit 1基因中,这些密码子不被使用,而这些密码子都是以C或G结尾的。 在NADH dehydrogenase subunit 2基因中,25个密码子的同义密码子相对使用频率大于1。全部这些RSCU值>1的密码子都是以A或U结尾的。8个密码子的RSCU值为0,这些密码子都是以C或G结尾的。在NADH dehydrogenase subunit 3基因中,20個密码子的同义密码子相对使用频率大于1。全部这些RSCU值>1的密码子都是以A或U结尾的。23个密码子的RSCU值为0,这些密码子都是以C或G结尾的。在NADH dehydrogenase subunit 4基因中,24个密码子的RSCU值>1。全部这些RSCU值>1的密码子都是以A或U结尾的。10个密码子的RSCU值为0,这些密码子都是以C或G结尾的。在NADH dehydrogenase subunit 4L基因中,24个密码子的RSCU值>1。全部这些RSCU值>1的密码子都是以A或U结尾的。27个密码子的RSCU值为0,这些密码子都是以C或G结尾的。在NADH dehydrogenase subunit 5基因中,23个密码子的RSCU值>1。全部这些RSCU值>1的密码子都是以A或U结尾的。8个密码子的RSCU值为0,这些密码子都是以C或G结尾的。在NADH dehydrogenase subunit 6基因中,23个密码子的RSCU大于1。全部这些RSCU值>1的密码子都是以A或U结尾的。27个密码子的RSCU值为0,这些密码子中,除了密码子AGA(编码精氨酸)、GCA(编码丙氨酸),其余都是以C或G结尾的(图3)。

3 讨论

研究显示,2种果蝇线粒体基因组中各蛋白编码基因CDs的FOP值与各蛋白编码基因CDs的GC含量都不相关,FOP是最优密码子的使用频率。后面关于较为高频密码子(RSCU>1)[17]的分析结果显示,2种果蝇线粒体基因组中各蛋白编码基因CDs中,RSCU值大于1的密码子都是以A或U结尾,而并不以C或G结尾。这可能是各蛋白编码基因CDs的FOP值与各蛋白编码基因CDs的GC含量都不相关。但密码子偏好指数(CBI),密码子适应指数(CAI)与GC含量呈正相关,说明2种果蝇线粒体基因组的密码子偏好性可能受到突变压力影响[11-12]。 在2种果蝇的线粒体基因组中,编码全部20种氨基酸的密码子都存在,但是64种密码子中的CGC在 D.melanogaster 中是不存在的。 D.sechellia 线粒体基因组中含有全部64种密码子,但是其高频和低频使用的密码子与 D.melanogaster 是不一样的。2种果蝇的高频密码子都偏好以A或U结尾,而不偏好使用C或G结尾。相反,很多低频密码子是以GC结尾的。在2种果蝇中,NADH dehydrogenase subunit基因簇基因的GC含量,GC3s含量以及其他密码子偏好性指数均略低于各自线粒体基因组的GC含量,GC3s含量以及其他密码子偏好性指数。但是,在2种果蝇中,NADH dehydrogenase subunit基因簇基因的FOP、CBI、CAI与GC、GC3s的相关性,都比线粒体全部蛋白编码基因的FOP、CBI、CAI与GC、GC3s的相关性更高。这说明在2个果蝇中,NADH dehydrogenase subunit基因簇基因的密码子偏好性都可能受到突变压力影响[11-12]。 相比较只有1种密码子CGC在 D.melanogaster 中线粒体基因组不存在,在黑腹果蝇的NADH dehydrogenase subunit基因簇基因中,很多GC结尾的密码子是不被使用的。在不同的果蝇NADH dehydrogenase subunit基因中,NADH dehydrogenase subunit 3基因的CBI和CAI的平均值比其他NADH dehydrogenase subunit基因都高,而其平均FOP值也是第二高的。这说明NADH dehydrogenase subunit 3基因的密码子偏好性可能比其他NADH dehydrogenase subunit基因更高[16]。此外,尽管大部分NADH dehydrogenase subunit基因偏爱使用A或U结尾的密码子,但是在NADH dehydrogenase subunit 6基因中,有2个AU结尾的密码子(AGA、GCA)的RSCU也为0。

参考文献

[1] 万永奇,谢维.生命科学与人类疾病研究的重要模型——果蝇[J].生命科学,2006,18(5):425-429.

[2] 林清彩,王圣印,周成刚,等.铃木氏果蝇研究进展[J].江西农业学报,2013,25(6):75-78.

[3] 高欢欢,翟一凡,陈浩,等.斑翅果蝇和黑腹果蝇侵害的葡萄微生物多样性的动态变化[J].应用昆虫学报,2017,54(2):309-316.

[4]RUBIN G M,YANDELL M D,WORTMAN J R,et al.Comparative genomics of the eukaryotes[J].Science,2000,287(5461):2204-2215.

[5] SMITH C D,SHU S Q,MUNGALL C J,et al.The Release 5.1 annotation of Drosophila melanogaster heterochromatin[J].Science,2007,316(5831):1586-1591.

[6] CLARK A G,AGUADE M,PORCELLI D.Evolution of genes and genomes on the Drosophila phylogeny[J].Nature,2007,450(7167):203-218.

[7] 孫铮.昆虫基因组密码子使用及进化分析[D].泰安:山东农业大学,2009.

[8]HERSHBERG R,PETROV D A.Selection on codon bias[J].Annu Rev Genet,2008,42:287-299.

[9] PLOTKIN J B,KUDLA G.Synonymous but not the same:The causes and consequences of codon bias[J].Nat Rev Genet,2011,12(1):32-42.

[10] KIMURA M.Possibility of extensive neutral evolution under stabilizing selection with special reference to nonrandom usage of synonymous codons[J].Proceedings of the national academy of sciences of the USA,1981,78(9):5773-5777.

[11] CHEN S L,LEE W,HOTTES A K,et al.Codon usage between genomes is constrained by genome-wide mutational processes[J].Proceedings of the national academy of sciences of the USA,2004,101(10):3480-3485.

[12] KNIGHT R D,FREELAND S J,LANDWEBER L F.A simple model based on mutation and selection explains trends in codon and amino-acid usage and GC composition within and across genomes[J].Genome biology,2001,2(4):1-13.

[13] GHAEMMAGHAMI S,HUH W K,BOWER K,et al.Global analysis of protein expression in yeast[J].Nature,2003,425(6959):737-741.

[14] INGVARSSON P K.Gene expression and protein length influence codon usage and rates of sequence evolution in Populus tremula [J].Molecular biology and evolution,2007,24(3):836-844.

[15] HATEFI Y,RAGAN C I,GALANTE Y M.The enzymes and the enzyme complexes of the mitochondrial oxidative phosphorylation system[M]//MARTONOSI A.The enzymes of biological membranes.2nd ed.New York:Plenum Press,1985:1-70.

[16] GUO Y,LIU J,ZHANG J F,et al.Selective modes determine evolutionary rates,gene compactness and expression patterns in Brassica [J].Plant J,2017,91(1):34-44.

[17] SHARP P M,LI W H.The codon adaptation index:A measure of directional synonymous codon usage bias,and its potential applications[J].Nucleic Acids Res,1987,15(3):1281-1295.

猜你喜欢
基因簇密码子果蝇
果蝇遇到危险时会心跳加速
2021年大樱桃园果蝇的发生与防控
密码子与反密码子的本质与拓展
冬瓜高通量转录组测序及分析
小果蝇助力治疗孤独症
基于改进果蝇神经网络的短期风电功率预测
10种藏药材ccmFN基因片段密码子偏好性分析
肠球菌万古霉素耐药基因簇遗传特性
海洋稀有放线菌 Salinispora arenicola CNP193 基因组新颖PKS 和NRPS基因簇的发掘
茶树CsActin1基因密码子偏性分析