赵 洋,刘 振,杨培迪,成 杨,杨 阳
密码子偏性分析方法及茶树中密码子偏性研究进展
赵 洋,刘 振,杨培迪,成 杨,杨 阳*
(湖南省农业科学院 茶叶研究所,国家茶树改良中心湖南分中心,湖南 长沙 410125)
密码子偏性指同义密码子的非均衡使用.研究密码子偏性模式、密码子偏性的形成因素具有重要的生物学意义.本文主要阐述了密码子偏性研究常用的衡量参数、密码子使用模式的统计分析方法、影响密码子偏性的因素及茶树中密码子偏性研究进展.
密码子偏性;同义密码子;遗传密码;茶树
生物体内遗传信息传递的一个步骤是mRNA通过翻译合成蛋白质,这一步骤实现不可或缺的一环是以三联体密码子编码蛋白质的氨基酸.编码每一种氨基酸的密码子数1~6个,这种密码子即同义密码子(synonymous codon).不同的物种偏好使用某类特定的同义密码子,这种现象即密码子偏性(codon bias),这些同义密码子的使用次数多于其它同义密码子,被称作最优密码子(optimal codon).上世纪七十年代研究基因的异源表达时,发现了密码子偏性的重要性[1].密码子偏性在生物界是普遍现象,随着分子生物学的发展和大量测序结果公布,以及大量数据库的涌现,对密码子偏性的研究日益增多,涉及分子进化、 翻译调控等研究领域.已有的研究结果表明,不同物种的密码子使用模式不同[2-3],亲缘关系越近的物种,密码子使用模式有可能相似.密码子偏性不仅可以探究基本的生物学问题,应用也较广泛,可用于提高宿主中外源基因的表达量、预测基因功能以及评估基因的表达水平等.
本文主要阐述密码子使用偏性的衡量参数、密码子使用模式的统计分析方法、密码子偏性成因及茶树中密码子偏性相关研究的进展.
1.1相对同义密码子使用度
某密码子使用的次数与其无偏性使用的次数的比值即相对同义密码子使用度(Relative Synonymous Codon Usage,RSCU),无偏性使用次数为该密码子编码的氨基酸所有密码子的平均使用次数,该值排除了氨基酸组成对密码子使用产生的影响,能直观地反映密码子偏性[4].RSCU为1,说明该密码子没有使用偏性; RSCU大于1,说明该密码子使用频率相对更高.这一指标计算简单,对密码子偏性的反映又很直观,是应用最多的参数.
1.2密码子适应性指数
评价同义密码子与密码子最佳使用相符合的程度,常用密码子适应性指数(Codon Adaptation Index,CAI)衡量,实际使用的密码子与最优密码子的RSCU几何平均数的比值即为CAI,使用该方法时需要一个高表达基因做参考[4].该值范围0~1,值越大表示偏性越强,但如果已有的测试基因集合中某些密码子缺乏相应的参考基因集,将会导致CAI值为0.CAI具有物种特异性,常用于预测物种内的基因表达水平,亦可用来估测外源基因表达水平、衡量翻译效率、优化DNA疫苗等,不能用于不同物种间密码子偏性的比较.
1.3有效密码子个数
评价密码子偏离随机选择使用的程度可以采用有效密码子个数(Effective Number of Codon,ENC),该参数反映同义密码子使用的偏好程度[5-6].ENC值在20到61之间,每个氨基酸只使用1个密码子,即密码子偏性最强时, ENC=20;若所有同义密码子都被平均使用,即无密码子偏性时ENC=61.
1.4最优密码子频率
计算最优密码子和同义密码子数量的比值即为最优密码子频率(Frequency of Optimal Codons,FOP).FOP有物种特异性,不适合对不同物种进行比较,最优密码子的确定需要参考基因集合及相应表达信息[7].FOP值0~l,没有使用最优密码子时为0,只使用最优密码子即密码子偏性程度最大时为1.FOP的使用是有限制的,当物种tRNA丰度信息不充分时不能使用.FOP在同一物种内还可反映基因的表达水平,但相关程度不如CAI.
1.5密码子偏性指数
还有一个直接反映密码子偏性的参数是密码子偏性指数(Codon Bias Index,CBI),该参数的计算需事先设定一个最优密码子使用值为参考,由于不同物种中的最优密码子可能存在不同,所以与FOP一样,需要高表达基因的最优密码子作为参考,也不适合在不同物种间进行比较[8].CBI值范围0~1,CBI为1时表示密码子偏性最大,为0时表示无密码子偏性,同义密码子被平均使用.若事先设定的最优密码子的使用次数少于平均使用次数,CBI将为负值.
1.6GC和GC3
GC是指基因中所有密码子G和C的总含量,GC3s是指编码同一氨基酸的同义密码子第3位上G和C的总含量.GC往往反映方向性突变压力的强弱,GC3和密码子偏性有密切关系.
以上方法各有特色,并适用于不同的情况,要特别注意的是CAI、CBI和FOP的计算需要各自的参考数据集,而参考数据集的建立需要已知一定数量的基因及其表达丰度信息.
2.1对应性分析
对应关系分析(Corresponding Analysis, COA)是从多维空间中提取最具影响的轴,将基因和密码子呈现在低维度空间图中,主轴上保留了基因间密码子使用频率的主要变量及信息,分析COA轴分离出的基因可以获取密码子偏性的主要影响因子[9].绝对同义密码子使用频率和相对同义密码子使用频率会被同时使用到,但在使用所有同义密码子的平均值时,会生成与RSCU相对应的轴.使用该方法分析时氨基酸组成对密码子使用的影响被化为主轴上密码子使用变量的对应关系.
2.2ENC绘图分析
研究ENC和GC3之间的分布关系时常使用ENC绘图分析(ENC-plot).ENC-plot中的标准曲线表示当没有选择压力时,密码子偏性仅由突变压力决定;若密码子使用偏性由碱基组成决定,翻译选择压力对密码子偏性没有影响或影响很弱时,代表该基因的点将落在标准曲线附近;若密码子偏性强,而且与基因表达水平存在较强的关系时,ENC值偏小,点则会落在标准曲线下方远处[5].仅凭ENC-plot还不能准确判断选择压力和中性突变的影响,尤其是当选择压力在密码子第3位存在时.
2.3PR2奇偶偏好分析
DNA的两条互补链之间如果不存在选择效应上的偏性或任何突变,则碱基含量A与T相等, G和C相等,这是PR2奇偶偏好分析(PR2-bias Plot Analysis)的理论基础,该法用于分析密码子第三位上发生的奇偶偏性,特别是有4个同义密码子的氨基酸家族.图的中心处A=T且G=C,纵、横坐标均是0.5,从这个中心发出的矢量表示奇偶偏性的方向和程度.
2.4中性绘图分析
除编码精氨酸、亮氨酸、丝氨酸的密码子外,在密码子第1、2位上发生的突变多为非同义突变,会引起基因的功能和活性发生改变,故不常发生.若无选择压力影响,仅受随机突变或者有一定方向的突变压力影响,同义密码子3个位置上的碱基含量相似;若受一定程度的选择压力影响,碱基组成在3个位置上则存在差异.中性绘图分析(neutrality plot)以GC3为横坐标,以GC12 (指编码同一氨基酸的同义密码子第1,2位上G和C的总含量)为纵坐标,每个基因用一个点表示.如果GC12和GC3的差异相似,则密码子3个位置上无明显差异,所有的点将沿着对角线分布,说明外界选择压力的影响没有或很弱;如果选择效应是基因最主要的进化约束力,GC12和GC3的变异差异将会较大.差异越大,回归曲线的斜率就会越小甚至与横坐标平行.
密码子偏性的影响因素很多,比如碱基组成差异[10]、tRNA丰度[11-12]、基因的表达水平[13]、翻译效率[14]、蛋白质功能[15]、mRNA二级结构[16]等.密码子偏性在进化过程中的形成原因,主要有 "选择-突变-漂变"理论[17]和中性学说.中性学说提出密码子第三位上的突变是中性的,不会对个体生存产生影响,自然选择对它们不起作用."选择-突变-漂变"理论认为突变并非随机的发生而是有一定方向的,对最优密码子的选择以及对非同义密码子的突变-漂变两方面的作用都在密码子偏性上得到体现.
密码子偏性研究在茶树中的研究近几年才起步,报道很少.目前的研究结果表明G/C结尾的密码子在单子叶植物中使用得更多,A/T结尾的密码子则在双子叶植物中更受欢迎[18-23].对茶树基因组密码子偏性的研究结果表明茶树偏爱A/T结尾的密码子[19].茶树抗寒转录调控基因ICE1偏好A/T结尾的密码子,该基因基于CDS的聚类不能正确反映物种间的进化关系,而基于RSCU的聚类则更适合作为系统发育分析的参考[24].茶树低温响应基因 CsCBF1偏好使用G/C结尾的密码子,CsCBF1基因的密码子使用频率与双子叶植物中该基因的差异小于与单子叶植物的差异[25].茶树肌动蛋白基因CsActin1对A/T或G/C结尾的密码子无偏性.基于RSCU的聚类结果为三类,双子叶植物为一类,单子叶植物被聚为二类;基于CDS的聚类则将单、双子叶植物分别各自聚为一类[26].
茶树ICE1偏爱A/T结尾的密码子[24], CsCBF1偏爱G/C 结尾的密码子[25],CsActin1则基本无偏好,推测其原因可能是每个基因受密码子偏性的进化因素及影响程度不同有关.如看家基因和组织特异性基因、低表达基因和高表达基因间的密码子偏性受选择、突变等的影响程度有明显差异,导致密码子偏性有所不同[27];另外基因功能的不同,也有可能会对密码子偏性产生影响,说明茶树基因的密码子偏性有可能受多种因素影响.
从基于RSCU和CDS两种方法的聚类结果差异来看,茶树ICE1基因的差异较大,而CsActin1基因两种方法的结果比较一致.这两种方法的结果存在差异,在其它植物中亦有过报道[24-25,28-30].有学者认为根据密码子偏性得到的聚类分析结果并不一定和真实的系统发育完全一致,在小的分类单元里的结果比大的分类单元里的结果更准确可靠[31].
由于茶树基因克隆起步较晚,也无基因组数据库,为密码子偏性研究提供的数据有限.目前,茶树密码子偏性研究仍处于起步阶段,随着更多茶树基因序列的获得,茶树密码子偏性的研究将会进一步深入.
[1] Gustafsson C,Govindarajan S,Minshull J.Codon bias and heterologous protein expression[J].Trends Biotech nol, 2004, 22(71)∶346-353.
[2] Chiapello H, Lisacek E, Caboche M, et al. Codon usage and gene function are related in sequences ofArabidopsis thaliana[J]. Gene, 1998, 209(1-2)∶ GC1-GC38.
[3] Powell J R, Sezzi E, Mofiyama E N, et al.Analysis of a shift in cod on usage in Drosophila[J]. J Mol Evol, 2003, 57 (Supp1.1)∶S214-S225.
[4] Sharp P M, Li W H. The codon adaptation index-a measure of directional synonymous codon usage bias, and its potential applications[J]. Nucleic Acids Res, 1987, 15(3)∶ 1281-1295.
[5] Wright F. The 'effective number of codons' used in a gene[J]. Gene, 1990, 87(1)∶ 23-29.
[6] Fuglsang A. The 'effective number of codons' revisited[J]. Biochem Biophys Res Commun, 2004, 317(3)∶ 957-964.
[7] Ikemura T. Correlation between the abundance of Escherichia. coli transfer RNAs and the occurrence of the respectivecodons in its protein genes∶ a proposal for a synonymous codon choice that is optimal for the E. coli translational system[J]. J Mol Biol, 1981, 151(3)∶ 389-409.
[8] Morton B R.Chloroplast DNA codon use∶ evidenee for se1ection at the psbA locus based on tRNA availability[J]. J Mol Evo1, 1993, 37(3)∶ 273-280.
[9] Grantham R, Gautier C, Gouy M. Codon frequencies in 119 individual genes confirm consistent choices of degenerate bases according to genome type[J]. Nucleic Acids Res, 1980, 8 (9)∶1893-1912.
[10] Romero H, Zavala A, Musto H. Codon usage in chlamydia trochomatis is the result of strand-specificmutational biases and a complex pattern of selective forces[J]. Nucleic Acids Res, 2000, (28)∶ 2084-2090.
[11]Hambuch T M, Parsch J. Patterns of synonymous codon usage in drosophila melanogaster genes with sex-biased expression [J]. Genetics, 2005, 170(4)∶ 1691-1700.
[12] Moriyama E N, Powell J R. Codon usage bias and tRNA abundance in Drosophila [J]. J Mol Evol, 1997, 45(5)∶514-523. [13] Duret L. 2000. tRNA gene number and codon usage in the C.elegans genome are co-adapted for optimal translation of highly expressed genes[J]. Trends Genet, 2000, 16∶ 287-89.
[14]Stenstrom C M, Jin H N, Major L L, et al. Codon bias at the 3`side of the initiation codon is correlated with translation initiation eficiency in Escherichia coli [J]. Gene, 2001, 263(1-2)∶ 273-284.
[15]Najafabadi H , Goodarzi H, Salavati R. Universal functionspecificity of codon usage [J]. Nucleic Acids Res, 2009, 37 (21)∶ 7014-7023.
[16] Carlini D B, Chen Y, Stephan W. The relationship between third codon position nucleotide content, codon bias, mRNA secondary structure and gene expression in the drosophilid alcohol dehydrogenase genes Adh and Adhr [J]. Genetics, 2001, 159(2)∶ 623-633.
[17]Bulmer M. The selection-mutation-drift theory of synonymous codon usage[J]. Genetics, 1991, 129(3)∶ 897-907.
[18]Kawabe A, Miyashita N T. Patterns of codon usage bias in three dicot and four monocot plant species[J]. Genes & Genetic Systems, 2003,78(5)∶343-352.
[19] 赵洋, 杨阳, 刘振, 等. 茶树密码子用法分析[J]. 茶叶科学, 2011, 31(4)∶ 319-325.
[20] Zhou M, Tong C F, Shi J S. A preliminary analysis of synonymous codon usage in poplar species[J]. Plant Physiol Mol Biol, 2007, 33(4)∶285-293.
[21] Liu H M, He R, Zhang H Y, et al. Analysis of synonymous codon usage in Zea mays[J]. Mol Biol Rep, 2010, 37(2)∶677-684.
[22] Wang L, Roossinck M J. Comparative analysis of expressed sequences reveals a conserved pattern of optimal codon usage in plants[J]. Plant Mol Biol., 2006, 61(4-5)∶ 699-710.
[23]Tatarinova T V, Alexandrov N N, Bouck J B, et al. GC3 biology in corn, rice, sorghum and other grasses[J]. BMC Genomics, 2010, (11)∶ 308.
[24]时惠, 王玉, 杨路成,等. 茶树抗寒调控转录因子ICE1密码子偏性分析[J]. 园艺学报,2012,39(7)∶1341-1352.
[25]郭秀丽,王玉,杨路成,等. 茶树CBF1基因密码子使用特性分析[J]. 遗传,2012,34(12)∶1614-1623.
[26]赵洋, 刘振, 杨培迪,等. 茶树CsActin1基因密码子偏性分析[J]. 茶叶通讯, 2014, 41(4)∶13-17.
[27]Mukhopadhyay P, Basak S, Ghosh T C. Differential selective constraints shaping codon usage pattern of housekeeping and tissue-specific homologous genes of rice and Arabidopsis[J]. DNA Res, 2008, 15(6)∶347-356.
[28]冯慧颖, 梁云, 徐雷锋,等. 百合甘油-3-磷酸酰基转移酶(GPAT)基因密码子偏性分析及其表达受体选择[J].分子植物育种, 2014, 12(1)∶127-137.
[29]晁岳恩, 吴政卿, 杨会民,等. 11种植物psbA基因的密码子偏好性及聚类分析[J]. 核农学报, 2011, 25(5)∶ 927-932.
[30]杨春亮,王良,武斌,等. 大豆GmRAV基因的密码子偏好性分析[J]. 东北农业大学学报, 2012, 43(7)∶ 34-41.
[31]Christianson M. L. Codon usage patterns distort phylogenies, from or of DNA sequences[J]. Am J Bot, 2005, 92(8)∶1221-1233.
Codon Bias Analysis Method and Research Progress on Codon Bias in Camellia sinensis
ZHAO Yang,LIU Zhen,YANG Pei-di,CHENG Yang,YANG Yang*
(Tea Research Institute of Hunan Academy of Agricultural Science, National Tea Cultivar Improvement Center Hunan Branch, Changsha 410125, China)
Codon bias refers to the nonrandom usage of synonymous codons in organisms. The research on the pattern of codon bias and the formation of codon bias has important biological significance. In this review, we summarize the measurement index about codon bias and analysis methods about usage patterns. The research progress on codon bias in Camellia sinensis are also introduced.
Codon bias, Synonymous codon, Genetic codon, Camellia sinensis
S571.1
A
1009-525X(2016)02-03-07
2015-11-11
2016-03-18
国家茶叶产业技术体系建设专项(CARS-23)
赵洋(1979-),女,湖南长沙人,副研究员,主要从事茶树资源与遗传育种研究.
杨阳,yangyangsir@126.com