蒋玮,吕贝贝,何建华,王金斌,吴潇,武国干,鲍大鹏,陈明杰,张劲松,谭琦,唐雪明
1 上海市农业科学院生物技术研究所,上海 201106
2 上海市农业遗传育种重点实验室,上海 201106
3 国家食用菌工程技术研究中心,上海 201106
在绝大多数生物中,密码子并不是均等地被使用,长期的进化过程中,某一物种或基因都会形成对特定的同义密码子的使用偏好,这些被优先使用的密码子被称为该物种或基因的最优密码子(Optimal codon),这种现象称为密码子的使用偏好性(Codon bias)。分析密码子的使用偏好性对提高外源基因在宿主中的表达水平具有重要的意义。近几年,通过优化密码子的途径提高外源基因在微生物、植物、动物等宿主生物中的表达效率的研究屡见不鲜[1-7],其前提便是对宿主生物的密码子偏好性的分析,而酵母密码子偏好性的解析更是为酵母的基因工程技术化应用带来了突破,得到大量应用[8-14]。
食用菌作为营养、健康的食物代表,日益受到人们的关注,但是食用菌中密码子偏好性分析研究仍然少之又少。其中包括双孢蘑菇[15]和银耳[16],但是他们的分析只是基于部分表达序列,以某一食用菌全基因组序列为分析对象的密码子偏好性研究还尚未报道。草菇Volvariella volvacea作为一种重要的常见食用菌,在中国有着悠久的栽培历史,因其味道鲜美,营养丰富,在中国及东南亚地区很受欢迎。本研究通过分析测序得到的草菇全基因组编码序列数据,了解草菇基因密码子用法特征,并与不同的代表性物种进行比较,为草菇基因选择合适的表达系统,优化密码子提高基因表达量等提供重要理论基础。
草菇全基因组序列由测序得到,利用真核基因预测软件 Genemark-ES预测,共获得 11 097个蛋白编码基因[17]。剔除380条长度小于300 bp的序列,剩余10 717条序列用于本研究的各项分析[18]。在 GenBank (http://www.ncbi.nlm.nih.gov/)中检索草菇mRNA序列,从中筛选用于比较分析的蛋白质编码序列40条(Accession No.: AF329731.1,AF329732.1, AY316307.1, AY855921.1, DQ888226.1,EF143259.1, FJ536255.1, FJ913469.1, GU376797.1,HM237364.1, HM366445.1, HM366446.1, JN830959.1,JN861640.1, JQ478424.1, JQ478425.1, JQ922270.1,JX402409.1, JX402410.1, JX402411.1, KC520537.1,KC748445.1, KC748452.1, KF365489.1, KF365492.1,KF365493.1, KF365495.1, KF365499.1, KF528321.1,KF528322.1, KF528324.1, KF528325.1, KF528326.1,KF528327.1, KF528328.1, KF528329.1, KF528330.1,KF528331.1, KF528332.1, KF528333.1)。
1.2.1 草菇基因同义密码子偏好性分析
运用 CodonW1.4.2软件进行分析相对密码子使用度(Relative synonymous codon usage,RSCU)和有效密码子数(Effective number of codons, Nc)。
1.2.2 草菇高表达最优密码子确定
采用Sharp等[19]的方法,先计算每个基因的Nc值并进行排列,从这一排列的两端抽取10%的样本分别组成高、低表达样本组。然后各自计算这两个样本组中各个密码子的 RSCU值,最后通过卡方检验确定出高表达基因的优越密码子,确定草菇基因组最优密码子。
1.2.3 草菇与其他物种密码子偏好性比较
运用 CUSP程序计算草菇基因各密码子的使用频率,并与从 Codon Usage Database(http://www.kazusa.or.jp/codon/)中获得的人Homo sapiens、酵母Saccharomys cerevisiae、拟南芥Arabidopsis thaliana、小鼠Mus musculus、斑马鱼 Danio rerio果蝇 Drosophila melanogaster、灰盖鬼伞Coprinopsis cinerea、双孢蘑菇 Agaricus bisporus、香菇 Lentinula edodes、平菇Pleurotus ostreatus的密码子使用频率进行比较。
1.2.4 基于密码子使用偏好性的聚类
利用SPSS16.0对草菇及其他10种物种进行基于密码子使用偏好性的欧氏平方距离系数进行聚类分析。在聚类过程中,将每个物种作为一个对象,密码子使用频率作为变量。采用59个同义密码子(不包括起始密码子 ATG和色氨酸TGG以及3个终止密码子TAG、TAA、TGA)的密码子使用频率值对其进行分析。物种间的距离规定为同义密码子使用频率的欧氏平方距离,根据两两间的距离构建距离系数矩阵,进行聚类分析。
运用CodonW软件分析了10 717条草菇蛋白质基因编码序列的RSCU值,结果如表1所示。有偏好性(RSCU>1)的密码子共计35个,其中以G/C结尾的19个,以A/T结尾的16个。各氨基酸 RSCU值最高的密码子分别是:TTC(Phe)、CTC (Leu)、ATC (Ile)、GTC (Val)、TCC(Ser)、CCA (Pro)、ACC (Thr)、GCT (Ala)、TAC(Tyr)、CAC (His)、CAA (Gln)、AAC (Asn)、AAG(Lys)、GAT (Asp)、GAG (Glu)、TGC (Cys)、CGC(Arg)、GGT (Gly)、TGA (终止密码子)。这19个密码子以G/C结尾的13个,以A/T结尾的6个。以上结果表明,草菇偏好于以G/C结尾的密码子。
一般地,密码子的有效数(Nc)与基因表达量有关,高表达基因密码子偏好性强,Nc值小[20]。本研究以草菇基因组中各基因的Nc值排列获取高、低表达基因样本,通过计算基因之间同义密码子相对使用频率之差,并经卡方测验,最终确定了TTC、CTC、CTG等24个密码子为草菇的高表达优越密码子(表2)。它们在高、低表达基因样本组间的使用频率差异较大,显著性测验结果均呈极显著水平。通过分析40条已知草菇蛋白质编码序列所得的最优密码子与分析草菇全基因组序列所得的最优密码子,经比较可见后者所得结果可靠且更全面(表2)。
表1 草菇蛋白编码基因的密码子用法Table 1 The codon usage of Volvariella volvacea coding sequences
表2 草菇中高/低表达样本组的密码子用法与最优密码子的确定和验证Table 2 Codon usage of high/low expressed sample group in Volvariella volvacea and confirmation of optimal codons in Volvariella volvacea
草菇与人、酵母、拟南芥、小鼠、斑马鱼、果蝇等6种物种密码子使用频率进行比较 (表3),其中,V/H、V/Y、V/A、V/M、V/D、V/F分别表示草菇与人、酵母、拟南芥、小鼠、斑马鱼、果蝇的每种密码子使用频率比值,密码子使用频率若在0.5−2.0之间,表明这两个物种对该密码子的偏好性较接近,若≥2.0或≤0.5,则表明偏好性差异较大[21]。草菇与人、酵母、拟南芥、小鼠、斑马鱼、果蝇的比值中,≥2.0或≤0.5的密码子分别有7、12、3、7、3、5种,表明草菇与这些物种之间存在不同程度的密码子偏好性差异。
表3 草菇与代表性物种密码子偏好性比较Table 3 Comparison of codon preference between the Volvariella volvacea and other representative organisms
续表3
草菇与灰盖鬼伞、双孢蘑菇、香菇、平菇 4种食用菌密码子使用频率进行比较 (表4),其中,V/C、V/A、V/L、V/P分别表示草菇与灰盖鬼伞、双孢蘑菇、香菇、平菇的每种密码子使用频率比值,≥2.0或≤0.5的密码子分别有1、2、1、4种,表明草菇与灰盖鬼伞、双孢蘑菇、香菇的密码子偏好性差异较小,与平菇的密码子偏好性差异较大。
续表4
根据表 3及表 4中各物种密码子的使用频率,利用SPSS16.0进行聚类分析,聚类结果见图1。从图1可以看出,利用密码子使用频率得出的聚类图接近这11个物种的系统分类,在一定程度上反映了物种间的进化关系。
图1 基于物种密码子使用频率的聚类图Fig. 1 Cluster analysis dendrogram of frequency of codon usage for 11 species. 1: Volvariella volvacea; 2: Homo sapiens; 3: Saccharomys cerevisiae; 4: Arabidopsis thalian; 5: Mus musculus; 6: Danio rerio; 7: Drosophila melanogaster; 8: Coprinopsis cinerea; 9: Agaricus bisporus; 10: Lentinula edodes; 11: Pleurotus ostreatus.
在长期的进化过程中,由于进化环境和选择压力的不同,不同物种经历了不同的进化历程,所以任何一个物种为适应其基因组环境,都要形成特定的符合其基因组的密码子使用法则。不同生物物种密码子偏性有一定差别,将外源基因转入受体生物时,由于转入基因的密码子和宿主基因组密码子使用偏好不同,易引起甲基化,从而引发转基因沉默或转基因表达量降低[22]。因此,在外源基因转入前,应按照宿主物种的密码子使用偏好性对其进行优化和改造。本研究对草菇全基因组蛋白编码基因的密码子偏好性进行分析,结果表明草菇基因密码子偏爱使用 G/C结尾的密码子,这种偏好可能是由于以G/C结尾的密码子具有较高的结合能,有利于保证翻译的准确性[23]。
草菇密码子偏好性与人、酵母、拟南芥、小鼠、斑马鱼、果蝇、平茹都具有不同程度的差异,如果这些生物的基因要在草菇中表达,则应该首先进行密码子优化。草菇与灰盖鬼伞、双孢蘑菇、香菇的密码子偏好性差异较小。如果这些生物的基因要在草菇中表达,只需优化个别密码子。聚类结果表明密码子偏好性差异大小在一定程度上反映物种间的进化关系,可作为研究物种进化关系的参考。但基于物种密码子使用频率的聚类结果与传统分类存在一定的差异,这可能是参数选择单一的问题,若与其他参数联用,可能会更贴切地反映物种间的进化关系[24]。
目前,通过密码子优化方法提高外源基因在食用菌中的表达量的研究还鲜有报道。本研究中确定了草菇的24个最优密码子,对于今后草菇转基因过程中对构建合适的转基因表达系统具有重要的指导意义,在目的表达基因中针对草菇所偏好的密码子进行优化改造,从而提高目的蛋白的表达量,进而使草菇获得更多有利性状,对草菇品种进行定向改良具有十分重要的理论和现实意义。
[1]Zhou ZL, Lin ZM, Geng LL, et al. Comparison of codon optimizations of cry1Ah1 gene in rice. Chin J Biotech, 2012, 28(10): 1184–1194 (in Chinese).周宗梁, 林智敏, 耿丽丽, 等. 水稻中 cry1Ah1基因密码子优化方案的比较. 生物工程学报,2012, 28(10): 1184–1194.
[2]Zelasko S, Palaria A, Das A. Optimizations to achieve high-level expression of cytochrome P450 proteins using Escherichia coli expression systems.Protein Expres Purif, 2013, 92(1): 77–87.
[3]Stephen JS, Jeremy DV, Robert M, et al.Expression of chicken parvovirus VP2 in chicken embryo fibroblasts requires codon optimization for production of naked DNA and vectored meleagrid herpesvirus type 1 vaccines. Virus Genes, 2013,47(2): 259–267.
[4]Rasheda J, Muhammad SK, Yusuf Z, et al. Codon optimization of cry1Ab gene for hyper expression in plant organelles. Mol Biol Rep, 2010, 37(2):1011–1017.
[5]Mizuki T, Masafumi T, Takahiro S, et al.Transcripts of a heterologous gene encoding mite allergen Der f 7 are stabilized by codon optimization in Aspergillus oryzae. Appl Microbal Biot, 2012, 96(5): 1275–1282.
[6]Kyoko HT, Mpanja N, Tadayoshi H, et al.High-level accumulation of recombinant miraculin protein in transgenic tomatoes expressing a synthetic miraculin gene with optimized codon usage terminated by the native miraculin terminator. Plant Cell Rep, 2011, 30(1): 113–124.
[7]Soohyun P, Seung PP, Jinwon L. Expression of codon-optmiazed phosphoenolpyruvate carboxylase gene from Glaciecola sp. HTCC2999 in Escherichia coli and its application for C4 chemical production. Appl Biochem Biotech, 2012, 167(7):1845–1853.
[8]Mirzaei SA, Tabatabaei M, Sepehrizadeh Z.Secretory expression and purification of a soluble NADH cytochrome b5 reductase enzyme from Mucor racemosus in Pichia pastoris based on codon usage adaptation. Biotechnol Lett, 2010,32(11): 1705–1711.
[9]Andrea M, Roland W, Anton G, et al. Expression of lignocellulolytic enzymes in Pichia pastoris. Micro Cell Fact, 2012(11): 61.
[10]Fu XY, Zhao W, Xiong AS, et al. High expression of recombinant Streptomyces sp. S38 xylanase in Pichia pastoris by codon optimization and analysis of its biochemical properties. Mol Biol Rep, 2011,38(8): 4991–4997.
[11]Christoph S, Alexander G, Iris K, et al. Simple and efficient expression of Agaricus meleagris pyranose dehydrogenase in Pichia pastoris. Appl Microbiol Biot, 2012, 94(3): 695–704.
[12]Sandra A, Jozef N, Margit W. High-level expression of Rhodotorula gracilis D-amino acid oxidase in Pichia pastoris. Biotechnol Lett, 2011,33(3): 557–563.
[13]Ruth C, Zuellig T, Mellitzer A, et al. Variable production windows for porcine trypsinogen employing synthetic inducible promoter variants in Pichia pastoris. Syst Synth Biol, 2010, 4(3):181–191.
[14]Li CL, Han L, Zheng ZY, et al. Optimization of plant des-pGlu1-Brazzein gene according to yeasty biased codons and its expression in Pichia pastoris.Chin J Biotech, 2011, 27(8): 1158–1163 (in Chinese).李春丽, 韩露, 郑振宇, 等. 植物甜蛋白des-pGlu1-Brazzein的密码子优化及其在毕氏酵母中的表达. 生物工程学报, 2011, 27(8): 1158–1163.
[15]Rene VV, Peter JS, Yvonne M. A codon usage table for Agaricus bisporus. Cultivated Mushroom Research (CMR)Newsletter, 1993(1): 50–52.
[16]Huang XX. Analysis of codon usage bias and promoter cloning of Tremella fuciformis [D].Fuzhou: Fujian Agriculture and Forestry University, 2011 (in Chinese).黄晓星. 银耳密码子偏好性分析及启动子克隆[D]. 福州: 福建农林大学, 2011.
[17]Bao DP, Zhao GP, Tan Q, et al. Draft sequence of the Volvariella volvacea genome. Acta Edulis Fungi, 2010, 17(1): 1–2 (in Chinese).鲍大鹏, 赵国屏, 谭琦, 等. 草菇全基因组框架图. 食用菌学报, 2010, 17(1): 1–2.
[18]Paul MS, Elizabeth C. Synonymous codon usage in Saccharomyces cerevisiae. Yeast, 1991, 7(7): 657–678.
[19]Sharp PM, Li WH. The codon adaptation index-a measure of directional synonymous codon usage bias, and its potential applications. Nucleic Acids Res, 1987, 15(3): 1281–1295.
[20]Wu XM, Wu SF, Ren DM, et al. The analysis method and progress in the study of codon bias.Hereditas, 2007, 29(4): 420–426 (in Chinese).吴宪明, 吴松锋, 任大明, 等. 密码子偏性的分析方法及相关研究进展. 遗传, 2007, 29(4):420–426.
[21]Fan SH, Guo AG, Shan LW, et al. Analysis of genetic code preference in Arabidopsis thaliana.Prog Biochem Biophys, 2003, 30(2): 221–225 (in Chinese).范三红, 郭蔼光, 单丽伟, 等. 拟南芥基因密码子偏爱性分析. 生物化学与生物物理进展, 2003,30(2): 221–225.
[22]Perlak FJ, Deaton RW, Armstrong TA, et al. Insect resistant cotton plants. Biol Technol, 1990(8):939–943.
[23]Shi XF, Huang JF, Liu SQ, et al. The features of synonymous codon bias and GC-content relationship in human genes. Prog Biochem Biophys, 2002, 29(3): 411–414 (in Chinese).石秀凡, 黄京飞, 柳树群, 等. 人类基因同义密码子偏好的特征以及与基因 GC含量的关系. 生物化学与生物物理进展, 2002, 29(3): 411–414.
[24]Chao YE, Wu ZQ, Yang HM, et al. Cluster analysis and codon usage bias studies on psbA genes from 11 plant species. Acta Agric Nucl Sin, 2011, 25(5):927–932 (in Chinese).晁岳恩, 吴政卿, 杨会民, 等. 11种植物psbA基因的密码子偏好性及聚类分析. 核农学报, 2011,25(5): 927–932.