韩利红, 贾欣楠, 陈仁欢, 刘潮
(曲靖师范学院生物资源与食品工程学院,云南省高校特色果酒技术创新与应用工程研究中心,云南 曲靖 655011)
生物体内同义密码子的不均衡使用称为密码子使用偏性(codon usage bisa,CUB)。CUB受突变和选择压力的影响,是生物进化的重要特征,不仅影响基因的功能和表达潜力,而且影响翻译的准确性和效率。基因的表达水平越高,密码子使用偏性就越强。分析基因组密码子使用偏性对提高外源基因的表达和选择更合适的宿主表达系统具有重要意义。研究发现,通过对莱茵衣藻(Chlamydomonas reinhardtii)转入基因密码子的优化,大大提高了其转录水平,表明最优密码子的利用可提升基因的转录水平,翻译起始附近的mRNA折叠能量需求也显著影响基因的表达[1]。
中医药学是中华民族的伟大创造,对世界文明进步产生了积极影响。中药材是中医药学发展的物质基础,茯苓(Wolfiporia cocos)为担子菌门多孔菌科茯苓属真菌,可与松属植物共生,其干燥菌核具有重要的药用价值[2]。茯苓作为重要的中医药方成分之一,包含在1/10的药方之中[2],具有广阔的开发和利用前景。研究表明,茯苓菌核主要药用成分为多糖和三萜,具有抗肿瘤、抗氧化、调节免疫等多种免疫和药理活性[3]。因茯苓菌核的形成依赖松属植物,生产上每年需要消耗大量松木[4]。如何降低资源消耗、提升茯苓品质成为当前亟待解决的重要课题。一些研究人员探索使用茯苓菌丝液体发酵的方式生产胞内多糖与三萜,并取得一定成果[5-6]。周燕丽等[5]通过研究液态发酵过程中茯苓菌丝体形态与胞内三萜产量关系发现,胞内三萜产量与发酵时间、装液量、接种体积、初始pH、温度和转速等均有直接关系,培养条件苛刻,不易控制。金文松等[6]初步筛选到了较适合液体发酵的茯苓菌株,但仍然出现培养物变黑的现象。利用背景清晰的模式菌株表达异源蛋白已成为获取生物活性物质的有效方法[7],而密码子的优化是实现异源基因高效表达的关键。目前开展的关于茯苓基因沉默体系和特定药用成分关键调控基因的研究为茯苓菌种选育和遗传育种奠定了基础[2,8]。茯苓菌株的基因工程操作及功能基因的遗传转化均需要考虑基因组密码子偏性特征。本研究分析茯苓核基因组和线粒体基因组编码基因的密码子使用偏性及其影响因素,并确定物种的最优密码子,以期为茯苓属药用真菌基因工程中外源基因的改良及其表达研究奠定基础。
从Ensemble数据库和GenBank数据库下载茯苓(菌株MD-104 SS10)核基因组[9]和线粒体基因组[10](GEO 登录号 MT079862.1)的编码序列(coding sequences,CDS)。为避免计算密码子偏性时出现样本偏差,按照以下条件筛选序列:①CDS长度大于300 bp;②以ATG为起始密码子,以TAA、TGA或TAG为终止密码子。从Codon Usage Database(http://www.kazusa.or.jp/codon/)[11]获得酿酒酵母(Saccharomyces cerevisiae)、大肠杆菌(Escherichia coli)和毕赤酵母(Pichia pastoris)密码子的使用偏性数据,用于选择分析最优异源表达载体。
1.2.1 密码子使用偏性分析 使用CodonW 1.4.2软件分析第3位同义密码子上各碱基的出现频率(A3s、T3s、G3s、C3s)、基因第3位同义密码子鸟嘌呤和胞嘧啶出现频率(GC3s)、基因鸟嘌呤和胞嘧啶含量(GC)、有效密码子数(effective number of codon,ENC)。使用 EMBOSS网站的CUSP程序统计同义密码子相对使用度(relative synonymous codon usage,RSCU)。使用Mega X分析密码子第1位、第2位和第3位鸟嘌呤和胞嘧啶含量(GC1、GC2、GC3)和氨基酸组成。
1.2.2 中性绘图 分别以GC3和GC12(GC1和GC2的平均值)为横坐标和纵坐标绘制散点图,并做直线拟合分析,直线斜率越接近1,表明GC3和GC12相关性越强,密码子偏性受突变作用影响越大,反之受选择压力影响越大。
1.2.3 ENC-plot绘图 分别以GC3s和ENC值(公式1)为横坐标和纵坐标绘制ENC-plot散点图,观察基因在期望曲线上的分布。基因落点越靠近曲线,ENC值越大,密码子偏性越小,表示突变对密码子偏性影响越大,反之受选择对密码子偏性影响越大。
1.2.4 奇偶偏性绘图 奇偶偏性(parity rule 2,PR2)用于分析第3位密码子使用偏好。根据基因中A3、T3、C3、G3的含量计算G3/(G3+C3)和A3/(A3+T3)的值,分别作为横坐标和纵坐标作图。当A3=T3、C3=G3,即A3/(A3+T3)和G3/(G3+C3)坐标均为中心点0.5时,表示DNA两条互补链之间不存在突变或选择偏性[12]。
1.2.5 对应性分析 对应性分析(correspondence analysis,COA)是研究不同基因密码子变异趋势的多元统计方法。以59个氨基酸编码密码子的RSCU值为变量,得到每个基因在59维上的空间分布。对应性分析通过基因的分布探究基因向量的变异程度,判断导致密码子偏性的影响因素。
1.2.6 最优密码子分析 以CDS的ENC值为依据,分别筛选ENC值较小和较大两端各5%的基因作为高表达(high expression gene,HEG)和低表达基因(low expression gene,LEG)。当核基因RSCU值>1时,密码子确定为高频密码子,如果△RSCU(高表达组RSCU值与低表达组RSCU值之差)≥0.20时,密码子确定为高表达密码子,同时满足以上2个条件定义为最优密码子。
使用 SPSS 23.0(SPSS Inc.,Chicago,IL,USA)对数据进行统计和独立样本t检验。使用Microsoft Excel 2019进行绘图分析。
2.1.1 碱基组成分析 茯苓核基因组大小为50.48 Mb,编码12 212个蛋白,基因组GC含量为52%[8]。茯苓线粒体基因组大小为124.84 kb,含有49个开放阅读框,GC含量为34.8%。剔除小于300 bp以及起始和终止密码不正确的CDS后,得到10 449条候选核基因序列和42条候选线粒体基因序列。分析(表1)发现,茯苓核基因平均GC含量为57.28%,平均GC3s值为63.74%,密码子第3位上C3s值最高,其次为G3s,A3s最低,而线粒体基因A3s最高,其次为T3s,G3s最低。核基因GC、GC3、GC12和GC3s均大于50%,而线粒体基因除GC12较高外,GC、GC3和GC3s均小于35%。338个核基因的ENC值小于35,核基因ENC平均值为51.65,明显高于线粒体基因。相比较而言,核基因各参数浮动范围更大。3种表达宿主中,茯苓核基因GC含量和GC3s均更接近于大肠杆菌[11]。
表1 茯苓基因组密码子使用参数Table 1 Codon usage parameter in genes of Wolfiporia cocos
2.1.2 氨基酸组成分析 由图1可知,茯苓核编码蛋白和线粒体编码蛋白中均含有较高的亮氨酸(Leu),较低的半胱氨酸(Cys)和色氨酸(Trp)(图1)。二者不同之处在于,核编码蛋白中丙氨酸(Ala)含量最高,而线粒体编码蛋白中丙氨酸含量处于中等水平,线粒体编码蛋白中异亮氨酸含量(Ile)也较高,仅次于色氨酸,而核编码蛋白中异亮氨酸含量处于中等水平。
图1 茯苓核基因组和线粒体基因组的氨基酸组成Fig.1 Amino acid composition of nuclear and genome in Wolfiporia cocos
2.2.1 中性绘图分析 由图2可知,大部分茯苓核基因位于中性图靠右的位置,GC3与GC12呈极显著正相关(R2=0.107 6,P<0.01),回归曲线斜率为0.164 6,表明核基因密码子第1位和第2位与第3位碱基的组成和变异模式相似,突变对核基因密码子偏性的形成有重要影响,同时较低的回归斜率表明选择等其他因素也影响了核基因密码子偏性的形成。茯苓线粒体基因位于中性图左上角偏离对角线较远的位置,GC3与GC12呈极显著正相关关系(R2=0.506,P<0.01),回归曲线斜率为0.612 6(图2),表明茯苓线粒体基因密码子偏性受突变和选择作用影响。
2.2.2 奇偶偏性绘图分析 由图3可知,大部分茯苓核基因落在PR2-plot第2象限,说明同义密码子第3位碱基上A的使用率高于T,C的使用率高于G。茯苓线粒体基因PR2-plot结果显示,T的使用率高于A,C的使用率高于G,表明茯苓核基因和线粒体基因密码子的使用偏性受到选择和突变等因素共同影响,相比较而言,核基因受到较强的选择作用。
图3 茯苓核基因和线粒体基因PR2-plotFig.3 PR2-plot of nuclear and mitochondrial genome in Wolfiporia cocos
2.2.3 ENC-GC3s关联分析 ENC-GC3s散点图(图4)分析显示,茯苓核基因组大部分基因位于预期曲线下方较远位置,GC3s值普遍较大,而大部分线粒体基因位于预期曲线下方靠左的位置,GC3s值相对较小。由ENC比率分析结果(图5)可知,茯苓核基因ENC比率分布在−0.15~0.55之间,线粒体基因ENC比率分布在−0.15~0.35之间,核基因和线粒体基因ENC比率值均在0.05~0.15间所占比例最高,其次是−0.05~0.05,表明茯苓大部分核基因和线粒体基因在进化过程中受到较大的环境选择压力等因素的影响。
图5 ENC比率分布Fig.5 Distribution of ENC ration
2.2.4 RSCU对应性分析 对应性分析结果(图6)显示,各基因在59维向量空间上的分布,核基因分析中,4个向量轴解释了总变异的32.5%,其中第1向量轴的差异占21.8%,其他3个向量轴占比较低,A和T结尾的密码子主要分布在第1和4象限,C结尾的密码子主要分布在第2和第3象限,G结尾的密码子分布在第4象限。线粒体基因分析中,4个向量轴解释了总变异的40.4%,各向量轴比例依次为18.7%、9.6%、6.9%和5.2%,A结尾的密码子分布在第1象限,C和G结尾的密码子主要分布在第2和3象限,T结尾的密码子主要分布在第4象限,G结尾的密码子分布在第4象限。说明第1轴是核基因和线粒体基因密码子偏性的主要贡献者,其对核基因序列的贡献高于线粒体基因序列。结果表明,茯苓核基因序列和线粒体基因序列的密码子偏性形成过程并不一致,核基因主要受到选择作用影响,线粒体基因除了受选择作用影响,还受到较强的碱基突变影响。
图6 茯苓核基因和线粒体基因RSCU对应性分析Fig.6 Correspondence analysis of the RSCU of nuclear and mitochondrial genome in Wolfiporia cocos
茯苓核基因密码子使用频度分析结果(表2)显示,有25个高频密码子,其ΔRSCU均大于0.2,最终确定为25个最优密码子,均以G/C结尾,其中以C结尾的占60.0%,以G结尾的占40.0%。虽然丙氨酸密码子GCC的核基因RSCU值(0.93)小于1,但ΔRSCU大于0.2,也属于高表达密码子。部分同义密码子间RSCU值差异较大,如核基因中亮氨酸密码子CTC的RSCU值(1.96)是TTA(0.26)的7.5倍,异亮氨酸密码子ATC的RSCU值(1.68)是ATA(0.48)的3.5倍,精氨酸密码子CGC的RSCU值(2.02)是AGA(0.56)的3.6倍。与核基因高频密码子结果相反,线粒体基因中发现26个高频密码子,均以A/T结尾,其中以A结尾的占46.2%,以T结尾的占53.8%。通过计算茯苓与3种表达宿主每种密码子使用频率比值,发现酿酒酵母、大肠杆菌和毕赤酵母中分别有40、51和45个比值介于0.5~2.0之间[11],表明茯苓基因密码子使用模式更接近于大肠杆菌。
表2 茯苓基因组编码基因的相对同义密码子使用度Table 2 Relative synonymous codon usage of genomic genes in Wolfiporia cocos
随着后基因组时代的到来,越来越多物种的全基因组数据被公布,密码子使用偏性分析的研究引起了广泛关注。CUB分析不仅有助于进化生物学的解析,而且有助于通过密码子优化提高外源基因在宿主细胞中的表达水平。茯苓的菌核具有重要的药用价值,通过与其他药材配制成多种中药药方,具有镇静、利尿、健脾胃等功效[13]。研究表明,茯苓菌核中两种主要活性成分——多糖和三萜,具有多种免疫应激和药理活性[4]。本研究对茯苓核基因和线粒体基因的密码子使用性分析发现,核基因平均GC含量为57.28%,GC3s为63.74,线粒体基因GC含量33.01%,GC3s为23.91%。GC含量影响转录过程DNA的稳定性和构型转换,GC含量高的基因比GC含量低的基因具有更高的表达潜力[14]。研究发现,大型药用真菌猪苓(Polyporus umbellatus)基因GC含量为53.57%,ENC值介于38~61,密码子偏性较弱[15]。本研究中,茯苓核基因组中338个基因ENC值小于35,且均具有较高的GC含量和GC3s值,表明这些基因密码子偏性较强,具有较高的表达潜力。一些线粒体基因可能在茯苓菌核发育过程中起到了一定的作用[10]。茯苓线粒体基因密码子使用偏性与稻瘟病病菌(Phyricularia grisea)、栽培大豆(Glycine max)和野生大豆(Glycine soja)等物种线粒体基因密码子使用偏性一致,多表现为GC含量低,偏好使用A/T结尾的密码子,最优密码子多以A或T结尾[16-17]。
同义密码子使用偏性受碱基突变和自然选择等因素的影响。多种绘图分析和对应性分析表明,茯苓核基因密码子偏性主要受到选择作用影响,而线粒体基因除了受到选择作用影响,还受到较强的碱基突变影响。核基因密码子偏性受到较强的选择作用,可能与茯苓的生长环境有关,自然条件下,茯苓通常寄生于各种松属植物的根部[18],寄生过程中受到较强的环境和寄主物种选择作用影响。球孢白僵菌(Beauveria bassiana)是一种宿主范围广泛的病原真菌,其基因组密码子偏性较多地受宿主等环境选择压力的影响[19]。而寄主范围较窄的落叶松−杨栅锈菌(Melampsora larici populina)基因密码子偏性更多地受到突变压力的影响[20]。
密码子使用偏性通过影响RNA转录与翻译等多种过程决定整体编译的效率。基因密码子优化通过影响转录导致RNA水平的明显上调和翻译蛋白的积累[21]。密码子优化大大提高了宿主细胞中外源基因的表达水平[22]。茯苓25个高频密码子均为最优密码子,且均以G/C结尾,该结果与茯苓核基因较高的GC含量和GC3s值一致,说明最优密码子受基因碱基组成影响。猪苓[15]和草菇(Volvariella volvacea)[23]最优密码子分析的结果与该研究一致,也偏好G/C结尾的密码子,而落叶松−杨栅锈菌高频密码子和最优密码子并不一致[20]。研究认为,低等生物比高等生物更需要优化密码子[24],这与高等生物的基因表达还受到顺式作用元件、转录后调控、mRNA稳定性、选择性剪切等多种因素的调节有关[25]。茯苓核基因中,部分同义密码子间RSCU值差异较大,说明最优密码子明显影响了茯苓高表达基因的转录,在对茯苓进行基因工程操作时,有必要对基因的密码子进行优化处理。茯苓基因密码子使用模式与大肠杆菌更接近,对茯苓功能基因进行研究和开发利用时,可选择大肠杆菌作为异源表达宿主。