里氏木霉基因组密码子偏好性研究

2022-03-17 08:58秦丽娜江贤章
食品工业科技 2022年6期
关键词:木霉密码子里氏

杨 鑫,秦丽娜,江贤章,

(1.福建师范大学生命科学学院,福建福州 350000;2.工业微生物发酵技术国家地方联合工程研究中心,福建福州 350000)

遗传信息是由三联体密码子记载的。由于密码子的简并性,大多数氨基酸是由2~6种同义密码子编码。不同的物种编码同种氨基酸所利用的密码子种类与使用频率存在差别,这种现象称为密码子偏好性(Codon Usage Bias)[1]。许多因素影响各种生物体中密码子的使用,如自然选择(基因表达水平[2]、RNA丰度[3]、基因长度[4-5]、基因翻译起始信号和蛋白质结构[6])和突变压力(GC含量、突变频率和模式),以及随机遗传漂变等[7-9]。密码子使用模式的全基因组研究对理解基因组中分子组织的基本特征具有重要意义。迄今为止,对于遗传密码子偏好性的研究主要集中在一些模式物种,包括模式真菌酿酒酵母(Saccharomyces cerevisiae)、模式细菌大肠杆菌(Escherichia coli)、模式植物拟南芥(Arabidopsis thaliana)等方面[10-11],相比之下,对丝状真菌的研究相对较少。

丝状真菌里氏木霉作为生产纤维素酶和半纤维素酶的工业微生物,具有生长环境粗放、稳定性好、安全无毒、产酶效率高等优点。在食品加工工业中,用纤维素酶对农产品进行预处理,可以使植物组织膨化松软,减少农产品营养物质的损失。里氏木霉除了在食品工业中的作用外,还用于生物乙醇[12]和工业酶的生产,具有广泛的生物应用价值。迄今为止,大约有243种通过微生物发酵制造的市售酶产品,其中30种是使用里氏木霉作为宿主制成的,其中21种是重组产品,用于饲料和技术应用,包括纺织品、纸浆和纸张等[13-17],因此里氏木霉具有重要的研究价值。

目前,里氏木霉QM6a菌株的基因组已经完成测序[18],这为研究该丝状真菌的分子生物学提供了有利条件。本文以里氏木霉基因组为研究对象,通过对编码序列的核苷酸组成及密码子的偏好性进行分析,探究影响里氏木霉密码子使用偏差的因素。本研究结果有助于阐明该物种分子进化的机制,同时为通过密码子优化提高里氏木霉外源基因表达水平提供了理论依据。

1 材料与方法

1.1 材料与仪器

里氏木霉QM6a基因组数据来自Joint Genome Institute(基因联合研究所,JGI http://genome.jgi.doe.gov/portal/)公共数据库,基因组项目编号为1184794;使用Galaxy生物信息学分析平台(https://usegalaxy.org/)中的Fasta Statistics对里氏木霉QM6a进行统计、Filter sequences by length对 CDS进行过滤、cusp对密码子的GC含量进行分析;利用Python 3.9中的biopython-1.79模块对序列进行处理;利用CodonW 1.4.2软件对各个CDS密码子进行分析;利用Origin 9.0进行数据统计与作图。

1.2 实验方法

1.2.1 基因的选择 通过JGI数据库下载CDS序列,由于计算短序列的密码子数没有生物学意义[19],因此利用Galaxy的Filter sequences by length脚本过滤长度小于300 bp的CDS,收集最终序列(包含9352个CDS)用于进一步分析。

1.2.2 GC含量统计 利用Galaxy的cusp脚本统计分析各基因GC总含量以及密码子的第1、2和3位碱基为G或C的含量比例,分别记为GC、GC1、GC2和GC3。其中GC3对密码子使用偏好性具有重要影响。

1.2.3 中性绘图分析 中性图是一种用于测量密码子使用模式的分析方法。本研究分析了第1、2和3位密码子位置(分别为GC1、GC2和GC3)的GC含量。GC12代表 GC1和 GC2的平均值;GC12和GC3用于中性绘图分析。在中性图中,如果GC12和GC3之间的相关性在统计学上显著,且回归线的斜率接近1,则假设突变偏差是影响密码子使用的主要因素。相反,针对突变偏倚的选择可能导致GC含量的窄分布以及GC12和GC3之间缺乏相关性[20]。

1.2.4 ENC-plot分析 有效密码子数(Effective number of codon,ENC)提供了对绝对密码子偏差的有用估计,是确定某个基因的总体密码子使用偏差的一种度量。总GC含量,尤其是GC3(第三位的GC含量),经常反映定向突变的强度。以ENC为纵坐标,GC3为横坐标绘制的ENC-plot,广泛用于确定基因的密码子使用是否受到突变和选择的影响[21]。当对应点落在预期曲线附近时,突变是决定密码子使用的主要力量,当对应点大大低于预期曲线时,选择是决定密码子使用的主要力量。

1.2.5 相关性分析 变量和样本之间的关系可以通过多元统计分析来探索。使用皮尔森相关系数(Pearson correlation coefficient)进行相关性分析,使用双尾检测相关系数的显著性。相关性分析用来揭示密码子使用模式的主要因素并探究样本各变量之间的关联性[22]。

1.2.6 PR2-plot分析 计算第3密码子位置(A3、U3、C3和G3)的核苷酸组成,并分析AT偏差(A3/(A3+U3))和 GC 偏差(G3/(G3+C3))。PR2-plot是以 AT偏差(A3/(A3+T3))作为纵坐标和 GC 偏差(G3/(G3+C3))作为横坐标绘制的[23]。若核苷酸组成是影响同义密码子使用的唯一因素,那么A(T)和C(G)的使用频率应该相等。

1.2.7 相对同义密码子使用分析 运用CodonW软件分析相对同义密码子使用度(relative synonymous codon usage,RSCU)。RSCU是指对于某一特定的密码子在编码对应氨基酸的同义密码子的相对概率,它去除了氨基酸组成对密码子的影响。公式如下:

式中:xij表示编码第i个氨基酸的第j个密码子的出现次数;ni总表示编码第i个氨基酸的同义密码子的数量(值为1~6)。如果密码子使用没有偏好,则该密码子的RSCU值等于1。当某一密码子的RSCU值大于1,则表明密码子的使用偏好性较强。由于它计算方便,而且很直观地反映出密码子使用的偏好性,因此在大多数的密码子相关分析中,都使用它作为衡量偏好性的标准。

1.2.8 高表达密码子的确定 ENC值的范围在20~61之间,单个基因的ENC值越低,该基因的整体密码子使用偏好就越强,基因的表达量相对越高[24]。故以ENC值为偏好性标准,两级各选10%的基因分别创建高低表达样本库,取两库△RSCU>0.08的密码子进行分析[25-26]。

1.2.9 与其他真菌密码子偏好性比较 运用Bioinformatics在线平台(http://www.bioinformatics.org)的Codon Usage计算里氏木霉各密码子的使用频率[27]。用CodonW分别计算出同属的长梗木霉(Trichoderma longibrachiatum)、丝状模式真菌粗糙脉孢霉(Neurospora crassa)、模式真菌酿酒酵母(Saccharomyces cerevisiae)的密码子使用频率,将里氏木霉密码子使用频率与它们进行比较分析。

2 结果与分析

2.1 密码子偏性分析

单一类型密码子的密码子使用偏差受基因组总核苷酸含量的影响很大[28],因此,首先利用Galaxy平台分析了里氏木霉基因组中编码序列(CDS)的GC核苷酸组成。在里氏木霉基因组中,97%的基因GC含量、96%的基因GC1含量、18%的基因GC2含量和 37%的基因 GC3含量分布在 50%~68%(图1),GC核苷酸平均含量为58.1%,三个密码子位置(GC1、GC2和GC3)的GC平均含量分别为58.9%、45.0%和70.4%。单因素方差分析表明密码子三个位置的 GC 含量差异极显著(P<0.001),GC3>GC1>GC2表明第三位置的GC含量不同于第一和第二位置的GC含量,第三位密码子的GC含量在密码子位置中最高,说明GC3是导致密码子使用发生偏好性的重要原因,且里氏木霉的密码子第三位受到的选择压力较大。核苷酸组成分析结果表明,里氏木霉基因第三位偏好G/C末端密码子比A/U末端密码子更受欢迎。

图1 GC含量分布Fig.1 Distribution of the GC contents

2.2 中性绘图分析

中性分析是揭示GC12和GC3之间关系的一种有用方法。为了分析三个密码子位置之间的关系,本文构建了里氏木霉基因组编码序列的中性图(GC12与 GC3)。结果显示(图2)GC12和 GC3不相关(R2=0.0009),且斜率接近0,说明里氏木霉密码子没有受到定向突变压力的影响,导致密码子偏好性的原因主要是选择压力。

图2 里氏木霉中性分析Fig.2 Neutrality plot of T.reesei

2.3 ENC-plot 分析

有效密码子数广泛用于测量单个基因的密码子偏好水平。为了阐明里氏木霉序列中核苷酸组成和密码子偏好之间的关系,绘制了ENC和GC3s图,从而探索了基因间密码子使用的主要特征。如图3所示,大部分基因的ENC观察值落在ENC期望值曲线之下,表明其里氏木霉密码子的使用主要受选择压力的影响,与中性绘图分析的结果一致。

图3 里氏木霉ENC-plot曲线Fig.3 Relationship between the ENC and GC3 in T.reesei

为了更准确地估计观测值和预期ENC值之间的差异,本文计算了(ENCexp-ENCobs)/ENCexp 的值。如图4所示,(ENCexp-ENCobs)/ENCexp的峰值为0~0.1,表明大多数基因的ENC值与基于GC3的预期ENC值略有不同。因此,大多数基因观察到的ENC接近基于GC3的预期ENC,尽管有部分基因观察到的ENC要低得多。

图4 有效密码子数(ENC)比率的频率分布图Fig.4 Frequency distribution of the effective number of codons (ENC) ratio

2.4 相关性分析

里氏木霉基因组编码区中GC含量、ENC和密码子出现频数(CN)间相关性分析结果显示(表1),GC Total与GC1、GC2、GC3 呈极显著相关(P<0.001),GC3与GC1、GC2相关性水平不显著,说明GC3与GC1、GC2的密码子组成存在较大差异。进一步发现,ENC与 GC1、GC2相关性较弱,与 GC3以及GC TOTAL极显著相关(P<0.001),表明密码子不同位置的碱基组成会影响有效密码子数。CN值与GC1、GC2、GC3、GC Total相关性都不显著,说明CN对ENC的影响很小,排除了基因序列过短对后续分析的影响。

表1 各基因相关参数的相关性分析Table 1 Correlation analysis of each gene-related parameters

2.5 PR2-plot分析

为了研究偏向密码子选择是否局限于高度偏向的蛋白质编码基因,通过PR2-plot分析了64个密码子氨基酸家族中嘌呤和嘧啶之间的关联[29],若密码子使用模式完全由突变造成,则G和C以及A和T的使用频率应相等。然而图5显示,在里氏木霉中G和C的使用频率高于A和T,说明里氏木霉密码子的使用模式除了核苷酸的组成,还受到其它因素的影响,例如选择压力等。

图5 PR2-plot分析Fig.5 Parity Rule 2 (PR2)-plot analysis

2.6 相对同义密码子使用分析

为了确定同义密码子的使用模式以及C/G末端密码子的首选程度,本文进行了相对同义密码子使用(RSCU)分析并计算了RSCU值(表2),绘制RSCU堆积图(图6)。在24个最常用的密码子中,22个(UUC、CUG、AUC、AUG、 GUC、UCC、 CCC、ACC、 GCC、 UAG、 CAC、 CAG、 AAC、 AAG、GAC、 GAG、 UCG、 UGG、 CGC、 AGC、 AGG、GGC)是C/G末端密码子(C末端:13个;G末端:9个),其余2个(UAA、AGA)是A末端密码子;没有一个首选密码子是U末端的。这些结果表明,核苷酸组成在里氏木霉密码子使用模式中起着不可或缺的作用。

图6 里氏木霉相对密码子使用堆积图Fig.6 Stacked plot of RSCU in T.reesei

表2 里氏木霉蛋白编码区相对同义密码子使用度Table 2 RSCU analysis of protein coding region acid in T.reesei coding sequences

2.7 高表达密码子的确定

以ENC值为偏好性标准,对基因进行排序,两极各取10%构建高低表达基因库,计算高低基因表达库密码子RSCU值和△RSCU值(表3),星号标注的21个密码子是高表达优越密码子,这些密码子(除了终止密码子UAA)全部以C或G结尾,这表明里氏木霉中的密码子使用偏向于C或G结尾的同义密码子。此外,4个密码子 CUC、GCC、CGC和GGC是里氏木霉高表达基因的最优密码子。

表3 里氏木霉最优密码子分析Table 3 Optimal codons in T.reesei

2.8 与其他真菌密码子偏好性比较

将里氏木霉分别与同属的长梗木霉、丝状模式真菌粗糙脉孢霉、模式真菌酿酒酵母的密码子使用频率进行比较(表4),其中R/L、R/N、R/S分别表示里氏木霉与长梗木霉、粗糙脉孢霉、酿酒酵母的每种密码子使用频率比值。结果显示,里氏木霉与酿酒酵母的密码子使用频率比值有34种大于等于2.0或小于等于0.5,占53.1%;与长梗木霉的密码子使用频率比值几乎都接近于1;而里氏木霉与粗糙脉孢霉的密码子使用频率比值有6种大于等于1.5或小于等于0.67,占9.3%。说明丝状真菌里氏木霉与模式真菌酿酒酵母的密码子偏好性差别较大,而与同属的长梗木霉以及丝状模式真菌粗糙脉孢霉的密码子偏好性差别相对较小。粗糙脉孢霉经常作为研究木质纤维素降解的模式真菌,将相关基因表达于里氏木霉时,两者密码子使用模式接近,无需考虑两者密码子的偏好性。

表4 里氏木霉与其他物种密码子偏好性比较Table 4 Comparision of codon preference between T.reesei and other species

3 讨论与结论

当重组蛋白异源表达时,密码子使用偏好对蛋白质表达水平有重要的影响。DNA序列中密码子的频率与物种中相应的tRNA呈正相关,tRNA浓度决定了可用于蛋白质翻译延伸的氨基酸数量,进而影响蛋白质合成的效率[30]。蛋白质的表达水平与密码子使用偏好高度相关。稀有密码子往往会降低翻译速度,甚至导致翻译错误。因此,密码子优化是增加蛋白质表达的最关键的决定因素。

里氏木霉作为工业生产纤维素酶的菌株,其某些突变株的蛋白分泌能力在发酵条件下可达到100 g/L[31-32],鉴于此优良特征,里氏木霉可以作为异源蛋白表达的优良宿主。对其密码子偏好性进行研究具有重要的理论研究和工业应用意义。在本研究中,通过对里氏木霉基因组进行分析,编码区的GC3(70.4%)含量表明,该基因组富含C+G,总体密码子使用偏向于C和G末端密码子。在进化过程中,若A(T)到G(C)的突变压力大,那么密码子的第3位碱基是G(C)的概率就要高[33]。在里氏木霉使用频率较高的24个密码子中,有22个均是以GC结尾的。通过对里氏木霉基因组密码子使用模式的分析发现,其密码子使用的偏好性受到选择压力的影响,其次自然选择在塑造密码子偏好性使用过程中也扮演着非常重要的作用。通过ENC差异构建了里氏木霉高低表达基因库,确定了21个高表达优越密码子和4个高表达最优密码子(CUC、GCC、CGC和 GGC)。

续表 4

将里氏木霉分别与其它真菌的密码子使用频率进行比较,发现里氏木霉基因的密码子偏好性与酵母的差异较大,这可以解释为什么里氏木霉的许多基因都无法实现在毕赤酵母中的异源表达,然而通过对来源于里氏木霉的Cel5A、Cel6A经过密码子优化后,可以成功在毕赤酵母中进行表达[34,35]。里氏木霉与粗糙脉孢霉的密码子偏好性差异最小,因此不经过任何密码子优化的里氏木霉基因可以在粗糙脉孢霉中成功表达并且互补粗糙脉孢霉相关基因的缺失表型[36]。这些例子充分表明密码子偏好性对基因表达的重要性。本研究对里氏木霉的密码子使用偏好性进行了系统分析,可为外源基因在里氏木霉以及与其进化关系较为接近的其他物种中进行异源表达时提供密码子优化指导。

猜你喜欢
木霉密码子里氏
深绿木霉T1 和哈茨木霉T21 抑菌活性及对番茄幼苗促生效果研究
泉州市平菇木霉病菌的分离及鉴定
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
木霉分生孢子和厚垣孢子对黄瓜叶片抗氧化系统及枯萎病防效的影响
木霉和杀菌剂联用对橡胶榕白绢病菌的抑制作用
以“题”带“面” 突破密码子与反密码子的特性
密码子与反密码子的本质与拓展
后汉党项贵妇沛国郡夫人里氏墓志研究
新型密码子、反密码子、氨基酸对应盘