邓 冰,贾鸥阳,杨雨娴,孟俊龙,常明昌,刘靖宇,*
(1.山西农业大学食品科学与工程学院,山西 晋中 030801;2.山西省食用菌工程技术研究中心,山西 晋中 030801;3.黄土高原食用菌山西省重点实验室,山西 晋中 030801)
目前已知的绝大多数生物共享一套遗传密码,即构成信使RNA 的4 种碱基按一定顺序排列形成三联体密码子,理论上种密码子决定了蛋白的氨基酸种类和排列顺序[1]。另外,常见的20 种氨基酸中甲硫氨酸(Met)和色氨酸(Trp)分别只对应1个密码子,UGA、UAA 和UAG 不编码氨基酸(终止密码子),其余18 种氨基酸分别对应2~6 个密码子(即同义密码子)[2]。在不存在环境胁迫和突变偏差的前提下,同义密码子中各核苷酸的理论突变概率一致,即同义密码子的出现频率相同[3]。但随着现代分子生物学和高通量测序技术的不断发展,国内外研究工作者发现不同物种基因组之间密码子使用存在一定偏好性[4-5]。如菠萝基因组编码亮氨酸(Leu)的6 个密码子中,CTC、TTG、CTT 以及CTG 的相对使用度(Relative synonymous codon usage,RSCU)大于1.0,显著高于TTA 和CTA(0.6 左右);而竹节参中仅TTG 和CTT 的RSCU 值大于1.0(1.4 左右),其余同义密码子的RSCU值在0.75 左右[4-6]。另外进化关系接近物种的密码子偏好性相似,密码子偏好性可以作为判断物种系统发育的依据:单子叶植物同义密码子第3 位碱基的鸟嘌呤和胞嘧啶含量(The guanine and cytosine content of the third nucleotide of synonymous codon,GC3s)显著高于双子叶植物,而单子叶植物中进化程度高的菠萝,其密码子偏好性更偏向于双子叶植物[6-7]。近年来随着双孢蘑菇、金针菇、草菇、羊肚菌、蛹虫草以及香菇等多种食用真菌的基因图谱绘制工作陆续完成,基于基因组数据解析不同食用真菌密码子使用特点及偏性形成因素,对于进一步完善常见食用真菌系统分类具有重要意义[8]。
香菇(Lentinula edodes)是目前国内产量最多的食用菌种类,生产区域涉及河南、河北、福建、贵州和浙江等多个省份,预计行业产值近1000 亿元[9]。香菇呼吸代谢旺盛,采后贮藏期间极易发生软化、褐变等品质劣变现象[10]。通过基因工程手段能为解析香菇品质劣变机制提供思路,而知悉香菇的密码子偏好性是进行关键基因功能研究和遗传转化研究的基础[11]。基于此,笔者根据香菇基因组数据确定各密码子使用度和偏好性影响因素,基于现有转录组数据鉴定香菇基因组最优密码子,以期通过以上研究为借助分子手段优化香菇采后贮藏方法提供依据。
从NCBI 下载香菇细胞核基因组所有编码序列(https://www.ncbi.nlm.nih.gov/projects/r_gencoll/ftp_service/nph-gc-ftpservice.cgi/?HistoryId=MCID_627779 e66ca1313a5470ffa6&QueryKey =3&ReleaseType =Gen Bank&FileType=CDS_FASTA&Flat=true),使用TBtools软件提取其中长度大于300 bp,且以ATG 起始同时以终止密码子(TGA、TAG、TAA)结束的序列。以课题组香菇子实体采后贮藏期间的有参转录组测序数据为依据,参照上述筛选结果对所有基因的表达水平(FPKM 值)进行排序,分别选取前2.5%和后2.5%为高表达基因(High expression genes,HEG)和低表达基因(Low expression genes,LEG)序列集。
运行CodonW 软件,选择Initial Menu Option 中的Codon usage incidences 进行不同序列集的密码子参数分析,包括密码子适应指数、有效密码子数以及GC 含量等指标。具体操作流程如下:将全基因组编码序列集、HEG 序列集以及LEG 序列集文件置于CodonW 软件包文件夹,运行软件,选择Codon usage indices,点击Select all,选择载入文件并在input.dat后输入待处理文件名,结果文件名称默认与序列文件名称相同,点击Run C-codons,随后其他参数均设为默认值。全部运行结束后在初始界面选择Quit,同时得到.out 和.blk 两种类型结果文件,包括同义密码子第3 位各碱基的含量(T3s、C3s、A3s、G3s 和GC3s),密码子不同位置GC 含量(GC1、GC2 和GC3),以及密码子适应指数(Codon adaptation index,CAI,反映各基因密码子与密码子最佳使用模式的偏性程度)。
使用百迈克云平台(https://www.omicstudio.cn/tool?order=complex)的相关性分析软件进行各密码子使用参数与基因表达水平的Pearson 相关系数计算,并进行相关性网络图绘制。以相关系数(rho)>0.3 且P值<0.01 为标准判定为显著正相关,以rho<-0.3且P值<0.01 为标准判定为显著负相关。
使用在线软件EMBOSS explorer-CUSP 分别计算各密码子在基因组编码序列集、HEG 序列集、LEG 序列集中的RSCU 值和使用频率,将基因组编码序列集中RSCU 值>1 的同义密码子定义为香菇细胞核基因组高频密码子,以HEG 序列集与LEG 序列集RSCU差值(ΔRSCU)≥0.2 为标准筛选香菇细胞核基因组最优密码子。
以CodonW 软件计算出的不同序列集的各指标为依据进行密码子使用影响因素分析。奇偶偏好分析:分别以各编码基因的G3/(G3+C3)和A3/(A3+T3)为横、纵坐标进行散点图绘制(G3、C3、A3 和T3 分别为密码子第3 位碱基G、C、A、T 的含量),通过分析散点分布区域判断各密码子第3 位碱基的偏倚倾向[12]。中性绘图:分别以各编码基因的GC3 和GC12(密码子第1 位和第2 位GC 含量的平均值)为横纵坐标进行散点图绘制,通过分析散点在图中对角线周围的分布情况判断选择压力和进化约束力对密码子使用的影响[13]。ENC 绘图:分别以各编码基因的GC3s 和有效密码子数(Effective number of codon,ENC)为横纵坐标进行散点图绘制,以Nc=2+s+29/[s2+(1-s)2]绘制标准曲线(s 为GC3s),通过分析散点与标准曲线的偏离程度判断中性突变和选择压力对密码子偏好的影响[14]。ENC 期望值分布频率:以(ENCexp-ENCobs)/ENCexp 为横坐标(其中ENCexp 为预期ENC 值,ENCobs为观察ENC 值),以各区间内编码基因数量为纵坐标绘制柱形图,分析ENC 期望值的分布情况[15]。
通过在线数据库Codon Usage Database 查找双孢蘑菇(Agaricus bisporus)、金针菇(Flammulina filiformis)、蛹虫草(Cordyceps militaris)、草菇(Volvariella volvacea)、羊肚菌(Morchella conica)、银耳(Tremella fuciformis)、赤芝(Ganoderma lucidum)和球孢白僵菌(Beauveria bassiana)等真菌各密码子相对使用度,使用Heml 软件绘制热图(log2 归一化处理)并进行聚类分析。
从已公布的香菇基因组数据中提取9805 个编码基因,剔除其中非ATG 起始、无终止密码子以及短于300 bp 的编码序列,共获得了9272 个用于密码子偏好性分析的候选序列。另外,基于现有转录组数据,从基因组候选序列中筛选出232 个HEG 序列和232个LEG 序列,分别以基因组编码序列、HEG 序列和LEG 序列为对象统计密码子碱基组成和偏好性相关参数。结果显示:3 组序列均呈现GC1>GC3>GC2的趋势(表1),表明香菇基因组编码序列在选择密码子时倾向于以G/C 起始,以A/T 结尾。ENC 值呈现出基因组序列>LEG 序列>HEG 序列的趋势,表明与相比基因组中的其他基因,HEG 存在一定密码子偏性。HEG 序列的GC 含量、C3s 值、GC3 值、GC3s 值和CAI 值均显著高于基因组序列和LEG 序列(P<0.05),ENC 值则显著低于其他两组序列(P<0.05),表明香菇中基因的高表达可能与密码子G/C 碱基分布不同造成的密码子偏好性有关[16]。
表1 香菇编码序列碱基组成及密码子参数Table 1 Nucleobase composition and codon usage parameter in L.edodes
对各序列密码子碱基组成、CAI 值、ENC 值以及基因表达之间的相关性进行分析(图1),结果显示基因表达与序列C3s 含量、GC3、GC3s、GC 含量、C 含量以及CAI 呈显著正相关,与密码子A3s 和A 呈显著负相关;ENC 与G3s 和A3s 呈显著正相关,与T3s 和CAI 含量呈显著负相关,进一步证实G/C 碱基分布不同造成的密码子偏好会影响香菇基因表达。
图1 香菇密码子参数与基因表达相关性网络Fig.1 Correlation network between codon parameters and gene expression of L.edodes
由图2 可见,香菇基因组编码序列中共29 个高频密码子(RSCU 值>1),其中12 个以U 结尾,10 个以A 结尾,6 个以C 结尾,1 个以G 结尾。苯丙氨酸(Phenylalanine,Phe,F)、酪氨酸(Tyrosine,Tyr,Y)、组氨酸(Histidine,His,H)、谷氨酰胺(Glutamine,Gln,Q)、天冬酰胺(Asparagine,Asn,N)、赖氨酸(Lysine,Lys,K)、精氨酸(Arginine,Arg,R)、天冬氨酸(Aspartic acid,Asp,D)和谷氨酸(Glutamic acid,Asp,E)分别有1 个RSCU 值>1 的同义密码子,其余氨基酸(蛋氨酸和色氨酸除外)分别有2~3 个RSCU 值>1 的同义密码子。3 个终止密码子(Terminator,Ter)中UGA 的RSCU 值>1,整体使用次数为4016(43.31%),为香菇中最常用终止密码子。
图2 香菇基因组相对同义密码子使用度Fig.2 RSCU of L.edodes genomic coding sequences
由表2 可见,基于ΔRSCU 范围鉴定出16 个最优密码子,其中11 个(68.7%)以C 结尾,5 个(31.3%)以U 结尾,该结果与密码子C3s 和基因表达相关性的分析结果一致,即香菇最优密码子优先以C 结尾。苯丙氨酸(Phe,UUC)、异亮氨酸(Ile,AUC)、缬氨酸(Val,V)、脯氨酸(Pro,P)、苏氨酸(Thr,Y)、丙氨酸(Ala,A)、酪氨酸(Tyr,UAC)和天冬酰胺(Asn,AAC)各有1 个最优密码子,ΔRSCU 范围为0.21~0.43。亮氨酸(Leu,CUU 和CUC)、丝氨酸(Ser,UCU 和UCC)、精氨酸(Arg,CGU 和CGC)和甘氨酸(Gly,CGU 和CGC)各有2 个最优密码子,对比分析以上各同义密码子ΔRSCU 以及在不同组(HEG 和LEG)中RSCU值和出现次数,可以发现同义密码子中碱基均匀分布更有利于基因表达,即CUC >CUU、UCU >UCC、CGU>CGC、GGU>GGC。
表2 香菇高表达基因和低表达基因相对同义密码子使用度Table 2 RSCU of HEG and LEG of L.edodes
PR2-plot 分析(图3A)结果显示:基因组序列和LEG 序列中分别有6002 个(68.14%)和132 个(56.89%)基因位于G3/(G3+C3)<0.5 且A3/(A3+T3)<0.5 区域(图中左下方),即密码子偏向于以U/C 结尾;HEG序列中137 个(59.05%)分布于G3/(G3+C3)>0.5 且A3/(A3+T3)<0.5 区域(图中右下方),即该部分编码基因的密码子偏向于以U/G 结尾。以上结果表明香菇基因组中4 种碱基使用不均衡,密码子使用模式受选择和突变等多种因素影响[17]。
中性绘图分析(图3B)结果显示:HEG 多位于中性图右侧(141 个,60.78%),且GC12 与GC3 无显著相关性;基因组序列和LEG 序列中分别有5677 个(64.81%)和172 个(70.78%)位于中性图左侧,并且LEG 序列中GC12 与GC3 呈显著正相关(相关系数为0.38)。以上结果表明香菇相关基因高表达是适应性进化和自然选择的结果,而其他基因的表达模式则主要受到进化过程中基因突变的影响[18]。
香菇全基因组中仅有2 个编码序列的ENC 值小于35,多数基因不具有密码子偏好性[19]。ENC-plot 分析结果显示:香菇全基因组中多个基因不同程度偏离期望曲线,其中HEG 整体偏离程度最大(图3C)。ENC-plot 分析中散点与期望曲线的偏离代表碱基突变和选择压力对基因密码子偏好性的影响程度[20],表明外界选择压力影响了香菇密码子偏好性形成,其中HEG 序列密码子偏好性形成受到的影响最大。另外香菇大部分基因的(ENCexp-ENCobs)/ENCexp 位于0~0.1 区域(图3D),说明大部分基因的ENC 观察值低于期望,同时整体差异较小[19],这一结果表明中性突变是香菇密码子偏好性形成的重要因素之一。
图3 香菇密码子偏好性形成影响因素分析Fig.3 Analysis of influencing factors on the formation of codon preference in Lentinus edodes
编码基因密码子偏性能在一定程度上反映物种间的进化关系。将香菇与常见食用菌细胞核基因组的密码子偏好性进行对比(图4),发现香菇与金针菇以及双孢蘑菇密码子使用偏性相似,其中与双孢蘑菇相似度最高;银耳与赤芝,蛹虫草与球孢白僵菌在密码子使用偏性上相似。
图4 香菇与常见食用菌密码子偏好性比较及聚类分析Fig.4 Comparation and cluster analysis of codon bias of L.edodes and common edible fungi
密码子是生物体编码基因的基本结构,明确其偏好性可以为探明物种基因进化关系、提高蛋白异源表达水平以及解析基因功能等生物学问题提供依据[21]。常见食用菌中双孢蘑菇和蛹虫草的平均ENC 值分别为56.13 和45.66,分别有9 个(10583 个编码基因)和202 个(9651 个编码基因)编码基因的ENC 值低于35[22-23];香菇细胞核编码基因的平均ENC 值56.93,9272 个基因中仅2 个基因的ENC 值小于35,说明与常见食用菌相比其整体密码子偏性较弱。香菇细胞核编码基因的平均GC 含量(48.66%)低于双孢蘑菇(49.08%)、羊肚菌(52.2%)、金针菇(52.34%)和蛹虫草(59.53%)等大型真菌,表明与其他食用菌相比香菇倾向于使用AT 丰富的密码子[22-25],香菇高频密码子分析结果亦证实了此观点。对基于转录组数据筛选出的高表达基因的密码子偏性进行分析,发现香菇细胞核基因的高表达与密码子GC 含量、GC3 含量以及GC3s 呈显著相关;同时HEG 序列集中C3s 含量显著高于全基因组序列和LEG 序列,而G3s 含量则显著低于全基因组序列和LEG 序列,该结果与最优密码子偏好以C 结尾相一致。双孢蘑菇的最优密码子亦偏向于以C 结尾,同时其编码基因GC 含量与香菇相似[22],暗示两物种间进化关系接近。基于密码子使用频率对香菇与常见真菌进行聚类分析,结果也证实两物种密码子使用偏性相似。
碱基组成、序列长度以及信使RNA 二级结构等均会影响单一基因的密码子偏性,不同物种基于环境压力和基因组特性演变出各具特点的密码子使用模式[26]。双孢蘑菇、蛹虫草和金针菇等大型真菌的基因组密码子偏性呈现出受碱基突变和选择压力双重影响的特点,而高表达基因则更多是自然选择的结果[22-24]。与大型真菌不同,落叶松-杨栅锈菌的基因组密码子偏性更多是碱基突变的结果,推测可能是由于落叶松-杨栅锈菌转性寄生且宿主单一,选择压力对于密码子偏性的影响有限[27]。与双孢蘑菇、蛹虫草和金针菇等食用菌相似,自然选择是香菇高表达基因密码子偏性形成的主要因素,并且以上食用菌的最优密码子均倾向于以C 结尾[22-24],推测与胞嘧啶易发生甲基化从而调控信使RNA 稳定性有关[28]。
基因组学与分子生物学的快速发展为解析物种关键基因功能提供了可能[8]。以近年来获得广泛关注的CRISPR/Cas9 基因编辑技术为例,该系统以sgRNA 为向导,指导crRNA-tracrRNA-Cas9 复合物对DNA 目标区域进行编辑[29]。目前该基因编辑系统在香菇中的应用相对滞后,基于香菇密码子偏好性对Cas9 进行密码子优化可以推动香菇CRISPR/Cas9 基因编辑技术的优化和应用,为解析香菇采后品质劣变相关基因的功能研究提供参考。