大麦HD-Zip基因家族密码子偏好性分析

2020-08-03 06:04多杰措熊辉岩段瑞君
麦类作物学报 2020年2期
关键词:密码子大麦物种

李 媛,多杰措,熊辉岩,段瑞君,3

(1.青海大学生态环境工程学院,青海西宁 8 10016;2.青海大学农牧学院,青海西宁810016;3.青海省青稞遗传育种重点实验室,青海西宁 810016)

同源异型域-亮氨酸拉链(homeodomain-leucine zipper,HD-Zip)蛋白是高等植物所特有的转录因子,根据HD-Zip转录因子家族基因序列特征和生物功能将其划分为4个亚家族(Ⅰ、Ⅱ、Ⅲ、Ⅳ)[1],每个家族成员都含有高度保守的同源异型结构域(homeodomain,HD) 和亮氨酸拉链结构域(leucine zipper,LZ)构成的特征结构[2]。HD-Zip在植物的生长发育和适应性抗逆过程中起着至关重要的调控作用,在多种植物中已经被广泛研究[3-6],尤其在水稻(Oryzasativa)[7]、木薯(Manihotesculenta)[8]、陆地棉(Gossypiumarboreum)[9]、番茄(Solanumlycopersicum)[10]、大豆(Glycinemax)[11]等植物有关抗逆方面的报道较多。

密码子是遗传信息从DNA到蛋白质的过程中不可或缺的组份,生物体内普遍存在的同义密码子不均衡使用的现象称为密码子偏好性(codon bias)[12]。密码子偏好性现象存在物种及基因差异[13],其形成主要是物种在长期进化过程中受到了突变压力(密码子偏好性与序列GC含量有关)[14]和自然选择压力(密码子偏好性与翻译过程有关)[15]的影响。分析密码子偏好性特征有助于理解生物体的环境适应性和分子进化过程[16]。

大麦(HordeumvulgareL.)是世界上最古老的粮食和饲料作物之一,也是中国重要的谷类作物之一,具有较高的经济价值和较强的抗逆性[17]。大麦作为非生物胁迫抗性的代表作物,其基因组的最新物理、遗传和功能序列组装分别于2012年[18]和2016年[19]完成,为作物育种和改良提供了重要参考资料。目前大麦个别HD-Zip基因的研究有所报道,而大麦HD-Zip基因家族密码子偏好性分析尚未见报道。因此,本研究拟针对大麦HD-Zip转录因子家族进行密码子偏好性特征分析,同时为HvHD-Zip IV 5选择最适异源受体,以期为大麦HD-Zip家族基因密码子使用模式和分子进化及功能研究提供参考。

1 材料与方法

1.1 数据来源

本研究所分析的32个大麦HD-Zip家族成员(HvHD-Zip)均为本课题组筛选所得,参考柏锡等[20]的5条筛选原则进行目的基因序列筛选,HvHD-Zip IV 5序列(HORVU7Hr1G073440.1)下载自IPK数据库(https://www.ipk-gatersleben.de/),其余烟草(XM_016659678.1,Nicotianatabacum)、水稻(EU847516.1,O.sativa)、小麦(JF332037.1,Triticumaestivum)、拟南芥(AJ431182.2,Arabidopsisthaliana)、玉米(NM_001352895.1,Zeamays)、大豆(NM_001361192.1,G.max)、山羊草(XM_020321809.1,Aegilopstauschii)、番茄(NM_001247304.2,S.lycopersicum)等的HD-Zip基因序列均来自NCBI数据库(https://www.ncbi.nlm.nih.gov/)。拟南芥、烟草、水稻、大肠杆菌、酵母菌基因组密码子使用频率数据来源于Codon Usage Database(http://www.kazusa.or.jp/codon/)。

1.2 大麦HD-Zip基因家族密码子偏好性参数 计算

使用EMBOSS在线服务(http://www.bioinformatics.nl/emboss-explorer/)的CUSP程序对序列GC、GC1、GC2、GC3和密码子使用频率进行分析,GC代表密码子的平均GC含量,GC1、GC2、GC3分别代表三联密码子第一、第二和第三位碱基的GC含量,GC12代表GC1、GC2平均值,GC3值反映密码子偏好性影响因素(选择压力和突变压力),分布范围越集中则受自然选择压力影响越大[21]。用CHIPS程序对有效密码子数(effective number of codon,ENC)进行统计,该值越靠近20说明密码子偏好性越强,反之则越弱[22]。

使用CodonW 1.4.2软件分析密码子适用指数(codon adaptation index,CAI)、密码子偏好性指数(codon bias index,CBI)、最优密码子使用频率(frequency of optimal codons,FOP)和相对同义密码子使用度(relative synonymous codon usage,RSCU)等参数。CAI取值越靠近1则代表密码子偏好性越强[23]。RSCU>1表明该密码子使用频率较高,反之则较低,RSCU=1时无偏好性[24]。

在Excel中将各基因按ENC值大小排列,两端各选出3个(10%)基因,分别作为高表达和低表达基因建立偏好性库,计算ΔRSCU值,选取ΔRSCU>0.08的密码子作为高表达优化密码子,为了避免单一分析方法引起结果偏差,从高表达优化密码子和高频密码子中选出共有的作为最优密码子[25]。

1.3 中性绘图及ENC-plot绘图分析

中性绘图分析(Neutrality plot)以GC12为纵坐标作图,GC3为横坐标, GC12和GC3相关性越高则密码子偏好性受突变压力影响越强,反之则受选择压力影响较强[26]。

ENC-plot绘图分析以ENC值为纵坐标,GC3为横坐标作散点图,参考杨国锋等[27]的方法绘制标准曲线。散点分布越靠近标准曲线范围,则说明密码子偏好性受突变压力影响越大,反之则受自然选择压力影响较大[28]。

1.4 系统聚类分析

利用ClustalX软件对不同植物HD-Zip基因编码氨基酸序列进行完全比对分析,采用MEGA7.0软件的组间邻接法(Neighbor joining)构建系统发育树,参数bootstrap值设为1 000。

参考刘汉梅等[29]的报道,利用SPSS 20软件对除编码精氨酸(Arg)、亮氨酸(Leu)和丝氨酸(Ser)的密码子及三个终止密码子外的9个物种的HD-Zip基因的RSCU进行聚类分析。

2 结果与分析

2.1 大麦HD-Zip家族密码子偏好性参数分析

32个大麦HD-Zip家族蛋白共含14 942个密码子(包括终止密码子),其中RSCU>1的密码子有10 675个,没有以A或U结尾的密码子,以C结尾的密码子有5 943个,以G结尾的密码子有4 732个,分别占RSCU>1的密码子总数的55.67%、44.33%。这表明以C或G结尾的密码子是大麦HD-Zip基因家族的偏好性密码子,其中CUG密码子的RSCU值为2.59,使用频率最高 (表1)。

表1 大麦HD-Zip基因家族各氨基酸相对同义密码子使用度

根据△RSCU>0.08的范围确定了大麦HD-Zip家族基因高表达优化密码子为33个,其中只有1个以C结尾,2个以G结尾,其余均以A或U结尾。从33个高表达优化密码子中挑选出与高频密码子共有的密码子作为最优密码子,发现大麦HD-Zip转录因子家族基因有2个最优密码子,分别为AUC和AGG。

大麦HD-Zip家族基因经CHIPS程序和CodonW软件分析得CAI、CBI和FOP平均值分别为0.253、0.170、0.519(表2)。ENC平均值为40.19,最小值为28.05(HvHD-ZipI7),最大值为57.17(HvHD-ZipⅢ1),32个HvHD-Zip基因中有20个基因(62.5%)的ENC值小于35。GC1、GC2、GC3和GC平均含量分别为 64.37%、48.35%、82.36%和65.03%,GC3值分布在 0.48~0.98之间,分布较分散。说明大麦HD-Zip家族基因密码子使用偏好性较弱,在进化过程中主要受突变压力的影响。

表2 大麦HD-Zip基因家族密码子偏好性

由表3可知,GC3与GC1、ENC与GC1和GC3、GC与GC1、GC3和ENC的相关性均达极显著水平(P<0.01);其余指标间的相关性均达显著水平(P<0.05),其中,ENC与其他指标均呈显著或极显著负相关性。

表3 各参数相关性

2.2 大麦HD-Zip基因家族密码子偏好性影响因素 分析

大麦HD-Zip基因家族中性绘图(图1A)显示,横坐标GC3值分布在0.48~0.98之间,纵坐标GC12值分布在0.48~0.64之间, GC12与GC3相关性达到显著水平(P<0.05),说明大麦HD-Zip家族基因密码子偏好性主要受突变压力的影响。ENC与GC3关联分析(ENC-plot)如图1B所示,有24个HvHD-Zip基因(75%)的GC3值分布在0.79~0.95之间,相应的ENC值分布范围较广。

图1 大麦HD-Zip家族基因GC12与GC3、ENC与GC3的相关性

各点均分布于标准曲线下方,为了更直观的显示预期ENC与实际ENC值的偏离程度,参考杨国锋等[27]的方法计算了ENC比值频数。由比值频数分布(表4)可以看出,大多数ENC比值频数处于0.03~0.11间,说明实际ENC值与预期ENC值较相近,大多数HvHD-Zip基因在进化过程中受到较强的突变压力影响,同时也可能受到其他因素尤其是选择压力的影响。

表4 ENC比值频数分布

2.3 HD-Zip基因聚类分析

经过前期研究发现,大麦HD-Zip IV 5基因在大麦HD-Zip家族中具有代表性,因其密码子偏好性参数均接近于大麦HD-Zip家族偏好性参数均值,所以选择HD-ZipIV5对9个物种进行基于所编码蛋白序列的系统发育分析及基于RSCU值的聚类分析。基于蛋白序列进行的系统发育分析结果(图2B)显示,9个物种聚类成两大分支,其中大麦与山羊草亲缘关系最近,并与小麦一起单独形成一支。另一个分支则聚集了拟南芥、大豆、烟草、番茄等4个双子叶植物及亲缘关系较远的玉米、水稻等2个单子叶植物。基于RSCU值的聚类结果(图2A)显示,大麦与玉米单独归为一类,大豆、山羊草、小麦、水稻同类,烟草、番茄、拟南芥聚为一类。这表明基于同义密码子相对使用度的HD-Zip基因聚类与物种进化没有必然关系。

图2 不同物种HD-Zip基因聚类分析

2.4 HvHD-Zip IV 5最适受体选择

密码子使用频率是各密码子占编码该氨基酸的密码子的比例,是衡量物种间密码子使用偏性差异的重要指标。两个物种间密码子使用频率比值在0.5~2.0之间,则表示两个物种的密码子偏好性接近;比值≤0.5或比值≥2.0,表示两个物种间密码子偏性差异较大[30]。由表5可知,HvHD-Zip IV 5与大肠杆菌、酵母菌的基因组密码子使用频率比值具明显差异的分别有30和43个,表明大肠杆菌真核异源表达系统较酵母菌原核表达系统更适合HvHD-Zip IV 5异源表达。HvHD-Zip IV 5与遗传转化模式植物拟南芥、水稻和烟草基因组密码子使用频率比值具有明显差异的密码子分别有41、23、44个,说明水稻是HvHD-Zip IV 5遗传转化的最适异源 受体。

表5 大麦HD-Zip IV 5与不同物种间基因组密码子使用频率比较

3 讨 论

在物种适应性进化过程中,密码子形成了一定的偏好使用模式且这种偏好性具有物种和基因差异。已有研究表明,密码子偏性现象以非随机的方式广泛存在于生物体中,这种现象反映了细胞在适应环境期间的进化事件[31]。密码子偏性分析是分子进化及基因功能研究的重要补充。本研究通过密码子偏性特征分析发现,大麦HD-Zip家族基因偏爱以C或G结尾的密码子,使用频率最高的是CUG,这一结果再次证明单子叶植物偏爱使用G或C结尾的密码子[12]。通常被偏好使用的特定的一种或几种同义密码子称为最优密码子[23]。本研究中使用高表达优化密码子和高频密码子共有密码子的挑选方法确定了2个大麦HD-Zip家族基因最优密码子,分别是AUC和AGG。进一步分析得到大麦HD-Zip家族基因CAI、CBI和FOP平均值分别为0.253、0.170、 0.519,GC3值分布在0.48~0.98范围内,ENC平均值为40.19,有20个基因(62.5%)的ENC值小于35,表明大麦HD-Zip家族基因密码子使用偏好性较弱,在香蕉Aux/IAA家族研究中也有类似结果[32]。中性绘图分析发现,GC12与GC3的相关性较强,ENC-plot绘图分析显示,ENC值散点均分布于标准曲线下方,且实际ENC值与预期ENC值较相近,这都表明大麦HD-Zip家族基因密码子偏好性形成主要受到突变压力影响。这与蒺藜苜蓿WRKY转录因子基因(MtWRKY)密码子偏好性受突变压力影响一致[33]。当然,不同物种密码子偏好性影响因素并不一致,例如在谷子类甜蛋白基因家族密码子偏性主要受到自然选择压力影响[34]。

大麦HD-Zip基因家族共有32个成员,根据序列结构特征可分为4个亚家族,其中HvHD-Zip IV 5基因属于大麦HD-Zip IV亚家族[35],通过密码子偏好性分析发现,HvHD-Zip IV 5基因各项参数均接近大麦HD-Zip家族各参数均值,因此在后续分析中选择了具有代表性的HvHD-Zip IV 5基因。对包括HvHD-Zip IV 5在内的9个不同物种来源的HD-Zip聚类分析表明,基于同义密码子相对使用度的HD-Zip基因聚类关系与物种亲缘关系无必然联系。晁岳恩等[36]对11种植物psbA基因进行密码子偏好性分析,发现基于RSCU的聚类并不能反映出植物之间的亲缘关系,这与本研究结果相似;也有研究认为,基于密码子偏好性分类能反映出基因进化规律,如龙眼生长素受体基因TIR1[37]和小麦CBL4基因[38]。造成不同结果的原因可能是密码子偏好性具有物种和基因间的差异。

大麦HvHD-Zip IV 5基因与大肠杆菌及酵母菌基因组密码子使用频率比较分析发现,大肠杆菌更适合作为HvHD-Zip IV 5异源表达受体,这与小麦抗逆转录因子DREB最优受体系统分析结果不同[39]。HvHD-Zip IV 5与遗传转化模式植物拟南芥、水稻和烟草基因组密码子使用频率比较分析发现,HvHD-Zip IV 5与水稻基因组密码子使用频率差异较小,表明水稻是该基因的最适异源受体。但密码子使用频率差异的存在表明,想要以高效率进行异源表达,还需要对HvHD-Zip IV 5基因密码子进行改造和优化。

本研究利用生物信息学分析方法,首次分析了大麦HD-Zip转录因子家族基因密码子偏好性特征,并找到了该家族代表基因HvHD-Zip IV 5较合适的异源表达受体,为后续大麦HD-Zip转录因子家族的分子进化和功能研究奠定基础。

猜你喜欢
密码子大麦物种
世界和中国的哪些地方产大麦
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
Global interest in Chinese baijiu
新型密码子、反密码子、氨基酸对应盘
回首2018,这些新物种值得关注
电咖再造新物种
对“翻译”过程中几个问题的探讨
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析
世界上的15个最不可思议的新物种
大麦若叶青汁