10种植物PSY基因密码子使用偏好性分析

2020-04-22 09:27李慧姬吉雪花朱冉冉张中荣张海英
西北农业学报 2020年2期
关键词:密码子同义碱基

李慧姬,吉雪花,朱冉冉,张中荣,张海英,吕 慧

( 石河子大学 农学院,特色果蔬栽培生理与种质资源利用兵团重点实验室,新疆石河子 832000)

八氢番茄红素合成酶 (PSY)是植物类胡萝卜素生物合成途径中的关键酶,对于番茄红素的合成具有重要作用,PSY基因表达量高低显著调控着植物类胡萝卜素的合成和积累[1],敲除番茄SlPSY1基因导致番茄中类胡萝卜素缺失[2],PSY基因在烟草[3]、玉米[4]和番茄中超表达提高了胡萝卜素含量和其他次级代谢物。PSY基因不仅限制了类胡萝卜素的生物合成,而且在非生物胁迫中也起到作用。比如脱落酸、茉莉酸甲酯和盐胁迫[5-7]。在香菜中,茉莉酸甲酯处理后导致PSY基因表达增强[8]。

所有的生物共用一整套密码子,密码子是信使核糖核酸上编码氨基酸的三联体核苷酸序列,编码同一个氨基酸的密码子称为同义密码子[9]。密码子在生物体遗传信息的传递过程中起着关键作用。研究发现,密码子的使用存在着不均等现象,即使是同一物种,其不同蛋白质中相同氨基酸对密码子的选用频率也不同,即密码子的使用具有偏好性[10]。密码子使用的偏差存在于广泛的生物系统中,包括原核生物和真核生物。影响密码子偏好性的因素有很多,如突变压力、自然选择、基因功能等。在多细胞真核生物中,如果蝇和秀丽隐杆线虫中密码子的偏好性主要取决于翻译效率[11-12]。在病毒中,如TTSuV1或细小病毒科主要通过突变压力和自然选择之间的相互作用确定同义密码子的使用模式[13-15]。在植物中,揭示拟南芥、水稻、玉米的密码子使用偏好性主要由基因组成,CDS长度和基因表达水平等因素决定[16]。研究表明谷子类甜蛋白家族基因密码子使用进化过程中主要受自然选择压力影响[17],而苋菜AmMYB2基因的密码子偏好性受突变压力的影响较大[9]。由于这种密码子使用偏好性的存在会导致外源基因密码子与宿主表达系统中密码子的使用频率差异显著,直接影响外源基因的表达与翻译,因此,研究密码子偏好性有助于为外源基因选择更优的表达系统,这对于提高基因的表达效率必不可少[18]。

密码子优化在增强异源系统中的蛋白质和DNA表达的过程中起着重要作用[19]。辣椒中含有丰富的类胡萝卜素[20],是研究植物类胡萝卜素化学和生物合成的重要植物,成熟的辣椒果实中含有α-胡萝卜素、β-胡萝卜素、玉米黄质、叶黄素、隐黄质、辣椒红素及辣椒玉红素等多种不同的类胡萝卜素,其种类和含量决定辣椒成熟果实的颜色,从而影响果实品质[21]。因此本研究以辣椒PSY基因为例,预测最合适PSY基因的宿主。借助生物信息学的分析方法,提取番茄、辣椒、烟草等10种植物PSY基因的CDS序列,计算其碱基组成、有效密码子数、同义密码子相对使用度等参数,以揭示10种植物对PSY基因密码子的使用偏好性。

1 材料与方法

1.1 序列数据

10种植物PSY基因的全长编码区序列 (coding DNA sequence,CDS) 均来源于NCBI(http:∥www.ncbi.nlm.nih.gov) 的GenBank数据库,登录号见表1。

表1 PSY基因序列登录号Table 1 Accession number of PSY genes

1.2 相关密码子偏性分析指标

借助于Codon W1.4.4软件分析比较10种植物PSY基因密码子使用特性的参数,统计同义密码子第3位上的各个碱基含量(A3s、C3s、G3s和U3s)、密码子整体GC含量、编码同一氨基酸同义密码子第3位上的GC含量(GC3s),用于衡量碱基组成偏好程度。同时运用EMBOSS(http://vmbio-info.toulouse.inra.fr/emboss)中的CUSP和CHIP在线程序计算10种植物PSY基因的有效密码子数(effective number of codon,ENC)用于评价基因整体密码子使用偏好性的程度。FOP值用于衡量最优密码子在同义密码子中的使用频率,其值在0.360~1.000,FOP值越大密码子使用频率越强[22]。密码子适应指数(CAI)用于估计高表达基因中首选密码子的倾向程度。CAI 值介于 0 和 1.0 之间,密码子的CAI值越接近于1表示某基因中该密码子使用偏好性越强,表达水平较高[23]。

1.3 密码子使用偏差分析

通过计算59 个同义密码子的相对使用度(不包括 Met、Trp 和 3 个终止密码子),来衡量10种植物PSY密码子使用偏好性。RSCU 值小于 1.0时表示该密码子使用频率低;等于1.0时表示该密码子使用无差别;大于 1.0时表示对该密码子具有强的使用性[24]。

1.4 ENC绘图分析

ENC用于测量密码子偏倚于单个基因的程度。ENC的值从20(对于具有极端偏差的基因,仅使用一个每个氨基酸的密码子)至61(对于没有使用同义密码子的偏差的基因)。ENC绘图分析揭示ENC值和GC3s分布的关系,反映碱基组成对密码子偏好性的影响程度。

1.5 奇偶偏好分析及保守性分析

基于PSY基因密码子第3 位上的4 种碱基含量,以A3/(A3+T3)值为纵坐标,G3/(G3+C3)值为横坐标绘图,以坐标(0.5,0.5)为中心,从该中心出发的矢量表示了奇偶偏好(parity rule 2, PR2)的程度和方向。利用 DNAMAN 8软件对PSY基因的 CDS 序列进行保守性分析。

1.6 数据统计

密码子参数的相关性系数采用SPSS 18.0软件分析,使用MEGA 5.0软件根据10个物种的CDS序列构建遗传进化树。使用TBtools对10种植物密码子的RSCU值进行物种间聚类。CaPSY基因的密码子频率是使用CUSP程序计算(http://mobyle.pasteur.fr/cgibin/portal.py?#forms::cusp)。拟南芥、酿酒酵母、烟草、大肠杆菌和玉米基因组的频率从密码子使用数据库(http://www.kazusa.or.jp/codon/) 获得。

2 结果与分析

2.1 10种植物PSY基因密码子基础组成

表2列出了10种植物的PSY基因编码区核苷酸序列中A3s、C3s、U3s、G3s、GC和GC3s的含量。GC含量为0.419~0.452。与A3s、U3s、C3s和G3s的值相比,10种植物对于PSY密码子使用优先选择A和U末端密码子。这表明U末端或A末端同义密码子优先用于PSY编码区。GC3s含量为0.342~0.409,FOP含量为 0.312~0.424。其中拟南芥、胡萝卜和番木瓜的FOP值偏离0.360程度高,表明这3种植物对PSY基因密码子的使用偏好性更强。CAI 值为0.145~0.184,其中拟南芥CAI与FOP的预测值为0.184与0.424,表明拟南芥对PSY基因密码子的使用偏好性强于其他9种植物。

表2 10种植物中PSY基因密码子使用参数Table 2 Codon usage parameters of PSY gene in ten plant species

2.2 ENC绘图与奇偶性分析

图1-a显示10种植物中PSY基因的ENC与GC3s的分布图。通过计算 ENC 值与 GC3s 两个参数之间的相关性,可以检验突变压力对PSY基因密码子偏好性的影响程度。PSY基因序列的ENC值从46.93波动到52.57,平均值为 50.43。从ENC对GC3s的分布图中可以看出10个物种中的PSY基因均低于该曲线,但PSY基因分布范围不大,表明PSY基因密码子偏好性现象不仅仅受突变压力的影响,且10种植物PSY基因受突变压力影响程度相近。奇偶性结果显示(图1-b),AtPSY、FaPSY、CmPSY、DcPSY、ClPSY、CkPSY位于y轴0.5以上,矢量向上及左侧(大多数偏左),2个方向偏倚,说明这6种植物基因密码子第3位A和T的含量较高,LcPSY、CaPSY、NtPSY、SIPSY的G3/G3+C3位于x轴0.5右侧,说明该基因密码子第3位碱基G的使用频率大于C碱基。若PSY基因密码子的偏好性的形成完全受突变压力影响,则嘌呤碱基的使用频率与嘧啶碱基的使用频率应该相等,即 A 碱基与 T 碱基,G 碱基与 C 碱基的使用频率相等。这说明突变压力与自然选择都会影响这10种植物PSY基因的密码子偏好性。

2.3 10种植物PSY基因RSCU值分析

为了研究PSY基因的密码子使用模式,理解10种植物PSY基因的密码子偏好性使用差异,使用TBtools构建了不同物种PSY基因RSCU的层次聚类分析(图2)。结果表明,有几个同义密码子在物种间保持密码子使用的显著差异。不同物种中对于UUG、AGA、AGG、GGA、GAU、ACA、GUU、CCU、GCU、UCU、UCA的偏好性超过其他密码子。

2.4 PSY基因密码子偏好性的聚类分析

基于PSY基因的RSCU值的聚类树(图3)。显示出基于PSY基因CDS区序列而构建的系统发育树不相同的结果(图4),例如,DcPSY与FaPSY在系统发育树中位于同一族,而在聚类数中,CkPSY与FaPSY在一个组中。表明 10种植物PSY基因密码子使用模式存在一定差异。利用 DNAMAN软件对10种植物PSY基因的CDS区进行多序列比对来分析其序列保守性(图5),在902~1 010 bp 发现1个具有较多碱基的序列保守区(图 5红方框内序列),利用此位置的序列设计引物,有利于准确的克隆PSY基因。

图1 10种植物的PSY基因的同义第3密码子位置(GC3s)与有效密码子数(ENC)含量的分布及奇偶性分析Fig.1 Distribution of effective number of codons (ENC) and GC content at third synonymous codon position (GC3s) and parity analysis of PSY genes for the plant species

组织图上的每个长方形表示对应于物种的密码子(以列显示)的RSCU值(以行显示) Each square on self-organizing map represents the RSCU value of a codon (shown in columns) corresponding to the species (shown in rows) ;颜色编码从蓝色到红色不等,RSCU的值分别从0到3.45 Colorcoding varies from blue to red,with low to high values of the RSCU,respectively

图2PSY基因的同义密码子相对使用度(RSCU)的分层聚类分析
Fig.2 Hierarchal cluster analysis of relative synonymous codon usage (RSCU) for thePSYgenes

标尺代表欧氏距离系数 Ruler represents the coefficient of Euclidean distance

图4 由PSY基因编码的CDS序列的系统发育树Fig.4 Phylogenetic trees of protein sequences encoded by PSY genes

图5 10种植物的PSY基因编码区序列的联配( 部分展示)Fig.5 PSY gene coding region sequences of ten plant species(partial display)

2.5 辣椒PSY 基因的合适表达宿主的确定

为了选择PSY基因的合适表达宿主,以辣椒PSY基因密码子为代表,计算密码子使用频率与多个物种基因组之间的关系(表3)。结果表明,辣椒PSY基因在大肠杆菌(Escherichiacoli)和酿酒酵母(Saccharomycescerevisiae)中的使用频率高于其他物种,表明大肠杆菌和酿酒酵母是最合适PSY基因的宿主。

3 结论与讨论

研究发现有许多因素影响植物对PSY基因密码子的偏好性使用,可能涉及的有基因表达水平、自然选择、基因长度或GC的组成成分等[25-26]。本研究通过分析10种植物对PSY基因的密码子使用,发现10种植物对于PSY基因密码子优先选择含有A和U末端密码子。定向突变压力和自然选择是决定密码子偏好性的两个主要因素[27]。密码子适应指数(CAI)用于估计高表达基因中首选密码子的倾向程度。CAI 值介于 0 和 1.0 之间,较高的值可能表示密码子使用偏好性更强,表达水平更高。本研究中发现拟南芥的CAI值比其他植物更高,预测拟南芥对PSY基因密码子的使用偏好性更强,但通过对10种植物PSY基因RSCU值分析,当以RSCU值>1.6为标准时,发现烟草对PSY基因密码子的使用偏好性强于拟南芥。前人研究发现,在高表达基因中,密码子适应指数与密码子使用偏好性具有密切联系,而在低表达基因中,突变决定密码子使用的偏好性[28-30]。研究发现所有PSY基因都具有低表达水平,表明植物对PSY基因密码子的使用偏好性可能与突变有关[31]。

ENC与GC3s的绘图分析已被广泛用于研究各种物种间基因的密码子使用[32-35]。本研究发现10种植物中的PSY基因ENC值均低于标准曲线,但PSY基因分布范围不大,表明PSY基因密码子偏好性现象不仅仅受突变压力的影响。奇偶性结果显示,大部分点位于y轴0.5以上,矢量向上及左侧(大多数偏左)两个方向偏倚,结果显示10种植物基因密码子第3位A和T的含量较高,表明密码子使用偏性现象不仅仅由突变压力引起,还受其他因素的影响。基于PSY基因密码子的RSCU值的聚类树PSY基因的CDS区序列而构建的系统发育树不相同的结果,表明 10种植物PSY基因密码子使用偏好性存在一定的差异。利用 DNAMAN软件对 10种植物的PSY基因的 CDS 进行了序列联配,在 902~ 1 010 bp处发现1个具有较多碱基的序列保守区,利用此位置的序列设计引物,有利于准确的克隆PSY基因。

表3 辣椒PSY基因密码子使用频率与多个物种基因组之间的关系Table 3 Relationship between codon usage frequency of pepper PSY gene and genome of multiple species

基因的表达效率与受体系统密码子使用偏好性息息相关。根据受体生物密码子使用偏好性,对目标基因进行序列改造和修饰,是提高表达效率的有效途径之一[36]。辣椒(CapsicumannuumL.) 是一种重要的蔬菜作物, 在世界各地广泛栽培,同时辣椒中含有丰富的类胡萝卜素[20]。类胡萝卜素含量和成分的不同影响果实的品质进而影响商品价值;类胡萝卜素作为抗氧化剂,对人类癌症和心血管疾病预防能起到一定作用。PSY基因作为类胡萝卜素合成的关键酶基因,了解辣椒PSY基因密码子的使用偏好性并选择合适的表达宿主显得尤为重要,本研究以辣椒为例,计算密码子使用频率与多个物种基因组之间的关系。结果表明,辣椒PSY基因在大肠杆菌(E.coli)和酿酒酵母(S.cerevisiae)中的使用频率高于其他物种,表明大肠杆菌和酿酒酵母是最合适PSY基因的宿主。

猜你喜欢
密码子同义碱基
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
祈使句小练
基因“字母表”扩充后的生命
应用思维进阶构建模型 例谈培养学生创造性思维
以“题”带“面” 突破密码子与反密码子的特性
until用法巩固精练
新型密码子、反密码子、氨基酸对应盘
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析