高等植物类黄酮3′5′-羟化酶基因cDNA及其氨基酸序列的生物信息学分析

2021-05-31 03:09杨晓娜陈自宏陈宏艳谢雯颖
保山学院学报 2021年2期
关键词:亲水性结构域氨基酸

杨晓娜 陈自宏 陈宏艳 谢雯颖

(保山学院资源环境学院,云南 保山 678000)

类黄酮−3′5′− 羟基化酶(F3′5′H)是花色素苷代谢途径中一个关键性酶。F3′5′H催化花色素B环3端、5端羟基化,是花色呈现蓝色及紫罗兰色的前提条件之一,是合成蓝色的花翠素−3−葡萄糖苷的关键酶,能使花趋于蓝色[1]。某些花卉的蓝色色素是通过导入F3′5′H来实现的。所以,F3′5′H被称为蓝色基因[2]。

通过NCBI查询,F3′5′H的cDNA全长已从多种植物中获得,大约在1 000 bp−2 000 bp之间。2005年,马铃薯(S.tuberosum)F3′5′H的cDNA被克隆,全长1 714 bp,编码区1 530 bp,编码509个氨基酸[3]。2006年,毛果杨(P.trichocarpa)F3′5′HcDNA被克隆,全长1 602 bp,编码区1 530 bp,编码509个氨基酸[4]。2007年,大花三色堇(V.×wittrockiana)花瓣中克隆到F3′5′HcDNA全长为1 781 bp,编码区为1 521 bp,编码506个氨基酸[5]。2008年,锦绣杜鹃(R.×pulchrum)F3′5′H的cDNA被克隆,全长1 871 bp,编码区1 551 bp,编码 516个氨基酸[6]。2010年,从仙客来(C.persi⁃cum)的花瓣中克隆得到的cDNA全长为1 719 bp,编码区为1 527 bp,编码508个氨基酸[7]。2004年,孟丽和戴思兰分析了F3′5′H与蓝色花的形成,文中提到F3′5′H的结构[8],但目前对F3′5′H进行系统的生物信息学分析鲜有报道。

本研究运用生物信息学软件(ProtParam、BLAST、TargetP 1.1 Server、SignalP 3.0 Server、ProtScale、TMHMM、ProtScale、PSORT II Prediction、DNA−MAN、SOPMA、GOR4、Pfam 22.0、CDD)对F3′5′H氨基酸序列的相关信息,如:理化性质、相似性、信号肽、导肽、疏水性/亲水性、跨膜结构域、分子系统进化、二级结构、结构域、三级结构特征进行预测,为蓝色花卉的分子育种和其他植物F3′5′H的克隆提供理论支持。

1 材料与方法

1.1 材料来源

从美国国家生物技术信息中心GenBank中检索到已注册、正式发表、物种来源明确的23种高等植物F3′5′H的cDNA序列及其编码的氨基酸序列(表1)。

表1 23种高等植物F3′5′H cDNA序列及其编码的氨基酸序列

1.2 研究方法

1.2.1F3′5H′的基本性质

1.2.1.1F3′5′H基因cDNA及其编码氨基酸序列的理化性质分析

蛋白质的基本性质包括蛋白质相对分子质量、氨基酸组成、等电点、消光系数[9]。ProtParam①http://www.expasy.ch/tools/protparam.html在线分析软件[10]是蛋白质理化学性质的分析工具。将F3′5′H基因的氨基酸序列粘贴到Prot⁃Param软件的对话框中,单击“Compute parameters”按钮,得到蛋白质性质的相关分析数据。

1.2.1.2F3′5′H的同源性分析

DNAman是美国LynnonBiosoft公司开发的高度集成化的分子生物学应用软件。用DNAman软件进行F3′5′H基因核酸和蛋白质序列的同源性分析,包括多重序列对齐、PCR引物设计、限制性酶切分析、蛋白质分析、质粒绘图等。本研究用此软件是进行了同源性分析及系统进化树的构建。

1.2.1.3F3′5′H的疏水性/亲水性分析

蛋白质疏水性分析可以为其二级结构预测提供参考,还可以为结构域以及功能域的划分提供依据[9]。用ProtScale②http://www.expasy.ch/tools/protscale.html软件[11]在线分析疏水性/亲水性,将氨基酸序列粘贴进文本框内,点击“Submit”按钮,得到序列疏水性/亲水性分析图。

1.2.1.4F3′5′H的跨膜结构域及跨膜趋势预测分析

跨膜区域是一个非常典型的结构,具有连续性强,预测容易,准确性高的特点,从图中很容易区分胞外和胞内区域[9]。

用TMHMM①http://www.cbs.dtu.dk/services/TMHMM在线分析跨膜结构[12],将氨基酸序列粘贴进文本框内,点击“Submit”按钮,得到序列跨膜结构区域的图以及该序列的膜外、膜内结构域以及跨膜结构域的位点。

用ProtScale②http://www.expasy.ch/tools/protscale.html软件预测跨膜趋势。选择Transmembrane tendency,将氨基酸序列粘贴进文本框内,点击“Submit”按钮,得到预测图。

1.2.1.5F3′5′H的结构域分析

蛋白质结构域是其执行功能的结构基础[13],结构域不完整则不可能实现功能[14]。用英国Sanger中心Pfam 20.0③http://pfam.jouy.inra.fr/、美国NCBI数据库(CDD)④http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi在线工具分析其功能结构域[15],将氨基酸序列粘贴进文本框内,点击“Submit”按钮,得到相应结果。

1.2.1.6F3′5′H的信号肽、导肽分析

信号肽属于导肽靠近N端的一段氨基酸序列,导肽功能的发挥需要信号肽的存在[16,17]。在TargetP 1.1 Server⑤http://www.cbs.dtu.dk/services/TargetP/[18]在线分析系统中,将氨基酸序列粘贴进文本框内,点击“Submit”按钮,得到序列的叶绿体转运肽、线粒体目标肽及分泌途径信号肽(Secretory pathway signal peptide)。

用SignalP 3.0 Server⑥http://www.cbs.dtu.dk/services/SignalP在线预测信号肽,有两种预测模型:隐马尔可夫模型(HMM)和神经网络算法(NN)[19]。方法同TargetP 1.1 Server在线分析系统。

1.2.1.7F3′5′H亚细胞定位分析

用PSORTII Prediction⑦http://psort.hgc.jp/form2.html软件[20],将氨基酸序列粘贴进文本框内,点击“Submit”按钮,在线分析亚细胞定位。

1.2.2 F3′5H′蛋白质二级结构预测分析

用SOPMA⑧http://npsa−pbil.ibcp.fr/cgi−bin/npsa_automat.pl?page=npsa_sopma.html和GOR4⑨http://npsa−pbil.ibcp.fr/cgi−bin/npsa_automat.pl?page=npsa_gor4.html软件[21],将氨基酸序列粘贴进文本框内,点击“Submit”按钮,预测氨基酸序列的二级结构图及各成分的百分比。

1.2.3F3′5H′核苷酸及氨基酸序列的分子系统进化分析

用DNAman软件,点击界面上方序列中的多重比对,选择分析序列进行序列的比对,得到氨基酸和核苷酸序列在进化上或者遗传学上的亲缘关系。

2 结果与分析

2.1 F3′5H′的基本性质分析

2.1.1F3′5′HcDNA及其编码氨基酸序列的理化性质

23种高等植物F3′5′H基因的cDNA序列起始密码子均为ATG,终止密码子均为TAA、TAG或TGA(表2);ORF长度、氨基酸残基数及分子量均基本一致;氨基酸序列中含量最高的氨基酸均为Leu和Ala。F3′5′HcDNA序列编码的氨基酸序列的理论等电点、酸性和碱性氨基酸的比例、半衰期、摩尔消光系数、带电氨基酸比例均基本一致。蛋白质不稳定性指数表明F3′5′HcDNA序列编码的氨基酸序列均属于稳定蛋白。

表2 代表性高等植物F3′5′H基因cDNA及氨基酸序列的结构和理化性质

2.1.2F3′5′H的同源性特征

23种植物的F3′5′H氨基酸序列比对表明:在近N−端和C−端的序列区域保守,可能是重要的功能域,分别有3个保守序列:起始于45位的“PPGP”序列(图1),是细胞色素P450的基序,连接膜的锚定位点和酶蛋白的球体部分[22],在不同的物种中是高度保守区。起始于335位的“AGTDT”序列,被认为是形成氧分子的结合域[23](图1),序列号为DQ148458和AB234910在序列比对中与其他植物存在差异,这也许是是物种间的基因差异。有起始于473位的“FGAGRRICAG”(图1)是C端血红素的结合区,在不同的物种中也是高度保守的,血红素结合区是CYP酶类必需序列,这段序列受半胱氨酸的调节,以其为中心,左右各氨基酸围绕半胱氨酸形成特定结构[24],其中,有几种植物在比对种存在差异,这也许是物种亲缘关系造成的。

图1 23种植物F3′5′H的多序列比对

2.1.3F3′5′H的疏水性/亲水性特征

用ProtScale在线分析疏水性/亲水性,最大值为3.078,最小值为−2.622。在整个肽链中亲水性氨基酸均匀分布,且数量多于疏水性氨基酸(图2)。因此,整个多肽链表现为亲水性,属亲水性蛋白。对其余的23种植物的F3′5′H氨基酸序列的疏水性于亲水性进行分析与预测,其预测结果与矮牵牛相似,可以推测F3′5′H蛋白是亲水性的。

图2 矮牵牛F3′5′H疏水性/亲水性预测

2.1.4F3′5′H的跨膜结构域及跨膜趋势预测特征

用TMHMM在线分析,结果表明F3′5′H整条肽链横跨膜内外,A1−A6和A59−A169位于膜内,A7−A26、A36−A58 和 A170−A189属跨膜结构域,膜外结构域为A27−A35 和 A190−A506(图 3)。

图3 矮牵牛F3′5′H跨膜结构域预测

用ProtScale在线分析跨膜趋势,预测结果显示F3′5′H整条肽链的跨膜结构的可能性为1.399(图4)。显然存在跨膜结构域。对其他23种植物的F3′5′H跨膜结构域及跨膜趋势预测都得到相似的结果,故所有F3′5′H存在跨膜区域。

图4 矮牵牛F3′5′H跨膜趋势的预测

2.1.5F3′5′H的结构域特征

用Pfam20.0在线预测出矮牵牛F3′5′H只具有一个结构域,即氨基酸序列中374−492区段,与细胞色素P450功能区段相匹配,因而此区段是F3′5′H的功能域。CDD在线预测证实F3′5′H属细胞色素P450超基因家族。对其他23种植物的F3′5′H均包含上述功能域。

2.1.6F3′5′H的信号肽、导肽特征

用TargetP 1.1 Server在线分析矮牵牛F3′5′H的序列,其含潜在叶绿体转运肽、线粒体目标肽及分泌途径信号肽,可靠性分别为0.156,0.055,0.315,预测可靠性为5级,分泌途径信号肽分值最高。对其余23种植物的F3′5′H进行同样分析,虽可靠性的数值不同,但是分析的结果显示分泌途径信号肽可靠性最高,故F3′5′H可能含有氨基酸剪切位点。

用SignalP 3.0 Server在线分析进行信号肽预测,隐马尔可夫模型(HMM)预测表明F3′5′H分泌信号肽的可靠性为0.609,锚定信号肽的可靠性为0.313,剪切位点位于第30或31个氨基酸残基,可靠性为0.335(图5A)。神经网络算法(NN)预测表明F3′5′H分泌信号肽包含70个氨基酸,剪切位点可能位于第30或31个氨基酸残基,可靠性为0.741(图5B)。因此,矮牵牛F3′5′H可能存在分泌导肽酶切位点,是一种分泌蛋白。该F3′5′H在游离核糖体上合成后分泌到其他细胞器中发挥功能。对其余23种植物的F3′5′H进行同样分析,虽数值有差异,但都得到一致的结果。

图5 矮牵牛F3′5′H导肽的预测

2.1.7F3′5′H亚细胞定位分析

PSORT II Prediction在线分析得出矮牵牛F3′5′H定位于细胞质可靠性最高,为0.391,其次是线粒体和细胞核,可靠性都为0.174,定位于内质网腔可靠性为0.13,定位于在分泌泡、高尔基体和过氧化物酶体的可靠性均为0.043。通过以上的数据分析,并联系相关的细胞生物学知识,可以预测得出:矮牵牛F3′5′H在细胞质核糖体上合成前体,然后通过后转移运输到线粒体内,含导肽的前体蛋白在跨膜运送之前,需要折叠为松散的结构,以利于跨膜运输。在跨膜转运时,前体蛋白首先被线粒体表面的受体识别,在位于外膜上的GIP蛋白的参与下,使前体蛋白从外膜的接触点通过内膜,之后其导肽即被基质中的线粒体导肽水解酶与导肽水解激活酶水解,并同时重新卷曲折叠为成熟的蛋白质[16]。对其余23种植物的F3′5′H进行同样分析,虽数值有差异,但23种植物的F3′5′H定位于细胞质的可靠性均最高,其次是线粒体,故F3′5′H在细胞质中游离核糖体中合成后,经信号肽引导锚定于内质网膜上,通过膜泡运输方式分选到高尔基体、溶酶体等细胞器中,也有可能是F3′5′H在细胞质中游离核糖体中合成后,以跨膜运输方式分选到线粒体中或以门控运输的方式分选到细胞核中。

2.2 F3′5H′蛋白质结构特征

SOPMA(图6A)和GOR4(图6B)预测均表明α−螺旋和无规则卷曲是矮牵牛F3′5′H最多的二级结构元件,分别为50.99%和34.19%,44.86%和39.72%,β延伸分别为9.68%和15.42%,并散布于整个结构,SOPMA预测中β−转角为5.14%。对其余23种植物的F3′5′H进行同样分析,发现这23种植物的F3′5′H的二级结构最多的元件均为α−螺旋和无规则卷曲,其次为β延伸,故F3′5′H二级结构最多的元件为α−螺旋和无规则卷曲。

图6 矮牵牛F3′5′H二级结构预测

2.3 F3′5′H氨基酸序列的分子系统进化特征

对23条已知的F3′5′H氨基酸序列进行物种间的同源性分析,结果显示(图7),同科的都聚在一起,亲缘关系近的百分数大,反之则小。

图7 23种植物F3′5′H进化树分析

3 结论

23种高等植物F3′5′H的cDNA序列起始密码子均为ATG,终止密码子均为TAA、TAG或TGA;ORF长度、理论等电点、酸性和碱性氨基酸的比例、半衰期、摩尔消光系数、带电氨基酸、氨基酸残基数及分子量均基本一致;氨基酸序列中含量最高的氨基酸均为Leu和Ala。蛋白质不稳定性指数表明F3′5′HcDNA序列编码的氨基酸序列均属于稳定蛋白。

23种植物的F3′5′H氨基酸序列比对表明:在近N−端和C−端的序列区域保守,可能是重要的功能域,分别有3个保守序列:起始于45位的“PPGP”序列,起始于335位的“AGTDT”序列,起始于473位的“FGAGRRICAG”。

整个肽链中亲水性氨基酸均匀分布,表现为亲水性,属亲水性蛋白。该肽链横跨膜内外,存在跨膜结构域,且具有一个结构域F3′5′H属细胞色素P450超基因家族。其含潜在叶绿体转运肽、线粒体目标肽及分泌途径信号肽,分泌途径信号肽分值最高,可能含有氨基酸剪切位点,可能存在分泌导肽酶切位点,是一种分泌蛋白。F3′5′H在细胞质中游离核糖体中合成后,经信号肽引导锚定于内质网膜上,通过膜泡运输方式分选到高尔基体、溶酶体等细胞器中,也有可能是F3′5′H在细胞质中游离核糖体中合成后,以跨膜运输方式分选到线粒体中或以门控运输的方式分选到细胞核中。F3′5′H二级结构最多的元件为α−螺旋和无规则卷曲。系统树分析发现同科的都聚在一起,亲缘关系近的百分数大,反之则小。

猜你喜欢
亲水性结构域氨基酸
胰岛素受体底物氨基酸相互作用网络鲁棒性研究
细菌四类胞外感觉结构域的概述
饲料氨基酸释放动态对猪氮素利用影响的研究进展
鹅掌柴蜂蜜氨基酸组成识别研究
低蛋白日粮平衡氨基酸对生长猪生产性能的影响
一种亲水性温敏聚合物荧光探针的制备及用于农产品中铝离子的检测
木本油料文冠果APETALA2基因全长cDNA序列与生物信息学分析
城市公共游园中对人亲水性的安全性思考
结核分枝杆菌蛋白Rv0089的生物信息学分析
黄星天牛中肠中内切葡聚糖酶的鉴定与酶活性测定