王丽珊
(闽西职业技术学院,福建 龙岩 364021)
纤维素是植物细胞壁的主要组成成分。纤维素酶解是将生物质原料转化为乙醇的一条高效的、无污染的关键途径。研究纤维素酶对解决世界粮食短缺、能源危机、环境污染等问题具有重要意义。植物合成的纤维素酶(Cellulase,Cel),通常也称内切-1,4-β-葡 聚 糖 酶 (endo-1,4-β-D-glucanases,EC 3.2.1.4),属于糖苷水解酶家族9(glycoside hydrolase family 9,GH9),在纤维素的合成和分解过程中起着重要的作用[1]。Hayashi等鉴定了25个拟南芥Cel基因和20个水稻Cel基因[2]。研究表明纤维素酶与拟南芥长角果开裂和杨树侧根生成有关[3-4]。目前已有多种植物Cel基因相继报道,但对双子叶植物拟南芥和单子叶植物水稻Cel基因的对比分析报道较少。本研究运用生物信息学的方法,对拟南芥和水稻Cel基因的基因结构、系统发育进化、蛋白质结构、跨膜结构、信号肽(signal peptide,SP)、亚细胞定位、结构域、保守基序进行预测和对比分析,以期为今后深入研究植物Cel基因家族的进化、结构特征和功能的多样性提供一些理论依据。
本文数据来自于拟南芥数据库TAIR、水稻数据库RGAP、碳水化合物活性酶数据库CAZY、植物信息资源网Phytozome、美国国立生物信息中心NCBI、欧洲分子生物学实验室EMBL。
1.2.1 Cel基因家族成员的鉴定与分类、基因结构分析和系统进化树构建
以拟南芥和水稻Cel基因编码蛋白质序列为检索序列,利用BLAST工具进行同源搜索。运用软件Pfam、CDD、SMART等预测蛋白质的保守结构域,具有GH9催化结构域的蛋白质序列属于纤维素酶。将结构域特征进行比对分析后分类和命名。运用软件GSDS对Cel基因的染色体位置、基因结构、内含子和外显子位置和数量进行预测和分析。运用软件BioEdit、Clustal W、MEGA7.0 对蛋白质进行多重比对、聚类分析、构建系统发育进化树。
1.2.2 Cel基因家族成员蛋白质一级结构、二级结构、三级结构特性分析
运用软件PROTPARAM、PROTSCALE对Cel基因编码蛋白质的一级结构(氨基酸数目、分子量、理论等电点等)进行预测和分析。运用软件SOPMA对蛋白质的二级结构,如α-螺旋、β-转角、延伸链和无规则卷曲等进行预测和分析。运用软件Swiss-Model对蛋白质三级结构进行同源建模,Swiss-PdbViever分析同源建模的结果,并构建拉氏图。拉氏图中二面角有90%以上位于允许区和最大允许区,则表明构建的空间构象是合理的。
1.2.3 Cel基因家族成员蛋白质的跨膜结构、信号肽、亚细胞定位、结构域、保守基序和多序列比对分析
运 用 软 件 TMHMM、SIGNALP、PSORT、Plant-PLoc对Cel基因编码蛋白质的跨膜结构、SP及亚细胞定位进行预测和分析。运用软件Pfam、CDD、SMART、Prosite对蛋白质的保守结构域进行预测和分析。运用软件MEME对蛋白质的保守基序进行预测和分析。运用Clustal W对蛋白质进行多序列比对分析。
从拟南芥和水稻数据库中分别搜索到各25个Cel基因,数目差别不大。Urbanowicz将GH9分为3个亚家族:GH9A、GH9B、GH9C[5]。GH9A 成员的蛋白质N端具有胞质结构域(cytosolic domain,CT)和跨膜结构域 (transmembrane domain,TM),C 端具有GH9催化结构域(catalytic domain,CD)。GH9B成员的蛋白质N端具有SP,C端具有CD。GH9C成员的蛋白质N端具有SP和CD,C端具有CBM和连接肽。参照该分类方法,对50个Cel基因进行分类和命名。拟南芥GH9A有4个成员,GH9B有18个成员,GH9C有3个成员;水稻GH9A有4个成员,GH9B有17个成员,GH9C有4个成员(表1,篇幅有限仅展示部分成员)。
由图1可知,系统进化树中拟南芥和水稻没有单独聚类形成各自的分支,而是相互交叉,3个亚家族没有明显地分为3大支。Cel基因分成4大类群:Ⅰ类群有21个成员,均是GH9B成员;Ⅱ类群有18个成员,是GH9B和GH9C成员;Ⅲ类群有6个成员,均是GH9A成员;Ⅳ类群有5个成员,均是GH9B成员。GH9B既能与GH9A聚成一支,又能与GH9C聚成一支。Cel基因家族中出现较多的旁系同源蛋白,其中GH9B旁系同源蛋白数量最多。拟南芥和水稻Cel基因结构差异很大,具有十分明显的多样性特征。拟南芥中,大部分Cel基因有3~7个内含子(92%)。水稻中,大部分Cel基因有2~6个内含子(88%)。GH9A成员的内含子数量多于GH9C成员。GH9A成员中,AtGH9A2和OsGH9A3发生了内含子丢失,其余Cel基因结构相似。GH9C成员中,OsGH9C1、OsGH9C2、OsGH9C4发生了内含子丢失,其余Cel基因结构相似。GH9B成员中,拟南芥和水稻的Cel基因结构差异较大。由表1可知,Cel基因在染色体上分布并不均匀。拟南芥中,第1号染色体上分布最多;水稻中,第2号染色体上分布最多。水稻的基因长度比拟南芥略长,但转录产物长度、编码基因长度和肽链氨基酸个数差别不大。
由表1可知,Cel基因编码的蛋白质分子量相近, 拟南芥在 52.5~69.8kDa 之间, 水稻在 41.5~69.2kDa 之间(OsGH9C3 除外)。Cel基因编码的蛋白质的理论等电点(PI)大小不等,拟南芥PI最高为9.33,最低为 5.03;水稻 PI最高为 9.36,最低为 5.2。不稳定系数大于40为不稳定蛋白,小于40为稳定蛋白,大部分Cel基因编码的蛋白质为稳定蛋白(92%)。 亲水性指数介于-0.5~0.5 之间为两性蛋白质[6],Cel基因编码的蛋白质均为两性蛋白质。Cel基因编码的蛋白质的二级结构基本相似(AtGH9B8和OsGH9C4除外),主要结构元件是无规则卷曲和α-螺旋,特征为无规则卷曲>α-螺旋>延伸链>β-转角。Cel基因编码的蛋白质序列三级结构同源建模结果显示,α-螺旋和无规则卷曲是主要结构,拉氏图显示空间构象合理(图略)。
由表1可知,GH9A和GH9C成员均具有1个跨膜螺旋;GH9B大部分成员不具有跨膜螺旋(拟南芥67%、水稻59%)。GH9A成员均不具有SP(Os-GH9A4除外);GH9C成员均具有SP(OsGH9C4除外);GH9B大部分成员具有SP(拟南芥83%,水稻82%)。拟南芥和水稻的13个Cel基因编码的蛋白质亚细胞定位于细胞膜 (26%)、3个定位于细胞壁(6%)、34个定位于细胞膜或细胞壁(68%)。
由表1可知,Cel基因编码的蛋白质均有CD,大部分成员在CD内有1个DAGD氨基酸模块(92%)。其中OsGH9B17没有DAGD模块,AtGH9A2为DGGS模块,OsGH9B7、OsGH9C4为GSDG模块。GH9A成员的蛋白质N端均有TM (位于71~101氨基酸残基片段上),没有SP(OsGH9A4除外);C端有脯氨酸富集区域 (最后16个氨基酸中有8~10个脯氨酸)。GH9B少部分成员具有TM,且位置不一样。GH9C成员的蛋白质N端均有TM (位于7~29的氨基酸残基片段上)和SP;C端均有纤维素结合结构域(CBM49)。GH9具有2个催化活性位点特征(active sites signature):特征 1 具有[STV]-x-[LIVMFY]-[STV]-x(2)-G-x-[NKR]-x(4)-[PLIVM]-H-x-R 序列;特征 2 具有[FYW]-x-D-x(4)-[FYW]-x(3)-E-x-[STA]-x(3)-N-[STA]序列[5]。 19 个 Cel基因编码的蛋白质同时有催化活性位点特征1和2(38%)。大部分只有特征1的成员,有RGD模块。由图2可知,共鉴定出了25个保守基序(motif 1~25),这些保守基序形成了多样性和复杂性的组成模式。最大基序长度为49个氨基酸,最小基序长度仅为8个氨基酸。motif 1~19、motif 22出现在较多数Cel基因编码的蛋白质中,且出现在CD内。GH9A成员特有基序为 motif 20、motif 21、motif 23、motif 25。GH9C 成员特有基序为motif24。GH9B成员具有多样化的组成模式。保守结构域与模块预测的位置基本一致 (图略)。motif 2在微生物有发现,且较保守,通常第1个酪氨酸被色氨酸取代,其中DAGD模块可能与金属结合有关;motif 3和motif 9,只存在于植物的葡聚糖酶中,微生物中没有;motif 7在植物和微生物中均有;motif 1和motif 4分别是GH9的2个催化活性位点所在区域,且相对保守;motif 14是RGD模块所在区域;motif 21是脯氨酸富集区域;motif 24是CBM所在区域;motif 20是CT所在区域[5]。
图1 拟南芥和水稻Cel基因家族基因结构预测
利用现有的拟南芥和水稻生物信息资源,各鉴定出25个Cel基因,其数目上相差不大,说明Cel基因家族在不同植物中进化是相对保守的。从系统进化分析,拟南芥和水稻Cel基因没有单独聚类,说明在单双子叶植物分化前,Cel基因发生过大幅度扩张。Cel基因家族具有较多的旁系同源蛋白,说明在单双子叶植物分化后,Cel基因家族许多成员获得了新功能,同时产生许多假基因。其中GH9B旁系同源蛋白数量最多。3个亚家族没有明显地分为3大支,这可能与糖苷水解酶结构域的保守性有关。GH9B既能与GH9A聚为一支,又能与GH9C聚成一支,说明GH9B在结构上与GH9A和GH9C具有共同点(CD,SP),与结构域分析相吻合。
图2 拟南芥和水稻Cel基因家族保守模块预测
从基因结构看,拟南芥和水稻Cel基因在染色体上的分布比较散,基因结构差异大,说明Cel基因具有明显的多样性特征,有复杂的起源和进化历史。GH9A成员的内含子数量多于GH9C成员,说明GH9A成员在进化过程中插入不少内含子,使其功能更为特化,产生的时间较晚。由此推测,GH9C是GH9A和GH9B的祖先,GH9A属于进化过程中较新的亚家族。GH9A和GH9C成员中,拟南芥和水稻的Cel基因结构相似,说明在单子叶植物和双子叶植物中,GH9A和GH9C功能进化较保守。AtGH9A2、OsGH9A3是GH9A中较早出现的成员。OsGH9C1~2、OsGH9C4是GH9C中较早出现的成员,且都是水稻的Cel基因,表明单子叶植物的GH9C出现的时间较早。
从蛋白质结构看,拟南芥和水稻Cel基因编码的蛋白质分子量相近,理论等电点大小不等,均为两性蛋白,大部分成员为稳定蛋白质(82%),二级结构和三级结构基本相似,说明纤维素酶的结构与功能紧密相联。GH9A和GH9C成员均具有1个跨膜螺旋,GH9B大部分成员不具有跨膜螺旋,说明GH9A、GH9C全部成员和GH9B少部分成员,需要经跨膜转运锚定于生物膜,才能发挥生物学作用。GH9A成员均不具有SP,GH9C成员和GH9B大部分具有SP,说明GH9A成员均为非分泌蛋白,GH9C成员和GH9B大部分成员为分泌蛋白。亚细胞定位显示纤维素酶位于细胞膜或细胞壁,说明蛋白质合成后,需经过转运到达细胞膜或细胞壁后才能发挥催化作用。
从蛋白质结构域和保守基序看,纤维素酶蛋白质的结构域与保守基序位置一致。Cel基因编码的蛋白质均具有 CD,CD内有一个 DAGD模块(motif 2)。其中 OsGH9B7、OsGH9C4 为 GSDG 模块,因此推测GSDG模块可能只出现在单子叶植物中,这个位点上的基因突变是否对其功能造成影响,有待进一步研究。GH9A成员的蛋白质N端有TM和CT(motif 20),C 端有脯氨酸富集区(motif 21),这个特点与微生物的连接不同结构域的连接肽结构相似。GH9C成员的蛋白质N端均有TM和SP,C端均有纤维素结合结构域(CBM49,motif 24)。 GH9B 少部分成员具有TM。Cel基因家族少部分成员同时具有催化活性位点特征1和2(motif 1,motif 4)。只有特征1的大部分成员,其蛋白质都具有RGD模块(motif 20),推测与细胞附着有关[7-8]。 motif 23和motif 25的功能有待进一步研究分析。motif 20、motif 21、motif 23、motif24、motif 25 属于稀少基序,表现出不同亚家族特异性,说明这些保守基序可能参与亚家族蛋白功能的形成,是决定亚家族功能的关键保守基序。