孟亚轩, 孙颖琦, 赵心月, 王凤霞, 瓮巧云, 刘颖慧
(河北北方学院 农林科技学院,河北 张家口 075000)
纤维素酶(cellulase)是能特异降解β-1,4-糖苷键的一类复合酶的总称,在植物细胞壁的合成分解中发挥重要作用[1]。根据蛋白序列相似性,纤维素酶分布在至少17个糖苷水解酶家族(glycoside hydrolase,GH)中,不同GH基因家族具有不同的起源和演化过程[2]。GH5家族作为最大且功能最多样化的GH家族,拥有最多的植物纤维素酶[2-3]。GH5蛋白由催化结构域(CD)和碳水化合物结合模块(CMD)通过附件模块(linker)链接组成,其结构上具有特异的TIM桶状蛋白,具有保守型谷氨酸催化机制[4-5]。GH5家族成员具有广泛的温度和pH耐受性,其TIM桶折叠结构决定其loop元件具有高度可变性[6],故GH5基因家族可作为研究纤维素酶分子功能的良好素材。Henrissat等[7]首次将GH5描述为纤维素酶家族,并解读其遗传机制。随着基因组学的发展,不同植物的纤维素酶基因功能也相继得以揭示。研究发现,PtrCel9A6通过调控次生壁形成参与杨树(Populus)木质部分化过程[8];Cel4基因参与番茄(Solanumlycopersicum)雌蕊和叶肉细胞的扩增作用,Cel1和Cel2在果实成熟与花药开裂过程中具有重叠功能[9];拟南芥(Arabidopsisthaliana)纤维素酶基因CELLULASE6与角果分化有高度相关性,可通过改变CEL6酶的活性影响角果开裂进程[10];陈茹佳[11]研究发现,水稻(Oryzasativa)基因OsCel5-11与短日照条件下的晚花有关,GH5-11可能编码一种新的内切葡萄糖聚酶。解纤维热酸菌基因AcCel5A在拟南芥中过量表达会破坏其细胞壁结构,导致产生畸形植株[12]。王丽珊[13]利用生物信息学方法构建拟南芥和水稻Cel基因进化关系发现,Cel基因具有明显的多样性特征,蛋白功能存在特异性。
Science杂志在创刊125周年汇报中指出,植物细胞壁的合成将作为未来重大科学问题[14]。近年来关于细胞壁合成降解的相关研究已取得突破性进展,植物纤维素酶的作用机理已基本明确。谷子(Setariaitalica)属1年生禾本科作物,基因组小且为二倍体,其测序已完成,基因组约500 M左右[15]。GH5具有大量寡糖、多糖等作用于β-链接的酶类,这些酶类在生物学过程中发挥重要作用。研究表明,GH5在植物细胞壁的合成和降解中发挥重要作用,但关于谷子GH5基因家族的研究却鲜有报道。本文通过生物信息学方法对谷子GH5基因家族进行挖掘鉴定,分析其基因功能、蛋白结构、表达模式等,以期为进一步深入研究谷子GH5家族基因提供理论参考。
利用Pfam数据库获得GH5基因家族Pfam代码(PF00150)[16],在谷子基因组数据库中获得其基因与转录本ID,通过CDD[17]和InterProScan[18]进行筛选,去除冗余,并鉴定其基因信息,使用MG2C绘制染色体定位图。利用ProtParam[19]预测蛋白理化性质,并通过Plant-mPLoc[20]进行亚细胞定位。
利用MEME在线网站对谷子GH5蛋白家族序列信息进行分析,得到GH5的基序分布,最小长度设置60,最大长度设置200[21]。使用MEGA6.0软件对GH5蛋白进行比对,使用衔接法绘制进化树(bootstrap设置为1 000)[22-23],使用同样方法绘制大豆(Glycinemax)、高粱(Sorghumbicolor)、水稻(Oryzasativa)等的多物种GH5蛋白进化树,设置取默认值。通过Gramene数据库检索谷子与玉米GH5同源基因,利用KaKs_Calculator计算基因同义替换率(Ks)与非同义替换率(Ka),并计算Ka/Ks值,估算选择压力[24]。
利用Gramene数据库获取谷子GH5家族基因的编码与全长序列,通过TBtools软件分析并绘制其内含子-外显子结构图。为获取GH5家族成员的结构域分布,使用在线软件ProSite分析其蛋白序列并绘制谷子GH5家族成员结构域分布图[25]。
通过PSRSM[26]在线软件构建GH5蛋白二级结构。利用SWISS-MODEL网站分析其motif基序,构建蛋白三级结构[27],并运用相同方法完成大豆、高粱、水稻等GH5蛋白三级结构构建(以各位点出现频率最高的氨基酸组成的序列构建不同物种GH5蛋白),使用SuperPose在线软件比对各物种GH5蛋白的PDB格式文件,进行GH5蛋白三维结构对比。
利用Phytozome数据库中已公布的谷子RNA-seq数据,获得谷子GH5基因在不同诱导下的组织表达谱,包括强光诱导2周的叶片、强光诱导1周的芽、黑暗诱导的地上组织、红光诱导的地上组织、正常光诱导的根、干旱诱导的根、尿素诱导的根、强光诱导的穗,共11个样本RNA-seq数据,使用TBtools软件绘制谷子GH5家族基因在不同诱导下的表达热谱图[28]。
在GEO数据库(GSE36391)和SRA数据库(SRA048234)中获得谷子品种张谷的转录组数据注释文件,进行基因双向同源比对,绘制张谷GH5家族基因在根、茎、叶、花穗中的表达热谱图。
使用Gramene数据库提取谷子GH5基因起始密码子上游1 500 bp序列,作为启动子序列上传至PlantCARE在线软件,通过GSDS2.0将结果可视化[29]。
利用Pfam号码(PF00150)从Pfam数据库获得谷子GH5基因家族隐马文件,在谷子基因组中获得GH5家族成员基因序列与转录本序列,通过CDD和InterProScan软件去除冗余,最终获得18个谷子GH5家族成员,命名为SiGH5-1~SiGH5-18。将得到的蛋白序列上传至Plant-mPLoc数据库进行亚细胞定位,使用ProtParam数据库预测其蛋白质理化性质。通过对比GH5基因家族信息发现,GH5基因家族成员差异较大:具有2(SiGH5-10)~10(SiGH5-5、SiGH5-9)个外显子,开放阅读框长度为1 704 bp(SiGH5-2)~6 737 bp(SiGH5-18),氨基酸长度为285(SiGH5-14)~578 aa(SiGH5-10),分子量为31.69(SiGH5-14)~62.46 Ku(SiGH5-10),等电点为4.93(SiGH5-9)~9.34(SiGH5-7)(表1)。亚细胞定位分析发现,谷子GH5家族基因多位于细胞壁中,其次是细胞质,少量分布在叶绿体和细胞膜中,表明该基因家族参与细胞壁构建。
表1 谷子GH5基因家族信息
由图1可知,18个GH5家族成员不均匀分布在谷子的8条染色体上,分布最多的为7号和9号染色体(各有4个),分布最少的为6号染色体和8号染色体(各有1个),1号、3号、4号、5号均含有2个GH5家族基因。
通过Gramene数据库获取GH5基因家族的全长序列,使用TBtools分析GH5基因结构,并将结果可视化绘制其内含子-外显子结构。结果(图2)表明,GH5家族基因均含有内含子,但差异较大,SiGH5-5、SiGH5-9内含子数量最多(均为9个),SiGH5-10内含子数量最少(1个)。
利用MEGA6.0软件对GH5家族成员氨基酸序列进行比对,并使用衔接法绘制进化树;将比对文件上传至MEME在线网站获得其保守基序,最终获得谷子GH5家族成员进化水平的基序分布图(图3)。GH5家族蛋白可分为3组,大部分蛋白分支具有100%的booststrap支持率。聚为同一分支的蛋白具有相似的基序分布,但组Ⅰ蛋白SiGH5-14缺失motif 3和motif 7;组Ⅲ蛋白SiGH5-18缺失motif 5,SiGH5-3缺失motif 3,推测在GH5家族蛋白分化过程中,SiGH5-14、SiGH5-18、SiGH5-3具有不同的进化轨迹。在预测到的8个motif中,motif 3几乎分布在所有GH5家族成员中,可进一步用于GH5蛋白结构构建。
通过在线软件ProSite分析谷子GH5家族成员蛋白序列,并将结果可视化,得到谷子GH5蛋白结构域分布图(图4)。图4表明,GH5蛋白均含有保守的GH5结构域,SiGH5-2除含有GH5结构域外还含有跨膜结构域,SiGH5-11含有RICIN结构域,SiGH5-18含有FASCIN结构域。蛋白的结构决定蛋白功能,这些特殊的结构域可能赋予GH5蛋白新的功能。
GH5蛋白二级结构(图5-A)表明,GH5蛋白结构以无规卷曲为主要方式,具有81个,占40.7%;其次是α-螺旋(66个,33.17%);再次是延伸链(40个,20.10%);β-折叠仅有12个,占6.03%。通过SWISS-MODEL在线软件预测各物种GH5蛋白三级结构,结果(图5-B)发现,其三级结构主要由无规卷曲和α-螺旋构成,具有(β/α)8拓扑折叠。利用蛋白质叠加技术,在SuperPose网站进行GH5蛋白结构叠合对比,结果(表2)显示,GH5蛋白在RMSD小于2Å时具有高度的保守性(RMSD为叠加蛋白质骨架原子平均距离的量度,RMSD值越小证明两物种蛋白结构相似性越高)。
表2 不同物种GH5蛋白三级结构的RMSD值
利用谷子基因组选取GH5基因起始密码子上游1 500 bp序列,提交至PlantCARE预测其顺式作用元件,通过GSDS2.0将结果可视化(图6)。生长素响应、脱落酸响应等激素类响应元件存在于所有GH5家族基因的启动子中,光响应元件分布在除SiGH5-6外的所有GH5家族基因启动子。此外,厌氧诱导元件、防御与应激响应元件、低温响应元件等不同类型元件也不均匀分布在SiGH5s的启动子区。上述结果说明,GH5家族基因可能在谷子生长分化与逆境胁迫过程中发挥作用。
从Phytozome数据库中获得谷子18个GH5家族基因在不同诱导条件的RNA-seq数据,利用TBtools将结果可视化,绘制GH5家族基因诱导表达热谱图(图7)。除SiGH5-1、SiGH5-2、SiGH5-16外,GH5家族基因在谷子各组织中均检测到表达量。SiGH5-8在强光诱导1周的芽、红光诱导的地上组织、强光诱导的穗、黑暗诱导的地上组织、干旱诱导的根中表达量明显高于其他基因;SiGH5-17在正常光诱导的根、干旱诱导的根、尿素诱导的根、强光诱导生长2周的叶片、黑暗诱导的地上组织中表达量较高;SiGH5-3在黑暗诱导的地上组织中表达量较高;SiGH5-7在黑暗诱导的地上组织、强光诱导的穗、强光诱导1周的芽中表达量较高;SiGH5-9在强光诱导1周的芽中表达量较高。
为进一步研究GH5家族基因在谷子生长发育中的功能,利用GEO数据库和NCBI的SRA数据库获得张谷的转录组注释文件,并对基因进行双向同源比对,绘制表达热谱图(图8)。结果显示,SiGH5-1、SiGH5-2、SiGH5-16在不同组织中均具有较低的表达量,说明这些基因可能具有特异的表达模式或为功能冗余基因。SiGH5-8、SiGH5-17在根、茎、叶、花穗中均具有较高表达量,结合诱导表达谱说明这2个基因在谷子生长发育和应对非生物胁迫过程中发挥重要作用。此外,除SiGH5-1、SiGH5-2、SiGH5-16基因外,其他GH5家族基因在根中表达量均相对较高,推测GH5家族基因在谷子根的建成中发挥重要作用。
利用MEGA6.0软件比对谷子、大豆、高粱等不同物种的GH5家族蛋白,利用衔接法绘制进化树,设置默认值。结果(图9)表明,大豆、拟南芥、小立碗藓GH5蛋白呈家族性聚集,谷子、水稻、高粱、玉米GH5蛋白具有较高的亲缘关系。说明GH5蛋白可能具有种属特异性特点。
利用TBtools软件对检索到的谷子与玉米的13对GH5同源基因进行选择压力分析,结果(表3)显示,13对同源基因的进化选择压力均<1,表明谷子与玉米的同源基因在进化中受到纯化选择,未发生结构功能上的改变。
表3 谷子、玉米GH5家族基因进化选择压力分析
GH5基因家族在高等植物中广泛存在,在植物细胞壁的合成和降解中发挥重要作用。植物全基因组测序的相继完成为生物信息学研究搭建了数据平台,但尚未有谷子GH5基因家族的研究报道。本研究从谷子基因组中鉴定到18个GH5家族基因,与曲霉(4个)[30]、大肠埃希菌(48个)[31]GH5家族基因的研究具有较大差异,推测在物种分化过程中GH5家族基因的特异性扩张导致不同物种之间差异比较大。基因重复是基因家族扩张的主要动力,GH5家族基因在谷子9号染色体中存在簇状分布现象,说明GH5家族基因扩增中可能存在串联复制。水稻、二岁短柄草中同样存在GH5成员簇状分布现象,还存在基因丢失事件[11]。
亚细胞定位与蛋白质功能具有密切联系,本研究中大部分GH5成员定位在细胞壁,符合纤维素酶的一般特征,说明GH5成员大多数在细胞壁中参与植物的生理过程。进化水平的基序分布发现,GH5家族同组蛋白具有相似的基序分布,但部分蛋白存在基序缺失现象,这与拟南芥中的研究结果一致[4],推测在进化过程中GH5虽然保守但也发生了部分变异。
基因结构是基因进化的研究依据,从GH5基因内含子-外显子结构可以看出,同一进化支的GH5家族成员虽然内含子和外显子数量不同,但是具有相似的排列模式;结合其基序的近似分布,判断GH5家族成员在进化过程中发生了外显子改组。不同进化支亚组成员基因结构差异较大,说明GH5基因家族的不同亚组成员具有不同的进化轨迹[6]。
蛋白构建结果显示,GH5蛋白结构并没有因为物种的分化而出现较大的差异,说明GH5基因家族具有高度保守性。物种间蛋白进化树分析表明,GH5蛋白具有种属特异性特点,暗示单、双子叶GH5蛋白为不同的起源方式,同源性较低[32]。
顺式作用元件是解读基因功能的重要依据,本研究中谷子GH5家族基因启动子区预测到大量激素类响应元件,暗示GH5家族成员可能通过响应植物激素信号在调控细胞壁合成分解过程中发挥作用。基因表达分析结果显示,SiGH5s在响应不同非生物胁迫过程中表达量不同,说明GH5家族成员在不同非生物胁迫过程中可能具有特异的调控途径。转录组数据结果显示,SiGH5s广泛参与植株建成过程,但出现了明显的组织表达差异,如SiGH5-8、SiGH5-17在根中高表达,SiGH5-7在穗中高表达,与水稻、拟南芥的组织表达结果一致[11],说明GH5家族成员在基因复制事件之后可能存在功能分化。
本研究基于谷子基因组和已公布的转录组数据,对谷子GH5家族成员进行鉴定和表达分析。结果表明,谷子中有18个GH5家族基因,不均匀分布在谷子8条染色体上,分为3个亚族,同一亚族具有相似的基序分布。SiGH5s在谷子不同组织中差异表达,且在非生物胁迫过程中不同组织的表达量也不相同。