吴兴阳,胡义锋,马东方,刘易科,方正武
(1.长江大学 农学院,湖北 荆州 434000;2.湖北省农科院 粮食作物研究所,湖北 武汉 430000)
纤维素是构成植物细胞壁的主要成分,是地球上最丰富的生物聚合物材料和重要的碳汇来源[1]。纤维素通常以微小纤丝的形式存在,其基本单位是吡喃式-D-葡萄糖,通过β-1,4 糖苷键连接成长链结构。研究表明:纤维素复合物的合成需要多个基因间的相互作用[2]。纤维素的生物合成也需要多个纤维素合成酶基因的共同参与,在同一个细胞的同一个发育期有多个植物纤维素合成酶基因同时表达[3]。植物纤维素的生物合成是由植物纤维素合成酶(cellulose synthase A,CesA)组成的纤维素合酶复合体(cellulose synthase complex,CSC)与其他酶共同完成的复杂过程[4-5]。CesA 是执行纤维素合成功能的执行蛋白。在高等植物中,CesA 呈六边莲花座型,在细胞膜上组装成CSC 并实现合成纤维素的功能[6]。可见,CesA 对细胞壁纤维素含量及优劣有较大影响。CesA基因最早在陆地棉(Gossypium hirsutum)和水稻(Oryza sativa)中被鉴定[7],并相继在其他物种中被报道,其中,模式植物拟南芥(Arabidopsis thaliana) 的CesA基因研究最为成熟[8]。拟南芥中已知的CesA基因有10个,其中AtCesA1、AtCesA3、AtCesA6和AtCesA10参与初生细胞壁的形成;AtCesA4、AtCesA7和AtCesA8只在次生细胞壁中表达,协同调控次生细胞壁的形成[9];AtCesA2、AtCesA5、AtCesA9和AtCesA6在功能上有部分冗余[10]。对水稻、大麦(Hordeum vulgareL.)和陆地棉等作物的研究也表明:CesA4基因参与次生壁形成,该基因突变或过表达可导致纤维素含量升高或降低[11]。
小麦(Triticum aestivumL.)是世界上重要的三大谷物之一,其麸皮富含纤维素和半纤维素,是制粉工业的主要副产品,也是制取膳食纤维的理想原料。目前,麦麸膳食纤维提取技术较为成熟,但是纤维素和半纤维素的酶解和蛋白质变性等都会影响膳食纤维的提取率[12]。纤维素虽然不被人体吸收,但能有效增加食物残渣的体积和质量,使之在肠道运行中加快,并及时刺激肠道排便[13]。因此,通过了解小麦纤维素的生物合成机理进而改善小麦纤维的质量与产量就十分必要。纤维素合成酶基因(CesA)大多在模式植物拟南芥、水稻和陆地棉中被研究,其他的非模式植物鲜有深入研究。随着小麦数据库的完善,有必要对小麦CesA基因家族进行分析。本研究采用生物信息学方法对小麦CesA基因家族进行多方面分析,以期为提高小麦的纤维素含量提供新方法,也为分析该基因在小麦生长发育和抗逆性等方面的功能奠定基础,并为植物细胞壁代谢和抗旱分子机制研究提供新思路。
为鉴定得到小麦CesA基因家族成员,收集来自玉米(Zea mays)[6]、拟南芥(Aabidopsis thaliana)和水稻(Oryza sativa)[14]的37 条CesA 蛋白序列作为BLASTp 分析的查询序列;从HMMER 3.0 下载pfam 域PF14569 (zf-UDP)和PF03552 (Cellulose_synt)隐马尔可夫模型的种子序列作为查询序列。利用上述2个来源获得的序列作为查询序列,设截断值(e-value) <10-5以保证蛋白质序列的可靠性,通过BLASTp (https://blast.ncbi.nlm.nih.gov)查询小麦数据库 (IWGSC v1.1,https://wheat-urgi.versailles.inra.fr/Seq-Repository/Asse mblies)[15],合并结果并删除冗余序列。去冗余后的序列用pfam (v32.0,http://pfam.xfam.org/)进一步筛选,最终确定21个TaCesA基因家族成员。
分别收集拟南芥、水稻、玉米和小麦的CesA蛋白序列,利用ClustalW2 软件比对氨基酸序列[16];利用MEGA 7.0 软件构建系统发育关系[17];通过ITOL v3.2.317 (http://itol.embl.de)绘制并美化系统发育树。从小麦数据库IWGSC v1.1 中获取小麦基因组注释文件,并从中提取小麦CesA基因的注释信息;基于TaCesA基因在相应染色体上的起点和终点位置信息,采用MapInspect 软件绘制物理图谱[18]。
使用蛋白质分析工具ExPASy Server 10 (https://prosite.expasy.org/PS50011)预测TaCesA 的蛋白质特征,包括蛋白质长度、分子量、等电点以及稳定性和亲水性[19]。使用Plant-mPLoc (http://www.csbio.sjtu.edu.cn/cgi-bin/PlantmPLoc.cgi) 预测Ta-CesA 蛋白的亚细胞定位[20]。
使用MEME (http://meme-suite.org)[21]和Smart Motif (http://smart.embl-heidelberg.de/)[22]搜索工具鉴定保守的TaCesA 蛋白基序,用已知的拟南芥、水稻和玉米CesA 蛋白序列作为对照序列。在MEME 中用判别模式将对照序列按照以下标准鉴定保守的TaCesA基因保守基序(motif):每个序列可以包含任意数量的motif 非重叠出现,不同motif 的数量为20,motif 宽度范围为6~50个氨基酸。根据TaCesA基因组注释信息,使用软件Tbtools 和GSDS 2.0 (http://gsds.cbi.pku.edu.cn/index.php)[23]绘制并美化遗传结构图。从小麦数据库(IWGSC v1.1)提取TaCesA基因的上游序列(1~1 500 bp),用PlantCARE (http://bioinformatics.psb.ugent.be/webtools/plantcare/html/) 鉴定其启动子中的顺式作用元件[24],并用R 包中的“pheatmap”展示预测结果。
通过在线TMHMM Server v2.0 (http://www.cbs.dtu.dk/services/TMHMM)[25]预测小麦CesA 蛋白的跨膜结构。使用SWISS-MODEL server (https://www.swissmodel.expasy.org/)对TaCesA 蛋白序列进行三维建模[26]。
从 Ensembl Plants数据库 (http://plants.ensembl.org/index.html)下载小麦亚基因组供体乌拉尔图小麦(T.urartu)、野生二粒麦(T.dicoccoides)和粗山羊草(Aegilops tauschii)的参考基因组数据库,通过BLASTp 分析鉴定其CesA基因,采用截断值<10-10、同一性>80%判断直系同源性的可靠性[27],通过R 包“circlize”展示同源关系。
从NCBI (SRA)数据库下载小麦多个条件转录组原始RNA-seq 数据,并通过hisat2 将其定位到小麦参考基因组;通过Cufflinks 检查小麦CesA基因的表达水平(通过TPM 标准化)[28];使用R 软件包“pheatmap”分析并绘制TaCesA基因的表达谱热图。
共鉴定出21个小麦CesA基因(表1),系统发育树(图1)将拟南芥、水稻、玉米和小麦的CesA 蛋白序列分为3 组(a、b 和c)。a 组包含6个TaCesA基因、2个AtCesA基因和3个ZmCesA基因;b 组包含6个TaCesA基因、1个AtCesA基因、3个ZmCesA基因和2个OsCesA基因;c 组包含9个TaCesA基因、7个AtCesA基因、10个ZmCesA基因和7个OsCesA基因。
图1 小麦与其他物种CesA 基因的系统发育分析Fig.1 Phylogenetic analysis of CesA gene in wheat and other species
由表1 可知:有20个TaCesA基因分布在小麦的12 条染色体上,并均匀地分布在A (7个)、B (7个)和D (6个)亚基因组(图2);TaCesA21未被定位到染色体上;其他9 条染色体 (3A、7A、3B、4B、7B、3D、4D、6D 和7D)未预测到有小麦CesA基因分布。
图2 TaCesA 基因的染色体定位Fig.2 Chromosomal locations of TaCesA genes
使用ExPASy Server 10 预测小麦CesA 蛋白质特征,结果(表1)表明:小麦CesA 蛋白质氨基酸数量在826~1 152 之间,平均值为1 075.05;分子量在93 631.96~129 307.65 u 之间,平均值为120 554.32 u;等电点(pI)范围为6.29~8.13,平均值为7.18,其中有部分小麦CesA 蛋白质的等电点大于7,为碱性蛋白质。此外,TaCesA12-5A 蛋白质序列包含多个连续的不确定氨基酸,无法计算其分子量和等电点。蛋白质不稳定指数在37.71~44.77 之间,平均值为39.80,表明大部分小麦CesA 蛋白质为稳定蛋白质,但TaCesA16-5D、TaCesA2-1A、TaCesA1-1A、TaCesA6-1D、Ta-CesA4-1B 和TaCesA10-4A 被预测为不稳定蛋白质。小麦CesA 蛋白的氨基酸的亲水系数在-0.503~-0.181 之间,表明这些蛋白都是亲水蛋白。亚细胞定位预测表明:有85%的TaCesA 蛋白在叶绿体中表达,其余的TaCesA 蛋白在高尔基体和细胞核中有表达。
表1 小麦CesA 基因家族编码蛋白质的特征和理化性质Tab.1 The characteristics and physicochemical properties of the protein encoded by CesA genes in wheat
构建小麦的TaCesA基因系统发育树(图3a)。基因结构分析结果(图3b)表明:每个TaCesA基因序列都具有多个(7~15个)内含子结构;19个TaCesA基因具有完整的UTR,但TaCesA10-4A的3′ 端没有UTR,TaCesA12-5A的5′ 端不含UTR,TaCesA18-5D和TaCesA15-5B的3 ′端含有2个UTR。综合来说,同组的小麦CesA基因具有相对保守的基因结构分布。
对TaCesA 蛋白中的20个保守基序(motif)进行分析,结果(图3c)表明:每个小麦CesA 蛋白序列中都包含多个(13~20个) motif。其中,TaCesA10-4A 的motif 最 少,TaCesA5-1D、Ta-CesA18-5D 和TaCesA19-6A 的motif 最多。同时,有13个motif 在TaCesA 蛋白序列保守分布,分别 是motif1、motif2、motif3、motif4、motif5、motif6、motif7、motif12、motif13、motif14、motif-15、motif18 和motif19,说明小麦CesA 蛋白在序列分布上整体较为相似。
图3 小麦CesA 基因家族的基因结构分析和保守基序分析Fig.3 Gene structure analysis and conserved motif analysis of wheat CesA gene family
对21个小麦CesA基因上游1.5 kb 区域进行分析,共鉴定到44 种顺式作用元件,可分为生物胁迫/非生物胁迫(24个)、生长发育(7个)和植物激素(13个)等三大类(图4a)。其中,分布最多的顺式作用元件是转录启动子的核心启动子元件(TATA-box)以及启动子和增强子区域常见的顺式作用元件(CAAT-box),其次是涉及脱落酸反应的顺式作用元件(ABRE)和参与光响应的顺式作用元件(G-box)。生物胁迫类别中有多个光响应元件,如3-AF1 binding、GT1-motif、chs-CMA2a 和Sp1 等;生长发育类别中还发现了参与种子特异性调控的顺式调控元件(RY-element)以及与分生组织表达有关的顺式调控元件(CATbox);激素类别中有生长素反应性涉及的顺式调控元件(AuxRR-core)和赤霉素反应元件(GAREmotif 和P-box)。此外,还有一部分与植物逆境有关的元件,如参与低温响应的顺式作用元件(LTR)、参与防御和应激反应的顺式作用元件(TC-rich repeats)以及参与缺氧特异性诱导的类增强子(GC-motif)。由图4b 可知:TaCesA3-1B是顺式元件总含量最高的基因,TaCesA8-2B总含量位居第2。
图4 TaCesA 基因的顺式元件分析Fig.4 Cis-elements analysis of TaCesA genes
TaCesA 蛋白质跨膜预测结果表明:仅Ta-CesA10-4A 含有2个跨膜螺旋,其余20个小麦CesA 的蛋白跨膜螺旋数量均为6个或8个(图5a)。小麦CesA 的氨基酸序列建模结果表明:21个小麦CesA 蛋白的三级结构相似性较高,均含有α-螺旋,图5b 为从小麦21个CesA 蛋白序列中挑选4 条最具代表性的序列(TaCesA1-1A、Ta-CesA3-1B、TaCesA4-1B 和TaCesA10-4A)进行三级结构展示。
图5 小麦CesA 蛋白的跨膜预测(a)和三级结构模型预测(b)Fig.5 Prediction of transmembrane (a) and three-dimensional modeled (b) of wheat CesA proteins
在小麦、乌拉尔图小麦、野生二粒麦和粗山羊草中共鉴定得到38个CesA同源基因,系统发育树(图6a)表明:这38个CesA 蛋白同样归为3 组(a、b 和c),a 和b 组均包含6个TaCesA基因,c 组包含9个TaCesA基因。
分别比较小麦与乌拉尔图小麦、野生二粒麦、粗山羊草3 组直系同源基因对的数量,结果(图6b)表明:小麦与乌拉尔图小麦有20 对直系同源基因对,与野生二粒麦有27 对直系同源基因对,与粗山羊草有12 对直系同源基因对。综合小麦及其亚基因组供体的系统发育树、同源性分析结果和直系同源基因对的数量,推测小麦CesA基因与其亚基因组供体之间关系非常保守。
图6 小麦及其亚基因组供体CesA 基因的系统发育分析(a)和同源关系分析(b)Fig.6 Phylogenetic analysis (a) and homology relationship analysis (b) of wheat and its subgenome donor CesA genes
在非生物胁迫下,TaCesA7-2A、TaCesA21和TaCesA12-5A在缺磷、高温、低温和干旱处理下都有不同程度的表达(图7a);在生长发育中,有6个TaCesA基 因(TaCesA19-6A、TaCesA14-5B、TaCesA12-5A、TaCesA20-6B、TaCesA7-2A和Ta-CesA21)高表达,其他11个基因有不同程度的表达,但有4个TaCesA基因没有表达(图7b);在生物胁迫中,条锈菌、白粉菌和禾谷镰刀菌胁迫下有17个TaCesA基因有不同程度的表达,部分基因在全部处理下都有较高的表达水平,如Ta-CesA14-5B、TaCesA20-6B和TaCesA19-6A(图7c)。此外,TaCesA8-2B、TaCesA9-2D、TaCesA10-4A和TaCesA17-5D在生物胁迫、非生物胁迫和生长发育中的表达水平均很低或完全没有表达。
不同植物的CesA基因家族成员数量存在一定差距。小麦和玉米中分别有21个和16个CesA基因[6],在拟南芥和水稻中分别有10个和11个CesA基因[14],其原因可能是小麦为三倍体物种,其CesA基因数量高于其他物种。通过对4个物种的系统发育树分析,将58 条CesA 蛋白序列分为a、b 和c 组,分析发现这4个物种在c 组中的数量均高于a 和b 组,且a 组中不包含OsCesA基因。小麦的21个CesA基因中,TaCesA21未被定位到具体位置,其余20个基因分布在小麦的12 条染色体上,并均匀的分布在A、B 和D 亚基因组;其他9 条染色体未定位到TaCesA基因,这可能是因为多倍体小麦在进化过程中某些染色体上的TaCesAs基因发生了丢失[29]。小麦及其亚基因组供体中CesA基因的同源基因对分析结果可知:小麦与野生二粒麦有27 对直系同源基因对,表明小麦中的CesA基因更多来自于野生二粒麦,两者的亲缘关系更近。TaCesA 蛋白质跨膜表明其有多个跨膜螺旋,但未在细胞膜上预测到TaCesA 蛋白,说明它可能作为膜受体起作用。纤维素合酶在内质网中合成,在内质网或高尔基体中组装成完整的纤维素合酶复合体,通过囊泡运输转运到质膜,质膜上的纤维素合酶复合体可通过网格蛋白介导的内吞作用回收到胞内[30],这与TaCesA 蛋白质被预测到在高尔基体中表达并存在跨膜螺旋作为膜受体起作用一致。
在植物细胞壁合成过程中,CesA基因在转录水平上对纤维素的合成进行调控从而发挥重要作用[14]。从基因结构上看,CesA基因最大的差异在于某些区域中是否有内含子,其位置是确定纤维素合成酶功能的关键因素之一[8]。小麦CesA基因均含有7~15个内含子,可能因为其数量不同使TaCesA基因在功能上存在差异。另外,mRNA的5′ UTR 与3′ UTR 在翻译过程中互相依赖、协同提高翻译效率[31]。小麦CesAs中,有19个Ta-CesA基因含有完整的UTR 结构,说明大部分小麦CesA基因能发挥生物功能,而缺失5′ 或3′ UTR结构的TaCesA基因可能存在功能差异。对21个TaCesA基因上游1.5 kb 区域的顺式作用元件分析可知:涉及脱落酸反应的顺式作用元件(ABRE)是除TATA-box 和CAAT-box 元件外含量最高的元件。植物激素脱落酸 (ABA) 在应对重金属、干旱、热、高盐、低温和辐射等胁迫的耐受过程中起重要作用[32],因此,在小麦生长发育过程中,CesA基因能在抵御非生物胁迫中发挥重要作用。这与玉米CesA基因在抗干旱胁迫中的研究结果是一致的[6]。表达谱分析结果表明:缺磷、高温、低温和干旱胁迫下TaCesA基因有不同的应答机制。在生物胁迫、非生物胁迫和生长发育中,TaCesA8-2B、TaCesA9-2D、TaCesA10-4A和Ta-CesA17-5D表达水平很低或完全没有表达,是否存在功能冗余还需要进一步验证。本研究还发现:多个TaCesA基因在条锈菌、白粉菌和禾谷镰刀菌胁迫下均有不同程度的表达,甚至有一部分基因在这几个处理下都有很高的表达水平,提示CesA基因可能参与小麦生物胁迫响应,但是其具体功能还需要进一步研究。
本研究在小麦基因组鉴定到21个TaCesA基因,分为3 组,它们在基因结构上具有相似的蛋白motif 组成,其上游序列中分别有24个、7个和13个与生物胁迫/非生物胁迫、生长发育和植物激素响应相关的顺式作用元件,其中涉及脱落酸反应的顺式作用元件(ABRE)含量较高,与TaCesA基因参与小麦抵御非生物胁迫有关系;有17个TaCesA基因对小麦应对非生物和生物胁迫有明显响应。研究结果可为进一步挖掘纤维素合成酶基因在小麦中的功能奠定基础。