任晓庆,王 波,欧阳春平,丁鑫炎,樊洁晶,高建华
(1.山西农业大学生命科学学院,山西 太谷 030801;2.山西农业大学 农学院/杂粮种质创新与分子育种山西省重点实验室,山西太谷 030801)
木质素是一种复杂且具有芳香特性的三维高分子酚类聚合物,在自然界中分布广泛,约占生物圈有机碳的30%[1-2]。木质素主要存在于所有维管植物的次生细胞壁中,有着诸多功能,比如,与细胞壁的组成物质交联,可以形成有效的对抗病原体的物理屏障[3];木质素填充于纤维素构架中还可以增强植物细胞壁强度和茎秆抗弯折力,从而提高植物体的机械强度和抗倒伏能力[4-5]。因此,木质素含量也是评价抗倒伏性的有效指标[6]。
木质素合成通常从苯丙氨酸开始,多种酶参与反应,形成 香豆醇(p-coumaryl alcohol)、芥子 醇(Sinapyl alcohol)和松柏醇(Coniferyl alcohol)3种单体[7],然后在过氧化物酶或漆酶等的帮助下发生复杂的聚合反应[8-13]。其中,香豆醇聚合形成对-羟基苯基木质素(Hydroxy-phenyl lignin,H-木质素),芥子醇聚合形成紫丁香基木质素(Syringyl lignin,S-木质素),松柏醇聚合形成愈创木基木质素(Guajacyl lignin,G-木 质 素)[9]。肉 桂 醇 脱 氢 酶(Cinnamyl Alcohol Dehydrogenase,CAD)是整个合成途径的限速酶之一[14-15],通过催化香豆醛、芥子醛或松柏醛等加氢,相应地生成木质素单体。此外,CAD还具有调节木质素单体组成形式的作用,比如,平衡G-木质素和S-木质素的含量,若S-木质素缺乏,松柏醛可经由阿魏酸-5-羟化酶(Ferulic acid-5-hydroxylase,F5H)和CAD的作用生成5-羟基松柏醇(5-hydroxy-coniferyl alcohol),进而在咖啡酸-O-甲基转移酶(Caffeic acid O-methyl transferase,COMT)的作用下转化为芥子醇,最后生成S-木质素[5]。
目前,在水稻(OryzasativaL.)、拟南芥(Arabidopsis thaliana)和烟草(Nicotiana tabacumL.)等植物中的CAD基因家族研究较为详细[16],而C4模式作物谷子(Setaria italica(L.)Beauv.)中的研究相对较少。谷子属禾本科狗尾草属,具有抗旱、耐贫瘠、耐盐碱等多种优良特性[17]。其籽粒小米营养丰富,脂肪、粗纤维和维生素B1含量明显高于大米和小麦[18],消费总量位居我国杂粮类食物第2。
本研究基于拟南芥、水稻已知的CAD基因,以已经公布全基因组数据的山西省名优谷子品种晋谷21号的超早熟突变体xiaomi为研究对象[19-20],采用生物信息学的方法筛选和鉴定谷子CAD基因(SiCAD),并进行了初步预测和分析,旨在为谷子木质素代谢的研究奠定基础。
本研究利用拟南芥、水稻以及狗尾草的CAD基因家族成员,在Pfam(http://pfam.xfam.org/)数据库的Sequence Search功能中下载符合CAD基因家族的隐马尔可夫模型(Hidden Markov Model,HMM)[21]。从Phytozome V 13数 据 库(https://phytozome.jgi.doe.gov/pz/portal.html)[22]获 取 水 稻(Osativa_323_v7.0.protein.fa)、谷子(豫谷1号,Sitalica_312_v2.2.protein.fa)、拟 南 芥(Athaliana_167_TAIR10.protein.fa)和狗尾草(Sviridis_500_v2.1.protein.fa)的蛋白质数据。从山西农业大学MDSi谷子多组学数据库(http://sky.sxau.edu.cn/MDSi.htm)获取晋谷21号突变体xiaomi的蛋白质数据(Peptids.fa)。在Tbtools软件中利用上述CAD蛋白的HMM模型筛选2种谷子材料相关蛋白质数据;利用MEGA 7软件对4个不同物种中CAD蛋白进行多序列比对(Clustal W法),并构建系统发育树(Neighbour Joining Tree,Bootstrap=1 000,其他参数设为默认)。利用MDSi数据库提取xiaomi CAD基因的位置信息,利用在线工具MapGene2Chromosome V 2(http://mg2c.iask.in/mg2c_v2.1/)对基因定位的结果进行分析并绘制染色体定位图。
本研究利用ExPASy(https://web.expasy.org/protparam/)分析CAD蛋白的相对分子质量、氨基酸数目、等电点、平均亲水性、不稳定指数等指标;利 用Softberry(http://linux1.softberry.com/)在线网站对谷子CAD蛋白进行亚细胞定位预测。
利用TBtools中Gtf/gff3 Sequences Extractor选项,将Up Stream Bases设置为2 000,进而获取CAD基因上游2 000 bp的序列,将所获取的序列提交至PlantCARE(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)进行启动子顺式作用元件分析,最后通过TBtools对常见的功能元件进行可视化展示。
通过MEME(https://meme-suite.org/meme/)预测谷子CAD基因家族成员的保守基序(基序数目设置为10),同时从MDSi数据库获取xiaomi基因组注释文件。
利用TBtools绘制谷子CAD基因家族成员的基因结构和保守基序示意图。
从MDSi谷子多组学数据库获取CAD基因在不同时期不同组织中的表达量数据,通过Tbtools绘制热图进行可视化展示。
本研究基于HMM模型的筛选,在xiaomi和豫谷1号(Yugu 1)中均鉴定到13个CAD基因。依据染色体位置命名为SiCAD1~SiCAD 13,其中SiCAD2、SiCAD3、SiCAD4、SiCAD5紧密串联形成基因簇(图1)。
与狗尾草(11个)、拟南芥(9个)、水稻(12个)CAD蛋白的进化关系分析显示(图2),谷子CAD蛋白与狗尾草的亲缘关系最近,且2种谷子中的CAD蛋白同源性极高(多数>99%),仅SiCAD8、SiCAD12和SiCAD13与Yugu 1蛋白同源性较低,分别为66%、66.30%和73.20%。值得注意的是,谷子CAD基因被分为3个亚类,第1亚类包括SiCAD1、SiCAD6这2个基因;第2亚类包括8个基因:SiCAD2、SiCAD3、SiCAD 4、SiCAD5、SiCAD7、SiCAD8、SiCAD11、SiCAD12;第3亚类包括3个基因:SiCAD9、SiCAD10、SiCAD13(图2)。
对xiaomiCAD蛋白进行理化性质及亚细胞定位预测,结果显示,13个基因所编码蛋白氨基酸数目均在300个左右,相对分子质量接近,亚细胞定位在细胞质中。通过预测可知,13个蛋白的等电点为4.91~8.99,包含4个碱性蛋白和9个酸性蛋白;平均亲水性为-0.245~0.159,其中,SiCAD1、SiCAD2、SiCAD 3、SiCAD4、SiCAD5、SiCAD6、SiCAD7、SiCAD8、SiCAD10为正值,属亲水蛋白;其余基因为负值,表明为疏水蛋白。此外,SiCAD13编码蛋白的不稳定系数为41.98,暗示其稳定性较差(表1)。
表1 xiaomi CAD蛋白理化性质及亚细胞定位Tab.1 Physicochemical properties and subcellular localization of CAD protein in xiaomi
通过对xiaomi CAD家族基因CDS上游2 000 bp的序列进行分析,预测到12种涉及低温响应、激素响应(茉莉酸甲酯、脱落酸、水杨酸和赤霉素)、光响应以及防御和应激响应的顺式作用元件。预测结果还发现,启动子序列中含有参与干旱诱导和光响应的MYB结合位点;13个基因上游启动序列所包含的顺式作用元件个数、种类及排列顺序没有明显规律(图3)。
对xiaomi CAD基因家族的保守基序(motif)以及基因结构进行了分析,结果如图4-A所示,13个SiCAD蛋白共有10个保守基序,均包含Motif 1、Motif 2、Motif 4、Motif 7和Motif 9。SiCAD12缺少Motif 2和Motif 5;SiCAD13缺少Motif 3、Motif 5、Motif 6、Motif 8;SiCAD8缺少Motif 3、Motif 8;相比之下,Motif 10仅出现在SiCAD13中。在基因结构方面,13个基因均为断裂基因,包含外显子数目为3~8个。SiCAD9和SiCAD10这2个基因最为相似(图4-B)。
利用MDSi数据库中的转录组信息,对晋谷21号和xiaomi的13个SiCAD基因在不同时期的组织表达谱进行分析,结果如图5所示,图中从左往右依次为晋谷21号(JG21)发芽3 d的种子、两叶一心期植株、抽穗后2 d顶端2、3片叶、灌浆期颈穗茎节、灌浆期旗叶、灌浆期旗叶鞘、灌浆期顶端第2节茎、灌浆期顶端第4片叶、灌浆期顶端第4个叶鞘、灌浆期根、幼穗初次分化时期的穗、幼穗再次分化时期的穗、S2时期未成熟的穗码、S4时期未成熟的穗码、S1时期未成熟的种子、S2时期未成熟的种子、S3时期未成熟的种子、S4时期未成熟的种子、S5时期未成熟的种子、成熟后30 d种子、成熟后60 d种子、S3时期叶脉、S3时期叶肉;之后为xiaomi3周叶、孕穗期顶端第2片叶、抽穗后2 d穗、授粉期穗、灌浆期穗、灌浆期茎。第1亚类中,SiCAD6的表达量均低;而SiCAD1存在时空表达特异性,在晋谷21号灌浆期颈穗茎节和灌浆期顶端第2节茎均有可观表达,在xiaomi灌浆期茎部的表达量也相对较高。第2亚类中,SiCAD5在xiaomi的6个部位均有表达,尤其在灌浆期茎中表达最高,在晋谷21号的灌浆期顶端第2节茎中也有较高表达;SiCAD2、SiCAD3、SiCAD4、SiCAD12在29个部位中大部分表达量较低甚至不表达;SiCAD7、SiCAD8、SiCAD11表达量较高,其中SiCAD8在晋谷21号灌浆期顶端第2节茎的表达量最高。第3亚类中,SiCAD13在xiaomi中均不表达,在晋谷21号个别部位有少量表达;SiCAD9、SiCAD10在29个部位的表达量均相对较低。
综上可见,第1亚类SiCAD1、第2亚类SiCAD5和SiCAD 8在谷子茎秆中有较为可观的表达,这些基因的表达可能与谷子茎秆中存在大量木质素有关。
自1992年第1个CAD基因在烟草[16]中被发现以来,小麦、棉花等CAD研究也逐渐开展[23-24],目前,谷子CAD的研究还相对较少。本研究基于名优品种晋谷21号超早熟突变体xiaomi和豫谷1号的基因组信息,利用生物信息学的方法,筛选到13个SiCAD基因。根据进化关系可知,SiCAD基因与狗尾草CAD基因亲缘关系最近。不同谷子材料间的CAD基因数量相同,基因在染色体分布相似,除SiCAD8和Seita.6G026500同源性为66%,SiCAD12和Seita.9G156900同源性为66.3%,SiCAD13和Seita.9G292500同源性为73.2%,其余蛋白质同源性整体极高(>99%),说明其功能可能仍存在差异,但有待于进一步研究确定。
CAD基因家族依据同源性以及对底物的亲和力可分为3个亚类[25],第1亚类主要在木质素生物合成中发挥重要作用,而第2、3亚类具有多种生理作用。前人研究发现,第1亚类CAD基因与木质素生物合成相关性最高[26-27]。其中水稻LOC_Os02g09490基因编码第1亚类CAD蛋白,在木质素单体生物合成中发挥重要作用[28];狗尾草中Sevir.1G056800(第1亚类)是该物种木质素合成时最主要的CAD基因[26]。通过进化关系分析可得,基因SiCAD1和SiCAD6与Sevir.1G056800和LOC_Os02g09490在系统进化树中属于同一分支,表明这些基因蛋白序列相似,具有相似的基因结构,同时也可能具有相似的基因功能。由此可知,xiaomi第1亚类基因有2个(SiCAD1和SiCAD6),但是鉴于SiCAD6在xiaomi和晋谷21号2个材料共29个部位中表达量均较低甚至不表达,而SiCAD1在多组织中尤其是2个谷子材料的茎中有较高表达,因此推测SiCAD1为参与谷子木质素合成的主要基因。
相比之下,第2、3亚类的CAD蛋白数量较多,但这些酶属于多底物醇脱氢酶,通常具有多种生理活性[26-27],至今尚未发现这2类CAD蛋白在木质素生物合成过程中的作用[28]。狗尾草Sevir.2G207500(第2亚类)和Sevir.7G014100(第3亚类)的表达量远低于Sevir.1G056800(第1亚类),但其表达模式与木质素沉积相关[25]。本研究发现,第2亚类中与Sevir.2G207500同源性最高的SiCAD 5以及Sevir.6G025000的同源基因SiCAD8在2种谷子材料不同时期茎中的表达较高。因此,推测这2个基因可能参与木质素沉积,但是仍缺乏对茎秆木质素含量与SiCAD基因表达量的关联性分析,SiCAD的功能有待进一步验证。
本研究以晋谷21号突变体xiaomi为研究对象,以水稻、拟南芥和狗尾草的CAD基因家族为同源序列,通过序列比对,共鉴定到13个SiCAD基因,分布于谷子的1、2、4、6、7、9号染色体。结构预测发现,13个SiCAD基因均含有多个不同的启动子顺式作用元件,它们涉及低温响应、激素响应、光响应以及防御和应激响应,且在启动子序列中发现了含有参与干旱诱导和光响应的MYB结合位点,此外,还发现13个基因均为断裂基因且包含多个不同的保守基序。通过基因表达谱发现,SiCAD1、SiCAD5、SiCAD8在谷子茎中表达量高,预测可能在木质素合成过程中发挥作用,该研究为C4植物CAD基因家族的研究提供一定的参考。本研究明确了基因在木质素合成过程中发挥作用的重要方法,即通过基因的表达位置及表达量确定其是否参与木质素合成过程,而不能将基因所属亚类作为唯一的评判标准。