孟亚轩, 孙颖琦, 赵心月, 王凤霞, 瓮巧云, 刘颖慧
( 河北北方学院 农林科技学院, 河北 张家口 075000 )
苯丙氨酸解氢酶(phenylalanine ammonia-lyase,PAL)是苯丙烷代谢途径中的关键酶,参与木质素及酚类化合物的合成过程,广泛存在于各种植物中(Fraser & Chapple, 2011;盖江涛等,2016)。Koukol和Comm(1961)在大麦()中首次提取出PAL蛋白,后续马铃薯()(Joos & Hahl, 1992)、烟草()(Reichert et al., 2009)等高等植物也相继分离纯化得到PAL蛋白。杨郁文等(2017)研究发现PAL多以同源四聚体形式存在于细胞质和叶绿体中,通过转录水平等多层次调控方式,在植物防御系统中发挥重要作用。启动子缺失实验表明,MYB转录因子可通过结合启动子区段,进行转录水平调控(杨郁文等,2017)。可通过调控HCA类酚类、类黄酮等产物的合成影响果实品质(张丽之等,2018)。此外,广泛参与植物响应病原菌侵染过程。杨会晓等(2019)研究表明与香蕉抗病性密切相关,在枯萎病菌侵染过程中高丰度表达。活性增加与苯丙烷类产物的产量提高密切相关,其活性水平随发育阶段、细胞和组织的分化、不同应激刺激而改变。Lister等(1996)首次发现活性与苹果()果实类黄酮含量存在显著正相关。杨会晓等(2019)研究发现在香蕉()果实发育成熟过程高丰度表达,次级代谢物质在这一阶段具有较高的表达效率。Olsen等(2008)研究发现拟南芥()1、2基因在氮胁迫和温度变化过程中高丰度表达,并伴随类黄酮化合物的积累。
随着基因组学的发展,多种植物基因组测序相继完成,植物中基因的功能陆续得到研究。大豆()1-1、2-1、2-3在木质素合成过程中发挥重要作用(候鹏等,2016);10强烈响应纹枯病菌侵染玉米()过程(邓路长等,2019);参与山葡萄()花色苷的积累(陈蒙等,2018)。基因组学的迅速发展,标志着在分子水平上进行系统分析已成为当下生物学研究的主流趋势(王灿等,2020)。谷子()为一年生禾本科作物,基因组小且为二倍体,具有抗旱性强、生育期短、产量高等特点,是挖掘作物抗旱基因和解读抗逆分子机制的重要作物(宋健等,2020)。谷子生育期内需水量较少,属环境友好型作物(宋健等,2019),抗逆育种靶向基因资源的研究已成为谷子增收工作的重要环节(Nadeem et al., 2020)。谷子基因组测序的完成为谷子研究搭建了数据基础,标志着谷子遗传研究已进入后基因组学时代(Bennetzen et al., 2012;Zhang et al., 2012)。基因家族广泛存在于植物中,但关于谷子基因家族的研究却鲜有报道。为明确谷子基因家族在逆境胁迫过程中的作用机理,本研究利用生物信息学方法对谷子基因家族进行鉴定,分析其结构特点及进化方式,并构建家族基因在非生物胁迫下的表达模式,以期为谷子基因家族的生物学功能研究提供参考。
供试谷子()品种为一年生‘张杂谷8号’,盆栽于河北北方学院农场,分别置于自然光、黑暗、红光、蓝光、远红光条件下照射24 h,取幼嫩叶片,液氮速冻后,-80 ℃保存备用。
利用Pfam数据库查找并下载PAL蛋白结构域的隐马尔可夫模型文件(Pfam号码:00221)(Finn et al., 2008),利用plant Genes 基因组获取Gene stable ID及Transcript stable ID,通过CDD和InterProScan对Gramene网站获取的序列进行筛选鉴定,去除冗余,得到PAL蛋白序列、染色体定位等基因信息(Marchler et al., 2009; Hunter et al., 2009)。利用ProtParam数据库通过序列信息得到氨基酸数量、等电点等用于推测蛋白质的相关因子(宋健等,2020)。
通过MG2C在线工具,利用谷子基因位置信息以及从Ensemble Plants查询到的谷子染色体长度,绘制基因的染色体定位。
使用ProSite和Clustal X在线软件对谷子PAL蛋白结构域位置进行序列对齐。通过MEGA 6.0软件中的衔接法(neighbor-joining, NJ),采用泊松模型绘制蛋白进化树(bootstrap为1 000)(Larkin et al., 2007;Sigrist et al., 2010)。通过上述方法对二穗短柄草()、高粱()、狗尾草()等54个PAL家族成员绘制蛋白进化树(bootstrap为默认值)。
在MEME网站得到谷子PAL的motif模式(最小宽度设置为60,最大宽度设置为200)(Bailey et al., 2009);利用Weblogo分析得出PAL结构域motif(Stacks per Line设置为100);在SWISS-MODEL网站中利用其各基因位点出现频率最高基因组成的保守序列预测其三维结构并得到螺旋模式(Kiefer et al., 2009),并根据上述方法对二穗短柄草、水稻等物种的PAL蛋白进行预测,分析对比各物种的蛋白结构差异。
在PAL系统发育的基础上,谷子和水稻()的直系同源片段已得到鉴定。利用Ensembl Plants网站的基因组比较功能得到谷子和水稻同源物的同源共线图(Wang et al., 2012)。通过其染色体定位及基因位置,在Adobe Illustrator CS4软件绘制谷子和水稻同系物的同源共线图,分析其共线性。
通过Phytozome数据库获得谷子基因的序列信息,使用GSDS 2.0在线数据库分析其编码序列,得到内含子-外显子结构模型(Hu et al., 2015)。在谷子基因组数据库得到起始密码子上游1 500 bp区域序列,利用plantCARE分析其顺式作用元件,通过GSDS 2.0将其可视化(Lescot et al., 2002)。
在Phytozome数据库获得11个基因在不同诱导处理下的表达模式,包括强光诱导2周的叶片、强光诱导1周的芽、黑暗诱导的地上组织、红光诱导的地上组织、正常光诱导的根、干旱诱导的根、尿素诱导的根、强光诱导的穗,利用TBtools绘制热图(Chen et al., 2020)。
利用DNAMAN设计引物,选择为内参基因。使用植物总RNA试剂盒提取RNA(天根生化科技有限公司),FastQuant RT Kit合成cDNA,使用Agilent 3000P荧光定量PCR仪进行PCR扩增。反应条件:95 ℃预变性2 min,95 ℃变性15 s;60 ℃退火30 s,40个扩增循环,每个样品进行3次重复;采用2进行数据处理。
谷子中共鉴定11个家族基因,分别命名为1~11(表1)。11个PAL蛋白序列差异较小:氨基酸长度为698 aa(SiPAL1、SiPAL8)~891 aa(SiPAL7),开放阅读框长度2 142 bp(3)~4 610 bp(2),分子质量为74.99 kD(SiPAL8)~95.01 kD(SiPAL7),等电点为5.82(5)~6.52(6),含有1个(3、4、5)~6个(7)外显子。从表1可以看出,位于1号染色体的5个基因(1~5)具有相似的编码蛋白特征,且基因位置紧密排列在一起,位于7号染色体的3个基因(9~11)虽然紧密排列,但其编码蛋白的特征却相差较大。所有PAL蛋白的等电点均在5.82~6.52之间,说明苯丙氨酸解氢酶具有酸性特征,PAL蛋白可能在弱酸性的环境中发挥作用。家族基因除7(6)外,外显子数量较小,推测10个家族基因具有相似的功能。
从基因的染色体分布发现,1号染色体有5个紧密排列的基因,分布的基因数量最多;7号染色体具有3个基因且紧密排列,其他染色体上没有成簇基因分布(表1,图1);此外,基因不均匀分布在染色体各个部位,其中1号染色体和7号染色体基因形成簇状分布。利用Phytozome数据库的Gbrowse功能比对成簇分布的基因家族成员与侧翼编码蛋白质基因位置关系,参考Holub(2001)对基因簇的界定,暗示谷子家族基因可通过串联复制实现家族扩增。
表 1 谷子PAL基因家族的信息Table 1 Information of millet PAL gene family
图 1 谷子PAL基因家族的染色体分布Fig. 1 Chromosome distribution of millet PAL gene family
利用蛋白序列对齐文件,通过衔接法绘制出谷子PAL的进化树(图2)。由图2可知,根据进化树拓扑结构可分为3组蛋白,第1组和第2组蛋白数量相同且分支分布情况相似,此外小部分PAL蛋白的临界值达到100。进化树的拓扑情况表明,这两组基因可能经过复制的方式得到或者执行相似基因功能。由进化树聚类分析得出,相同PAL蛋白结构域与同一基因扩增或复制的蛋白聚合在一起,如SiPAL6和SiPAL9分散复制聚在一起,相同结构域聚合为一组。另外,SiPAL7独自分支为一组,说明SiPAL7可能具有不同的进化轨迹。
图 2 PAL蛋白系统发育进化树Fig. 2 Phylogenetic tree of PAL protein
利用MEGA 6.0软件将单、双子叶共6个物种的54个PAL蛋白利用衔接法构建系统发育进化树(图3)。由图3可知,基因家族演化分析中选用二穗短柄草9个,高粱8个、狗尾草11个、水稻10个、拟南芥5个PAL蛋白发现,7个亲缘关系组中部分物种PAL蛋白呈家族性聚集,不同纲目物种之间的PAL蛋白也具有较高的同源性。
黑色为谷子,青色为二穗短柄草,黄色为高粱,蓝色为狗尾草,紫色为拟南芥,红色为水稻。Black is Setaria italica, cyan is Brachypodium distachyon, yellow is Sorghum bicolor, blue is Setaria viridis, purple is Arabidopsis thaliana, red is Oryza sativa.图 3 不同物种PAL蛋白进化树Fig. 3 Phylogenetic tree of PAL protein in different species
通过ProSite软件对谷子PAL蛋白的结构域分析结果发现,所有PAL蛋白均具有保守的PAL 结构域。由图4可知,SiPAL7蛋白除含有PAL结构域外还具有HtRna 结构域、HGTP 结构域,其中HtRNA 结构域可能调控氨酰腺苷酸的合成,HGTP 结构域可能与相关蛋白质的合成有关,SiPAL7的氨基酸长度最长,拥有蛋白结构域最多,可能与其具有最多的外显子(6个)有关,意味着拥有更多的遗传信息;SiPAL11虽同样具有较长的氨基酸序列,但只含有PAL蛋白结构域,暗示SiPAL11可能拥有一些低复杂度的蛋白结构域。通过MEME软件对谷子PAL蛋白结构域分析发现,PAL结合结构域的氨基酸组成较为稳定。
图 4 谷子PAL蛋白结构域示意图Fig. 4 Schematic diagram of PAL protein domain of millet
利用SWISS-MODEL软件分析各基因位点出现频率最高的保守基序,预测谷子PAL蛋白的3D结构发现,谷子PAL蛋白的PAL 3D 结构在对称基础上具有较多的螺旋、折叠方式(图5:A)。通过Superpose Version 1.0将各物种间的PAL蛋白3D结构对比,比值越小证明物种间PAL蛋白结构越相似。由表2可知,狗尾草与谷子3D结构相差最小(0.38),与进化树分支聚类情况一致,证明两者具有最近的亲缘关系,相差最大的是谷子与二穗短柄草(3.93),这与谷子和二穗短柄草为不同纲目的物种相对应。通过蛋白3D结构发现PAL蛋白的三级结构大多具有对称性,说明其蛋白质的结构单元具有一定的相似性,从基因进化来看,这种对称性代表着基因存在复制融合。
A. PAL氨基酸序列; B. PAL蛋白3D结构示意图。A. PAL amino acid sequence; B. PAL protein 3D structure schematic diagram.图 5 PAL蛋白的3D结构及序列Fig. 5 3D structure and sequence of PAL protein
利用Ensembl Plants网站synteny功能得到谷子和水稻同源物的同源共线图。通过染色体定位及基因位置,绘制谷子和水稻同源物的同源共线图(图6仅展示代表成员)。图6结果表明,谷子11个家族成员均可在水稻中找到共线基因,如含有020626100、020626400等的水稻2号染色体基因组区域与谷子1号染色体的基因组块具有共线性,含有050150900的水稻5号染色体基因组区域与谷子3号染色体的基因组块具有共线性;同样含有040518100、040518400的水稻4号染色体基因组区域与谷子7号染色体组块具有共线性。
图 6 谷子和水稻PAL基因共线性分析Fig. 6 Collinearity analysis of PAL gene in millet and rice
利用GSDS 2.0对谷子序列信息分析并可视化,得到基因内含子-外显子结构模型图(图7:A)发现,基因大多数只具有1个内含子(1、2、6、8、9、10、11),且这些基因的外显子结构及大小具有一定的相似性,这种结构间的相似性说明他们可能在植物的生化过程中执行相同的作用。3、4、5同样具有相同的外显子结构,但均不含有内含子。7拥有最多的内含子数量(5)。
将plantCARE分析得到的顺式作用元件区域可视化,得到顺式作用元件分布图,图7:B结果显示,家族中含有多种激素信号响应元件和环境信号响应元件。其中,分布最广的为茉莉酸响应元件,存在于所有基因中,暗示基因通过响应植物内源激素参与植物抗病过程;分布最少的元件为胚乳表达元件,只存在于9中;其他不同类型顺式作用元件如胁迫元件、光响应等不均匀分布在各个位置。可见,家族基因在谷子发育、抗病及胁迫过程中发挥重要作用。
A. 防御与应激响应; B. 赤霉素响应; C. 脱落酸响应; D. 生长素响应; E. 光响应; F. 茉莉酸响应; G. 玉米醇溶蛋白调控元件; H. 分生组织诱导; I. MYB结合位点; J. 缺氧诱导; K. 胚乳表达; L. 低温胁迫。A. Defense and stress responsiveness; B. Gibberellin responsiveness; C. Abscisic acid responsiveness; D. Auxin responsiveness; E. Light responsiveness; F. MeJA responsiveness; G. Zein metabolism regulatory elements; H. Meristem induction; I. MYB binding site; J. Hypoxia induction; K. Endosperm expression; L. Low temperature stress.图 7 PAL基因内含子-外显子结构及顺式作用元件Fig. 7 PAL gene intron-exon structure and cis-acting elements
从Phytozome数据库获得的11个基因在谷子不同组织中面对不同非生物胁迫的表达量数据,利用TBtools将结果可视化,绘制热图,如图8所示,所有基因均检测到表达量,其中1、2、8、10在强光诱导1周的芽、黑暗诱导的地上组织、红光诱导的地上组织、正常光诱导的根、干旱诱导的根、尿素诱导的根、强光诱导的穗中均具有明显高于其他基因的表达量; 在强光诱导生长2周叶片的表达量中只有2具有微弱表达,其他基因几乎不表达。3、6、9在谷子不同组织中的表达量均明显低于其他基因;家族基因为诱导型表达,即在干旱或强光等诱导条件下,表达量为增强或抑制,存在着不同基因的差异性。
A. 强光诱导叶片2周; B. 强光诱导芽1周; C. 黑暗诱导的地上组织; D. 红光诱导的地上组织; E. 尿素诱导的根; F. 强光诱导的穗; G. 正常光诱导的根; H.干旱诱导的根。A. Strong light induced leaves for two weeks; B. Strong light for one week; C. Dark induced above-ground tissue; D. Red light induced above-ground tissue; E. Urea induced roots; F. Bright light-induced spikes; G. Normal light-induced roots; H. Drought-induced roots.图 8 谷子PAL基因在不同诱导下各组织的表达量Fig. 8 Expression of millet PAL gene in various tissues under different induction
由图9可知,红光照射下,1、8、5上调表达,其余基因与对照组相比,表现出不同程度的下降。蓝光照射下1、8、10等上调表达,7与对照组相比无明显变化。黑暗处理下,1、8、2等上调表达,其他基因表现为下调,其中6表达量极低。远红光照射下,1、8、2、10、5、11等上调表达。家族基因在不同光质照射下表达量变化明显,说明基因在谷子光形态建成中发挥重要作用,1、8为主要成员。
Control. 正常光诱导; RL. 红光诱导; BL. 蓝光诱导; DL. 黑暗诱导; FRL. 远红光诱导。Control. Normal light induction; RL. Red light induction; BL. Blue light inducation; DL. Dark induction; FEL. Far-red light induction.图 9 谷子PAL基因在不同光质下的表达量Fig. 9 Expression of PAL gene in millet under different light qualities
表 2 PAL蛋白叠加比对Table 2 PAL protein stacking ratio
PAL是与植物抗性相关的关键酶(孙宇蛟等,2018),对其研究备受关注,前人已对多物种的基因家族进行了分析,如玉米(邓路长等,2019)、苹果(张丽之等,2018)和陆地棉()(杨郁文等,2017)。其中,玉米和陆地棉均含有13个基因,苹果含有8个家族成员,与本研究中谷子鉴定出11个基因结果相差不大,说明基因以小基因家族形式存在,在物种分化过程中没有出现大幅度扩增现象。谷子基因编码的蛋白中有部分蛋白具有相近的分子量、等电点等,与香蕉(杨会晓等,2019)和青天葵()(黄琼林等,2016)的研究较一致,说明其编码的蛋白具有相似的功能。
基因复制事件是基因家族扩张的主要动力。本研究发现,谷子基因呈簇状分布,在苹果(张丽之等,2018)、大豆(候鹏等,2016)、西瓜()(Dong & Shang, 2013)中PAL染色体定位同样存在簇状分布现象,其中西瓜12个基因中有7个串联排列在4号染色体,2个串联排列在7号染色体上,其余单独排列在染色体2号、3号、8号上,与谷子染色体分布有着高度的相似性,说明在基因家族的扩增中存在串联复制、分散复制、片段复制(郭栋等,2019)。共线性分析发现,11个谷子基因家族成员在水稻染色体组中均存在共线性关系,说明基因在进化过程中保守性较高。
根据进化树的拓扑结构,谷子PAL蛋白进化树分为3组,SiPAL7独自进化为一支,说明SiPAL7与其他成员同源性较低,可能具有不同起源或进化轨迹,本研究结果与陆地棉(杨郁文等,2017)具有一致性。系谱树内同一进化枝成员基因结构较为一致,具有较高的保守性。但是,Ⅲ组成员7与其他家族成员相比基因结构差异较大,拥有更多的内含子数量,这暗示基因家族具有多样化的转录调控过程。基因家族成员结构的差异性可能会影响其功能活性。
启动子分析发现,基因家族不仅含有大量非生物胁迫元件,而且存在光响应、激素响应等多种类型元件,不同家族成员所含元件数量和种类不同,说明基因家族广泛参与不同生物学调控过程,不同基因具有其特异调控模式。
植物在遭受干旱、高温等胁迫时,会迅速产生大量活性氧(ROS)造成细胞结构损伤。苯丙烷代谢途径中产生的类黄酮等次生代谢产物,具有清除ROS的抗氧化活性(杨会晓等,2019)。本研究发现,基因家族多为诱导型表达,在受到不同胁迫刺激时,表达量迅速提升,说明基因家族广泛响应不同非生物胁迫,类黄酮等次级代谢产物在非生物胁迫过程中可能具有较高的合成活性。本研究还发现,部分基因具有相似的响应模式,说明可能存在功能冗余。光质在植株建成、生长发育过程中具有重要作用。荧光定量分析结果表明,在不同光照条件下,基因家族差异表达。5在红光、红远光高表达,11在红远光高表达等,这些变化说明基因家族在谷子光调节途径中存在复杂的调控机制,不同基因存在功能分化。