刘 江, 刘 刚, 曾益春, 代 洁, 危 玲, 姚永权, 佟万红, 唐清霞, 黄盖群
(四川省农业科学院蚕业研究所, 四川 南充 637000)
【研究意义】转录因子(Transcription factors, TFs)又称反式作用因子,在植物应激调控网络和信号传导通路等关键性生理反应中扮演着重要作用,是植物中普遍存在的重要调节因子之一[1-2]。转录因子是能与顺式作用元件及蛋白发生特异性结合的一类蛋白,能对基因转录进行精确调控[3]。目前,已有60多种转录因子在植物中被报道[4],主要包括WRKY[5-6]、Bzip[7]、MYB[8]、MADS-box[9]和GATA[10]等。GATA转录因子是植物中重要的调控因子之一,能与DNA序列WGATAR (W为T或者A, R为G或者A) 特异性结合,调节下游基因的表达[11],从而调控植物的生长发育过程,如调控叶绿素合成、影响花朵发育、调控物质代谢[12]及调控抗逆胁迫[13]等。【前人研究进展】Reyes等[14]研究发现,GATA 家族基因的DNA基序参与了光依赖和硝酸盐依赖的转录调控。此外,真菌GATA转录因子能调控氮代谢、光诱导、铁载体生物合成和配对类型转换[15]。GATA基因家族成员在许多植物中被鉴定及分析,如拟南芥(Arabidopsisthaliana)[16]、水稻(Oryzasativasubsp.japonica)[16]、谷子(Setariaitalica)[17]、烟草(Nicotianatabacum)[18]和玉米(Zeamays)[19]分别鉴定出30、28、33、57、37个基因成员,为探究GATA转录因子在其他植物中的生物学功能提供了参考。【本研究切入点】桑树(Morusnotabilis)是一种具有重要经济价值的树种,主要分布于中国中部和南部[20]。桑树不仅具有良好的经济价值,而且在生态保护中的重要性日益凸显。近年来,蚕桑产业的生产布局逐步向西部地区转移,大量桑树将被种植于高寒、干旱、贫瘠的山地。因此,挖掘桑树抗逆胁迫相关基因对培育抗旱耐冷的抗逆性桑树新品种具有重要的指导意义。目前,桑树GATA转录因子的鉴定与分析及逆境胁迫相关的研究尚未见报道。【拟解决的关键问题】本研究运用生物信息学方法,对桑树全基因组范围内GATA转录因子家族成员进行鉴定,系统地分析桑树GATA基因蛋白质的理化性质、结构特征及系统进化关系等。对掌握桑树生长机制、良种选育和抗逆性等方面具有重要的理论和实践意义。
桑树全基因组数据从川桑(M.notabilis)全基因组数据库(https://morus.swu.edu.cn/morusdb/)下载,拟南芥全基因组数据从植物转录因子数据库Plant TFDB(http://planttfdb.gao-lab.org/blast.php)下载。
GATA蛋白结构域的隐马尔可夫模型文件(PF00320)从 Pfam数据库(http://pfam.xfam.org/)下载,作为参考序列[17]。采用HMMER 3.0软件对川桑全基因组数据库(https://morus.swu.edu.cn/morusdb/)进行检索,E值设置为1E-10,获得候选序列。此外,通过在线软件SMART和NCBI-CDD (https://www.ncbi.nlm.nih. gov/cdd/)检测候选序列保守域的完整性,筛选出具有完整GATA结构域的氨基酸序列。
利用在线软件ExPASy中的ProtParam (https://web.expasy.org/protparam/)[21]分析桑树GATA基因家族候选蛋白的分子量、氨基酸数、等电子量等理化性质。采用在线软件WoLF PSORT (https://wolfpsort.hgc.jp/)预测亚细胞定位[19]。
通过Clustal W软件多重序列比对功能,对桑树和拟南芥的GATA基因家族成员氨基酸序列进行比对[22],随后利用MEGA 7软件采用邻接法(Neighbor joining, NJ)构建系统进化树,Bootstrap值设置为1000。
利用TBtools(https://github.com/CJ-Chen/TBtools)和GSDS (http://gsds.gao-lab.org/)对桑树GATA基因家族成员的基因结构进行分析并绘制基因结构可视图[23]。运用在线工具MEME (http://meme-suite.org/tools/meme)对桑树GATA基因家族成员的蛋白保守基序进行分析,设置motif数量为6。
利用在线工具SWISS-MODEL (https://swissmodel.expasy.org/interactive/)对鉴定出来的GATA蛋白序列进行蛋白三级结构预测。通过在线网站STRING (https://cn.string-db.org/)对桑树GATA蛋白成员进行理论互作网络关联分析。
通过川桑数据库获得GATA基因家族成员在各组织中的表达情况,包括根、表皮、叶片、冬芽和花5个组织。选择FPKM值表示基因相对表达水平,利用TBtools绘制热图[24]。
通过工具BEDTools[25]获得GATA基因上游2000 bp序列,利用数据库PlantCARE (http://bioinformatics. psb.ugent.be/)[26]预测启动子区域内与胁迫相关的顺式作用元件。
在桑树全基因组中,共鉴定出23个GATA基因家族成员,基于基因组中基因编号大小对桑树GATA基因家族成员进行排序命名(表1)。桑树GATA基因家族成员蛋白质理化性质分析显示,23个MnGATAs蛋白的氨基酸长度为146 (MnGATA6)~820 aa (MnGATA7),蛋白质分子量为15.89 (MnGATA6)~93.06 kD (MnGATA7),蛋白质等电子量大小差异较大,为4.32 (MnGATA1)~10.53 (MnGATA5)。结构域分析发现,桑树GATA基因家族成员均仅含1个GATA结构域。蛋白平均疏水指数均为负值,表明桑树GATA转录因子均为亲水性蛋白质。23个MnGATAs蛋白质的亚细胞定位预测显示均位于细胞核,说明该家族基因主要在细胞核中发挥功能。
表1 桑树GATA家族基因基本信息
构建桑树和拟南芥GATA基因家族成员蛋白质的系统进化树(图1)。参考拟南芥GATA家族分类法加以改动,23个MnGATAs基因家族成员大致分成4个亚族,其中Class I中共存在8个基因(MnGATA2、MnGATA7、MnGATA8、MnGATA9、MnGATA18、MnGATA20、MnGATA21及MnGATA2)约占总基因成员的34.78%,Class II、Class III和Class IV分别包含4、6和5个家族成员。桑树与拟南芥GATA基因家族成员在4个亚家族中的分布类似。从进化树分支上看,桑树与拟南芥的GATA基因家族成员在各亚家族上的分布数占各自物种GATA基因总数比例不同,说明GATA基因家族在不同植物亚家族中聚类存在差异。
Mn. 桑树; At. 拟南芥Mn. M.notabilis; At. Arabidopsis thaliana图1 桑树GATA转录因子系统进化树Fig.1 Phylogenetic tree of mulberry GATA transcription factor
GATA基因家族蛋白保守基序结果(图2)显示,同一亚族中的MnGATAs成员具有相似的保守基序,motif 1含有CX2CX18CX2C锌指结构域,所有桑树GATA成员蛋白序列都包含motif 1。第I亚族成员共8个,motif 2和motif 5是该亚族所特有的保守基序。第Ⅱ亚族成员共4个,其保守基序数量在2~3个,4个成员都包含motif 1和motif 3。第III亚族的MnGATA6、MnGATA16、MnGATA17和MnGATA23蛋白仅含一个保守基序。第IV亚族是保守基序种类最丰富的亚族,具有4种保守基序,其中 motif 4是第Ⅳ亚族特有保守基序。
A. 保守基序分布; B. Motif结构分析A. Conserved motif distribution; B. Motif structure analysis图2 MnGATAs家族蛋白保守基序分布及Motif结构分析Fig.2 Distribution and motif structure analysis of conserved motifs in MnGATAs family proteins
由GATA基因内含子-CDS结构模型(图3)可知:MnGATAs家族成员均含有CDS,且同一亚族上的基因结构除Class I外,Class II、Class III及Class IV基因结构类似,各亚族之间存在明显的差异。Class I亚族中MnGATA7含有的CDS数最多且具有较长的UTR结构,Class II中的基因均包含UTR结构,Class III上的基因CDS数量为2~5个,基因长度相对较短。同一亚族的桑树GATA基因具有相似的CDS及内含子结构,如Class II、Class III亚族上,基因的CDS及内含子都极其相似。然而,并非所有同亚族的基因结构都是相似的,如MnGATA7、MnGATA18、MnGATA20与同亚族的其他基因差异较大,同样的情况在其他物种中也存在,如烟草[18]、高粱[27]等。
图3 MnGATAs基因结构分析Fig.3 Analysis of MnGATAs gene structure
桑树GATA蛋白三级结构预测如图4所示,桑树GATA蛋白包含α-螺旋、β-折叠、β-转角及无规则卷曲等空间构象。此外,对比发现,整体蛋白三级结构相似度不高,除MnGATA7结构较为复杂外,其他蛋白结构复杂程度一般,但同组进化序列基因的结构相似度较高。例如,CIass II中,MnGATA10、MnGATA11、MnGATA12和MnGATA13,CIass III中MnGATA5、MnGATA6、MnGATA23和MnGATA3、MnGATA16、MnGATA17都具有高度相似的蛋白结构,表明蛋白结构与物种进化同源性有一定关联。
图4 MnGATA家族蛋白三级结构预测Fig.4 Prediction of tertiary structure of MnGATA family proteins
对桑树GATA蛋白互作关联预测分析发现,MnGATA2、MnGATA6、MnGATA8、MnGATA9、MnGATA12、MnGATA16、MnGATA17、MnGATA18、MnGATA19、MnGATA21、MnGATA22和MnGATA23 有网络交叉联系(图5),说明他们之间可能具有相似功能,对植物某些生理和生长发育等一系列过程可能具有协同调控作用。此外,并不是所有的桑树GATA蛋白都有关联,如MnGATA1、MnGATA3、MnGATA5、MnGATA7、MnGATA10和MnGATA113,暗示可能蛋白功能差异较大,说明同一家族成员在功能上存在一定差异。
图5 桑树GATA蛋白功能联系网络Fig.5 Functional connection network of MnGATA protein
为阐明桑树GATA基因在器官发育中的潜在作用,对其在桑树5个组织器官(根、表皮、叶片、冬芽和花)中的表达谱进行研究(图6)。结果显示,不同组织器官中桑树GATA基因的组织表达模式存在显著差异。MnGATA1、MnGATA4、MnGATA14和MnGATA15在桑树5个组织中均有较高表达;MnGATA3、MnGATA5、MnGATA9、MnGATA16、MnGATA17、MnGATA21和MnGATA23在根部表达最高,在表皮次之;MnGATA2、MnGATA8、MnGATA10、MnGATA11、MnGATA12、MnGATA13和MnGATA22在各组织中几乎不表达;MnGATA6、MnGATA7、MnGATA18和MnGATA19在各组织中存在少量表达。大部分桑树GATA基因在根部具有较高的表达模式,表明桑树GATA基因可能与桑树根部发育和抗旱性密切相关。
图6 桑树GATA基因组织特异性表达分析Fig.6 The tissue expression of M.notabilis GATA genes
胁迫响应基因的转录调控是植物响应生物/非生物胁迫的一个重要方面,在启动子区域内的顺式作用序列与转录因子特异性结合可以调控下游基因的表达情况[28]。本研究鉴定了MnGATAs启动子区域可能响应生物/非生物胁迫反应的顺式作用元件。
23个MnGATAs启动子区域内均含有应激响应相关顺式作用元件(图7),如低温响应元件(LTR)、参与防御和应激响应的顺式作用元件(DSR),以及参与干旱诱导响应元件(MDI)的MYB结合位点。此外,部分植物激素调节元件同样被发现,如MeJA响应元件(MeJARE)、生长素响应元件(AUXRE)、脱落酸响应元件(ABRE)、水杨酸响应元件(SARE)及赤霉素响应元件(GARE)。本研究中生物/非生物胁迫响应元件的存在,表明MnGATAs可能受到各种胁迫的调控。前人研究表明,串联重复在植物适应快速变化的环境方面发挥着关键作用[29]。值得注意的是,9个MnGATAs(MnGATA3、MnGATA6、MnGATA9、MnGATA11、MnGATA15、MnGATA16、MnGATA17、MnGATA19和MnGATA23)含有DSR元素,表明它们可能在生物胁迫响应中发挥关键作用。
在翻译起始密码子(ATG)上游2000 bp区域内, 不同顺式作用元件的位置用颜色编码形状表示; MeJARE: 参与MeJA响应性的顺式作用调节元件; GARE: 赤霉素反应元件; LTRE: 参与低温反应性的顺式作用元件; ABRE: 参与脱落酸反应性的顺式作用元件; AURRE: 参与生长素反应性的顺式调节元件; SARE: 参与水杨酸反应的顺式作用元件; MDI: 参与干旱诱导的MYB结合位点; DSRE: 参与防御和应激反应的顺式作用元件Positions of different cis-acting elements within a 2000 bp region upstream from the translation start codon (ATG) are indicated by color-coded shapes; MeJARE: A cis-acting regulatory element involved in the MeJA-responsiveness; GARE: A gibberellin-responsive element; LTRE: A cis-acting element involved in low-temperature responsiveness; ABRE: A cis-acting element involved in the abscisic acid responsiveness; AUXRE: A cis-acting regulatory element involved in auxin responsiveness; SARE: A cis-acting element involved in salicylic acid responsiveness; MDI: A MYB binding site involved in drought-inducibility; DSRE: A cis-acting element involved in defense and stress responsiveness图7 MnGATAs应激反应相关的顺式作用元件Fig.7 The stress response-related cis-acting elements of MnGATAs
本研究运用生物信息学对桑树全基因组进行鉴定,获得23个MnGATAs家族成员,并对23个成员进行理化性质分析。结果表明,成员之间存在显著差异,可能是植物在长期进化过程中为适应环境变化及各成员在发育过程中功能各异所导致,但蛋白序列相对稳定且具有亲水性。值得注意的,23个MnGATAs亚细胞定位均定位在细胞核内,说明桑树GATA主要在细胞核中发挥作用,与以往研究存在一定的差异,如在高粱中的亚细胞定位预测结果显示80.65%的GATA家族成员定位在细胞核上,部分成员定位在线粒体和叶绿体上[27]。系统进化树分析显示,桑树GATA家族成员可分为4类,这与枣GATA家族成员的分类相一致[30];同时,结合MnGATAs成员蛋白保守基序及基因结构分布发现,同一亚族上的成员具有类似的蛋白保守基序分布及基因结构,表明同一亚族具有更高的保守性,可能具有相似功能,这与枣和高粱的结果一致[27, 30]。桑树GATA蛋白三级结构和互作关联网络预测分析显示,GATA蛋白整体结构相似度存在差异,但同一亚家族的序列基因结构具有较高相似度,表明同组家族成员在进化过程中结构上具有很大的同源性。蛋白功能联系网络分析也说明家族成员的功能相似,对植物某些生长发育过程具有协同调控功能。
桑树GATAs基因在各组织中的表达水平存在明显差异,在根、表皮及花中的表达明显较高,相同基因在不同组织中的表达同样存在差异,如MnGATA18、MnGATA20和MnGATA23等,表明该家族基因在桑树各组织中的表达具有较强的特异性。MnGATAs的功能具有多元化,且在桑树根、表皮的发育及功能等方面发挥着关键作用,如杨树(Populus)GATA13和GATA19通过调控气孔的大小或关闭,提高植株的水分利用效率,进一步提高抗旱性[31]。桑树GATA启动子区域与胁迫相关的顺式调控元件分析结果显示,MnGATAs不仅参与桑树在生物/非生物胁迫下的转录调控,还参与部分植物激素信号传导调控,如MeJA、Auxin、ABA、SA和GA等。同时,本研究发现桑树GATA基因家族蛋白序列均具有保守性良好的锌指结构域,与已报道的拟南芥(Arabidopsisthaliana)、谷子(Setariaitalica)、烟草(Nicotianatabacum)、水稻(Oryzasativasubsp.japonica)及玉米(Zeamays)等植物的研究结果相符[16-19]。部分特异性的锌指蛋白结构域与环境相关,能调控植物的抗逆性功能[13,32-33]。GATA13和GATA19在杨树中具有抗旱和抗低氮胁迫的功能[31],在水稻研究发现GATA16具有抗低温胁迫的功能[34],GATA25参与苜蓿生长与耐寒性的调控[35]。环境胁迫相关研究是蚕桑产业合理布局的关键,是桑树基础研究的重要领域。然而,GATA基因在桑树中的具体功能还未明确,需要进一步研究。
本研究对桑树GATA转录因子家族进行鉴定,共获得了23个MnGATAs成员,并对其基因结构、系统进化、理化性质、结构域组成、蛋白三级结构和功能互作关联网络、组织表达及启动子区域顺式作用元件等进行了分析。结果显示,MnGATAs的理化性质存在明显差异,基因结构及蛋白保守基序具有较好的保守性,MnGATAs在桑树各组织中的表达模式存在明显差异,MnGATAs不仅参与桑树在生物/非生物胁迫下的转录调控,还参与部分植物激素信号传导调控。本研究对桑树GATA基因家族功能的研究奠定了一定基础,为其他植物转录因子的研究提供了参考,对低温、干旱等非生物胁迫分子机制和影响桑树生长相关基因的研究提供了理论基础和研究依据。