王 培, 王凤涛, 常洪雷, 冯 晶, 郭青云, 蔺瑞明*
1.青海大学农林科学院, 青海省农林科学院, 农业农村部西宁作物有害生物科学观测实验站; 青海省农业有害生物综合治理重点实验室; 省部共建三江源生态与高原农牧业国家重点实验室, 西宁 810016;2.中国农业科学院植物保护研究所, 植物病虫害生物学国家重点实验室; 农业农村部作物有害生物综合治理重点实验室, 北京 100193;3.北京迪福科技有限公司, 北京 101116
转录因子(transcription factor,TF)又称反式作用因子,是一类能与真核基因启动子区域中的一段DNA序列(即顺式作用元件)发生特异性结合从而调控基因转录起始频率的DNA结合蛋白。近年来,已经从植物中相继分离出一系列的转录因子,其中,植物特有的NAC转录因子是一个具有多种生物学功能的转录因子家族。第1个NAC类转录因子NAM克隆自矮牵牛[1],随后在拟南芥中发现了NAM、ATAF1/2和CUC2 3个具有相同结构域的基因,取这3个基因的首字母将该结构域命名为NAC结构域,并将包含NAC结构域的蛋白质称为NAC转录因子[2]。NAC结构域包含5个亚结构域(A~E),其中A、C、D 3个亚结构域高度保守,而B和E亚结构域变异性较强[3]。拟南芥基因组和水稻基因组中分别有117个[4]和151个[5]NAC转录因子。Ooka等[4]根据NAC结构域的氨基酸序列的相似度将其发现的水稻和拟南芥的NAC转录因子分为2组:Ⅰ组和Ⅱ组;并将Ⅰ组进一步分为14个亚组,Ⅱ组分为4个亚组。诸多研究表明,NAC转录因子在植物生长、发育和抗逆、抗病过程中起着重要作用[6~9]。
大多数NAC转录因子定位在细胞核,但是有一些NAC转录因子具有含α螺旋的跨膜基序(transmembrane motif,TM),可编码蛋白定位在植物细胞的膜系统,因此命名为NTL(NAC with transmembrane motif 1-like,NTM1-like)。目前,拟南芥中已鉴定出18个NTLs,水稻中有5个NTLs,大豆中有15个NTLs。正常条件下NTLs主要锚定在质膜或内质网膜上,但当植物遭受环境或其他因子刺激后,NTLs蛋白将从质膜或内质网膜上切除下来进入细胞核调控相关基因的表达。已有研究表明,NTLs基因参与生长发育[10]、非生物胁迫[3,11~13]以及生物胁迫[14,15]。
小麦(Triticumaestivum)是我国重要的粮食作物,随着人们对农业环境的日益重视,开展作物抗逆抗病机理研究以培育抗逆抗病新品种对于保证小麦产量的稳定愈发迫切。目前关于小麦NTLs基因的研究较少,仅报道了2个TaNTL转录因子[3,15],且具体的生物学功能尚不完善。本研究基于基因组数据拟采用生物信息学的手段,通过全基因组鉴定、理化性质预测、系统发育分析、保守结构域预测、亚细胞定位预测等对小麦中的NTL转录因子进行综合研究,并分析其在小麦与条锈菌互作过程中的表达变化,以期为下一步挖掘小麦中NTL转录因子的抗病功能提供参考。
从Ensembl的植物数据库下载截至2019年1月4日更新的小麦基因组数据(ftp://ftp.ensemblgenomes.org/pub/plants/release-42/fasta/triticum_aestivum/)的全基因组序列、蛋白质序列、染色体信息文件。
下载Pfam数据库构建NAC家族的隐马尔可夫模型(hidden Markov model,HMM)文件,并利用HMMER 3.0软件包中的Hmmerseach程序对小麦的全基因组进行比对,以获取小麦基因组中包含NAC保守结构域的所有基因。随后利用初筛的小麦NAC转录因子序列重新构建新的隐马尔可夫模型,再以新的隐马尔可夫模型在小麦全基因组序列中利用Perl语言搜索NAC转录因子的序列(E<10-5被认为是候选序列)。进一步利用Pfam数据库去除不含NAC结构域的候选序列,获得全基因组水平内所有的NAC家族转录因子。再利用跨膜结构域预测工具TMHMM(http://www.cbs.dtu.dk/services/TMHMM/)预测获得的小麦NAC转录因子是否具有跨膜结构域。
利用ExPASY-ProtParam在线工具(https://www.expasy.org/)分析小麦中NAC蛋白的基本理化性质,主要包括氨基酸数目(number of amino acids)、分子量(molecular weight)、等电点(PI)、平均亲水系数(grand average of hydropathicity)、不稳定指数(instability index)。
利用MEGA7.0[16]对候选小麦TaNTL转录因子保守区域氨基酸序列进行多序列比对,用最大似然法构建小麦、拟南芥、水稻、玉米的NTL转录因子保守区域的系统进化树,将Bootstrap值设为1 000以获得更为可靠的分支聚类。
利用蛋白质保守基序在线搜索程序MEME(http://meme-suite.org/)分析TaNTL转录因子家族的保守基序。每个序列可包含任何数量的基序,且不发生重叠,不同基序的数目为20个,基序长度为6~100 aa。
将已鉴定的TaNTLs基因的CDS序列与其对应的基因组序列进行比对,利用基因结构显示系统(Genne structure display server 2.0,http://gsds.cbi.pku.edu.cn/)分析其外显子-内含子(exon-intron)结构及相位。
为了获得小麦TaNTL转录因子家族的染色体分布情况,利用Perl程序解析释放出每个候选成员基因组位置信息。进而利用在线绘图工具(Map Gene 2 Chrom web V2,http://mg2c.iask.in/mg2c_v2.0/)绘制小麦NTL转录因子家族在染色体上的位置分布图。
为了明确小麦NTLs编码蛋白具体定位的细胞器,本研究通过PSORT在线工具(https://wolfpsort.hgc.jp/)对TaNTL膜结合转录因子蛋白的亚细胞定位进行了预测分析。WoLF PSORT是用于蛋白质亚细胞位置预测的POORT程序的扩展。将蛋白质序列转换为数值,然后使用分类器进行定位预测。结果的呈现方式有2种,一种是与查询最相似的定位特征的已知定位的蛋白质列表,另一种是具有关于个体定位特征的详细信息的列表。
为了进一步解析小麦NTL基因家族的表达模式,利用在线分析工具(http://www.wheat-expression.com/)分析17个TaNTLs在小麦与条锈菌互作及小麦经病原物模拟处理后基因表达量的变化。
在小麦基因组中共鉴定出448个NAC转录因子,其中具有跨膜结构的转录因子有17个。这17个TaNTLs中最长的序列有730个氨基酸残基,最短的有454个氨基酸残基,等电点的范围在4.50~6.12之间。
亚细胞定位与蛋白质的功能存在着非常重要的联系。WoLF PSORT能提供准确的亚细胞定位预测。结果显示,TaNTLs既有细胞核定位信号又有内质网和细胞膜定位信号。其中,TraesCS3B01G208300.1、TraesCS3D01G183900.2在细胞核及质膜上均无定位信息,但在内质网膜上存在定位信息,具体见表1。
表1 17个TaNTLs转录因子编号、编码的蛋白质性质分析及定位预测Table 1 Gene number, coding protein characterization and predicted location of 17 TaNTLs.
为了比较小麦中TaNTLs与拟南芥、水稻NTLs基因序列间的关系,利用最大似然法构建了18个拟南芥NTLs(AtNTLs)、5个水稻NTLs(OsNTLs)和上述17个TaNTLs编码蛋白序列的聚类树(图1)。由图1可见,17个TaNTLs可以分为6个同源基因组。根据水稻和拟南芥的NTLs的名称对17个小麦NTLs命名,即命名时,参考与待命名小麦NTL距离最近的拟南芥或水稻NTL的名称。TaNTL2包括7A、7B和7D 3个同源基因;TaNTL3包括3A、3B和3D 3个同源基因,其中TaNTL3-3B为已报道的TaNAC8[15];TaNTL4包括5A和5D 2个同源基因;TaNTL5包括7B、7D和染色体信息未知的3个同源基因,其中染色体信息未知的基因为已报道的TaNTL5[3],很可能是位于7A染色体;TaNTL6包括6A、6B和6D 3个同源基因;TaNTL9包括7A、7D 2个同源基因;TaNTL9-4A仅有1个基因,来源于4A染色体,但该基因编码蛋白与TaNTL9-7A、TaNTL9-7D的序列高度相似,推测可能发生了非同源染色体的基因复制事件。
图1 小麦与拟南芥、水稻NTLs转录因子编码蛋白质的聚类分析Fig.1 The phylogenetic tree of NTLs from wheat, Arabidopsis and rice.
从NTLs在同源染色体组的分布来看(图1),A、B、D的同源染色体组分别有7个、4个、6个,表明B染色体组可能在进化过程中发生了NTLs的丢失事件。而对1~7号染色体组来说,来源于小麦7号染色体的NTLs有TaNTL2、TaNTL5、TaNTL9,同源基因共8个;3号染色体及6号染色体各有3个;4号染色体有1个;5号染色体有2个。相对于3、6、5号染色体,7号染色体上NTLs的基因活跃度更高。
根据拟南芥及水稻的NTLs研究[17]及聚类树的关系,将40个NTLs分为4个亚组:NAC2、ANAC001、TIP和OsNAC8。NAC2亚组包括20个NTLs,已进行生物学功能研究的有8个:OsNTL5抑制水稻开花[10],TaNTL5-U/TaNTL5的表达在干旱、盐胁迫下表达受到抑制[3],NTL4参与叶片衰老并通过JA信号通路调控花药的开裂[11,18],NTL11参与类黄酮合成[19],ANAC050和ANAC052抑制开花时间[20],NTL1(ANAC013)[21,22]和NTL7[12,13]参与线粒体胁迫和氧化胁迫调控;ANAC001亚组有6个,均源自拟南芥,其中NTL8参与毛状体形成及盐胁迫[12,13],NTL14参与细胞死亡[23];TIP亚组有10个,NTL9参与逆境胁迫及抗病免疫[14,24],NTL6参与内质网胁迫[25,26];OsNAC8亚组有4个,全部为小麦和水稻的NTLs,TaNAC3-3B/TaNAC8可响应条锈菌侵染和非生物胁迫[15]。
保守基序(conserved motif)是具有特定功能的蛋白结构,每个基序都有其特征性的氨基酸序列以发挥其功能。小麦NTLs编码蛋白质序列的保守基序分析结果显示,小麦NTLs均含有保守基序Motif 1、Motif 2、Motif 3。Motif 18和Motif 19为较为保守的结构域,其中Motif 18只存在于TracesCS5A01G271500.2(TaNTL4-5A),推测其功能不同于其他转录因子。结合17个TaNTLs的聚类树,可以发现亲缘关系较近的NTLs具有相似的保守基序,具体见图2。
基因组序列由内含子(intron)和外显子(exon)构成,外显子为基因的可编码序列。为了进一步研究基因结构,分析了小麦中NTL的exon-intron分布(图2)。结果表明,小麦NTL基因一般有4~7个外显子,蛋白序列亲缘关系较近的NTLs具有相似的exon-intron结构。A、B、D同源基因的exon-intron的模式相似,但是内含子长度存在差异。
图2 小麦NTL转录因子家族的保守基序及基因结构Fig.2 Conserved motifs and gene structure of NTLs in wheat.
为了分析TaNTLs在小麦响应病原菌侵染过程中的表达模式,本研究基于已知的小麦-条锈菌亲和互作、小麦-病原物模拟接种的转录组数据库,进行表达谱分析。研究结果表明(图3),在小麦-条锈菌亲和互作过程中,9个TaNTLs的表达水平发生显著变化,根据响应条锈菌侵染的早期(2 d及以内)和晚期可将其分为2类,其中,5个TaNTLs在亲和条锈菌侵染小麦的早期表达水平升高:TaNTL3-3A(TraesCS3A02G176500.1)、TaNTL3-3B(TraesCS3B02G208300.2)、TaNTL3-3D(TraesCS3D02G183900.2)、TaNTL5-7D(TraesCS7-D02G283800.1)、TaNTL6-6D(TraesCS6D02-G390200.1),8个TaNTLs在条锈菌侵染11 d时(条锈菌夏孢子堆已经完全扩展到小麦叶片内部)表达水平显著升高:TaNTL3-3A(TraesCS3A02G176500.1)、TaNTL3-3B(TraesCS-3B02G208300.2)、TaNTL3-3D(TraesCS3D02-G183900.2)、TaNTL5-U(TraesCSU02G135000.1)、TaNTL5-7D(TraesCS7D02G283800.1)、TaNTL6-6A(TraesCS6A02G406700.1)、TaNTL6-6B(TraesCS-6B02G451300.1)、TaNTL9-7D(TraesCS7D02G0-00200.1)。尤其是TaNTL6-6A(TraesCS6A02-G406700.1),其本底水平不高,但在11 d时达到最高表达水平。此外,同源群内的基因对亲和条锈菌侵染的响应存在差异,如接种亲和条锈菌后,TaNTL5-U与TaNTL5-7D的表达水平显著升高,而TaNTL5-7B的表达变化不大;TaNTL9-7D的表达显著升高,TaNTL9-7A、TaNTL9-7B的表达变化不大。由此推测,来源于A、B、D不同染色体组的NTLs在进化过程中可能由于启动子、上游调控序列或DNA甲基化水平存在差异导致亲和条锈菌侵染后的表达水平存在差异。
基于小麦-病原物模拟接种的转录组数据库分析表达谱变化(图3),结果表明,小麦接种几丁聚糖和鞭毛多肽后,TaNTL3-3A、TaNTL3-3B、TaNTL3-3D、TaNTL4-5A、TaNTL4-5D、TaNTL6-6A和TaNTL6-6D的表达水平升高。
图3 TaNTLs在小麦与条锈菌互作及病原物模拟处理后的表达谱分析Fig.3 The expression pattern of TaNTLs responsing wheat-sripe rust infection and pathogen-associated molecular treatment.
本研究搜集了小麦基因组数据,获得了17个TaNTLs。其中TaNTL5-U为之前报道的TaNTL5[3],TaNTL3-3B为TaNAC8[15]。相比水稻中的5个NLTs基因,小麦多了1个同源群基因(TaNTL9)。17个TaNTLs均具有跨膜结构域,除TaNTL3-3B、3D和TaNTL5-7B、7D预测无核定位信号外,其余均含有核定位信号。通过小麦-条锈菌转录组及小麦-原体接种处理2个数据库的表达谱分析,TaNTL5-7D、TaNTL6-6A和TaNTL6-6D在2种处理中均表达升高,推测这3个基因可能参与了抗病调控过程。
NTL类转录因子属于NAC家族的转录因子,其特点是具有跨膜结构域,因此与一般转录因子蛋白产物定位在细胞核不同,该类转录因子蛋白产物一般为膜定位,如质膜、内质网膜。已有研究表明,膜结合转录因子的跨膜结构域的切割有2种蛋白水解机制[27],第1种为通过膜内蛋白水解(regulated intramembrane proteolysis,RIP)机制,第2种为依赖泛素/蛋白体加工(regualated ubiquitin/proteasome-dependent processing,RUP)的调节机制。
在细胞内NTLs实现其功能的先决条件是膜释放,其通过蛋白水解从膜上释放,并被转运到细胞核中调节应激反应基因的表达。对于拟南芥中NTLs功能的研究较为深入,此外玉米、大豆、水稻等的NTLs均有报道。已经明确NTLs在植物生长发育、调控逆境胁迫中发挥调节作用[27~30]。蛋白质的结构相似,其功能也可能相似,参照拟南芥和水稻的NTLs功能,小麦NTLs可能也具有不同的生物功能。根据蛋白质序列的聚类树,推测TaNTL5和TaNTL6的3个同源基因可能在植物的发育过程中起重要作用,同时可负调控逆境胁迫;TaNTL4的2个同源基因与拟南芥的NTL1、NTL4同属于一个亚组,可能位于线粒体膜上,可能调控线粒体、内质网内胁迫;TaNTL3中TaNTL3-3B为已报道的TaNAC8,响应条锈菌侵染和非生物胁迫;TaTNL2的3个同源基因的功能尚无参考基因推测,而TaTNL9的3个同源基因与拟南芥的NTL9序列相似,可能响应逆境胁迫和内质网胁迫。
根据表达谱分析TaNTL5-7D、TaNTL6-6A和TaNTL6-6D在小麦-病原菌互作过程中均表达升高,推测这3个基因可能参与抗病调控过程,同时结合聚类分析,推测其负调控逆境胁迫的同时在植物的发育过程中起重要作用。然而,其在小麦-病原菌互作过程中的功能尚需准确、系统的蛋白水平的检测及生物学功能验证。