韩立军,刘宝玲,李润植,薛金爱
(山西农业大学 分子农业与生物能源研究所,山西 太谷 030801)
WRKY转录因子是指与真核基因启动子区域顺式作用元件结合的DNA结合蛋白[1]。自ULMASOV等[1]从甘薯中鉴定出第1个WRKY家族转录因子SPF1以来,WRKY家族转录因子相继在水稻、小麦、番茄等多种植物中被发现[2-4]。WRKY因其蛋白含有高度保守的WRKYGQK七肽结构而得名,每个家族成员具有1~2个七肽保守序列(N端)和1个锌指结构域(C端)构成。WRKY域由60个氨基酸组成,C端为锌指结构C2H2(C-X4-5-C-X22-23-H-X-H)或C2HC(C-X7-C-X23-H-X-C)[5]。N端的WRKYGQK保守结构域能识别并结合保守的DNA结合位点W-Box(TTTGACC/T)进而调控靶基因的表达[6]。尽管WRKYGQK高度保守,但在拟南芥、大豆、水稻等植物中发现WRKYGQK与锌指结构发生了变异[7-10]。根据七肽保守序列数量和锌指结构的特点将WRKY蛋白家族分成了三大类,第Ⅰ类和第Ⅱ类含有C2H2型锌指结构,差别在于第Ⅰ类含有2个七肽保守序列而第Ⅱ类仅含有1个;第Ⅲ类则含有1个七肽保守序列和C2HC型锌指结构。其中,第Ⅰ类近N端七肽保守序列的DNA结合活性较弱,但近C端的七肽保守序列特异性增强与靶基因的结合[11-12]。WRKY作为植物最大的转录因子之一,广泛参与植物的生长发育、生理过程以及多种生物和非生物胁迫响应等[13]。魏鑫等[14]通过构建棉花GhWRKY33过表达载体并转化拟南芥,结果发现,GhWRKY33响应干旱胁迫,过表达后能明显提高转基因拟南芥的抗旱性。苏莹等[15]研究发现,GhWRKY41过表达株系中,GhWRKY41参与了棉花响应盐和干旱胁迫应答过程,且过表达可提高转基因棉花耐盐性和耐旱性。严晓红等[16]通过实时荧光定量PCR(qPCR)检测干旱胁迫下萌发棉籽的子叶和胚根中WRKY的表达变化,结果发现,WRKY主要在胚根中表达从而响应干旱胁迫。雷煜等[17]利用VIGS沉默技术抑制GhWRKY22基因的表达,发现沉默植株对大丽轮枝菌的敏感性增加,证明GhWRKY22基因正调控棉花的抗病性。刘秀芳[18]利用组织培养的方法将GhWRKY25异源转化到本生烟中,结果获得GhWRKY25超表达植株;与野生型本生烟相比,T3超表达GhWRKY25植株增强了对干旱胁迫的敏感性,并参与了ROS代谢路径。目前,关于陆地棉中GhWRKY的研究多集中在生物及非生物胁迫方面[19],而对于WRKY参与种子萌发过程调控的研究鲜有报道。尽管已有研究表明,拟南芥AtWRKYⅠ亚家族中的AtWRKY2与种子萌发有关[20],但目前仍不清楚陆地棉WRKYⅠ亚家族成员是否也可能调控陆地棉种子萌发。
棉花作为我国重要的经济作物,其产量与品质制约着与之相关产业的发展,系统鉴定异源四倍体陆地棉的WRKY转录因子家族,将有助于深入解析棉花的生长发育和胁迫应答等生命活动的调控机制。本研究聚焦全基因组鉴定陆地棉(Gossypium hirsutum)GhWRKYⅠ亚家族,应用组学工具检测GhWRKYⅠ家族基因结构、编码蛋白理化性质、进化关系,基于转录组数据对陆地棉GhWRKYⅠ亚家族基因的组织表达差异和对多种非生物胁迫的应答进行了分析,进一步论证了参与棉籽萌发调控的候选GhWRKY24基因的表达谱,研究结果将为GhWRKYⅠ亚家族蛋白生物学功能和棉籽萌发调控机制的研究提供新的科学参考。
从TAIR里获取拟南芥WRKYⅠ所有蛋白序列,利用这些序列在棉花数据库CottonFGD(https://cottonfgd.org/)进行BLASTP,获得陆地棉WRKYⅠ所有蛋白序列,通过同源性比对去掉重复序列后,在CDD(https://www.ncbi.nlm.nih.gov/cdd/?term=)中查找具有2个WRKY结构域的所有序列,获得GhWRKYⅠ亚家族所有成员。在CottonFGD中下载陆地棉基因组注释文件,使用TBtools进行染色体定位。
使 用LocTree3(https://rostlab.org/services/loctree3/)预测亚细胞定位,并在SIB(http://expasy.org/)中获得GhWRKYⅠ亚家族成员的氨基酸数目、分子质量、理论等电点、不稳定系数、稳定性和亲水指数。利用Euk-mPLoc 2.0(http://www.csbio.sjtu.edu.cn/bioinf/euk-multi-2/)预测亚细胞定位。
从PlantFDB(http://planttfdb.gao-lab.org/)中获得拟南芥、水稻WRKYⅠ亚家族蛋白序列(表1)。在MAGE 7.0软件里采用邻接法(Neighbor-joining,NJ)对拟南芥、水稻和陆地棉WRKYⅠ亚家族蛋白构建系统进化树,抽样次数(Bootstrap)设置为1 000次。
表1 拟南芥和水稻WRKYⅠ基因登录号Tab.1 Gene accession numbers of WRKYⅠsubfamily genes in Arabidopsis and rice
利用TBtools与陆地棉基因组注释文件获得GhWRKYⅠ蛋白,在CDD中分析GhWRKYⅠ蛋白的保守结构域;利用在线网站MEME(http://memesuite.org/)预测陆地棉GhWRKYⅠ蛋白保守基序,保守基序数目为10;其他参数设定为默认值。
利用GhWRKYⅠ亚家族蛋白序列在DNAMAN中进行多重序列比对,分析亚家族组内成员的WRKY保守结构域。
在棉花库CottonFGD(https://cottonfgd.org/)中下载陆地棉WRKY基因家族在不同组织及冷、热、盐、PEG等4种胁迫下的相关数据,利用软件TBtools绘制GhWRKYⅠ亚家族基因组织表达及胁迫表达热图,对结果进行分析。
将陆地棉(冀丰1271)在28℃、16 h光照/8 h黑暗条件下分别培养0、24、48、72 h,用于提取RNA并反转录为cDNA。利用实时荧光定量PCR(Quantitative Real-time PCR)检测其表达量。根据转录组测序得到的GhWRKY24CDS序列,用Primer 6.0设 计qRT-PCR特异性引物(表2),并由上海生工公司合成引物。用实时荧光定量PCR仪进行扩增,总反应体系为10 μL:TB Green为5 μL,ddH2O为3.4 μL,正反向引物各0.4 μL,cDNA为0.8 μL。反应条件为:95℃5 s;59℃30 s,72℃30 s,共40个循环。以Histone作为内参基因,每样品设3次重复,最终结果用2-ΔΔCt法计算基因相对表达量(0 h为对照)。
表2 GhWRKY24基因的qRT-PCR引物Tab.2 Primers for qRT-PCR of GhWRKY24 gene
通过筛选、整合,最终鉴定出35个具有2个七肽保守序列的GhWRKYⅠ亚家族基因,不均匀地分布在19条染色上(图1),依次命名为GhWRKY1~GhWRKY35;其中,在A亚基因组的10条染色体上分布着19个GhWRKYⅠ基因,在D亚基因组的9条染色体上分布着16个GhWRKYⅠ基因,在D4染色体上分布的基因多达5个,A4、A5、A7、A13、D13均含有3个GhWRKYⅠ,A8和D8上分布有2个GhWRKYⅠ,其余11条染色体各分布有1个GhWRKYⅠ。这些基因的分布取决于从原始的二倍体陆地棉进化到四倍体陆地棉过程中相应基因发生串联重复等因素。
图1 GhWRKYⅠ家族基因在染色体上的分布Fig.1 Distribution of GhWRKYⅠsubfamily genes on chromosomes
由表3可知,GhWRKYⅠ家族基因编码的氨基酸数目为331(GhWRKY9)~769个(GhWRKY33),分子质量在36.50(GhWRKY9)~82.87 ku(GhWRKY33)。有15个GhWRKYⅠ蛋白的理论等电点小于7,呈酸性,其余20个GhWRKYⅠ蛋白的理论等电点大于7,呈碱性。所有GhWRKYⅠ蛋白不稳定系数均大于40,表现出不稳定性。从亲水指数来看,GhWRKYⅠ的所有成员都是亲水性蛋白,均定位在细胞核中。
表3 GhWRKYⅠ基因及其编码蛋白的理化性质Tab.3 Physicochemical properties of GhWYKYⅠgene and its coding proteins
续表3 GhWRKYⅠ基因及其编码蛋白的理化性质Tab.3(Continued)Physicochemical properties of GhWYKYⅠgene and its coding proteins
通过聚类分析(图2),发现陆地棉、拟南芥和水稻这3个物种的WRKYⅠ亚家族成员尽管同属一类,但还是存在着3种不同的进化方向,表明这3个物种在分化形成之前已经发生了基因扩增事件,它们可能在植物不同生理过程中发挥着不同的作用。从整体看,与拟南芥的聚类相比,与水稻关系更近,这可能与物种本身在进化过程中陆地棉的GhWRKYⅠ的选择压力有关。
图2 拟南芥、陆地棉、水稻WRKYⅠ蛋白的系统进化树Fig.2 Phylogenetic tree of WRKYⅠproteins from Arabidopsis,upland cotton and rice
如图3所示,GhWRKYⅠ保守基序排序相似,数目为6~10个,其中Motif1~Motif5最为保守。根据陆地棉基因组注释文件检测到,GhWRKYⅠ亚家族的保守结构域都包含N端和C端的2个WRKY保守结构域。从基因结构看,GhWRKYⅠ亚家族具有3~6个外显子和2~5个内含子。
图3 GhWRKYⅠ蛋白及基因结构Fig.3 The structures of GhWRKYⅠgenes and their encoded proteins
GhWRKY3、GhWRKY6、GhWRKY7、GhWRKY11、GhWRKY12、GhWRKY15不 具 有5'-UTR,其 余29个GhWRKYⅠ亚家族基因同时含有5'-UTR和3'-UTR序列。
对GhWRKYⅠ亚家族蛋白进行多序列比对,结果发现(图4),各成员N端WRKY结构域高度保守,但GhWRKY11蛋白C端WRKY保守结构域的WRKYGQK序列突变为WRNYGQK。除此之外,还检测到C端的C2H2(C-X4-C-X23-H-X-H)型锌指结构。
图4 GhWRKYⅠ蛋白多重序列比对Fig.4 Multiple sequence alignment of GhWRKYⅠproteins
由图5可知,GhWRKYⅠ亚家族的多数基因都表现出了组织特异性和对不同的非生物胁迫的响应特征,例如GhWRKY2、GhWRKY4、GhWRKY8、GhWRKY21、GhWRKY22、GhWRKY24、GhWRKY31在各个组织与多种非生物胁迫下都有着较高的表达量。
图5 GhWRKYⅠ亚家族基因在不同组织及胁迫下的表达模式Fig.5 Expression patterns of GhWRKYⅠsubfamily genes in different tissues and various stresses
GhWRKY6、GhWRKY7、GhWRKY11、GhWRKY14、GhWRKY18、GhWRKY23和GhWRKY29在不同组织及胁迫下表达量极低。结合进化树的分布情况可以看出,这些低表达的GhWRKYⅠ基因所在的染色体上还存在着1个或多个其他GhWRKYⅠ亚家族基因,这些表达量极低的基因可能是陆地棉在进化过程中的冗余基因。
GhWRKY2、GhWRKY3、GhWRKY21和Gh-WRKY25在茎中表现出极高的表达量,表明它们很可能参与茎的形态建成。与其他亚家族成员相 比,GhWRKY2、GhWRKY21、GhWRKY24和GhWRKY25更多地在种子中高表达,其中以GhWRKY24表达量最高,推测其与种子发育以及种子萌发有关。
进一步检测了GhWRKY24在陆地棉种子萌发过程中的表达谱,qRT-PCR结果表明(图6),在陆地棉种子萌发的5 h内,GhWRKY24的表达量基本没有升高,此时,棉籽正处于吸涨时期,并无强烈生化反应;从10 h起,该基因表达量开始升高,24~48 h表达量急剧增加,在72 h时相对表达量达到最高。基因表达谱分析显示,GhWRKY24可能是参与棉花种子萌发生理生化调控的一个重要转录因子。
图6 GhWRKY24在种子萌发过程的表达谱分析Fig.6 Expression analysis of GhWRKY24 during seed germination process
WRKY是植物中最大的一类转录因子,在植物的生长、发育和逆境响应方面发挥着重要功能。目前,对于棉花WRKY的研究大多集中在逆境胁迫响应和参与植物衰老进程[21-22],WRKY转录因子参与棉籽萌发过程调控的研究却鲜有报道[19]。与棉花其他WRKY亚家族研究相比[23],有关陆地棉WRKYⅠ亚家族成员的鉴定,尤其是生物功能的研究有限。因此,鉴定异源四倍体陆地棉WRKYⅠ亚家族成员及其生物学功能可为全面解析棉花WRKY转录因子介导的调控网络和棉花遗传改良提供新的科学参考。
采用组学工具,本研究从陆地棉基因组共鉴定出35个含有2个WRKY保守域和C2H2型锌指结构的GhWRKYⅠ亚家族基因。这些基因不均匀地分布于A亚基因组和D亚基因组的19条染色体上,均为定位于细胞核的亲水性蛋白,基因内含子和外显子分别为2~5个和3~6个,其编码331~769个氨基酸,其中15个WRKY蛋白为酸性蛋白,20个为碱性蛋白,这与其他植物转录因子的亚细胞定位一致[24-25]。GhWRKYⅠ亚家族蛋白保守基序的排列顺序相似,但含有的基序数目差异较大,最少的仅有6个,最多的有10个。尽管WRKY结构域高度保守,但在拟南芥[7]、大豆[8]、水稻[9]等植物中发现了WRKYGQK肽链和锌指结构的变异。本研究中,GhWRKY11蛋 白C端WRKY保守结构 域 的WRKYGQK序列突变为WRNYGQK,而其他GhWRKYⅠ蛋白WRKY保守结构域序列未出现变异。与之不同的是棉花其他WRKY亚家族蛋白的WRKY保守结构域序列变异较多[26]。
WRKY蛋白聚类分析显示,陆地棉、拟南芥、水稻的GhWRKYⅠ亚家族组内成员之间存在着3种不同的进化方向,表明这3个物种在分化形成之前已经发生了基因扩增事件。基因之间的聚类分组,对于推测基因的生物学功能具有重要的参考价值。例如,AtWRKY11与AtWRKY17同为G2-d组,在拟南芥对丁香假单胞菌抗病性方面具有相似的功能[27]。与之相对应的棉花GhWRKY成员也可能具有相似的功能,但这需要进一步试验鉴定。根据转录组数据,对陆地棉GhWRKYⅠ亚家族基因的组织与逆境表达模式进行系统分析,发现
GhWRKY6、GhWRKY7、GhWRKY11、GhWRKY14、GhWRKY18、GhWRKY23和GhWRKY29在不同组织及胁迫下未检测到表达,推测这些基因可能为陆地棉进化过程中产生的冗余基因,这也是生物有机体减少外界不利环境对其生存影响的一种保险对策[28]。GhWRKY2、GhWRKY4、GhWRKY8、
GhWRKY21、GhWRKY22、GhWRKY24、GhWRKY31在所测各组织中高水平表达,预示着他们可能参与各个组织的生理生化反应以及对多种非生物胁迫的响应,这些基因的多重生物学功能及调控机制有待深入研究。WRKY参与多种植物信号分子的调控途径,其中赤霉素和生长素均能调控茎的 伸 长[29]。本 研 究 中,GhWRKY2、GhWRKY3、GhWRKY21和GhWRKY25在茎中显著表达,这4个棉花GhWRKYⅠ转录因子是否通过调控这2种激素来参与陆地棉茎的生长还需要进一步探究。
更重要的是,已有研究报道了一些棉花WRKY成员的功能。例如,转基因拟南芥试验证明,棉花GhWRKY33负调控植物抗旱性[30];棉花GhWRKY22参与花药和花粉的发育调控[31];GhWRKY27协同调控陆地棉衰老途径[32];异源过表达棉花GhWRKY53导致拟南芥植株腺毛密度显著增加[33]。与这些有关棉花WRKY的研究结果不同,本研究发现,GhWRKY2、GhWRKY21、GhWRKY24和GhWRKY25在陆地棉种子中高度表达,特别是GhWRKY24在棉花种子萌发过程中表达量显著上调,预示着GhWRKY24可能介导棉花种子萌发过程中生理生化的调控。拟南芥AtWRKY41敲除突变体显著下调了ABI3并影响了种子休眠[34]。后续需要试验检测GhWRKY24是否也能通过调控激素来参与种子萌发过程的调控。本研究结果为全面解析GhWRKYⅠ亚家族成员的生物学功能和棉花WRKY转录因子介导陆地棉种子萌发过程调控机制奠定了理论基础,亦为陆地棉遗传改良提供了可挖掘的基因资源。