田 文,郭启平,李梓彰,丁 宁,张 珊,闻珊珊
(西北农林科技大学农学院,陕西杨凌 712100)
对基因表达的调节是植物最主要的一种提高自身对逆境抵抗能力的方式[1-2]。转录因子是一种重要的调节基因表达的蛋白质,它们通过结合功能基因启动子区的顺式作用元件来激活或抑制相关基因的表达[3]。DREB(dehydration responsive element binding protein)家族是植物中特有的最大的转录因子家族之一,是AP2(APETALA2/ethylene-responsive element-binding protein)转录因子超家族的一个亚家族。DREB基因在植物对非生物逆境的响应中起着重要的作用[4-5]。 CBF1是从拟南芥中克隆到的第一个植物DREB基因,它能调节与冷害和脱水作用有关的基因的表达[6]。随后,在拟南芥中又克隆到了两个DREB基因( DREB1和 DREB2),它们分别参与干旱和低温条件下的信号转导过程。此后,又从烟草[7]、大麦[8]、水稻[9-10]、小麦[11-13]和大豆[14-15]等多种植物中克隆到了参与干旱、盐碱和极端温度等非生物逆境响应的DREB基因。同时,大量的研究发现,上调或者下调植物中特定DREB基因的表达可以提高植物对非生物逆境的抵抗能力[16-18]。目前,已经对多种植物中的DREB基因进行了全基因组范围内的研究,比如拟南芥[2,19]、水稻[19]、玉米[20]、大麦[21]、棉花[22]和二穗短柄草等[23]。但是有关小麦中DREB基因家族的全基因组鉴定还未见报道,这限制了小麦DREB基因的进一步发掘和分析。
近年来,随着全球气候变暖,高温逐渐成为了威胁小麦生长的重要因素。对小麦耐热基因进行研究,可为小麦在高温条件下稳产高产提供重要的理论依据。因此,本研究利用Ensembl Plants(http://plants.ensembl.org/index.html)中小麦第34版基因组数据,通过生物信息学方法从全基因组范围内鉴定小麦中的DREB基因,并进行了一系列生物信息学分析,最后利用转录组测序(RNA-seq)数据,对小麦DREB基因在不同组织和逆境条件下的表达模式进行分析,并选取热胁迫响应基因对其进行荧光定量反转录PCR(qRT-PCR)分析,以期为进一步研究DREB基因的功能机制提供理论依据。
首先,从Ensembl Plants(http://plants.ensembl.org/index.html)在全基因组范围内下载小麦DREB蛋白质序列,构建本地数据库;从Pfam(http://pfam.xfam.org/)下载已经构建好的典型AP2保守结构域的隐马尔科夫模型(PF00847),用其作为搜索模型,以E<1e-5为标准,通过HMM 3.0[24]软件在本地小麦蛋白质数据库中搜索能够匹配此模型的蛋白质序列。对于同一个基因的不同转录本,只保留长度最长的转录本作为对应基因的蛋白质序列。由于AP2转录因子超家族(由AP2、RAV、ERF和DREB四个亚家族组成)蛋白质序列中都含有AP2保守结构域,因此,经过HMM软件筛选得到的蛋白质序列由四个亚家族成员组成,但是AP2亚家族成员的蛋白质序列中包含两个串联的AP2结构域,RAV亚家族成员的序列中包含一个AP2保守结构域和一个B3保守结构域,ERF和DREB亚家族成员只包含一个AP2保守结构域。因此,将上一步得到的备选序列提交到NCBI-CDD(https://www.ncbi.nlm.nih.gov/cdd),分析序列中所含的保守结构域,去除序列中属于AP2亚家族和RAV亚家族的成员。最后,通过多序列比对,根据ERF亚家族和DREB亚家族AP2结构域中保守氨基酸的不同,人工去除序列中的ERF基因,最终得到小麦中的DREB基因。使用ExPASy-Compute pI/Mw(http://web.expasy.org/compute_pi/)预测TaDREB基因编码蛋白的分子量、氨基酸序列长度和理论等电点;利用CELLO(http://cello.life.nctu.edu.tw/)预测TaDREB蛋白质的亚细胞定位。
从NCBI(https://www.ncbi.nlm.nih.gov/protein/)下载拟南芥AtDREB蛋白质序列,利用Clustal W软件对小麦和拟南芥DREB蛋白序列进行全局比对,参数为默认。基于多序列比对结果,利用MEGA 6.0软件,采用邻接法(NJ)构建系统发育树,Bootstrap值为1000。
通过TaDREB蛋白质序列编号和Ensembl Plants中小麦基因组注释信息,从Ensembl Plants获得TaDREB基因组序列和CDS序列,然后将序列提交到GSDS 2.0(http://gsds.cbi.pku.edu.cn)进行外显子和内含子的可视化分析。
用MEME(http://meme-suite.org/)预测TaDREB蛋白质序列的保守基序,并采用如下参数:(1)最大基序数量为25;(2)保守基序长度为5~200个氨基酸;(3)其他参数为默认。
利用Ensembl Plants中小麦基因组注释信息获得TaDREB基因的染色体位置。参考王萌等[25]的标准,根据TaDREB基因两两之间BLASTN比对结果考察基因同源和复制事件。将以上分析结果用Circos 0.67软件[26]可视化,同源或复制基因用弧线连接。
基于小麦和拟南芥中的同源基因,利用AraNet V2(http://www.inetbio.org/aranet/)分析小麦DREB基因参与的互作调控网络。用Python程序提取TaDREB蛋白质编号,通过Ensembl Plants下载TaDREB基因上游1.5 kb序列作为基因的启动子区域,并提交到PlantCARE(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)预测启动子区存在的顺式作用元件。从WheatExp(https://wheat.pw.usda.gov/WheatExp/)下载TaDREB基因在小麦5个组织(种子、根、茎、叶和穗)中的转录组数据,从NCBI Sequence Read Archive(SRA)(https://www.ncbi.nlm.nih.gov/sra/)下载TaDREB基因在干旱、热和旱热共胁迫下的转录组数据。使用Hisat2软件[27]和Cuffdiff软件[28]并按照以下标准鉴定差异表达基因:(1)对照或处理的FPKM值至少有一个大于1;(2)log2fold change的绝对值大于1;(3)q值小于0.05。利用Heml软件绘制表达谱热图。
小麦DREB基因在干旱等逆境胁迫条件下的转录组测序数据来源于小麦品种中国春,为鉴定TaDREB基因在不同小麦品种中响应非生物胁迫的一致性,以及便于筛选到的热胁迫响应基因的转基因功能验证,本研究选取本实验室用于小麦转基因的品种科农199,使用qRT-PCR技术进行TaDREB基因响应热胁迫的验证。科农199属于半冬性小麦品种,在本实验所采用的基因枪转化体系下,科农199表现出优于其他小麦品种的转化效率,因此本实验室将科农199作为小麦转基因功能验证的工具品种。本研究选取科农199小麦出苗3 d、7 d、分蘖、春化、起身、拔节、挑旗、抽穗、开花、灌浆早期、灌浆晚期和成熟期共12个生长发育时期的小麦植株进行短期热胁迫处理,处理温度分别为35 ℃和42 ℃。用Trizol试剂(生工,上海)提取小麦叶片总RNA,用Transcriptor First Strand cDNA Synthesis Kit(罗氏,德国)进行cDNA第一链的合成。以小麦Actin基因作为内参,使用荧光定量试剂Ultra SYBR Mixture(康为世纪,北京)在Roche LightCycler 480荧光定量PCR仪(罗氏,德国)上对5个对热胁迫有响应的TaDREB基因进行qRT-PCR(引物见表1),反应体系与程序参考Ultra SYBR Mixture说明书。每个处理进行三次生物学重复,每个样品进行三次技术重复,数据处理采用2-△△CT法。
通过HMM软件的初步搜索,在小麦蛋白质数据库中共搜索到595个能够匹配AP2结构域隐马尔科夫模型且E值<1e-5的蛋白质序列。将所有序列提交到NCBI-CDD进一步筛选后,除去了其中133个属于AP2亚家族和RAV亚家族的蛋白质序列,剩余的462条蛋白质序列均只含有一个AP2结构域且不包含其他保守结构域。将这462条蛋白质进行多重比对之后,根据保守区氨基酸序列,最终确定其中的204条序列属于DREB基因家族。根据其系统进化分类和染色体位置进行命名。根据ExPASy-Compute pI/Mw的预测结果,TaDREB蛋白序列长度为150~1 409 个氨基酸,分子量为16.5~156.2 kDa,理论等电点(pI)介于4.29~11.69之间。蛋白质亚细胞定位结果表明,144(70.6%)个TaDREB蛋白定位在细胞核中,39个(19.1%)定位在叶绿体中,16个(7.8%)定位在细胞质中,3个(1.5%)定位在质膜上,2个(1.0%)定位在线粒体中。
表1 TaDREB基因qRT-PCR引物Table 1 Primers for qRT-PCR analysis of TaDREB genes
将从NCBI下载的AtDREB和TaDREB蛋白序列一起进行多序列比对并构建进化树,结果发现,TaDREB基因能和AtDREB基因聚到一起,说明小麦中能够和拟南芥各亚组序列聚到一枝的DREB基因为相同亚组。根据聚类结果,将TaDREB基因分为六个亚组,分别命名为DREB I、DREB II、DREB III、DREB IV、DREB V和DREB VI。每个亚组所包含的TaDREB基因数目分别为68、40、7、42、27和20个,分别占总数的33.4%、19.6%、3.4%、20.6%、13.2%和9.8%。
用MEME对TaDREB蛋白质保守基序进行分析,共鉴定到25个保守基序,并命名为motif 1~motif 25。结果表明,保守蛋白质基序在不同亚组之间存在高度的保守性。除TaDREB2-7A-1之外,所有的TaDREB蛋白质中都含有保守的motif 1,该保守基序位于AP2保守结构域中,并且含有一个保守的WLG短序列。除此之外,motif 4也几乎包含在所有(除TaDREB2-5B-3、TaDREB2-5A-1、TaDREB2-4B-2、TaDREB2-2B-3、TaDREB2-2A-2、TaDREB2-2D-3、TaDREB2-6B-2、TaDREB3-1A-1、TaDREB3-1D-1和TaDREB3-1B-1外)的TaDREB蛋白质序列中,该保守基序同样定位在AP2保守结构域中(图1)。此外,motif 3、motif 4和motif 5在TaDREB蛋白的6个亚组中均有分布。同时,不同亚组蛋白质保守基序的分布也存在明显的不同,除DREB III之外,其余5个亚组均含有其独特的保守基序,例如,motif 2、motif 15、motif 12、motif 24和motif 17分别只存在于DREB I、DREB II、DREB IV、DREB V和DREB VI中(图2)。
对TaDREB基因的结构分析表明,TaDREB基因的内含子数量为0~3个,存在内含子缺失现象。其中,DREB I、DREB III、DREB IV和DREB V等亚组中的大多数成员均没有内含子,没有内含子的基因数目分别为63、6、41和24个,占相应亚组基因总数的比例分别为92.6%、85.7%、97.6%和88.9%,DREB II中所包含的全部40个基因中,没有内含子的基因只有14个,占总数的35%;22个基因含有一个内含子,占总数的55%;只有4个基因含有2~3个内含子。DREB VI中,50%的基因没有内含子,其余50%均含有一个内含子。
根据Ensembl Plants中小麦基因组注释信息,本研究将204个小麦DREB基因中的199个定位到了染色体上。结果表明,小麦21条染色体上均有TaDREB基因的分布。从1号到7号染色体,分布的TaDREB基因数目分别为22、36、11、13、52、41和24个,其中包含TaDREB基因最多的染色体为5B染色体,其上分布19个TaDREB基因;而3D染色体上只有3个TaDREB基因,为最少的一个,这表明小麦TaDREB基因在不同染色体之间的分布存在不平衡性,这有可能是因为染色体大小及结构不同导致的。从同源染色体组的角度来看,小麦A、B和D三个同源染色体组分别含有61、68和70个TaDREB基因,这表明A染色体组可能在进化的过程中发生了更多的基因丢失事件。
图1 小麦DREB蛋白质序列保守基序1(A)和保守基序4(B)Fig.1 Conserved motif 1(A) and motif 4(B) in DREB protein
基因同源复制分析结果(图3)表明,有164个TaDREB基因存在与其高度相似的同源序列,可分为两类。第一类由108个TaDREB基因组成,构成了36个同源基因组,每组均由A、B和D染色体组上的三个同源基因组成;第二类由66个TaDREB基因组成,形成了33个同源基因对,每对同源基因分布在A、B和D三个同源染色体组中的两个上。有趣的是,两类同源序列中存在10个基因的重叠。以上结果说明,虽然小麦中大部分DREB基因都存在高度相似的同源染色体,但仍有一部分基因未鉴定到同源染色体,这表明小麦在进化过程中,TaDREB基因发生了部分丢失。同时,我们考察了非同源染色体之间基因的复制事件,总共鉴定到13个基因复制事件;其中,7个复制事件发生在同一条染色体上,其余6个发生在非同源染色体之间。值得注意的是,13个基因复制事件中的5对发生在5号染色体上。这些结果表明,在六倍体小麦中,虽然DREB基因复制事件很少发生,但是相对于其他染色体,5号染色体上的活跃性更高。
基于小麦与拟南芥基因的同源性关系,构建了小麦DREB基因与其他基因的互作关系网络(图4)。总共鉴定到了13个小麦DREB基因与122个其他基因存在互作关系,本研究称这122个基因为互作基因,它们共构成了179个互作基因对。这些互作基因的功能主要涉及小麦基因的转录调控、植物的生长发育和对逆境的响应三个方面。这表明TaDREB基因对小麦的生长发育过程中起着重要的调控作用。从互作基因角度来看,其中110个互作基因只与一个TaDREB基因存在互作关系。从TaDREB基因的角度来看,TaDREB基因不仅与其他基因存在互作关系,TaDREB基因之间也存在相互作用关系。其中,和其他基因相比,与 TaDREB4-6D-1和 TaDREB5-2B-1存在互作关系的基因最多,分别为42和34个,并且这些基因的功能涉及器官发育,转录调控以及热胁迫等逆境响应过程,暗示这两个基因在小麦生长发育过程中的多个方面同时起着重要作用。
利用PlantCARE从204个TaDREB基因启动子区共鉴定到了95个顺式作用元件,其中42个和光响应有关,这表明TaDREB基因的表达可能和光有紧密的联系。MBS(MYB binding site)、LTR(low-temperature responsiveness)和HSE(heat shock element)是在TaDREB基因启动子区出现频率最高的三个顺式作用元件,它们分别涉及干旱、低温和高温响应。这暗示TaDREB基因可能参与植物对多种逆境的响应。
A:motif 2;B:motif 15;C:motif 12;D:motif 24;E:motif 17. 图2 亚组特异的DREB蛋白质保守基序Fig.2 Subgroup-specific conserved motif of DREB protein
从WheatExp下载TaDREB基因在5个组织中的转录组数据进行表达分析,结果(图5A)表明,TaDREB基因在小麦组织中的表达存在明显差异,主要表现为三种表达模式,分别为在5个组织中的表达量都很低,甚至没有表达;在5个组织中的表达都较高和组织特异性表达。如 TaDREB5-2B-1和 TaDREB6-6A-1等基因在5个组织中的表达量都很高,表明这些基因广泛参与小麦的生长发育过程。而 TaDREB1-5B-7和 TaDREB1-5B-8主要在根中表达,暗示着这两个基因在小麦根的发育中起着重要的作用。除此之外,5个组织中的每个组织都有其组织特异性表达的基因,说明基因表达的空间特异性在TaDREB基因中同样存在。
图3 小麦DREB基因的染色体定位、同源关系和基因复制事件Fig.3 Chromosomal localization, homologous relationship and gene duplication events of DREB genes in wheat
z10:第一片叶抽出胚芽鞘时期;Z10:3叶期;z23:3个分蘖时期;z30:穗长为1 cm时期;z32:2个节时期;z39:减数分裂时期;z65:开花期;z71:开花后2天;z75:开花后14天;z85:开花后30天。
z10:First leaf through coleoptile; Z10:Three leaves stage; z23:Three tillers stage; z30:Spike of 1 cm stage; z32:Two nodesstage;z39:Meiosis; z65:Anthesis; z71:2 days after anthesis; z75:14 days after anthesis; z85:30 days after anthesis.
1:干旱胁迫1 h;2:干旱胁迫6 h;3:热胁迫1 h;4:热胁迫6 h;5:旱热共胁迫1 h;6:旱热共胁迫6 h。
1:Drought for 1 h; 2:Drought for 6 h; 3:Heat for 1 h; 4:Heat for 6 h; 5:Drought plus heat for 1 h; 6:Drought plus heat for 6 h.
图5小麦DREB基因在不同组织中(A)和不同逆境下(B)的表达模式分析
Fig.5ExpressionprofilesofTaDREBgenesindifferenttissuesandunderdifferentstresses
同时为了考察TaDREB基因在不同的非生物逆境条件下的表达模式,本研究下载了NCBI中现有的转录组数据,通过分析发现,在干旱、热和旱热共胁迫条件下,共有29个TaDREB基因在至少一种逆境条件下表现出了差异表达(图5B)。在干旱胁迫下,11个基因的表达量显著升高,5个基因的表达量显著降低;热胁迫下,15个基因的表达量显著升高,8个基因的表达量显著降低;在二者共胁迫下,16个基因的表达量显著升高,10个基因的表达量显著降低。值得注意的是, TaDREB4-7D-1在热胁迫下表达量升高了100倍, TaDREB6-4D-1在干旱下的表达量上升了271倍, TaDREB6-2B-1在旱热共胁迫条件下的表达量上升了189倍,暗示这些基因可能在对应的非生物逆境的响应中起着重要的作用。
根据转录组分析结果,本研究选择了5个对热胁迫响应程度最高的TaDREB基因,在小麦品种科农199中使用qRT-PCR验证这种响应。结果表明(图6),整体来看,这5个基因在小麦12个生育时期中的绝大部分时期都对热胁迫产生响应,表达量均显著升高。如 TaDREB2-1B-1基因,在12个生育时期中的6个时期,以及在42 ℃处理下,在12个时期中的7个时期,表达量均显著升高。 TaDREB2-7A-2基因在35 ℃处理下,在12个时期的11个中表达量都显著升高。值得注意的是,小麦DREB基因的表达对42 ℃胁迫的响应没有对35 ℃胁迫显著,在很多发育阶段,DREB基因对42 ℃胁迫并无响应,基因表达没有显著变化。暗示着5个基因可能并不是小麦的42 ℃胁迫下的主要响应基因。但是从总体来看,对这5个基因的qRT-PCR分析结果和转录组数据分析结果一致,暗示这5个基因在小麦的高温胁迫响应中扮演着重要角色。
X轴上的1~12依次代表小麦出芽3天、出芽7天、分蘖期、春化期、起身期、拔节期、挑旗期、抽穗期、开花期、灌浆早期、灌浆晚期和成熟期。
1-12 on the X-axis represent the 12 growth periods of wheat including 3 days and 7 days after germination, tillering, vernalization, booting, jointing, flagging, heading, flowering, early grain filling, late filling and maturing stages,respectively.
图65个热响应基因在小麦品种科农199不同生长发育时期的相对表达水平
Fig.6Relativeexpressionoffiveheatresponsegenesin12growthperiodsofwheat
本研究在小麦全基因组范围内鉴定TaDREB基因,并最终获得了204个TaDREB基因,大约占小麦中所有编码基因的0.195%,这个比例和拟南芥中的0.206%接近,高于水稻的0.160%和玉米的0.129%。从数量来看,TaDREB基因的数量高于拟南芥(57)、水稻(57)和玉米(51),这很可能和它庞大的基因组有关;小麦属于异源六倍体,是由三个物种通过杂交和染色体加倍形成的,在此过程中,基因数目也自然而然发生了加倍。值得注意的是,本研究鉴定到的TaDREB基因中,有16个TaDREB基因的编码蛋白定位在细胞质中,这有可能是软件的预测误差和小麦基因组注释误差造成的。
针对DREB基因的全基因组鉴定最早是在拟南芥中进行的,Sakuma等[2]根据DREB蛋白质序列的不同将该家族分为6个亚组,随后在其他物种DREB基因的全基因组鉴定中,延续了这种分类标准,并采用将待研究物种DREB蛋白质序列与拟南芥DREB蛋白质序列一起构建系统发生树,并根据聚类结果对所研究物种DREB基因进行分类的方法。但是由于算法的原因,这种分类方法存在微小的误差。为避免这种误差造成的累积误差,本研究中只使用拟南芥DREB蛋白序列与小麦DREB蛋白序列一起构建系统发育树,而没有加入其他物种的DREB蛋白质序列。蛋白质保守基序分析表明,亚组内部蛋白质保守基序分布高度相似,不同亚组之间存在明显的不同,这从另一个方面证明了上述分类方法的正确性。最后,基因结构分析结果显示,TaDREB基因普遍缺少内含子,这种现象和其他物种中的DREB基因结构类似。一种解释基因中内含子缺少现象的推测认为,内含子的缺失能够减少基因从转录到翻译所需要的时间,使基因快速表达并生成有功能的蛋白质,以响应植物体内或环境的变化[29]。
启动子分析表明,小麦DREB基因涉及对光、干旱和热胁迫等多种逆境的响应;基因互作表明,小麦TaDREB基因主要通过与多种转录调控基因的互作来发挥其生物学功能。两种分析均表明,TaDREB基因的不同成员在小麦的生长发育过程中起着重要的调控作用,是小麦生长发育中不可缺少的重要因素。
为了进一步研究DREB基因在小麦生长发育和逆境胁迫条件下的潜在作用,本研究下载并分析了TaDREB基因在小麦组织和逆境条件下的表达情况,鉴定到了一些组织特异表达基因,说明不同的TaDREB基因可能参与不同小麦组织的生长发育,基因表达有明显的空间特异性。同时,也鉴定到多个对逆境胁迫有响应的基因,例如, TaDREB4-7D-1、 TaDREB6-4D-1和 TaDREB6-2B-1在逆境胁迫条件下表达量显著上调,通过分子生物学和基因工程等手段对这这些基因的进一步研究,将为小麦在不良环境下的生理代谢机制提供新的信息,并为其他物种中DREB基因的研究提供线索和思路。