大麦SBP转录因子的鉴定与表达分析

2020-08-03 08:35赵甜甜刘梦迪王艳芳赵彦宏董红霞
麦类作物学报 2020年1期
关键词:大麦拟南芥结构域

蔡 倩,赵甜甜,刘梦迪,王艳芳,赵彦宏,马 臣,董红霞

(1.鲁东大学生命科学学院,山东烟台 264025;2.鲁东大学农学院,山东烟台 264025)

转录因子(transcription factor,TF)是一类能与DNA分子特异结合并通过激活或抑制下游靶基因的转录来调节基因表达的蛋白分子[1]。SBP(squamosa promoter binding protein)家族是植物特有的转录因子,具有编码DNA结合结构域的保守核苷酸序列,能够在mRNA转录水平上调节基因表达[2]。SBP转录因子通常含有约80个氨基酸残基高度保守的SBP结构域,且基本具有相同的结构特点[3]。该SBP结构域包含2个锌指结构(Zn1和Zn2)与1个高度保守的核定位信号(nuclear localization signal,NLS)。其中锌指结构能伸入DNA沟中识别并结合在squamosa启动子上;C端是核定位信号区域[4],能引导SBP蛋白进入细胞核行使功能[5]。

Klein等[6]首先在金鱼草中发现了SBP基因,随后在越来越多的植物中鉴定出SBP基因,如拟南芥[7]、水稻[8]、葡萄[9]、苹果[10]、玉米[11]、高粱[12]、毛竹[13]等。SBP转录因子的功能涉及植物生长发育的许多方面:拟南芥中的2个SBP基因SPL3和SPL8分别影响植株的成花和花粉囊的发育[5];SPL9和SPL15缺失导致拟南芥营养生长时期叶原基形成间隔期变短、花序结构分支增多[14];玉米SBP转录因子的lg1基因发生突变导致植株不能形成正常形态的舌叶和叶耳组织[15-16];在水稻生殖生长阶段,过量表达OsSPL14可促进穗分支,提高籽粒产量[17-18]。

大麦是重要的禾本科作物之一,其总产量和种植面积位居全球第四[19],集饲用、啤用和粮食作物于一体。大麦作为麦类作物研究的模式植物,在遗传、育种以及基因组等方面的研究已取得了显著的进展[20],国际大麦全基因组测序同盟于2012年完成了大麦全基因组序列的测定[21],为大麦进行生物信息分析研究奠定了基础。虽然大量研究报道了多种植物SBP转录因子的鉴定与功能分析,但关于大麦SBP转录因子的研究仍然较少。本研究拟采用生物信息学方法鉴定大麦全基因组的SBP家族基因,分析该家族成员基因的序列特征、染色体位置分布及其结构等,构建大麦、水稻和拟南芥SBP蛋白的进化树,并利用公共数据库中的RNA-seq数据对该家族成员在不同组织的表达模式进行研究,为大麦SBP家族的深入研究及其重要基因的功能研究提供依据。

1 材料与方法

1.1 数据来源

从UniProt蛋白数据库(https://www.uniprot.org)下载获得52 397条大麦蛋白序列;从PlantTFDB数据库(http://planttfdb.cbi.pku.edu.cn/)获得水稻和拟南芥SBP蛋白序列及其相应的基因序列;从EnsemblPlant数据库(http://plants.ensembl.org/Hordeum_vulgare/Info/Index)获得大麦RNA-seq表达数据。

1.2 大麦SBP家族的基因鉴定与定位

利用HMMER软件并基于SBP家族蛋白特征文件PF03110(下载自Pfam数据库),从已下载的52 397条大麦蛋白序列中预测属于SBP家族的大麦蛋白序列;同时,用PlantTFDB中的Prediction工具从这些已下载大麦蛋白序列中预测大麦SBP蛋白序列;将二者共同预测出的SBP蛋白作为候选的大麦SBP。然后,利用在线数据库SMART(http://smart.embl-heidelberg.de/)对候选大麦SBP蛋白结构域进行鉴定,进一步确定大麦SBP蛋白,排除不含SBP结构域的序列。利用BLAST搜索工具,从EnsemblPlants数据库(http://ensemblgenomes.org)和Phytozome数据库(https://phytozome.jgi.doe.gov/)中检索每个大麦SBP蛋白对应的基因序列和CDS序列以及所在基因组位置。

1.3 大麦SBP蛋白理化性质分析与蛋白结构预测

利用在线软件Protparam(https://web.expasy.org/protparam/)预测大麦SBP蛋白的基本理化性质(包括分子量MW、等电点pI、平均亲水系数GRAVY、不稳定系数与脂肪系数等);利用在线软件SWISS-MODEL(https://swissmodel.expasy.org/)预测大麦SBP蛋白的三维结构。

1.4 大麦、拟南芥和水稻SBP家族系统发育树的构建

基于大麦、拟南芥和水稻的SBP家族蛋白序列,运用MEGA 7.0软件进行多序列比对,并通过邻接法(neighbor-joining method,NJ)构建系统进化树Bootstrap设为1 000次。

1.5 基因结构分析与蛋白保守基序分析

利用GSDS 2.0(http://gsds.cbi.pku.edu.cn/index.php)软件依据CDS序列和相应的基因序列分析大麦SBP基因内含子-外显子结构;利用MEME(http://meme-suite.org /tools/meme)软件分析大麦SBP蛋白家族保守基序,基序长度范围为10~50个氨基酸残基,其他参数为默认值。

1.6 大麦SBP家族表达分析

基于已从EBI下载的大麦7个不同组织(萌动胚、幼苗、5 dpa颖果、15 dpa颖果、0.5 cm幼穗花序、1 cm幼穗花序和节间)的RNA-seq表达数据,利用大麦SBP基因的FPKM值表示基因的表达丰度,使用Matrix2png绘制基因表达热图。

2 结果与分析

2.1 大麦全基因组SBP家族基因的鉴定及染色体位置

利用HMMER软件与PlantTFDB数据库中的Prediction工具从52 397条大麦蛋白序列中预测获得28个大麦SBP候选蛋白;利用在线数据库SMART对候选 SBP转录因子逐条进行结构域鉴定,共获得22个大麦中具有SBP蛋白典型结构域的序列,将这些蛋白对应的基因依次命名为HvSBP1~HvSBP22(表1)。根据大麦基因组信息,HvSBP基因家族定位在6条大麦染色体上(图1),发现SBP基因在大麦染色体上分布不均匀,Chr6H和Chr7H上SBP基因数目分布最多,分别有7个和6个家族成员;Chr2H、Chr3H和Chr5H各自包含2~3个SBP基因;ChrUn上有1个SBP基因;Chr1H和Chr4H上面没有发现SBP基因。大多SBP在染色体上成簇分布,每个簇内的SBP基因之间距离都很近。这与许多别的基因家族在染色体上的分布特征非常相似。蛋白理化性质分析显示,22个大麦HvSBP基因的编码区长度在549~3 009 bp之间,编码的蛋白长度为182~1 002个氨基酸;其等电点(pI)在5.46~10.29之间,总平均亲水系数(GRAVY)在-0.879~-0.280之间。

表1 大麦中鉴定出的SBP家族基因Table 1 SBP family genes identified in barley

图1 大麦SBP基因的染色体定位

2.2 大麦SBP基因内含子和外显子分析

为了进一步研究大麦HvSBP基因结构,基于HvSBP基因对应的基因组序列与CDS序列,利用MEME分析得到各HvSBP基因的外显子、内含子分布情况(图2)。HvSBP9、HvSBP10和HvSBP11外显子和内含子数量最多,有11个外显子和10个内含子;其次是HvSBP8,有10个外显子和9个内含子;其他18个HvSBP基因的外显子数介于1~6之间。第Ⅳ组中的各基因 (HvSBP6、HvSBP8、HvSBP9、HvSBP10和HvSBP11)的外显子数最多,介于6~11。研究还发现,不同组的HvSBP基因结构不同,而同一组内的基因往往具有相似的基因结构。各基因之间不仅在外显子和内含子数量上存在差异,而且在外显子与内含子的长度上也存在着明显的差异。这也直接导致了各基因对应的CDS序列长度的差异(549~3 009 bp)和编码的蛋白长度的差异(182~1 002 aa)。HvSBP19基因的CDS序列最短,仅为549 bp,其对应的蛋白序列也最短,仅为182个氨基酸残基;HvSBP8基因的CDS序列和蛋白序列最长,其长度分别为3 009 bp和1 002个氨基酸残基(表1)。

黄色柱状为外显子,黑线为内含子,蓝色为上游的5′UTR或下游的3′UTR。

2.3 大麦SBP蛋白结构域的鉴定和保守基序分析

通过对大麦22个SBP蛋白进行多序列比对,分析其序列保守结构域,结果(图3)显示,除了5个HvSBP蛋白(HvSBP7、HvSBP13、HvSBP15、HvSBP16和HvSBP21)外,其余17个大麦HvSBP蛋白都具有完整且典型的SBP结构域。一般包含约80个氨基酸残基,具备2个锌指结构(Zn1和Zn2)和核定位信号(NLS)。Zn1和Zn2分别为C3H(C-C-C-H)和C2HC(C-C-H-C)类型;Zn2和NLS之间存在4个氨基酸的重叠。 HvSBP7、HvSBP13、HvSBP15和HvSBP16蛋白具有Zn2和NLS结构,但缺少Zn1结构;另外,HvSBP13、HvSBP15和HvSBP16蛋白中Zn2保守序列不完整,缺少了3~5个氨基酸。 HvSBP21蛋白则具有典型的Zn1结构,但缺少Zn2和NLS结构,却又包含Zn2的保守氨基酸序列(CQQCS)。

图3 大麦SBP蛋白的多序列比对分析

用MEME对大麦22个SBP家族的氨基酸序列进行保守基序(motif)扫描,得到HvSBP转录因子蛋白质保守序列的结构特征图,即motif分布图(图4)。结果显示,在HvSBP转录因子蛋白中总共找到了4个保守的motif基序,其中motif2处在第一个锌指Zn1的位置,motif3包含了Zn2结构的前半部分,motif1包含了Zn2结构域的后半部分和核定位信号NLS结构域。这3个motif正好组成了SBP结构域。在22个大麦SBP蛋白中,有17个蛋白全部包含motif1、motif2和motif3,并且其排列顺序都为motif2-motif3-motif1;只有HvSBP21中不包含motif1,其余21个HvSBP都包含motif1;HvSBP7、HvSBP13、HvSBP15和HvSBP16中不包含motif2;HvSBP16只包含motif1;另外,有10个HvSBP蛋白中出现了另外1个保守基序motif4,它出现在SBP结构域上游或下游。同一组的HvSBP蛋白一般具有相似的motif分布。通过motif分析可知,每个HvSBP蛋白保守的3个motif正好处于SBP结构域,表明SBP特征序列是这些HvSBP蛋白中最为保守的区域。

图4 大麦SBP蛋白的比对分析

保守的蛋白序列往往能形成保守的蛋白结构,保守的结构往往又是其行使特定功能的重要保证。从大麦SBP蛋白的三维结构的预测结果(图5)可以看出,这些蛋白中具有典型的锌指结构与和核定位信号结构。虽然这些蛋白的三维结构存在一定的差异,但由于其存在共同的保守基序,使得它们的三维结构具有SBP家族的共同蛋白结构特征。

图5 大麦SBP蛋白三维结构

2.4 大麦SBP基因的表达分析

研究HvSBP基因的时空表达模式有助于了解其潜在的功能。本研究利用从EnsemblPlant数据库中下载的大麦RNA-seq数据,对大麦各HvSBP基因在不同发育阶段的各组织(萌动胚、幼苗、幼穗花序(0.5 cm与1.0 cm)、颖果(5 dpa与15 dpa)和节间中的表达进行了分析,并根据其表达的FPKM值绘制了基因表达谱热图(图6)。从图6可以看出,22个HvSBP基因在不同发育阶段的各组织中的表达有明显的差异。HvSBP8、HvSBP9、HvSBP10、HvSBP11和HvSBP16在萌动胚、幼苗、幼穗花序(0.5 cm与1.0 cm)和颖果(5 dpa与15 dpa)和节间中均具有较高的表达量,其中HvSBP8和HvSBP16的表达量最高;HvSBP1~4和HvSBP6基因则仅仅在个别组织(幼穗花序和节间等)中具有较高表达水平;其他12个HvSBP基因则在大麦各组织中的表达量极低,甚至不表达。总之,HvSBP基因的表达主要集中在幼穗花序(1.0 cm和0.5 cm)、颖果 (5 dpa)和节间中,其中在幼穗花序(1.0 cm)表达量最高。这就说明HvSBP基因与大麦开花发育密切相关。

图6 大麦SBP基因表达热图

2.5 大麦SBP的进化分析

为了分析大麦SBP家族的进化情况,用拟南芥的30个SBP、水稻的27个SBP与大麦的22个SBP家族成员共同构建了系统发育树(图7),结果显示,3个物种的SBP家族成员可分为4个亚组(Ⅰ、Ⅱ、Ⅲ和Ⅳ亚组),每个亚组均含有3个物种的SBP。4个亚组(Ⅰ~Ⅳ)中分别包含6、7、4和5个大麦HvSBP。在染色体上处于同一簇的HvSBP基因进化关系接近,不仅属于同一进化亚组,而且在进化树上所处的分枝相邻,说明同一簇的HvSBP基因进化关系最近,如在Chr6H上分布于同一簇的HvSBP1、HvSBP2和HvSBP3同属于第Ⅰ亚组,而且进化关系非常接近;Chr7H上分布于同一簇的HvSBP17、HvSBP20和HvSBP21;Chr3H上的HvSBP13、HvSBP14和HvSBP15;Chr5H上的HvSBP9、HvSBP10和HvSBP11。分析HvSBP22/ORUF-104G22540.1、HvSBP4/ORUF 107G16070.1、HvSBP12/ORUF102G05950.1以及HvSBP7/ORUF108G24030.1发现,这4对直系同源基因亲缘关系最近,它们全部来自大麦与水稻;在大麦HvSBP基因中也发现6对亲缘关系最近的旁系同源基因,分别是HvSBP1/HvSBP3、HvSBP18/HvSBP19、HvSBP16/HvSBP17、HvSBP5/HvSBP20、HvSBP13/HvSBP15以及HvSBP9/HvSBP11,其中4对基因(HvSBP1/HvSBP3、HvSBP18/HvSBP19、HvSBP13/HvSBP15以及HvSBP9/HvSBP11)属于成簇分布的串联重复基因。

图7 SBP蛋白的进化树

3 讨 论

高等植物中的转录因子有数千种,许多有关逆境胁迫的转录因子相继被克隆[22],转录因子的全基因组鉴定及表达模式研究逐渐成为当前植物基因功能研究的热点之一。SBP基因家族是植物所特有的一类重要转录因子,近年来有关SBP基因家族的研究备受重视。目前,利用生物信息学方法从基因组水平对多种植物SBP基因家族成员的功能进行分析,研究结果表明,SBP转录因子在调节植物生长发育以及多种生理生化过程中发挥极其重要的作用。大麦基因组测序的完成以及大麦蛋白数据库信息等的日趋完善为从基因组水平分析HvSBP转录因子奠定了基础。但是,目前有关大麦SBP基因家族的系统研究报道还比较少。

本研究基于大麦蛋白数据库和全基因组测序数据库等信息,利用三种预测工具(HMMER、PlantTFDB_ Prediction和SMART)共同预测并鉴定出22个大麦SBP基因(HvSBP1~HvSBP22)。该预测结果比单一软件预测结果更加可靠,但是也增加了非典型大麦SBP蛋白被漏掉的风险。本研究鉴定出的22个大麦HvSBP基因被分为4个进化亚组,分别定位在Chr2H、Chr3H、Chr5H、Chr6H、Chr7H和ChrUn染色体上。除了HvSBP4、HvSBP6、HvSBP7和HvSBP22外,其他HvSBP基因在染色体上都是成簇分布的,属于串联重复基因。这种分布特征与已报道的其他基因家族的分布特征类似。

本研究发现,处于同一簇串联重复的HvSBP基因在序列、基因结构、蛋白保守结构域(motif)、理化性质、基因表达上高度相似,并处于进化树上最相邻的分枝上。推测这些位于同一簇的串联基因是由于在大麦进化过程中染色体的不对称交换与复制产生的多拷贝基因进化而来的。目前的观点认为,复制基因在进化中有3种不同的命运:(1)其中的1个基因继承了祖先基因的功能,而其他拷贝的基因则变成了假基因;(2)其中的1个基因仍然保留了祖先基因原有的功能,而其他拷贝的基因则进化出了新的功能;(3)这些基因被亚功能化(sub-functionalized),它们一起承担了祖先基因传下来的基因功能[23-24]。由于本研究鉴定出的处于同一簇的大麦HvSBP基因在各个方面都存在着高度的相似性,他们的表达模式在不同大麦组织中高度一致,推测这些成簇分布的大麦HvSBP基因更加倾向于第3种进化学说。同一基因家族的各个基因一般都来自同一个祖先基因,属于同源基因,是在进化过程中通过某种方式产生的多拷贝基因逐渐进化而来的。本研究鉴定出不同簇的大麦HvSBP基因之间虽然也属于同源基因,存在共同的保守区域,但它们在CDS与蛋白的序列及长度、基因结构、保守结构域(motif)、理化性质与基因表达方面却存在明显的差异。因此,推测不同簇的HvSBP基因之间在功能上存在一定差异。

进化分析结果显示,大麦、拟南芥和水稻共79个SBP基因被分为4个进化亚组,每个亚组中都包含3个物种的SBP基因,而且在同一进化亚组中,各SBP基因的亲缘关系并不完全是按照物种来区分的。推测在SBP基因家族产生且已分化出了这4个亚组之后,才出现了单、双子叶植物的分化。前人的研究表明,SBP基因可能起源于绿藻和陆生植物祖先分化之前[25]。从进化树上可以看出,与大麦HvSBP基因进化关系最近的是水稻的SBP基因。本研究发现的亲缘关系最近的4对直系同源基因(HvSBP22/ORUF104G22540.1、HvSBP4/ORUF107G16070.1、HvSBP12/ORUF102G05950.1以及HvSBP7/ORU-F108G24030.1)全部都是来自大麦与水稻。可见,单子叶植物的大麦中的SBP基因与水稻的SBP基因亲缘关系比双子叶植物的拟南芥更近。

筛选出的22个大麦HvSBP在各个组织中的表达量差异很大,其中,HvSBP8、HvSBP9、HvSBP10、HvSBP11和HvSBP16在所有组织中均明显的表达,HvSBP1~4和HvSBP6仅在个别组织中表达,其他12个HvSBP基因在所有组织中表达量极低或根本不表达。这暗示了各HvSBP基因的功能在进化中已经出现了明显的分化。本研究也发现,成簇出现的串联重复HvSBP基因具有共同的表达模式。基因表达分析还显示,HvSBP基因主要集中在幼穗花序与颖果中表达,其中1 cm幼穗花序中HvSBP基因表达量最高,且多达10个HvSBP基因在该组织中表达。大麦HvSBP基因在0.5 cm幼穗花序中开始大量表达;当幼穗花序长度达到1.0 cm时,其表达量更高,逐渐达到了峰值;当开花授粉5 d后,HvSBP基因在颖果中的表达量开始下降;开花后15 d的颖果中表达量则进一步下降。由此可见,HvSBP基因在开花期进入表达高峰,随着籽粒的形成及成熟,其表达量下降。这说明这些HvSBP基因参与了花的发育与调控,这与前人报道一致[7,26]。拟南芥SBP类似基因SPL3等可以调控拟南芥花的发育[27],拟南芥SBP8和SBP14可以调控其花粉的发育[7],进而影响拟南芥产量;玉米中控制花序发育的部分SBP基因与玉米产量密切相关[3]。因此,我们推测在大麦颖果和幼穗花序中大量表达的这些HvSBP基因也可能会在一定程度上对大麦产量产生影响,但还需进一步研究。

猜你喜欢
大麦拟南芥结构域
细菌四类胞外感觉结构域的概述
世界和中国的哪些地方产大麦
Global interest in Chinese baijiu
拟南芥栽培关键技术研究
UBR5突变与淋巴瘤B细胞成熟
大麦若叶青汁
拟南芥
口水暴露了身份
DEP结构域的功能研究进展
水稻DnaJ蛋白的生物信息学分析