郑 玲,张欢欢,张延召
(洛阳师范学院 生命科学学院,河南 洛阳 471000)
在自然界中,高等植物的信号转导、形态建成、抗逆反应以及生长发育等生命活动都离不开转录因子的调控[1]。Squamosa启动子结合蛋白(Squamosa promoter binding protein,SBP)是植物特有的一类转录因子[2]。SBP蛋白中包含一段非常保守的DNA结构域,大约编码79个氨基酸残基,被称为SBP结构域。该结构域的结构特点是含有2个锌指结构[即C3H(C-C-C-H)、C2HC(C-C-H-C)]和双向核定位信号(Nuclear localization signal,NLS)[3]。SBP结构域的C端为核定位信号区域,可引导SBP蛋白进入细胞核行使功能。
到目前为止,在拟南芥中共鉴定到16个SBP基因家族成员,它们在拟南芥的种子形成、枝条发育、花发育、叶原基间隔期形成、营养与生殖阶段的转变、叶片发育、可育性、植物激素信号转导等多个方面发挥着重要作用。此外,关于不同植物中SBP基因功能的研究也越来越多。玉米中LG1(Liguleless1)基因编码SBP转录因子,缺失该基因的突变体没有形成舌叶和叶耳[4]。KROPAT等[5]发现,非种子植物衣藻(Chlamydomonasreinhardtii)中的铜应答调控子1(Copper response regulator 1,CRR1)基因编码的蛋白质包含SBP结构域,从而能够识别GTAC的核心基序。拟南芥SBP8和SBP14基因分别与调控花粉发育和真菌毒素FB1诱导的程序性死亡的抗性相关[6],水稻基因组SBP转录因子主要在花和愈伤组织中表达[7]。番茄SBP基因(LeSPL-CNR)是控制果实发育的关键基因[8]。目前,关于棉花SBP转录因子家族的鉴定和分析尚未见报道。鉴于此,采用生物信息学方法鉴定棉花SBP转录因子家族成员,并对其进行染色体定位、基因结构、蛋白质理化性质、系统进化树及表达模式的分析,为进一步研究棉花SBP家族基因的功能奠定基础。
棉花SBP家族的基因序列、蛋白质序列、编码区序列(CDS)和拟南芥SBP蛋白序列来源于NCBI(http://blast.ncbi.nlm.nih.gov/Blast)、Phytozome(https://phytozome.jgi.doe.gov/pz/portal.html)、PlantTFDB(http://planttfdb.cbi.pku.edu.cn/family)三大数据库。
1.2.1 棉花SBP转录因子家族成员的鉴定 利用NCBI的本地BLAST软件构建棉花全基因组序列蛋白质数据库。在Pfam网站下载SBP结构域的HMM模型文件PF03110,以此蛋白质序列为Query,对棉花基因组数据库进行本地BLAST搜索。将获得的结果与从PlantTFDB、Phytozome数据库下载的棉花SBP家族基因的蛋白质序列进行对比整合。随后将整合得到的序列在Interpro上进行验证,确定是否存在SBP结构域,从而鉴定出所有的棉花SBP蛋白序列。
1.2.2 棉花SBP家族成员的特性分析和进化分析 在Phytozome数据库中获得棉花SBP蛋白的基本性质,如等电点、蛋白质分子质量、平均亲水系数等。利用ClustalX软件将棉花SBP家族各成员的结构域进行多序列比对。为了便于分析结果,通过GeneDoc软件着色,并标注灰度,保存图片。
从PlantTFDB数据库下载拟南芥SBP家族的蛋白质序列,将其与棉花SBP家族的蛋白质序列整合在1个fas文件里,利用软件MAGA 6.0构建系统进化树。利用棉花全基因组的CDS序列和基因组序列确定棉花SBP基因在染色体上的位置,用MapInspect软件绘制基因的染色体定位图。利用GSDS在线系统(http://gsds.cbi.pku.edu.cn/)分析棉花SBP基因的内含子、外显子结构。
1.2.3 棉花SBP基因在棉花不同组织中的表达分析 以棉花SBP基因的CDS序列作为Query,在NCBI棉花EST数据库中通过BLAST搜索,得到棉花SBP基因在不同组织中表达的信息并进行列表,明确棉花SBP基因的转录表达情况。
共鉴定出83个棉花SBP转录因子家族成员,依据基因在染色体上所处的位置信息对棉花SBP转录因子家族成员进行命名(棉花Gossypiumhirsutum的缩写是Gh),具体如表1所示。从表1可见,棉花SBP转录因子家族成员的氨基酸数量介于85~1 083个,分子质量9.28~119.88 ku,等电点(5.86~10.85)变化范围较小。大部分成员的等电点均在碱性范围内,说明这些蛋白质含有很多的碱性氨基酸。所有SBP转录因子家族蛋白质平均亲水系数全为负值,表明此家族成员全部为疏水性蛋白质。而GhSBP19和GhSBP78蛋白的平均亲水系数很低,分别为-1.322、-1.348,说明这2类蛋白质疏水性较强。
表1 GhSBP转录因子家族成员特征Tab.1 Characteristics of SBP transcription factor family in G.hirsutum
续表1 GhSBP转录因子家族成员特征Tab.1(Continued) Characteristics of SBP transcription factor family in G.hirsutum
续表1 GhSBP转录因子家族成员特征Tab.1(Continued) Characteristics of SBP transcription factor family in G.hirsutum
注:N/A表示暂无录登号。
Note: N/A means no login number.
对83个棉花SBP蛋白的保守SBP结构域进行多重序列比对,结果如图1所示。由图1可见,大部分棉花SBP蛋白的SBP结构域均包含74个氨基酸残基,且具有2个锌指结构,分别为C3H和C2HC类型,即Zn1和Zn2;其中,GhSBP62、GhSBP48、GhSBP44只含有Zn1结构而缺失Zn2结构;另外,除了GhSBP62、GhSBP48、GhSBP37、GhSBP44,其他转录因子在SBP保守结构域的C端都有1个NLS位点。
大部分棉花SBP蛋白(不包括GhSBP81/61/60)第1位点的C(半胱氨酸)、第16个位点的Y(酪氨酸)高度保守。除GhSBP62/48/37/44之外,其他SBP蛋白在第65位点的L(亮氨酸)、68位点的H(组氨酸)和69位点的N(天冬酰胺)均高度保守。第15位点的D(天冬氨酸)在GhSBP2/31/68/7/66等蛋白质中也较为保守。
图2显示,GhSBP2、GhSBP68、GhSBP31和AtSBP15、AtSBP3来自于同一个进化分支;GhSBP82、GhSBP50、GhSBP20、GhSBP45、GhSBP60、GhSBP15与AtSBP28、AtSBP29、AtSBP30来源于同一个进化分支。处于同一分支的转录因子同源性较高。
此外,在物种内还发现较多的SBP转录因子基因旁系同源基因,如GhSBP68和GhSBP31、GhSBP40和GhSBP8、GhSBP21和GhSBP51、GhSBP16和GhSBP46等,表明在SBP基因家族中,大量SBP转录因子基因在物种内以同源基因的形式存在。
根据拟南芥SBP家族分类原则[9],将棉花和拟南芥的SBP转录因子家族成员分为Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ、Ⅵ、Ⅶ、Ⅷ共8个亚族,大部分亚族同时包含了棉花和拟南芥的SBP转录因子,推测在棉花和拟南芥这2个物种分化之前,SBP转录因子已经发生了分化。在第Ⅲ亚族中,棉花有13个SBP转录因子家族成员,而拟南芥只有1个,表明从棉花形成之后,该亚家族内部SBP转录因子可能被复制了很多次。在第Ⅳ亚族内部,棉花SBP转录因子家族成员数目是拟南芥的4.5倍。在第Ⅲ亚族中,棉花SBP转录因子家族成员数目是拟南芥的13倍。棉花和拟南芥SBP转录因子在这2个亚族中数量变化差异较大,推测在棉花和拟南芥分化以后,各个亚族也发生了不同的进化事件。
图1 棉花SBP蛋白结构域的多重序列比对Fig.1 Conserved domain analysis of SBP family proteins in G.hirsutum
图2 棉花与拟南芥SBP转录因子系统进化树Fig.2 Phylogenetic tree of SBP transcription factors in G. hirsutum and A. thaliana
由表2可见,有40个GhSBP基因在棉花的分生组织、茎、花、花芽、花药以及棉纤维中转录表达,它们在根、叶和种子中都不表达。而GhSBP52只在幼期胚珠中表达,推测该基因可能只参与调控幼期胚珠的生长发育过程。GhSBP49和GhSBP51不仅在幼期胚珠中表达,还在棉纤维中表达,推测这2个基因可能共同调控了幼期胚珠和棉纤维的生长发育。此外,还发现GhSBP2、GhSBP4、GhSBP6等20多个基因在花药和棉纤维中均有表达,推测花药和棉纤维的生长发育由这些基因共同调控。9个GhSBP基因(GhSBP7/19/27/30/36/53/57/66/81)在分生组织、茎、花和花芽4个部位均有表达,表明这些基因可能同时调控分生组织的分化、茎的发育以及花的形成。
表2 GhSBP基因家族在棉花组织中的表达模式Tab.2 Expression pattern of GhSBP genes in different tissues of G.hirsutum
续表2 GhSBP基因家族在棉花组织中的表达模式Tab.2(Continued) Expression pattern of GhSBP genes in different tissues of G.hirsutum
注:+为SBP基因有表达;-为SBP基因没有表达。
Note: + means expression ofSBPgenes; -means no expression ofSBPgenes.
结合进化树亚族分类进行分析。第Ⅷ亚族内部成员(GhSBP19/48/78)和第Ⅶ亚族成员(GhSBP6/35/49/18/83)在棉花的分生组织、茎、花、花芽、花药以及棉纤维中各有表达,表明这2个亚族和棉花的生长发育过程密切相关。第Ⅷ亚族成员(GhSBP19/48)在茎中均有表达,推测该亚族和茎的发育有联系。第Ⅶ亚族成员(GhSBP6/35/18/83)在花药与纤维中均有表达,推测这个亚族与花药、棉纤维的生长发育关系密切。
由图3可知,83个GhSBP基因在1—8号染色体以及11—13号染色体上成簇分布。8号染色体以及12号染色体上的基因集中分布在染色体的一端,而3、7、11这3条染色体上的基因则主要分布在染色体的两端。1号和3号染色体上都分布了5个基因,2号染色体上分布的基因数量最多,高达13个,4号和6号染色体上均有2个基因,5号染色体上则有12个基因,7号和8号染色体上分布了10个基因,11号染色体上分布了6个基因,12号染色体上则分布了7个基因,13号染色体上的基因数量也较多,为11个。
图3 GhSBP基因在棉花染色体上的分布Fig.3 Distribution of GhSBP genes on Chromosome of G.hirsutum
利用在Phytozome数据库中下载的棉花SBP的基因序列和cDNA、CDS序列,构建出SBP家族基因结构图(图4)。结果显示,除了GhSBP37和GhSBP75之外,其他基因序列均含有内含子,且内含子数目不等。棉花SBP家族各组成员所含内含子数目差异也较大,最多9个,最少1个。其中含有9个内含子的基因成员占整个基因家族的24.10%。
基于棉花SBP蛋白序列构建的进化树,将棉花83个SBP成员分为12个亚族(图4),亚族间基因结构差异较大,序列长度长短不一。各亚族内部成员的序列长短相似,内含子数目也差别不大。如第1、7、9亚族各成员内含子数目都是1个;第2、3、5亚族各成员内含子数目都是2个;第6亚族(除GhSBP75外)各成员内含子数目都是3个;第10、11、12亚族成员内含子数目则是9个;第8亚族各成员内含子数目为1~3个,GhSBP25和GhSBP55都含有1个内含子,而GhSBP50含有3个内含子,其余成员都含有2个内含子,第4亚族除GhSBP37没有内含子之外,其余成员均含有2个内含子。
棉花是世界上最重要的纤维作物之一。陆地棉遗传标准系TM-1全基因组序列测序工作的完成[10],为棉花基因功能的研究提供了基础[11]。本研究通过生物信息学的方法鉴定了棉花SBP家族的成员,通过蛋白质理化性质分析、保守域分析、进化树构建、染色体定位等了解其成员特点,并定性分析了其在棉花各组织中的表达,这些对研究棉花SBP基因家族成员的结构和功能具有重要意义。
拟南芥与棉花的SBP转录因子的系统发育树表明,拟南芥SBP家族成员与棉花SBP家族成员部分基因同源性很强。根据进化树将SBP转录因子分为8个亚族,棉花和拟南芥SBP转录因子在不同亚族中数量差异较大,推测在棉花和拟南芥分化以后各亚族可能发生了不同的进化事件。棉花GhSBP基因分布在1—8号染色体和11—13号染色体上,且都成群分布。棉花GhSBP基因家族中,除了GhSBP37和GhSBP75,其余81个基因全部含有内含子,各亚族成员所含内含子数目较为稳定。
SBP转录因子保守结构域的C端是核定位信号区域。本研究在分析SBP保守结构域时发现,棉花SBP蛋白的结构域包含约79个氨基酸残基并具备2个锌指结构,分别为C3H (C-C-C-H)和C2HC(C-C-H-C)类型。另外,大部分转录因子在SBP保守结构域的C端都有1个NLS位点。
定性分析结果表明,有40个GhSBP基因在棉花的分生组织、花、花芽、花药以及棉纤维中都有广泛表达。大部分GhSBP基因主要在花药以及棉纤维中表达,这些基因可能对花器官的形成和纤维发育过程有着重要影响。还有小部分GhSBP基因(GhSBP7/19/27/30/36/53/57/66/81)在分生组织、茎、花和花芽中都有表达,表明这些基因可能参与调控分生组织的分化、茎的发育以及花的形成等过程。第Ⅷ亚族成员GhSBP19/48在茎中均有表达,由此猜测这2个基因与茎的发育相关。第Ⅶ亚族成员GhSBP6/35/18/83在花药与棉纤维中均有表达,推测它们可能对花药与棉纤维的生长发育有重要影响。定性分析棉花SBP转录因子在棉花生长发育中的作用,对于棉花SBP基因的功能研究具有重要意义,并为研究棉纤维(具有经济价值)的调控机制提供了一定的理论依据。
图4 GhSBP家族系统进化树与基因结构Fig.4 Phylogenetic tree and gene structure of GhSBP family