李丁宁,吴进樟,李白杨,曹世江
(1.福建农林大学林学院;2.福建农林大学植物保护学院,福建 福州 350002)
GOLDEN2-LIKE(GLK)是植物特有的一类转录因子,在叶绿体发育、果实品质、生物胁迫和非生物胁迫、植物衰老和激素影响等方面有着重要作用[1].GLK转录因子属于GARP超家族中的一员,此外该超家族还包括拟南芥中的ARR-B蛋白和衣藻中的PSR1(磷酸盐匮乏响应子)[2].GLK基因家族与GARP超家族其他成员的区别在于它有两个高度保守的结构域[3].GLK最先在玉米中作为能够引起植株黄化的基因而被发现[4],随后在小立碗藓(Physcomitrellapatens)、拟南芥(Arabidopsisthaliana)、水稻(Oryzasativa)、辣椒(CapsicumannuumL.)、番茄(Solanumlycopersicum)的核基因组中均发现GLK转录因子参与调控核定位的叶绿体蛋白以及与光合作用相关基因的表达[3,5-8].GLK基因在不同类型植物光合细胞中的表达是不同的,在C4植物中GLK基因主要在叶片中的维管束细胞(bundle sheath)和叶肉细胞(mesophyll)中表达,而 在C3植物中该基因只在叶肉细胞中表达[3,8].研究发现GLK基因是通过基因对的形式共同调控叶绿体的发育,且在拟南芥和苔藓中GLK基因功能表达存在冗余现象,单个基因突变导致缺少的功能由另外一条基因补充[5,7-8].拟南芥中GLK转录因子调控长角果果色和叶片发育,并且过表达该转录因子可以影响拟南芥根部叶绿体的发育[5,9].辣椒中GLK基因通过调节叶绿体大小来控制叶绿素含量,同时调控未成熟果实颜色自然变化的数量性状位点[10].在番茄中,GLK基因通过调控叶绿体的发育来改变成熟果实中糖类和类胡萝卜素的含量,影响果实的品质[11],而过表达SlGLK1和SlGLK2两个基因均可提高成熟番茄的营养价值[12],但是SlGLK2转录因子会与CUL4-DDB1-DET1E3复合物发生反应,导致SlGLK2蛋白被降解[13].
桉树(Eucalyptus)作为世界三大速生树种之一,具有重要的经济、生态和社会价值[14],为造纸和木材工业提供了大量的原材料,具有成为新型生物质能源树种的潜力.桉树在生长过程中常因遭受不良环境因素影响而造成木材生长速度、质量以及抗逆性等方面的不足.据报道[15],桉树焦枯病对桉树幼苗和人工幼林造成极大危害,严重时会导致整株枯死,而GLK蛋白在植物逆境应答和生长发育方面发挥着极其重要的作用.目前,还未见有关巨桉(Eucalyptusgrandis)中GLK基因家族功能的报道.本研究利用生物信息学方法在全基因组水平对巨桉GLK基因家族进行染色体定位、蛋白质理化性质、基因结构特征、蛋白质结构、系统进化以及组织表达模式等全方面分析,为巨桉GLK基因功能的进一步解析提供依据.
从Phytozome数据库下载巨桉和番茄的基因序列信息.
首先从Pfam数据库获得结构域PF00249.31,并在HMMER中对巨桉所有蛋白质序列进行保守序列筛选,标准e值小于1,大致筛选出含有Myb_DNA-binding结构域的序列,然后用SMART再次筛选,最终得到40条巨桉GLK的蛋白质序列.利用ExPASy在线网站(https://web.expasy.org/protparam)预测GLK蛋白的一些基本理化性质.根据JGI数据库获得的基因在染色体上的定位信息,采用MG2C在线软件绘制染色体定位图.
通过Clustal X对巨桉和番茄GLK蛋白的序列进行多序列比对,利用MEGA6软件邻接法构建GLK基因家族系统进化树,校验参数Bootstrap设定为1 000.利用Phytozome数据库获得巨桉GLK的基因组序列以及CDS序列,通过在线软件GSDS(http://gsds.cbi.pku.edu.cn/)对其基因结构进行分析.利用SOPMA分析蛋白序列二级结构.利用SWISS-MODEL(https://swissmodel.expasy.org/)在线建模得到巨桉GLK蛋白三级结构.
通过Phytozome数据库(https://phytozome.jgi.doe.gov)下载巨桉未成熟木质部、成熟木质部、韧皮部、成熟叶、新叶和茎尖的GLK家族基因的表达数据,绘制基因表达热图.
采用生物信息学方法,从巨桉全基因组中鉴定出40个GLK基因,并命名为EgG1~EgG40(表1).GLK基因编码101~688个氨基酸,其中EgG37的分子质量最大,为74.964 ku;而EgG15的分子质量最小,为11.690 ku.40个GLK蛋白的等电点为4.77~10.22,有12个碱性蛋白(EgG2、EgG8、EgG9、EgG12、EgG15、EgG16、EgG17、EgG18、EgG19、EgG26、EgG31和EgG32),中性蛋白只有一个(EgG34),其余均为酸性蛋白.由亲水性指数分析可知,GLK基因家族编码的蛋白均为亲水蛋白.亚细胞定位预测结果表明,EgGLK基因家族主要在细胞质和细胞核中表达.
表1 巨桉GLK转录因子家族的基本信息Table 1 Basic information of the GLK transcription factor family in E.grandis
从图1可知:40个GLK基因非均匀地分布于11条染色体上,基因数目分别为9、3、2、4、5、3、4、3、1、2和4个.根据基因在进化树上的位置及序列间的同源性分析得到6个旁系同源基因对:EgG7/EgG34、EgG5/EgG20、EgG31/EgG36、EgG18/EgG19、EgG1/EgG39和EgG37/EgG38.只有EgG18/EgG19在同一条染色体上,其余5个同源基因对均不在同一条染色体上.根据这些旁系同源基因对在染色体上的位置分布,推测这6个旁系同源基因对都来源于片段复制.
为了进一步了解巨桉GLK家族基因的功能和特征,对鉴定到的40个巨桉和已经报道的番茄(54个)GLK基因的氨基酸序列构建系统进化树(图2).结果表明,GLK家族基因明显聚类于5个亚族(Ⅰ、Ⅱ、Ⅲ、Ⅳ和Ⅴ),其中Ⅰ~Ⅴ每个亚族中均有巨桉和番茄分布,分别包含13、8、4、5、10个巨桉GLK蛋白和19、12、6、4、9个番茄GLK蛋白,但是Ⅵ亚族只有4个番茄家族成员.此外,EgG14和SlG26、EgG28和SlG29、EgG24和SlG41、EgG27和SlG10、EgG12和SlG6、EgG15和SlG3、EgG32和SlG16、EgG22和SlG9、EgG29和SlG1、EgG25和SlG4、EgG26和SlG11、EgG13和SlG40、EgG11和SlG19、EgG4与SlG21蛋白进化关系极为接近,由此可知两物种的这些GLK基因序列的同源性较高.
图1 巨桉GLK基因在染色体上的分布Fig.1 Location of the GLK genes on E.grandis chromosome
基因结构分析表明(图3),巨桉GLK家族各成员基因外显子的数量、长度以及位置存在差异.这些基因大多数长度在1~9 kb,且这些基因的上游非编码区均不超过1 kb,其中EgG19长度最长,该基因存在8 kb左右的内含子.EgG11、EgG8和EgG35只有一个外显子,属于内含子缺失类型.EgG40外显子最多(11个),EgG5有2个,EgG15、EgG20和EgG32有3个,EgG13有4个,其余基因有5~7个.同一亚族的基因结构呈现出较大的相似性,推测其可能具有相似的生物学功能.
实心圆(●)与空心圆(○)分别代表番茄和巨桉,分支上数字代表在Bootstrap验证中基于1 000次重复的该节点可信度;不同大类的分枝具有不同的颜色,每一段弧形代表一个亚族(Ⅰ~Ⅵ).
通过预测分析发现巨桉GLK编码的蛋白质二级结构由α-螺旋、β-转角、延伸链和无规则卷曲组成(表2).EgGLK蛋白的无规则卷曲占比最高,其次为α-螺旋,且EgG4、EgG16和EgG22的无规则卷曲占比大于70%.利用MEME软件分析巨桉GLK基因家族成员的蛋白保守基序(图4),共发现15个保守序列:Motif 2、Motif 1、Motif 3、Motif 13、Motif 12、Motif 9、Motif 6、Motif 10、Motif 5、Motif 14、Motif 4、Motif 8、Motif 7、Motif 11和Motif 15.利用SWISS-MODEL在线建模得到5个GLK转录因子蛋白保守结构域3D结构(图5),图5Ⅰ~5Ⅴ分别是EgG17、EgG5、EgG18、EgG26、EgG8.结果表明,GLK家族成员的蛋白在三级结构上是比较保守的,具有非常相似的三维结构,大多由多个螺旋、延伸链及转角结构组成,推测巨桉GLK蛋白三维结构的相似性可能导致部分功能相同.
从图4可看出,每个亚族内多数Motif 排列顺序相同,但位置不尽相同.GLK蛋白所有成员都有Motif 2和Motif 1,说明两个基序是GLK蛋白的核心组件.GroupⅠ特有的基序是Motif 3和Motif 13,而GroupⅡ基序最少,只有Motif 2和Motif 1.GroupⅢ、Ⅳ和Ⅴ特有的基序分别是Motif 12和Motif 9、Motif 5和Motif 14、Motif 4、Motif 7和Motif 15.每个亚族GLK蛋白的基序类型有一定的相似性,不同亚族之间有一定的差异性.在GroupⅠ和GroupⅡ中均有部分基因所有Motif的位置出现后移现象,这可能是由于在进化过程中基因前端插入一段外显子,推测这些现象可能与该基因家族功能有关.
图3 巨桉GLK家族基因结构Fig.3 Structural diagram of the GLK gene family in E.grandis
蛋白质α-螺旋氨基酸长度/个占比/%β-转角氨基酸长度/个占比/%延伸链氨基酸长度/个占比/%无规则卷曲氨基酸长度/个占比/%EgG114121.11284.19608.9843965.72EgG28156.25139.03106.944027.78EgG313127.07122.48316.4031064.05EgG49620.5681.71357.4932870.24EgG57443.27105.85137.607443.27EgG66229.25125.663215.0910650.00EgG713736.3492.39266.9020554.38EgG89229.77185.83289.0617155.34EgG99424.4882.08318.0725165.36EgG1010628.5771.89246.4723463.07EgG118124.11113.27185.3622667.26EgG129232.1793.15186.2916758.39EgG1312325.68112.30377.7230864.30EgG149430.5292.92134.2219262.34
续表2
图4 巨桉GLK转录因子家族的基序Fig.4 Motifs of the GLK transcription factors in E.grandis
图5 巨桉GLK蛋白家族成员的三级结构Fig.5 Tertiary structures of the members of GLK protein family in E.grandis
根据GLK基因在巨桉未成熟木质部、成熟木质部、韧皮部、成熟叶、新叶和茎尖的表达数据,绘制了GLK基因家族在不同组织的表达热图(图6).从图6可知,巨桉GLK基因在不同组织中的表达存在差异.EgG36、EgG5和EgG31在成熟叶中表达量较高,EgG20、EgG6和EgG15在茎尖表达量偏高,表明这些基因可能在植物的成熟叶和茎尖生长过程中起着积极的作用.EgG9和EgG35分别在韧皮部和木质部有较高的表达量,说明这两个基因可能在韧皮部和木质部的发育过程中发挥着重要作用.而EgG29、EgG26、EgG37和EgG17在未成熟木质部的表达量很低,EgG18和EgG33在成熟木质部的表达量较低,EgG23、EgG40和EgG30在韧皮部表达量很低,这意味着这些基因可能在特殊条件下或在其他未受试植物部位表达.从以上分析可以得出这40个巨桉GLK基因在未成熟木质部、成熟木质部和韧皮部中表达量最少,在新叶中表达量适中,但在成熟叶和茎尖具有较高的表达量.
红黄蓝代表基因表达水平,红色越亮表达越强,蓝色越亮表达越弱.图6 GLK基因在巨桉不同组织中的表达Fig.6 Expressions of the GLK gene in different tissues of E.grandis
本研究从基因组水平鉴定出40个巨桉GLK基因,并分为5个亚族(GroupⅠ~GroupⅤ),分析发现该基因家族在进化过程中具有较高的保守性.染色体定位分析表明巨桉GLK家族基因相对分散地分布在巨桉11条染色体上,且有6个均来自于片段复制的旁系同源基因对,说明片段复制可能是该基因家族扩增的主要方式.巨桉GLK基因结构相对复杂,大多数基因外显子的数量以及位置均不相同.同一亚族基因具有相似的外显子数目和长度,表明进化关系相近的基因具有相似的结构.此外,该基因家族还存在内含子缺失类型(EgG8、EgG11和EgG35),表明这些基因可能在转录时只需要进行一些简单的剪切便可以直接翻译成蛋白质.巨桉和番茄GLK基因的聚类分析结果表明,位于同一亚族或分枝的基因可能具有相似的功能,这为预测巨桉GLK家族中基因功能提供了重要的参考依据.
通过分析巨桉GLK基因表达数据,发现不同GLK家族成员在不同组织中表达具有一定的特异性,表明不同GLK家族成员之间可能存在功能分化.一些基因在某些组织中异常高表达,如EgG5、EgG31和EgG36在成熟叶中表达量较高,EgG6、EgG15和EgG20在茎尖表达量偏高,表明这些基因可能参与调控老叶和茎尖的叶绿体发育过程.