陈云,赵博雅,刘颖,王铭瑶,孟婷
(湖北师范大学 生命科学学院,湖北 黄石 435002)
细胞分裂素(Cytokinin,CK)是一种重要的植物激素,它在植物的生长和发育过程中有着至关重要的作用,能够促进细胞的分裂与分化[1-2],控制芽的平衡和营养的转导信号,提高作物产量[3],形成顶端优势[4-5],延迟衰老[6-7]以及对生物和非生物胁迫的响应[8-10]等。近年来,关于CK的合成与代谢途径以及信号转导途径的研究取得了突破性的进展[11]。植物中天然存在的CK是腺嘌呤的衍生物,在腺嘌呤环上的第6位氮原子(N6)上通过共价键连接不同的侧链形成腺嘌呤的衍生物[11-13],根据侧链的类型,CK可以分为异戊烯基型CK和芳香型CK,它们可以在植物体内的不同位置合成,然后经过木质部或者韧皮部从茎运输到根。异戊烯基型CK主要包括异戊烯基腺嘌呤(Isopentenyl adenine,iP)、顺式玉米素(cis-zeatin,cZ)、反式玉米素(trans-zeatin,tZ)和二氢玉米素(Dihydrozeatin,DZ)[14]。其中,异戊烯基腺嘌呤和反式玉米素是植物中存在最广泛的2种CK,比如拟南芥中既有异戊烯基腺嘌呤又有反式玉米素,而水稻和玉米中主要含有顺式玉米素。芳香型的CK仅在较少的植物中发现,比如拟南芥、白杨。
在CK合成过程中有一个非常重要的基因,就是异戊烯基转移酶基因(Isopentenyl transferase gene,ipt),其编码的异戊烯基转移酶是催化细胞分裂素合成的关键酶[15],也是限速酶,但是该基因的表达具有组织和细胞特异性,因此,合成的CK需要通过特定的方式运输到其他的组织或细胞中使用。在此过程中,一些起CK运输作用的蛋白就非常重要。细胞分裂素通过木质部从根输送到芽(主要以tZ型细胞分裂素形式),通过韧皮部从芽输送到根(主要以iP型细胞分裂素形式)[11,16-17]。目前的研究认为,核苷型CK是植物体内CK的主要转运形式,其转运蛋白分为浓缩型核苷转运蛋白(Concentrative nucleoside transporters,CNTs)和平衡型核苷转运蛋白(Equilibrative nucleoside transporters,ENTs)[18]。目前,关于植物中的CNT型转运蛋白的研究报道较少,而ENT型转运蛋白的研究报道较多。比如,拟南芥AtENT3和AtENT8已被证实具有转运核苷型CK的能力[19],OsENT2在水稻中也有潜在的转运核苷型CK的能力[20]。除了上述2种类型的转运蛋白之外,在拟南芥中,还发现了另一种称为嘌呤渗透酶(Purine permeases,PUPs)的转运蛋白,同样在CK的运输过程中发挥着重要的作用[21],因为PUP蛋白对嘌呤具有很高的亲和性,所以,在植物体中主要介导嘌呤或嘌呤类似物的运输。而在早期GILLISSEN等[22]对拟南芥PUP家族基因的研究中发现,AtPUP1和AtPUP2是一类高亲和质子耦合蛋白,可以通过高亲和质子耦合转运系统透过细胞膜,AtPUP1的主要作用是回收拟南芥叶片中的CK,AtPUP2的主要作用是介导维管及薄壁组织间CK的运输,这些研究成果对PUP家族基因的功能及作用也提供了强有力的证据。此外,对水稻中OsPUP7基因的研究发现,该基因主要在未成熟的种子、胚乳以及幼穗中表达,其编码的蛋白具有转运CK的能力[23]。
棉花是最重要的纤维作物,也是重要的油料作物之一。因此,棉花在世界范围内被广泛种植。此外,棉花原产于热带和亚热带地区,并表现出一定程度的抗压力[24]。然而,棉花经常受到各种非生物胁迫(如干旱、高温等),在其生长周期内,多种非生物胁迫会导致棉花产量下降或棉纤维质量变差。尤其当干旱胁迫超出棉花植物在生殖生长阶段的自我保护能力时,不可避免地导致纤维产量和质量严重下降[25]。因此,提高棉花植株的抗旱性对世界农业非常重要。PUP家族基因具有运输CK的功能,CK在植物的生长发育、形态建成和逆境应答等方面具有重要作用。然而到目前为止,在陆地棉中尚未有PUP转运基因的相关报道,对于陆地棉中PUP家族基因的数量和功能也未知。因此,利用生物信息学方法鉴定陆地棉中PUP基因对研究该家族在参与棉花抗逆中的功能角色具有重要的理论意义。
本研究利用生物信息学从陆地棉中鉴定PUP基因,并对PUP基因的结构、保守结构域、顺式作用元件进行分析,同时了解PUP家族基因在胁迫条件下的表达模式,旨在为陆地棉抗旱研究提供候选基因。
拟南芥(Arabidopsis thaliana)AtPUP家族基因的基因组序列从TAIR(https://www.arabidopsis.org/)数据库中获取;水稻(Oryza sativa)OsPUP家族基因的基因组序列从RGAP(http://rice.plantbiology.msu.edu/)数据库中获取[14];陆地棉的全基因组序列来自于GRAND(https://grand.cricaas.com.cn)数据库,使用版本为“G.hirsutum_TM-1_HAU”。
利用已研究报道的拟南芥和水稻的PUP蛋白的氨基酸序列,通过BLAST陆地棉的全基因组数据库,搜索基因组中的同源序列,从而获得陆地棉的PUP基因候选序列,阈值为1e-10,取2次BLAST结果的交集。使用SMART工具(http://smart.embl-heidelberg.de/)对候选陆地棉PUP蛋白序列进行验证,获得最终31个陆地棉PUP基因。通过在线网址ExPASy(https://www.expasy.org/),利用网址中的ProtParam工具,对陆地棉PUP蛋白的大小、分子质量、理论等电点及亲水性等理化性质进行分析。
首先,通过MEGA 11软件[23]对拟南芥、水稻和陆地棉的PUP蛋白进行多序列比对,然后运用相邻链接法(Neighbor-Joining,NJ),模型选择改序列组的最优模型JTT,校验参数Bootstrap设置为1000,构建系统发育进化树,从而对拟南芥、水稻、陆地棉PUP家族基因的进化关系进行分析,并进行亚族的分类。
为了确定陆地棉PUP基因在染色体上的位置,可以通过植物全基因组数据库GRAND(https://grand.cricaas.com.cn)中gff3文件中筛选出PUP基因位置信息,然后使用TBtools软件[26]将PUP基因在染色体上的定位进行可视化。
再使用MCScanX软件进行陆地棉全基因组范围内的共线性分析,从分析结果中筛选出含有PUP基因的共线性区域及所有PUP基因的重复信息。利用TBtools中的Circos图对位于染色体上的PUP基因进行位置与共线性关系的展示。
从陆地棉基因组gff3文件中筛选出PUP基因结构信息;利用MEME(Multiple expectation maximization for elicition)网站对陆地棉PUP蛋白进行保守结构域预测,motif sites设置为2~500 sites,Width在6~100 wide;总共识别获得10个不同的motif,并下载预测得出的xml格式文件,利用TB-tools[26]工具将结果进行可视化。
利用Tbtools中的Simple Ka/Ks Calculator(NG)程序来计算水稻(Oryza sativa)、拟南芥(Arabidopsis thaliana)、陆地棉(Gossypium hirsutum)的同源PUP基因的Ka、Ks、Ka/Ks。
利用TBtools软件从陆地棉基因组数据中提取出GhPUP基因起始密码子(ATG)上游2 000 bp的启动子序列;在PlantCARE(https://bioinformatics.psb.ugent.be/webtools/plantcare/html/)网站上进行启动子顺式元件分析;利用“Simple BioSequence Viewer“程序,在TBtools上进行顺式作用元件可视化。
从CottonMD(http://yanglab.hzau.edu.cn/CottonMD/)数据库中提取出PUP家族基因成员的组织表达和不同胁迫条件下的转录组数据,然后运行TBtools软件中的Amazing Heatmap程序,设置列相标准化和横相聚类,对陆地棉PUP基因在不同组织以及不同处理条件下的表达情况进行分析与可视化。
结合拟南芥和水稻的PUP基因,利用BLAST方法,在陆地棉的全基因组数据库中鉴定OsPUP和AtPUP的同源序列,通过筛选最终获得31个陆地棉PUP基因,根据基因位于染色体位置依次命名为GhPUP1~GhPUP31。使用ExPASy工具对这31个蛋白的分子质量、等电点、基因编号、蛋白长度和在染色体的位置等进行了分析,具体结果如表1所示,这些PUP基因编码的蛋白质氨基酸数在168(GhPUP3)~472个(GhPUP27),分子质量的大小在18 374.78~52 935.23 u。GhPUP蛋白家族成员中理论等电点最大的是GhPUP5蛋白,等电点为9.17,而最小的是GhPUP9蛋白,等电点为6.30,且这31个蛋白均为疏水性蛋白。
表1 陆地棉PUP家族基因信息Tab.1 Information of PUP family genes in Gossypium hirsutum
为了研究陆地棉PUP家族基因的起源和进化,根据31个陆地棉GhPUP家族成员的蛋白序列、20个拟南芥AtPUP家族成员的蛋白序列和12个水稻OsPUP家族成员的蛋白序列,然后利用MEGA 11软件构建了PUP蛋白在水稻、拟南芥和陆地棉之间的系统进化树,结果如图1所示。
图1 陆地棉、水稻和拟南芥PUP蛋白系统进化关系Fig.1 Phylogenetic relationship of PUP proteins in Gossypium hirsutum,Oryza sativa,and Arabidopsis
由图1可知,63个PUP基因被分成了4个分支,分别命名为Group1~Group4。其中,陆地棉PUP保守域序列在各个分支中的具体分布情况为:Group1亚家族中共有15个;Group2亚家族中共有12个;Group3亚家族有4个;Group4亚家族中没有陆地棉PUP。通过比较这4个亚家族,可观察到Group1成员最多,且涵盖3个物种;Group2、Group3成员数目逐渐降低,但均涵盖3个物种;Group4只有1个AtPUP成员,可能由于该基因在进化的过程中不保守,蛋白序列差异较大,可能行使特别的功能。
为了进一步了解陆地棉PUP基因的功能,单独使用陆地棉PUP蛋白进行了系统进化分析,并利用MEME、NCBI-CDD、TBtools等软件对这31个陆地棉PUP蛋白的基因结构和保守结构域进行了分析,结果如图2所示,单独使用陆地棉PUP蛋白构建的进化树与使用陆地棉、水稻和拟南芥PUP蛋白构建的进化树的分支情况存在一定的差异,单独使用陆地棉PUP蛋白构建的进化树将31个蛋白分成3支。第1支有16个成员(GhPUP6、GhPUP18、GhPUP19、GhPUP23、GhPUP22等),第2支只有2个成员(GhPUP8、GhPUP25),第3支包含13个成员(GhPUP9、GhPUP26、GhPUP30等)。基因结构的分析结果显示,这些陆地棉PUP基因大多数只有1个内含子,少数有2个(GhPUP5、GhPUP24、GhPUP28)或3个内含子(GhPUP31),也有少数基因没有内含子(GhPUP2、GhPUP3、GhPUP4、GhPUP17、GhPUP18)。保守结构域的分析结果显示,除了motif 9外(只有11个基因包含motif 9),大多数基因都包含motif 1~motif 10。GhPUP8和GhPUP25不含motif 5、motif 7和motif 9。GhPUP14和GhPUP31不含motif 5和motif 9。GhPUP3这个基因所含的motif数量最少,只有4个。
图2 GhPUP蛋白进化树、基因结构及保守结构域分析Fig.2 The phylogenetic tree,gene structure,and conserved domain analyses of the GhPUP protein
由于基因在染色体上的分布在一定程度上影响了基因的功能,因此,对这31个GhPUP基因在染色体上的定位进行了分析(图3)。结果显示,31个GhPUP基因分布在19条染色体上,图中及下文只涉及有GhPUP分布的染色体。Ghir_D05染色体上的PUP基因最多,为4个;其他染色体均有1~2个PUP基因的分布。从结果可以看出,少数基因存在基因成簇现象,比如GhPUP6/7位于Ghir_A05染色体的相近位置,GhPUP15/16位于Ghir_D01染色体的相近位置,GhPUP22/23/24位于Ghir_D05染色体的相近位置。
图3 陆地棉PUP基因在染色体上的分布Fig.3 Chromosomal distribution of PUP genes in Gossypium hirsutum
复制事件在植物进化过程中起着至关重要的作用,串联复制和片段复制是导致基因组扩增和复杂性增加的重要过程[27-28]。对31个陆地棉PUP基因的基因重复现象进行了分析,如图4所示,陆地棉基因组中共有17个同源性的PUP基因对,涉及25个PUP基因,其中一对一重复的基因对有8个,一对多的基因对有3个,比如GhPUP21分别与GhPUP26及GhPUP27在2个不同的共线区域表现为重复基因。GhPUP基因的复制类型基本上都是片段重复,没有同一条染色体多个同源PUP基因成簇的现象出现。
图4 PUP基因在陆地棉基因组中的基因复制事件Fig.4 Gene replication events of PUP genes in Gossypium hirsutum genome
为了探究拟南芥、水稻、陆地棉中的PUP家族基因的进化关系,通过MCScanX软件对3个物种中的PUP基因进行了共线性分析。从图5可以看出,与拟南芥和水稻具有共线性的基因对分别有3、4个,说明陆地棉与这2个物种的PUP基因同源性较低。
图5 不同物种PUP基因共线性分析Fig.5 Collinearity analysis of PUP genes in different species
Ka/Ks表示的是非同义替换率(Ka)和同义替换率(Ks)之间的比例,这一比值可以推断编码该蛋白的基因是否遭受了选择压力[29]。Ka为非同义替换率,表示在进化过程中碱基的变化会改变蛋白的编码;Ks为同义替换率,表示因密码子简并性的存在,在进化过程中碱基的突变不会改变最终蛋白的编码。如果Ka/Ks<1则表示净化选择,Ka/Ks>1表示正向选择,Ka/Ks=1为中性选择[29]。为了进一步了解陆地棉PUP基因在分化中选择压力的程度,对24个同源基因对的非同义(Ka)和同义(Ks)值进行了评估。表2展示了所有与陆地棉PUP同源的PUP基因对之间的Ka和Ks,因个别基因对最终的计算数值为NA,故没有展示出来。由表2可知,所有可计算的PUP基因对的Ka/Ks均小于1,且有些基因对的数值远小于1,比如第一组值为0.165,说明在这3个物种的进化过程中PUP基因受自然选择的方式为净化选择,PUP基因在进化过程中功能保守。
顺式作用元件是特定转录因子的结合位点,它决定转录的起始或抑制。因此,这些顺式作用元件是基因组中必不可少的基因结构。因此,为进一步了解GhPUP蛋白的潜在功能与调控作用,通过PlantCARE和TBtools对基因上游2 000 bp的序列中的顺式作用元件进行了筛选和分析。每个GhPUP基因至少含有5个顺式作用元件,一共有18个元件出现在GhPUP启动子区域(图6,不同的色框代表不同的元件)。这些元件可分为3类,分别是激素应答、胁迫/物理应答以及与植物生长发育相关的元件。比如,CGTCA-motif参与应答MeJA信号通路。结合左边的进化树可知,分在同一组的GhPUP成员有着较为相似的顺式作用元件种类与数目,例如,GhPUP6和GhPUP22都有CAT-box。几乎每个成员都有ARE这个元件,但同时每个成员也有其不同于其他成员的特殊元件,比如GhPUP21有GARE-motif,而其他成员少有。
2.8.1 陆地棉PUP基因在不同组织中表达模式分析 为了研究PUP基因在陆地棉不同组织中的表达模式,从陆地棉基因表达芯片中筛选出了25个PUP基因的组织表达数据。利用TBtools软件中的Heatmap程序将GhPUP基因在不同组织(根、茎、叶、花瓣、花药、苞片、雌蕊、萼片、花托以及开花前后不同天数的纤维和胚珠)中的表达情况进行了分析。图7是PUP基因在根、茎、叶、花瓣、花药、苞片、雌蕊、萼片、花托中的表达图谱,结果显示,依据组织表达情况,这25个PUP基因可以分为8支(图7)。第1支包含4个基因,这4个基因主要在花器官中表达,其中,GhPUP10基因主要在花瓣、花药、苞片、雌蕊和萼片中表达,GhPUP12和GhPUP29基因在花药中有较高表达,GhPUP14基因在苞片、萼片和花托中有一定的表达。第2支包含2个基因(GhPUP5和GhPUP20),这2个基因在根、茎和花托中表达量较高。第3支和第4支都只有1个基因,分别是GhPUP25和GhPUP22,它们分别在叶和花瓣中优势表达。第5、6、7支总共包含15个基因,这15个基因在各组织中的表达量都比较低。第8支中的2个基因在茎中有一定的表达,在其他组织中的表达量很低。
同时对以上25个基因在不同发育时期的棉纤维和胚珠中表达情况也进行了分析,结果如图8所示,依据表达情况,它们分为6支。处于相同支的基因表达模式较为一致。第1支只有GhPUP17这1个基因,该基因在开花前3 d到开花后10 d的胚珠中优势表达;第2支中的GhPUP1和GhPUP15这2个基因仅在开花后15 d的胚珠中表达量较高,在其他时期的纤维和胚珠中的表达量均较低。第3支中也只有1个基因(GhPUP2),该基因在纤维和胚珠中的表达量都很低,仅在开花前3 d到开花后10 d的胚珠中有少量表达。第4支包含15个基因,这15个基因在纤维和胚珠中几乎没有表达。第5支包含4个基因,其中,GhPUP9在开花后25 d的胚珠中优势表达,GhPUP14基因在开花前3 d到开花后20 d的胚珠中有一定的表达,GhPUP5和GhPUP20基因在开花后20 d的胚珠中的表达量相对较高。第6支中的2个基因均在纤维中优势表达,其中,GhPUP22在开花后10、15 d的纤维中优势表达,而GhPUP29在开花后20、25 d的纤维中优势表达。以上结果表明,陆地棉PUP基因的组织表达模式各不相同,暗示了各个成员在不同的组织器官中发挥功能。
图8 陆地棉PUP基因在不同发育时期纤维和胚珠中表达图谱Fig.8 Expression profiles of PUP genes in Gossypium hirsutum in fibers and ovules at different developmental stages
2.8.2 不同胁迫处理下陆地棉PUP基因的表达模式分析 为了研究陆地棉PUP基因在幼苗期对胁迫(如冷、热、干旱等)的应答,对陆地棉幼苗在4 ℃低温、37 ℃高温、PEG、NaCl处理条件下,处理时间为1、3、6、12、24 h的转录组数据进行了分析,结果表明,依据这些PUP基因在幼苗期对各种胁迫的应答可以将其分为5类(图9)。第1类只包含GhPUP22基因,该基因在正常生长条件下随着时间的增加其表达量呈先升高后降低的模式;而在低温、高温以及NaCl处理条件下,该基因的表达基本上都受到强烈的诱导,只有PEG处理后其表达呈现先升高后降低的模式。第2类的3个基因(GhPUP16/9/25)在PEG和NaCl处理条件下受到一定的诱导表达,在低温和高温处理条件下表达变化不显著。第3类至第5类的基因表达基本上不受胁迫处理的诱导,整体表达水平都比较低,其中,GhPUP13、GhPUP29、GhPUP10基因在37 ℃处理1 h时表达量受到显著诱导,但随着处理时间的增加表达量也降低。以上结果暗示了GhPUP22/16/9/25/13/29/10这7个基因可能参与了陆地棉胁迫防御应答。
图9 不同胁迫处理下陆地棉PUP基因的表达分析Fig.9 Expression analysis of PUP genes in Gossypium hirsutum under different treatment conditions
CK对于植物的生长发育起着至关重要的作用,近些年来,随着对CK的研究不断深入,已经证实了3个可以运输CK的基因家族,分别是ENT基因家族、PUP基因家族和CNT基因家族,前2个转运基因家族在拟南芥中均有报道(AtENT被CHEN等[30]报道过,AtPUP被CEDZICH等[31]报道过)。目前关于植物中PUP家族基因的研究较少,仅在拟南芥、水稻和玉米中有相关研究报道,其他物种中尚未见PUP家族基因的数量和功能的研究报道。
本研究运用生物信息学方法,从陆地棉TM-1中鉴定了31个PUP家族基因。依据拟南芥和水稻PUP蛋白的分类,陆地棉31个PUP蛋白被分为三大类,说明这3类中的陆地棉PUP基因的结构与功能与共处同一大类的拟南芥或水稻的PUP基因类似。3个物种的PUP蛋白被分为4支,其中,AtPUP9因无法融入树中被单独划为1支。基因的复制模式通常揭示了基因是如何产生的,它的功能是如何进化的,以及它在植物生长和发育中可能扮演的角色[32]。本研究结果显示,陆地棉PUP基因的复制类型为片段复制,说明GhPUP基因可能在远古时期就已经存在[33]。通过片段复制产生的新基因通常会提高植物对各种生长条件的适应能力,这表明GhPUP基因对陆地棉的生长发育是不可或缺的[34-35]。同时,所有的GhPUP同源基因对的Ka/Ks值都小于1,说明PUP基因的进化较为保守和缓慢[35]。顺式作用元件分析结果显示,所有GhPUP基因的启动子上均有ARE元件(厌氧诱导所必需的顺式作用调节元件),且有17个GhPUP基因的启动子上包含ABRE元件,说明大多数的GhPUP基因参与陆地棉对非生物胁迫的应答。
目前关于PUP家族基因在细胞分裂素的运输中的研究报道较少,现已知的是AtPUP1和AtPUP2在酵母体中被证明为CK转运蛋白,AtPUP3在酵母中没有检测到转运活性[14]。关于PUP家族基因在植物抗逆中的研究也尚未见报道。因此,为了研究陆地棉PUP基因在抗逆中的功能,本研究利用网上公开的转录组数据库对GhPUP基因的组织表达模式以及在不同胁迫处理条件下的表达模式进行了分析,结果表明,GhPUP基因有各自特异的时空表达性,在不同发育时期的组织中表达模式不同。每一种组织中都有对应高表达的GhPUP,比如在根和茎中GhPUP22的表达量最高,GhPUP5次之;GhPUP25和GhPUP22分别在陆地棉叶片和花瓣中优势表达。从逆境胁迫处理下的表达情况来看,GhPUP22在各种处理条件下,表达量都高于对照组,且其表达量随着胁迫处理时间的增加而增加。GhPUP25在PEG处理12、24 h以及NaCl处理6、12 h时表达量都要高于对照组,且该基因在叶片中优势表达,叶是植物进行光合作用和蒸腾作用的重要器官,而气孔的功能是控制植物体内的气体交换和调节水分平衡,植物在遭受干旱胁迫时,往往通过调节气孔关闭来减少水分的流失[23],暗示了该基因可能参与了陆地棉对干旱和盐胁迫的应答。GhPUP16基因的表达模式同GhPUP25基因,在叶片中表达量相对较高,在其他组织中几乎检测不到,但是在PEG和NaCl处理后其表达量受到诱导。此外,GhPUP13、GhPUP29、GhPUP10这3个基因在37 ℃处理1 h后,它们的表达量受到显著诱导,说明它们响应了陆地棉对热胁迫的应答。因此,根据试验结果,猜测GhPUP22/16/9/25/13/29/10这7个基因可能参与了陆地棉胁迫防御应答。这些PUP基因在陆地棉抗逆中的功能还有待进一步研究。
本研究首次完成了陆地棉PUP家族基因的鉴定及表达分析工作,并筛选出了参与陆地棉胁迫应答的PUP基因,可为后续的基因功能研究提供候选目标。