邵晨冰,黄志楠,白雪滢,王云鹏,段伟科
(淮阴工学院生命科学与食品工程学院,江苏淮安 223003)
【研究意义】辣椒(Capsicum annuum),属茄科(Solanaceae)茄亚族(Solaninae Dunal)辣椒属一年生或多年生植物,是我国重要的蔬菜作物,近几年种植面积及产量均居世界首位(http://faostat.fao.org)。HD-Zip转录因子(homeodomain-leucine zipper,HD-Zip)是植物中特有的一类转录因子,参与调控植物光合作用、形态建成以及逆境胁迫应答等重要生长发育过程[1-2]。通过在辣椒基因组中系统鉴定HD-Zip基因家族成员,并对其染色体定位、基因结构、进化关系和表达特征进行分析,对进一步认识辣椒生长发育过程及培育改良辣椒品种具有重要意义。【前人研究进展】HD-Zip转录因子属于同源异形域(Homeodomain,HD)转录因子超家族,参与调控正常生长条件和环境胁迫后植物的生长发育[3]。该转录因子均由同源异型域及亮氨酸拉链(leucine zipper,LZ)结构域共同构成。HD和LZ结构域的存在共同决定了该类蛋白的转录因子功能[1]。根据基因序列的保守性及结构特点,该家族可被分为4个亚族,HD-Zip I—IV:HD-Zip I亚族只包含HD和LZ结构域;II亚族另包含一个N端保守区域(N-term);III亚族较复杂,包含除HD和LZ结构域之外的START、SAD和MEKHLA结构域;IV亚族与III亚族类似但没有C端的MEKHLA结构域[1]。HD-Zip基因家族不同亚族参与不同的代谢途径[1]。以模式植物拟南芥为例,HD-Zip I在非生物胁迫(ATHB1、ATHB5、ATHB6、ATHB7、ATHB12)[4],光信号转导(ATHB16)[5],叶片发育(ATHB1、ATHB3、ATHB16和ATHB20)[4]等方面发挥重要的作用;HD-Zip II主要在植物发育过程中参与环境改变应答机制,特别是光质改变应答调控(ATHB2、ATHB4、ATHB2)[6-7];HD-Zip III主要参与胚胎发育(PHB和PHV)[8],茎和花分生组织形成(ATHB15、ATHB8、REV)[9]和维管发育(REV、ATHB15)[10-11]等;HD-Zip IV则主要在植物毛状体的形成(HDG11、HDG12、GL2)[12],表皮细胞的发育(ATHB10、PDF2、AtML1)[13],叶片形态和生殖细胞发育(HDG1)[14],花色素苷积累(ANL2)[15]等过程起重要作用。HD-Zip的同一亚族在不同植物中具有相似的功能。但由于物种和环境的差异,特别是不同植物在进化过程中经历了不同选择、复制和保留事件,HD-Zip基因家族同源基因在不同物种中均有不同程度的分化。比如油椰子(Elaeis guineensis)中的EgHOX1(II亚族),该基因参与早期体胚的形成,并且影响了形成层发育中胚性能力的获得[16]。番茄中的13条HD-Zip IV基因在新叶和花朵中高度表达,对不同的植物激素和非生物胁迫具有应答作用[17]。【本研究切入点】目前,该家族基因已经在拟南芥[1]、葡萄[18]、玉米[19]等多个物种中被鉴定,并发现其发生不同程度的功能分化。辣椒的全基因组测序在两个品种‘CM334’及‘遵辣1号’中已完成[20-21],为研究相关基因的功能及关系奠定了坚实的基础。虽然该家族在‘CM334’基因组中进行了初步分析[22],但进化及表达数据分析较少,并未进行深入研究和比较分析。【拟解决的关键问题】本研究利用生物信息学手段鉴定辣椒HD-Zip基因家族,并系统分析其在基因组中的分布、基因结构、进化分化特征及在不同组织中的时空表达特异性,为阐明辣椒HD-Zip基因家族分化历程及生物学功能奠定基础。
试验于2018—2019年在淮阴工学院园艺作物系统生物学实验室进行。
本研究主要基于我国辣椒测序品种‘遵辣1号(Zunla-1)’进行系统分析,同时利用墨西哥地方品种‘CM334’进行比较分析。研究中使用的辣椒基因组数据分别从辣椒基因组网站(Pepper Genome Database2.0,http://peppersequence.genomics.cn/page/species/index.jsp)及PGP(Pepper genome platform,http://peppergenome.snu.ac.kr/)下载获得。
参照前人报道[1]及PlantTFDB(Plant Transcription Factor Database http://planttfdb.cbi.pku.edu.cn/)确定拟南芥HD-Zip基因家族成员。随后,将其作为诱饵利用本地BLAST工具在辣椒基因组中进行比对(参数为E<1e-10,Identity>40%),获得与拟南芥同源性高的HD-Zip序列信息,并利用Pfam(http://pfam.sanger.ac.uk/search)及SMART(http://smart.emblheidelberg.de/)进行验证分析,删除缺失结构域的序列,最终获得辣椒HD-Zip基因家族候选基因。
辣椒HD-Zip家族成员蛋白分子量和等电点利用在线工具EMBOSS Programs(https://www.ebi.ac.uk/Tools/emboss/)进行分析鉴定。
利用CLUSTALW将拟南芥及辣椒HD-Zip氨基酸序列进行多序列比对分析[23]。并通过邻接法(Neighbour-Joining,NJ)在MEGA 6.0中构建系统进化树,自展值(Bootstrap)设定为1 000。HD-Zip基因的核苷酸差异同样应用MEGA6.0进行计算[24]。
HD-Zip的外显子和内含子位置信息参考辣椒基因组注释信息GFF文件,之后应用本地perl语言提取位置信息转变为GSDS(Gene Structure Display Server;http://gsds.cbi.pku.edu.cn)可读bed文件。应用在线工具GSDS进行HD-Zip结构的绘制。
应用MEME 4.9.0预测分析HD-Zip蛋白序列的结构域,搜寻motif值设置为16,结构域宽度设定为最小10、最大100,其他设定为默认参数。通过TBbool软件绘制出MEME结构[25]。HD及LZ结构域通过SMART(http://smart.embl-heidelberg.de)数据库分析确定。
应用本地perl语言在辣椒基因组注释信息GFF文件中提取位置信息并构建辣椒染色体定位图。HD-Zip在辣椒基因组中的复制类型根据MCScanX下游程序duplicate_gene_classifier获得[26],并标注在染色体上。
辣椒、番茄和拟南芥HD-Zip的直系与旁系同源关系通过OrthoMCL(http://orthomcl.org/orthomcl/)软件进行鉴别,HD-Zip在3个基因组中的直系与旁系之间的关系图用Circos(http://circos.ca/)软件绘制。
通过GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)获得‘遵辣1号’材料不同时期的转录组(GSE45037)注释文件[21],运用R软件绘制辣椒HD-Zip基因家族的表达热图。
辣椒HD-Zip在不同组织之间的表达关系皮尔森相关系数(Pearson’s correlation coefficient,PCC)通过本地perl语言进行计算,显著相关共表达基因对的网络显示利用Cytoscape 3.1进行构建。
利用生物信息学方法并经过后续的筛选验证,从辣椒‘遵辣1号’全基因组中共鉴定到42个HD-Zip家族成员,根据染色体顺序依次命名为CaHDZ01—CaHDZ42,其中基因CaHDZ42并没有锚定在染色体(表1)。
辣椒中HD-Zip家族基因长度介于459 bp(CaHDZ38)和2 529 bp(CaHDZ03)之间;分子量从最小18.09 kD(CaHDZ38)到最大93.61 kD(CaHDZ03)不等;等电点介于4.20(CaHDZ40)至9.36(CaHDZ08)之间。因此,HD-Zip基因家族的基因长度跨度很大,且与分子量具有相关性,而pI主要取决于氨基酸中酸性氨基酸和碱性氨基酸的数量比,大多数CaHDZ蛋白(70%)的pI小于7.0,证明其可能是一类酸性蛋白(表1)。
基因序列若高度同源,则可能具有相似的功能。在拟南芥HD-Zip与辣椒的HD-Zip基因家族成员对比结果中可知,大多数辣椒HD-Zip与拟南芥具有高度同源性(E-value=0,表1),为指导辣椒HD-Zip基因家族的生物学功能研究提供了参考。
图1 辣椒、拟南芥HD-Zip基因家族系统进化树Fig.1 The unrooted phylogenetic tree of HD-Zip gene family between pepper and Arabidopsis
为进一步了解辣椒HD-Zip基因家族和拟南芥之间的同源关系,构建了辣椒、拟南芥HD-Zip基因家族系统进化树(图1)。由图可知,与拟南芥一样,辣椒HD-Zip基因家族可分为4个亚族(为I、II、III和IV)。在辣椒基因组中这4个亚族分别含有18、9、5、10个HD-Zip,I、II、III亚族数目与拟南芥中类似,其中III亚族基因个数一致,证明这3个亚族HD-Zip并没有在辣椒基因组中大范围变化,而辣椒中IV组基因明显比在拟南芥中减少,可能是在辣椒全基因组复制过程中丢失较多(图1)。
从图2可以看出辣椒HD-Zip基因家族中4个亚族的基因结构有显著差别。整体看来,I、II亚族的基因编码序列较III和IV亚族结构简单,I亚族外显子数目最少,均为2—3个,II亚族为3—4个,而III、IV亚族成员外显子数目多在10个以上(图2-B)。大多数进化树节支点的基因具有类似的外显子结构,但从基因全长来看,相似的CDS长度却有不同的基因全长,说明内含子长度具有较大的差异性。
同时,对辣椒HD-Zip基因家族进行了蛋白保守结构域分析,共鉴定获得16个保守基序(Motif),将这些Motif进行了注释。Motif 1和2对应HD,Motif 3对应LZ。结果表明,辣椒HD-Zip成员均含有HD和Zip结构域,但部分成员的HD结构域并不完整,如第I亚族中CaHDZ15和III亚族CaHDZ39缺失了部分HD结构域(Motif 2)。此外,IV亚族HD结构域中多了Motif 7(图2-C)。从4个亚族的结构来看,与前人一致,I亚族只包含HD和Zip两个结构域;II亚族除CaHDZ38外,motif多集中于序列后半段;III亚族和IV亚族含有另外的结构域,但它们之间并不完全保守(图2-C)。
图2 辣椒HD-Zip基因家族成员的结构特征Fig.2 An analytical view of HD-Zip family in pepper
依据辣椒CaHDZ染色体位置信息,除CaHDZ42外,剩下41条基因不均匀地分布在12条染色体上(图3)。其中1号、2号、3号染色体上分布的基因较多,分别有6条、9条和7条。2号染色体上的基因大多分布在其下端,3号染色体的基因大多分布在其上端,8号和9号染色体上最少,均只分布有1条HD-Zip家族基因,其余染色体在2—4条。通过4个亚族基因在染色体上分布情况比较,发现I亚族基因主要集中在2号和3号染色体上,其余亚族成员不均等分布在染色体上。部分染色体仅有单个亚族的成员,比如4号、5号和9号仅有I亚族基因,8号染色体仅有III亚族基因,推测在辣椒三倍化快速扩增过程中并未均等的发生片段复制,或者复制后HD-Zip丢失较多。
此外,通过MCScanX及下游程序对所有基因进行共线性和复制基因分析,结果表明,CaHDZ01/CaHDZ20、CaHDZ12/CaHDZ24、CaHDZ26/CaHDZ40、CaHDZ10/CaHDZ27都发生了片段复制。片段复制使得基因数目增多,特别是I亚组基因数目的增加。
图3 HD-Zip在辣椒染色体上的位置Fig.3 The chromosome location of the HD-Zip genes in pepper
在对辣椒、番茄和拟南芥3个物种内部直、旁系同源基因的对比研究中(图4),发现在3个物种中直系同源基因对都很多,这可能是由于HD-Zip序列极度保守和相似。在表1中,辣椒和拟南芥HD-Zip的比对结果也表明大部分基因对的E值都很小,甚至为0,证明这类基因极保守,特别是第III亚组基因。此外,通过比较3个物种中的直系同源基因对数目,发现直系同源基因对大体相同,但辣椒和番茄之间的稍多于其他组,表明辣椒与番茄两物种间的基因相似度高,有较高的保守性。这也与辣椒和番茄的亲缘关系相一致,一般亲缘关系越近,两物种间的同源基因对就越多。而旁系同源基因的鉴定结果则表明,拟南芥中要明显多于番茄和辣椒,辣椒中最少,说明辣椒基因组的倍增事件并没有导致HD-Zip的明显扩增,或者是基因组复制后基因丢失较多。
图4 拟南芥、番茄和辣椒的直系及旁系同源HD-Zip的分布Fig.4 Circle plots of paralogous and orthologous HD-Zip pairs between Arabidopsis thaliana, Solanum lycopersicum and Capsicum annuum
为进一步明确HD-Zip基因家族进化特征,分别选取无油樟(Amborella trichopoda)、水稻(Oryza sativa)[19]、玉米(Zea mays)[19]、番茄(Solanum lycopersicum)[17]、马铃薯(Solanum tuberosum)[27]、辣椒‘CM334’、辣椒‘Zunla-1’、毛果杨(Populus trichocarpa)[28]、葡萄(Vitis vinifera)[18]以及拟南芥[1]9个代表物种进行分析(表2、图5)。与孑遗植物无油樟相比,HD-Zip在其余8种植物中具有不同程度的倍增(表2),证明其在不同的进化过程中被不均等的复制保留下来。系统进化树分析表明,包含无油樟在内这9个物种的HD-Zip序列不均等的分布在4个亚族中,说明从被子植物开始,HD-Zip基因家族就稳定存在4个亚族。在这9个物种中,I亚族含有最多的数目,而III数目最少(图5-A),证明在被子植物全基因组复制过程中I亚族复制保留的基因最多,而III亚族基因没有发生复制或复制后丢失。这也侧面证明III亚族基因可能相对比较保守。
表2 HD-Zip在不同物种中数目情况统计Table 2 Numbers of HD-Zip genes in different species
图5 HD-Zip基因家族4个亚族之间的关系Fig.5 Phylogenetic relationship of HD-Zip gene family and characteristic of the four groups
通过系统进化树来看,I和II亚族具有较近的亲缘关系,而III和IV亚族亲缘关系较近(图5-A)。为研究这4个亚族基因之间的亲缘关系,分别鉴定了它们之间的核苷酸差异。从图5-B中可以看出,III亚族基因内部的核苷酸差异最小,证明该亚族基因非常保守,与前期结果一致。I亚族基因的平均核苷酸差异最大,但与II和IV亚族并未有明显差异。II和IV亚族基因内部的核苷酸差异则更加分散,证明II和IV亚族基因发生了明显的分化。从不同亚族之间的差异来看,I和II亚族基因之间核苷酸差异最小,表明I和II亚族亲缘关系最近,其次是III和IV亚族。根据结果可以推测最先存在的HD-Zip基因家族可分为两组,其中一组分化成I和II亚族,而另一组则分化成为III和IV亚族。
对42个辣椒HD-Zip在根、茎、叶、花芽、花和果实不同发育时期的表达模式进行分析。结果显示,该家族基因的4个亚族具有不同程度的表达趋势,其中I亚族中的基因在辣椒不同组织中的表达量相对较高,且亚族内部呈现出不同的表达模式,近一半基因在辣椒不同组织及果实发育前期均具有较高的表达量,证明这部分基因对辣椒的生长发育,特别是果实成熟前期具有重要的作用(图6)。其中,CaHDZ22在茎中的表达程度最强,表明该基因可能对辣椒茎的生长有重要作用(图6)。较I亚族相比,II、III和IV亚族基因在不同组织中的表达量相对较低,但部分基因在特定组织中具有较大的表达量,例如CaHDZ13在根、茎、芽、叶、花和果实成熟前期具有较高的表达量,CaHDZ34在辣椒果实成熟后期具有较大的表达量,CaHDZ02和CaHDZ28在果实刚刚膨大时具有较高的表达量,CaHDZ04在果实成熟前期具有较大的表达量,证实这些基因在辣椒的特定时期均具有重要的作用(图6)。此外,CaHDZ09、CaHDZ42和CaHDZ41这3个基因在根、茎、芽、叶、花和果实成熟过程中均不表达。
此外,I亚族中大多数基因在根、茎、芽、叶和花中的表达程度相差不多。为了更好地了解辣椒HD-Zip及其同源基因之间的表达差异,通过筛选皮尔森相关系数(PCC,P<0.05)显著共表达基因对,构建了辣椒HD-Zip表达网络(图7)。该网络包含35个节点(基因)和87个边(调控关系),有33对基因表达趋势PCC大于0.8,6对大于0.9,CaHDZ14/CaHDZ22及CaHDZ07/CaHDZ02之间的PCC达到0.96。虽然在不同组织中表达有强有弱,但具有明显共表达趋势。除了正向协同,另外有9对CaHDZ之间为负调控关系。以上结果表明HD-Zip在调控植物生长发育过程中起到了重要的协同作用,并且不同亚族之间也具有一定的协同性(图7)。
图7 辣椒HD-Zip共表达网络Fig.7 Co-expression network of HD-Zip genes in pepper
植物转录因子通过其特有结构域与DNA及其他蛋白或转录因子间的相互作用,激活或抑制基因的表达来调控植物正常的生理过程或应激反应[3]。HD-Zip蛋白是植物界所特有的一类转录因子,包含4个亚族,而不同亚族的结构域差异又决定了其功能的多样性[1]。随着分子生物学技术的发展,模式植物拟南芥中的HD-Zip家族成员功能均已被解析,证实不同亚族间确实存在多样性的功能[1,4,8,12]。但在进化过程中,随着不同物种经历的不同复制选择事件,同源基因发生不同程度的分化,常见的是产生次功能(Subfunctionalization)、产生新功能(Neofunctionalization)和丢失复制基因或功能冗余这3种类型[29]。HD-Zip基因家族目前已经在多个植物中被详细鉴定,包括拟南芥[1]、玉米[19]、葡萄[18]、毛果杨[28]等。研究结果表明该家族成员具有较高的系统发育相似性,但是在不同物种中表现出不同的时空表达模式,并具有明显的组织差异性表达,对植物生长发育的调控也存在功能分化和冗余的现象。此外,尽管感知同样的环境胁迫因子,但是不同成员在同样的环境胁迫下的调控方式并不相同[1,30]。
辣椒基因组经历了快速三倍化扩增[20-21],给研究重要基因复制分化提供了很好的基础。本研究从我国自主选育的辣椒‘遵辣1号’基因组中鉴定获得42条HD-Zip,在‘CM334’中鉴定得到45条HD-Zip,经过FGENESH对基因序列进行手动矫正和重新注释,最终确定以‘遵辣1号’基因组为主要研究对象。42条HD-Zip中除了1条没有被锚定在染色体上,剩下41条不均等地分布在辣椒12条染色体上。通过共线性分析,发现片段复制是CaHDZ基因家族扩增的主要原因,这和马铃薯、拟南芥一致[1,27]。CaHDZ基因家族4个亚族成员的数目并不均等,I亚族最多且主要集中在2号染色体上,III亚族最少,这和拟南芥中的类似[1]。辣椒中IV亚族发生了丢失,但在拟南芥中,IV亚族保留的较多。同时,I亚族发生片段复制的基因数量最多,这可能是I亚族基因数目最多的原因。III亚族基因相对比较稳定,并未发生复制事件或复制后丢失。在所选的9个代表物种中,同样发现I亚族扩增最为明显。特别是在茄科植物中,I亚族基因数目占比达到40%以上。IV亚族基因在被子植物中也发生了比较明显的扩增,但在‘遵辣1号’中该亚族基因数目占比只有24%,发生了明显的丢失。III亚族在多个物种中均只有5条基因,相对比较保守。核苷酸差异分析结果表明III亚族基因内部的核苷酸差异确实最小,证明在物种进化过程中III亚族基因的选择压力比较小,因此基因也比较保守;而剩下3个亚族核苷酸差异较大,特别是I亚族,且差异比较分散。可以推测在进化过程中这3个亚族的基因,具有较大的选择压力,更容易进化出新的功能[29,31]。通过不同亚族之间的差异来看,I和II亚族亲缘关系最近,其次是III和IV亚族。由此推测I和II亚族、III和IV亚族可能分别从相同的祖先分化而来,或者IV亚族是从III亚族分化而来。
基因结构是研究基因功能和进化的重要依据,本研究详细分析了辣椒HD-Zip基因家族的结构特征和保守结构域。辣椒HD-Zip同一亚族的基因,其结构相似。从外显子数目来看,I亚族最少,III亚族最多,这和玉米[19]、毛果杨[28]等一致。III和IV亚族基因长度显著长于I和II组,证明其有更加复杂的结构特征,保守结构域分析也印证了这一点。I和II亚族基因的保守结构域基本只包含了特有的HD和Zip结构域,而III和IV保守基序更加复杂。III亚族中还包含START、SAD和MEKHLA结构域,而IV亚族则包含START和SAD结构域[1,8,12],这与前人研究一致[1,6,13]。此外,III和IV亚族中的START和SAD结构域在两组间并不完全保守,而在亚族内部很保守,可能在功能上也具有不同的表达模式。
辣椒HD-Zip存在明显的组织差异性表达,I亚族差异最为明显,而III亚族差异最小。这也证实了上面的推测,I亚族确实发生了明显的功能分化,在不同物种中可能参与更多的代谢与发育过程[4]。I亚族基因在黄瓜中可以响应多种环境信号[32],烟草NaHD20可以调控花的发育[33],蒺藜苜蓿中HB1在一定条件下可诱导其在初生根和侧根中表达[34]。在辣椒中,发现I亚族基因在茎中表达的基因最多,且表达量最大,特别是CaHZD22在茎中具有最高的表达,证明该类基因对辣椒茎的发育起到重要作用。此外,CaHZD18在根中表达量最大,CaHZD12和CaHZD22在花中表达量最大,CaHZD12和CaHZD07在果实成熟前期表达量最大,CaHZD18和CaHZD20在果实成熟后期有较大表达量,证明该亚族基因对辣椒的形态建成和果实发育具有重要的作用。虽然辣椒I亚族发生了明显的功能分化,但和拟南芥直系同源相比,仍具有一定的功能相似性,ATHB1、ATHB3、ATHB16和ATHB20[4-5,35-36]参与叶片生长发育过程,CaHZD15、14和40在叶片中具有较高的表达量,可能参与了叶发育过程。辣椒中III亚族基因变化趋势并不显著,说明在不同组织发育和果实发育过程中功能分化并不明显。通过和拟南芥中同源基因相比也具有一定的相似性,拟南芥该组基因主要在植物发育过程和维管发育中起作用[8],辣椒中该基因也在植物组织中特别是茎中具有高表达。另外,辣椒的II和IV亚族基因也发生了不同程度分化,虽然HD-Zip在辣椒中发生了明显的表达分歧,但其仍有一定的共表达趋势,证明其在调控植物生长发育过程中起到了重要的协同作用。此外,为维护植物的正常生长发育,同一家族基因会存在一些抑制性表达调控。
本研究在辣椒中共鉴定到42条HD-Zip,根据进化关系和结构特征分为4个亚族,不同亚族的基因结构、蛋白保守结构域及表达模式不同;CaHZD不均等地分布在12条染色体上,并有多个基因发生了片段复制;在进化历程中,CaHZD保守性高,数目没有明显倍增,III亚族最为保守,I和II亚族、III和IV亚族亲缘关系更近;CaHZD具有明显的组织差异性表达,协同调控了辣椒的生长发育。