林 欢 段伟科 周 怡 祝梦全 王云鹏 孙 敏 黄志楠
(淮阴工学院生命科学与食品工程学院,江苏淮安 223003)
在植物整个生命历程中,外界多种环境因素往往会影响其生长发育。为适应多变的外界环境,植物体自身形成了一套复杂的信号网络系统[1]。Ca2+是真核生物细胞信号传导过程中常见的第二信使[2]。不同的细胞外刺激会触发植物体内特定的钙信号,这些钙信号会被不同的钙传感器识别,从而激活下游级联系统[3]。目前主要有三大类钙传感器(钙离子结合蛋白),包括钙依赖蛋白激酶(calcium-dependent protein kinase,CDPK/CPK)、钙调素和类钙调素蛋白(calmodulin and calmodulin-like protein,CaMand CaML)、类钙调磷酸酶亚基B蛋白质(calcineurin Blike protein,CBL)[4]。在这些钙传感器中,CDPK是植物和一些原生生物特有的一类丝氨酸/苏氨酸蛋白激酶,因其结构特殊,不需要钙调素的参与,可直接感知、响应钙信号,在基因表达、酶代谢、离子和水分的跨膜运输、植物细胞的骨架调节、植物的气孔运动和生长发育等方面具有潜在的调节作用[5-7]。
陆生植物CDPK蛋白结构保守,往往以单肽链形式存在,通常从N端到C端包含4个功能区[8-9]:1)N端为一个包含豆蔻酰化与棕榈(十六烷)酰化位点的可变区,在不同物种,甚至相同物种的不同CDPK蛋白中,N端的结构域长度都不尽相同[10],该结构域主要与CDPK蛋白定位及体内磷酸化有关[11];2)包含ATP结合位点的丝氨酸/苏氨酸催化区,该结构域是CDPK蛋白的主要功能结构域,有效调控CDPK的活性、亚细胞定位以及与其他蛋白的互作[2,8];3)控制活性的自抑制区,通过感应钙信号来维持CDPK的活性,或者通过钙信号刺激来激活CDPK的活性[9];4)C端为包含2~4个EF手型结构区(EF-hand)基序的类钙调蛋白结构域调控区[9],该调控结构域通常含有至多4个EF-hand,每个EF-hand是由29个氨基酸构成的螺旋-环-螺旋结构,该结构有13个保守位点,可以感应钙信号并结合钙离子[12-14]。
研究表明,CDPK广泛分布于植物界[15-16]。通过全基因组测序在很多物种中鉴定出了CDPK基因,且数目众多。拟南芥基因组中有34个CDPK基因成员[5],水稻基因组中鉴定出31个CDPK基因成员[17],二倍体棉花中有41个CDPK基因[18]。在园艺作物中,也有多个物种的CDPK被鉴定,如番茄基因组中存在29个CDPK基因[19],黄瓜、葡萄中均有19个CDPK基因[20-21]。在进化过程中,自苔藓植物到被子植物,CDPK基因家族表现出了高度的结构保守性[16]。该基因家族一般可分为4个亚族,并发生不同程度的分化扩增,其中,第Ⅳ亚族的基因数目最少,同时第Ⅳ亚族也最古老[16]。虽然对园艺作物中的CDPK基因家族研究越来越广泛,但是对辣椒CDPK基因家族的系统分析还不够全面。
辣椒(Capsicumannuum)属茄科(Solanaceae)茄亚族(Solaninae Dunal)辣椒属,一年生或多年生植物,是重要的药食同源蔬菜,经济价值和社会效益极高。CDPK作为一种重要的蛋白激酶,深入研究辣椒CDPK基因,可进一步了解其对辣椒生长发育的影响,为辣椒栽培品种育种提供基因资源和理论依据。目前,我国与墨西哥分别对辣椒品种遵辣1号及CM334进行了全基因组测序[22-23]。遵辣1号是我国遵义市农业科学研究所多年系统选育的优良辣椒品种,栽培广泛。2015年,Cai等[24]基于CM334基因组鉴定获得了31条CDPK基因,初步分析其基因结构,并深入分析了部分基因的表达情况。本研究基于已公布的遵辣1号及墨西哥地方品种CM334基因组测序数据,进一步分离鉴定辣椒中的CDPK基因家族,详细比较拟南芥、番茄、辣椒遵辣1号和CM344中的CDPK的进化关系及各组基因数目的差异;同时,比较分析辣椒与模式植物拟南芥CDPK成员的基因结构、保守结构域差异及同源基因情况。最后,详细鉴定辣椒CDPK基因在辣椒的不同组织及果实发育过程中的表达情况,并根据共表达情况分析辣椒CDPK基因之间的相互作用,旨在为探索CDPK基因的分子进化机制和进一步研究辣椒CDPK的基因功能提供理论基础。
本研究主要基于我国辣椒测序品种遵辣1号进行系统分析,与墨西哥地方品种CM344进行比较分析,所用辣椒基因组数据分别从已公布的辣椒基因组网站Pepper Genome Database 2.0(http://peppersequence.genomics.cn/page/species/index.jsp)和PGP(Pepper genome platform,http://peppergenome.snu.ac.kr/)下载获得。
参照已报道的34个拟南芥CDPK蛋白序列[5],利用本地BLAST query工具在辣椒基因组数据库中进行比对(参数为E<1e-10,Identity>50),获得候选辣椒CDPK基因,随后通过Pfam(http://pfam.sanger.ac.uk/search)和SMART(http://smart.emblheidelberg.de/)对候选序列进行验证分析,筛选同时含有CDPK蛋白典型结构域丝氨酸/苏氨酸蛋白激酶区(Protein Kinase)以及EF-hand的蛋白序列,删除缺失结构域的序列。
辣椒CDPK家族蛋白分子量和等电点利用在线工具EMBOSS Programs(https://www.ebi.ac.uk/Tools/emboss/)进行分析鉴定。EF-hand结构通过在线工具PROSITE(https://prosite.expasy.org/prosite.html)进行预测鉴定。N豆蔻酰化修饰和十六烷酰化修饰通过GPS-Lipid(http://lipid.biocuckoo.org/)进行分析鉴定。
根据本地perl语言在辣椒基因组注释信息GFF文件中提取获得CaCDPK基因染色体位置信息,之后应用Tbtool构建辣椒染色体定位图[25]。利用MCScanX下游程序duplicate_gene_classifier分析辣椒CDPK基因的复制类型[26],并标注在染色体上。
利用CLUSTALW对CDPK氨基酸序列进行多序列比对分析[27],并在MEGA 6.0软件中通过邻接法(neighbour-joining,NJ)构建系统进化树,自展值(Bootstrap)设定为1 000,同时应用MEGA 6.0计算CDPK基因的核苷酸差异[28]。根据进化树及拟南芥CDPK的分组确定辣椒中CDPK基因家族的分组。
应用本地perl语言获得辣椒基因组注释信息GFF文件中CDPK基因的外显子和内含子位置信息,转变为GSDS(Gene Structure Display Server;http://gsds.cbi.pku.edu.cn ref)可读bed件,并绘制CDPK基因结构。
应用在线软件MEME 4.9.0预测分析CDPK蛋白序列结构域,搜寻motif值为16,结构域宽度设定最小为10、最大为100,其他设定为默认参数。通过TBbool软件绘制MEME结构[24]。CDPK蛋白的Protein Kinase和EF-hand结构域通过SMART(http://smart.embl-heidelberg.de)数据库分析确定。
辣椒、番茄和拟南芥的CDPK基因的直系与旁系同源关系通过 OrthoVenn2(https://orthovenn2.bioinfotoolkits.net/home)软件进行鉴别[29],并利用Circos(http://circos.ca/)软件绘制CDPK基因在3个基因组中的直系与旁系之间的关系图。
在GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)中获得辣椒遵辣1号不同时期的转录组(GSE45037)注释文件,运用R软件绘制辣椒CDPK基因家族的表达热图。筛选获得根、茎、叶、花和花芽中FPKM值大于50的基因构建Venn图。
利用本地perl语言计算辣椒CDPK基因在不同组织之间表达关系的皮尔森相关系数(pearson correlation coefficient,PCC),并利用Cytoscape 3.1构建显著相关共表达基因对网络。
利用生物信息学方法在辣椒遵辣1号基因组中鉴定获得30个CDPK基因家族成员,并依据其在辣椒染色体上的位置,命名为CaCDPK01~CaCDPK30。随后对CaCDPKs的蛋白质长度、分子量以及等电点等基本理化性质进行分析,由表1可知,在辣椒CDPK家族中,30个CDPK的基因序列长度和编码氨基酸大小各不相同,其中CaCDPK13的基因序列长度最短,只有891 bp,编码296个氨基酸残基;CaCDPK21的基因序列长度最长,为2 301 bp,编码766个氨基酸残基。CaCDPKs的分子量介于33.63~84.23 kDa之间,等电点介于4.53~9.80之间,大部分蛋白等电点小于7。
利用PROSITE工具对CDPK家族成员进行蛋白质结构分析,CDPK家族成员的类CaM结构域中的EF-hand数目不完全一致,除CaCDPK05、CaCDPK21、CaCDPK27、CaCDPK29含有3个与Ca2+结合的该结构,其余均为4个。而辣椒CDPK家族成员的N端结构域差异也很大,其中有7条CaCDPK包含豆蔻酰化位点,包含十六烷酰化位点的CaCDPK数目较多,有22条(表1)。此外,辣椒CDPK与拟南芥CDPK蛋白比对结果显示,两个物种的CDPK间E值除CaCDPK28为5E-180,其余均为0,表明CDPK序列非常保守,这为利用拟南芥的研究结果指导辣椒CDPK基因家族成员相关功能的研究提供了参考。
根据辣椒CDPK家族的染色体位置信息,绘制出其在染色体上的物理位置分布图。由图1可知,有6条CaCDPK基因没有锚定在染色体上,其余24条CaCDPK基因不均等地分布在除7号染色体之外的11条染色体上。其中,在1号和4号染色体上分布最多,均有4条;在5号、8号、9号和11号染色体上均只分布1条,其余染色体上分布2~3条不等。此外,CaCDPK10和CaCDPK23分别位于4号和12号染色体的顶端,CaCDPK18位于8号染色体末端,CaCDPK20和CaCDPK21位于10号染色体末端。共有6对CaCDPK基因发生片段复制,分别是CaCDPK01/CaCDPK22、CaCDPK03/CaCDPK23、CaCDPK05/CaCDPK13、CaCDPK06/CaCDPK12、CaCDPK14/CaCDPK24及CaCDPK17/CaCDPK19。
?
为深入探究辣椒与其他物种CDPK基因家族的同源进化关系、分组情况以及两个辣椒品种之间的差异,通过NJ法构建了遵辣1号、CM334、番茄和拟南芥CDPK基因家族的系统进化树。由图2-A可知,拟南芥、番茄、辣椒的CDPK基因家族均分为4个亚族:Ⅰ、Ⅱ、Ⅲ和Ⅳ亚族。两个辣椒基因组中的CDPK基因大多处于相同节支点下,同源性较高。个别基因,如CaCDPK17、CaCDPK19、CaCDPK25、CaCDPK28在CM334中没有对应同源基因。辣椒中部分基因与番茄CDPK关系更近,如遵辣1号中的CaCDPK27-SlCDPK19和CaCDPK25-SlCDPK6,CM334中的CA11g11120、CA04g01680 分别与SlCDPK20、SlCDPK16同源性更高。上述结果说明,该基因家族在两个辣椒品种中发生了分化。
总体来看,4个亚族的基因个数并不相同,Ⅰ亚族最多,为47个,而Ⅳ亚族最少,只有9个(图2-B)。通过分析系统进化树遗传距离,Ⅰ亚族和Ⅱ亚族具有较近的同源性,而Ⅳ亚族最远,Ⅲ亚族介于中间。
由图2-C可知,拟南芥、番茄和辣椒中CDPK基因总体数目差异不大,但在4个亚族间仍有差异。遵辣1号CDPK基因家族中有13个家族成员在Ⅰ亚族,8个在Ⅱ亚族中,7个包含在Ⅲ亚族,仅有2个家族成员在Ⅳ亚族;CM334基因组的28个CDPK家族成员在Ⅰ~Ⅳ亚族中的基因数目依次为11、10、5和2,其分布情况与辣椒遵辣1号有一定差异,除Ⅳ亚族数目相同外,均有不同程度的增减。番茄在Ⅰ~Ⅳ亚族中的基因数目依次为13、8、6和2,其家族成员分布情况与辣椒遵辣1号相似,Ⅰ亚族基因数目最多,Ⅳ亚族最少。而拟南芥CDPK基因家族成员数在亚族Ⅰ~Ⅳ中分布为10、13、8、3,Ⅱ亚族中的家族成员数多于亚族Ⅰ,但总体数目差异不大。亚族Ⅳ在四个基因组数目最保守,特别是番茄和辣椒中。
为进一步了解辣椒遵辣1号CDPK基因的结构特征,选取拟南芥的34个CDPK家族成员与其比较(图3)。辣椒和拟南芥CDPK基因的结构均比较复杂,大多数基因的内含子数目大于10,但辣椒CDPK基因的内含子长度明显大于拟南芥CDPK基因(图3-A)。具体来看,CaCDPK基因内含子数量不一,内含子数最多的是CaCDPK21,为13个,内含子数最少的是CaCDPK25,为5个;与之相对应的34个拟南芥家族成员,含内含子最多为11个,最少同样为5个。不同分组间,Ⅰ亚族基因结构差异最大,内含子最多与最少的CaCDPK都属于Ⅰ亚族;Ⅳ亚族中,CaCDPK与拟南芥的CDPK均含有11个内含子,证明Ⅳ亚族基因相对更保守。在拟南芥中,CDPK同源基因有类似的结构特征,辣椒CDPK同源基因的结构多数也类似。但部分CaCDPK同源基因发生了内含子增加等分化现象,如CaCDPK28/CaCDPK29;或者虽然结构相似,但同源基因间长度差异很大,如CaCDPK17/CaCDPK19。这表明相较于拟南芥,辣椒CDPK基因结构发生了更大程度的分化。此外,拟南芥和辣椒CDPK直系同源基因(如AT4G23650-CPK3/CaCDPK27、AT1G76040-CPK29/CaCDPK10、AT2G1500-CPK24/CaCDPK15)之间的内含子数目无较大差别,说明CDPK基因在整体进化过程中相对保守。
拟南芥和辣椒遵辣1号的CDPK蛋白序列中共鉴定获得16个Motif(Motif1~Motif16)(图3-B)。整体来看,该家族蛋白序列非常保守,大部分序列包含所有的Motif基序,两个物种也无明显差异。Ⅳ亚族中的蛋白,除了不含Motif13和Motif15,其余14个Motif都存在,证明其非常保守。Ⅲ亚族中也只有个别蛋白缺失Motif15。在两个物种的Ⅰ和Ⅱ亚族中,Motif整体分布差异较明显。拟南芥和辣椒中均有CDPK蛋白丢失部分丝氨酸/苏氨酸蛋白激酶区,且N端Motif16丢失较多。
辣椒、番茄和拟南芥三个物种中的直、旁系同源基因对比结果显示(图4),辣椒和番茄之间直系同源基因(24对)稍多于其他组(拟南芥和辣椒12对;拟南芥和番茄14对),表明辣椒与番茄之间的基因相似度更高,也表明它们之间的亲缘关系更近。而旁系同源基因的鉴定结果表明,拟南芥中的旁系同源基因(14对)明显多于番茄(10对)和辣椒(6对),辣椒中最少,表明辣椒基因组的倍增事件并未使CaCDPK基因发生明显扩增。
由图5可知,CaCDPK基因在辣椒不同组织中有明显的表达差异,如CaCDPK09、CaCDPK18、CaCDPK20、CaCDPK12在辣椒各组织中均表达,且表达量较高;CaCDPK28、CaCDPK04则在辣椒各组织表达量都很低甚至完全不表达;个别基因如CaCDPK02、CaCDPK03、CaCDPK30、CaCDPK23和CaCDPK15只在花芽和花中表达,CaCDPK07、CaCDPK14、CaCDPK13和CaCDPK26只在根、茎、叶中高表达。此外,每个亚族的表达情况也具有一定差异性,如Ⅰ亚族的基因整体表达水平低于其他亚族的,有一半的基因表达水平较低,其他亚族不表达的基因比例较低;在授粉后直到果实变色7 d,有7个基因(CaCDPK28、CaCDPK02、CaCDPK04、CaCDPK30、CaCDPK03、CaCDPK23、CaCDPK15)一直处于不完全表达状态,多数为Ⅰ亚族。Ⅳ亚族同源基因对的两条基因表达模式也发生了分化,CaCDPK12在各组织及发育时期均有表达,而CaCDPK06表达较低,在部分发育时期或组织甚至不表达。
为进一步探究辣椒CDPK基因家族在不同组织中表达分化的情况,以每千个碱基的转录每百万映射读取的碎片(fragments per hilobase million,FPKM)值大于50为筛选条件,对30个CDPK基因在根、茎、叶、花、花芽各组织中表达量进行筛选统计,并构建五个组织表达韦恩图。由图6-A可知,仅在花芽中高表达的基因有1个(CaCDPK11),在茎中的高表达基因也仅有1个(CaCDPK24),没有基因单独在根和叶中特异性表达。在花和花芽中同时高表达的基因有2个(CaCDPK23和CaCDPK15);在根、茎、叶中同时高表达的基因有5个(CaCDPK14、CaCDPK18、CaCDPK13、CaCDPK26和CaCDPK07),在茎、叶、花芽中高表达的基因有1个(CaCDPK16);在根、茎、叶、花组织中均同时表达的基因有2个(CaCDPK20和CaCDPK12),而在根、茎、叶、花芽组织中均同时表达的基因有1个(CaCDPK09);没有基因同时在根、茎、叶、花、花芽中高表达。以上结果表明,CDPK基因的表达分化具有一定的组织特异性,在不同组织器官中发挥着各自特异的作用。
为了更好地研究辣椒CDPK基因之间的相互作用,对所有基因的表达数据进行PCC统计,共有25个CDPK基因之间有着不同程度的相关性,根据基因对之间的相关性强弱划分为0.9<PCC<1.0、0.8<PCC<0.9及-0.8<PCC<-0.7,并构建共表达网络图。由图6-B可 知,CaCDPK15、CaCDPK01、CaCDPK23、CaCDPK21、CaCDPK28、CaCDPK02、CaCDPK03、CaCDPK30这8个基因之间相关性最强,PCC均达到了0.9以上。此外,CaCDPK20、CaCDPK14、CaCDPK24、CaCDPK18之间也具有很强的相关性,且除了CaCDPK20基因外其他均属于Ⅰ亚族。在25个点构成的表达网络图中,构成了3个共表达网络图,其中有15个基因对之间呈负调控。以上结果表明,CaCDPK基因之间具有相互协作,共同影响组织器官发育的作用。
在植物生长发育过程中,CDPK在钙信号转导途径中发挥着重要的作用[6]。但目前,对辣椒CDPK基因家族的系统分析还不全面。本研究在我国当地辣椒品种遵辣1号和墨西哥地方品种CM334基因组中分别发现30和28个CDPK基因,与前人鉴定的CM334CDPK基因相比[24],删除了4个缺失EF-hand结构域的基因(CA10g13810、CA00g67180、CA10g17200、CA09g10260)和 1个拼接不完整的基因(CA00g24640),并增加2个基因(CA01g23320、CA07g10190)。在CM334中,CDPK分布在9条染色体上;而在遵辣1号基因组中,CDPK分布在11条染色体上。对比两个辣椒栽培种的CDPK序列,24个同源基因对中有8对基因相似度(identity)达到100%,剩余16对平均为97.6%,非直系同源基因对间相似度平均为76.1%。此外,同源基因的表达模式也发生了明显的分歧,例如,在CM334中,有4条基因在花器官中高表达[24],而遵辣1号中只有2条。表明CDPK基因在两个不同栽培品种的基因组中既有极大的保守性又发生了部分分化,可能是在不同的环境下,不同选择压力造成的。
在孑遗植物无油樟之后的被子植物基因组均经历了不同程度的多倍化事件,部分基因在复制后被保留[30]。辣椒中CDPK基因数目明显多于无油樟(12个)[31]、黄瓜[20]和葡萄[21],与番茄(29个)数目相近[19],说明物种在进化过程中,不同的加倍事件影响了相关重要基因的保留情况,茄科植物特有的全基因组三倍化事件使辣椒的CDPK基因发生了明显的扩增。
从无油樟开始,CDPK在被子植物中就稳定分为4个亚族[16]。本研究中,辣椒的CDPK基因家族成员同样被划分为4个亚族(Ⅰ、Ⅱ、Ⅲ、Ⅳ)。同拟南芥和番茄相比,辣椒和番茄的基因成员在4个亚族中分布情况最为相似,说明它们具有较近的亲缘关系,且具有明显的直系同源关系。例如,SlCDPK6/CaCDPK25、SlCDPK19/CaCDPK27和CaCDPK19/SlCDPK25这3对直系同源基因,序列高度相似,推测成对直系同源基因在功能上也具有较好的保守性。此外,辣椒CDPK基因家族中还出现旁系同源基因对,推测在长期进化过程中,基因复制是CDPK基因家族扩展的主要原因。拟南芥中除了片段复制,串联复制(4号染色体上的CPK21/22/23/27/31)也是其扩增的原因[5]。而根据共线性分析,在辣椒全基因组复制过程中,只有片段复制是CDPK基因家族扩增的主要原因。
基因结构是研究基因进化和基因复制的重要分析依据。本研究对辣椒CDPK基因家族的结构及内含子的数量进行了详细分析。总体来看,辣椒的CDPK基因结构比较复杂,同拟南芥和其他物种一致[5,29],内含子数有5~13个不等,但基因长度明显大于拟南芥相关基因,有的基因甚至达到23 kb,主要原因是内含子长度明显大于拟南芥。前人研究发现辣椒的基因组(~3.26 Gb)远大于拟南芥(125 Mb),主要原因是辣椒基因组上存在大量转座子(transposable elements,TEs)原件[23],通过基因结构来看,内含子长度较长可能也影响了辣椒的基因组大小。
研究表明,在根、茎、叶、果实和种子等大部分器官中均发现CDPK基因的存在[16],在植物生长发育过程中,CDPK蛋白参与了碳氮代谢、调节细胞骨架、离子和水分的跨膜运输、气孔运动、花粉发育和种子形成等[7-8,32]。本研究结果表明,在辣椒的生长发育过程中,部分基因表达具有明显组织特异性,如CaCDPK15和CaCDPK03在花芽和花中有一定表达,但是在根、茎、叶中均不表达。此类情况在其他物种中也出现,如玉米中的1个CDPK基因只在花粉中表达[33];水稻spk基因只在未成熟的种子中表达[34],而同为禾本科作物的小麦,其TaCPK3在未成熟的种子中未表达[35]。AtCPK12通过负调控脱落酸(abscisic acid,ABA)信号促进了种子萌发[36],而过表达OsCDPK2会打断种子发育[37],说明不同基因在组织中的特异性表达,对植物不同组织器官的生长发育起着特殊的调控作用。此外,本研究中另一部分基因在辣椒不同组织中的表达无明显差异,如CaCDPK09、CaCDPK18、CaCDPK20、CaCDPK12这4个基因在辣椒各组织中表达量差异不大;还有一部分基因在各组织中均有表达,但表达量有明显差异,如CaCDPK14和CaCDPK26在根、茎、叶中的表达量高于花芽和花,相反,CaCDPK01和CaCDPK21在花芽和花中的表达量高于根、茎、叶。在蚕豆中也有类似情况,VfCPK1在各组织中均表达,但在叶片和下表皮中的表达量高于根、茎和叶肉[38]。根据不同组织表达量的差异,推测基因在植物不同组织中调控生长发育的作用程度可能不同。
本研究基于辣椒遵辣1号基因组及转录组,在全基因组水平上对辣椒CDPK基因家族进行系统鉴定分析。结果表明,在辣椒中共鉴定获得30个辣椒CDPK基因,分布在11条染色体上,可分为4个亚族。CDPK基因在遵辣1号和CM334两个辣椒品种中发生了分化。CaCDPKs在辣椒不同组织中差异表达,同源基因间功能发生了分化。本研究结果为进一步探索CaCDPK的基因功能和进化模式提供了一定的研究基础。