雷蒙德氏棉MAPKKK基因家族全基因组筛选及其同源基因在陆地棉中表达分析

2019-11-28 00:50许好标李黎贝张驰冯震喻树迅
棉花学报 2019年6期
关键词:雷蒙德拟南芥染色体

许好标,李黎贝,张驰,冯震,喻树迅,*

(1.浙江农林大学/ 省部共建亚热带森林培育国家重点实验室,杭州311300;2.中国农业科学院棉花研究所/ 棉花生物学国家重点实验室,河南安阳455000)

MAPK 级联途径由丝裂原活化蛋白激酶(Mitogen-activated protein kinase,MAPK)、 丝裂原活化蛋白质激酶激酶(MAPK kinase,MAPKK)和丝裂原活化蛋白质激酶激酶激酶(MAPKK kinase,MAPKKK)三级激酶级联组成,现已发现广泛存在于真核生物包括酵母、哺乳动物、人类及植物中[1-2]。在真核生物(酵母、动物和植物)典型的MAPK 信号转导级联途径中,上游激活的MAPKKK 磷酸化MAPKK 将其激活,再由MAPKK 磷酸化 MAPK 将其激活,激活的 MAPK 与转录因子或其他信号转导元件相互作用,调控下游基因的表达[3-4]。在植物中,MAPK 级联途径与生物及非生物胁迫反应、激素反应、细胞分化和发育过程相关[5-8]。目前通过对基因组数据的分析,在拟南芥(Arabidopsis thalianaL.)中已鉴定出2 个MAPK、10 个MAPKK和 80 个MAPKKK基因; 水稻 (Oryza sativaL.) 中鉴定出 17 个MAPK、8 个MAPKK和 75 个MAPKKK基因[9-10];雷蒙德氏棉 (Gossypium raimondiiL.) 中鉴定出78 个MAPKKK基因[11]。研究表明,MAPKKK基因较多,在植物中通过序列比对和进化分析可以把MAPKKK基因分为 3 类,包括Raf亚家族、ZIK亚家族和MEKK亚家族[9,12]。许多研究表明,MAPKKK基因在植物信号转导通路中起很重要的调控作用,例如拟南芥Raf亚家族的组成型三重反应因子-1 基因(Constitutive-triple response1 gene,CTR1) 在乙烯信号转导途径中发挥重要的负调控作用[13],而棉花纤维的伸长与乙烯有紧密的联系[14]。Yin 等[11]对雷蒙德氏棉MAPKKK基因在纤维起始期和成熟叶片中的表达模式进行分析,发现在不同组织中表达量存在明显的差异,其中雷蒙德氏棉3 个CTR1 的同源基因在开花后 3 d(3 days post anthesis,3 DPA)的胚珠中的表达量明显高于0 DPA 的胚珠,表明这3 个基因可能涉及棉花纤维细胞伸长机制。与CTR1 相似的抗病性增强基因1 (Enhanced disease resistance1 gene,EDR1) 可以负调控水杨酸诱导的防御反应[15-16]。在水稻中Raf亚家族的干旱超敏基因1(Drought-hypersensitive mutant 1 gene,DSM1)可以通过清除活性氧来调节水稻的耐旱性[17]。在玉米(Zea maysL.)中过表达烟草蛋白激酶1 基因(Nicotiana protein kinase1 gene,NPK1)可以增强植株的耐旱性[18]。通过病毒诱导基因沉默(Virus induced gene silencing,VIGS) 技术,获得转GhRaf19 基因棉花植株,发现其对干旱和盐胁迫的耐受性增强[19]。在拟南芥中,Ichimura 等[20]和Hadiarto 等[21]证明AtMEKK1 基因的产物能够传递干旱和机械损伤信号。在干旱胁迫下,葡萄(Vitis viniferaL.)VvMEKK基因均上调表达,表明葡萄VvMEKK基因积极响应干旱胁迫[22]。大豆(Glycine max(Linn.) Merr.) 根 中GmMEKK基因受低磷和干旱胁迫后上调表达[23]。ZIK 也被称作WNK(With no lysine),在进化关系上与其他2个亚家族较远。拟南芥WNK1 基因参与昼夜节律的调控,WNK2/8 基因可以调控开花时间[24]。水稻OsWNK1 基因在应对非生物胁迫中有重要作用,而且和昼夜节律有关[25]。目前这些MAPKKK基因功能的研究大多局限于拟南芥、水稻、玉米等植物。

陆地棉(G.hirsutumL.,AADD)是种植面积及经济价值最大的棉花栽培种。雷蒙德氏棉被认为是陆地棉D 染色体组的供体种,其基因组序列已公布[26-27]。基因组序列的公布,使得利用生物信息学手段大规模分析棉花基因功能成为可能,目前仅有几个有关棉花MAPK和MAPKK基因的报道[9,28-32],而全基因组水平上研究棉花MAPKKK基因报道较少。Yin 等[11]利用 Wang 等[26]发表的雷蒙德氏棉基因组数据库,发掘了78 个MAPKKK家族基因。本研究在此基础上,利用Paterson 等[27]发表的雷蒙德氏棉基因组数据库,分析鉴定MAPKKK基因家族的全部成员,从基因组水平上分析这些MAPKKK基因的进化关系、 结构特征、染色体分布以及表达模式;并对2 个数据库所获得发掘基因序列的结果进行比较,以期更准确地筛选出MAPKKK基因,并相互佐证2 个雷蒙德氏棉基因组数据库所获得的一些研究结果,为棉花MAPKKK家族基因及其功能研究奠定基础。

1 材料与方法

1.1 数据下载

雷蒙德氏棉(G.raimondiiL.)全基因组数据下载自http://www.phytozome.net/,拟南芥与水稻MAPKKK 氨基酸序列下载自 TAIR(http://arabidopsis.org/)、RGAP (http://rice.plantbiology.msu.edu)和 GeneBank(http://www.ncbi.nlm.nih.gov/genbank/)。陆地棉基因芯片数据源于 NCBI Gene Expression Omnibus (GEO) 平台 (http://www.ncbi.nlm.nih.gov/geo/),登录号为 GSE50770 和GSE36228。陆地棉芯片探针来自Affymetrix 基因芯片(http://www.affymetrix.com/)。

1.2 雷蒙德氏棉MAPKKK基因家族成员的鉴定

首先利用雷蒙德氏棉全基因组序列,构建本地BLAST 数据库,以拟南芥和水稻MAPKKK氨基酸序列为种子序列运行本地BLAST 搜索;所得结果利用SMART (http://smart.embl-heidelberg.de/)及 Pfam(http://pfam.sanger.ac.uk/search)工具进行蛋白结构预测[32-33],确认得到雷蒙德氏棉中 MAPKKK 蛋白家族。利用 ExPASy Proteomics Server (http://web.expasy.org/protparam)预测雷蒙德氏棉MAPKKK 蛋白氨基酸序列的基本信息,包括蛋白质的长度、相对分子质量以及等电点[34]。通过在线软件 WoLFPSORT(http://wolfpsort.org)进行亚细胞定位分析。

1.3 系统发育树的构建与蛋白质保守结构域序列比对分析

通过ClustalW[35]程序对拟南芥、水稻和雷蒙德氏棉MAPKKK 蛋白进行多序列联配比对分析,序列联配比对结果使用MEGA5(https://www.megasoftware.net)[36]程序采用邻接法(Neighbor-Joining,NJ) 生成 MAPKKK 蛋白的系统进化树,校验参数Bootstrap 重复1 000 次。采用DNAMAN生物学软件进行保守结构域序列比对。

1.4 MAPKKK基因结构及染色体定位分析

MAPKKK基因结构图利用在线工具GSDS(http://gsds.cbi.pku.edu.cn/)[37]绘制。利用 Mapchart2.2软件进行染色体定位作图。

1.5 MAPKKK基因表达特征分析

以雷蒙德氏棉MAPKKK基因对陆地棉探针序列进行BLAST 比对,选取匹配E-value 值最高的探针代表MAPKKK家族基因,利用 NCBI Gene Expression Omnibus database 基因芯片平台的GSE50770 和GSE36228 芯片数据搜索匹配探针代表MAPKKK基因的表达量,进行基因表达量分析。

2 结果与分析

2.1 雷蒙德氏棉MAPKKK基因家族成员鉴定

从雷蒙德氏棉全基因组中鉴定到114 个MAPKKK基因家族成员(表 1)。通过 SMART 及PFam 工具进行蛋白质结构分析,114 个雷蒙德氏棉MAPKKK 蛋白均含有保守的蛋白激酶结构域。通过ExPASy 工具,对雷蒙德氏棉MAPKKK基因进行了相对分子质量、等电点及亚细胞定位等生化属性分析,最长的雷蒙德氏棉MAPKKK蛋白GrRaf44 包含1 403 个氨基酸残基,最短的GrZIK1 蛋白仅有296 个氨基酸残基,它们的相对分子质量在33.82 kDa(GrZIK7)到 151.51 kDa(GrRaf44)之间,等电点分布在 4.65(GrMEKK2)到 9.43(GrRaf48)之间(表 1)。根据 WoLFPSORT预测的亚细胞定位结果 (表1),61 个MAPKKK蛋白定位到细胞核中(占到总数的53.51%),有可能参与某些基因转录的调控;定位在细胞质和叶绿体的分别有25 和21 个,分别占总数的21.93%和18.42%;定位在线粒体、细胞膜、细胞骨架、内质网中的总共有7 个,占总数的6.14%。

2.2 雷蒙德氏棉和拟南芥MAPKKK家族的进化分析、保守结构域和基因结构分析

将上述获得的114 个雷蒙德氏棉MAPKKK蛋白序列与80 个拟南芥MAPKKK 蛋白序列进行多重序列比对,构建系统进化树。参照拟南芥研究结果[9],MAPKKK 蛋白可分成 3 个亚家族,命名为 Raf、ZIK 和 MEKK。Raf 亚家族包含 113 个成员,其中雷蒙德氏棉、拟南芥分别有65 个和48个(图1A);MEKK 亚家族有 58 个成员,其中雷蒙德氏棉、拟南芥分别有37 个和21 个(图2A);ZIK 亚家族有23 个成员,其中雷蒙德氏棉、拟南芥分别有 12 个、11 个(图3A)。对雷蒙德氏棉中这3 个亚家族的MAPKKK 氨基酸序列比对分析发现,Raf 亚家族含有保守的 GTxx(W/Y)MAPE基序(图1C),组成了进化树中最大的一个分支;MEKK 亚家族含有保守的 G(T/S)Px(W/F)MAPEV基序(图2C);ZIK 亚家族含有保守的GTPEFMAPE(L/V)Y 基序(图3C),是 MAPKKK 家族中最小的亚家族。分析预测这些MAPKKK基因全长序列和编码区序列的基因结构,发现3 个亚家族内成员的基因结构存在一定的差异性,但与系统进化树的远近关系一致。Raf亚家族的成员最多,基因结构也最为复杂,外显子数目为2~18 个(图1B);MEKK亚家族大部分基因含有 8~19 个外显子,且 8 个无内含子(图 2B);ZIK亚家族的基因结构相对简单,有3 个基因含有2 个外显子,其余有6~8 个外显子(图3B)。

表1 雷蒙德氏棉中MAPKKK 基因家族信息Table 1 Characteristics of MAPKKK in Gossypium raimondii

表1 (续)Table 1 (Continued)

表1 (续)Table 1 (Continued)

表1 (续)Table 1 (Continued)

2.3 雷蒙德氏棉中MAPKKK基因的染色体定位和基因加倍分析

获取鉴定出的雷蒙德氏棉MAPKKK家族基因的染色体位置信息,绘制了染色体定位图(图4)。发现这 114 个MAPKKK家族基因分布于雷蒙德氏棉13 条染色体上。其中:9 号染色体上包含的MAPKKK基因数量最多,有16 个成员;其次是5 号染色体分布有14 个MAPKKK基因,10号染色体上MAPKKK家族基因数目最少,仅有4 个;12、13 号染色体各有 5 个MAPKKK基因;3、4 号染色体各有 7 个MAPKKK基因;1、2、11、8、7、6 号染色体分别有 6、6、9、10、12、13 个MAPKKK基因。基因加倍事件对基因家族成员的扩增起重要作用,通常判断发生基因复制事件的标准有2 点:(1) 长度的覆盖率在 80%以上;(2)蛋白序列比对相似度在 70%以上[38-40]。分析了这些雷蒙德氏棉MAPKKK基因的基因加倍关系,结果发现114 个MAPKKK基因形成了26 对(GrZIK1/11、GrRaf1/47、GrRaf57/58、GrRaf4/33、GrRaf20/21、GrRaf16/30、GrMEKK1/14、GrRaf10/35、GrRaf22/51、GrMEKK21/35、GrMEKK10/27、GrRaf50/54、GrZIK3/9、GrRaf12/38、GrMEKK8/28、GrRaf44/55、GrRaf27/32、GrMEKK3/33、GrZIK2/10、GrMEKK25/30、GrMEKK11/23、GrRaf48/59、GrRaf15/37、GrMEKK12/36、GrRaf26/42、GrRaf8/53)及 1 组(GrRaf2/56/46)同源基因对/ 组(图1A、图 2A、图3A)。其中除GrRaf20/21 外的 25 对和GrRaf2/56/46 定位在不同的染色体上,形成片段加倍,而GrRaf20/21 分布在雷蒙德氏棉5 号染色体上,形成串联重复,并且这些基因对具有相似的外显子-内含子结构,这些结果暗示加倍事件对于雷蒙德氏棉MAPKKK成员的扩增起到关键作用。

2.4 雷蒙德氏棉MAPKKK基因在棉纤维发育各时期及响应胁迫诱导的表达分析

图1 雷蒙德氏棉Raf 亚家族进化树、氨基酸序列比对及其编码基因结构分析Fig.1 Phylogenetic tree, phylogenetic relationship and gene structure of Raf subfamily genes from G.raimondii

图2 雷蒙德氏棉MEKK 家族进化树、氨基酸序列比对及其编码基因结构分析Fig.2 Phylogenetic tree, phylogenetic relationship and gene structure of MEKK subfamily genes from G.raimondii

利用 NCBI Gene Expression Omnibus(GEO)database 公布的陆地棉芯片数据,在棉花纤维发育起始期、 伸长期和次生壁加厚期不同时期(0、6、9、12、19 和 25 DPA),分析了这些MAPKKK基因的表达量(图 5A),GrZIK1、GrRaf1、GrRaf37和GrRaf62 这4 个MAPKKK基因在纤维发育过程中表达量最高,其中GrRaf1 在0 和6 DPA 表达要高于其他时期,说明其可能在纤维的起始和伸长的前期发挥某种作用,相反的是GrZIK1 在12、19 和 25 DPA 相对高表达,说明其可能在纤维伸长的后期及次生壁增厚期发挥重要作用;GrZIK3 等15 个基因表达值最弱,说明它们可能在纤维发育过程中发挥的作用较小; 其余MAPKKK基因在纤维中表达适中,并且部分具有相似的表达模式(GrZIK2、GrRaf14 和GrMEKK27),说明它们可能具有功能冗余,需要进一步研究。已有较多的研究表明MAPKKK可以响应非生物环境刺激。本研究也分析了这些雷蒙德氏棉MAPKKK基因响应不同胁迫处理的表达模式,包括碱(Alkalinity)、盐(Salinity)、干旱(Drought)及脱落酸(Abscisic acid,ABA)处理,结果显示:在碱、干旱和ABA 胁迫下,约一半的MAPKKK基因表达发生上调,其中MEKK30 和MEKK16相比于对照上调表达最显著,其余MAPKKK基因表达较低程度下调或不变,说明MAPKKK基因可以较好响应碱、 干旱和ABA 这3 种非生物胁迫,并且在调控途径中可能具有某些交集;在盐胁迫和冷胁迫下,大多数MAPKKK基因表达较低程度下调或者不变,只有少数MEKK基因(MEKK30 和MEKK7)表达较高程度上调,说明棉花MAPKKK基因响应盐胁迫和冷胁迫的程度较差。值得一提的是,MEKK30 在这5 种非生物胁迫下表达都上调,说明其可能在响应非生物环境刺激中发挥重要作用;MEKK7 在盐和冷胁迫下表达上调,碱、干旱和ABA 胁迫下表达不变,而MEKK16 和MEKK26 却恰恰相反,说明不同MAPKKK基因在响应不同非生物胁迫时有的具有相似的作用,有的具有不同的功能(图5B)。

图4 雷蒙德氏棉MAPKKK 基因在染色体上的位置Fig.4 Chromosomal distributions of MAPKKK genes in G.raimondii genome

图5 雷蒙德氏棉中MAPKKK 基因在纤维发育过程(A)和不同胁迫处理(B)的表达图谱Fig.5 Expression profiles of the G.raimondii MAPKKK genes at different stages (A)and under various abiotic stresses (B)

2.5 2个雷蒙德氏棉基因组数据库中MAPKKK基因的比较分析

Yin 等[11]利用 Wang 等[26]发表的雷蒙德氏棉基因组数据库,发掘了78 个MAPKKK家族基因(图6 中的Ⅰ+Ⅱ);本研究利用 Paterson 等[27]发布的雷蒙德氏棉基因组数据库,发掘了114 个MAPKKK家族基因(图6 中的Ⅱ+Ⅲ)。利用本地Blastp 对2 个数据库新发掘的MAPKKK基因序列进行比对,其中47 个基因序列 (图6 中的ⅠⅠ)相似度达到了100%,说明在2 个雷蒙德氏棉基因组数据库共同发掘到了47 个序列完全相同的MAPKKK基因,另外 98 个MAPKKK基因序列(图6 中的Ⅰ+Ⅲ)之间存在差异。这47 个共有MAPKKK基因分布在Raf(24 个)、ZIK(10个)和MEKK(13 个)3 个类群中(表2)。

图6 2 个雷蒙德氏棉基因组数据库中MAPKKK基因分布Fig.6 The distribution of MAPKKK genes in different databases of G.raimondii

表2 2 个雷蒙德氏棉基因组数据库中共有的MAPKKK 基因Table 2 The common MAPKKK genes in different databases of G.raimondii

3 讨论与结论

本研究通过对雷蒙德氏棉进行全基因组生物信息学分析,共鉴定出雷蒙德氏棉MAPKKK基因的3 个亚家族114 个成员。现有结果显示棉花MAPKKK家族基因数量远多于拟南芥和水稻中MAPKKK基因的数量[9,33],导致该结果的原因可能是雷蒙德氏棉基因组(750 Mbp)比水稻(389 Mbp)和拟南芥(125 Mbp)基因组庞大。MAPKKK家族基因在棉属植物中得到了扩增,而这种基因家族成员数的扩增可能使MAPKKK基因发挥更广泛的功能,同时表明雷蒙德氏棉这个家族在进化过程中存在很高的非保守性。已有研究表明,基因复制和基因分化是物种进化过程中最大的动力[41-42]。在真核生物中,基因复制会导致基因家族数目的增多,复制产生的新基因为生命体功能的分化提供基础; 复制的方式包括片段复制、串联复制和全基因组复制。且在真核生物中植物产生复制的概率是最高的[43]。片段和串联重复在MAPKKK 蛋白的多样性上起不可或缺的作用[44]。本研究发现1 对雷蒙德氏棉旁系同源基因位于同一条染色体上,起源于串联重复事件;25 对及1 组旁系同源基因位于不同染色体上,基因复制的产生可能起源于片段复制事件,说明片段复制是MAPKKK基因家族成员扩增的主要原因之一。MAPKKK基因结构复杂,同一亚族的家族成员也存在结构的差异性,例如MEKK亚族中8 个成员(GrMEKK2/7/24/30/32/34/36/37)只有 1 个外显子(无内含子),而GrMEKK29 却含有19 个外显子,说明MAPKKK家族基因结构不稳定,复制时可能发生了多种可变剪切。

基因的亲缘关系越近表明它们具有相似生物学功能的可能性越大。因此,雷蒙德氏棉MAPKKK家族中的基因成员可能与进化关系最近的拟南芥或水稻的MAPKKK基因具有相似功能。Raf亚族中的CTR1 参与乙烯生物合成及其信号转导,是乙烯反应负调控因子基因[13]。因此,进化树中与CTR1 属同一组的GrRaf28 可能参与乙烯在雷蒙德氏棉中的信号转导。Raf亚族中除了CTR1 外,EDR1 也已被证明在拟南芥受到病害和干旱胁迫时起负调节作用[15-16],而GrRaf15与GrRaf37 在进化树中与EDR1 存在最高的同源性,推测其可能在病害和干旱胁迫下发挥重要作用。本研究还通过陆地棉芯片数据分析发现,GrMEKK16 在干旱和高碱环境下高表达,而GrMEKK7 和GrMEKK30 在低温条件下高表达,推测这些基因与陆地棉抗逆相关。同样发现GrZIK1(MAPKKK2)在陆地棉 12、19 和 25 DPA高表达,显著高于 0、6 和 9 DPA 的表达量,推测该基因与棉纤维后期发育相关;而Yin 等[11]研究认为GrZIK1 (MAPKKK2) 在雷蒙德氏棉中 3 DPA 的表达量要低于0 DPA,推测同一基因在陆地棉和雷蒙德氏棉之间的调控作用不同。总之,MAPKKK基因家族在纤维发育时期均有不同程度的表达,但是一些基因呈现出相似的表达模式,表明MAPKKK基因在调控棉花纤维发育过程中发挥重要作用且可能存在功能冗余。此外,部分MAPKKK基因家族在不同非生物环境胁迫下上调表达,说明棉花MAPKKK基因可能在响应环境刺激信号途径中发挥作用,但其具体功能有待于今后进一步研究。

越来越多的研究表明MAPK 级联反应在植物发育和响应胁迫的过程中发挥重要作用[45]。本研究在雷蒙德氏棉中鉴定到114 个MAPKKK家族基因,通过对雷蒙德氏棉、拟南芥、水稻MAPKKK家族基因的进化分析,将其划分为3 个亚家族,并对每个亚家族的基因结构进行分析,发现它们编码保守的蛋白基序,并具有外显子-内含子结构,推测该3 个亚家族可能有共同的进化起源。将鉴定到的114 个MAPKKK家族基因与Yin 等[11]鉴定的 78 个MAPKKK家族基因进行序列比对,获得序列完全相同基因47 个。基因芯片数据分析表明,一些MAPKKK基因在棉花纤维发育时期差异表达,并且在响应非生物胁迫中发挥不同的功能。本研究结合现有的2 个雷蒙德氏棉基因组数据库,挖掘出了共有的47 个MAPKKK家族基因;芯片分析预测发现,其中的部分基因在棉花纤维发育或响应非生物胁迫方面具有重要调控作用,但尚有待于进一步研究。

猜你喜欢
雷蒙德拟南芥染色体
最后的断片
拟南芥栽培关键技术研究
多一条X染色体,寿命会更长
为什么男性要有一条X染色体?
雷蒙德·卡佛的短篇小说
真假三体的遗传题题型探析
能忍的人寿命长
拟南芥
口水暴露了身份
最后的断片