大豆与蒺藜苜蓿Kunitz蛋白酶抑制剂的全基因组分析

2019-07-29 02:00缑绪卓严子成陈巧灵杨雅丽周嘉裕
河南农业科学 2019年7期
关键词:基因簇蒺藜基序

缑绪卓,严子成,况 玉,曹 锐,陈巧灵,杨雅丽,周嘉裕,廖 海

(西南交通大学 生命科学与工程学院,四川 成都 610031)

Kunitz蛋白酶抑制剂(Kunitz protease inhibitor,KPI)是一类具有Kunitz结构域的功能多肽,最初在大豆中被发现。KPI的抑制中心位点能够结合靶蛋白酶,封闭靶蛋白酶的活性中心,抑制丝氨酸蛋白酶、巯基蛋白酶及天门冬氨酸蛋白酶等的活性。KPI在被子植物中广泛存在,如在大豆与蒺藜苜蓿等10余种植物[1-6]中均找到其存在的证据,但在低等植物如裸子植物与藻类中未发现KPI的存在。

KPI在植物抵抗生物及非生物胁迫中发挥了重要作用,具有抗虫、抗肿瘤、抗感染、抗病毒和抗真菌等多种生物学活性。如从大豆中分离的大豆胰蛋白酶抑制剂(Soybean trypsin inhibitor,STI)属于KPI家族成员,能够抑制棉铃虫与甜菜夜蛾等幼虫肠道的绝大部分类胰蛋白酶活性,并且诱导不同类型消化酶的过量表达,导致幼虫的取食量明显下降,营养不良,虫体质量变轻,延缓幼虫的生长发育[7-9]。大豆STI与其他抗虫物质的协同作用比其单独作用更能发挥抗虫效果,进一步阐明了KPI与一些抗虫物质之间存在着增效作用[10]。将STI基因导入烟草、芥菜等植物,获得了对鳞翅目害虫有较高抗性的转基因植株[11-13]。近期发现,将决明KPI基因转入模式植物拟南芥能够明显提高转基因植物的耐旱与耐盐能力[14]。此外,渗透胁迫会明显提高蒺藜苜蓿中KPImRNA及其编码的蛋白质含量,表明其在响应非生物胁迫过程中发挥着重要作用[15]。

大豆是世界上主栽作物之一,蒺藜苜蓿是主要的牧草,生产中二者经常受到各种虫害、病原菌与不利环境的制约[16]。大豆和蒺藜苜蓿的全基因组序列相继测序完成,并已经进行了深入注释,这为在基因组水平上研究其基因家族的特点奠定了基础[17-18]。MARTINEZ等[19]对蒺藜苜蓿、拟南芥、水稻等被子植物的KPI基因家族进行了系统进化分析,但未包括大豆KPI基因家族。本研究利用植物基因组在线数据库Phytozome及在线分析工具Pfam、SMART确定大豆与蒺藜苜蓿的KPI基因家族成员,使用生物信息学的方法进行了大豆与蒺藜苜蓿KPI基因的染色体定位分析,构建KPI基因家族的系统进化树,并分析KPI基因家族所编码蛋白质的保守序列;此外,通过对GenBank的EST(Expressed sequence tags)数据库检索,分析该家族基因成员的器官特异性及在不同胁迫条件下的表达特征,为进一步分离和克隆植物中的KPI基因奠定基础。

1 材料和方法

1.1 材料

豆科植物大豆(Glycinemax)与蒺藜苜蓿(Medicagotruncatula)的KPI核苷酸序列及其对应的氨基酸序列来源于植物基因组在线数据库Phytozome(https://phytozome.jgi.doe.gov/pz/portal.html),检索关键词设定为“Kunitz”。

1.2 方法

1.2.1 序列分析 利用Pfam(http://pfam.xfam.org/)和SMART(http://smart.embl-heidelberg.de/)在线分析工具对Phytozome中初步检索到的大豆和蒺藜苜蓿的KPI氨基酸序列进行检验,同时满足2种分析工具的序列被用于进一步分析。使用DNAman分析软件对KPI核苷酸序列进行多序列比对,为了取得最佳的比对结果,剔除与其他基因具有显著差异的序列,最终得到大豆与蒺藜苜蓿的KPI基因序列。

1.2.2KPI基因在染色体上的定位分析 通过NCBI核酸数据库(https://www.ncbi.nlm.nih.gov/nuccore/?term)获得大豆与蒺藜苜蓿KPI基因的染色体定位信息,用MapInspect软件描绘KPI基因在染色体上的具体位置,从而得到KPI基因的基因组分布情况。

1.2.3 直系同源与旁系同源基因筛选 参考BLAST方法[20]筛选直系同源与旁系同源基因。直系同源基因的筛选方法:选择大豆KPI基因家族的某一个成员(设定为A基因)在NCBI上进行BLAST,以蒺藜苜蓿为BLAST特定物种(Organism),获得A基因在蒺藜苜蓿基因组中的同源性最高基因(B);随后,将B基因进行BLAST(以大豆为BLAST特定物种),如B基因在大豆基因组的同源性最高基因为A基因,则A与B基因互为直系同源基因。旁系同源基因的筛选与直系同源基因的筛选方法类似,不同的是以相同物种作为BLAST特定物种。为了更好地明确大豆和蒺藜苜蓿中KPI基因家族的进化关系,使用MEGA 7.0分析软件构建2个基因家族的系统发育树(Statistical method设置为Neighbor-joining,Bootstrap设置为1 000,其他参数均为默认)。

1.2.4KPI基因编码蛋白质的基序预测分析 使用MEME在线分析工具(http://meme-suite.org/tools/meme)分析KPI基因编码蛋白质的结构基序(Motif)。从PDB(https://www.rcsb.org/)在线数据库中下载大豆Glyma.08G341500编码蛋白质的晶体结构(PDB编号为1avu),并用Pymol软件显示及标注保守基序。

1.2.5KPI基因表达信息分析 通过NCBI中GenBank的EST数据库(https://www.ncbi.nlm.nih.gov/nucest/?term=)获取大豆和蒺藜苜蓿不同组织及不同胁迫条件下的EST数据。通过对2种植物的KPI蛋白所对应的编码序列(CDS)进行BLASTn搜索,Database设置为EST,取联配率大于95%且E≤10-10的结果作为对应的EST序列,获得KPI基因在不同组织及不同胁迫条件下的表达信息。

2 结果与分析

2.1 大豆与蒺藜苜蓿KPI基因的鉴定结果

通过植物基因组数据库Phytozome在线检索发现,在大豆、蒺藜苜蓿中各含有50、51个候选KPI家族基因。通过Pfam与SMART检验,发现2个大豆(Glyma.01G117700和Glyma.09G092800)与5个蒺藜苜蓿(Medtr6g059790、Medtr6g065570、Medtr6g078040、Medtr6g478110和Medtr7g034210)KPI候选基因未能通过Pfam与SMART检验,因此,最终确定48个大豆KPI基因及46个蒺藜苜蓿KPI基因。

2.2 大豆与蒺藜苜蓿KPI基因的染色体定位

KPI基因的染色体定位结果(图1、2)表明,KPI基因在大豆和蒺藜苜蓿的染色体上分布并不均匀。在大豆基因组中,第2、4、5、7、10、11、13、14、17、20号染色体上没有KPI基因分布,第3、6、15、18、19号染色体中仅含有1个KPI基因,而第8、9号染色体中含有的KPI基因数量最多(均15个)。另外,大豆基因组中,还出现了9个KPI基因簇,共包括30个串联重复基因,占总KPI基因的62.5%,其中基因簇③包括11个基因(第8号染色体)。位于9号染色体上的基因簇④的相似度最高,达到了96.73%。对于基因簇的形成,普遍认为是基因复制所产生,基因簇④中的相似度大于90%,推测该基因簇是由于晚期复制形成。其他基因簇的相似度小于90%,推测在早期复制形成基因簇后发生了基因突变,导致相似度下降。在苜蓿基因组中,第1、2、3、6、7、8号染色体上分布有KPI家族基因,其中在第6号染色体上最多(27个),而Medtr0302s0030、Medtr0084s0030、Medtr0211s0080和Medtr0100s0150等4个家族基因定位在尚未完全组装的长片段(Un)上。相较大豆基因组中存在的基因簇,蒺藜苜蓿基因组中没有发现基因簇的存在。

图中基因簇以大括号标注,百分比表示各基因簇的多序列对比相似度The gene clusters are indicated by brackets in the figure,and the percentage indicates the multiple sequence alignment similarity of each gene cluster图1 大豆KPI基因的染色体定位Fig.1 Chromosome localization of the KPI genes of G.max

图2 蒺藜苜蓿KPI基因的染色体定位Fig.2 Chromosome localization of the KPI genes of M.truncatula

2.3 大豆与蒺藜苜蓿KPI基因的同源分析

采用BLAST方法对大豆和蒺藜苜蓿的KPI基因进行直系同源分析和旁系同源分析,确定大豆与蒺藜苜蓿有Glyma.08G235400和Medtr3g014820、Glyma.09G155500和Medtr6g059730等11对直系同源基因;大豆与蒺藜苜蓿各有14对旁系同源基因,如大豆的Glyma.01G095000和Glyma.08G341500,蒺藜苜蓿的Medtr0100s0150和Medtr0302s0030(表1—3)。

表1 大豆和蒺藜苜蓿的直系同源基因

表2 大豆的旁系同源基因Tab.2 Paralogous gene of G.max

表3 蒺藜苜蓿的旁系同源基因Tab.3 Paralogous gene of M.truncatula

为了进一步了解KPI基因家族各成员的进化关系,利用邻近法构建了大豆和蒺藜苜蓿KPI基因家族的系统发育树(图3)。由图3可见,KPI基因家族被分为了5个亚族,其中第Ⅱ亚族全部由蒺藜苜蓿的KPI基因组成(13个),第Ⅲ亚族全部由大豆的KPI家族基因组成(19个)。其他亚族中均包含大豆和蒺藜苜蓿2个物种来源的KPI基因成员。第Ⅱ亚族与第Ⅲ亚族中含有串联重复,表明这2个亚族基因是在大豆与蒺藜苜蓿物种分离后,按照物种特异性方式进行了复制扩张。第Ⅰ、Ⅳ、Ⅴ亚族中大豆与蒺藜苜蓿KPI家族基因聚在一起,表明这些亚族中的基因结构在大豆和蒺藜苜蓿分离之前就已经形成。

图3 大豆与蒺藜苜蓿KPI基因家族系统发育分析Fig.3 Phylogenetic analysis of G.max and M.truncatula KPI gene family

2.4 大豆与蒺藜苜蓿KPI结构基序分析

功能相同或相似的蛋白质往往具有相同的结构基序[21],因此,利用MEME在线工具对大豆和蒺藜苜蓿的KPI蛋白进行保守基序预测。设置基序数量为5~10,其中,当基序数量为5~6时基序保守性较好,数量为7~10时序列的保守性下降。由于KPI蛋白的分子质量为20 ku左右,分子质量较小,因此将基序数量设置为5,其他参数均为默认,结果见图4—5。

图4 大豆KPI蛋白保守性结构基序预测Fig.4 Conservative motif prediction of KPI protein in G.max

图5 蒺藜苜蓿KPI蛋白保守性结构基序预测Fig.5 Conservative motif prediction of KPI protein in M.truncatula

Motif 2是大豆KPI蛋白中最保守的结构基序,仅Glyma.01G116900和Glyma.19074800编码的KPI蛋白不含有该基序,该基序起始于60位氨基酸残基附近,包含高度保守的半胱氨酸、脯氨酸、亮氨酸和缬氨酸。而Motif 3是蒺藜苜蓿KPI蛋白中最保守的结构基序,仅Medtr6g078260和Medtr7g037410编码的KPI蛋白不含有该基序,该基序起始于110位氨基酸残基附近,包含半胱氨酸、色氨酸和丝氨酸。大豆与蒺藜苜蓿KPI蛋白中最保守的结构基序中均含有半胱氨酸,其高度保守说明二硫键可能在维持KPI蛋白的结构稳定性和抑制活性中发挥重要作用。大豆和蒺藜苜蓿的Motif 1分别起始于32位和25位残基附近,Motif 2分别起始于 60位和69位残基附近,这2个保守基序靠近肽链N末端并为大豆和蒺藜苜蓿两者所共有。大豆的Motif 3起始于168位残基附近,蒺藜苜蓿的Motif 3起始于110位残基附近,两者的Motif 3都靠近肽链C末端但相差较远,可用于区分大豆与蒺藜苜蓿KPI蛋白家族成员。

Glyma.08G341500编码的KPI蛋白结构呈现β三叶草形状,是Kunitz胰蛋白酶抑制剂的常见结构,对大豆Motif 1、Motif 2和Motif 3的相对位置进行分析(图6)发现,Motif 1位于肽链N末端,涉及β1-折叠与部分Loop结构,Motif 2涉及β2-与β3-折叠,以及它们之间的Loop;而Motif 3涉及β10-与β11-折叠,以及它们之间的Loop。由于3个保守基序中均含有β-折叠,推测β-折叠对于维持KPI蛋白三维结构的稳定性发挥了关键作用。另外还发现,KPI蛋白发挥抑制作用的抑制中心位于β4-与β5-折叠之间的Loop,并不处于保守基序中,表明该抑制中心在进化过程中受到了较大的选择压力,发生了较多的突变。

2.5 大豆与蒺藜苜蓿KPI基因的EST表达信息

利用KPI基因的CDS序列在GenBank中的EST数据库进行BLASTn搜索发现,大豆Glyma.18G191400、Glyma.09G163100基因,蒺藜苜蓿Medtr8g060550、Medtr7g037410、Medtr6g478110等7个基因在EST数据库中未找到能匹配的EST序列,推测它们可能是假基因。

图6 大豆KPI的三维结构

大豆与蒺藜苜蓿的KPI基因在多个部位均有表达,在根和种子中表达的KPI基因数量最多(表4),大豆在根部和种子中均有30个KPI家族基因表达,蒺藜苜蓿根部和种子中分别有39个和21个KPI家族基因表达。根与种子是植物繁殖与营养吸收的重要器官,也与植物的抗逆过程息息相关,大豆与蒺藜苜蓿的根与种子有较多KPI成员,表明KPI基因可能参与2种植物的胁迫响应过程。CHAN等[22]通过定量PCR研究KPI的表达情况,与EST分析结果具有一致性。由表5可见,干旱胁迫处理后,大豆与蒺藜苜蓿中表达的KPI基因数量明显增加,其中大豆KPI基因表达数量从18个(对照,温室培养条件)增加到29个,增长率为61.1%;蒺藜苜蓿KPI基因表达数量从6个(对照)增加到17个,增长率为183.3%。盐胁迫处理后,也同样出现KPI基因家族成员表达的数量明显增加的现象,其中大豆KPI基因表达数量从18个(对照)增加到23个,增长率为27.8%;蒺藜苜蓿KPI基因表达数量从6个(对照)增加到21个,增长率为250.0%。以上结果表明,大豆和蒺藜苜蓿的KPI基因在响应这些胁迫条件中可能发挥重要作用。

表4 大豆与蒺藜苜蓿不同部位KPI基因家族成员的表达数量Tab.4 Expression number of KPI gene family members at different positions of G.max and M.truncatula 个

表5 不同胁迫条件下大豆与蒺藜苜蓿KPI基因家族成员的表达数量Tab.5 Expression number of KPI gene family members under different stress conditions in G.max and M.truncatula 个

3 结论与讨论

Phytozome数据库由美国能源部(DOE-JGI)和综合基因组学中心在2012年联合创办,专门收录植物基因组,为植物与生物能源相关研究人员提供基因组数据的下载、查询与可视化浏览等相关服务。根据最新版本(12.0)的数据,它提供了总共93种绿色植物基因组,包括79种被子植物、11种藻类植物与3种苔藓植物的序列和注释信息,极大地促进了各种绿色植物的比较基因组学研究。Phytozome网站版本的不断更新,使得研究人员能够发现更多的基因组成员,2007年,杨泽峰等[23]利用NCBI的BLAST工具仅搜索到7个拟南芥和11个水稻的cystatin基因,而Phytozome网站12.0版本中有7个拟南芥与18个水稻的cystatin基因。与以往的比较基因组学研究主要分析水稻与拟南芥中某一基因家族特点不同,本研究在前期首先利用Phytozome数据库进行搜索,发现水稻、拟南芥中分别只有1、8个KPI基因家族成员,由于成员数量较少无法开展相关分析。而由于大豆、蒺藜苜蓿含有较多的KPI基因家族成员,分别为48、46个,且它们均是模式植物,因此可以作为开展KPI基因家族比较基因组学研究的合适材料。

大豆与蒺藜苜蓿的KPI基因家族成员在染色体上分布不均匀,这种现象在生物界较为普遍,如SCPL基因主要集中在3号染色体[24]。大豆中鉴定的KPI基因分布在10条染色体中,其中8号与9号染色体所含有的KPI基因数目、基因簇和串联重复的数目最多。基因簇是大豆KPI基因在染色体上存在的主要形式,大豆中有30个KPI基因分布在基因簇中。在本研究中,共鉴定出30个串联重复,在KPI基因中的比例为62.5%,且这些串联重复均出现于基因簇中,这一现象表明串联重复在KPI基因家族的扩展中具有重要作用,同时也是基因簇形成的主要原因。

相比于系统进化树,本研究利用BLAST方法直接鉴定直系同源基因与旁系同源基因,鉴定结果不会受进化树构建方法与备选序列的影响。鉴定结果表明,在大豆与蒺藜苜蓿有11对直系同源基因,表明大豆与蒺藜苜蓿的共同祖先物种中KPI基因已经表现出功能上的差异;大豆与蒺藜苜蓿中均鉴定出14对旁系同源基因,表明这些基因在物种分开后还单独进行了复制。

保守基序分析发现,大豆与蒺藜苜蓿有2个共有的保守基序,其中Motif 1分别起始于32位和25位残基附近,该保守基序中最保守的氨基酸残基包括1个天冬氨酸和2个甘氨酸残基;Motif 2分别起始于60位和69位残基附近,含有1个半胱氨酸、1个脯氨酸、1个亮氨酸与1个缬氨酸等保守氨基酸残基。大豆的Motif 3位于168位残基附近,蒺藜苜蓿的Motif 3位于110位残基附近,这2个保守基序相差较远,可作为区分大豆与蒺藜苜蓿KPI蛋白家族成员的一段特征性标记。3个保守基序中均涉及β-折叠,表明β-折叠是维系KPI蛋白三维结构稳定性的重要因素,这种现象在具有三叶草结构的蛋白质中较为普遍。KPI蛋白的抑制中心出现在非保守区,氨基酸序列保守性不高,这体现了不同KPI蛋白成员对靶蛋白酶的多样性抑制特点。一些危害大豆、蒺藜苜蓿的害虫如银纹夜蛾、豆天蛾、苜蓿夜蛾等鳞翅目昆虫以类胰蛋白酶作为主要的消化酶类[25]。对EST的器官分布研究表明,大豆与苜蓿的KPI基因多在根、种子、幼苗和叶中表达,以在根中表达的KPI基因成员数量最多。种子、幼苗和叶等受到鳞翅目昆虫侵害较多,在这些部位表达KPI基因有助于增强其对鳞翅目昆虫的抗性。根是植物重要的水分与营养吸收器官,对植物的抗逆能力发挥着不可替代的作用,根系越发达,植物的抗逆能力也越强[26-27],在根中存在较多KPI蛋白家族成员有助于提高植物对逆境的抗性。尽管KPI成员在花与茎等器官中分布较少,但仍然参与了这些器官的发生发育过程,ISLAM等[28]发现,三叶草中KPI2基因的表达降低影响了包括茎长度、分枝数量与叶柄长度等的一系列发育性状。BOEX-FONTVIEILLE等[29]发现,拟南芥中KPI家族成员WSCP(Water-soluble chlorophyll-binding protein)能够抑制颗粒体结构域蛋白酶(Granulin domain-containing proteases)的活性,激活细胞凋亡信号途径,参与拟南芥花发育过程的调控。这些结果表明,KPI蛋白家族成员具有多样性的生物学功能。此外,还发现一个有趣现象,相比于大豆种子,大豆子叶中KPI基因的数量出现下降,该试验结果与之前的推测相吻合,即种子萌发时,蛋白酶抑制剂的表达量逐步减少,甚至被降解,从而有利于种子萌发时对贮存蛋白质的降解利用,并且蛋白酶抑制剂的降解,能够为幼苗的生长提供氮源和碳骨架[30]。盐胁迫和干旱胁迫下大豆和蒺藜苜蓿中KPI基因家族成员数量明显增加,也进一步表明KPI蛋白可能参与植物对逆境的响应。KOMATSU等[31]也取得了类似的结果,他们发现大豆受到干旱胁迫后,不仅诱导了一些新的KPI基因表达,还增加了原有KPI基因的表达水平。

另外,本研究还发现了一些组织特异性表达的KPI基因家族成员,如Glyma.09G155800、Glyma.16G212100与Glyma.16G212200编码的KPI蛋白只在根中分布,而Glyma.09G163800编码的KPI蛋白只在幼苗中发现,它们可能参与了组织特异性的生长发育过程。KPI基因家族成员在某些组织中特异性表达的现象也曾在植物中被报道,CHRISTELLER[32]将这种现象归结于这些基因极有可能拥有组织特异性表达的启动子。

猜你喜欢
基因簇蒺藜基序
链霉菌沉默基因簇激活在天然产物生物合成中的研究进展
带TRS基序突变的新型冠状病毒威胁更大
蒺藜的本草学考证
NaV1.5钠通道C末端IQ基序的重组质粒构建及蛋白制备
芥蓝Aux/IAA家族基因生物信息学与表达分析
四氢嘧啶基因簇在假单胞菌基因组中的分布研究
又被蒺藜扎了
通过合成生物学可改造非豆科植物进行固氮(2020.8.8 iPlants)
骨肉瘤中miR-17-92基因簇作用的研究进展