韩长志
(西南林业大学 a.林学院;b.云南省森林灾害预警与控制重点实验室,云南 昆明 650224)
禾谷炭疽菌(Colletotrichumgraminicola(Cesati) Wilson)可以侵染玉米、小麦、高粱、燕麦等禾本科植物引起炭疽病,给农业生产造成巨大的经济损失[1-2].该病菌属于半活体营养型[3],具有诸如锈菌、白粉病菌等活体营养型病菌和如灰霉菌、油菜菌核病菌等死体营养型病菌的特征.活体营养型病菌可以通过形成的吸器分泌效应分子(effector),从而抑制植物防卫反应,来获得寄主植物活体营养阶段[4].效应分子是指病原菌中那些由无毒基因所编码的蛋白,这是鉴于人们对病原菌无毒基因研究的不断深入,发现由无毒基因编码的蛋白或者被携带相应抗病基因的植物识别而表现无毒功能,或者不被未携带相应抗病基因的植物识别而表现毒性功能,故称之为效应分子[5-6].
众多病原菌全基因组测序的完成[7],为深入开展生物信息学分析以及研究相关致病基因提供了重要的数据基础.通过对一些病原卵菌、真菌的生物信息学分析,已经明确其存在着大量效应分子.卵菌中的大豆疫霉(PhytophthorasojaeKaufmann & Gerdemann)和橡树疫霉(PhytophthoraramorumWerres, De Cock & Man in’t Veld)均存在着含有350个左右的保守RXLR-dEER(R,精氨酸;X,任何氨基酸;L,亮氨酸;d,天冬氨酸;E,谷氨酸)基序(motif)的超级家族[8].真菌中的稻瘟菌(MagnaportheoryzaeB. Couch sp. nov.)中也存在162个含有LXAR(L,亮氨酸;X,任何氨基酸;A,丙氨酸;R,精氨酸)基序的效应分子[9-10],禾谷镰刀菌(FusariumgraminearumSchw.)中存在157个含有RXLR基序的效应分子[11],杨生褐盘二孢菌(Marssoninabrunneaf.sp. multigermtubi)含有106个效应分子[12].研究发现,效应分子属于分泌蛋白,RXLR基序作为寄主定位信号在P.sojae外泌蛋白进入寄主细胞的过程中起着关键作用[13],另外,明确P.sojae、P.ramorum以及寄生霜霉(Hyaloperonosporaparasitica(Pers.)Constant)所含有的效应分子处于正向选择压力条件下,其C端区域用于操纵植物的防卫反应,而N端保守区域则具有分泌和定位于寄主体内等功能[14].就效应分子所具有的功能而言,其在病菌侵染过程中发挥着重要的作用[15],已经明确植物病原卵菌RxLR效应分子功能还具有多样性、冗余性等特点,即具有抑制Bax诱导的细胞死亡(Bax Trigged Progress Cell Death, BT-PCD)功能、抑制病原菌相关分子模式引发的免疫反应(PAMP Trigged Immunity, PTI)、效应分子引发的免疫反应(Effector Trigged Immunity, ETI)功能、诱导细胞死亡等功能[16].此外,已经明确P.sojae利用众多RXLR效应分子的程式化转录和功能互补,通过协同作用来协同操纵植物防卫反应的PTI和ETI两个层面[17-18],因此,这些植物病原卵菌存在的众多效应分子处于快速“诞生和死亡”的变化中[19],从而更好地操控对寄主植物的侵染,以利于其完成侵染、定殖和扩展等过程.与植物病原卵菌RXLR效应分子相似,植物病原真菌LXAR效应分子也具有抑制Bax诱导的细胞死亡和诱导细胞死亡等功能[10].尽管在植物病原卵菌、真菌中存在的效应分子数量、motif等不尽相同,但是已证明存在于P.sojae、疟原虫以及亚麻锈菌中的效应分子均可以通过与磷脂酰肌醇结合而介导病原菌进入寄主细胞[20],从而发挥操控寄主植物防卫反应的作用.
随着禾谷炭疽菌全基因组序列的释放,对其进行基因组及转录组的分析,基于所预测的胞外蛋白与炭疽菌属其他任何蛋白没有同源性而推测出其含有177个候选效应分子(Candidate effector, CE),其中85个为该菌所特有,其他则为炭疽菌属特有[21].目前,对于这些CE的准确性尚不清楚,本研究以禾谷炭疽菌中所含的177个CE氨基酸序列为基础数据,结合其他病原菌中已报道效应分子所具有的特征(①氨基酸序列长度为50~300 aa;②含有信号肽;③不含跨膜区域;④富含半胱氨酸;⑤具有高度序列特异性.)[12,14],对上述CE进行评测,并通过生物信息学软件及在线分析网站对其保守结构域进行分析.
利用炭疽菌属蛋白质数据库(http://www.broadinstitute.org/annotation/genome/colletotrichum_group/Multi Home.html)数据获取禾谷炭疽菌的全蛋白质数据.
选择前期已报道的177个CE的氨基酸序列作为后续研究的基础数据,其ID为,GLRG_00026、00039、00085、00249、00416、00784、00841、00850、00965、01009、01031、01037、01041、01042、01190、01602、01698、01722、01735、01793、01794、01852、01863、02113、02456、02464、02892、03021、03429、03437、03571、03573、03575、03626、03688、03869、04013、04558、04707、04750、04830、04877、04945、05522、05597、05701、05703、06052、06086、06187、06222、06509、06513、06527、06559、06726、06820、06861、06871、07140、07158、07239、07504、07580、07719、07736、07776、08117、08189、08235、08359、08553、08566、08592、08861、09086、09111、09313、09337、09545、09609、09801、09902、09910、10010、10126、10232、10269、10505、10719、10742、10803、10917、10977、11015、11092、11207、11223、11273、11645、11659、11781、11848、11923、11926、11948、11964、11965、11979、11993、00783、00911、01043、01189、01867、02539、02641、02757、04505、04799、05598、05950、06311、07383、08163、08177、08374、08901、08991、09582、09685、09780、09822、10738、11446、11682、00111、00192、01617、01684、01848、01884、02111、02282、02390、03416、03457、04199、04442、04552、04705、04995、05085、05496、05525、05951、06081、06996、07105、07347、07523、07720、08273、08507、09500、09534、09576、09740、10474、11219、11227、11228、11231、11234、11257、11671、11743.
1.2.1 基本特征
根据前期已经报道的效应分子所具有的特征①④情况,首先,对禾谷炭疽菌中177个CE所含氨基酸的数量情况进行分类,同时,获得不同CE所具有的半胱氨酸(Cystine, cys)的含量情况,筛选用于后续研究的效应分子.
1.2.2 信号肽预测分析
根据效应分子所具有的特征②情况,对禾谷炭疽菌中177个CE进行信号肽(signal peptide)预测,即利用SignalP 3.0 Server[27]在线分析实现(http://www.cbs.dtu.dk/services/SignalP-3.0/),以期对CE的准确性进行评价.在线预测信号肽使用神经网络方法(Neural Networks, NN)和隐马可夫模型(Hidden Markov Models, HMM)进行操作,而两种算法所得结果有所差别.
1.2.3 跨膜区结构预测分析
根据效应分子所具有的特征③情况,对禾谷炭疽菌中177个CE进行跨膜区结构预测,利用TMHMM Server v. 2.0实现(http://www.cbs.dtu.dk/services/TMHMM-2.0/)[27].
1.2.4 效应分子保守结构域分析
利用SMART website (http://smart.embl-heidelberg.de/)在线对禾谷炭疽菌中效应分子进行结构预测.
禾谷炭疽菌中177个CE所含有的氨基酸数量不尽相同,范围在51~1 135之间,按照50个氨基酸作为分类单元进行分类,结果显示,大部分CE所含氨基酸数量在51~200之间,所占比例为67.80%,其中以含有51~100氨基酸的CE居多,所占比例为24.86%,其次为含有101~150氨基酸的CE,所占比例为23.73%,见图1.氨基酸数量在201~300之间的CE,所占比例为18.64%,上述含有从51到300氨基酸数量的CE为153个,所占比例为86.44%.
图1 禾谷炭疽菌CE所含氨基酸数量分布情况Fig.1 The distribution of CE in C. graminicola based on the number of amino acids
对177个CE进行Cys残基含量情况进行统计,结果显示,30个CE不含有Cys,所占比例为16.95%,所含Cys残基含量从1个到23个不等,但以含有2、4、6个CE数量居多,所占比例分别为14.69%、12.99%、12.99%,见图2.
图2 禾谷炭疽菌CE所含Cys残基数量分布情况Fig.2 The distribution of Cys residues contained in CE in C. graminicola
通过SignalP 3.0在线分析,结果表明,在177个CE中,有136个含有信号肽,所占比例为76.84%,对其进一步分析发现,NN和HMM所预测结果并不完全相同,主要表现在所预测信号肽的切割位置方面,其中,有110个CE经NN和HMM所预测的信号肽位置相同,占比例为62.15%,还有26个CE由NN和HMM所预测的信号肽的切割位置不相同,占比例为14.69%,见图3.上述结果说明,前期报道的177个CE中仅有136个具有明显的信号肽序列,其余41个不具有信号肽序列,这些不具有信号肽序列的CE与效应分子所具有的特征②明显相反,因此,后续选择136个CE进行深入分析,以期为更好地解析效应分子的motif以及功能研究打下坚实的理论基础.
图3 禾谷炭疽菌CE所含信号肽预测情况Fig.3 The prediction of signal peptide contained in CE in C. graminicola
通过TMHMM Server v. 2.0在线分析,结果表明,在177个CE中,41个含有跨膜区结构,所占比例为23.16%,其中含有跨膜区数量最多的为6个,其ID为GLRG_07158;含有跨膜区数量为2个的CE有7个,含有跨膜区数量为1个的33个,所占比例分别为3.95%、18.64%,见图4.根据效应分子所具有的特征③情况,选择136个不含跨膜区结构的CE进行分析,以期明确禾谷炭疽菌中含有的效应分子.
图4 禾谷炭疽菌CE所含跨膜区结构预测情况Fig.4 The prediction of transmembrane regions contained in CE in C. graminicola
结合病原菌效应分子所具有的典型特征①②③④,通过上述分析,从177个CE中进行筛选,首先依据特征②,对不含有信号肽的CE进行剔除;其次,依据特征③,对含有跨膜区结构的CE进行剔除;再次,根据特征①,对大于400 aa的CE进行剔除(尽管效应分子典型特征①为50~300 aa,而大豆疫霉效应分子的氨基酸大小一般小于400,故此处以400 aa作为标准.),同时,结合特征④,最终明确禾谷炭疽菌中含有82个典型的效应分子(表1)和20个有待于进一步试验验证的效应分子(数据未显示).
通过对82个典型效应分子进行SMART分析,结果显示,并没有发现与之前报道蛋白有关的保守区域,这与其他病原菌中的效应分子所具有的序列高度特异性相一致,这也符合效应分子的典型特征⑤.
表1 禾谷炭疽菌82个典型效应分子基本信息Tab.1 The basics features of 82 typical effectors in C. graminicola
续表1
序列号ID基本特征信号肽氨基酸长度/aa富含Cys数量/个∗位置切割位点跨膜区数量GLRG_06509180216-17AMA-SP0GLRG_06513301518-19VSA-QG0GLRG_06527281621-22SQA-RP0GLRG_0687162817-18VAS-SP0GLRG_07140274419-20ANG-AP0GLRG_07239122217-18VLA-AP0GLRG_0750455120-21REA-WE0GLRG_0758098819-20VQA-CD0GLRG_07736103120-21VVA-LP0GLRG_0777668620-21VYA-QI0GLRG_08117137619-20TSA-KP0GLRG_08163116824-25ACA-LY0GLRG_08235200120-21VLA-LP0GLRG_08359219619-20VNA-QA0GLRG_08374289116-17VSG-LS0GLRG_08566278218-19VPA-QP0GLRG_0859272318-19SLA-AP0GLRG_08861164618-19TSA-SL0GLRG_089913471225-26AAA-NI0GLRG_09337146420-21VVS-AP0GLRG_09545168617-18ASA-KN0GLRG_0960997421-22ASA-FS0GLRG_0968560418-19AAA-AG0GLRG_09801298318-19VAG-KV0GLRG_09822108821-22ACA-KY0GLRG_099022241217-18VLA-QS0GLRG_099101891017-18ALA-SR0GLRG_10126106120-21VQA-AP0GLRG_1023269417-18VSA-DY0GLRG_10505233120-21VQC-AV0GLRG_10719168622-23AAA-SG0GLRG_10803160319-20VAA-VN0GLRG_10977128322-23GSA-LS0GLRG_1101560315-16IRG-TW0GLRG_11092152325-26SEA-KI0GLRG_11273111818-19SLS-SQ0GLRG_11645200420-21ALT-AP0GLRG_1165981740-41VAA-QS0GLRG_11682120325-26TDA-FE0GLRG_11923249225-26VLS-TP0GLRG_1196490618-19VQA-TC0GLRG_11965113225-26AKA-MP0GLRG_119931901019-20SLA-AV0
*注:效应分子多数富含半胱氨酸,但也有特例情况.
本研究基于前期已报道的禾谷炭疽菌中177个CE氨基酸序列数据,结合已经报道病原菌效应分子所具有的5个典型特征,利用生物信息学方法对该菌所含的CE进行评测,结果发现该菌含有82个典型效应分子,为进一步开展效应分子motif找寻以及功能研究打下了坚实的理论基础.同时,还发现20个CE具有效应分子典型特征①②③⑤,而缺少半胱氨酸残基,不符合效应分子典型特征④,有待于后续试验进一步进行验证.利用SMART在线分析网站,并未发现禾谷炭疽菌中82个典型效应分子与已知蛋白具有相似的保守结构域.另外,MEME(multiple Em for Motif Elicitation)作为在线分析蛋白质motif的工具,为找寻禾谷炭疽菌中典型效应分子的保守结构域提供了可能.值得一提的是,前期利用SignalP、ProtComp、TMHMM、big-PI Fungal Predictor和TargetP已经完成对该菌分泌蛋白预测工作,明确有630个分泌蛋白存在于该菌中[23],为进一步筛选CE提供了重要数据基础.
此外,本研究所采用的氨基酸数据均来自于炭疽菌属蛋白质数据库,而从数据库中获得的CE所含有的氨基酸数量与已经报道的CE的氨基酸数量之间存在着差异,通过对比分析,发现177个中有101个CE不同,所占比例为57.06%,因此,这些CE的氨基酸数量有待于后期通过试验进一步明确.
对已完成的植物病原菌全基因组序列进行生物信息学分析,并结合生物学试验的进一步验证,极大地推动了对病原菌致病基因、效应分子功能等研究工作.同样,对大豆疫霉、致病疫霉等植物病原卵菌RxLR效应分子以及稻瘟菌LXAR效应分子的功能研究,极大地丰富了效应分子所具有的抑制BT-PCD、抑制PTI、ETI功能以及诱导细胞死亡、协同作用调控植物防卫反应等功能的试验数据,极大地促进了对其他病菌效应分子的功能研究,而本研究无疑也为进一步明确禾谷炭疽菌的效应分子motif以及所具有的功能冗余性和多样性特点起到重要的理论支撑作用.