覃悦,祝友朋,韩长志
西南林业大学生物多样性保护学院/云南省森林灾害预警与控制重点实验室,昆明 650224
黄单胞菌(Xanthomonascampestris)在分类上归属于薄壁菌门(Gracilicutes)暗细菌纲(Scotobacteria)假单胞菌科(Pseudomonadaceae)黄单胞菌属(Xanthomonas)[1]。前人研究发现,该菌是专性好氧、化能有机营养型革兰氏阴性植物病原细菌,能引起十字花科蔬菜及芒果、核桃等多种重要农林经济植物病害,给生产上造成巨大的经济损失,严重影响着上述农林产业的健康发展。近年对该菌的研究主要集中于致病基因功能[2]、HarpinX耐热机制[3]、转录调节因子[4]、效应蛋白[6]、该菌与黄原胶的作用关系[7]以及分类研究[8]等方面。
植物作为生物界的重要生产者之一,在其生长发育的全过程中始终受到来自于真菌、细菌和卵菌等微生物的侵染[9]。特别是近年随着对上述微生物分泌蛋白、CAZymes蛋白研究的不断深入[10],证实病原细菌与植物相互作用过程中,病原细菌通过分泌系统将分泌蛋白输入到寄主组织中,以更好地侵染植物,这些分泌蛋白还可作为效应分子与植物中的防卫反应相关分子发生作用,从而在植物中实现定殖、扩展等[11]。前人已对稻瘟菌[12]、致病疫霉菌[13]和大丽轮枝菌[14]等植物病原真菌分泌蛋白开展了大量研究,笔者所在研究室前期已完成对黄单胞菌X.campestrisB100、X.campestrisCN14、X.campestrispv.campestris8004(上述菌株登录号分别为GCA_000070605.1、GCA_000401735.2、GCA_000012105.1,以下分别简称为XCB100、XC8004、XCCN14)等黄单胞菌中分泌蛋白的预测工作,然而,尚不清楚其理化性质、保守结构域以及亚细胞定位情况,制约着对该病菌分泌蛋白功能的进一步研究。本研究基于前期研究结果,利用Protscale、SMART、TargetP 2.0 Server等生物信息学分析软件对上述分泌蛋白展开理化性质、保守结构域以及转运肽等分析,以期为深入开展对分泌蛋白在黄单胞菌侵入寄主植物过程中功能解析奠定基础,也为后续开展生物学实验提供重要的理论支撑。
前期笔者所在研究室根据分泌蛋白所具有的典型特征,从信号肽、亚细胞定位以及跨膜结构等方面入手,利用诸多生物信息学分析软件,确定黄单胞菌XCB100、XCCN14和XC8004中具有典型特征的分泌蛋白数量分别为135、135、128个。
运用Protscale蛋白质数据库分析分泌蛋白质的理化性质,包括理论等电点、不稳定性系数、亲水性、疏水性等[15]。
采用SMART[16]分析分泌蛋白质的保守结构域。
采用TargetP 2.0[17]分析分泌蛋白质的转运肽。
采用Microsoft Excel对所获得的数据进行分析,并采用Origin作图软件完成分析图制作。
采用Protscale蛋白质数据库分析XCB100、XC8004、XCCN14中的分泌蛋白所具有的理论等电点,可知其分别为3.71~11.39、3.92~11.07、3.71~11.39(图1A),进一步分析发现,XCB100分泌蛋白中,位于8.51~9.00和9.01~9.50的分泌蛋白数量最多(均为18个,比例为13.24%),其次位于5.51~6.00的分泌蛋白数量(为17个,比例为12.25%);XC8004分泌蛋白中,位于9.01~9.50的分泌蛋白数量最多(18个,比例为13.33%),再是是位于5.51~6.00的分泌蛋白数量(为17个,比例为12.59%);XCCN14分泌蛋白中,位于8.51~9.00的分泌蛋白数量最多(19个,比例为14.07%),其次是位于6.01~6.50的分泌蛋白数量(为17个,比例为12.59%)(图1A)。
同时,按照理论等电点数值大小将分泌蛋白酸碱性分为酸性(小于6.0)、中性(6.0~8.0)以及碱性(大于8.0)蛋白,对XCB100、XC8004、XCCN14中的分泌蛋白理论等电点进行分析,结果显示:XCB100分泌蛋白中,酸性蛋白数量为43个(比例为31.85%),中性蛋白数量为35个(比例为25.93%),碱性蛋白数量为57个(比例为42.22%);XC8004分泌蛋白中,酸性蛋白数量为44个(比例为34.38%),中性蛋白数量为27个(比例为21.09%),碱性蛋白数量为57个(比例为44.53%);XCCN14分泌蛋白中,酸性蛋白数量为34个(比例为25.19%),中性蛋白数量为40个(比例为29.63%),碱性蛋白数量为61个(比例为45.19%)(图1A)。上述结果表明,3种黄单胞菌中分泌蛋白的理论等电点数值范围具有较大的相似性,酸性、中性及碱性蛋白所占比例基本相似,尤以碱性蛋白所占比例较高,高于40%。进一步对上述3种黄单胞菌中分泌蛋白理论等电点与氨基酸长度之间的关系进行分析,结果显示,3种黄单胞菌中分泌蛋白的氨基酸长度多为100~400 aa,理论等电点多分布于4.5~7.0以及7.5~10.0,并且理论等电点与氨基酸长度之间无明显相关关系(图1B)。
与此同时,通过对分泌蛋白的原子数量、分子质量及分子式、消光系数、脂肪族氨基酸指数和半衰期等分析,发现不同类型分泌蛋白所含正、负电荷氨基酸残基数不同,即碱性蛋白的负电荷氨基酸数均小于正电荷氨基酸残基数;酸性蛋白中的正电荷氨基酸残基数都小于负电荷氨基酸残基数;而中性蛋白中的正负电荷氨基酸残基数基本相同;此外,分子数量较大的蛋白,其原子数量也较多(数据未显示)。
图1 黄单胞菌中分泌蛋白理论等电点分布(A)及其与氨基酸长度之间关系(B)情况
就所预测的不稳定系数而言,黄单胞菌XCB100、XC8004、XCCN14的分泌蛋白中分别有61、58以及59个蛋白的不稳定性系数大于40,属于不稳定蛋白,所占比例分别为45.19%、45.32%、43.70%,其他均为稳定蛋白(图2A)。就疏水性而言,XCB100、XC8004、XCCN14的分泌蛋白中分别有112、111以及112个蛋白总平均亲水性小于0,属于亲水性蛋白,所占比例分别为82.96%、86.72%和82.96%,其余总平均亲水性均大于0,属于疏水性蛋白,所占比例分别为17.04%、13.28%和17.04%(图2B)。
图2 黄单胞菌中分泌蛋白不稳定性系数(A)及总平均亲水性(B)分布情况
同时,对3种黄单胞菌中分泌蛋白的最强亲(疏)水性氨基酸残基基本情况进行统计分析,结果显示,在XCB100中,尤以ID为WP_012437464.1的分泌蛋白中位于177、178位的D(天冬氨酸)和Q(谷氨酰胺)亲水性最高,数值为-3.878,而ID为WP_012437104.1的分泌蛋白中位于121位的L(亮氨酸)疏水性最高,数值为4.056;在XC8004中,尤以ID为WP_011035929.1位于68、69位的R(精氨酸)和D亲水性最高,数值为-4.167,而ID为WP_011037118.1位于7位的V(缬氨酸)疏水性最高,数值为3.967;在XCCN14中,尤以ID为WP_012438695.1位于123位的A(丙氨酸)亲水性最高,数值为-3.656,而ID为WP_011037118.1位于7位的V疏水性最高,数值为3.967(图3A)。进一步对每个分泌蛋白的最强亲(疏)水性氨基酸残基进行统计分析,结果显示:最强亲水性氨基酸残基为D和R的分泌蛋白数量最多,平均分别为23和18个,而最强疏水性氨基酸残基为A和L的分泌蛋白量最多,平均分别为37和47个(图3B、C)。
对黄单胞菌中分泌蛋白开展保守结构域分析,结果显示:在XCB100中,蛋白ID为WP_011035886.1、WP_011037118.1、WP_011037974.1、WP_011038629.1、WP_011039020.1、WP_012436993.1、WP_012438073.1、WP_012438413.1、WP_012439258.1、WP_012439656.1、WP_014508988.1、WP_016944960.1和WP_040942357.1共13个蛋白具有明显的保守结构域,占总数的9.63%,同时,蛋白ID为WP_011037926.1、WP_011038879.1、WP_011039016.1、WP_011270059.1、WP_012437014.1、WP_012437247.1、WP_012437258.1、WP_012437398.1、WP_012437449.1、WP_012437450.1、WP_012437612.1、WP_012437952.1、WP_012437992.1、WP_012438203.1、WP_012438695.1、WP_012438717.1、WP_012438813.1、WP_012439163.1和WP_012439607.1共19个蛋白具有跨膜结构域,占总数的14.07%(图4A)。
在XC8004中,蛋白ID为WP_011035886.1、WP_011035887.1、WP_011036342.1、WP_011037118.1、WP_011037197.1、WP_011037525.1、WP_011037974.1、WP_011038535.1、WP_011038629.1、WP_011039020.1和WP_011039187.1共11个蛋白具有明显的保守结构域,占总数的8.59%,同时,15个蛋白具有跨膜结构域,其ID分别为WP_011035714.1、WP_011035929.1、WP_011036687.1、WP_011036707.1、WP_011037342.1、WP_011037617.1、WP_011037623.1、WP_011038205.1、WP_011038708.1、WP_011038879.1、WP_011039016.1、WP_011269491.1、WP_011269534.1、WP_011270059.1、WP_011270084.1,占总数的11.72%(图4B)。
A. 黄单胞菌中分泌蛋白氨基酸残基分布情况; B. 最强亲水性氨基酸残基分布情况; C. 最强疏水性氨基酸残基分布情况。A.The distribution of amino acid residues of secreted proteins in Xanthomonas; B.The distribution of the strongest hydrophilic amino acid residues; C. The distribution of the strongest hydrophobic amino acid residues.
A. XCB100; B. XC8004; C. XCCN14.
在XCCN14中,蛋白ID为WP_011036342.1、WP_011037118.1、WP_011037197.1、WP_011039020.1、WP_012437825.1、WP_014508988.1、WP_014509546.1、WP_019237225.1、WP_040940901.1、WP_040941816.1、WP_040942357.1和WP_052844708.1共12个蛋白具有明显的保守结构域,占总数的8.89%; 同时,22个蛋白具有跨膜结构域,其ID分别为WP_011036687.1、WP_011038879.1、WP_011039016.1、WP_011270059.1、WP_012437398.1、WP_012437450.1、WP_012437952.1、WP_012437992.1、WP_012438695.1、WP_014506100.1、WP_040940353.1、WP_040940532.1、WP_040940540.1、WP_040940551.1、WP_040940557.1、WP_040940705.1、WP_040940805.1、WP_040941246.1、WP_040941554.1、WP_043877915.1、WP_076054737.1、WP_108133933.1,占总数的16.30%(图4C)。
黄单胞杆菌XCB100、XC8004、XCCN14中分别有135、128、135个分泌蛋白定位于S(信号肽):在XCB100中,有32个蛋白预测概率大于0.8,约占总数的23.70%;有36个分泌蛋白所处的概率在0.6~0.8,约占总数的26.67%;有40个分泌蛋白所处的预测概率在0.4~0.6,约占总数的29.63%;有27个分泌蛋白所处的预测概率在0.2~0.4,约占总数的20.00%。在XC8004中,有29个预测概率大于0.8,约占总数的22.66%;有39个分泌蛋白所处的概率在0.6~0.8,约占总数的30.47%;有38个分泌蛋白所处的预测概率在0.4~0.6,约占总数的29.69%;有22个分泌蛋白所处的预测概率在0.2~0.4,约占总数的17.19%。在XCCN14中,有28个分泌蛋白的预测概率大于0.8,约占总数的20.74%;有38个分泌蛋白所处的概率在0.6~0.8,约占总数的28.14%;有43个分泌蛋白所处的预测概率在0.4~0.6,约占总数的31.85%;有22个分泌蛋白所处的预测概率在0.2~0.4,约占总数的19.26%(图5)。
近年来,关于植物病原菌分泌蛋白和碳水化合物活性酶、效应分子等的研究已经成为植物病理学研究的重点和难点[10]。植物病原菌全基因组序列的公布,为学术界深入开展上述病原菌致病基因的研究提供了重要的数据支撑。国内外学者对真菌[18]、卵菌[19]及枯草芽孢杆菌、细菌性黑斑病菌[11]等病原菌分泌蛋白进行了大量的生物信息学分析,但尚缺乏对于植物病原菌中分泌蛋白理化性质及特征分析工作的研究。分泌蛋白的理化性质及特征关系着其功能的发挥,前人研究表明,病原菌在侵染植物的过程中分泌蛋白发挥着极其重要的作用,即植物病原真菌、卵菌以及细菌等不同物种之间,甚至在同一群体不同物种之间,以及同一物种不同种之间,所含有的分泌蛋白比例较为近似,这为未来学术界进一步开展不同物种、不同群体以及同一物种不同种之间分泌蛋白的功能共性化和差异化研究提供了重要的参考。
图5 黄单胞菌分泌蛋白含有潜在转运肽的预测可靠性分析
本研究采用生物信息学分析软件对3个黄单胞菌XCB100、XCCN14和XC8004菌株中的分泌蛋白理化性质及特征进行了分析,3种黄单胞菌中具有典型特征的分泌蛋白分别为135、135、128,利用Protscale、SMART、TargetP 2.0 Server等生物信息学分析软件对上述分泌蛋白展开理化性质、保守结构域以及转运肽等分析,初步明确了黄单胞菌分泌蛋白的理化性质及其特征。结果表明,3种黄单胞菌中分泌蛋白理论等电点与氨基酸长度之间无相关关系,以碱性蛋白质、稳定蛋白质、亲水性蛋白质居多,平均44.73%的蛋白为不稳定蛋白,平均83.21%的蛋白总平均亲水性小于0,属于亲水性蛋白,亲水性最强氨基酸残基以D和R居多,而疏水性最强氨基酸残基以A和L居多。同时,每个黄单胞菌的分泌蛋白中平均有12个具有明显的保守结构域,并且所有分泌蛋白具有信号肽,转运肽预测可能性分布也较为平均,因此,推测上述具有不同保守结构域的分泌蛋白质在实现侵染后具有多样性的功能,这可能与培养和生存环境等因素有一定关系。