基于全基因组序列的黄单胞菌分泌蛋白质预测及其特征分析

2021-03-25 13:50覃悦祝友朋韩长志
江苏农业学报 2021年1期
关键词:生物信息学

覃悦 祝友朋 韩长志 

摘要: 黄单胞菌(Xanthomonas campestris)作为诸多革兰氏阴性细菌之一,主要危害十字花科农作物和核桃、杧果等经济林植物。前人对植物病原细菌、真菌等的分泌蛋白和相关蛋白质开展了预测及分析研究,明确其分泌蛋白在致病过程中具有非常重要的作用。本研究以已经公布全基因组序列的黄单胞菌X.campestris B100、X. campestris pv.campestris str.8004、X. campestris CN14中的蛋白质序列为基础,结合细菌中分泌蛋白的基本特征,采用在线分析程序(包括SignalP v5.0、ProtComp v9.0等)对上述3个黄单胞菌的分泌蛋白序列进行预测和分析,明确上述细菌中分别含有135个、128个、135个分泌蛋白,并对分泌蛋白所具有的基本特征开展分析,为深入研究黄单胞菌分泌蛋白的功能打下理论基础。

关键词: 黄单胞菌;全基因组;信号肽;生物信息学

中图分类号: S435.1 文献标识码: A 文章编号: 1000-4440(2021)01-0053-07

Prediction and characteristic analysis of Xanthomonas campestris secretory protein based on whole genome sequence

QIN Yue1, ZHU You-peng1, HAN Chang-zhi1,2

(1.College of Biodiversity Conservation and Utilization, Southwest Forestry University, Kunming 650224,China;2.Key Laboratory of Forest Disaster Warning and Control of Yunnan Province, Kunming 650224, China)

Abstract: As a kind of many Gram-negative bacteria, Xanthomonas campestris mainly harms cruciferous crops and economic forest plants such as walnut and mango. Some academic predecessors discovered that secretory proteins played an important role in the pathogenic process by predicting and analyzing the secreted proteins and related proteins of plant pathogenic bacteria and fungi. This study was based on the protein sequences of X. campestris B100, X. campestris pv. campestris str.8004 and X. campestris CN14 whose whole genome sequences had been published, combined with the basic characteristics of secretory proteins, using online analysis programs (such as SignalP v5.0, ProtComp v9.0, etc.) to predict and analyze the above three protein sequences, it was found that the bacteria contained 135, 128 and 135 secretory proteins, respectively, and analysis on the basic characteristics of secretory proteins was carried out, thus made theoretical foundation for the in-depth study of the function of X. campestris secretory proteins.

Key words: Xanthomonas campestris;genome;signal peptide;bioinformatics

植物作為生物界的重要生产者,其在生长过程中始终面临着诸如真菌、细菌等微生物的侵害[1]。在危害茄科、十字花科以及胡桃科等多种重要经济作物的诸多病原细菌中,尤以黄单胞菌(Xanthomonas campestris)造成的危害较重,该病菌在分类上属于假单胞菌科(Pseudomonadaceae)黄单胞菌属(Xanthomonas)[2]。国内外学者对于该菌的研究主要集中于基因功能[3]、效应蛋白[4]、该菌与黄原胶的作用关系[5]以及分类[6]等方面。前人研究发现,细菌的致病机制主要是通过分泌系统将其分泌蛋白输入植物组织中,其效应分子蛋白质往往通过与植物防卫反应的相关分子发生作用,进一步促进其在植物中的定殖、扩展以及对植物产生危害。

近些年,学术界对植物病原菌(真菌、细菌以及卵菌等)分泌蛋白开展了诸多研究工作[7],例如,稻瘟病菌[8]、致病疫霉[9]、大丽轮枝菌[10]、黄单胞菌VI型分泌蛋白[11]以及细菌性黑斑病菌[12]的分泌蛋白等。作为危害农林生产的非常重要的黄单胞菌属细菌,其全基因组序列已经被测序,然而,尚未见关于黄单胞菌分泌蛋白的预测及特性的研究报道,严重影响着学术界对于该病菌致病机制的解析。

为了更好地明确黄单胞菌中分泌蛋白的数量及特征情况,本研究选择全基因组序列已经公布的3种黄单胞菌X. campestris B100、X. campestris CN14、X. campestris pv.campestris str.8004(分别简称为XCB100、XCCN14、XC8004),根据分泌蛋白具有的典型特征,从信号肽、亚细胞定位以及跨膜结构等方面入手,利用生物信息学分析软件,对上述黄单胞菌中的分泌蛋白进行预测并对其信号肽、氨基酸残基等性质进行特征分析,同时与同属不同种的细菌性黑斑病菌分泌蛋白[12]进行对比和分析,以期为深入开展黄单胞菌侵入寄主植物过程中分泌蛋白的作用解析奠定坚实的理论基础,并为后续开展生物学试验验证打下基础。

1 材料与方法

1.1 分泌蛋白序列来源

黄单胞菌X. campestris B100(XCB100)、X. campestris CN14(XCCN14)、X. campestris pv.campestris str.8004(XC8004)的全蛋白质组序列来源于美国国家生物技术信息中心(NCBI),上述菌株登录号分别为GCA_000070605.1、GCA_000401735.2、GCA_000012105.1。

1.2 分泌蛋白的预测

根据分泌蛋白的基本特征,利用SignalP v5.0[13]、ProtComp v9.0[14]、TMHMM v2.0[15]、Phobius[16]分别预测分析蛋白质信号肽并预测其亚细胞定位,同时排除具有跨膜结构的蛋白质。再利用TargetP v2.0[17]、TatP v1.0[18]和LipoP v1.0[19]預测分析转运肽、信号肽酶识别位点和脂蛋白等,排除定位在胞内细胞器的蛋白质。关于黄单胞菌中分泌蛋白的获取方法,具体规则及步骤参考文献[20]。

1.3 分泌蛋白基本特征分析

利用Microsoft Excel 2010统计和分析分泌蛋白中的氨基酸残基和信号肽特征,并用Origin 2019作图软件作图。

2 结果与分析

2.1 分泌蛋白的数量预测及所占比例

基于细菌中分泌蛋白所具有的典型特征(在N端含有信号肽、无跨膜结构域、无糖基磷脂酰肌醇(GPI)锚定位点,且不定位于胞内细胞器等),采用多种生物信息学分析软件对3个黄单胞菌(XCB100、XCCN14、XC8004)中的蛋白质序列进行筛选。结果表明,通过SignalP v5.0预测,黄单胞菌XCB100、XCCN14和XC8004中具有典型信号肽序列的蛋白质数量分别为714个、712个和646个,占总蛋白质数量的比例分别为17.10%、17.26%和15.02%(图1)。进一步通过ProtComp v9.0预测软件对上述蛋白质进行亚细胞定位分析,结果显示,XCB100中136个蛋白质定位在细胞外,其余578个蛋白质分别定位在细胞质膜、胞内细胞器和细胞质;XCCN14中135个蛋白质定位在细胞外,其余577个蛋白质则分布在细胞质膜、胞内细胞器和细胞质中;XC8004中128个蛋白质定位在细胞外,其余518个蛋白质分布在细胞质膜、胞内细胞器和细胞质(图1)。

由于上述分析结果尚不能完全确定细菌中的分泌蛋白,进一步利用TMHMM v2.0、Phobius以及TatP、LipoP等生物信息学分析软件对上述获得的蛋白质进行分析筛选。结果表明,黄单胞菌XCB100、XCCN14和XC8004中不具有跨膜结构域的蛋白质数量分别为135个、135个和128个,含有脂蛋白信号肽的蛋白质数量则分别有59个、58个和52个,含有信号肽酶的蛋白质数量分别为10个、13个和14个。经过上述分析,最终明确黄单胞菌XCB100、XCCN14和XC8004中具有典型特征的分泌蛋白数量分别为135个、135个、128个(表1)。

2.2 分泌蛋白的氨基酸序列长度及组成分析

为了更加清晰地明确分泌蛋白的氨基酸序列长度及组成,本研究对黄单胞菌XCB100、XCCN14和XC8004中分泌蛋白的氨基酸长度进行进一步统计分析,结果显示,XCB100中的分泌蛋白大小多集中于100~300 aa,所占比例为76.3%;XC8004中的分泌蛋白大小多集中于100~300 aa,所占比例为78.52%;而XCCN14中的分泌蛋白大小多集中于100~250 aa,所占比例为69.53%(图2)。上述分析结果表明,黄单胞菌中的分泌蛋白的氨基酸长度主要集中在100~250 aa,属于小分子蛋白质。

同时,对上述3种黄单胞菌中分泌蛋白的氨基酸组成情况进行分析,结果表明,3种黄单胞菌中分泌蛋白的氨基酸组成情况较为相似,其中尤以A(丙氨酸)在分泌蛋白中的含量最高,所占比例为12.5%,而以C(半胱氨酸)在分泌蛋白中的含量最低,所占比例为1.5%,另外,诸如G(甘氨酸)、L(亮氨酸)、R(精氨酸)、V(缬氨酸)等含量也具有较高的比例,分别为8.7%、8.8%、7.0%、6.9%(图3)。

2.3 分泌蛋白的信号肽特征分析

对上述分泌蛋白信号肽开展进一步分析,结果表明,黄单胞菌XCB100、XCCN14和XC8004中的分泌蛋白信号肽长度多集中于19~26 aa,所占比例分别为77.94%、76.47%和74.42%,尤以长度为21 aa和22 aa的蛋白质数量居多(图4)。

2.4 信号肽切割位点特征分析

进一步对3种黄单胞菌分泌蛋白中所具有的信号肽切割位点进行特征分析,结果表明,黄单胞菌XCB100中分泌蛋白的氨基酸残基数量占比以丙氨酸最高,为21.75%,谷氨酸的数量占比最低,仅为0.13%,其他氨基酸残基数量占比由高到低依次为亮氨酸、丝氨酸、缬氨酸、甲硫氨酸、苏氨酸、甘氨酸、精氨酸、脯氨酸、半胱氨酸、异亮氨酸、苯丙氨酸、赖氨酸、色氨酸、组氨酸、天冬酰胺、谷氨酰胺、酪氨酸、天冬氨酸(图5)。此外,在信号肽切割位点-3、-2、-1、1、2处,丙氨酸、亮氨酸、丙氨酸、丙氨酸、脯氨酸的数量占比最高,分别为69.63%、14.81%、72.59%、32.59%、17.78%(图5)。氨基酸的组成在-3和-1位点上相对比较保守,属于丙氨酸-任意氨基酸-丙氨酸(A-X-A)类型,在-3位点上,除丙氨酸之外,半胱氨酸、甘氨酸、亮氨酸、丝氨酸、苏氨酸、缬氨酸的数量占比分别为7.41%、3.70%、2.96%、2.96%、4.44%、8.89%,而天冬氨酸、谷氨酸、苯丙氨酸、组氨酸、异亮氨酸、赖氨酸、甲硫氨酸、天冬酰胺、脯氨酸、谷氨酰胺、精氨酸、色氨酸、酪氨酸数量所占比例均为0;在-1位点,除了丙氨酸外,半胱氨酸、甘氨酸、脯氨酸、丝氨酸、苏氨酸数量所占比例分别为11.11%、10.37%、0.74%、2.06%、2.22%(图5)。

黄单胞菌XCCN14分泌蛋白氨基酸组成成分中,尤以丙氨酸数量所占比例最高,为21.44%;谷氨酸的数量占比最低,仅为0.07%,其他氨基酸残基的数量占比由高到低依次为亮氨酸、丝氨酸、缬氨酸、甲硫氨酸、苏氨酸、甘氨酸、精氨酸、脯氨酸、半胱氨酸、苯丙氨酸、异亮氨酸、赖氨酸、色氨酸、谷氨酰胺、天冬酰胺、组氨酸、酪氨酸、天冬氨酸。此外,在信号肽切割位点-3、-2、-1、1、2处,丙氨酸、亮氨酸、丙氨酸、丙氨酸、脯氨酸的数量占比最高,分别为67.41%、13.33%、74.07%、31.85%、17.03%(图6)。氨基酸的组成在-3和-1位点上相对比较保守,属于A-X-A类型,在-3位点上,除丙氨酸之外,半胱氨酸、甘氨酸、亮氨酸、丝氨酸、苏氨酸、缬氨酸数量所占比例分别为7.41%、4.44%、3.70%、3.70%、5.19%、8.15%,而天冬氨酸、谷氨酸、苯丙氨酸、组氨酸、异亮氨酸、赖氨酸、甲硫氨酸、天冬酰胺、脯氨酸、谷氨酰胺、精氨酸、色氨酸、酪氨酸数量所占比例均为0;在-1位点除了丙氨酸之外,半胱氨酸、甘氨酸、丝氨酸、苏氨酸数量所占比例分别为8.89%、9.63%、4.44%、2.96%(图6)。

黄单胞菌XC8004分泌蛋白氨基酸残基组成中,尤以丙氨酸数量所占比例最高,为20.41%,谷氨酸数量占比最低,仅为0.17%,其他氨基酸按数量占比由高到低排序依次为亮氨酸、丝氨酸、缬氨酸、甲硫氨酸、苏氨酸、甘氨酸、精氨酸、脯氨酸、半胱氨酸、苯丙氨酸、异亮氨酸、赖氨酸、组氨酸、天冬酰胺、色氨酸、谷氨酰胺、酪氨酸、天冬氨酸。此外,在信号肽切割位点-3、-2、-1、1、2处,丙氨酸、丝氨酸、丙氨酸、丙氨酸、脯氨酸的数量占比最高,分别为64.84%、16.41%、74.22%、29.69%、16.41%(图7)。氨基酸残基的组成在-3和-1位点上相对比较保守,属于A-X-A类型,在-3位点上,除丙氨酸之外,半胱氨酸、甘氨酸、亮氨酸、甲硫氨酸、丝氨酸、苏氨酸、缬氨酸数量所占比例分别为10.94%、3.13%、2.34%、1.56%、3.91%、4.96%、8.59%,而天冬氨酸、谷氨酸、苯丙氨酸、组氨酸、异亮氨酸、赖氨酸、脯氨酸、谷氨酰胺、精氨酸、色氨酸、酪氨酸数量所占比例均为0;在-1位点除了丙氨酸外,半胱氨酸、甘氨酸、脯氨酸、丝氨酸、苏氨酸数量所占比例分别为8.59%、8.59%、0.78%、5.47%、2.34%(图7)。

3 讨论

近年来,关于植物病原菌分泌蛋白和碳水化合物活性酶、效应分子等的研究已经成为植物病理学研究的重点和难点[7]。随着诸多植物病原菌全基因組序列被测序,为深入开展上述病原菌致病基因的研究提供了重要的数据支撑。目前,包括本研究小组在内的诸多国内外研究者对植物生物(如真菌[8,10,21-23]和卵菌[24])分泌蛋白进行了大量的生物信息学分析和预测工作,并对枯草芽孢杆菌、细菌性黑斑病病菌等植物病原菌的分泌蛋白展开了预测工作[12]。前人的研究结果表明,各类植物中的不同真菌和细菌及卵菌中所含分泌蛋白的数量和所占比例不完全相同[20]。其中,植物病原真菌分泌蛋白数量占总蛋白质数量的比例约为3.65%~9.58%[25-26],且不同活体营养型病原菌之间存在着一定差异;卵菌中含有的分泌蛋白数量占总蛋白质数量的比例约为2.96%~4.01%[25];细菌分泌蛋白数量占总蛋白质数量的比例约为5.05%~5.41%[12]。

本研究通过生物信息学分析工具,对XCB100、XCCN14、XC8004等3个黄单胞菌菌株中的分泌蛋白数量及所占比例进行分析,明确其所占比例为2.98%~3.27%,分泌蛋白数量和所占比例明显高于细菌性黑斑病病菌[12],是什么原因最终造成上述现象发生,有待于进一步对细菌的分泌蛋白展开更加深入的研究。上述分析结果与前人的研究成果表明,植物病原真菌、卵菌以及细菌等不同物种之间,甚至在不同群体不同物种之间以及同一群体不同物种之间,分泌蛋白的数量占比较为接近,这为未来学术界进一步开展不同物种、不同群体以及同一群体不同种之间分泌蛋白的功能共性化和差异化研究提供了重要的参考。

无论是XCB100、XCCN14、XC8004等3个黄单胞菌菌株,还是前期开展的7个核桃细菌性黑斑病病菌(X. arboricola pv. juglandis),均属于黄单胞菌属细菌,本研究首次明确同一属不同种内细菌分泌蛋白数量及所占比例存在差别,为进一步进行不同种内细菌分泌蛋白功能解析提供了重要的研究思路。本研究选择3个黄单胞菌菌株开展分泌蛋白找寻及特征分析工作,所获得的结果具有一定的典型性和代表性,黄单胞菌属细菌作为危害植物的一大类革兰氏阴性细菌,目前已经有多个黄单胞菌属细菌种完成了全基因组序列测定工作,为未来进一步实现该属细菌分泌蛋白预测及功能解析提供了重要保障。特别值得说明的是,在病原细菌侵染植物的过程中,分泌蛋白发挥着极其重要的作用,而通过本研究所获取的分泌蛋白在黄单胞菌侵染茄科和十字花科等植物的过程中,是否全部蛋白质均发挥重要作用,是否存在冗余性问题,均有待于后续科学研究验证。

本研究基于黄单胞菌3个不同菌种中所具有的4 175条、4 124条、4 299条蛋白质序列,利用SignalP、ProtComp、TMHMM、Phobius、LipoP、TatP等生物信息学分析软件分别获得了135个、135个、128个分泌蛋白,结果显示黄单胞菌中的分泌蛋白数量明显高于细菌性黑斑病病菌中的分泌蛋白数量。进一步对比分析上述3个不同黄单胞菌菌株,明确了其所含的分泌蛋白在氨基酸长度及组成、信号肽特征方面的差异并不大,氨基酸数量所占比例与7个核桃细菌性黑斑病病菌分泌蛋白也较为相似,信号肽长度多集中于19~26 aa,且丙氨酸含量最多,为20%~22%,在信号肽切割位点处,均属于A-X-A类型。研究发现,在病原细菌侵染植物的过程中分泌蛋白发挥着极其重要的作用,即植物病原真菌、卵菌以及细菌等不同物种之间,甚至在同一群体不同物种之间,以及不同群体不同物种之间,所含有的分泌蛋白数量占比较为接近,这为今后进一步开展不同物种、不同群体以及同一群体不同物种之间分泌蛋白的功能共性化和差异化研究提供了重要的参考,并为深入开展上述病原菌致病基因的研究提供了重要的数据支撑。这些研究结果将为十字花科、茄科等植物病理学研究提供参考依据。

参考文献:

[1] WILKINSON S W, MAGERY M H, SNCHEZ A L, et al. Surviving in a hostile world: plant strategies to resist pests and diseases[J]. Annual Review of Phytopathology, 2019, 57(1):505-529.

[2] 东秀珠,蔡妙英. 常见细菌系统鉴定手册[M]. 北京: 科学出版社, 2001.

[3] 邹 俊,戎 伟,李慧萍,等. 野油菜黄单胞菌的HpaA基因功能[J]. 热带生物学报, 2015, 6(2):119-126.

[4] 易杰祥,景晓辉,吴伦英. 黄单胞菌Ⅲ型分泌系统效应蛋白的研究进展[J]. 热带农业科学, 2014, 34(8):74-79.

[5] 孙 涛,徐宏蕾,周可鹏,等. 黄原胶寡糖琥珀酸酯衍生物的制备及其对野油菜黄单胞菌的抑菌性能研究[J]. 食品工业科技, 2015, 36(12):91-94.

[6] 龙 海,李一农,李芳荣,等. 植物病原菌黄单胞菌的分类研究进展[J]. 植物保护, 2010, 36(5):11-16.

[7] 韩长志,许 僖. 植物病原丝状真菌分泌蛋白及CAZymes的研究进展[J]. 南京林业大学学报(自然科学版), 2017, 41(5):152-160.

[8] 陈继圣,郑士琴,郑 武,等. 全基因组预测稻瘟菌的分泌蛋白[J]. 中国农业科学, 2006, 39(12):2474-2482.

[9] 周晓罡,侯思名,陈铎文,等. 马铃薯晚疫病菌全基因组分泌蛋白的初步分析[J]. 遗传, 2011, 33(7):125-133.

[10]田 李,陈捷胤,陈相永,等. 大丽轮枝菌(Verticillium dahliae VdLs.17)分泌组预测及分析[J]. 中国农业科学, 2011, 44(15):3142-3153.

[11]韩长志,王 娟. 黄单胞菌Xanthomonas campestris pv.raphani 756C中Ⅵ型分泌蛋白的生物信息学分析[J]. 华中农业大学学报, 2016, 35(4):42-48.

[12]祝友朋,刘宏莉,韩长志. 基于全基因组序列的核桃细菌性黑斑病菌分泌蛋白的预测及特征分析[J]. 南京林业大学学报(自然科学版), 2019, 43(3):17-22.

[13]ARMENTEROS J J A, TSIRIGOS K D, SNDERBY C K, et al. SignalP 5.0 improves signal peptide predictions using deep neural networks[J]. Nature Biotechnology, 2019, 37(4):420.

[14]KLEE E W, ELLIS L B. Evaluating eukaryotic secreted protein prediction[J]. BMC Bioinformatics, 2005, 6(1):256.

[15]MOLLER S, CRONING M D, APWEILER R. Evaluation of methods for the prediction of membrane spanning regions[J]. Bioinformatics, 2001, 17(7):646-653.

[16]KALL L, KROGH A, SONNHAMMER E L. Advantages of combined transmembrane topology and signal peptide prediction——the Phobius web server[J]. Nucleic Acids Res, 2007, 35:W429-432.

[17]ALMAGRO ARMENTEROS J J, SALVATORE M, EMANUELSSON O, et al. Detecting sequence signals in targeting peptides using deep learning[J]. Life Sci Alliance,2019,2(5):e201900429.

[18]BENDTSEN J D, NIELSEN H, WIDDICK D, et al. Prediction of twin-arginine signal peptides[J]. BMC Bioinformatics, 2005, 6(2):167.

[19]JUNCKER A S, WILLENBROCK H, VON HEIJNE G, et al. Prediction of lipoprotein signal peptides in Gram-negative bacteria[J]. Protein Sci, 2003, 12(8):1652-1662.

[20]韓长志. 全基因组预测樟疫霉的候选效应分子[J]. 南京林业大学学报(自然科学版), 2015, 39(2):69-74.

[21]韩长志. 全基因组预测禾谷炭疽菌的分泌蛋白[J]. 生物技术, 2014, 24(2):36-41.

[22]于钦亮,马 莉,刘 林,等. 禾谷镰刀菌基因组中含寄主靶向模体分泌蛋白功能的初步分析[J]. 生物技术通报, 2008(1):160-165, 180.

[23]祝友朋,蔡旺芸,韩长志. 基于全基因组序列的尖孢镰刀菌分泌蛋白预测及其特征分析[J]. 河南师范大学学报(自然科学版), 2019, 47(2):92-97.

[24]刘长令,李继德. 卵菌纲病害用杀菌剂的开发进展[J]. 农药, 2000, 39(8):1-3.

[25]陈相永,陈捷胤,肖红利,等. 植物病原真菌寄生性与分泌蛋白组CAZymes的比较分析[J]. 植物病理学报, 2014, 44(2):163-172.

[26]陈琦光,王陈骄子,杨 媚,等. 希金斯刺盘孢全基因组候选效应分子的预测[J]. 热带作物学报, 2015, 36(6):1105-1111.

(责任编辑:陈海霞)

收稿日期:2020-04-28

基金项目:云南省应用基础研究计划项目(2018FG001-028);国家自然科学基金项目(31960314);西南林业大学大学生创新创业项目(201825)

作者简介:覃 悦(1992-),云南昆明人,硕士研究生,研究方向为经济林木病害生物防治与真菌分子生物学。(E-mail)453276403@qq.com

通讯作者:韩长志,(E-mail)hanchangzhi2010@163.com

猜你喜欢
生物信息学
中药蛋白质组学研究策略
浅谈医学院校生物信息学专业青年教师规范培训模式的建立
“PBL+E—learning”教学模式探索
移动教学在生物信息学课程改革中的应用
中医大数据下生物信息学的发展及教育模式浅析
生物信息学课堂危机及对策研究
案例教学法在《生物信息学》本科教学中的应用
论生物信息学研究进展及在蛋白质组学研究中的应用
农学类专业《生物信息学》课程教学改革探讨
微生物二元网络作用关系研究