树生黄单胞杆菌脂蛋白生物信息学分析

2022-04-14 12:49喻红稠韩长志
关键词:结构域脂蛋白杆菌

喻红稠, 覃 悦, 韩长志

(1.西南林业大学生物多样性保护学院;2.西南林业大学研究生院; 3.云南省森林灾害预警与控制重点实验室,云南 昆明 650224)

树生黄单胞杆菌(Xanthomonasarboricola)属于黄单胞菌属细菌.该病菌与引起杧果细菌性黑斑病的病原——野油菜黄单胞杆菌杧果致病变种(X.campestrispv.mangiferaeindicae)在致病性、革兰氏染色、形态特征和生理生化特征方面均基本一致,而在gyrB基因序列方面表现不同[1].国内外学者对树生黄单胞杆菌及其致病变种的基因组进行了测序及分析,已经有107个菌株得到测序(https://www.ncbi.nlm.nih.gov/genome/?term=Xanthomonas+arboricola)[2],主要涉及核桃细菌性黑斑病菌(X.arboricolapv.juglandis)[3]和桃细菌性黑斑病菌(X.arboricolapv.pruni)[4]等.本研究小组前期对危害核桃的7个细菌性黑斑病菌的分泌蛋白及其理化性质等进行了分析[5],有助于进一步开展树生黄单胞杆菌中分泌蛋白的预测及分析工作.

分泌蛋白在植物病原菌侵染植物的过程中发挥重要作用.具有脂蛋白信号肽的蛋白作为分泌蛋白中的一类,参与锚定蛋白的正确定位、修饰和转运过程,从而对维持细胞膜的稳定性、细胞分裂、信号转导和营养获取等生理功能具有非常重要的作用[6].原核生物脂蛋白最早在大肠杆菌(Escherichiacoli)中被发现[7].研究发现,脂蛋白前体在胞质中合成,可以通过Sec分泌途径以未折叠形式穿过胞质膜,也可通过双精氨酸转位TAT途径或SecA突变体以折叠形式穿过胞质膜[8].前人对黄单胞菌中脂蛋白的研究主要集中在相关蛋白的表达、纯化以及结晶等方面[9],有关脂蛋白信号肽蛋白的找寻及功能分析的研究较少.

本研究参考前人报道的树生黄单胞杆菌全基因组序列[2],利用在线分析软件获取具有脂蛋白信号肽的蛋白序列,并对其进行生物信息学分析,为深入探索脂蛋白信号肽在树生黄单胞杆菌中的作用提供参考.

1 材料与方法

1.1 脂蛋白信号肽蛋白序列获取

通过NCBI下载树生黄单胞杆菌全基因组序列[2],Assembly ID为GCF_000972745.1.同时,通过LipoP v1.0[10]和SignalP 5.0 Server[11]在线程序分析预测获取具有脂蛋白信号肽的蛋白序列.

1.2 方法

1.2.1 跨膜区结构预测 利用在线跨膜区结构预测网站HMMTOP v2.0[12]和TMHMM Server v2.0[11]对脂蛋白信号肽蛋白进行批量预测,参数选择默认.

1.2.2 保守结构域预测 利用在线保守结构域特征分析软件SMART[13]分别对单条脂蛋白信号肽蛋白序列进行分析,参数选择默认.

1.2.3 亚细胞定位分析 利用亚细胞定位分析软件ProtComp v9.0[14]对脂蛋白信号肽蛋白进行批量预测并绘制其定位图,参数选择默认.

1.2.4 理化性质分析 利用理化性质测定程序Protscale[15]分别对单条脂蛋白信号肽蛋白序列进行测定,参数选择默认.

1.2.5 转运肽预测 利用蛋白质转运肽在线分析软件TargetP 1.1 Server[16]对脂蛋白信号肽蛋白进行批量预测,参数选择默认.

1.2.6 系统进化树构建 在NCBI中在线进行Blast同源搜索获取同源序列,并利用Clustal W[17]进行多重比对分析,然后通过MEGA X软件[18]采用最大可能性法构建系统进化树,系统可信度检测采用自举法重复500次.

2 结果与分析

2.1 树生黄单胞杆菌脂蛋白信号肽基本信息分析及保守结构域预测

图1 脂蛋白信号肽蛋白的氨基酸序列长度Fig.1 Length of protein with lipoprotein signal peptide

通过LipoP在线程序分析,树生黄单胞杆菌中共有175条具有脂蛋白信号肽的蛋白序列.氨基酸序列长度分析表明,144个脂蛋白中氨基酸序列长度集中于100~500个之间,其中,长度在150~200个的脂蛋白数量最多,共27个,所占比例为18.75%(图1).这说明分泌蛋白的氨基酸序列长度较小,可以较为灵活地行使其功能.

利用TMHMM对跨膜结构域进行分析可知,具有1次及以上跨膜结构域的蛋白序列共15条,而具有2次及以上跨膜结构域的蛋白序列共3条,其ID分别为WP_046344080.1、WP_046344566.1、WP_046345322.1;进一步利用HMMTOP进行预测发现,上述具有1次及以上跨膜结构域的蛋白序列共66条,而具有2次及以上跨膜结构域的蛋白序列共14条(表1).

表1 脂蛋白信号肽蛋白的跨膜情况1)Table 1 Prediction of transmembrane domain of protein with lipoprotein signal peptide

SMART在线分析表明,在175条具有脂蛋白信号肽的蛋白序列中,仅有13条蛋白序列具有明显的保守结构域,其ID分别为WP_016902868.1、WP_046342102.1、WP_046342121.1、WP_046342179.1、WP_046342359.1、WP_046342719.1、WP_046342748.1、WP_046343429.1、WP_046345193.1、WP_046345312.1、WP_046345322.1、WP_046345676.1、WP_144410810.1(图2).这些蛋白具有的保守结构域元件不尽相同,主要有Ycel、Tryp_SPc以及Autotransporter等.此外,功能分析结果显示,175个脂蛋白共具有103种功能.其中:假设蛋白(hypothetical protein)的数量最多,达48个;外排转运蛋白(efflux transporter outer membrane subunit)、外排 RND 转运蛋白(efflux RND transporter periplasmic adaptor subunit)、α或β水解酶(alpha or beta hydrolase)和EexN家族脂蛋白(EexN family lipoprotein)次之,数量分别为7、6、3和3个;其余功能的蛋白,如α或β折叠水解酶(alpha or beta fold hydrolase)、肠杆菌素A或B族脂蛋白(entericidin A or B family lipoprotein)、P型结合转移蛋白TrbG(P-type conjugative transfer protein TrbG)、山梨醇酮脱氢酶家族蛋白(sorbosone dehydrogenase family protein)、碱性磷酸酶(alkaline phosphatase)、酰胺酶(amidase)、苯甲醛脱氢酶(benzaldehyde dehydrogenase)等,仅有1或2个.

2.2 树生黄单胞杆菌脂蛋白信号肽蛋白亚细胞定位分析

ProtComp预测显示,有较多(90个)蛋白定位在线粒体,所占比例为51.43%,仅有少数定位在胞内细胞器(图3),符合脂蛋白信号肽所具有的功能特征[19].这说明具有脂蛋白信号肽的蛋白实现其功能的位置集中在线粒体、胞外以及质膜等.

2.3 树生黄单胞杆菌脂蛋白信号肽蛋白理化性质及亲(疏)水性预测

对树生黄单胞杆菌中具有脂蛋白信号肽蛋白的氨基酸组成进行统计分析,结果显示:A(丙氨酸)含量最高,平均达47个;L(亮氨酸)含量次之,平均为30个;而C(半胱氨酸)、H(组氨酸)、M(甲硫氨酸)、W(色氨酸)含量较低,平均仅为3、5、6和4个(图4A).

理化性质分析显示:理论等电点位于5.51~6.00的脂蛋白数量最多,达37个,所占比例为21.14%;等电点位于6.51~7.00和9.01~9.50的脂蛋白数量次之,分别为25和21个,所占比例分别为14.29%和12.00%(图4B).就蛋白稳定性而言,共84个蛋白不稳定性系数大于40,所占比例为48%(图4B).亲水性总平均值小于0的蛋白数量大于亲水性总平均值大于0的蛋白数量,且亲水性总平均值总和为-32.08,平均为-0.183(图4C),属于亲水性蛋白.就脂肪族氨基酸指数而言,共146个脂蛋白分布于70~100之间,所占比例为83.43%.其中,脂肪族氨基酸指数在80~90之间的脂蛋白数量最多,达63个,所占比例为36%(图4C).

Ycel、Tryp_SPc、PDZ、Autotransporter、PbH1、LysM、PQQ、alkPPc、TPR、PLDc、HisKA、HATPase_c、Leuk-A4-hydro_C、VWA分别为Ycel结构域、 胰蛋白酶样丝氨酸蛋白酶、PDZ结构域、转运蛋白β结构域、β-螺旋平行重复域、溶素基序、β-螺旋重复域、碱性磷酸酶同源物、四三肽重复 序列、磷脂酶D活性位点基序、His激酶A(磷酸受体)结构域、组氨酸激酶样ATP酶、白三烯A4水解酶C末端结构域、VWF因子A型域.图2 脂蛋白信号肽蛋白的保守结构域预测Fig.2 Conserved domain prediction of protein with lipoprotein signal peptide

通过网站Protscale对树生黄单胞杆菌中具有脂蛋白信号肽蛋白的亲(疏)水性进行预测,结果表明,该菌脂蛋白信号肽在亲(疏)水性最强氨基酸残基及其位置方面存在较大的差异.其中:ID为WP_046342719.1的脂蛋白中位于113位的R(精氨酸)亲水性最强,亲水性系数为-3.856;而ID为WP_046341912.1的脂蛋白中位于10位的A(丙氨酸)疏水性最强,疏水性系数为3.633(图5A).进一步对每个分泌蛋白的最强亲(疏)水性氨基酸残基进行统计分析,结果显示:最强亲水性氨基酸残基为A(丙氨酸)和L(亮氨酸)的脂蛋白数量最多,分别为55和53个;而最强疏水性氨基酸残基为D(天冬氨酸)和R(精氨酸)的脂蛋白最多,分别为22和35个(图5B).

A.脂蛋白氨基酸组成;B.蛋白质理论等电点及不稳定性系数分布情况;C.亲水性总平均值及脂肪族氨基酸指数分布情况.图4 脂蛋白信号肽蛋白的基本理化性质Fig.4 Physicochemical properties of protein with lipoprotein signal peptide

A.脂蛋白亲(疏)水性氨基酸残基分布情况;B.最强亲(疏)水性氨基酸残基分布情况.图5 脂蛋白信号肽蛋白的亲(疏)水性氨基酸残基的分布Fig.5 Distribution of hydrophobic/hydrophilic amino acid residue in protein with lipoprotein signal peptide

2.4 树生黄单胞杆菌脂蛋白转运肽及信号肽特征

TargetP分析表明:树生黄单胞杆菌脂蛋白信号肽中,ID为WP_024938962.1的蛋白定位于线粒体,预测可靠性为25.4%;WP_046344080.1、WP_046344566.1、WP_046345322.1、WP_046345399.1、WP_046345670.1、WP_080931464.1蛋白转运肽预测可靠性不高,未得到有效定位情况;其他脂蛋白均定位于信号肽.该菌脂蛋白信号肽中的转运肽定位于20~25之间的蛋白数量最多,达84个,所占比例为48%;预测可靠性位于35%~55%之间的蛋白数量最多,达87个,所占比例为49.71%(图6A).由于TMHMM和HMMTOP程序对于跨膜结构域和信号肽的预测存在重叠性,本研究利用SignalP 5.0对175条蛋白序列进行进一步分析,结果显示,163条序列具有明显的信号肽,其余均无明显信号肽.信号肽切割位点位于20~25之间的蛋白数量最多,达88个,所占比例为50.29%;预测可靠性位于20%~45%之间的蛋白数量最多,达120个,所占比例为68.57%(图6B).

A.转运肽;B.信号肽.图6 脂蛋白信号肽蛋白的转运肽及信号肽特征Fig.6 Characteristics of transit peptides and signal peptides of protein with lipoprotein signal peptide

2.5 遗传关系

系统进化树显示,具有脂蛋白信号肽的175条蛋白序列分为18大类,表明树生黄单胞杆菌中大部分脂蛋白信号肽蛋白之间的同源性并不高,少部分脂蛋白信号肽蛋白之间有较高的同源性以及较近的亲缘关系(图7).分支中Ⅰ类所含蛋白数量较少,仅有2个;所含蛋白数量最多的类群为ⅩⅦ类.这说明树生黄单胞杆菌中具有脂蛋白信号肽的蛋白在进化过程中产生了较大的分化.

图7 树生黄单胞杆菌脂蛋白信号肽蛋白序列及其同源序列之间的遗传关系Fig.7 Genetic relationship between sequences of protein with lipoprotein signal peptide in X.arboricola with homologous sequences

3 讨论与结论

脂蛋白几乎存在于所有细菌中,其通过N端脂质结构锚定在膜中,并参与诸多重要的代谢过程,包括营养吸收、信号转导、黏附、结合和孢子形成、对抗生素抗性的生成、脂蛋白转运和蛋白质的胞质折叠[19].脂蛋白是通过信号肽固定在细胞质膜上,而脂蛋白结构域存在于细胞周质或细胞外[20],因此,脂蛋白可作为靶标用于药物开发,同时其在维持细菌生理功能及增强细菌致病性和耐药性等方面发挥重要作用[21].

本研究表明:树生黄单胞杆菌中存在175个脂蛋白信号肽蛋白,大多数脂蛋白氨基酸长度集中于100~500个之间;13条蛋白序列具有明显的保守结构域;175个脂蛋白共具有103种功能,其中,假设蛋白的数量最多,为48个; 163条蛋白序列具有信号肽,且其中丙氨酸残基含量最高,平均为47个,而半胱氨酸、组氨酸、甲硫氨酸、色氨酸含量较低;90个蛋白定位在线粒体,所占比例为51.43%;同时,树生黄单胞杆菌脂蛋白在亲(疏)水性最强氨基酸残基及位置方面存在较大的差异,亲水性总平均值小于0的蛋白数量大于亲水性总平均值大于0的蛋白数量;大部分脂蛋白信号肽之间的同源性并不高.

目前,蛋白跨膜结构域的预测方法较多,包括DAS、HMMTOP 2.0、MEMSAT 2.0、MPEX、PHD、PSORT(ALOM2)、SPLIT 4.0、TMAP、TM-Finder、TMHMM 2.0、TMpred、TOPPRED 2等.本研究采用HMMTOP和TMHMM两种跨膜结构域分析软件对树生黄单胞杆菌脂蛋白开展分析,所得结果在跨膜结构域数量和位点方面存在一定差异,有待于今后通过生物学试验进一步验证.此外,由于天然状态下生物多糖大分子的高聚合度和不可溶性,微生物的多糖降解酶需要分泌到胞外才能与底物接触,实现多糖的降解.酶组分在胞质中被合成前体到分泌至胞外或与细胞膜结合的过程中,脂蛋白信号肽发挥了哪些作用,是否参与或影响胞吞作用,其在树生黄单胞杆菌致病过程中占据怎样的地位等问题,还有待进一步研究.

猜你喜欢
结构域脂蛋白杆菌
细菌四类胞外感觉结构域的概述
脂蛋白(a):携带武器的坏蛋
rpoB、gyrA、cheA基因在芽孢杆菌鉴定上的应用
转基因植物历史悠久
阴道乳杆菌主要种群异同与健康
胆固醇的来龙去脉
结核分枝杆菌蛋白Rv0089的生物信息学分析
黄星天牛中肠中内切葡聚糖酶的鉴定与酶活性测定
蛋白质功能预测方法研究进展
当心酵米面黄杆菌中毒