王铁霖 严婉荣 闫莎莎 杨玉文 赵廷昌
摘要:利用signal3.0、LipoP和TargetP对瓜类果斑病菌Acidovorax avenar subsp.citrulli AACOO-1菌株基因组中4709个ORFs进行分析,对该病菌基因组中信号肽的数量、长度和氨基酸组成进行了预测,并对其进行分类。结果确定其中476个0RFs所编码的N-端有信号肽序列,占全部ORFs的10.10%。信号肽长度为14~48个氨基酸,以20~35个氨基酸居多,26个氨基酸的信号肽最多。组成信号肽的氨基酸中,非极性氨基酸占47.80%,极性氨基酸占23.04%,带负电荷的酸性氨基酸占15.87%,带正电荷的碱性氨基酸占8.73%。预测的476条信号肽中,有384条分泌型信号肽(SPI),40条脂蛋白型信号肽(SPH),51条TMHI型信号肽和1条CYT型信号肽。在分泌型信号肽中,有96个信号肽具有RR-motif的保守区段。
关键词:Acidovorax citrulli;信号肽:分析
细菌性果斑病是发生在甜瓜、西瓜等葫芦科植物上的一种严重的世界性病害。其病原是嗜酸菌属西瓜种(Acidovorax citrulli)。此病是一种毁灭性病害,一旦发生可造成严重的经济损失。2007年1月14日,US DOE Joint Genome Institute的Copeland A,Lucas S等完成对菌株Acidovorax avenoe subsp.cit-rulli AACOO-1全基因组的测序工作(NC 008752),其中有4709个ORFs能够编码蛋白。
信号肽一般由10~60个氨基酸残基组成,被1个疏水中心区(H-region)分为3个部分,即N结构域、H结构域、C结构域。疏水中心区(H-region)主要由疏水氨基酸(亮氨酸L,缬氨酸V,异亮氨酸I)构成;C区有着更强的极性,这个区域极性氨基酸(苏氨酸T,丝氨酸S等)的分布较其他2个区更多:N一末端为带正电荷的碱性氨基酸残基。疏水中心区根据信号肽氨基酸组成及切割位点信号肽识别序列的不同,将信号肽分为信号肽酶I型(SPI)、信号肽酶Ⅱ型(SPII)、CYT型信号肽及TMHI型信号肽4种类型。
Signal基于神经网络方法和隐马可夫模型2种算法预测信号肽剪切位点:LipoP以预测SPII型为主,即脂蛋白的数量、切割位点及切割位点后+2位上氨基酸的种类,同时根据分析可以预测蛋白质的类型;TargetP主要预测蛋白质到达的亚细胞位点。这3种软件虽然各有侧重。但它们所得到的结果却有很大的相关性,经证明对于信号肽预测,蛋白质功能和蛋白质分泌位点的预测简单且较为可靠。
本研究利用这3种计算机预测方法对植物病原细菌Acidovorax avenae subsp.citrulli AACOO-1全基因组进行信号肽预测分析。
1材料和方法
1.1实验材料
从NCBI(http://www.ncbi.nlm.nih.gov/nuccore/NC_008752)上获得Acidovorax avenae subsp.citrulliAACOO-1的全基因组序列、ORFs的功能注释等相关信息。
1.2预测方法
利用http://www.cbs.dtu.dk/services提供的Sig-nal 3.0、TargetP 1.01和LipoP 1.0分析Acidovoraxavenae subsp.citrulli AACOO-1菌株基因组中全部ORFs的N端氨基酸序列。
(1)Signal 3.0(http://www.cbs.dtu.dk/services/SignalP/)在Gram-negative bacteria状态下预测所有ORFs的N端氨基酸序列,预测是否存在信号肽。记录神经网络方法获得每个ORF的Cmax值、Ymax值、Smax值、Smean值、D值及其位点和应用隐马可夫模型的Cmax值及Sprob值。根据软件的默认选择,将神经网络方法分析获得D值>0.44和隐马可夫模型获得的Cmean值>0.5的ORFs确定为具有信号肽的ORFs。同时,以神经网络方法分析获得Ymax的切割位置作为切割位点。
(2)LipoP 1.0(http://www.cbs.dtu.dk/services/LipoP/)分析N端氨基酸序列,预测蛋白质类型。
(3)TargetP 1.0.1(http://www.cbs.dtu.dk/services/TargetP/)分析Acidovorax avenae subsp.citrulli AACOO-1预测分泌蛋白所到达的亚细胞位点。
1.3统计分析
将从Signal,LipoP和TargetP中获取的数据用Excel软件进行相关数据的统计分析。
2结果与分析
综合Signal,LipoP和TargetP预测结果,对Aci-dovorax avenae subsp.citrulli AACOO-1编码蛋白基因序列分析结果如下:
2.1信号肽数量和长度
经预测,有476个ORFs具有信号肽,占全部ORFs的10.10%。信号肽所在的ORFs长度最小为14个氨基酸残基,最大为971个氨基酸残基,平均303个氨基酸残基,ORFs分布在301-400个氨基酸范围内数量最多,201~300个氨基酸范围内数量次之,100-400个氨基酸共占总数的76.89%(图1)。信号肽长度在14~48个氨基酸之间,以20~35个氨基酸居多,其中长度为26个氨基酸的信号肽最多,共34条,占7.14%(图2)。
2.2信号肽氨基酸组成
对组成信号肽的氨基酸种类作了系统的统计分析(表1),发现组成信号肽的氨基酸中非极性氨基酸占47.80%,极性氨基酸占23.04%:带负电荷的酸性氨基酸占15.87%,带正电荷的碱性氨基酸占8.73%;含量最多的3种氨基酸依次为丙氨酸(A)、亮氨酸(L)和丝氨酸(S),最少的氨基酸是谷氨酸(E);在切割位点-1端的氨基酸中85.8%均为丙氨酸(A),在切割位点+1~+3位中最多的氨基酸也是丙氨酸(A)。
2.3氨基酸种类分析
经LipoP分析,根据信号肽氨基酸组成及切割位点信号肽识别序列的不同将信号肽分为4种类型:信号肽酶I型(SPI)、信号肽酶Ⅱ型(SPII)、CYT型及TMHI型信号肽。其中384条SPI型信号肽,40条SPH型信号肽,51条TMHI型信号肽和1条CYT型信号肽。
2.3.1信号肽酶I型(SPI型)
2.3.1.1分泌类信号肽(Sec-type) Sec-type的典型结构:N-端由2~3个带正电荷的氨基酸(K或R)组成,也有的由5~11个带正电荷的氨基酸组成。H-domain由平均19个氨基酸构成。C-domain(切
割位点前3位的氨基酸)典型结构为A-X-A(A为丙氨酸,X指任意一种氨基酸)。在预测分析的384条SPI型信号肽中,有265条在C-domain中出现A-X-A典型结构,信号肽长度在16~50个氨基酸,其所在ORFs的长度在62~762个氨基酸。根据TargetP的结果确定,其分泌途径及亚细胞位点为s的(即分泌到周质空间)占87.32%,m的(即分泌到线粒体中)占9.76%,未确定分泌位点的占2.92%。
2.3.1.2 RR-motif信号肽RR-motif类信号肽是指在信号肽中含有RR-X-##(X为任意氨基酸,##指疏水氨基酸)的保守序列。通过分析发现96个信号肽具有RR-motif保守区段信号肽长度在20~45个氨基酸之间。在##中,亮氨酸(L)出现的频率最高,占32.29%。其中有67个信号肽在C-domain(切割位点前3位的氨基酸,即-3~-1位)中出现A-X-A典型结构(表2)。根据TargetP的结果确定分泌蛋白的分泌途径及所到达的亚细胞位点为s的占46.27%,m的占52.23%,未确定的占1.49%。
2.3.2脂蛋白型信号肽SPII型分泌蛋白信号肽也称为脂蛋白信号肽,其典型结构C-domain为:L-(A/S)-(A/G),在切割位点后+1位氨基酸为半胱氨酸(C),这样就形成了保守的L-(A/S)-(A/G)-C的Li-pobox典型结构。该结构使脂蛋白被切割后依然能够锚定在质膜上。该类信号肽通常比分泌型信号肽短。通过分析预测有40条脂蛋白型信号肽(表3),其长度在14~33个氨基酸之间,信号肽-1~-3位出现的氨基酸种类按数量多少依次为丙氨酸(A)、亮氨酸(L)、甘氨酸(G)、苏氨酸(T)、丝氨酸(s)和蛋氨酸(M)。其中具Li-pobox典型结构的信号肽有23个,共占脂蛋白类信号肽的57.50%,其酶切位点的-1~-3位字体加粗表示。酶切割位点-1位上的丙氨酸占40.00%,-3位上的亮氨酸占85.00%。
2.3.3 TMHI型信号肽和CYT型信号肽经预测,有51条TMH I型信号肽蛋白,占全部基因组的1.08%,长度在19-40个氨基酸之间:有1条CYT型切割位点进行预测,预测值表示为Smean和Dscore;后者主要是对该氨基酸序列是否具有信号肽进行分析和预测,同时也对信号肽切割位点及分布进行预测,预测值表示为Cmax。这几个重要参数在信号肽的判断上存在着一定的差异。为了保证结果的可靠性,选用上述参数的统一标准进行预测,以便提高预测结果的可靠性。同时,利用不同软件对同一基因组进行分析,其结果也会有所差异,例如。用Signal3.0对全基因组预测有478条
信号肽。而用LipoP软件预测为476条,Aave-0814(ref 969186)和Aae-4152(ref 972467)没有信号肽结构,并且信号肽长度预测也略有不同。这也是由于不同软件所使用的算法不同。因此,通过多种软件同时对1个基因组蛋白进行严格筛选分析,可有效提高预测的准确性,
用TargetP分析Acidovorax avenar subsp.citrulliAACOO-1信号肽分泌蛋白亚细胞器分布时发现,分泌蛋白的分泌途径及所到达的亚细胞位点为S型分泌途径,即分泌到周质空间中占87.32%,M型分泌途径,即分泌蛋白位于线粒体的占9.76%。未确定的占2.92%。S型分泌途径占有较大比例,这反映了“革兰氏阴性菌分泌蛋白通常直接分泌到周质空间和细胞膜外”理论的正确性。
4.结论
瓜类细菌性果斑病菌Acidovorax avenae subsp.citrulli AACOO-1作为一种重要的植物病原细菌,基因组中保留如此众多的潜在分泌蛋白,表明该类蛋白具有重要的生理功能。本实验利用Signal 3.0、LipoP和TargetP对瓜类果斑病菌Acidovorax avenaesubsp.citrulli AACOO-1菌株基因组中4709个ORFs进行分析,对该病菌基因组中信号肽的数量、长度和氨基酸组成进行了预测,并对其进行了分类。证实这些蛋白中哪些是真正的分泌蛋白。在什么条件下分泌哪些蛋白到菌体外。并分析分泌到菌体外的蛋白在与寄主、环境互作中有什么作用,有助于更完整系统地研究该病原菌的基因组特性,同时对进一步了解该病原菌的生物学特性、致病性,以及病原与寄主的互作等特性也很有帮助。