生物工程学报 2010年5期


2 江南大学食品学院 食品科学与技术国家重点实验室,无锡 214122




2 江南大学食品学院 食品科学与技术国家重点实验室,无锡 214122



Abstract:Selection of suitable signal peptides is an important factor for efficient secretion of heterologous proteins. We defined structural fusion degree (SFD) as the compatibility degree of target proteins and signal peptides by a bioinformatics approach. We mathematically analyzed the interaction of fused signal peptides and adjacent residues of proteins, and proposed a mathematical model of extended signal region and the protein. SFD Features was extracted from this model to characterize the secretability of heterologous proteins. Simulation tests showed that SFD features can effectively discriminate high secretory proteins from poor ones in the hostBacillus subtilis. Results from this research will be useful in signal peptide selection and have a better guiding significance for the optimization of heterologous protein secretion.

Keywords:signal peptide, secretion of protein, structural fusion degree, feature extraction

能穿过合成所在的细胞位置转移到其他细胞组织中去的蛋白质,统称为分泌性蛋白质。分泌性蛋白的分泌依赖于信号肽的存在 (一般位于蛋白质链的 N-端),新合成的蛋白质在信号肽的引导下实现转移以后,信号肽序列则在信号肽酶的作用下被切除[1-2],释放出成熟蛋白质。采用分泌方式将目标蛋白质直接输出到发酵液可大大提高工业生产率[3-4]。生物工程中采用基因技术分泌表达外源蛋白时,主要策略是推测目标蛋白质可能具有的分泌途径,将该途径可识别的信号肽融合到目标蛋白质,尝试其分泌表达水平。但是该方法通常带有较大程度的盲目性[5],因为外源蛋白质的来源菌种与宿主菌在进化关系上可能差别很大,不能预知蛋白质本身与它所融合的信号肽之间的相容程度。通过不断更换信号肽反复尝试或者对信号肽进行优化虽然方法可行,但试验费用较高且研究所包涵的共性结果较少,对其他外源蛋白质分泌表达的指导意义不大。生物信息学中常用的模式识别方法是分析和处理生物数据的重要手段[6-7],如果采用该智能预测技术对外源蛋白质的可分泌性进行预分析,可大大减少不必要的生物试验。

模式识别方法用于分泌性蛋白的研究,目前主要集中在识别给定蛋白中信号肽的存在以及识别信号肽的切割位点[8-12]。其中滑动窗体 (以切割位点为基准,包括上下游部分氨基酸) 的方法较适用于识别信号肽的切割位点[8-9],序列中相邻氨基酸的环境信息也有助于提高信号肽切割位点的预测精度[9-10]。SignalP3.0是目前准确率较高的信号肽预测软件[11],它采用固定长度滑动窗体与氨基酸组分特征相结合的方法可有效提高信号肽识别率。这些研究都是以独立的蛋白序列作为识别对象,没有替换和拼接新的信号肽,因此不必考虑蛋白质本身与信号肽之间的相容问题。而外源蛋白拼接了新的信号肽以后,蛋白主链仍与原蛋白质相同,拼接前后序列的相似程度很高,但分泌水平可能变化很大。目前已开发的蛋白序列特征提取方法,如:氨基酸组分[13]、序列顺序关系[14]、序列小波能量[9,15]等,直接用来识别外源蛋白质的分泌性难度很大,而且也不能揭示人工信号肽与目标蛋白质之间的相容程度。为了提取有效的特征向量来表征蛋白质的分泌特性,本研究建立了信号肽扩展序列与目标蛋白之间的数学关系模型,从该模型提取了结构融合度特征 (SFD),并利用这些特征来识别可分泌和不可分泌外源蛋白质。

1 材料:构建蛋白质样本数据集

枯草芽胞杆菌Bacillus subtilis属于革兰氏阳性真细菌,是食品安全菌种,能够将大量蛋白质以分泌的方式输出到细胞外,可作为分泌表达外源蛋白的良好受体菌[16-17]。本研究中采用的高分泌量天然样本来自枯草芽胞杆菌N-端融合了Sec途径信号肽的目标蛋白质,共有 4种:AmyE、AprE、NprB、SacB。外源蛋白质所融合的可识别信号肽来源于这些天然样本。另外根据研究要求,从已报道的在枯草芽胞杆菌中进行过分泌尝试的样本中,选择可分泌蛋白质和不可分泌 (极低分泌量) 蛋白质作为外源蛋白样本 (表1~2)。蛋白原始序列 (氨基酸序列)可在UniProtKB/Swiss-Prot数据库(http://www.uniprot.org/uniprot/) 中查询获得。信号肽序列位于蛋白质主链的前面 (也就是N端),数据库中用signal记录说明。

表1 高分泌外源蛋白样本信息Table 1 Information of high secretory heterologous protein samples

用枯草芽胞杆菌中可识别的高分泌蛋白质AmyE、AprE、NprB、SacB的信号肽作为人工信号肽 (表3),根据表 1~2中信号肽与各外源蛋白质的对应关系,若外源蛋白质是不可分泌蛋白质,直接将外源蛋白质与相应人工信号肽进行融合。若外源蛋白质是可分泌蛋白质且有自己的信号肽,则切除其原始信号肽,再与相应人工信号肽进行融合,过程如图1所示,其中 (a) 为从天然样本中获得可识别的信号肽序列,(b) 为切除外源样本的原始信号肽序列,(c) 为将天然可识别信号肽融合到外源蛋白质的N-端。生物方法即为采用基因技术将可识别的天然信号肽融合到外源蛋白质的N-端。

对表 1~2中的所有外源蛋白样本,利用计算机技术切除原始信号肽序列,然后再拼接人工信号肽序列,得到各个外源蛋白质的新序列样本,从而构建人工研究样本集。

图1 将可识别的天然信号肽融合到外源蛋白质的N-端Fig.1 Model for recognized natural signal peptide in-frame fuse to N-terminal of heterologous protein chain.

2 方法:特征提取

2.1 氨基酸组分特征


表2 低分泌外源蛋白样本信息Table 2 Information of poor secretory heterologous protein samples

表3 信号肽序列信息Table 3 Information of signal peptides


其中 Ri(i=1,2,3…n) 为集合 Θ中的字符。为了能用计算机处理蛋白质样本,需要把字符序列表示成向量数据,传统的离散化方法是用20维向量来表示蛋白质的20种氨基酸组成[13]:

与集合Θ中的字符排列顺序对应,其中f1表示丙氨酸(A) 在整条蛋白质序列中出现的频率,f2表示半胱氨酸(C) 在整条蛋白质序列中出现的频率,以此类推。这样可以提取蛋白质基本组成的20维特征向量。

2.2 结构融合度特征 (SFD)





其中Ri(i=1,2,3…l+15) 为集合Θ中表示氨基酸名称的字符。根据子序列分布集合的描述方法[18],构建了信号肽扩展序列 S的子序列分布集合,集合中是序列 S的所有包含信号肽片段的子序列。由于信号肽序列一般包括3个功能区域[19],分别由不同极性的氨基酸组成,考虑到3个功能区域的相互作用,子序列应包含完整的信号肽序列。例如:第k(k≤16)条子序列是Uk={R1R2... RlRl+1... Rl+k-1}。按此规则,可以得到唯一的子序列分布集合:Ω=(U1U2... U15U16)。其中:

图 3的例子显示了信号肽扩展序列通过窗体拉伸得到的子序列分布集合 (即框中的子序列)。其中原信号肽长度为l=23 (即灰色区域内的序列)。显然,序列集合Ω中共有16条子序列,其中U1就是信号肽序列,U16就是信号肽扩展序列。每条序列都比前一条序列多一个氨基酸残基。子序列长度的延伸包含了信号肽与蛋白主链邻近残基之间的相互作用,因此扩展序列信息集一定程度上蕴含了拼接区域的局部特征,也蕴含了局部结构的融合信息。

图2 信号肽扩展序列Fig.2 Extended signal peptide sequence.

图3 信号肽扩展序列的子序列分布集合Fig.3 Distribution of sub sequence set of extended signal peptide sequence.



其中V1=[v1,1v1,2…v1,20]’ 是子序列U1的特征向量,V2=[v2,1v2,2…v2,20]’ 是子序列 U2的特征向量,以此类推。按照同样方法提取整个蛋白质链的特征向量B=[b1b2…b20]’。


矩阵C是对称阵,其中第(i,j) 个元素是矩阵A中第i维分量与第j维分量 (第i行与第j行) 的协方差。设D是由C的特征向量组成的矩阵,由于矩阵的特征向量既能描述矩阵本身的特征又不损失矩阵信息,还能方便数学上的处理,因此在矩阵D与向量B之间建立数学关系:

矩阵D蕴含了信号肽拼接区域的特征,向量B则蕴含了整个蛋白质链的特征,因此未知向量X=[x1x2…x20]’可以体现信号肽拼接区与目标蛋白质之间的内在关系,这里称为结构融合度特征 (SFD),这种特征向量可用来描述外源蛋白质的分泌特征。

若D是满秩矩阵,则D−1存在,方程组(1)的解向量为X=D−1B。当矩阵D是奇异矩阵时,D−1不存在,可用最小二乘法得到方程组(1) 的解向量。这种基于融合程度的方法只依赖于序列本身,不涉及任何主观因素,可以快速对人工信号肽与蛋白主链建立内在关系分析,避免了不断更换信号肽进行反复尝试的盲目性。

3 模拟实验与结果分析

在第 1部分构建的人工蛋白序列集上,分别取信号肽扩展序列的延伸长度为 5、10、15、20,对不同的延伸长度,每个蛋白序列均提取20维的结构融合度特征,加上氨基酸组分的基础特征,这样共得到 5个分别用不同特征向量表示的数据集。为了直观观察各数据集中的样本分布情况,同时尽量保持原样本间的相互距离关系,用线性映射的方法[20]将特征向量投影到二维平面,结果如图4。

对于以上 5种特征,用下面的指标来检验其有效性:即类内距离tr(Sw) 尽量小,类间距离tr(Sb) 尽量大的准则。因此类间距与类内距的比值tr(Sb)/tr(Sw) 越大,聚类效果越好。


表4 不同特征的有效性指标Table 4 Validity indexes of different features


采用FCM模糊聚类算法,分别用上述5种特征向量对表 1~2中的各蛋白样本进行聚类分析,划分为可分泌和不可分泌两类 (其中天然可分泌样本和人工可分泌样本属于同一类),聚类结果如表5。

图4 不同特征集的二维分布效果Fig.4 2-D mapped distribution of different features. (a) Features of amino acid composition. (b) Features of SFD (prolongation is 5)(c) Features of SFD (prolongation is 10). (d) Features of SFD (prolongation is 15). (e) Features of SFD (prolongation is 20).

通过模拟实验发现,信号肽延长的氨基酸个数较少 (<5) 时,信号肽本身的特征信息影响较大,聚类结果基本上按照信号肽的种类划分,也就是同一种信号肽会划分为一类,不能区分可分泌和不可分泌蛋白质。相反,当信号肽延长的氨基酸个数较多 (>30) 时,信号肽本身的特征信息被淡化,结构融合度特征与整个蛋白质链的特征向量很接近。

为进一步测试利用SFD特征对外源蛋白分泌性的识别效果,与目前常用的信号肽预测软件进行了实验比较,分别是 SignalP3.0 (http://www.cbs.dtu.dk/services/SignalP/),TargetP(http://www.cbs.dtu.dk/services/TargetP/),PrediSi (http://www.predisi.de/),Phobius(http://www.ebi.ac.uk/Tools/phobius/)。其中 SignalP3.0包括神经网络(SignalP3-NN)和隐马尔科夫模型(SignalP3-HMM)两种预测结果,SignalP3-NN中用3种分值:max S、mean S、D-score预测给定蛋白中是否存在信号肽,其中max S是预测信号肽存在的粗测值; mean S可预测信号肽长度,也是SignalP2.0中识别信号肽的标准; D-score是识别信号肽的高级标准。对于 4种信号肽来源的天然样本,实验所涉及的几种算法均能给出正确预测结果,无需再做比较,故这里只列出各算法对人工样本的预测结果(表 6~7)。


表5 采用不同特征得到的聚类精度Table 5 Clustering accuracy obtained by different features

表6 高分泌外源蛋白样本的预测结果Table 6 Prediction results of high secretory heterologous protein samples

表7 低分泌外源蛋白样本的预测结果Table 7 Prediction results of poor secretory heterologous protein samples

4 结论



Characterization of protein secretion based on structural fusion degree

Cuifang Gao1, Xiaojun Wu1, Fengwei Tian2, Yu Xia2, and Wei Chen2

1School of Information Engineering,Jiangnan University,Wuxi214122,China
2State Key Laboratory of Food Science and Technology,School of Food Science and Technology,Jiangnan University,Wuxi214122,China

Received:November 19, 2009;Accepted:February 2, 2010

Supported by:Program for New Century Excellent Talents in University of China (No. NCET-06-0487), National Natural Science Foundation of China (Nos. 60572034, 60973094, 30670065), Natural Science Foundation of Jiangsu Province (No. BK2006081), Program for Innovative Research Team of Jiangnan University (No. JNIRT0702).

Corresponding author:Xiaojun Wu. Tel: +86-510-85912139; Fax: +86-510-85912136; E-mail: wu_xiaojun@yahoo.com.cn

教育部新世纪优秀人才计划项目 (No. NCET-06-0487),国家自然科学基金 (Nos. 60572034, 60973094, 30670065),江苏省自然科学基金 (No.BK2006081),江南大学创新团队计划项目 (No. JNIRT0702) 资助。
