细菌性病原体内病毒蛋白的预测和研究

2016-10-20 01:24王彤薛建新孔亮亮

上海第二工业大学学报 2016年3期

关键词：编码方法特征向量准确率

王彤，薛建新，孔亮亮

（上海第二工业大学计算机与信息工程学院，上海201209）

细菌性病原体内病毒蛋白的预测和研究

王彤，薛建新，孔亮亮

（上海第二工业大学计算机与信息工程学院，上海201209）

确定细菌性病原体内某种未知蛋白质是否属于病毒蛋白非常重要。如果是病毒蛋白，研究其在病原体内的致病机制能有助于设计出抗病毒药物。特别是，近几年发现大量的病毒蛋白质序列，如果仍用传统的物理化学方法去测定非常困难，找到能自动预测细菌性病毒蛋白的方法迫在眉睫。首先采用基因本体论（Gene Ontology，GO）和特定位点记分矩阵（Position-Specific Score Matrix，PSSM）的组合特征表达方法编码蛋白质序列，接着采用流形学习方法对编码后的高维蛋白质特征向量进行维数约简。然后把约简后的特征向量，输入K近邻（K Nearest Neighbor，KNN）分类器进行训练，利用训练好的分类器预测未知蛋白是否为病毒蛋白。最后，采用Jackknife测试方法检验预测准确率，测试结果表明上述方法是十分有效的，能解决细菌性病原体中病毒蛋白预测这个复杂的问题。

细菌性病原体；病毒蛋白；预测

0　引言

细菌性病原体（Pathogen）是指能引起疾病的微生物。病原体属于寄生性生物，一般寄生在动植物或人上。一般情况下，病原体利用宿主的身体来生存和生长，并且在宿主细胞内增殖，再导致宿主细胞的正常功能受损，使人体致病。有些细菌还会分泌对寄主有毒的病毒蛋白质，导致轻度反应如腹泻，或严重的情况下有致命的影响。

如今，大量的细菌性病原体基因组被完全测序。如果采用传统的实验方法测定这些海量的生物数据是有限的，并且这些方法的研究规模小，成本高、耗时长、产出低，难以达到高通量。因此，采用生物信息学的方法来预测细菌性病毒蛋白质，可以有效地解决传统实验方法带来的问题，同时有助于提高对细菌毒性的认识，以及对未鉴定的病毒基因的注解和新型抗菌目标的开发。传统生物信息学主要针对已知的细菌性病毒蛋白进行BLAST和PSI-BLAST的相似性搜索，来预测未知的细菌性病毒蛋白，但这种方法无法发现新的病毒蛋白。后来，又提出了采用机器学习算法来预测病毒蛋白质。Sachdeva等［1］采用人工神经网络的方法预测未知细菌性病毒蛋白。Garg和Gupta［2］采用集成支持向量机（Support Vector Machine，SVM）的方法，即利用不同的支持向量机分类器训练不同的细菌性病毒蛋白特征向量，根据分类器的集成结果预测未知病毒蛋白。Nanni等［3］则提出了另外一种SVM分类器集合的方法预测病毒蛋白。最近，Liu等［4］采用二肽组成（Dipeptide Composition，DC）、基于伪氨基酸组成（Pseudo Amino Acid composition，PseAA）和特定位点记分矩阵（Position-Specific Score Matrix，PSSM）等组合特征表达方法编码蛋白质序列，这样就可以用这个序列来预测细菌性病原体内的病毒蛋白。

本文提出一种采用基因本体论（Gene Ontology，GO）［5］序列编码方法来预测病毒蛋白。GO序列编码方法虽然比较全面地表达了蛋白质序列的功能信息，但GO方法的计算复杂，且对大多数未知蛋白无法计算其特征表达向量，此外GO方法依赖于Inter-Pro和GO数据库的变化，因此不稳定。为了解决这一问题，本文采用组合特征表达方法，即将基因本体GO方法与PSSM相结合［6-7］的方法，并将该方法引入到病毒蛋白质的预测问题中。实验结果表明，采用该方法显著提高了病毒蛋白质预测的准确率。但采用这种表达方法得到的蛋白质特征向量的维数很高，会带来“高维灾难”，它的直接负面影响在于会使预测细菌性病毒蛋白质的过程更加复杂［8-9］。为了简化复杂的生物系统，本文采用邻域保持嵌入降维算法（Neighborhood Preserving Embedding，NPE）［10］，从原来的高维向量中提取维数较低的关键特征矢量。然后，基于降维后的低维特征向量，采用K近邻（K Nearest Neighbor，KNN）分类器来识别病毒蛋白。采用Jackknife测试方法的实验结果表明，上述方法是非常有效的，能解决复杂的生物学问题。

1　材料和方法

1.1数据集

所用的标准数据集取自Garg和Gupta［2］，其中包含一个训练数据集。可以通过网站http：//bioinfo.icgeb.res.inlvirulent下载。训练数据集包含2 055个蛋白质序列，其中1 025个为病毒蛋白，1 030个为非病毒蛋白。

给定一个待查询蛋白质序列P，为了预测它是否是细菌性病毒蛋白质，需要做的第一件重要的事情是采用适当的编码方法来表达它。这个编码方法不仅含有尽可能多的序列信息，而且还可以通过有效的预测算法来处理。序列编码方法GO就是其中一种。下面，简要介绍了GO。

1.2GO序列编码方法

GO这个名称起源于本体论，本体论定义为相关领域里词汇之间关系的规范化说明。换句话说，本体论就像是确定条目的集合。同理，GO也旨在建立一个描述基因和蛋白质功能的规格说明。这个说明实现了在不同数据库中对蛋白质和基因功能描述的一致性。GO数据库中用一组条目（GO number）来描述蛋白，例如，GO：0000001，GO：0000002，GO：0000003等。其中，每个GO number的含义是3个相对独立的子本体即生物过程子本体（Biological Process）、分子功能子本体（Molecular Function）和细胞组成子本体（Cellular Component）中的一个。具体的计算过程如下［11］：

（1）首先从UniProtKB/Swiss-Prot数据库中读取一条蛋白质数据，至少有一条GO numbers与该蛋白质对应。由于蛋白质具有多个生物功能，或者蛋白质参与多个生物过程，所以UniProtKB/Swiss-Prot和GO之间的对应是一对多的。

（2）由于GO数据库中的GO number是杂乱无序的，所以要将其重新排序，重新排序后的GO数据库，记为

（3）对于一条给定的蛋白质P，搜索UniProtKB/Swiss-Prot数据库，将其映射到，如果能找到则配对成功，令该为1，否则为0，即蛋白质P可以表示为

式中，

由上述步骤可将蛋白质序列表示为3 140维特征向量。

1.3PSSM序列编码方法

PSSM序列编码方法引入了蛋白质序列的进化信息，因此它对蛋白质特征的描述更加全面。一条蛋白质通过采用该序列编码方法，可表示为420维的特征向量：

人体内有多种蛋白质，蛋白质又由多种氨基酸组成，氨基酸的种类有20种，每一种都对应一个字母，采用1，2，···，20的下标来表示每一个字母。式（3）中PPSSM-420矩阵的前面20项可通过计算PPSSM中每一列的平均分数得到，PSSM矩阵可以表示为［8］

蛋白质P的长度为N，PPSSM矩阵中Ai→j表示蛋白质序列P的第i-th个位置的氨基酸进化为第j种氨基酸时得到的分数（i，j=1，2，···，20）。20仍然代表氨基酸的种类［9］。

式（3）中PPSSM-420的行向量S1，S2，···，S400是由一个20×20的矩阵PPSSM-20×20按照从上到下、从左到右的顺序转变而来的，将PPSSM中对应于20种氨基酸的值分别求和即得一个20×20的矩阵

本文采用一种组合蛋白质序列编码方法来表达蛋白质序列，即采用GO算法和PSSM算法相组合的方法。蛋白质序列经过编码后变为一个3 140+420=3 560维的向量。该特征向量维数较高，这会导致病毒蛋白的预测问题复杂化。本文提出了采用NPE的方法来解决上述问题。

1.4NPE降维算法

NPE算法为局部线性嵌入（Locally Linear Embedding，LLE）算法的线性近似，其基本思想是寻找原始变量空间中隐藏的低维流形信息，并在降维的同时保留样本空间的局部流形结构［10］。给定m维训练数据点集X（x1，···，xn）∈Rm，首先对每个样本点构建邻域集。NPE假定每个局部近邻都是线性的，因此每个样本都可以通过它的k个最近邻样本进行线性重构。重构系数矩阵w可以通过最小化下式的重构损失函数实现：

作为一种线性降维算法，NPE算法的目标是寻找一组投影向量a，组成投影矩阵A（a1，···，ad）∈Rm×d，使得原始数据集投影到低维空间Y（y1，···，yn）∈Rd（d＜m）后，低维空间数据具有与原始空间相似的局部几何结构。即低维邻近点能够较好地反映出高维空间中样本点的重构关系，如果wij重构数据点xi，则它也可以在低维空间中重构其对应的投影数据yi。通过最小化式（5）得到的权重矩阵w，投影矩阵A可以通过求解如下的极小值问题得到：约束条件为：yTy=aTXXTa=I，其中I为单位矩阵。

利用拉格朗日乘子法来求解以上优化问题，式（6）可以转化为如下的广义特征值求解问题，即：

式中，M=（I-w）T（I-w）是对称半正定矩阵，λ是特征值向量。求解式（7）中最小的d个特征值所对应的特征向量，这些特征向量组成投影矩阵A=［a1···ad］。基于上述步骤，原始高维数据的局部空间几何结构特征在低维空间得到了有效地保留。NPE算法实现了原样本集中的近邻点在低维空间的投影仍然是近邻，同时低维空间中的邻域结构还与原来相似。

2　结果与讨论

采用NPE算法从3560-D蛋白质特征向量中提取出最重要的特征向量，经过运算最终得到240维重要的特征向量。然后把这些特征向量输入KNN分类器进行训练，最后用训练好的KNN分类器来预测未知病毒蛋白。

表1所用的标准数据集取自Garg和Gupta［2］。采用Jackknife方法来测试本文提出方法的预测准确率。为了便于比较，表1还列出了没有采用NPE算法直接在3560维特征向量上预测病毒蛋白的准确率。从表中可以看出，采用本文提出的方法预测病毒蛋白可以获得超过85%的准确率，比没有采用NPE降维算法得到的预测准确率高约18%。实验结果表明，通过降维将冗余信息去掉了，同时原始数据中有用的信息被保留了下来。预测系统得到简化的同时还提高了分类准确率。

表1　采用不同的方法预测病毒蛋白质的Jackknife准确率Tab.1The Jackknife success rates for virulent protein prediction by different methods

从表2可以看出，通过组合序列编码方法得到的预测准确率比单一序列编码方案得到的预测准确率高。同时，采用NPE算法后获得的预测准确率都高于那些没有采用NPE的方法获得的预测准确率。总之，结果表明，预测准确率在同时采用组合编码方法和NPE降维算法时取得最高。

表2　采用不同的序列编码方法在原始高维向量和经过NPE约简后的240维向量上预测病毒蛋白质的Jackknife测试结果比较Tab.2The Jackknife Success Rates for virulent proteins prediction by using the original high dimensional vector（3560-D）and dimension-reduced vector（240-D）with two different sequence encoding schemes

同时，基于NPE算法得到的不同维数下的预测准确率如图1所示。当蛋白质特征向量的维数降为240维时得到的预测准确率最高。

图1　针对蛋白质特征向量采用NPE方法降到不同维数的Jackknife预测准确率比较结果Fig.1 A plot to show the overall Jackknife success rates for the protein descriptors with different dimensions generated by NPE

此外，KNN分类器中的一个参数最近邻数K需要调整，K的取值大小会影响分类的性能。基于不同K下的预测准确率如图2所示，可以看出：采用KNN分类算法，在约简后的240维向量上，当K等于1时预测准确率最高；在原始高维向量上，预测准确率最大值也在K等于1时取得。

图2　在原始高维向量和经过约简后的240维向量上采用KNN方法当K取不同值时的Jackknife预测准确率比较Fig.2 A plot to show the overall Jackknife success rates obtained by KNN based on the original 3560-D vector and dimension-reduced 240-D vector with different K

3　结语

本文中所提出的方法在预测病毒和非病毒的蛋白质方面是非常有效的。现有的预测主要集中在寻找最佳的分类方案。与传统的方法不同，本文提出的方法以简化生物系统的复杂性为主。在本文中，应用NPE降维算法从高维空间中提取维数较低的关键特征向量，然后基于降维后的特征向量再利用KNN分类器来预测其是否为病毒蛋白。结果表明，该方法不但降低了预测未知病毒蛋白的复杂性，而且还提高了预测的准确率。

［1］SACHDEVAG，KUMARK，JAINP，etal.SPAAN：Asoftware for prediction of adhesins and adhesin-like proteins using neural networks［J］.Bioinformatics，2005，21（4）：483-491.

［2］GARG A，GUPTA D.VirulentPred：A SVM based prediction method for virulent proteins in bacterial pathogens［J］. Bmc Bioinjormatics，2008，9（2）：62-73.

［3］NANNI L，LUMINI A.An ensemble of support vector machines for predicting virulent proteins［J］.Expert Systems with Applications an International Journal，2009，36（4）：7458-7462.

［4］LIU B，ZHU W，LI B，et al.A combination of feature extraction methods with an ensemble of support vector machines for bacterial virulent proteins prediction［J］.Journal of Computational and Theoretical Nanoscience，2015，12（8）：1813-1817.

［5］WANG X，ZHANG J，LI G.Multi-location gram-positive and gram-negative bacterial protein subcellular localization using gene ontology and multi-label classifier ensemble［J］.Bmc Bioinformatics，2015，16（suppl 12）：1-7.

［6］JONES D.Protein secondary structure prediction based on position-specific scoring matrices［J］.Journal of Molecular Biology，1999，292（2）：195-202.

［7］ALTSCHUL S，MADDEN T，SCHAFFER A，et al. Gapped BLAST and PSI-BLAST：A new generation of protein database search programs［J］.Nucleic Acids Research，1997，25（17）：3389-3402.

［8］王彤，杨志珍，曹晓夏.基于线性降维方法的蛋白质四级结构类型预测［J］.上海第二工业大学学报，2013，30（1）：12-17.

［9］王彤，薛建新，谭文安.利用半监督降维算法预测蛋白质亚细胞位置［J］.上海第二工业大学学报，2015，32（3）：260-265.

［10］HE X，CAI D，YAN S，et al.Neighborhood preserving embedding［C］//Proceedings of the 10th IEEE International Conference on Computer Vision.Beijing：IEEE Press，2005：1208-1213.

［11］王彤.高维生物数据的分类与预测研究［D］.上海：上海交通大学，2009.

The Prediction and Research of Virulent Protein in Bacterial Pathogens

WANG Tong，XUE Jianxin，KONG Liangliang
（School of Computer and Information Engineering，Shanghai Polytechnic University，Shanghai 201209，P.R.China）

It is very important to determine whether some unknown proteins belong to virulent proteins in bacterial pathogens or not. If it is a virulent protein，the study of the pathogenesis of the pathogen can be helpful to design antiviral drugs.In particular，a large number of virulent protein sequences have been discovered in recent years.It is difficult to still use the traditional methods of physical and chemical to determine.To find a way to automatically predict the bacterial virulent protein is imminent.Firstly，a fusion feature extraction method by combining GO（Gene Ontology）and PSSM（Position-Specific Score Matrix）is adopted to represent the features of proteins.The dimension reduction of high dimensional feature vector of encoded is carried out by using the manifold learning method. The reduced feature vector is input to KNN（K Nearest Neighbor）classifier to train，then to predict whether the unknown protein is a virulent protein by the trained classifier.Finally，Jackknife test method was used to test the accuracy of prediction.The results show that the method is very effective and can solve the complex problem of prediction of virulent protein in bacterial pathogens.

bacterial pathogens；virulent protein；prediction

TP391；Q617

1001-4543（2016）03-0231-05

2016-01-11

王彤（1981-），女，山西太原人，副教授，博士，主要研究方向为数据挖掘、生物信息处理。电子邮箱wangtong@sspu.edu.cn。

国家自然科学基金（No.61301249，No.61272036）、上海市自然科学基金（No.15ZR1417000）资助

细菌性病原体内病毒蛋白的预测和研究

0 引言

1 材料和方法

2 结果与讨论

3 结语

0　引言

1　材料和方法

2　结果与讨论

3　结语