使用多特征预测蛋白质棕榈化位点

2016-01-08 00:47张田雷,王睿,徐晖

陕西理工大学学报(自然科学版) 2015年5期

使用多特征预测蛋白质棕榈化位点

张田雷1,王睿1，徐晖2

(1.陕西理工学院化学与环境科学学院，陕西汉中 723000；2.汉中市产品质量监督检验所，陕西汉中 723000)

[摘要]采用改进的氨基酸组成、SARAH1疏水尺度值、改进的二肽频率特征、间隔氨基酸对组成特征、蛋白质物理化学性质的自相关函数特征值表征给定的蛋白质序列段，然后用小波频谱来提取特征参数值，用支持向量机来预测棕榈酰化位点。模型查准率为0.880，查全率为0.859，F值为0.869，ROC曲线的面积为0.87。研究结果表明，使用多特征预测蛋白质棕榈化位点方法达到了现有预测算法的水平，能够较准确地预测蛋白质棕榈化位点。

[关键词]棕榈化；位点；蛋白质

[文章编号]1673-2944(2015)05-0054-06

[中图分类号]O643.32+2

收稿日期：2015-01-23

基金项目：陕西理工学院校级人才启动项目(SLGQD13(2)-4)

作者简介：张田雷(1982—)，男，山西省朔州市人，陕西理工学院讲师，博士，主要研究方向为理论与计算化学。

DOI[7]MCCORMICK P J,DUMARESQ-RON K,PLUVIOSE A S,et al.Palmitoylation controls recycling in lysosomal sorting and trafficking[J].Traffic,2008,9(11):1984-1997.

棕榈酰化是一种最普遍且唯一可逆的翻译后修饰形式，能增加蛋白质的疏水性，对蛋白质的转运、细胞器定位和功能具有重要的作用，并赋予蛋白质多样化的生理功能[1-3]。棕榈酰化蛋白质参与组成各种细胞膜脂质结构域，促进自身或其蛋白质定位膜脂筏(富含胆固醇、鞘磷脂和GPI微结构域)中；蛋白质棕榈化还与特定的疾病相关，参与肿瘤的发生发展[1-8]。

近年来，国内外许多有影响的研究小组分别围绕棕榈化位点的预测，棕榈基化反应机理、抑制蛋白质棕榈化修饰及其对人体的影响等科学问题开展了大量的实验和部分理论研究。Linder等[9]通过实验证实棕榈化影响蛋白质的稳定性和蛋白膜之间物质的运输，棕榈化的蛋白质的存在影响了蛋白质与脂质和蛋白膜之间的作用，棕榈化的可逆性允许不同膜之间物质运输的模式不同；Hemsley等[10]的实验表明；蛋白质突触的棕榈化的动态变化，局部控制了蛋白突触与受体之间的相互作用，在突触的可塑性方面起了很大的作用。理论计算方面，薛宇等[11]基于贝叶斯算法发展了NBA-Palm方法，对文献搜集的254个棕榈化位点进行了预测，预测精度达到85.79%；Ren等[12]基于聚类和打分函数发展了CSS-Palm方法。王小波等[13]采用间距氨基酸组成配对法来预测棕榈化位点。施少平等[14]人发展了WAP-Palm方法，融合了权重氨基酸组成、自相关函数和位置特异性打分矩阵来预测棕榈化位点。尽管国内外学者对棕榈化位点的预测及其反应机理进行了不少实验和理论探索，但到目前为止，也只有少数的棕榈酰化位点被确定，且其分子机制仍难以捉摸。因此计算识别棕榈化位点是当前一个急迫任务，并可为进一步的实验设计提供有用的数据资源。

本研究关注的是通过蛋白质序列开发一个精确的预测方法来计算识别棕榈化位点，以丰富对棕榈酰化蛋白质组学的认识，还可以对某些疾病诊断治疗和肿瘤治疗等具有深远意义。

1方法

通过适当地选择函数集，支持向量机方法[15]可以有效地避免经典学习方法中存在的“过学习”、“维数灾难”以及局部极小点等问题。该理论最大的优点是在小样本情况下依然可以保持很好的泛化性能，这是传统的机器学习方法所不具备的。支持向量机的基本思想可用图1的两维情况说明。

图1　支持向量机基本思想示意图

实心点和空心点代表两类样本，H为超平面，H1，H2分别为各类中离超平面最近的样本且平行于超平面的平面，它们之间的距离叫做分类间隔(margin)。所谓最优超平面就是要求超平面不但能将两类正确分开(训练错误率为0)，而且使分类间隔最大[15]。超平面方程可以表示为xw+b=0，对它进行归一化，使得对线性可分的样本集(xi，yi)，i=1，2,…，n，xi∈Rd，yi∈{+1,-1},满足约束条件：

此时分类间隔等于2/‖w‖，间隔最大等价于使‖w‖2/2最小。满足条件公式且使‖w‖2/2最小的分类面就叫做最优分类面，H1,H2上的训练样本点称作支持向量。

因此，求最优分类面的问题转化为在不等的约束下的优化问题：

(1)

利用Lagrange优化方法可以把上述求最优分类问题转化为其对偶问题，即求下式的最大值：

(2)

约束条件为：

(3)

其中αi为Lagrange乘子。这是一个不等式约束下二次函数寻优的问题，存在唯一解。解上述问题后得到的最优分类函数：

(4)

式中的求和实际上只对支持向量进行。α*为αi的最优解，b*是分类阈值，可以用任一个支持向量求得，或通过两类中任意一对支持向量取中值求得。

上面的最优分类面是在线性可分的前提下讨论的，对线性不可分的情况下，考虑到可能存在一些样本不能被超平面正确分类，因此引入松弛变量ξi≥0，这样公式(1)的线性约束条件变为[15]：

(5)

此时优化问题变为：

(6)

约束条件为：

(7)

常数C起着对错分样本的惩罚作用，实现的是学习机器泛化能力和错分样本数目之间的折中。转化为其对偶问题，此时求解最优分类面的问题变为求解上面公式(6)的最大值，只是约束条件变为：

(8)

表1　支持向量机预测评价指标

TP是真阳性的样品个数，是被判定为正样本，事实上也是正样本的个数；TN是真阴性的样品个数，是被判定为负样本，事实上也是负样本的个数；FP是假阳性的样品个数，是被判定为正样本，但事实上是负样本的个数；FN是假阴性的样品个数，是被判定为负样本，但事实上是正样本的个数。Precision：查准率，即在检索后返回的结果中，真正正确的个数占整个结果的比例。Recall：查全率，即在检索结果中真正正确的个数占整个数据集(检索到的和未检索到的)中真正正确个数的比例。Accuracy:正确率，即在检索后返回的结果中，检索到的正样本和负样本总共所占总样本数的比率。F-Measure又称为F-Score，是机器学习领域的常用的一个评价标准，F值即为正确率和召回率的调和平均值。ROC曲线在机器学习、数据挖掘等领域中广泛应用，用来评判分类、检测结果的好坏。ROC曲线指受试者工作特征曲线(receiver operating characteristic curve)，是反映敏感性和特异性连续变量的综合指标，是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、特异性为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高[16-17]。在ROC曲线上，最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。为了更好地衡量ROC所表达结果的好坏，Area Under Curve(AUC)被提了出来，简单来说就是曲线右下角部分占正方形格子的面积比例，通常，AUC的值介于0.5到1.0之间，较大的AUC代表了较好的性能。计算ROC曲线下的面积，就是计算AUC的值。首先对得分从大到小排序，然后令最大得分对应的样本排序号为n，第二大得分对应样本的排序号为n-1，以此类推。然后把所有的正类样本的排序号相加，再减去正类样本的得分为最小的第M个值的情况。得到的就是所有的样本中有多少对正类样本的得分大于负类样本的得分，然后再除以M×N。特别需要注意的是，存在得分相等的情况时，对相等得分的样本，需要赋予相同的排序号(无论这个相等的得分是出现在同类样本还是不同类的样本之间，都需要这样处理)[16-17]。具体操作就是再把所有这些得分相等的样本的排序号取平均。

2结果与讨论

从Swiss-Prot数据库(http://web.expasy.org/docs/swiss-prot_guideline.html)中提取所有来自实验的棕榈化位点，共有417个被实验确定的棕榈化位点被收集。每个位点由41个氨基酸序列片段组成：棕榈化位点K加上游20个氨基酸残基和下游20个氨基酸残基。为了所有片段有一个统一的长度，当残基不足时，在蛋白肽链的N-端或C-羧基端指定一个不存在的残基“O”填写相应的位置，添加了虚拟残基“O”。从相同序列随机选取相同数量的负样本和正样本。

针对蛋白翻译后修饰位点与调节机制研究的现状，设计出一套基于氨基酸频率、疏水性及氨基酸物理化学性质等的蛋白序列描述新方法。

2.1　改进的氨基酸组成值

氨基酸组成是蛋白序列的重要特性，已被成功的应用于确定蛋白结构类别，膜蛋白类别分类，预测亚细胞定位。使用了改进后的氨基酸组成，每个蛋白片段可以用20个氨基酸发生频率的平方根表示。已有实验证实使用这种改进的氨基酸组成特征，对不同的数据集总体预测精度可以提高3%~5%[18]。

2.2　改进的SARAH1疏水尺度值

疏水性对蛋白的稳定性具有重要意义，在蛋白的结构预测中，许多研究者均在蛋白质的众多物理化学性质中选择疏水性作为研究的主要特性。Korenberg[19]检验了各种疏水尺度，最后得出结论，在蛋白结构预测中，Rose尺度优于所有其他疏水尺度。然而这不是一对一的映射，所以不同的氨基酸序列可以有相同的疏水尺度值。同时尺度范围太狭窄会导致一些氨基酸权重比其它氨基酸更高。为了克服这些问题，Korenberg[19]等人提出了SARAH1尺度，这种尺度将20种氨基酸按照Rose疏水尺度排列，并且将每个氨基酸按其二进制代码值的降序排列表示成一个5位码(如表2所示)。定义虚拟残基“O”的SARAH1尺度为“0,0,0,0,0”。

表2　SARAH1疏水尺度值

2.3　改进的二肽频率值

不同位置改进后的二肽频率使用以下方法计算fk(akak+1) 或fk-1(akak-1),这里fk(akak+1)指的是棕榈化位点右边区域的二肽频率；左侧区域用fk-1表示。

2.4　 CKSAAP

通过使用一个新的编码方案[20]，间距氨基酸对的组成(CKSAAP)，可以将蛋白结构预测的精度提高到83.1%。CKSAAP可以定义为

CKSAAP=f(i,i+k),

(9)

这里f(i,i+k)是位置i和i+k氨基酸对的频率，k=1,2,…N，其中N是样本的长度。

2.5　物理化学性质的自相关函数

将物理化学性质也考虑在内，用AA Index数据库收集和整理的20种氨基酸的物理化学性质、生物学性质和二级结构信息的数值构造特征的自相关函数。

使用CFS(Correlation-based Feature Selection)特征选择算法对特征子集的优劣性进行了评估，该算法不但考虑了单一特征的优劣性，同时也考虑了各个特征之间的相关性。应用小波频谱(WFS频谱)[21]来表征大量的特征参数值。WFS频谱不仅可以描述蛋白质序列特征在各种频率上的信号，还可以大大缩减特征值维数，从而大大缩短了利用大量特征值进行预测的时间。支持向量机(SVM;Vapnik,1995)作为分类器。

表3给出了数据集上支持向量机预测的结果。可以看到417个棕榈化位点中有367个被准确预测出，假阳性比率为0.118，还有49个棕榈化位点未预测出来，查准率为0.880，查全率为0.859，F值为0.869，ROC曲线的面积为0.87。对非棕榈化位点预测而言，假阳性比率为0.141，查准率为0.862，查全率为0.882，ROC曲线的面积为0.87。结果表明，本文提出的方法达到了现有预测算法的水平，能够较准确预测出蛋白质棕榈化位点。

表3　支持向量机预测的结果

3结论

预测棕榈化位点的位置是生物信息学的研究任务之一。本文提取了蛋白质序列改进的氨基酸组成、SARAH1疏水尺度值、改进的二肽频率特征、间隔氨基酸对组成特征、蛋白质物理化学性质的自相关函数特征值，然后用小波频谱来提取特征参数值，基于支持向量机训练模型预测棕榈酰化位点。模型查准率为0.880。研究结果表明这种方法能够准确地预测棕榈化位点的位置，预测达到了现有预测算法预测的精度。因此这种方法有望成为研究棕榈化位点的一种有力的新工具。

[参考文献]

[1]LINDER M E,DESCHENES R J.Palmitoylation: policing protein stability and traffic[J].Nat Rev Mol Cell Biol,2007,8(1):74-84.

[2]KÜMMEL D,HEINEMANN U,VEIT M.Unique self-palmitoylation activity of the transport protein particle component Bet3:a mechanism required for protein stability[J].Proceedings of the National Academy of Sciences,2006,103(34):12701-12706.

[3]ROTH A F,WAN J,BAILEY A O,et al.Global analysis of protein palmitoylation in yeast[J].Cell,2006,125(5):1003-1013.

[4]GREAVES J,CARMICHAEL J A,CHAMBERLAIN L H.The palmitoyl transferase DHHC2 targets a dynamic membrane cycling pathway:regulation by a C-terminal domain[J].Molecular biology of the cell,2011,22(11):1887-1895.

[5]GREAVES J,CHAMBERLAIN L H.DHHC palmitoyl transferases: substrate interactions and (patho) physiology[J].Trends in biochemical sciences,2011,36(5):245-253.

[6]MISAKI R,MORIMATSU M,UEMURA T,et al.Palmitoylated Ras proteins traffic through recycling endosomes to the plasma membrane during exocytosis[J].The Journal of cell biology,2010,191(1):23-29.

[8]EL-HUSSEINI A E D,BREDT D S.Protein palmitoylation: a regulator of neuronal development and function[J].Nature Reviews Neuroscience,2002,3(10):791-802.

[9]LINDER M E,DESCHENES R J.Palmitoylation: policing protein stability and traffic[J].Nature reviews Molecular cell biology,2007,8(1):74-84.

[10]HEMSLEY P A,GRIERSON C S.Multiple roles for protein palmitoylation in plants[J].Trends in plant science,2008,13(6):295-302.

[11]XUE Yu,CHEN Hu,JIN Chang-jiang,et al.NBA-Palm:prediction of palmitoylation site implemented in Naive Bayes algorithm[J].Bmc Bioinformatics,2006,7(1):101-110.

[12]REN Jian,WEN Long-ping,GAO Xin-jiao,et al.CSS-Palm 2.0:an updated software for palmitoylation sites prediction[J].Protein Engineering Design & Selection Peds,2008,21(11):639-644.

[13]WANG Xiao-bo,WU Ling-yun,WANG Yong-cui,et al.Prediction of palmitoylation sites using the composition of k-spaced amino acid pairs[J].Protein Engineering Design & Selection,2009,22(11):707-712.

[14]SHI Shao-ping,SUN Xing-yu,QIU Jian-ding,et al.The prediction of palmitoylation site locations using a multiple feature extraction method[J].Journal of Molecular Graphics & Modelling,2013,40(1):125-130.

[15]CORTES C,VAPNIK V.Support-vector networks[J].Machine learning,1995,20(3):273-279.

[16]ZHANG Chun-ting,CHOU Kuo-chen.An optimization approach to predicting protein structural class from amino acid composition[J].Protein Science,1992,1(3):401-408.

[17]PUNTERVOLL P,LINDING R,GEMÜND C,et al.ELM server:a new resource for investigating short functional sites in modular eukaryotic proteins[J].Nucleic acids research,2003,31(13):3625-3630.

[18]FENG Zhi-ping.Prediction of the subcellular location of prokaryotic proteins based on a new representation of the amino acid composition[J].Biopolymers,2001,58(5):491-499.

[19]KORENBERG M J,DAVID R,HUNTER I W,et al.Automatic classification of protein sequences into structure/function groups via parallel cascade identification:a feasibility study[J].Annals of Biomedical Engineering,2000,28(7):803-811.

[20]CHEN Yong-zhi,TANG Yu-rong,SHENG Zhi-ya,et al.Prediction of mucin-type O-glycosylation sites in mammalian proteins using the composition of k-spaced amino acid pairs[J].BMC bioinformatics,2008,9(1):101.

[21]LIU A K,PENG C Y,CHANG Y S.Wavelet analysis of satellite images for coastal watch[J].IEEE Journal of Oceanic Engineering,1997,22(1):9-17.

[责任编辑：李莉]

Prediction of palmitoylation sites using multiple protein sequence characteristics

ZHANG Tian-lei1,WANG Rui1,XU Hui2

(1.School of Chemistry and Environment Science, Shaanxi University of Technology,Hanzhong 723000, China;2.Hanzhong City Product Quality Supervision and Inspection, Hanzhong 723000, China)

Abstract:Palmitoylation is an important post-translational modification, which participates many cellular processes, including antigen processing, DNA transcription and repair, apoptosis, immune reaction and inflammation, regulating cell surface receptors, ion channels and secretor pathway, nerve and muscle degeneration, viral infections and so on. Hence, the accurate prediction of palmitoylation sites can be of help in understanding the molecular mechanism of palmitoylation and also in designing various related experiments. Here we present an accurate method to identify palmitoylation sites from protein sequence information using a support vector machine model. It has achieved an accuracy of 88%, which shows that this method will be a useful tool to find palmitoylation sites in a protein.

Key words:palmitoylation;sites;protein

使用多特征预测蛋白质棕榈化位点

2.1 改进的氨基酸组成值

2.2 改进的SARAH1疏水尺度值

2.3 改进的二肽频率值

2.4 CKSAAP

2.5 物理化学性质的自相关函数

2.1　改进的氨基酸组成值

2.2　改进的SARAH1疏水尺度值

2.3　改进的二肽频率值

2.4　 CKSAAP

2.5　物理化学性质的自相关函数