基于多特征参数预测转移酶的亚类

2019-09-10 07:22程薇薇王莹
赤峰学院学报·自然科学版 2019年5期
关键词:支持向量机

程薇薇 王莹

摘要:随着对酶分类预测的研究需要,本文采用Shen建立的数据库,从蛋白质序列出发,将每条蛋白质序列分成等长的15段得到离散增量值、低频功率谱密度值、N端和C端的矩阵打分函数值和模体频数构成的组合向量表示蛋白质序列信息,用支持向量机算法对六类酶的家族类及其亚类进行预测.转移酶的预测精度依次为92.9%.

关键词:模体;矩阵打分值;离散增量;支持向量机;转移酶

中图分类号:Q55  文献标识码:A  文章编号:1673-260X(2019)05-0017-02

酶是一种生物催化剂,影响着细胞生长、代谢等生命过程的化学反应[1,2].为了更有效地研究酶的分类,对酶的研究正朝着亚类预测方向上发展.因此,本文对转移酶的亚类进行预测.

石等人用SVM算法预测酶的亚类得到很好的结果[3].因此,本文也选用SVM这种预测方法预测转移酶的亚类,得到较好的预测精度.

1 数据库和方法

1.1 数据库

本文选取2007年Shen等人构建的数据库,其中包括1820条氧化还原酶序列、2847条转移酶序列、3279条水解酶序列、892条裂解酶序列、639条异构酶序列和965条连接酶序列.

2 结论

本文先用新構建的新数据库进行预测.将15段的六类亲疏水紧邻的离散增量值、低频功率谱密度、N端和C端氨基酸组分的矩阵打分值和两种模体频数值作为参数,分别将六类酶的序列转化为向量,转移酶共得到71维向量.将得到的六类酶的向量分别输入到随即森林中,在Jack-knife检验下进行预测,总精度为92.9%(见表2).

参考文献:

〔1〕L. F. Yan, and Z. R. Sun, Protein molecular structures, Beijing: Tsinghua University, 1999, pp.65–74.

〔2〕L. F. Yan. The structure and the function of protein [M].Changsha:Hunan science and technology publishing house,1988.

〔3〕Ruijia Shi, Xiuzhen Predicting enzyme subclasses by using support vector machine with composite vectors.Volume 17, Number 5, May 2010, pp. 599-604(6).

〔4〕Bailey TL, Williams N, Misleh C, Li WW. MEME:discovering and analyzing DNA and protein sequence motifs. Nucl Acids Res, 2006,34: 369~373.

〔5〕Castro, D.E, Sigrist,C.J., Gattiker,A.,Bulliard,V., Langendijk-Genevaux,P.S., Gasteiger, E., Bairoch, A., Hulo, N. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in protein [J]. Nucleic Acids Research. 2009, 37, 202~208.

〔6〕Ho,Tin Kam.“Random Decision Forest”.Proc.of the 3rd Int’l Conf.Document Analysis and Recognition.1995, 278-282.

〔7〕Oppenheim AV, Willsky AS, Nawab SH, Signals and systems. New York: PrenticeHall, 1985.

〔8〕CHOU K.C. The biological functions of low-frequency phonons: 3. Helical structures and microenvironment [J]. Biophysical journal, 1984, 45: 881~890.

〔9〕Zhang LR, Luo LF. Splice site prediction with quadratic discriminate analysis using diversity measure [J]. Nucleic Acids Res. 2003, 31: 6214-6220.

〔10〕Hu XZ, Li QZ. Using Support Vector Machine to Predict  - and  -Turns in Proteins[J]. InterScience. 2007.

〔11〕高丽群.时空地理加权回归模型的统计诊断[J].哈尔滨师范大学学报(自然科学版),2015(6):50-52.

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究