敖培 张纪 李明 杨百顺
摘 要:由于基于蛋白质结晶的X射线晶体成像技术存在成功率较低的问题,因此引入计算方法筛选容易结晶的蛋白质序列对于节约测定蛋白质序列实现成本意义重大。该文提出一种基于旋转森林的集成极端学习机分类方法,用以提高蛋白质结晶偏好预测的准确性。选择蛋白质序列及序列衍生的信息和蛋白质相关的物理、化学等性质在内的20个特征作为分类特征,采用旋转森林增加集成极端学习机基分类器之间的差异性。实验结果表明,该文方法具有较高预测精度。
关键词:旋转森林 极端学习机 蛋白质结晶
中图分类号:TP311 文献标识码:A 文章编号:1674-098X(2015)01(c)-0023-01
该文选择蛋白质序列及序列衍生的信息和蛋白质相关的物理、化学等性质在内的20个特征作为分类特征,采用旋转森林增加集成极端学习机基分类器之间的差异性,建立了集成改进的极端学习机蛋白质结晶偏好预测模型,以有效提高预测的准确性。
1 极端学习机
极端学习机[1](ELM,Extreme Learning Machine)在随机给定输入权值与神经元参数的基础上,将传统前馈神经网络参数训练问题转化为求解线性方程组,以直接计算输出权值的最小二乘解的方式完成网络训练过程。
2 旋转森林算法
旋转森林[2](ROF,Rotation Forest)主要是对集成分类器的原始样本特征进行处理,通过一定的特征提取变换获得集成所需的新样本,并且在保证分类准确性的前提下,增加集成分类器个体间的差异性。
3 基于ROF的极端学习机集成预测算法
为了提高集成系统中各分类器之间的差异性,该文提出了一种是用ROF集成多个ELM神经网络分类器的方法。具体步骤如下。
步骤1:训练数据集输入初始样本集X,样本包括D个特征,集成ELM神经网络分类器个数L。
步骤2:对X的D个特征进行等划分,获得K个具有不同特征的样本子集,Xk表示第D个样本子集每个子集具有D个特征:M=D/K。
步骤3:对K个子集进行如下处理:
对Xk进行bootstrap重抽样,获得新样本Xknew;
采用主成分分析对Xknew进行变换处理,获得主成分系数向量:ak1,ak2,…,
(M*≤M);
循环步骤1)和2),获得K组主成分系数,合并得主成分系数组R。
步骤4:对R重新排列的R*,获得新样本Xnew:Xnew=XR*。
步骤5:用Xnew作为ELM神经网络分类器的样本训练一个集成子分类器Cl(l=1,…,l),循环次获得集成ELM神经网络分类器组:Ω={C1,…,Cl}。
步骤6:分别使用个ELM神经网络分类器对测试样本集进行分类,获得预测函数{fl}和预测标记{hl}。
步骤7:对预测函数和预测标记进行投票处理,获得ELM神经网络集成分类器最终预测标记Hend。
4 基于集成改进ELM的蛋白质结晶偏好预测
该文实验数据来源于PepcDB数据库中的蛋白质链,特征选取和计算方法见参考文献[2]。经过筛选,分别选择952条不可结晶数据和可结晶数据集合。从这1904条数据集中随机抽取1522条数据作为训练集,其余的作为测试集。采用第4部分所提出的的方法进行预测。为了验证采用本文算法进行预测的效果,选择集成RBF神经网络模型进行对比,集分类器个数均选择为10,如表1所示。从表1中可以看出,采用本文方法的平均预测准确率达到85.24%,而集成RBF神经网络模型的测试准确率仅为79.04%。
5 结语
该文采用旋转森林算法提高集成极端学习机基分类器之间的差异性,并将改进后的集成分类器用于对蛋白质结晶偏好进行预测。实验结果表明,与集成RBF神经网络模型相比,该文方法具有较高预测精度。
参考文献
[1] YU Q,MICHE Y,EIROLA E, et al.Regularized extreme learning machine for regression with missing data[J].Neurocomputing,2013,102:45-51.
[2] 毛莎莎,熊霖,焦李成,等.利用旋转森林变换的异构多分类器集成算法[J].西安电子科技大学学报:自然科学版, 2014,41(5):55-61.endprint