敖培++赵四方++冯志鹏++李延强
摘要:针对不平衡数据集分类问题,本文提出一种基于改进ROF的集成SVM分类方法。实验结果表明,采用本文提出的方法预测蛋白质结晶偏好性,可以有效提高预测精度。
关键词:支持向量机集成算法 旋转森林 蛋白质结晶
中图分类号:TM715 文献标识码:A 文章编号:1007-9416(2014)08-0091-01
1 引言
为了解决数据的不平衡性和增强集成SVM基分类器之间的差异性,提出了一种基于改进的旋转森林算法SVM训练基分类器,并将此方法应用在蛋白质结晶偏好预测上,取得了较好的预测效果。
2 基于不平衡数据集的SVM集成算法改进
为了处理不平衡数据,这里采用了一种改进的SMOTE。为了提高SVM集成泛化的性能,这里采用随机投影(RP)方法作为旋转森林的线性变换方法。具体算法如下:
步骤1:利用改进的SMOTE算法减小数据的不平衡性。具体算法如下:
(1)对少数类中的每个样本Xj求它的k个最近邻的样本。
(2)对每个少数类样本Xj的k个最近邻进行判断,当这k个样本均为少数类实例时,保留Xj,否则从少数类样本中删除Xj。
(4)剔除产生的可能噪声样本,即当所产生的虚拟样本的最邻近样本属于少数类时,其才是满足条件的虚拟少数样本,否则,将其删除。
(5)循环执行(3)和(4),直到产生足够多的样本数,即达到过抽样参数T%。
步骤2:将样本的特征随即划分为K个特征子集(无重复抽取),每个特征子集的特征数为M=D/K。
步骤3:采用RP方法,将原始数据通过投影矩阵R投影到d维空间上,获得各投影矩阵中的每个元素采用Binary方法产生[1]。
步骤4:重复以上步骤L次,就可以得到各个分类器的训练集。这里的基分类器选择为SVM。
步骤5:分别使用L个SVM分类器对测试样本集进行分类,获得预测函数{f;}和预测标记{h;}。
步骤6:对预测函数和预测标记进行投票处理,获得SVM集成分类器最终预测标记Hend。
3 基于改进SVM集成方法的蛋白质结晶偏好性预测
本文实验数据来源于PepcDB数据库中的蛋白质链,特征选取和计算方法见文献[2]。经过筛选,分别将166955条和5721条蛋白质实验序列作为不可结晶数据集合和可结晶数据集合。采用第3部分所提出的的方法进行预测,T取2000,K取3,采用3折交叉验证法来估计预测误差。为了验证采用本文算法进行预测的效果,选择集成RBF神经网络模型进行对比,集分类器个数均选择为10。在数据集上进行10次实验,实验结果取10次实验的平均值,如表1所示。从表中可以看出,采用本文方法的平均预测准确率达到85.24%,而集成RBF神经网络模型的测试准确率仅为79.04%。
4 结语
对于不平衡数据集分类问题,本文提出一种基于改进旋转森林算法的SVM集成分类方法,并将改进的方法用于对蛋白质结晶偏好性进行预测。实验结果表明,与集成RBF神经网络模型相比,本文方法具有较高预测精度。
参考文献
[1]姚旭,王晓丹,张玉玺,等.结合Rotation Forest和MultiBoost的SVM集成方法[J].计算机科学,2013,40(3):266-270,290.
[2]王同友.基于集成学习的蛋白质结晶偏好性预测 [D].吉林大学硕士学位论文,2014.endprint
摘要:针对不平衡数据集分类问题,本文提出一种基于改进ROF的集成SVM分类方法。实验结果表明,采用本文提出的方法预测蛋白质结晶偏好性,可以有效提高预测精度。
关键词:支持向量机集成算法 旋转森林 蛋白质结晶
中图分类号:TM715 文献标识码:A 文章编号:1007-9416(2014)08-0091-01
1 引言
为了解决数据的不平衡性和增强集成SVM基分类器之间的差异性,提出了一种基于改进的旋转森林算法SVM训练基分类器,并将此方法应用在蛋白质结晶偏好预测上,取得了较好的预测效果。
2 基于不平衡数据集的SVM集成算法改进
为了处理不平衡数据,这里采用了一种改进的SMOTE。为了提高SVM集成泛化的性能,这里采用随机投影(RP)方法作为旋转森林的线性变换方法。具体算法如下:
步骤1:利用改进的SMOTE算法减小数据的不平衡性。具体算法如下:
(1)对少数类中的每个样本Xj求它的k个最近邻的样本。
(2)对每个少数类样本Xj的k个最近邻进行判断,当这k个样本均为少数类实例时,保留Xj,否则从少数类样本中删除Xj。
(4)剔除产生的可能噪声样本,即当所产生的虚拟样本的最邻近样本属于少数类时,其才是满足条件的虚拟少数样本,否则,将其删除。
(5)循环执行(3)和(4),直到产生足够多的样本数,即达到过抽样参数T%。
步骤2:将样本的特征随即划分为K个特征子集(无重复抽取),每个特征子集的特征数为M=D/K。
步骤3:采用RP方法,将原始数据通过投影矩阵R投影到d维空间上,获得各投影矩阵中的每个元素采用Binary方法产生[1]。
步骤4:重复以上步骤L次,就可以得到各个分类器的训练集。这里的基分类器选择为SVM。
步骤5:分别使用L个SVM分类器对测试样本集进行分类,获得预测函数{f;}和预测标记{h;}。
步骤6:对预测函数和预测标记进行投票处理,获得SVM集成分类器最终预测标记Hend。
3 基于改进SVM集成方法的蛋白质结晶偏好性预测
本文实验数据来源于PepcDB数据库中的蛋白质链,特征选取和计算方法见文献[2]。经过筛选,分别将166955条和5721条蛋白质实验序列作为不可结晶数据集合和可结晶数据集合。采用第3部分所提出的的方法进行预测,T取2000,K取3,采用3折交叉验证法来估计预测误差。为了验证采用本文算法进行预测的效果,选择集成RBF神经网络模型进行对比,集分类器个数均选择为10。在数据集上进行10次实验,实验结果取10次实验的平均值,如表1所示。从表中可以看出,采用本文方法的平均预测准确率达到85.24%,而集成RBF神经网络模型的测试准确率仅为79.04%。
4 结语
对于不平衡数据集分类问题,本文提出一种基于改进旋转森林算法的SVM集成分类方法,并将改进的方法用于对蛋白质结晶偏好性进行预测。实验结果表明,与集成RBF神经网络模型相比,本文方法具有较高预测精度。
参考文献
[1]姚旭,王晓丹,张玉玺,等.结合Rotation Forest和MultiBoost的SVM集成方法[J].计算机科学,2013,40(3):266-270,290.
[2]王同友.基于集成学习的蛋白质结晶偏好性预测 [D].吉林大学硕士学位论文,2014.endprint
摘要:针对不平衡数据集分类问题,本文提出一种基于改进ROF的集成SVM分类方法。实验结果表明,采用本文提出的方法预测蛋白质结晶偏好性,可以有效提高预测精度。
关键词:支持向量机集成算法 旋转森林 蛋白质结晶
中图分类号:TM715 文献标识码:A 文章编号:1007-9416(2014)08-0091-01
1 引言
为了解决数据的不平衡性和增强集成SVM基分类器之间的差异性,提出了一种基于改进的旋转森林算法SVM训练基分类器,并将此方法应用在蛋白质结晶偏好预测上,取得了较好的预测效果。
2 基于不平衡数据集的SVM集成算法改进
为了处理不平衡数据,这里采用了一种改进的SMOTE。为了提高SVM集成泛化的性能,这里采用随机投影(RP)方法作为旋转森林的线性变换方法。具体算法如下:
步骤1:利用改进的SMOTE算法减小数据的不平衡性。具体算法如下:
(1)对少数类中的每个样本Xj求它的k个最近邻的样本。
(2)对每个少数类样本Xj的k个最近邻进行判断,当这k个样本均为少数类实例时,保留Xj,否则从少数类样本中删除Xj。
(4)剔除产生的可能噪声样本,即当所产生的虚拟样本的最邻近样本属于少数类时,其才是满足条件的虚拟少数样本,否则,将其删除。
(5)循环执行(3)和(4),直到产生足够多的样本数,即达到过抽样参数T%。
步骤2:将样本的特征随即划分为K个特征子集(无重复抽取),每个特征子集的特征数为M=D/K。
步骤3:采用RP方法,将原始数据通过投影矩阵R投影到d维空间上,获得各投影矩阵中的每个元素采用Binary方法产生[1]。
步骤4:重复以上步骤L次,就可以得到各个分类器的训练集。这里的基分类器选择为SVM。
步骤5:分别使用L个SVM分类器对测试样本集进行分类,获得预测函数{f;}和预测标记{h;}。
步骤6:对预测函数和预测标记进行投票处理,获得SVM集成分类器最终预测标记Hend。
3 基于改进SVM集成方法的蛋白质结晶偏好性预测
本文实验数据来源于PepcDB数据库中的蛋白质链,特征选取和计算方法见文献[2]。经过筛选,分别将166955条和5721条蛋白质实验序列作为不可结晶数据集合和可结晶数据集合。采用第3部分所提出的的方法进行预测,T取2000,K取3,采用3折交叉验证法来估计预测误差。为了验证采用本文算法进行预测的效果,选择集成RBF神经网络模型进行对比,集分类器个数均选择为10。在数据集上进行10次实验,实验结果取10次实验的平均值,如表1所示。从表中可以看出,采用本文方法的平均预测准确率达到85.24%,而集成RBF神经网络模型的测试准确率仅为79.04%。
4 结语
对于不平衡数据集分类问题,本文提出一种基于改进旋转森林算法的SVM集成分类方法,并将改进的方法用于对蛋白质结晶偏好性进行预测。实验结果表明,与集成RBF神经网络模型相比,本文方法具有较高预测精度。
参考文献
[1]姚旭,王晓丹,张玉玺,等.结合Rotation Forest和MultiBoost的SVM集成方法[J].计算机科学,2013,40(3):266-270,290.
[2]王同友.基于集成学习的蛋白质结晶偏好性预测 [D].吉林大学硕士学位论文,2014.endprint