基于AdaBoost算法的在线连续极限学习机集成算法

2017-06-20 21:13蔡静
软件导刊 2017年4期
关键词:学习机权值分类器

蔡静

摘要:针对不均衡数据处理问题,提出一种AdaBoost与在线连续极限学习机的集成算法。用在线连续极限学习机(OSELM)作为基分类器,根据AdaBoost集成各个基分类器,用AdaBoost集成分类器的权值,得出最终结果。实验结果表明,该方法具有较高的准确率。关键词:AdaBoost;在线连续极限学习机;集成算法DOI:10.11907/rjdk.162759中图分类号:TP312文献标识码:A

文章编号:16727800(2017)004004902

0引言 随着不均衡数据不断涌现,针对不均衡数据分类算法的研究方兴未艾。针对数据分类的主要有基于支持向量机(SVM)[1]、BP神经网络[2]、K最近邻算法[3]、决策树、贝叶树等算法的单分类器模型和多分类器模型。实验过程中往往会忽略少数类、重视多数类。针对这些问题,很多学者对传统算法进行了改进,以提高整体的分类精度。如有采样的方法、代价敏感学习、装袋[4]和提升[5]集成算法等,集成分类器是解决不均衡数据的分类方法。本文提出一种基于Adaboost与在线连续极限学习机的集成算法。

1相关概念

1.1极限学习机极限学习机由输入层、隐含层及输出层3部分构成。其中输入层与隐含层之间有随机产生的连接权值ω、隐含层与输入层之间有随机产生的连接权值β,隐含层输入矩阵为H,输出矩阵为T。具有N个不同训练样本N(Xi,Yj),如矩阵形式Hβ=T,神经网络模型为:

1.3Adaboost

Adaboost是Boosting的一种进化算法。Adaboost主要解决某种算法的学习率,对每个训练样本取相同的权值1/d。对于误分类样本其权重会增加,相反分类正确的样本权重会减少,Adaboost更加关注误分类或难以分类的样本。总样本集分成n个训练集Ni,Adaboost将N个分类器Hi合并成强分类器Y(X),使预测结果更加理想。

2本文算法本文实验数据集来自UCI库。实验主要针对二类不平衡数据问题进行研究,选取数据集具有两个类标签。Adaboost可在保证准确率的情况下很好地处理不平衡问题。K选5,即有5个弱分类器。算法步骤如下:①初始化OSELM权值、阈值。选取m组训练数据,赋予相同的权值Dt(i)=1/m;②根据公式(4)计算初始权值β0,设置m=0;③数据更新得到新训练集后,更新部分隐含层的输出矩阵,计算矩阵βm+1;④根据步骤③,更新分类器βm+1权值;⑤对弱分类器进行预测。训练第t个弱分类器,用训练数据训练OSELM并预测输出的值,得到预测序列g(t)的预测误差和et;⑥计算预测序列权重。根据预测序列g(t)的预测误差et计算序列权重at。权重计算公式为:at=1/2ln(1-et/et);⑦强分类函数。训练T轮后得到T组弱分类函数f(gt,at),由T组弱分类器f(gt,at)得到强分类器h(x)。h(x)公式为:

3结果与分析不均衡数据中存在类不平衡现象,最能引起关注的是少数类。然而在实验过程中,关注的少数类即正类分布的很少,而相对较多的多数类即负类分布却很多。本文对初始权值与阈值进行随机分配,将强类器结果与弱分类器结果进行比较,对比AdaBoost与ELM集成算法。

其中TP代表真正例,TN代表真负例,FP代表假正例,FN代表假负例。表1、图1为AdaBoost与OSELM集成算法中强分类器与弱分类器的准确率;表2、图2为AdaBoost与ELM集成算法中强分类器与弱分类器的准确率;表3、图3为AdaBoost与OSELM、AdaBoost与ELM集成算法强分类器的准确率。

根据图表对比准确率,可以清楚看出本文提出的AdaBoost与OSELM集成算法中强分类器的准确率明显高于弱分类器,然而在AdaBoost与ELM集成算法对比中,隐含层结点数目逐渐减少,AdaBoost与OSELM集成算法的准确率明显上升,但是在隐含层结点相对较多时,较AdaBoost与ELM集成算法的准确率不相上下,尤其在隐含层结点数为250时,明显低于AdaBoost与ELM集成算法。

4结语 本文将在线连续极限学习机作为基分类器,AdaBoost集成各个基分类器,采用AdaBoost集成分类器权值计算得出最终结果。与AdaBoost集成极限学习机作为基分类器的结果进行对比,评估了各种方法的准确率。实验还存在不足之处,如当隐含层节点增加时会出现准确率不理想情况。今后要进行大量的对比试验,以得到更优效果。

参考文献:[1]G M FUNG,O L MANGASARIAN.Incremental support vector machine classification[M].SIGKDD,2001:7786.

[2]Z H ZHOU,X Y LIU.Training costsensitive neural networks with methods addressing the class imbalance problem[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(1):6377.

[3]S TAN.Neighborweighted knearest neighbor for unbalanced text corpus[J].Expert System and Applications,2005,28(4):667671.

[4]J BASZCZY′NSKI,JERZY STEFANOWSKI,UKASZ IDKOWIAK.Institute of computing science[Z].Pozna′n University of Technology,ul.Piotrowo,2011(2):60965.

[5]M FERNANDEZ,GALAR,A BARRENECHEA,et al.A review on ensembles for class imbalance problem:bagging,boosting and hybrid based approaches[J].IEEE Transactions on Systems,Man,and CyberneticsPart C ,2011,42(4):463484.(責任编辑:杜能钢)

猜你喜欢
学习机权值分类器
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
极限学习机综述
BP-GA光照分类器在车道线识别中的应用
基于极限学习机参数迁移的域适应算法
分层极限学习机在滚动轴承故障诊断中的应用
基于权值动量的RBM加速学习算法研究
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
一种基于AdaBoost的极限学习机分类方法