陈磊
摘要:数据挖掘过程中的数据预处理是一项很重要的工作。分析了现有分类算法J48直接处理原始期货数据时出现的分类准确率和预测准确率低等弊端。针对期货数据的连续性和时序性特征,在Weka数据挖掘平台下,提出一种面向期货数据的连续属性划分策略,其主要思想是对连续属性采用不同的分段标识方法,从中找出一种最适合期货数据特征的划分机制,进而在有效降低数据过度拟合的前提下,较大提高J48算法的分类准确率和预测准确率。
关键词:Weka;期货;J48 数据挖掘;数据预处理;连续属性划分
DOIDOI:10.11907/rjdk.161196
中图分类号:TP391文献标识码:A文章编号:1672-7800(2016)006-0173-03
参考文献:
[1]IAN H WITTEN,EIBE FRANK,MARK A HALL.Data mining practical machine learning tools and techniques[M].ELSEVIER,2010.
[2]IAN H WITTEN,EIBE FRANK,MARK A.数据挖掘:实用机器学习工具与技术[M].李川,译.北京:机械工业出版社,2014.
[3]袁梅宇.数据挖掘与机器学习——Weka应用技术与实践[M].北京:清华大学出版社,2014.
[4]JIAWEI HAN,KAMBER M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2004.
[5]DAI W,JI W.A MspReduce implementattion of C4.5 decison tree algorithm[J].International Journal of Database Theory and Application,2014,7(1):49-60.
[6]QUINLAN J R.C4.5:programs for machine learning[M].Burlington:Morgan Kaufmann Publishers,1993:17-42.
[7]ABELLAN J,MORAL S.Building classification trees using the total uncertainly criterion[J].Journal of the Royal Statistical Society,Series B:Methodological,1996,58(1):3-57.
[8]HETTICH S,BAY S D.The UCI KDD archive[EB/OL].http://kdd.ics.uic.edu/.
[9]QUINLAN J R.Induction of decision tree[J].Machine learning,1986(1):81-106.
[10]杨学兵,张俊.决策树算法及其核心技术[J].计算机技术与发展,2007,17(1):44-46.
[11]孙超利.基于决策树的数据流挖掘算法的研究[J].太原科技大学学报,2006,27(4):269-270.
[12]Jsp中一些数据类型的转换[EB/OL].http://blog.csdn.net/xuxurui007/article/details/18045943,2015,10.
[13]陈爱萍,范媛媛.一种连续属性值域划分的离散化方法[J].计算机应用研究,2012(5):154-158.
[14]TSAI C J,LEE C I,YANG WEI-PANG.A discretization algorithm based on class-attribute contingency coefficient[J].Information Sciences,2008,178(3):714-731.
[15]MEHMED KANTARDZIC.数据挖掘——概念、模型、方法和算法[M].北京:清华大学出版社,2003.
[16]蒋帅.K-均值聚类算法研究[D].西安:陕西师范大学,2010.
[17]新浪财经——期货[EB/OL].http://finance.sina.com.cn/futuremarket/,2015,10.