蔡丽
【摘要】本文利用数据挖掘中的分类方法,选取了部分上市公司的财务比率数据,用R软件进行分析,为投资者提供决策依据.
【关键词】 数据挖掘;财务指标;分类方法
【基金项目】北京市教委科研计划项目(KM201410011006)
一、引 言
数据挖掘是从大量不完全、有噪声、随机的实际应用数据中,提取隐含在其中人們事先不知道、但又是潜在有用的信息和知识的过程.目前已经用于客户关系管理、银行风险项目评估和金融市场等多个领域,用于财务指标分析的还不多见.本文旨在通过数据挖掘方法分析上市公司的财务指标数据,建立模型,辅助投资者深入认识公司的财务状况,为多数股民,特别是散户进行相关问题的正确决策提供数据支持.
二、分类算法
分类在数据挖掘中是一类很重要的方法,在商业上的应用最多.其目的是学会一个分类函数或分类模型,能把数据库中的数据项映射到给定的某一个类别.本论文主要侧重数据挖掘中分类算法在股票财务指标方面的应用.其中用到决策树、随机森林、支持向量机(SVM)三种算法.
三、分类模型的建立
1.数据理解
本文的数据来源于锐思金融数据库,所选的数据为2012年10月8日前上市的公司信息.属性包括:每股指标中的每股收益和每股净资产,盈利能力中的销售净利率,成长能力指标中的净资产收益率、净资产增长率和净利润增长率等12个属性,包括了公司不同能力方面的财务比率数据.因变量是根据2012年10月8日和2013年10月8日的收盘价与这两天大盘的收盘价变化率相比,若比大盘的收盘价的变化率高,则标记为“好”,反之标记为“差”.
2.数据处理
(1)决策树
本文建立决策树[3]的过程中,用到的是rpart.Control函数,其中,最小样本量minsplit为20,进行交叉验证剪枝的交叉折数xval为10,最大树深度maxdepth为5,最小代价复杂度剪枝中的复杂度参数CP值为0.01.
划分特征空间时,用到的是gini指标,它用来度量数据划分或者数据集的不纯度,数据集D的gini指标公式为:Gini(D).其中,pi是D中样本属于Ci类的概率,并用Cj,D[]D
估计.
同时构建决策树过程中用到的重要变量有: Currt 、Invtrtrrat 、NAPS、Netassgrrt 、Netprfgrrt、NOCF、WROEcut.
根据最后形成的决策树得到分类规则,比如:NAPS≥4.9,NOCF≥2.3e+9则预测为bad.
(2)随机森林
本文中,随机森林共建立了500棵决策树,每个节点的候选输入变量个数为3.基于袋外观测的预测误判率为42.76%.由袋外观测的混淆矩阵来看,单个模型对两个类别的预测精度均不理想.随机森林对所有观测进行预测,预测误差为0.
在评价各输入变量的重要性时,要用到importance函数,其中MeanDecreas
e Accuracy表示预测精度的平均减少量,MeanDecreaseGini表示给出节点异质性指标的平均减少量.为了更全面直观地评价各输入变量的重要性,用varImpPlot函数进行作图,见图1:
输入变量重要性测度散点图图1 输入变量重要性测度散点图
从对输出变量预测精度的影响看,每股净资产、销售净利率、流动比率、经营现金净流量比较重要.从对输出变量异质性下降程度的影响看,同样是这几个变量较为重要,即每股净资产、销售净利率、流动比率、经营现金净流量不同的上市公司,对是否优于大盘有较大的影响.
(3)SVM
在对数据处理的过程中,文中利用网格搜索法10折交叉验证寻找较优参数,确定cost和gamma值,构建SVM模型.
根据最后SVM对测试集的预测结果,可以得到ROC曲线,见图2:
在图2中,横坐标代表错误的正例率(FPR),纵坐标代表正确的正例率(TPR).希望TPR尽量的大,FPR尽量的小即图中的曲线越靠左上方说明预测得越好.而从图中的曲线来看,预测效果还有较大的差距.
四、分析与总结
经过比较,随机森林给出了最高的预测率60%,决策树其次,支持向量机排在最后.见表1:
分析 表1可以看出: 从三种方法对测试集的分类正确率来看,随机森林最高,但它们在处理其他行业数据时,精确度达到90%以上[6-8],可见,数据本身对模型的结果还是有很大的影响.因此,股市想要通过分析财务比率来达到很好的预测效果还是很困难的,虽然与所构建的模型有关,但最大的原因还在于股市本身的波动性[9].
【参考文献】
[1]赵选民,薛建楼.利用数据挖掘技术分析上市公司财务状况[J].中国管理信息化.2009,12(3):30-32.
[2]李航.统计学方法[M].北京:清华大学出版社,2012.
[3]John Durkin,蔡竞峰,蔡自兴.决策树技术及其当前研究方向[J].控制工程,2005,12(1):15-18.
[4]马景义,吴喜之,谢邦昌.拟自适应分类随机森林算法[J].数理统计与管理,2010,29(5):806-811.
[5]薛薇.基于R的统计分析与数据挖掘[M].中国人民大学出版社,2014.
[6]马瑾,孙颖,刘尚辉.决策树模型在住院2型糖尿病患者死因预测中的应用[J].中国卫生统计,2013,30 (3): 422-423.
[7]袁敏,胡秀珍.随机森林方法预测胶原蛋白类型[J].生物物理学报,2009,25 (5): 349-354.
[8]张华,曾杰.基于支持向量机的风速预测模型研究[J].太阳能学报,2010,31 (7): 928-931.
[9]张彦来.数据挖掘在股票投资中的应用[D].北京:首都经济贸易大学,2010.