数据挖掘在股票财务指标中的应用

2015-05-30 18:48:08蔡丽

数学学习与研究 2015年7期

关键词：财务指标数据挖掘

蔡丽

【摘要】本文利用数据挖掘中的分类方法，选取了部分上市公司的财务比率数据，用R软件进行分析，为投资者提供决策依据.

【关键词】数据挖掘；财务指标；分类方法

【基金项目】北京市教委科研计划项目（KM201410011006）

一、引言

数据挖掘是从大量不完全、有噪声、随机的实际应用数据中，提取隐含在其中人們事先不知道、但又是潜在有用的信息和知识的过程.目前已经用于客户关系管理、银行风险项目评估和金融市场等多个领域，用于财务指标分析的还不多见.本文旨在通过数据挖掘方法分析上市公司的财务指标数据，建立模型，辅助投资者深入认识公司的财务状况，为多数股民，特别是散户进行相关问题的正确决策提供数据支持.

二、分类算法

分类在数据挖掘中是一类很重要的方法，在商业上的应用最多.其目的是学会一个分类函数或分类模型，能把数据库中的数据项映射到给定的某一个类别.本论文主要侧重数据挖掘中分类算法在股票财务指标方面的应用.其中用到决策树、随机森林、支持向量机（SVM）三种算法.

三、分类模型的建立

1.数据理解

本文的数据来源于锐思金融数据库，所选的数据为2012年10月8日前上市的公司信息.属性包括：每股指标中的每股收益和每股净资产，盈利能力中的销售净利率，成长能力指标中的净资产收益率、净资产增长率和净利润增长率等12个属性，包括了公司不同能力方面的财务比率数据.因变量是根据2012年10月8日和2013年10月8日的收盘价与这两天大盘的收盘价变化率相比，若比大盘的收盘价的变化率高，则标记为“好”，反之标记为“差”.

2.数据处理

（1）决策树

本文建立决策树[3]的过程中，用到的是rpart.Control函数，其中，最小样本量minsplit为20，进行交叉验证剪枝的交叉折数xval为10，最大树深度maxdepth为5，最小代价复杂度剪枝中的复杂度参数CP值为0.01.

划分特征空间时，用到的是gini指标，它用来度量数据划分或者数据集的不纯度，数据集D的gini指标公式为：Gini（D）.其中，pi是D中样本属于Ci类的概率，并用Cj，D[]D

估计.

同时构建决策树过程中用到的重要变量有： Currt 、Invtrtrrat 、NAPS、Netassgrrt 、Netprfgrrt、NOCF、WROEcut.

根据最后形成的决策树得到分类规则，比如：NAPS≥4.9，NOCF≥2.3e+9则预测为bad.

（2）随机森林

本文中，随机森林共建立了500棵决策树，每个节点的候选输入变量个数为3.基于袋外观测的预测误判率为42.76%.由袋外观测的混淆矩阵来看，单个模型对两个类别的预测精度均不理想.随机森林对所有观测进行预测，预测误差为0.

在评价各输入变量的重要性时，要用到importance函数，其中MeanDecreas

e Accuracy表示预测精度的平均减少量，MeanDecreaseGini表示给出节点异质性指标的平均减少量.为了更全面直观地评价各输入变量的重要性，用varImpPlot函数进行作图，见图1：

输入变量重要性测度散点图图1 输入变量重要性测度散点图

从对输出变量预测精度的影响看，每股净资产、销售净利率、流动比率、经营现金净流量比较重要.从对输出变量异质性下降程度的影响看，同样是这几个变量较为重要，即每股净资产、销售净利率、流动比率、经营现金净流量不同的上市公司，对是否优于大盘有较大的影响.

（3）SVM

在对数据处理的过程中，文中利用网格搜索法10折交叉验证寻找较优参数，确定cost和gamma值，构建SVM模型.

根据最后SVM对测试集的预测结果，可以得到ROC曲线，见图2：

在图2中，横坐标代表错误的正例率（FPR），纵坐标代表正确的正例率（TPR）.希望TPR尽量的大，FPR尽量的小即图中的曲线越靠左上方说明预测得越好.而从图中的曲线来看，预测效果还有较大的差距.

四、分析与总结

经过比较，随机森林给出了最高的预测率60%，决策树其次，支持向量机排在最后.见表1：

分析表1可以看出：从三种方法对测试集的分类正确率来看，随机森林最高，但它们在处理其他行业数据时，精确度达到90%以上[6-8]，可见，数据本身对模型的结果还是有很大的影响.因此，股市想要通过分析财务比率来达到很好的预测效果还是很困难的，虽然与所构建的模型有关，但最大的原因还在于股市本身的波动性[9].

【参考文献】

[1]赵选民，薛建楼.利用数据挖掘技术分析上市公司财务状况[J].中国管理信息化.2009，12（3）：30-32.

[2]李航.统计学方法[M].北京：清华大学出版社，2012.

[3]John Durkin，蔡竞峰，蔡自兴.决策树技术及其当前研究方向[J].控制工程，2005，12（1）：15-18.

[4]马景义，吴喜之，谢邦昌.拟自适应分类随机森林算法[J].数理统计与管理，2010，29（5）：806-811.

[5]薛薇.基于R的统计分析与数据挖掘[M].中国人民大学出版社，2014.

[6]马瑾，孙颖，刘尚辉.决策树模型在住院2型糖尿病患者死因预测中的应用[J].中国卫生统计，2013，30 （3）： 422-423.

[7]袁敏，胡秀珍.随机森林方法预测胶原蛋白类型[J].生物物理学报，2009，25 （5）： 349-354.

[8]张华，曾杰.基于支持向量机的风速预测模型研究[J].太阳能学报，2010，31 （7）： 928-931.

[9]张彦来.数据挖掘在股票投资中的应用[D].北京：首都经济贸易大学，2010.