基于数据挖掘的上市公司高送转预测

2021-10-09 15:47谢忠群
中国管理信息化 2021年19期
关键词:样本数数据挖掘准确率

谢忠群

(贵州财经大学,贵阳 550002)

1 研究背景

近年来,我国证券市场的高速发展催生了一批题材股。在这些题材中间,高送转这一题材无疑是中小投资者强烈追捧的对象。实施高送转后股价将做除权处理,投资者可以通过填权行情从二级市场的股票增值中获利,而等除权后再买入可能面临很大的回撤风险。如果我们能准确预测下一年可能实施高送转的上市公司并提前买入,这对我们投资的安全性具有很大的现实意义。经过研究,影响上市公司实施高送转的因子主要有两类:一是基本因子,包括股价、总股本、上市年限等;二是成长因子,包括每股未分配利润、每股资本公积、每股现金流、每股收益等。除此之外,还有其他因子等待挖掘。

本文利用相关数据,筛选出对上市公司实施高送转方案有较大影响的因子,建立模型预测哪些上市公司可能会实施高送转,并对提供的数据用所建立的模型来预测第8 年上市公司实施高送转的情况。

2 因子选取

本文研究数据为3466 家上市公司7 年的各种高送转相关因素,包含了年数据、日数据、基础数据,原始数据共24262 个样本。在实际建模前对数据作预处理,删除或补全缺失值、统一量纲,将数据规范化。

从数据挖掘角度在所有特征中挑选出了前8 个影响较大的因子,分别为归属于母公司净利润同比增长(%)(A)、每股收益(期末摊薄,元/股)(B)、基本每股收益(C)、每股净资产(元/股)(D)、稀释每股收益同比增长(%)(E)、基本每股收益同比增长(%)(F)、上市年限(G)、总资产净利率(%)(H)。将这8 个影响因子绘制特征重要性排名,从高到低为:B、A、D、C、H、E、F、G,且每个特征的重要性较为均衡。

图1 因子重要性排名

3 模型训练

通过数据处理,特征选择以及提取影响因子,我们得到了高质量的训练和测试数据集,现在要通过运用得到的数据和xgboost 算法正式进入“高送转”预测模型的构建工作中。

本文将挑选出的这8 个因子放入xgboost 模型中,从AUC结果来看,通过数据挖掘出的因子计算出的AUC 值高达0.96,说明利用数据挖掘挑选出的因子配合xgboost 模型的分类效果较好。

4 模型预测

xgboost 算法由GBDT 算法演变而来,在GBDT 的基础上通过改变目标函数来避免GBDT 存在的问题,例如:当数据量很大时,减少计算时间等。

图2 ROC 曲线

在测试结果展示的部分,我们使用混淆矩阵来展示模型的分类效果。混淆矩阵也称作误差矩阵,是表示精度评价的一种形式。对于二分类下的混淆矩阵,标签有两种,分别为0 和1,横坐标代表通过模型分类出来的测试集的结果,纵坐标表示数据集中给定的数据集的结果。对角线上的数据代表被正确分类的数据的个数,另外的数代表被错误分类的数据的个数。通过这些数据,计算出模型的精确率(precision)、召回率(recall)、准确率(accuracy)、f1-score,f1-score 值是将精确率和召回率的值合并,计算其调和均值,计算公式为:

其中,TP 为被分类模型正确预测的正样本数,TN 为被分类模型正确预测的负样本数,FP 为被分类模型错误预测为正类的负样本数,FN 为被分类模型错误预测为负类的正样本数,分别对应于混淆矩阵的(0,0)(1,1)(0,1)(1,0)位置。

图3 预测值与真实值的混淆矩阵

根据混淆矩阵计算出各个值:负类0 的精确率(precision)为0.96、召回率(recall)为0.96、f1-score 的值为0.96;正类1 的精确率(precision)为0.80、召回率(recall)为0.81、f1-score 的值为0.80;模型准确率(accuracy)为0.93,统计如下表1。

表1 分类准确率

猜你喜欢
样本数数据挖掘准确率
勘 误 声 明
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
探讨人工智能与数据挖掘发展趋势
高速公路车牌识别标识站准确率验证法
基于并行计算的大数据挖掘在电网中的应用
Fisher线性判别式阈值优化方法研究
一种基于Hadoop的大数据挖掘云服务及应用
三时间间隔圆锥补偿姿态更新算法性能分析
基于GPGPU的离散数据挖掘研究
河南省小麦需肥参数简介