基于机器学习在股票投资的研究

2019-12-21 08:50朱智贤
大众投资指南 2019年7期
关键词:财务指标机器森林

朱智贤

(中国计量大学,浙江 杭州 310018)

一、前言

在投资策略里,人们一直以来在为收益与风险想方设法,以此获得尽可能高的收益,同时承担尽可能低的风险。在过去,投资策略往往来自于主观性的决策,比如投资经理凭借自身对技术指标的经验,从而做出买卖决策,这样的行为即存在很大的主观性。在瞬息万变的金融市场中,主观交易者要处事不惊同时又要眼疾手快地捕捉到稍纵即逝的机遇,如此需要精力的状态每天持续,也难免会力不从心。相反,量化投资在面对大量信息的时候,可以利用编程语言等工具来构建算法,做到客观地分析数据,实现无限精力,概率取胜,纪律性强的自动化交易,大大地提高了分析数据信息和交易的效率。

二、机器学习的应用定义

为了将机器学习应用到我们的真实世界的策略中,一般将采用6个步骤:

(一)数据收集

在大多数情况下,需要收集文本文件、电子表格或者数据库等的单一数据源。

(二)数据的探索和准备

任何机器学习项目的质量基本取决于它的数据的质量,所以要了解数据信息,在使用前,需要花费大量时间去修复或者清理一些不规范的数据,删除不必要的数据并标准化,以便后期的模型处理。

(三)模型训练

在已经准备好用于分析的数据时,很有可能已经有了对数据如何处理的想法,选择合适的机器学习算法。

(四)模型评价

由于机器学习模型会产生一个问题的有未知偏差的解决办法,所以评价算法从经验中学习是很重要的,那么可用测试集来评价其准确性。

(五)模型改进

需使用更高级的方法来提高模型性能。比如可以更换一个完全不同的模型;补充一些其他的变量数据或者对数据进行额外的准备工作等。

(六)应用进预期的任务

如果模型性能令人满意,就可以将之用到预期的任务里,比如预测股价等。

三、研究意义

现今的大数据时代下,基于机器学习的数据运用越来越频繁,比如翻译语言中的语音识别、信息检索和自动驾驶。可以看到,越来越多的人注意到机器学习这个领域。特别是最近几年兴起的量化投资,已是每一位股票研究员值得关注与学习的条件。

(一)模型的选择

以机器学习为工具,均进行随机森林(RM)、逻辑斯蒂(Logistic)、支持向量机(SVM)、平均神经网络(Neural network)和XGBoost模型训练测试,比较他们的准确性、敏感性和特异性。模型之间对比之后选择最佳的模型建立股票池,接着利用各股等权重比例构建量化投资策略,进行回测得出每一年的收益率和累计收益率,并与大盘进行比较。

(二)操作流程

从Wind数据库获得到这些财务指标数据,在建立机器学习模型之前,需要对数据进行收集(从Wind数据库里导出)、处理缺失值(数据删除和填补)、数据归一化,PCA对数据进行降维等。对财务指标输入变量的处理大部分为缺失值的处理,缺失值处理本文采用的是最近邻插值和近五年平均数及整体平均数的数据填补方法。对Y输出变量的处理需要用到收盘价的数据,当股票的收盘价涨跌幅大于 HS300 指数的涨跌幅,Y的值取1,反之则取 0。相比之下,在R语言编程语言中,对输出变量的处理速度要比输入变量快很多。将数据处理至符合训练测试的要求时,利用五种算法对数据进行训练测试,得出准确性、敏感性和特异性综合水平最佳的算法。使用最佳的算法预测出每一年上涨概率前20的股票,按等权配重分配,建仓、调仓8次构建一个长期的投资策略,最后回测得出该投资策略的收益率是否令人满意。

(三)模型结果

本文将更倾向于随机森林和XGBoost能得到不错的预测概率,结果:比较准确率的话,随机森林>平均神经网络>XGBoost>逻辑斯蒂>支持向量机。随机森林算法是合适的量化选股型,在这里本文基于随机森林模型使用填补和归一化后的财务指标数据,每年依照模型预测出的上涨(up)的概率从高到低选20只优质股。收益率高出HS300大盘51.5%,跑赢了大盘。

猜你喜欢
财务指标机器森林
机器狗
机器狗
未来机器城
我国金融机构股价和主要财务指标的相关性分析
全国国有企业主要财务指标
哈Q森林
哈Q森林
哈Q森林
全国国有企业主要财务指标
哈Q森林