ML-FFA:基于机器学习和基本面因子分析的量化投资策略

2018-12-11 09:23王云凯蓝金辉
时代金融 2018年32期
关键词:多因子基本面股票

王云凯 蓝金辉

(北京科技大学,北京 100083)

一、引言

量化投资因其本身量化模型多元、观察视角广和可分析海量数据的特点,使得它能够捕捉到更多的投资机会;同时还能根据投资理念的变化、市场的变化,不断发掘和优化出能够提供新的更大投资收益的统计模型;用量化思维进行投资交易更可以克服投资者主观判断偏差。另一方面,在当今人工智能迅猛发展的环境下,机器学习已经能够快速海量地对数据进行分析、拟合、预测,人工智能与量化交易之间的联系也越来越紧密。比如,在2013年,世界著名的桥水联合(Bridge water Asspcoates)公司就基于人工智能建立了一个量化投资团队,该团队利用最新的机器学习算法设计交易策略算法,结合历史数据和统计概率对未来的金融市场进行预测。

二、文献综述

现有的股票基本面研究主要通过对基本面多因子进行打分、排序,优选股票以建立投资组合。例如,在国外的研究中,Joseph D.Piotroski(2001)从盈利因子、动量因子及账面市值比等方面建立股票多因子打分模型,获得各因子综合排名较高的一些股票,构建收益较高的投资组合。Partha S.Mohanram(2005)从盈利能力和现金流表现、成长能力、账面市值比影响因子三个方面选取8个指标编制成一个指数,依据此指数建立投资组合。在国内的研究中,汪洋(2010)通过研究多因子量化选股模型发现估值指标、业绩指标可以使投资组合产生一定的超额收益。吴荻(2011)结合A股市场分析多因子Z评分方法,研究发现,该多因子打分模型在A股市场中是充分有效的。邹运(2012)在多因子选股模型中应用市场风格加权策略,通过遗传算法求解市场最优风格的权重。研究发现,投资组合表现更优。

现有量化投资的机器学习方法研究主要体现在两方面,第一,利用机器学习算法对股票价格在时间序列上进行分析预测。第二,利用机器学习方法根据股票基本面多因子进行股票分类。S.A.Bogle等(2015)通过决策树、人工神经网络、支持向量机等机器学习方法对牙买加股票交易市场股票价格、成交量进行预测。研究发现,在该市场中,股价预测准确率能够达到90%,股票成交量预测准确率超过70%。Michel Ballings等(2015)利用5767家公开上市的欧洲公司数据检验集成算法(随机森林、Adaboost、Kernel Factory)与单一分类器(人工神经网络、Logistic回归、K近邻、SVM)的股价预测效果,研究发现,集成算法中的随机森林算法表现最优。在国内的研究中,张伟(2014)将SVM应用到股票多因子选股模型中,利用支持向量机SVM中的分类技术(SVC),将股票分为优秀和糟糕两组,选取表现优异股票构建投资组合;研究发现,策略收益跑赢市场基准。曹正凤等(2014)采用随机森林(Random Forest)算法实现了有效的股票分类,投资者可以据此调整投资组合;分析结果表明,该量化选股模型表现优秀。

从现有的文献可以发现,第一,现有股票基本面多因子研究多以简单多因子打分策略为主,缺乏对高维度、共线性因子的处理。第二,现有机器学习方法研究多局限于对股票时间序列上价格的预测以及根据股票多因子对股票进行分类的问题上,缺乏其结合基本面多因子的股票涨跌幅预测方面的研究,同时也缺乏一套完整的量化投资策略。

本文设计了一套基于机器学习回归方法和基本面因子分析的量化投资策略。该策略通过机器学习算法来挖掘基本面多因子与股票价格之间的相关性,进而利用这一内在动态关联模式预测股票涨跌幅,最后依据预测的涨跌幅来构建投资组合策略。根据所采用机器学习算法的不同,ML-FFA模型可分为基于随机森林回归和基本面因子分析的策略(RF-FFA)、基于梯度提升回归和基本面因子分析的策略(GB-FFA)。

三、以基本面因子作为输入的机器学习模型

(一)机器学习算法

1.随机森林回归。随机森林回归算法是一种集成学习回归方法,它针对多个子样本的不同特征组建多个决策树对相同现象进行相似的预测。其基本原理是,采用Bootstrap抽样从总体训练样本集S中随机抽取多个子样本,之后随机选取特征进行自助采样,随机产生每棵树的每个节点,并且每个节点的分割变量随机产生,从而建立多个决策树。模型建立好后,利用测试样本对各决策树进行测试,最终预测结果取所有决策树结果的平均值。随机森林回归模型结构见图1。

图1 随机森林回归模型

2.梯度提升回归。梯度提升回归树是一个典型的针对任意可微的损失函数的提升模型,它将弱的模型组合成一个强的模型。提升树模型也可称为集成模型,因为它可以表示为以决策树为基函数的加法模型,是决策树的线性组合。本文设定最小二乘损失函数为回归损失函数,由公式(1)表示。

其中,y为真实值;f(x)为模型预测值。

3.主成分分析。主成分分析的基本原理为:设x1,x2,x3,…,xp是p个具有相关性的随机变量,(经标准化处理后),现将它们通过坐标变换进行线性组合,变成几个不相关的变量yi,变换公式如下:变成的变量不相关的公式即=U,其中U是相关系数矩阵的特征向量所构成的矩阵,而这一相关系数矩阵由p个随机变量决定。yi叫作(关于的)第i个主成分(i=1,2, …,p), 将作为第i个主成分部分的贡献值,将作为前k个主成分部分的累计贡献值,将λi作为p个随机变量相关系数矩阵的特征值。

(二)基于机器学习回归方法和基本面因子分析的量化投资策略:ML-FFA

本文基于对上市公司财报的分析,优选并计算得到与上市公司股价紧密相关的33个基本面因子,如表1所示。

在分析过程中,因为这些基本面因子的取值范围不同,量纲不同,为避免过大的回归误差,本文将对全部基本面因子值进行Z-score方法标准化。

表1 ML-FFA量化投资策略基本面因子

本文建立的是采用滑动窗口研究方法的在线学习量化选股模型,策略模型每次在一个固定长度数据区域内进行回归和预测;在完成本数据区域预测期的模拟投资之后,窗口将会滑向下一个区间,进行相同的回归和预测。每移动一个数据窗口,数据集就会进行更新,所以挖掘出来的规则也不一样。在每一个数据区域内,我们将其分为训练区间和测试区间。其中训练区间是用来利用历史数据确定ML-FFA模型中各因子的权重;测试区间主要是测试所得模型在样本外的预测效果,同时构建并优化相应的投资组合策略以检验所建立模型的投资绩效。本研究每次取当前交易日前22个交易日的基本面数据和股票收盘价作为训练集和测试集数据,在训练区间中,利用前11个交易日的股票基本面数据和其后11个交易日的股票区间涨跌幅共计11组数据进行模型训练,即利用机器学习回归方法挖掘每个交易日的基本面截面因子与11个交易日后的股票涨跌幅之间的内在联系。测试区间为训练区间最后一个交易日,取此交易日的基本面因子数据,利用训练好的模型进行股票涨跌幅预测。

ML-FFA模型的选股思路如下:

(1)设置调仓参数I,每I=11个交易日进行调仓;若不满足调仓条件,则不进行任何操作。

(2)获取调仓日前22个交易日股票基本面数据和股票收盘价日频数据,并对股票基本面数据进行标准化和主成分分析;

(3)利用机器学习方法学习训练集数据,获得ML-FFA模型;

(4)利用ML-FFA模型,基于测试集数据对股票涨跌幅进行预测,得到股票的预测涨跌幅;

(5)将股票的预测涨跌幅降序排列,剔除调仓时点涨停和跌停股票,等额买入前5只股票。

四、实证结果

(一)实证数据说明

本文选取22个行业龙头股共计140只股票(各行业见附录1),时间自2014年1月1日到2017年12月31日的股票日频数据,进行ML-FFA模型效果验证。股价均采用当日股票交易真实价格。所有数据均取自JoinQuant聚宽量化交易平台,并利用聚宽量化交易平台进行回测工作。基准策略采用买入并持有HS300指数策略,基准收益计算方式即为HS300指数从期初到期末的涨幅。调仓时间为交易日时间14:50。

本模型设定交易成本如下:佣金为0.03%,滑点为0.246%,印花税为0.1%,初始开仓资金设定为50万。同时,为策略添加止损条件,当上证指数日跌幅达6%时,立即清仓,30个交易日后再进行交易。

(二)ML-FFA模型回测

图2、图3分别细致展示出ML-FFA模型下两策略在20140101-20171231时间段内回测的策略收益。(指标说明:Backtest是相应模型策略的收益走势,对应为上方曲线;benchmark_returns是HS300指数的走势,即基准收益,对应下方曲线。)

图2 RF-FFA策略收益图

图3 GB-FFA策略收益图

两策略投资表现评价比率如表2所示。

表2 两种策略交易回测评价指标

结果表明,ML-FFA模型的两策略收益远超同期HS300指数基准。两策略年化收益均超过40%,最大回撤均小于34%,说明ML-FFA模型在A股有效。同时,对比随机森林策略和梯度提升策略,发现随机森林策略年化收益较高、最大回撤较小且具有较高的超额收益。

表3详细统计了ML-FFA两策略在2014-2017各年度的策略收益和最大回撤。结果显示,两个投资策略在2014年,投资策略收益与基准收益相当,在2015年、2016年、2017年投资策略收益全部跑赢沪深300基准,展现出ML-FFA投资策略的优势性。两策略的最大回撤均小于34%,仅在2015年股灾期间和2016年熔断期间回撤较大,其余时间策略最大回撤较小。

表3 ML-FFA模型回测结果

五、结论

本文通过两种机器学习回归算法,即随机森林回归、梯度提升回归算法,探究股票基本面多因子与涨跌幅之间的关联关系,并建立ML-FFA策略模型用以对股票未来涨跌幅进行预测,构建完善的量化投资组合。实证结果表明:ML-FFA模型两策略收益远超同期HS300指数基准,可实现0.33的年化超额收益;最大回撤小于34%,胜率大于50%。基于随机森林回归和基本面因子分析的策略与基于梯度提升回归和基本面因子分析的策略可有效提高证券资产组合收益,获得较高的收益风险比。

同时,本文也存在着其他可以改进和创新的地方:第一,目前采用的是等权重投资,不能最大限度地发挥ML-FFA模型预测的能力,可以探索更为有效的股票组合权重设计方法。第二,可以尝试测算基本面因子的月度IC,从而筛选出蕴含更多股票信息,提升模型效果的基本面因子;第三,可以尝试将量价因子加入到输入变量中,从而可以更好地预测股票价格。

附录:

附表1 ML-FFA股票池所属自建行业

猜你喜欢
多因子基本面股票
基于BP神经网络的多因子洪水分类研究
对伟星股份的基本面分析
试论中国股票市场的基本面与技术面联合估价
“多因子 全方位”加强对高校家庭经济困难学生引导
正确认识和把握经济发展的基本面