李梦窈,刘佳敏, 徐佳妮,林雅娜 ,邵 波
(浙江外国语学院,浙江 杭州 310023)
近年来,在多因子模型研究流程中融入人工智能模型,是对多因子选股模型的改进方向之一。此方向是通过数据驱动的各类机器学习模型替代线性模型进行因子拟合。相比线性模型,机器学习具有更大的模型容量,可利用大量数据和高维因子,处理非线性关系,并进行非线性关系拟合。
XGBoost算法即以分类的方式组合回归树(CART树),是一种基于梯度提升决策树的改进算法。它在原有目标函数基础上又增加正则化项,通过对模型复杂度的惩罚来减弱模型过拟合问题,其最小化目标函数公式如下:
进行数据处理后得到最终公式:
本文分别从估值、财务质量、杠杆、市值、成长、动量、动量反转、换手率、波动率、技术等十类因子池进行筛选后,最终选取49个因子作为候选因子。在构建模型之前首先是数据预处理过程,具体包括缺失值、去极值、中性化和标准化处理。
优化模型参数可以提高模型的泛化能力,综合实验结果,选取n_estimators=500,max_depth=6,sbsample=0.9作为模型训练参数标准。
为了解测试集特征相关度,在每个截面上将高斯核SVM模型对应的下期涨跌的预测值与因子池中各个因子值进行计算,得出相关系数,查看各个因子暴露值与收益率预测值之间的相关性,如下图所示,收益率预测值与换手率、技术等交易类因子关联性较强,与基本面类型因子关联性较弱。
在模型中构造提升决策树时,重要性得分一般决定了特征值的大小,决策树中一个重要的特征意味着它被引用的次数越多。本文对数据的每个特征进行集中计算和排序,同样发现换手率、动量、技术等交易类因子重要性较强,基本面类型因子重要性较弱。
令分类数量num_class=4、8、12、16,每组为一类打标签,标签为0的收益最高,标签为n-1的收益最低。回测日期为2020年1月1日—2020年8月1日,使用截面期训练好的前6个月的模型,并设置轮动训练模型为对照组。每次等权持有中证800成份股中分类期望倒序排列前20的个股。
表1 不同分类数量在单一模型和轮动训练模型下的回测概况
如表1所示,整体来看,12分类模型效果普遍优于4、8、16分类模型效果。轮动效应带来的绩效并不显著,可见多分类数量递增对模型预测效果有一定帮助,但过度分类对模型的预测准确度会大打折扣。
使用12分类模型,设定可行股票池为中证800、中证500、沪深300、中小板指、创业板综。如下图1,XGBoost的12分类模型在中证800、中证500中均获得了高于基准收益的超额收益,在中证800预选股池表现最好。
图1 不同股池下12分类模型的累计收益对比
表2 不同股池在12分类模型下的回测概况
由于预测收益率截面和换仓周期对策略收益的影响是相辅相成的,因此我们将预测收益率截面和换仓周期均作为自变量。结果如下图2:
图2 3、5日收益率作为标签下的策略收益概况和最大回撤
整体来看,随着换仓周期的递增,预测收益率截面为3日的策略收益率显著提升。另外,随着换仓周期的增长,模型的最大回撤值大致呈下降趋势。
结合历史经验,数据量越大对模型的准确度提升也越显著。考虑计算资源的限制,因此最终选择2020年1月1日前24个月的数据量训练得出最终模型。从2020年1月1日至2020年8月1日的策略绩效来看,XGBoost模型的12分类法构建的选股策略,有利于获取超额收益,察觉市场变动风险。回测结果显示,策略收益53.52%。最大回撤9.6%,风险控制良好。Sharpe为4.62,风险收益高。Bata值0.54,波动小于大盘,稳定性优异。Alpha值0.97,具有一定的投资价值。
图3 回测日期:2020-01-01至2020-08-01|资金:10000000|频率:分钟
Brinson归因分析如上,本策略超额收益为66.47%,主要源自三个部分:第一,主动配置收益19.83%,代表超配资产类别(或板块)的超额收益较高,仓位管理能力较良好;第二,标的选择收益20.57%,表明策略在个股标的选择上配置良好且较为准确;第三,互动效应收益26.07%,表明超额收益中同时受到主动配置与标的选择影响的部分较大。
从结果导向而言,该策略较基准配置而言,高配现金、信息技术行业,获得正的主动收益;低配金融、日常消费、可选消费、工业等行业,获得负的主动收益。
从风险分析来看,投资风格方面,相较于基准指数中证800而言,该策略高配贝塔、残差波动率和流动性,低配盈利能力、账面市值比。从结果导向而言,该策略高配的风格因子表现优异,获得正的主动收益。
本文运用XGBoost算法并进行多分类模型训练,在今年以来取得了优异成绩。回测结果显示,策略收益53.52%,风险控制良好,论证了模型运用的合理性。同时在回测和模拟操作中可见模型具有一定的预测准确性,因此基于XGBoost 多分类的选股模型能够带来稳定的收益,为机器学习人工智能选股模型的研究创造更多的可能性。