(上海工程技术大学数理与统计学院,上海 201620)
实现资产配置的高收益率一直是理论研究和实际生活中的一大重要目标。10 多年来,量化投资成为市场发展的焦点,现阶段中国股市多采用多因子选股模型。
一方面,多因子选股模型可以将基本面因子、技术面因子等多种研究成果应用于选股模型,具有一定包容性,能够较为准确地刻画金融市场运行规律。如国琳等[1]将盈利能力、偿债能力、资产营运能力、成长能力4 方面财务因子运用于股票价格预测,用实证分析说明其研究的实际价值;王淑燕等[2]提出八因子选股模型,用随机森林算法实现对股票涨跌的精确预测;李斌等[3]以19 个技术指标作为输入变量;王云凯等[4]将33 个股票基本面多因子作为输入变量,然后分别用不同的机器学习算法预测股票数日后的涨跌;Donaldson 等[5]验证了多因子模型在印度股票市场的有效性。众多研究表明,通过多因子选股模型选取并构建投资组合无疑是主流投资方式。
另一方面,多因子选股是构建支持向量机、随机森林、神经网络等复杂量化投资模型的基础。如黄志辉[6]研究卷积神经网络在量化选股中的应用,研究对象为沪深300 成分股,证明卷积神经网络是一个有效的量化选股模型;李永康[7]利用Logistic 模型对多因子选股模型进行优化改进,对沪深300 指数成分股进行预测,获得较高的超额收益;邬春学等[8]将大盘走势、K 线、MACD 线、成交量等技术指 标进行 处理,基于SVM 算法预测股票涨跌。各实证结果都证明,多因子量化投资模型能够有效适用于A 股交易市场。
面对我国市场投资规模不断扩大的现状,市场发展驱动因素也复杂多变,而不同因子之间往往存在复杂关系,故因子选择成为研究难点。
为了有效识别市场发展的驱动因素,贾秀娟[9]提出在建立选股模型前利用随机森林模型筛选股票因子,提高机器学习模型识别精度;林娜娜等[10]在A 股股票涨跌预测中,首先选择26 个指标作为初始因子,然后运用相关性分析对其进行筛选,最终确定13 个因子,通过实证对比证明,随机森林算法比二元Logistic 回归的性能稳定且优越;谢合亮等[11]发现Lasso 和ElasticNet 模型能够有效筛选因子,构建有效的投资组合,从而帮助投资者获得更高的超额收益。洪嘉灏[12]经过实证检验证明,GBDT 模型在股票价格趋势预测中具有良好适用性,其策略盈利能力能够大幅跑赢基准大盘收益率,对交易者的投资策略具有一定参考意义;陈子之[13]利用GBDT 模型进行地方政府债务风险预警,证明GBDT 的可行性和有效性;张潇[14]提出梯度提升树组合算法对股票价格趋势追踪具有明显优势;李佩琛[15]指出在量化投资中使用GBDT 模型,能够带来很高的超额收益。
此外,GBDT 模型也广泛应用于其它实际案例。徐英杰等[16]提出一种基于多粒度级联多层梯度提升树对选票手写字符进行准确、快速识别的算法;欧阳志友等[17]运用梯度提升模型进行人机行为识别;Su 等[18]提出一种基于梯度增强决策树的GPS 信号接收分类算法;张红斌等[19]用极端梯度提升树算法完成图像属性标注。这都说明GBDT 模型具有很高的实用价值。
因此,本文提出一套基于因子偏离度和梯度提升树(Gradient Boosted Decision Tree,GBDT)的量化选股模型。利用因子偏离度筛选有效因子,并结合梯度提升树模型进行预测分析,建立有效的投资组合,从而给其它量化选股策略提供思路和借鉴。
因子偏离度(DEV)由董艺婷等[20]提出,能够衡量因子强度,实现因子筛选。设股票池总数为N,X=(xij)n×p∈Rn×p,xij表示第i只股票某一时间的第j个因子。记xi=(xi1,xi2,…,xip)T,表示第i只股票的全部因子,则因子矩阵X为(x1,x2,…,xp);y为[y1,y2,…,yn]T,代表股票月收益率。其计算过程分为以下两个步骤:①将股票池中所有股票按照收益率y从大到小排名,将收益率最高的20%股票组合记作SEThigh-R,收益率最低的后20%股票记作SETlow-R,得到SEThigh-R平均值和SETlow-R平均值之差;②将第i个因子按照因子值y进行从大到小排名,将因子值最高的20%股票组合记作SEThigh-F,收益率最低的后20% 股票记作SETlow-F,得到SEThigh-F平均值和SETlow-F平均值之差。得到第i个因子的因子偏离度如式(1)所示。
因子偏离度位于[0,1]区间,其绝对值越大代表因子强度越高,当绝对值为1 时,代表收益率排名的两端恰好是因子值排名的两端。
梯度提升树(GBDT)是一种集成算法,其基分类器是决策树,GBDT 算法的核心是在每一次迭代中,后一个弱分类器训练的是前一个弱分类器的误差,且沿着最大下降梯度方向。基于GBDT 算法,可以有效实现分类和回归问题,而且不容易出现过拟合现象。
开展抗战胜利纪念活动,目的就是为了挖掘抗战纪念设施、遗址的历史内涵和现实意义,使保存在博物馆里的抗战革命文物、陈列在广阔大地上的抗战遗产,记录在抗战历史书籍里的文字都活起来,发挥其对内对外多重功能,彰显抗战精神的时代价值。
设因子矩阵为X,股票收益率为y。GBDT 算法在寻优过程中,GBDT 算法采用前向分段回归,通过连续增加一个新的决策树以减小误差函数值,而不改变现有决策树的参数,损失函数L(f)计算方式如式(2)所示。
当算法迭代m次后,样本的估计值是m次迭代的累计和,如式(3)所示。
在第m+1 次迭代时,损失函数的最大化下降方向是其梯度方向,如式(4)所示。
第m+1 次迭代,最优步长ρm+1的最优计算公式如式(5)所示。
本文以沪深300 指数成分股数据进行实证分析,实验区间 为2010 年1 月1 日—2019 年7 月31 日,将2010 年1 月1 日—2013 年12 月31 日作为训练集、2014 年1 月1 日—2015 年12 月31 日作为测试集、2016 年1 月1 日—2019 年7月31 日作为回测区间。
同时,利用量化平台优矿网站,在考虑成长性因子、盈利性因子、收益类因子以及市值类因子后,共选取36 个因子,初始股票因子说明如表1 所示。此外,由于所有因子的量纲存在差异,故将所有因子进行Z-score 标准化,如式(7)所示。
Table 1 Initial stock factor description表1 初始股票因子说明
将处理完成的数据利用式(1)计算每个因子的偏离度,结果如表2 所示。同时,将因子偏离度进行从大到小排序,取前5 个因子,分别为对数总资产(X31)、对数市值(X29)、对数流通市值(X30)、管理费用与营业总收入之比(X9)、市销率(X35)。
为了分析该模型效果,本文选取年化收益率、基准年化收益率、阿尔法、贝塔、夏普比率、波动率、信息比率、最大回撤、年化换手率作为评价指标,对模型进行综合评价。这些评价指标均是聚宽、优矿等各大量化投资平台的常见风险指标。
此外,累计收益率能直接反映在一定交易日内投资者按照预测方向投资能否带来收益及带来多大的收益。因此,它是一个具有很高实用性和参考价值的重要指标。
最后,在回测区间相同的条件下,将经过因子筛选的DEV-GBDT 选股模型和未经过因子筛选的GBDT 选股模型进行对比,验证该模型应用效果。
Table 2 Factor deviation degree表2 因子偏离度
利用因子偏离度确定因子矩阵X,通过交叉验证,在测试集上确定模型最佳参数。由于高频率交易会带来过高的手续费,因此,实验采取每个月的最后一个交易日进行调仓操作,并在回测过程中去掉由于停牌或是还没有上市等而不能交易的股票。实验中设定的交易成本,如印花税、手续费和滑点等采用优矿量化平台的默认值。最后,将DEV-GBDT 策略和GBDT 策略进行回测,回测结果如表3 所示,DEV-GBDT 策略与GBDT 策略累计收益率如图1所示。
Fig.1 Cumulative return rate of DEV-GBDT strategy and GBDT strategy图1 DEV-GBDT 策略与GBDT 策略累计收益率
回测结果表明,同期以沪深300 指数的收益率为基准的年化收益率为0.74%,而DEV-GBDT 策略和GBDT 策略均显著高于该水平,分别为26.14%和17.53%,而超额收益阿尔法值均在15%在以上。DEV-GBDT 策略不仅年化收益率高于GBDT 策略,而且夏普比率、信息比率、最大回测均优于GBDT 策略,说明前者投资组合方式相对较好,但存在一定风险。前者累计收益率也明显较高,说明经过因子偏离度方法筛选因子能获得更高的超额收益。
Table 3 Backtest results of DEV-GBDT and GBDT表3 DEV-GBDT 策略与GBDT 策略回测结果
本文将因子偏离度与梯度提升树相组合,建立DEVGBDT 多因子选股模型。研究结果表明,GBDT 策略的收益率远超同期的沪深300 指数基准,能够获得很高的超额收益率。同时,DEV-GBDT 策略的年化收益率等各项评价指标均显著高于GBDT 策略,说明GBDT 模型在量化投资中具有一定实用价值。通过对比DEV-GBDT 策略和GBDT策略在多因子量化选股中的效果发现,在量化交易市场上,可以通过因子偏离度判别因子强度,降低多因子选股模型中多个因子之间的复杂相关性,从而筛选出更为有效的因子,提高股票预测准确度,建立有效的投资组合。但因子偏离度的GBDT 多因子选股模型在偏离度因子选取以及梯度提升树算法改进方面还存在不足,提高股票预测正确率,降低投资风险仍然是当前研究重点。