基于集成学习的量化择时研究

2021-12-03 13:20朱玉辉中国人民大学
环球市场 2021年32期
关键词:决策树比率梯度

朱玉辉 中国人民大学

一、引言与文献综述

预测沪深300 股指期货的走势,在研判经济趋势和量化投资领域具有重要意义[11]。单一机器学习算法已经在金融领域应用中被广泛研究。陈磊和何国辉(2016)通过训练C4.5 决策树算法,使用结算价、涨跌、成交量和持仓量4 个属性建模[7],对期货价格进行预测,具有一定的借鉴价值。陈添杰和陈雨桐(2002)将支持向量机模型用于上证50 股指期货的实证分析[8],并获得了较高的精度。陈标金和王锋(2019)将技术指标和宏观经济指标共计10 个指标作为国债期货价格的预测变量[6],使用随机森林模型预测,证实了宏观经济指标和技术指标均对国债期货价格具备一定的预测效果。组合机器学习算法也有初步进展,王维红和聂爽爽(2009)将三种机器学习算法进行Bagging组合,对股票预测进行预测[10],取得良好的组合效果。

文章分别运用了梯度提升决策树(GBDT)、决策树(DT)与随机森林(RF)三种机器学习算法分别对沪深300 股指期货进行择时预测,并创新地通过对三种算法的预测结果和优选两种算法的预测结果进行逻辑回归集成学习,加权集成计算新的预测概率,以获取更高的准确率,利用强分类器进行集成学习和目标优选算法集成学习是在金融领域应用的进一步发展与完善。

二、理论介绍

(一)模型理论

1.决策树

决策树[1](Decision Tree,DT)模型是一种基于实例的归纳型机器学习算法,通过递归的特征选择,不断的生成树形结构,并通过剪枝减少过拟合问题,从而通过树形结构的规则对未知样本进行分类。

Breiman 等人在1984 年介绍了一种CART算法[1],使用基尼系数(Gini Impurity,GINI)度量属性分裂的优劣。Quinlan 在1986 年提出了ID3 的算法[4],通过选择最大化信息增益的特征,不断的递归成树。Quinlan 在1993 年又提出了基于C4.5 的决策树算法[5],通过选择能够使信息增益比最大化的特征,不断的递归成树。

2.随机森林

随机森林[2](Random Forest,RF)算法本质是Bagging,总体思路是通过多个决策树模型组合,对模型的预测结果进行少数服从多数的投票,可以增加模型的整体准确度和鲁棒性,效果比单个模型要好。同时,在单个的决策树模型中,随机选择部分特征用于决策树的构建,一般情况下,推荐随机选择log2A个[2](A为特征总数)。

其中,H(X)是随机森林的分类结果,hk(X)是每一个决策树模型的分类结果,Y是分类结果,I(●)是示性函数。

3.梯度提升决策树

梯度提升决策树[3](Gradient Boosting Decision Tree,GBDT),是一种基于决策树作为基模型的Boosting 算法,Boosting 的思想是通过某种方式使得每一轮学习器在训练中更加关注上一轮学习错误的样本,不同Boosting 之间的区别在于是采用何种方式训练,GBDT 是采用残差迭代训练上一轮的决策树模型。

GBDT 模型最终可以表示为CART 算法的加法模型:

其中,h(x;θm)表示第m个决策树,θm为第m个决策树的参数,M为决策树个数。

4.逻辑回归

逻辑回归(Logistic 回归)模型虽然简单,但是是一种非常重要的机器学习模型之一,常用于分类问题[9]。

按照逻辑回归的思路,将上述三种单一算法的预测概率作为三个因子进行输入,进行集成学习的Stacking 处理,公式为:

其中,y为沪深300 股指期货的涨跌,x1为梯度提升决策树模型预测的概率结果,x2为随机森林模型预测的概率结果,x3为决策树模型预测的概率结果,βi(i=0,1,2,3)为模型的估计系数。当优选两种算法(梯度提升决策树、决策树)进行集成时,β2=0。

(二)算法评价标准

分别计算AUC、平均年化收益率、复合年化收益率、最大回撤率、年化波动率、Calmar 比率和夏普比率,对模型的结果进行评价。

三、实证分析

从公开二级市场信息中下载沪深300 股指期货指数(IF 主连,IFL8)2010 年4 月16日 至2020 年12 月31 日期间550 周的周线数据,选取开盘价(Open)、最高价(High)、最低价(Low)、收盘价(Close)、成交量(Vol)、MACD.DIF、MACD.DEA 和MACD.MACD 数据,并计算周内最高价与最低价价差(Range)、周内收盘价与开盘价价差(Intra_Return)和一周收盘收益率(Weekly_Return),共计11 个因子,下一周周收益率是涨是跌作为预测值,采取用过去10 周预测未来一周涨跌的滚动预测方法进行择时买入,即如果预测为1,则按照次周开盘价进行买入,于次周收盘价进行卖出,并计算收益;如果预测为0,则次周空仓等待,最终形成净值曲线。

首先,使用梯度提升决策树、随机森林和决策树三种单一分类方法分别对沪深300股指期货进行了涨跌的预测,滚动回测的结果画图(见图1),并计算上述的算法评价指标(见表1),然后通过对三种算法的预测结果进行逻辑回归集成,计算新的预测概率,按照上述的买卖和空仓逻辑进行回测,净值曲线的画图和算法评价指标见图1 和表1。

其次,考虑到文章中使用的因子较少,无法发挥随机森林在因子选择上进行多重组合的优势,仅仅通过对决策树和梯度提升决策树两种优选算法的预测结果进行逻辑回归集成,计算新的预测概率,同样按照上述的买卖和空仓逻辑进行择时并计算算法评价指标,净值曲线的画图和算法评价指标见图2和表1。

四、模型效果

(一)滚动回测表现

如图1、图2 和表1 所示。

表1 指数、单一模型和Stacking 集成模型的评价指标对比

图1 梯度提升决策树(GBDT)、随机森林(RF)、决策树(DT)与基于这三种机器学习Stacking集成模型(Combined 3ML)的滚动回测净值图(IFL8为沪深300股指期货走势图)

图2 梯度提升决策树(GBDT)、决策树(DT)与基于这两种机器学习Stacking集成模型(Combined 2ML)的滚动回测净值图(IFL8为沪深300股指期货的走势图)

(二)模型效果对比

1.预测准确度

不管是选择全部算法结果进行集成,还是优选两个算法进行集成,集成学习模型预测准确率比单个的机器学习模型预测准确率都更高。

2.年化收益率

(1)所有用机器学习预测的模型收益率均战胜指数本身,如果对收益率做简单平均,差距会更大;

(2)集成模型收益率优于单个机器学习模型的收益率;

(3)在单个机器学习模型中优选两个收益率更高的机器学习模型(DT 和GBDT)进行逻辑回归集成,收益率优于直接对三个模型进行集成。

3.最大回撤率

(1)所有用机器学习预测的模型最大回撤率均比指数本身回撤更小;

(2)集成学习模型回撤比率均小于单个机器学习模型的最大回撤率;

(3)对三个机器学习模型进行集成的最大回撤率小于优选两个机器学习模型集成的最大回撤率,符合收益越高,风险越大的经济理论。

4.年化波动率

(1)所有用机器学习预测的年化波动率均比指数本身更低;

(2)集成模型年化波动率略高于单个机器学习模型的年化波动率,以稍高的年化波动率换取更高的收益和更低的最大回撤率。

5.Calmar 比率

(1)所有用机器学习预测的Calmar 比率均比指数本身更大;

(2)集成模型Calmar 比率均远大于单个机器学习模型的回撤率;

(3)对三个机器学习模型进行集成的Calmar 比率大于优选两个机器学习模型集成的Calmar 比率。

6.夏普比率

(1)所有用机器学习预测的模型夏普比率均跑赢指数;

(2)集成模型夏普比率均大于单个机器学习模型的夏普率;

(3)对三个机器学习模型进行集成的夏普比率略小于优选两个机器学习模型集成的夏普比率。

五、结论与建议

文章通过对梯度提升决策树、随机森林和决策树三种单一方法分别对沪深300 期货指数(IFL8)进行了择时预测,准确率分别为53.48%、52.96%和55.90%,三个模型最高净值为3.3975。然后,对三种算法的预测结果进行逻辑回归集成,重新产生新的预测结果,预测准确率为59.87%,累计净值4.3509;考虑到收益率、AUC,也考虑到随机森林更适合因子个数非常多的情况,优选出梯度提升决策树和决策树两种算法的预测结果进行逻辑回归集成,重新产生新的预测结果,预测准确率为60.21%,累计收益净值为4.9049。机器学习模型集成的预测准确率相对三种单一算法有较大的提升,滚动回测的净值相比三个单一模型中最高净值提升了1.5074,且显著增加了策略的Calmar 比率和夏普比率,适合追求更高收益率的基金策略。

总体实验的滚动回测结果表明,将多种单一机器学习模型的预测结果,使用逻辑回归(Logistic 回归)再次进行全部集成预测或通过优选机器学习算法进行逻辑回归,可以提升算法的准确率和鲁棒性,为机器学习在量化投资领域的应用开辟了新的道路,滚动回测同时也避免了随机分组成训练组和测试组所导致的用未来数据来预测历史数据的问题,同时滚动的方式更加符合实际的操盘。

本次研究的不足之处在于仅仅探索了较少的因子,把重心放在了机器学习集成的新算法上。影响金融和经济发展的因子非常复杂,较少的因子对走势的描述势必不够全面,可以尝试将成百上千的指标因子运用于上述算法中,以期获得更好的效果。另外,结合期货等衍生品的特性,将预测为0 时的空仓,转换成做空的信号,更好地利用衍生品的多空优势,更能增加策略的收益和收益回撤比。

猜你喜欢
决策树比率梯度
带非线性梯度项的p-Laplacian抛物方程的临界指标
基于决策树和神经网络的高血压病危险因素研究
一个具梯度项的p-Laplace 方程弱解的存在性
决策树和随机森林方法在管理决策中的应用
比率分析公司财务状况——以步步高及永辉超市为例
基于AMR的梯度磁传感器在磁异常检测中的研究
基于数字虚拟飞行的民机复飞爬升梯度评估
决策树多元分类模型预测森林植被覆盖
千点暴跌 两市净流出逾7000亿资金
美拭目以待的潜力城市