吴青山
摘 要:量化择时策略是量化投资和量化交易的核心策略,需要考虑到特征因子的含义和资产价格的涨跌幅度。基于此,使用XGBoost、LightGBM等树类模型提取了分类指标,构建了考虑到止盈止损区间的量化交易模型,并用于沪铜期货的量化投资交易分析。实证结果表明,该方法能有效预测资产价格的涨跌幅度,且使用机器学习可解释性分析得到的解释结果具有解释能力,符合实际情况。
关键词:机器学习;量化投资;期货
中图分类号:F832.5 文献标志码:A 文章编号:1673-291X(2023)02-0083-03
引言
随着大数据技术以及人工智能技术,在金融领域逐渐被广泛使用,带来了量化择时交易的兴起。量化择时交易具体是指使用数量化的方法对诸如股票之类的金融产品进行价格预测,从而在某一段时间进行交易的行为。现有的关于量化择时交易的相关文献大致可分为两类,一类是基于基本面数据指标进行量化交易操作,另一类是基于技术面数据指标进行量化交易操作。
基于基本面数据指标的量化交易策略,是指分析股票的基本面因素,从而使用基本面指标对股票的未来价格进行预测,投资者根据预测价格做出相应的交易行为。在基本面分析中,不同的因子对股票的价格影响趋势不同,对不同股票的影响程度也不同。基于技术面数据指标的量化交易策略,是指分析股票的技术指标,对比价和量、识别趋势以及反转,从而预判股票将来的价格区间,投资者根据预判做出相应的交易行为。关于技术面,国内外已有不少学者做出了深入的研究。例如,Murphy通过对前人的研究进行分析和总结,概括出了技术分析得到假设前提,并预判了各种事件和因素对股票的交易价格和交易量的影响趋势和影响程度。
根据机器学习模型和深度学习模型突出的拟合性能,该类模型被广泛应用于预测股票的价格和趋势,进而被引入到量化投资领域中。譬如,Tenti使用神经网络模型预测期货价格,并做出交易策略;Kamruzzaman使用神经网络模型与传统ARIMA模型进行对比分析研究,发现神经网络模型对股票价格的预测精度明显高于ARIMA模型。
一、技术指标和模型介绍
在量化交易领域的常用技术指标分为趋势类、动量类、能量类和区间突破类等,部分技术指标是用开盘价、收盘价、最低价、最高价以及成交量和换手率等历史数据计算得到。下面列出本文用到的技术指标。
移动平均线(SMA)计算一段时间内的标的资产价格的平均值,是一种通过平滑数据消除标的资产价格短期波动,对资产价格的长期趋势进行分析的技术指标。动量指数(MOM)是研究金融资产价格波动速度的技术指标,原理是金融资产价格的涨跌幅会随着时间的推移而慢慢减小。威廉指标(WR)研究金融资产价格波动幅度的技术指标。相对强弱指数(RSI)是研究金融资产价格波动幅度的技术指标。随机森林(Random Forest,RF)算法是一种经典的装袋法(Bagging)模型,由Breiman(2001)提出其基学习器为决策树模型。XGBoost(eXtreme Gradient Boosting)最早提出于2016年(Chen and Guestrin,2016),它是在GBDT的基礎上引入正则化损失函数来实现弱学习器的生成,加入正则化的损失函数可以起到降低过拟合的风险。LightGBM算法是Boosting算法的新成员,它和XGBoost算法一样是对GBDT算法的高效实现(Ke et al.,2017)在框架上做了优化。决策树是一种基本的分类和回归算法,模型结构呈现树状。
二、量化择时系统构建
本文选取的数据是2000年1月19日到2021年10月31日的沪铜期货合约的历史交易数据,数据来源为wind数据库。该数据包括期货合约的开盘价、收盘价、最高价、最低价还有成交量。本文使用的XGBoost、LightGBM、随机森林和决策树等模型都属于有监督学习,训练该类模型都需要标签。本文的标签定义为是否买入或者卖出标的资产,若买入则为“+1”,若卖出则为“-1”。
关于机器学习算法在量化投资中的运用,现有的大部分做法都是将计算出来的技术指标直接带入模型中进行预测,没有考虑到技术指标本身特有的含义和性质,若使用这些技术指标的特性可能会对标的的价格走势进行更好预测。在实际操作中,交易状态不仅仅有买入和卖出,还有观望状态,而且针对不同的特征,其阈值是不同的。因此,本文使用分位数代替阈值,在增加灵活性的同时不丢失特征本身的特性。仍以SMA为例,当SMA数值大于75%分位数时,标签为“-1”;当数值小于25%分位数时,标签为“-1”;当数值在25%分位数和75%分位数之间时,标签为“0”,表示观望。
本文参考相关学者的文献,选用累计收益率、夏普比率(Sharpe Ratio)和索提诺比率(Sortino Ratio)作为量化交易模型的评价指标。其中,Sharpe Ratio主要被用于评价基金的投资绩效。其计算方法为超额收益的期望除以收益的标准差。该指标全面考虑了风险和收益。具体表现为,该指标数值越大,说明该投资组合的表现越好;反之,则说明该投资组合的表现越差。后来,研究者在Sharpe Ratio的基础上提出了Sortino Ratio,该指标剔除了股票价格上涨的风险,即获得的收益不计入风险的计算中。
三、实证结果
沪铜描述性统计如表1所示。
本文选用的基准策略为多数投票策略和随机策略,多数投票策略是指根据特征的买入和卖出标签的个数进行投票,个数多的信号为最终信号,决定买入或者卖出行为。随机策略是根据随机信号进行买入或者卖出操作。
本文使用的投资模型为滚动训练集的方法进行训练,用最近的50个样本训练模型,预测当前期的结果;并根据模型特征重要性选出了重要特征,对模型进行了可解释性分析。实验结果如表2所示。
表2是在各种量化投资模型下的投资绩效,可以从表中看出随机森林模型下的累计收率最高,择时准确率也最高,综合表现优于其他模型。说明该模型可提升技术指标对标的资产的预测能力以及择时交易的能力。
图1为各模型下的累计收益率曲线图,从图中可看出,收益率最高的为随机森林模型,其次为XGBoost模型、LightGBM模型和决策树模型。
结语
随着金融市场的发展,量化交易也在发展并成为交易市场中的重要组成部分。因此,科学合理地设计量化交易策略就显得尤为重要。目前,机器学习算法由于其良好的拟合能力和预测能力,已被广泛应用量化投资领域中。本文使用的机器学习模型就可以印证这一点。还有,本文使用的具有止盈止损限制的交易方式,對于模拟实际交易有现实意义。本文的研究为投资者的交易提供了有效的参考,具有实际应用价值。
参考文献:
[1] 张华,任若恩.基于Dempster-Shafer证据理论的外汇交易策略研究[J].数理统计与管理,2013,32(3):452-461.
[2] 林文修,蔡秉洲.集成基因表达规划法应用于动态股票交易策略探勘之研究[J].中国管理科学,2015,23(S1):510-517.
[3] 禹建丽,孙增圻,Valeri.Kroumov,成久洋之,刘治军.基于BP神经网络的股市建模与决策[J].系统工程理论与实践,2003,(5):15-19,58.
[4] 陈荣达,虞欢欢.基于启发式算法的支持向量机选股模型[J].系统工程,2014,32(2):40-48.
[5] 周铭山,冯新力,林靓,方旭赟,周开国.A股市场均线策略有效性与收益率随机特征研究[J].证券市场导报,2013,(1):58-64.
Research on Futures Quantitative Timing Strategy Based on Machine Learning
WU Qing-shan
(School of Economics, Guizhou University, Guiyang 550025, China)
Abstract: Quantitative timing strategy is the core strategy of quantitative investment and quantitative trading, which needs to take into account the meaning of characteristic factors and the rise and fall of asset prices. If so, we use XGBoost, LightGBM and other tree models to extract classification indicators, build a quantitative trading model considering the stop-loss interval, and use it to analyze the quantitative investment and trading of Shanghai Copper Futures. The empirical results show that this method can effectively predict the rise and fall of asset prices, and the interpretation results obtained by machine learning interpretability analysis have explanatory power, which is consistent with the actual situation.
Key words: machine learning; quantitative investment; futures
[责任编辑 若 云]