高建宇
摘要:文章参考当前流行的量化择时模型,基于多种机器学习方法,对技术分析中常用的多技术指标建模,用于研究证券价格波动与多种技术指标之间的关系,以此作为量化择时信号用于量化交易。研究结果表明:机器学习择时模型的预测精度和回溯精度差异不大;在模拟交易中,相较于买入并长期持有的情况,文章两种量化择时模型在实盘交易中均取得较高收益率;特别是在证券价格波动较大时能取得更好的交易收益。
关键词:机器学习;技术指标;择时模型;量化投资
一、引言
2017年3月31日我国第一个商品期货期权产品,豆粕期权的上市标志着我国金融衍生品市场步入商品期权新时代。自1992年上交所推出了我国第一个金融衍生工具——国债期货后,历经25年发展我国金融市场规模不断扩大,金融衍生工具也日渐丰富,其投资策略和盈利模式相较于传统方式发生根本性改变。量化交易这种为追求绝对化收益为目的投资方式,引起了越来越多机构投资者和普通投资者的关注。在2016年的震荡下挫的市场中许多量化型基金依然保持了较好的收益,其中长信量化先锋以年收益22.04%位居量化基金榜首,相较于-12.3%收益率的上证指数,其相对收益达到34.34%,远超大部分非量化型基金。放眼未来投资,随着市场数据有效性的提升,专注于数据分析和信息处理的量化投资,将随着市场有效性的提升将进入发展的黄金时期。
本文在参考了当前流行的趋势择时、市场情绪择时、有效资金模型、牛熊线、GSISI、ARFIMA等量化择时模型基础上,使用机器学习方法,通过使用多种技术指标建立择时模模,在择时指标选取方面做出积极的探索。该项研究在证券实盘交易的应用上具有较高的实践与借鉴价值。
二、数据处理
本文使用的50ETF数据通过同花顺股票软件,选取了50ETF(价格不复权)上市之日2005年5月23日到2017年5月31日时间段数据,时间跨度长达12年。并选用50ETF的开盘价、最高价、最低价、收盘价、成交量、涨幅和调整的收盘价等日成交数据用于计算趋势型、超买超卖型、人气型和大势型指标,本数据共23872个数据,数据不存在缺失。本文所有计算结果均在R软件3.3.1版本上计算完成。
(一)建立T指标
假設在价格变动超过P%时,即获利超过交易费用,是值得交易的。在这样的假设下,预测模型在未来K天中是否能够获得这个边际利润。则需要预测的是在未来k天中价格总的动态变化,而不是没有特定时间的特定价格,即未来k天的总体价格趋势。同时需要一个指标值与k天能够获得P%的价格变化息息相关。其中P%的变化是指高于或者低于目前的价格,正的变化将导致买入,负的变换将导致卖出。因此需要找到一个单一的值作为指标趋势值,向上的趋势可以用正值表示,向下的趋势可以用负值表示。
设Pi为每天的平均价格:
(1)式中,Ci表示第i天的收盘价、Hi表示第i天的最高价及Li表示第i天的最低价。设Vi表示未来k天的平均价格相对当天收盘价格的百分比。
设指标变量为T,为动态变化绝对值超过目标收益p%的变化进行累加:
本文先选取任意参数来说明指标T的性质,见图1。
通过改变T指标中的两个主要参数(预测涨幅和预测期)绘制成价格波动图,结合T指标性质可知:在主要上升阶段和下降阶段(价格大幅运动阶段),无论两组参数如何变化,指标T均能较好地刻画价格的大幅度波动过程;当预测期一定时,预测涨幅越低,指标T波动越频繁,对价格波动反应越灵敏;预测涨幅越高,指标T波动越小,对价格波动的反应越迟钝;当预测涨幅一定时,指标T的值对预测期不敏感,预测期的变化对指标T的波动影响较小,有时甚至不明显。
(二)构建用于量化的数据集
本文使用随机森林来筛选对T指标有重要影响的技术性指标,并建立新的包含技术指标和指标T数据集。结合原始数据计算出常见的趋势型、超买超卖型、人气型和大势型等指标,一般包括有ATR(平均真实范围)、SMI(随机动量指数)、 ADX(定向运动指数)、EMV(阿姆式简易波动指数)、MACD(平滑异同移动平均线)等30个技术指标。本文以2005年2月23日至2015年6月3日数据为训练数据集,以2015年6月4日至2017年2月23日的数据为测试数据集用于说明模型预测效果①。
三、模型建立与分析
(一)多元自适应回归样条择时模型
MARS方法通过样条函数模拟复杂的非线性关系,将整个非线性模型划分为几个特定的区域,并通过对每个特定区域进行线性回归线拟合。 MARS模型被定义为:
式子(4)中y^是因变量的预测值;a0是参数;am是第m个样条函数的系数;Sm(x)是第m个样条函数;模型中包含的样条函数的数量为M;区域之间的线性回归交点成为节点,节点数为km;Skm值为1或-1,表示样条函数的右侧或左侧;v(k,m)标识独立自变量;tkm标识节点的位置。
每个基函数表示因变量的给定区域,MARS的基函数是单一样条函数或两个及以上的样条函数的交互结果。下列两式的样条函数分别定义为:
上式中:t为节点的位置;x-t 和t -x为描述给定t时(5)和(6)的样条函数;“+”对于负值取0。
MARS模型构建算法包括三个基本功能的选择过程:前向逐步选择基函数、剪枝过程和确定最优模型。 在第一个过程中,通常给出基本函数数量的最大值M和交互的基本函数的最大量N,M一般是自变量个数的2倍,并且N根据用户的期望来确定。 剪枝过程基于广义交互验证(GCV)标准,当该值达到最小值时,相应的预测模型是最佳模型。
式子(7)中:M(λ)為模型的有效参个数; f^■为每个步骤估计的最佳模型;λ为模型中的项的数量;N为基函数的数量。
(二)SVM择时模型
假设一个非线性映射p,将所持有的样本空间通过p映射到一个高维甚至无穷维数的特征空间(即Hilbert空间)中,将原来所持有的样本空间中的非线性可分的问题可转化为映射后的特征空间中的线性可分的问题。在SVM模型中,对于升维或是线性化带来的计算复杂化的问题,应用核函数展开定理:
假设非线性映射p将保持的样本空间映射到高维甚至无限维的特征空间(即希尔伯特空间),使得原始样本空间中的非线性可分问题可以成为映射后的特征空间中的线性可分问题。在SVM模型中,核函数扩展定理被应用于由维度或线性化引起的计算复杂度问题。
设x,z∈X,X∈R(n)空间,非线性函数Φ实现输入空间X到特征空间F的映射,其中F∈R(m),n?垲m。根据核函数技术有:K(x,z)=<Φ(x),Φ(z)>,其中:<a,b>为内积,K(x,z)为核函数。
则不需要知道非线性映射的显式表达式,在一定程度上解决了计算复杂化的问题。这时只需要知道,局部性核函数仅仅在测试点附近小领域内对数据点有影响,其学习能力强、泛化性能较弱;而全局性核函数则相对来说泛化性能较强、学习能力较弱。SVM是基于结构风险最小化理论,在特征空间中构建最优超平面,从而使学习者得到全局最优化,整个样本空间的期望满足一定的上限。
上述两个择时模型参数选取过程较为繁琐,其过程可向作者索取,这里仅列出结果。一般情况下,回溯精度的大小不会对交易产生较大影响,回溯精度较小意味着失去交易机会,不会带来成本的损失,但是预测精度的大小则会影响交易信号的准确性,从而直接影响交易的盈亏。分析表1的结果,多元自适应回归样条的卖出回溯精度较好,买入回溯精度较差,买入、卖出和决策方面的预测精度都大致相同约为55%。
首先,SVM的结果相较于回归样条的结果在卖出和决策方面预测精度和回溯精度都有一定程度上的提高;其次,SVM的结果除了在买入的回溯精度上没有明显改善外,甚至出现了略微降低,其他方面的精度大致相当;最后,综合比较可知,支持向量机的预测性能相较回归样条的预测性能有一定程度的改善。
综合上述两种择时模型的结果:两个模型的卖出回溯精度均较好,买入回溯精度均较低;总体上,多元自适应回归样条和SVM模型的预测结果基本一致。
四、盈亏状况评估
本文“追涨”策略编写交易程序①,本文选取任意4组参数(exp.prof和bet)来分别简单说明个两个择时模型的实盘模拟交易结果,如表2所示。
首先,在两个模型交易结果中均有如下结论:在当前持仓期望收益率一定时,投资方式的不同对最终收益率的大小和最大货币损失有明显影响;当投资方式一定时,当前持仓期望收益率对最终收益率大小和最大货币损失没有明显影响;交易次数、盈利交易次数、盈利交易百分、夏普比率、平均收益、平均损失、最大收益和最大损失等不随参数的变化而变化。其次,分模型看:在最终收益率方面,多元自适应回归样条模型的收益明显高于SVM模型;两个模型的交易胜率大致相同。最后,比较两个模型的夏普比率来说明交易的优劣。夏普比率=实际回报率/回报率的标准差,一般认为夏普比率越大,就说明获得同样投资收益率的波动性比较小,也意味着投资回报率的可复制性也越高,多元自适应回归样条模型的夏普比率相对较高,说明多元自适应回归样条的投资收益回报率相较于SVM择时模型有较好的复制性。
五、结语
本文基于机器学习方法建立了一个多技术指标的量化择时模型,通过研究发现:两种数据挖掘方法在量化择时研究上差别不大,多元自适应回归样条和SVM模型的预测效果基本一致;在模拟交易中,量化择时模型取得的收益率均高于买入并持有50ETF策略下收益率;量化择时模型在证券价格波动较大时能取得比证券价格波动较小时更好的交易效果;从模拟交易的结果来看,多技术指标量化择时模型在实盘交易中具有较高的实践价值。
参考文献:
[1]Torgo,L.ParticalLinearTrees.In Langley,P.,Editor,Proceedings of the 17th International Conference on Machine Learning[M].Morgan Kaufmann,2000:1007-1014.
[2]Hahne,F.,Huber,M.DataMining:Concepts and Techniques(2nd edition)[M].Morgan Kaufmann Publishers,2006.
[3]Hornil K,BUchta C,Zeileis A.Open-source Machine Learning:R meets Weks[J].Compurarional Statistics,2009:24(2):225-232.
[4]Weiss,G.and F.Provost.Learning When Training Data Are Costly:The Effect of Class Distribution on Tree Induction[M].Journal of Artificial Intelligence Research,2003:315-354.
[5]Gama,J.and Gaber,M.,Editors.Learning from Data Streams[M].Springer,2007.
[6]Drummond C.and Holte R.Cost Curves:An Improved Method for Visualizing Classifier Performance[M].Machine Learning,2006:65(01):95-130.
[7]Weihs G.and U,Luebke K,and Raabe N.klar analyzing German business cycle.In Baier,D.,Decker,R.,and Schmide-Thieme, L.,Editors,Data Analysis and Decision Support[M].Springer-Verlag,2005:335-343.
[8]Zeileis A.and Grothendieck G.zoo: S3 infranstructure for regular and irregular time series[J].Journal of Statistical Software, 2005:14(06):1-27.
[9]Trapletti A.and Hornik K.tseries: Time Series Analysis and Computational Finance[R].R package version,2009.
[10]Milborrow S.Earth:Multivariate Adaptive Regression Spline Models,derived from mda: mars by Trevor Hastie and Rob Tibshirai[R].R package version,2009.
[11]Smola A.and Scholkopf B.A Tutorial on Support Vector Regression[J].Statistics and Computing,2004(14):199-222.
[12]Ylimaz K.,Return and volatility spillovers among the east asian equitymarkets[J].Journal of Asian Economics,2010,21(03):304-313.
[13]Ulrich J.TTR:Technical Trading Rules[R].R package version,2009.
(作者單位:大连理工大学经济管理学院企业管理研究所)