基于隐马尔可夫模型的黄金期货价格趋势研究

2024-06-14 02:26贾德高刘春雨刘家鹏
中国商论 2024年11期

贾德高 刘春雨 刘家鹏

摘 要:本文基于隐马尔可夫模型(HMM)探究黄金期货价格的变动趋势,通过麻雀搜索算法(SSA)对HMM模型初始状态的概率分布进行优化,解决HMM模型容易陷入局部最优的缺陷,得到了改进的模型(SSA-HMM)。文章通过实际应用比较证明了SSA-HMM在黄金期货价格趋势预测中是有效的,同时深入探究HMM模型隐状态与实际问题之间的联系,论证了结合期货价格波动的驱动因素对隐马尔科夫模型的隐状态进行描述是更加合理的。

关键词:价格趋势;HMM;隐状态;麻雀搜索算法;黄金期货

本文索引:贾德高,刘春雨,刘家鹏.<变量 2>[J].中国商论,2024(11):-103.

中图分类号:F830.94 文献标识码:A 文章编号:2096-0298(2024)06(a)--04

1 引言

黄金市场是金融市场中必不可少的重要组成部分,为中央银行提供一个新的货币政策操作工具的同时,其期货市场也为广大投资者提供了一种避险和投资渠道。中国黄金期货于2008年正式挂牌交易,自成立至今的价格多变、难以预测,但是也有几次明显的涨跌趋势存在。由于成立时间短,市场有效程度有待加强,容易受各种影响,加之经济全球化趋势,也难以摆脱国际黄金价格的影响。影响黄金价格波动的因素大致可以分为以下五点:供需方面、实体经济方面、金融市场方面、投机方面、联动因素方面,这些因素之间相互影响,使得投资者很难从纷乱繁杂的市场信息中及时准确地判断出未来黄金价格的走势。隐马尔科夫模型可以通过对已有的价格信息进行深入学习,挖掘出数据中隐藏的价格状态,再通过“隐状态”对未来价格走势进行判断。

将机器学习应用于证券价格的分析,是当下比较流行的一种趋势。2005年,Hassan等(2007)首次提出将隐马尔科夫模型应用于证券价格预测,并与ANN算法进行比较,发现两者性能相近[1]。之后不断有学者对隐马尔科夫模型在证券价格方面的应用进行研究,比如Park,SH.(2009)将HMM应用于股票价格预测[2],Caccia M.(2019)将HMM用于期权方面[3]。传统的隐马尔科夫模型训练方法存在局部极值陷入的问题,然而麻雀搜索算法相较其他智能优化算法,具有结构简洁、实施方便等优点。此外,它所需控制参数少,全局搜索性能也较强,因此可以对隐马尔科夫模型的初始参数分布进行优化。

因此,本文提出一个结合隐马尔可夫模型(hmm)和麻雀搜索算法(ssa)的黄金期货价格趋势预测模型——SSA-HMM模型。经过实验验证,这个模型在预测方面表现优秀。

2 隐马尔可夫模型

隐马尔科夫模型起源于马尔科夫链的发展,因为实际问题的复杂程度通常超出马尔科夫链所能涵盖的范围。观察到变量并不总是直接与状态相对应,且每个状态之间都有可能发生转移,其发生的概率可以通过之前的状况来计算。这种模式包含两大部分:一是马尔科夫链;二是普通随机进程。马尔科夫链的关键在于理解状态之间的转换;普通随机进程则是关于如何确定观察到变量与状态的关系,这个状态因为无法被观测,所以被称为隐状态。隐状态无法被观测,可以看到的只有价格及其他指标,如持仓量、成交量这些观测值。通过对这些观测值进行数据学习和挖掘,得到隐状态,再通过隐状态来预测观测值的后续走势,是隐马尔科夫模型解决WTI原油期货价格趋势预测问题的基本原理。

HMM存在三个主要问题,分别是评估、解码和学习。

其中,评估问题是在模型参数λ已知的情况下计算观测序列O出现的概率,用到的是前后向算法,公式如下:

其中,Q为隐状态序列。

解码问题的目标是在给定模型参数和观测顺序O下,找到最可能隐藏状态顺序Q,公式如下:

学习问题是在给定观测序列O的情况下 ,估计模型的参数λ,使得观测序列O在该模型中出现的概率达到最大值,公式如下:

3 麻雀搜索算法

麻雀搜索算法(SSA)是一种以自然鸟类行为为基础的启发式优化方案,模拟了麻雀在寻找食物时的搜寻动作,主要应用于连续优化问题,例如函数优化、参数优化等[4]。

麻雀搜索算法的基本思想是将搜索空间中的解看作食物,将搜索代理看作鸟群,鸟群在搜索空间中觅食。鸟群中的每只鸟代表一个解,每只鸟在搜索空间中随机移动,其移动方向和距离受到当前最优解的影响,以期望找到更优的解。同时,算法引入了一些自适应机制,如变异和适应度修正等,以提高算法的全局搜索能力和局部搜索能力。

与其他优化算法相比,麻雀搜索算法具有以下优点:

(1)收敛速度快:算法使用自适应机制,可以在搜索过程中不断修正适应度函数,加快算法的收敛速度。

(2)全局搜索能力强:算法具有较强的全局搜索能力,能够在搜索空间中全面探索解空间。

(3)鲁棒性好:算法对初始解的依赖性较小,对问题的初始值和参数设置不敏感。

总之,麻雀搜索算法是一种基于自然鸟类行为的启发式优化算法,具有较好的全局搜索能力和鲁棒性,可以应用于多种优化问题的求解。

4 SSA-HMM组合模型

基于HMM模型的期货价格预测模型应用的关键问题是HMM模型的学习问题,该问题通常用Baum-Welch算法(Baum,1972) [5]来计算解决,一般选择一系列随机参数作为隐藏状态的初始随机分配。然而,使用不同随机化的起始参数来构建模型时,所得出的结果可能有显著差别,意味着这些初始化参数对识别效果有着重要影响。这种特殊形式的EM算法仅能确保找到局部最优解,因此需要尽可能地让训练结果接近全局最佳极值,以便提高模型的识别准确度。

麻雀搜索算法因全局优化能力卓越,能够采用一种全面的搜寻方式而非仅依靠随意选取hmm参数的单点搜寻。通过反复迭代,最终获得更优质的初始参数。

利用麻雀搜索算法对隐马尔科夫模型进行优化,以构建期货价格预测模型,其过程分为三阶段:首先,确定初始参数;其次,模型训练;最后,对未来的预测。具体步骤如图1所示。第一阶段中,首先,本文运用了麻雀搜索算法选择出模型的起始参数;其次,按照正常操作顺序应用Baum-Welch算法完成模型的培训工作;最后,借助前向算法计算目标序列出现的概率,并依据该数值通过多天加权平均方法推算出未来价格。

4.1 SSA优化HMM算法

前文提到HMNM算法容易陷入局部最优,这与算法初始参数的选取有关。其中,在参数训练过程中,隐状态个数需要人为设定,而初始状态概率分布则是随机生成,两者是影响模型预测性能的关键。隐状态的个数本文根据前文对黄金期货价格驱动的机制分析来人为给定,初始状态概率分采用麻雀搜索算法进行优化,具体步骤如下:

(1)划分训练集和预测集;

(2)确定适应度函数;

(3)确定最优变量及最优值;

(4)将最佳变量设定为初始状态的概率分配,并使用Baum-welch算法对hmm进行训练;

(5)根据寻找与测试集似然值相近的历史数据,通过加权平均获得预测值。

4.2 基于加权平均的期货价格预测

20世纪50年代,部分学者开始对时间序列的长记忆性问题展开了研究,但是长记忆性模型被用于研究金融市场的时间序列[6]还经历了漫长的30年。长期记忆是指当前数据受历史数据影响,其中越接近当前时间的历史数据,对当前数据的影响越大。兼顾长期、短期记忆的模型应用较多[7-10]。

本文提出的基于加权平均的期货价格预测是以价格序列具有长期记忆性为前提的。具体如下:假设当前时间为t,在训练数据中,第m日的期货价格走势与当前时间t的似然值相近,则第t+1日的期货价格走势就与m+1日的走势相似。似然值越接近,走势就越相似;反之,则相去甚远。使用加权平均预测期货价格具体步骤为,对某一段时期,首先,用SSA-HMM模型在历史数据中找出一组数据称之为历史数据集Th,在历史数据集Th中每一日期货价格的似然值与今天期货价格的似然值是相似的。其次,计算历史数据集中每一个日期的收盘价与它下一交易日的收盘价的价格差,对这组价格差使用加权平均(似然值与日期t的似然值越接近的价格差权重越大)得到t日与t+1日收盘价的价格差,公式如下:

其中,wd——第t日与t+1日的收市价格差;i——历史数据集Th中的第i个数据;diffi——第i日与i+1日的收盘价格差;ωi——第i个数据的价格差对wd的权重,ωi如下:

其中,Di-t——第i个数据的日期与第t日日期相差的天数,也就是若Di-t越小,第i个数据对价格差wd影响的越大。

在得到第t日与t+1日的收市价格差wd之后,第t+1日的收市价格为:P=Pt+wd,其中Pt为当日t的收盘价。

5 实证研究

5.1 实验数据

为了测试提出的SSA-HMM模型的性能,本文用SSA-HMM模型对上海黄金交易所AU(T+D)2007-01-05—2023-05-12共3915日的数据进行测试。其中,后30日数据作为测试集,其余为训练集。本文选择日收盘价、加权平均价、交易量和持仓量作为输入数据,这些数据都是从resset获取的。

以往很少有人选取持仓量作为输入变量,但持仓量是一个很重要的指标,它与成交量不同,成交量侧重当日的交易状态,持仓量更侧重市场的后续状态。持仓量是指在购买或销售某些产品现货合同后,未能完成对冲和实际交换的数目。通过观察持仓量的变化,本文可以推断出资金流向何处。如果持仓量增大,就说明资本开始进入期货市场;反之,则意味着资本开始回流期货市场。

5.2 实验算法的参数设置

首先,本文对数据进行Box-Cox变换等处理后,使之符合正态分布。其次,本文对模型的参数进行设置,如表1所示。隐状态个数依据上文分析,本文的隐状态数量设置为5更有实际意义,分别对应影响黄金价格波动的五个方面。

另外,本文运用SSA方法来提升HMM模型的效果,结果显示其初始状态的概率分布是[0.0347 0.2147 0.2035 0.1218 0.4252],也就是说,有0.0347的可能性存在于状态0中,而状态1和状态2分别占0.2147和0.2035的比例。同样地,状态3和状态4也各占据0.1218和0.4252的比率。此外,本文在每一个马尔科夫隐藏状态中都引入了全局协方差矩阵作为观测变量的选择条件。这个矩阵中的所有元素都不等于零,这是因为本文的四维数据确实具备相互关联的特点。

5.3 性能指标——趋势同向率

本文提出的组合模型的性能是通过趋势同向率来衡量的。影响黄金期货的价格因素很多,对具体价格的预测较为困难,本文选择预测期货价格的趋势。以当前价格为主,预测日的收益率为正则趋势为正向,即黄金期货价格上涨;反之,则为负向。趋势同向率为:

趋势同向率=

其中,n为待预测天数;Xi为:

5.4 实验结果

本文为验证提出的SSA-HMM模型的有效性,将其与未优化的HMM模型及SVM和BP神经网络模型进行对比,结果如表2所示。由表2可以得出,在黄金期货价格趋势预测方面,HMM模型的预测性能优于SVM和BP神经网络模型,而优化后的SSA-HMM模型的预测性能明显得到了提高,说明SSA-HMM模型的有效性。

5.5 隐状态分布分析

本文所选数据隐状态散点图分布如图2所示,紫、蓝、黄、红、绿分布代表0~4五个不同隐状态。从图2可以看出,在一定的时期隐状态,分布主要集中在1~2种,这与上文有关黄金期货价格的驱动机制的分析保持一致。在一定的时期内影响价格的因素很多,但黄金的价格波动受主要因素影响较大。如2008年之后黄金的价格上涨,主要是因为次贷危机之后各国采取的量化宽松政策;又如近两年黄金价格的波动主要受新冠疫情冲击和俄乌冲突的影响。

基于SSA-HMM模型的预测结果可以看出,当前隐状态分布与2012年前后相似,主要分布于隐状态3,即分布图2中红色点为主,黄金期货市场交易活跃,存在上涨预期。

6 结语

本文创新性地将麻雀搜索算法(SSA)与HMM模型结合来预测中国黄金期货的价格走势,隐状态初始概率分布不再通过随机选取,而是基于全局最优,通过SSA对HMM模型进行优化来得到,解决HMM模型容易陷入局部最优的缺陷。通过黄金期货实际预测应用比较证明了模型的实际应用价值,同时结合期货价格波动的驱动因素对隐马尔科夫模型的隐状态进行了更加合理的描述,论证了模型与实际问题之间的契合关系。

参考文献

Hassan M R,Nath B,Kirley M.A fusion model of HMM,ANN and GA for stock market forecasting[J].Expert Systems with Applications,2007,33(1):171-180.

Park, SH., Lee, JH., Song, JW. Forecasting Change Directions for Financial Time Series Using Hidden Markov Model. In: Wen, P., Li, Y., Polkowski, L., Yao, Y., Tsumoto, S., Wang, G. (eds) Rough Sets and Knowledge Technology. RSKT 2009. Lecture Notes in Computer Science, vol5589. Springer, Berlin, Heidelberg,2009.

Caccia M, Rémillard B. Option pricing and hedging for discrete time autoregressive hidden markov model[M]//Innovations in Insurance, Risk-and Asset Management. 2019: 313-348.

Xue J, Shen B . A novel swarm intelligence optimization approach: sparrow search algorithm[J]. Systems Science & Control Engineering An  Open Access Journal, 2020, 8(1):22-34.

Baum, L. E..An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes[J].Inequalities III: Proceedings of the 3rd Symposium on Inequalities. Academic Press,1971.

王春峰,张庆翠.中国股票市场收益的长期记忆性研究[J].系统工程,2003,21(1):22-29.

K. Chen, Y . Zhou, and F. Dai. A LSTM-based method for stock returns prediction: A case study of China stock market,in Proc. IEEE Int. Conf. Big Data, Oct. 2015, pp. 2823–2824.

H. Y . Kim and C. H. Won,“Forecasting the volatility of stock price index: A hybrid model integrating LSTM with multiple GARCH-type models,”Expert Syst. Appl., vol. 103, pp. 25–37, Aug. 2018.

Z. Jin, Y . Yang, and Y . Liu, “Stock closing price prediction based on sentiment analysis and LSTM,” Neural Comput. Appl., vol. 32, no. 13, pp. 9713–9729, Jul. 2020.

Z. Su, H. Xie, and L. Han,“Multi-factor RFG-LSTM algorithm for stock sequence predicting,”Comput. Econ., vol. 57, no. 4, pp. 1041–1058, Apr. 2021.