董 鑫,王 沁,何 婷,栗浩南
(西南交通大学 数学学院, 成都 611756)
波动率作为金融市场风险的重要指标,能够在一定程度上量化金融资产价格在一定范围内走势的不确定性,是对金融市场资产价格的变化速度的体现。因此深入研究导致股票波动的内在因素,对金融资产收益的波动进行有效预测,既为金融资产定价、合理配置资产提供理论和方法上的帮助,也对金融风险的管理和防范起到至关重要的作用,促进中国股票市场繁荣稳定发展。
近年来,随着信息技术的不断完善,日内高频数据的获取日渐容易,基于高频数据对金融市场的波动进行研究已被金融学术界所认可。2009年,Coris[1]基于高频数据的已实现波动率(realized volatility,RV)提出了HAR-RV(heterogeneous autoregressive model of the realized volatility)模型,该模型通过简单的形式模拟出股市波动率序列长记忆性和厚尾分布等特征,相对于GARCH和SV模型等传统的波动率度量方法可以更加精确地刻画金融市场波动率[2-4]。随着研究的深入,HAR模型得到了大量的扩展。Anderson等[5]建立了HAR-RV-J和HAR-RV-CJ模型,证实了跳跃能够对波动率预测产生影响。Coris等[6]基于修正的门限多次幂变差构建了CTZ统计量并建立了HAR-RV-TCJ模型。Coris等[7]在HAR-RV-J模型的基础上考虑杠杆效应,构建了LHAR-RV-J模型,证实了杠杆效应引入能够提高模型的波动率预测能力。Bollerslev等[8]在考虑跳跃和杠杆效应的基础上,同时考虑了市场波动的异方差性,构建了HAR-GARCH-BV模型。国内学者文凤华等[9]考虑到市场杠杆效应和交易量长记忆性对波动预测的影响,建立了LHAR-RV-V模型。陈浪南等[10]综合考虑到长记忆性、跳跃和杠杆效应构建了HAR-CJ-D-FIGARCH。马锋等[11]基于跳跃和符号正负向变差构建了4种含不同跳跃的HAR族模型,研究发现基于符号正负向跳跃变差的HAR-RV-TCJ模型的预测效果在众多模型中表现最好。龚旭等[12]建立了LHAR-CJ-SB模型,研究表明杠杆效应和结构突变因素能有效提高HAR族模型的预测精度。
然而,随着多重分形理论(multi-fractal theory)的提出和发展,大多数学者认识到,与已实现波动相比,多重分形波动可以对金融市场的非线性、自相似性、厚尾性等特征进行分析, 有效解释了市场突变、股市暴跌、波动集聚等现象,被认为是描述和解释金融市场复杂波动的有力工具[13]。在多重分形波动测度和分析方面,Kantelhardt等[14]提出了多重分形消除趋势波动分析(multi-fractal detrended fluctuation analysis,MF-DFA)法,用于描述非平滑时间序列在不同标度上的多重分形统计特征。韩晨宇等[15]利用消除趋势的方法分析了沪深股市的主要指数的多重分形特征,证实了股票市场存在明显的多重分形性。由于MF-DFA的一些步骤依赖于经验,同时要求大量的数据,Sarkar等[16]提出了基于盒计数(box-counting)来测度多重分形维数,该方法使得多重分形的计算以及准确度得到了较大的提升。魏宇等[17]利用盒计数的方法,建立了基于多重分形谱的风险测度指标,并利用多重分形谱提出了多重分形波动测度MFV。唐勇等[18]以改进的多分形波动率为中心,证实了考虑跳跃、杠杆效应及多重分形等特征的HAR模型的预测效果优于传统的EGARCH-J模型和NGARCH-J模型。 苑莹等[19]将跳跃、杠杆效应和多重分形特征同时考虑到HAR模型中,构造出多种HAR类模型,证实了预测效果最优的模型均是基于多分形波动率构建的HAR类模型。
在多重分形波动建模方面,Calvet等[20]首先提出将马尔可夫转换(Markov-switching)引入多重分形过程,并提出了一种新的多重分形迭代模型:马尔可夫转换多重分形模型(Markov-switching multi-fractal model,MSM),该模型使用马尔可夫链结构保证模型的平稳性,能够很好地刻画金融资产的多重分形等特性,因此成为多重分形波动模型的典型代表并得到广泛应用。Calvet等[21]将MSM模型和GARCH、MSGARCH模型比较,认为MSM模型能更好地刻画金融时间序列特征;Chuang等[22]在标普500指数波动率预测比较研究中发现,MSM模型比隐含波动率、历史波动率和标准GARCH模型具有更强的波动率预测能力;Ben等[23]在全球道琼斯伊斯兰市场世界指数波动率拟合实证研究中发现,MSM模型比FIGARCH和FITVGARCH模型具有更好的拟合数据能力;唐振鹏等[24]在对上证综指的预测研究中发现,相较于GARCH和FIGARCH模型,MSM-GED是更适合中国股市,预测能力更强的波动模型。
梳理现有成果可以发现,基于异质性市场假说的HAR族模型得到广泛的研究,同时基于多重分形理论作为复杂性研究的前沿课题开创了金融市场研究的新局面。鉴于此,考虑金融市场波动的异方差性、长记忆性以及多重分形的特点,对HAR模型进行拓展和改进,具体来说:①将MSM模型与HAR模型有机结合,构造了含二状态马尔可夫转换多重分形波动(binomial Markov-switching multi-fractal volatility,BSMFV)的HAR-BSMFV模型和含三状态马尔可夫转换多重分形波动(trinomial Markov-switching multi-fractal volatility,TSMFV)的HAR-TSMFV模型;②将GARCH模型与HAR模型有机结合,构造含异方差波动(heteroscedasticity volatility,HV)的HAR-HV模型;③将FIGARCH模型与HAR模型有机结合,构造含单分形波动(fractal volatility,FV)的HAR-FV模型;④通过样本内拟合,6种预测误差指标以及MCS检验,评价并比较HAR-BSMFV、HAR-TSMFV、HAR-HV以及HAR-FV这4种模型的拟合优度、稳健性及预测精度。
MSM模型是由Calvet等[20]提出的多重分形模型,该模型使用马尔可夫链结构保证模型的平稳性,能够很好地刻画金融资产的多重分形等特性。MSM模型的基本结构为:
(1)
(2)
MSM模型波动乘子的取值在一定程度上反映了模型刻画的多重分形性的强弱。波动乘子取值的最大绝对差越大,模型所能刻画异常值越多,序列的多重分形性越明显[26]。由于MSM模型能够对市场的多重分形波动进行测度,而且波动乘子以一阶马尔可夫过程发生转换,所以称MSM模型拟合得到的波动为马尔可夫转换多重分形波动(Markov-switching multi-fractal volatility,SMFV)。
为使用MSM模型对多重分形波动进行测度,首先需要对模型进行参数估计,一般利用极大似然法对参数进行估计,并通过对数似然函数值对模型进行拟合优度检验。在正态分布的假定下,其对数似然函数为:
lnL(r1,…,rT;θ)=
(3)
在获得参数估计值之后,可得到波动的拟合值,即SMFV,其定义为:
(4)
(5)
(6)
1998年,Andersen等[28]基于日内高频数据提出的已实现波动率的测度方法,以刻画日内高频数据的潜在波动性。已实现波动率RVt通过资产日内收益率的平方和计算。假设rt,i为第t个交易日采样点i和i+1之间资产的对数收益,即:
rt,i=lnPt,i+1-lnPt,i
式中:t=1,2,…,T;i=1,2,…,L-1,L为单日时间序列采样点的个数。对交易日t,已实现波动率RVt定义为:
Corsi[1]基于RV提出了HAR模型,其模型基本结构为:
RVt=ω+α×RVt-1+εt
(7)
式中:εt为随机扰动项。鉴于MSM模型能够描述多重分形、异质性及跳跃现象,同时考虑到低频及高频数据的共同使用可以提高模型的预测能力[29-30],在HAR模型的基础上,分别将BMSM模型和TMSM模型测度的日间低频数据的多重分形波动,引入HAR模型中,构造HAR-BSMFV模型和HAR-TSMFV模型,其模型结构分别为:
RVt=ω+α×RVt-1+β×BSMFVt-1+εt
(8)
RVt=ω+α×RVt-1+β×TSMFVt-1+εt
(9)
式中:ω、α和β为待估参数。HAR-BSMFV模型和HAR-TSMFV模型可以通过最小二乘法以获得使残差平方和达到最小的参数估计量,即:
金融时间序列通常会出现异方差的现象,因此使用Bollerslev[31]提出的GARCH模型对收益率序列的波动进行拟合,以刻画收益率的异方差性。常见的GARCH(1,1)模型的结构为:
式中:σt表示t时刻收益率rt的波动率,εt=σtet,et服从标准正态分布。GARCH模型的估计方法一般采用极大似然法[31]。使用GARCH(1,1)模型对收益率波动进行测度,称该波动为HV,具体定义为:
(10)
传统的GARCH模型无法对长记忆性进行刻画,Baillie等[32]为了刻画序列存在的长记忆性,即单分形性,对传统GARCH模型进行改进,构造了可以刻画波动序列长记忆性的FIGARCH模型,常用的FIGARCH(1,d,1)模型的基本结构为:
式中:L为滞后算子,FIGARCH模型的估计一般采用拟极大似然法[32],使用FIGARCH(1,d,1)模型对收益率波动进行测度,称该波动为FV,具体定义为:
(11)
基于Chuang等[22]提出的HAR族模型,分别将HV和FV引入HAR模型中,得到HAR-HV模型与HAR-FV模型,其模型结构分别为:
RVt=ω+α×RVt-1+β×HVt-1+εt
(12)
RVt=ω+α×RVt-1+β×FVt-1+εt
(13)
式中:ω、α和β为待估参数。采用最小二乘法对HAR-HV模型和HAR-FV模型的参数进行估计,即:
为了定量评估预测精度,遵循Hansen等[33]的建议,采用6种广泛使用的损失函数作为评判模型预测精度的标准,这6种指标分别为:
与此同时,由于仅使用损失函数无法判断模型的预测性能在统计学意义上是否有显著差异,还采用Hansen等[34]提出的模型信度设定(model confidence set,MCS)检验方法来比较模型预测精度。若模型的MCS检验p值大于临界值α,并且MCS检验的p值越接近1,表明该模型的预测性能越好。
以2014年1月2日至2021年3月31日上证综指为研究样本(共1 765个交易日)。Bollerslev等[35]证实了使用5 min的采样间隔可以在尽可能充分利用日内信息的同时,避免市场微观结构带来的严重白噪声,因此采用5 min的采样间隔来收集高频数据,并以此来捕捉日内效应,同时选用同采样区间上证综指的日对数收益率来刻画日间效应。将样本区间的前80%划分为样本内拟合数据,余下的20%作为保留样本用于预测性能检验。样本数据来源于Wind资讯金融数据库。
使用上证综指的日对数收益率序列建立模型以对日间波动进行测度。日对数收益率的描述性统计及其相关检验数值如表1所示。从表1中可以发现,上证综指的日收益率序列不服从正态分布,存在明显的尖峰厚尾特征;由ADF检验可知序列平稳;由ARCH检验可知序列存在ARCH效应,可以利用GARCH类模型进行波动率建模。
表1 上证综指日对数收益率的描述性统计
表2 MSM类模型对数似然函数值
表3 MSM类模型的参数估计结果
从表3中的参数估计结果中可以发现,BMSM模型波动乘子的高状态值即m0为1.543 9,低状态即m1为0.456 1,最大绝对差为1.087 8;TMSM模型波动乘子的高状态值即m0为1.700 7,低状态即m1为0.525 2,最大绝对值差为1.175 5。因此相较于BMSM模型,TMSM模型所能描绘的异常值更多,多重分形性更加明显。BMSM(6)模型和TMSM(7)模型的转移概率值如表4所示。
表4 MSM类模型的转移概率值
从表4的转移概率可以发现,相较于BMSM模型,在k相同的情况下,TMSM模型的波动乘子发生转移的概率更小,因此能够更有效地刻画长记忆性及市场异质性;与此同时, 由于BMSM模型和TMSM模型的每个波动乘子以不同的转移概率发生转移,通过模型的乘积结构,以此来解释波动的跳跃现象。
分别使用BMSM(6)模型和TMSM(7)模型对市场的多重分形波动进行测度,图1和图2是BSMFVt及TSMFVt2种多重分形波动曲线,其中的线框表示框中的波动处于低波动状态。从图1和图2中可以看出BSMFV和TSMFV不仅可以通过高低波动状态不断转换刻画市场的跳跃现象,而且可以在一定程度上刻画出市场波动的异方差性;与此同时,相较于BSMFV,TSMFV以更高维数的状态空间,能够更好地解释市场中存在的剧烈波动。
图1 BSMFV曲线
图2 TSMFV曲线
同时使用GARCH(p,q)模型及FIGARCH(p,d,q)模型来测度市场的日间波动率。考虑到这2种模型存在对系数的限制,并且过多滞后项会增加参数估计的误差。因此使用GARCH(1,1)模型及FIGARCH(1,d,1)模型,2种模型的参数估计结果如表5所示。
表5 GARCH类模型的参数估计结果
通过GARCH(1,1)模型及FIGARCH(1,d,1)模型拟合得到波动序列。图3和图4分别为HVt和FVt曲线。
图3 HV曲线
图4 FV曲线
HVt、FVt、BSMFVt及TSMFVt这4种波动序列的描述性统计结果如表6所示。从表6的结果可以发现:4种波动均表现出明显的“有偏”和“尖峰”性质,且其Jarque-Bera统计量表明原序列都不符合正态分布;ADF单位根检验表明所有的序列都是平稳的;由ARCH检验可知4种序列均表现出明显的异方差性,并且对比检验统计量值的大小可知TSMFVt的异方差性最明显;通过对比多重分形谱极差Δα的大小可以发现,HVt序列的多重分形性最小,TSMFVt序列的多重分形性最强。
表6 4种波动序列的描述性统计
使用HAR、HAR-HV、HAR-FV、HAR-BSMFV及HAR-TSMFV这5种模型对上证综指进行样本内拟合,并通过拟合结果对这5种模型的样本内解释能力进行评判。鉴于波动的对数序列的分布形态更加贴近正态分布,均采用对数序列进行计量建模。这些模型的样本内拟合结果如表7所示。从表7中可以看出:
表7 HAR族模型的参数估计结果
1) 各模型中前一日的日内效应和日间效应对未来波动率都具有显著的正向影响,说明市场存在很强的持续性。具体来说,基于已实现波动率的各模型,除常数项外其余参数估计值全部大于0,且在1%的显著性水平下显著。
2) 相较于传统的HAR模型,提出的4种模型的拟合效果大幅提高,其中HAR-TSMFV模型的拟合效果最好,这说明相比其他模型,使用TMSM模型对市场日间波动特征具有更强的解释能力。具体来说,一方面从R2的视角来看,在原模型分别加入4种日间波动后,模型的R2显著提高,并且HAR-TSMFV模型的提高效果最大;另一方面,从参数估计的角度来看,HAR-TSMFV中日间波动的系数的t统计量值明显大于其他模型,也就是说,使用TMSM拟合得到的日间收益波动对后一日的波动有更大的正向影响。造成以上现象的原因是,和GARCH以及FIGARCH模型相比,MSM模型多考虑了金融市场具有多重分形性以及跳跃现象的事实,和BMSM相比,TMSM的每个波动乘子有3种状态,其更高维数的状态空间能够更好地拟合股票市场的从平缓到剧烈的各种波动。
为了判别HAR、HAR-HV、HAR-FV、HAR-BSMFV和HAR-TSMFV这5种模型谁能更好地预测中国股市的波动,采用“滑动窗口”的样本外预测方法,与此同时使用MSE、MAE、HMSE、HMAE、QLIKE及R2LOG这6种指标以及MCS检验对模型的样本外预测性能进行对比分析。6种预测误差指标值及MCS检验的结果在表8中展示。
表8 不同模型预测误差指标值及MCS检验结果
从表8的实证结果可以发现:
1) 将传统的HAR模型与提出的4种模型作对比,从预测误差指标值的角度来看,除了HAR-FV模型的MSE大于HAR模型,其余的预测误差相比HAR模型均有不同程度的降低;从MCS检验角度来看,在MAE、HMAE、HMSE、QLIKE及R2LOG5种指标下,仅有传统的HAR模型没有通过MCS检验,而在MSE指标下,所有模型均通过了MCS检验。这表明相较于传统的HAR模型,同时考虑日内效应和日间效应的HAR族模型的预测能力更为优秀。
2) 对比HAR-HV、HAR-FV、HAR-BSMFV和HAR-TSMFV这4种模型,可以看出HAR-BSMFV模型和HAR-TSMFV模型的6种预测误差指标值均小于其他2种模型,这表明在模型中考虑市场的多重分形性及跳跃现象能够提高模型的预测能力;与此同时,从MCS检验的角度来看,6种预测指标下的MCS检验中,HAR-TSMFV模型的p值均为1,甚至在HMAE、HMSE及QLIKE3种指标下,仅有该模型通过了MCS检验,这表明综合考虑到日间波动的多重分形性、异方差性及跳跃现象,使用更高维数状态空间捕捉市场波动不同状态的HAR-TSMFV模型是预测能力最好的模型。
考虑到日间波动的多重分形性、时变性以及异方差性,分别使用GARCH模型、FIGARCH模型、BMSM模型和TMSM模型对股票市场的日间波动测度,得到HV、FV、BSMFV及TSMFV这4种波动,并将这4种波动引入传统HAR模型中,构建了HAR-HV、HAR-FV、HAR-BSMFV和HAR-TSMFV 4种模型。以上证综指的日数据与5 min高频数据为样本数据的实证研究表明:
1) MSM模型不仅能够较好地刻画金融收益序列波动的多重分形性,还能够在一定程度上刻画波动异方差性,与此同时MSM类模型的每个波动乘子以不同的转移概率发生转移,通过模型的乘积结构解释波动的跳跃现象。
2) 相较于传统的HAR模型,考虑到股票市场的日间效应,同时使用高频数据与低频数据的HAR族模型在拟合和预测方面具有更好的表现。
3) 相较于仅考虑到日间波动异方差性及单分形性的HAR-HV模型和HAR-FV模型,HAR-BSMFV模型和HAR-TSMFV模型的拟合效果和预测精度更好,表明在波动率建模时考虑股市波动多重分形性有助于提高预测效果。
4) 相较于HAR-BSMFV模型,HAR-TSMFV模型具有更优秀的拟合和预测效果,这表明考虑到股票收益波动的高、低以及平稳3种状态是合理的。实证分析表明,HAR-TSMFV模型是一种更适用于中国股市,预测能力更强的波动模型,在资产定价、风险管理领域有广阔的应用前景。