马尔可夫转换模型对我国证券市场指数的预测分析*

2018-02-21 09:14:38沈银芳徐建军郑学东

统计科学与实践 2018年11期

□沈银芳徐建军郑学东

应用马尔可夫转换二元正态模型对上证A股指数和上证国债指数日收益率序列进行相关统计分析。采用似然估计的方法，基于BIC信息准则，利用五状态马尔可夫（Markov）转换模型拟合二元时间序列。参数估计结果表明，上证A股指数和国债指数日收益率在不同状态下二元正态分布呈现多样化的特征。在样本期内，上证A股平均收益超过国债收益的两倍，但由标准差度量的风险相对应为十倍以上。在低风险状态下，上证A股指数和国债指数都能获得正的收益，在中等风险状态下，A股指数和国债指数的收益是不确定的，在高风险状态下，上证A股指数平均收益为负，而国债指数仍可达到正的收益。这些结论对于评估我国证券市场组合投资的绩效预测有重要的价值。

引言

随着中国经济金融在世界地位的提升，中国资本市场规模以很快的速度在发展，股票与债券成为企业直接融资的主要工具。目前对中国证券市场指数的预测分析是当前研究的一个热点问题，很多学者选取各种经济变量作为预测变量，例如通过对市场利率、通货膨胀率、外汇水平和财政政策等金融变量对股票和债券收益率的波动趋势做了预测分析。

Markov转换模型最早由Hamilton(1989)首次引入，通过对非平稳时间序列的自回归 Markov转换建模，研究了经济发展周期的特征。Markov转换模型作为一类特殊的混合模型，在经济和金融的预测方面有着重要的应用，大量的实证研究发现，制度转换模型在产生汇率过程和预测未来汇率方面具有优势。另外Markov转换模型也看作一种研究时间序列结构性变化的方法，用它来刻画一个观测时间序列在不同阶段有着不同内在机制起作用，通过观测数据计算系统内部处于何种不可观测状态的概率，以此来对系统进行分析和预测。由于很多经济金融时间序列数据普遍具有非正态、非对称、尖峰厚尾等非线性的特征，Markov切换模型是当今非线性时间序列建模的一种常用方法。

国内外有关马尔科夫转换模型应用研究的文献非常丰富。例如Hsiu-Yun和Show-Lin（2006）通过证明马尔科夫转换过程与世界上最流行的汇率制度—浮动汇率制度是一致的，证明了马尔可夫切换模型的正确性；Xinyi,Dimitris和Peiming（2012）提出了一个股票市场收益的两状态马尔可夫切换模型，用来检验价格范围和交易量对回报波动性的解释和预测能力。国内对 Markov转换模型的研究主要集中于对宏观经济数据的分析，例如，赵留彦，王一鸣和蔡婧（2005）基于 Markov切换模型研究中国的通涨水平与其不确定性的关系；王建军（2007）、谢杰（2017）分别用此模型分析究中国经济周期问题和人民币／美元汇率、中国通胀率的时间序列行为；杨继平和冯毅俊（2017）基于马尔可夫结构转换模型研究利率调整对我国股市在不同波动状态情况下波动性的影响。与此同时，对于我国证券市场相关研究的文献，例如焦元（2010）对上海证券市场的稳定性进行检验和实证分析，结论是研究期内上海证券市场并不稳定，影响其稳定的风险依然较大；曾志坚和张倩倩（2013）运用多重分形去趋势波动交叉相关分析法(MF-DCCA)，考量上海证券市场和香港证券市场之间的交叉相关关系。

本文通过对上证A股指数和上证国债指数日收益率序列作为研究的对象，应用二元 Markov转换正态模型对指数的收益和波动进行联合预测分析。

模型

本文主要考虑在Markov转换的二元正态模型下，研究上证A股指数和上证国债指数日收益率之间的关系。共收集了2003年2月24日到2011年7月29日两地市场的日收盘数据，二元时间序列共包含2050个日观测值，原始数据下载于大智慧股票分析软件。

设rt=100(log Pt-log Pt-1)表示从t-1期到t期的连续复合收益率，这里 Pt为 t时期指数值。r1t，r2t分别表示上证A股指数和上证国债指数日收益率，记Rt=(r1t,r2t)T为二元时间序列，符号T表示向量的转置，假设有K个状态的Markov切换模型表示为：

其中I2为二阶单位阵，当潜变量St取值为k时，可认为数据Rt来自于 N(μk,Σk)的正态分布，μk=μ (St=k)，Σk= Σ (St=k)，k=1,…K，如果St服从一阶齐次Markov链，即

上述模型称为Markov转换的二元正态模型。模型的主要参数有转移概率、各个状态下的均值向量和协方差阵。若状态数K未知，则模型有无穷多个参数。在K已知条件下，Leroux（1992）证明了模型参数的可识别性，并用最大似然方法给出了估计量的相合性。模型的参数可写为

则完全数据的对数似然函数具有下列形式

其中，φ为二元正态的概率密度函数。似然函数作为模型参数的函数，参数的估计可以通过Baum-Welch算法得到，这是一种经典EM算法在Markov转换二元正态模型下的应用。在EM算法的计算过程中，在期望步骤中，需要计算条件概率

它表示在给定观测数据下，在参数为θ时，状态变量取值的一种估计，也称为光滑概率。在求出最大似然估计量θ̂n时，对应的光滑概率记为 τ̂kt。

应用

本文的模型参数估计都采用R软件实现，其中最大似然函数的数值优化通过EM算法完成。为了便于比较，本文共估计了 K=2，3，4，5，6五个模型。我们先做了上证A股指数和上证国债指数日收益率之间关系的简单统计分析。

从上述的基本统计图表分析结果来看，两收益率序列呈现弱负相关，这可能是数据的非线性特征所产生的。另外，虽然上证A股指数收益率的均值为国债指数的两倍多，但是相应的方差相差十五倍左右，体现了风险与收益的同步特征。最后，从表1可以看出，两收益率序列都是左偏的，国债指数收益率的峰度达到24.153，明显更具有厚尾特征分布非对称性明显，有比正态分布高的多的峰度23.8362。多元Sharpiro-Wilk正态性检验，显著地拒绝二元收益率分布为正态的假设，因此，二元收益率序列应用Markov转换模型建模是恰当的。

表1 上证A股指数和国债指数收益率Rt的基本统计量

图1 上证国债指数（上）和A股指数（下）收益率Rt的波动图

表2 模型K=2，3，4，5，6下的对数似然值和BIC值

图2 五状态马尔可夫转换模型下光滑状态转移概率

在对K=2,3,4,5,6五个模型应用EM算法给出估计时，我们对模型参数的初值做了如下的选法：初始状态的概率设为相同，即 P(S1=k)=1/K；转移概率P(St=j|St-1=i)=1/K；在状态k下，均值参数μk=μ̂/K，协方差阵 Σk= λkΣ̂，其中 μ̂,Σ̂分别为收益率序列均值和协方差阵的估计，λk为(0,1)区间产生的某一个随机数。

通过对这五个模型的参数估计，下表给出了每个模型下的对数似然函数值和BIC值，其中BIC通过公式 BIC=log L(θ̂)-#(θ)log(n)/2给出，#(θ)代表参数θ个数。

按照BIC信息准则，我们挑选K=5的Markov转换模型拟合二元收益率序列。从表3可知，每一种状态在下一时期转移到原先状态的概率都很大，这说明收益率数据停留在一种状态下的时间都比较长，然后转移到下一状态。在观测的时间段内，通过图2，我们发现，收益率二元数据经历第二，四状态下的概率最小。对于第一状态，从2003年到2005年，2006年3月到2007年7月，上证A股指数和国债指数日平均收益率分别为0.005%和0.0064%，两者收益呈弱正相关，但反映波动性的标准差A股指数比国债指数大四十多倍，显然，这段时间投资国债要好于股票。对于第二状态，主要经历2006年年初，2007年7月到2009年1月，2009年7月至现在这些时间段，上证A股指数和国债指数日平均收益率分别为0.0119%和0.0099%，两者收益呈弱负相关，股票的标准差仍然是国债的将近十倍。第五状态持续时间主要集中于2009年1月至2009年7月，两者的平均日收益率都为负，分别为-0.1508%和-0.0193%，投资股票上的损失要比债券大很多，两者收益也呈弱负相关，A股指数收益率的波动性只比国债收益率大三倍。因此，相对于国债收益的波动率，一、三和五状态下分别对应着股票收益波动的高、中和低三中情况，股票和债券的平均日收益在这三状态下可认为是微盈利、中等盈利和高度亏损。第二和四状态可解释为股票和债券的高收益和高亏损，但高亏损下收益率的波动性更大。

在给出最大似然估计后，进一步，我们利用Viterbi算法给出在观测数据下，每个数据归属于K种状态的一个划分，即通过最大化联合状态变量的条件分布得到各个时期下每个状态的取值。

在样本数据个数为2050下，我们可以计算出五状态Markov转换模型每一状态下子样本的个数，并对它们做了多元正态性检验，表5说明在各个状态下二元收益率数据可以认为具有正态分布的特征。

表3 五状态下转移概率的估计值

表4 五状态下二元正态参数的估计值

表5 Markov转换模型下各状态样本的二元正态分布Shapiro-Wilk检验（K=5）

结论

我们通过对上证 A股指数和上证国债指数日收益率序列作为研究的对象，介绍了Markov转换二元正态模型的选择与估计的方法，相对于以往对时间序列统计分析中关注两状态Markov转换模型的研究，我们通过从信息量BIC准则下挑选出了最优的模型，减少了模型匹配错误的可能性。解释了在不同状态下，上证A股指数和上证国债指数日收益率的不同特征。从具体的数据分析结果，我们发现，在样本期内，上证A股平均收益超过国债收益的两倍，如果用标准差作为度量风险的指标，上证A股指数波动的风险为国债相应收益的十倍以上。在低风险状态1，3下，上证A股指数和国债指数都能获得正的收益，两者不同在于状态1下两者收益相关性为正，而状态2下其对应的相关性为负。在中等风险状态2，5下，A股指数和国债指数的收益是不确定的，在高风险状态4下，上证A股指数平均收益为负，而国债指数仍可达到正的收益。这些结论对于评估我国证券市场组合投资的绩效预测有重要的价值。对于隐藏在这些上证A股指数和国债指数收益和风险特征背后的原因，仍然值得我们进一步的研究。