我国股票成交量的灰GM(1,1)模型群有效性验证

2012-02-21 05:13田劲松

统计与决策 2012年14期

田劲松

（西华师范大学商学院，四川南充637002）

0 前言

灰色GM(1,1)模型是邓聚龙教授针对经济现象预测过程中的“贫信息”而创造的，目前国内学术界对此的研究及实证运用非常广泛，基本上都以其所需原始数据较少而信息挖掘功能较强为分析基础。但任何经济现象的预测都不否认数据更新的有效性，即数据越多越新，建立的模型也相对有效，GM(1,1)模型群的概念也由此提出，根据刘思峰教授出版的《预测方法与技术》一书中，明确提出了四种GM(1,1)方程构成的模型群，即：全信息模型、部分信息模型、去老数据模型和新陈代谢模型，其实质意义是通过对原始数据的增加、删减及相关变动达到信息挖掘范围、有效性的调整。笔者认为，任何数学模型都可以借鉴此原理，运用同一个模型而对数据段进行拉长、缩短、类似于“天窗”滚动式数据更新，可以形成任一方法的模型群，从而在不改变数学方法思路的基础上，增强预测有效性，所以本文所针对的模型群有效性是指灰色GM(1,1)模型基本原理不发生变化下，由于数据序列调整导致的预测有效性。同时，针对具体的经济现象，金融产业更利于该方法的实证，因为金融产业与其他产业有较大区别，近年来我国金融产业蓬勃发展，虚拟经济占比越来越高，具有易收外界因素影响及波动性较强的特点，如果在一个发展较为稳定的传统产业，序列趋势规律较为明显，那么通过数据段的调整带来的预测有效性差异会不明显，而金融产业则符合数据变动较大这一特征，1997年和2008年的全球金融危机是做数据增减处理的最好节点。同时，本文为了扩大分析范围，将不局限于上述所说的四种简单数据处理，加入了曲线数据拟合，均值化数据、缓冲算子等方法，形成衍生原始数据，与上述四种方法一起进行模型群验证，结合现有的GM(1,1)适用性准则，对群有效性进行考察验证。

1 本文所涉及的六种模型群数据序列

（3）丢弃老信息模型，与（2）讲述的部分信息模型较为类似，但局限于j=n，一般可经过多次建模，比较误差以确定从哪点开始舍弃老数据。因为老数据包含的可用信息较少，过多老信息会导致模型臃肿，这种选取类似于多变量回归中的逐步处理，以丢弃无效变量。

（4）吐故纳新，对（3）中的老信息进行丢失的同时，引入最新的现实数据，简称为新陈代谢模型。记为：

假设1至k-1期的数据全部被吐出，而后面新增k+1段信息。

（5）曲线拟合数据模型，往往在实践中，原始数据并不能真实反映经济变化规律，那么可以采取一种数据变换方式，将时间作为自变量，而经济指标作为因变量，那么两者之间从图形上看是呈严格线性关系？二次项关系？还是其他？不管图形如何，总会在一个时间段内发现数据有趋势规律，可以通过拟合出的曲线进行数据更正。

在得到相应数据列后，运用灰色的五步建模方法：一次累加序列序列生成、紧邻均值生成、构造OLS回归矩阵、参数运算及预测。为了简便叙述，具体的灰色GM(1,1)模型请参看相关书籍。

2 实证分析

2.1 指标分析

金融产业的波动性来源于其不仅受到实体经济如经济增速等原因的影响，一贯被视为经济景气的晴雨表，但实际上由于我国金融体制发展目前并不成熟，尤其是楼市的疯狂进一步放大了我国金融资产波动性，那么什么样的指标能够较为现实的与金融市场挂钩呢，那就是股市成交量。可能有人认为股价更合适，但股价必须在有效市场假说理论成立的前提下，即价格完全反应市场信息的基础上才能完全和金融市场等同，李丹（2008）通过分位数回归模型，对我国上市综指1994～2007年之间的高频数据进行分析，发现上证综指和成交量两者之间存在很强的正相关关系，并且随着前者波动会导致后者波动程度的放大，且具有不对称特征。图1为1992～2009年的年股票成交量数据序列，从最初的681亿元增加到了数据末端的535987亿元，可以看出我国股票市场带来的资产繁殖作用是非常强的，同时可知在2005年以前股票成交量是相对稳定的，均值为25476亿元，波动标准差为16917亿元，如果去除1996年之前的数据，那么稳定性会更强。从2006年开始，股票成交量一跃而起达到了90469亿元，较2005年翻了三倍，这与当年外资大量涌入和国家金融政策的调整有关。如果说2006年之前的属于平稳股市，那么后面属于牛市和熊市的剧烈震荡状。

图1 股票成交金额

2.2 模型群有效性检验

根据第2部分的数据处理方式，可以得到以下6个序列，如表1。值得说明的是，由于新陈代谢需要2010年数据，但目前国家统计局网站仍未公布，故省略，但基本可知最新的信息可以带来预测效果的提高。

第二二三四六七列的数据可以由公式得出，而第五列中曲线拟合需要进行相应的说明，从1992～2005年的数据可以看作是线性序列，而2006～2009也可以看作另一线性段，这里通过EXCEL软件进行分段回归，具体拟合公式和优度见图2、图3。

图2 1992～2005年段回归结果

图3 2006～2009年段回归结果

得到上述数据后，分别进行GM(1,1)回归，得到响应的发展系数及时间响应式，处理软件为DPS试用版，测试数据加入了随机误差。根据GM(1,1)模型适用性准则，a一般绝对值小于2为适用，且绝对值越小越好；均方差比为进行灰色预测后，预测得到的残差序列标准差与原始序列标准差之间的比值，强调了预测能力的高低。小误差概率为时点预测误差减去平均误差得到值的绝对数是否小于06745与该误差的乘积，全部时点上的小误差概率越大，表明模型包含误差的能力越强。表1为DPS利用上述各类数据得到的相关参数。

从表2可知，从发展系数a看，部分信息模型的发展系数最小，更具有对我国股市成交量预测的有效性，缓冲算子次之，以此排序，得到部分信息模型＞缓冲算子＞移动平均＞全信息＞曲线拟合＞丢弃老信息；从均方差比看，缓冲算子＞部分信息＞移动平均＞曲线拟合＞全信息＞丢弃老信息，而从小误差概率看，缓冲算子＞曲线拟合＞全信息＞移动平均＞部分信息＞丢弃老信息。可知缓冲算子及部分信息信息模型从整体上感觉预测效果较好。为了更加直观的对众模型进行评价，这里引入模糊数学中的排序方法。如表3。Broda排序法对不同评价对象使用多种评判手段，在单个评判法下，得分较高的表明较有方案，这与西方经济学中的基数效用论理论类似，如果假定每种评价方案的权重一样，那么可以将表3中的数据进行横向加总，得到每个模型的综合得分，由综合得分推导出缓冲算子模型得分最高，部分信息次之，由此引出的排名是：缓冲算子＞部分信息＞移动平均＞曲线拟合＞全信息＞丢弃老信息。这一简单的结论包含了很强的理论意义：一是丢弃老信息模型在各种评判指标上均处于最后，这与一些认为丢弃老信息可以提高新数据权重以达到效度提升的理论完全背离，笔者解释为：任何一个经济现象，即使再老的信息也具有一定的价值，针对到金融市场实际，一只股票的价值包含了所有的信息在现条件下是不可能的，而整个股票市场亦然。二是缓冲算子模型与移动平均模型的次级有效性也足以说明不同期限数据之间整合的重要性，通过相邻数据的整合达到数据的平滑更能体现规律。通过缓冲算子模型得到的2010～2014年的 513725、582163、659718、747605、847201亿元。

表2 模型群GM(1,1)检验参数

表3 BRODA排序结果

3 结论

文章以金融产业中的股票成交量数据为例，构建了以六种模型组成的模型群。这与传统的模型组合概念不同，主要是从数据本身做文章。我国股票成交量在2006年出现了明显的转折点，运用单独一种模型对未来我国股市进行预测肯定是不合理的，通过发展系数、均方差比值和小误差概率三个指标的评判和综合排序，发现缓冲算子在金融产业中的有效性强，并且分析金融市场不易丢弃任何可得的数据，通过该模型得到的未来五年的预测结果显示股票成交量将以每年12%的速率上涨，这是吻合实际情况的，我国股市在金融体制之间完善后，“暴涨暴跌”不再成为其特征，平稳发展是大趋势，并且随着房地产调控的加深，楼市对金融市场波动的放大作用递减。值得说明的是，GM(1,1)模型群的运用在宏观经济管理和工业工程中非常多，如孙庆文（2011）对销售量、程万里(2007)黄河水质指标的预测，而对金融产业的实践较少，这是因为金融业一般数据均为高频数据，研究者们认为较多的数量信息已经能够满足需要，而不存在“贫信息”性，但正如上文所说，目前说股票成交量信息属于有效市场范围尚不合理。

[1]刘思峰等，预测技术与方法[M].北京：高等教育出版社，2005.

[2]李丹，董玲.中国股市波动与成交量动态关系研究——基于分位数回归的角度[J].山西财经大学学报，2008,（7）.

[3]孙庆文，朱显英.销售量预测的REM-GM(1,1)模型及群预测方法研究[J].数学的实践与认识，2011,（2）.

[4]程万里等，GM(1,1)模型群在黄河水质预测中的应用研究[J].工业安全与环保，2007,（11）.