基于小波变换的股票异常点检测研究

2012-07-24 09:34郭庆然
统计与决策 2012年4期
关键词:加性小波方差

郭庆然

(1.中南财经政法大学 信息管理学院,武汉 430060;2.河南科技学院 经济与管理学院,河南 新乡 453003)

0 引言

异常点检测一直以来都是数据挖掘研究的重要问题之一[1],许多学者对异常点检测提出了多种方法[2][3][4]。然而这些方法没有考虑到股票这种特殊的金融时间序列的特性。股票数据收益率序列通常表现出尖峰厚尾、高阶相关和波动的类聚性特征。

Engle(1982)提出的自回归条件异方差模型(ARCH模型)[5]和Bollerslev(1986)基于ARCH模型提出的自回归条件异方差模型(GARCH模型)[6]是目前描述高阶序列相关最流行的方法,随后ARCH模型和GARCH模型分别在不同的方向得到了扩展。为了满足金融时间序列的尖峰厚尾特征,Bollerslev(1987)[7]提出了GARCH模型服从学生t分布。张世英、柯柯(2002)综合归纳了由ARCH模型衍生出来的ARCH模型族[8]。

异常点是指严重偏离既定模型的数据点。根据金融时间序列异常点的性质和产生的原理,可以把异常点划分为加性异常点(additive outliers)和革新异常点(innovation outliers)[9]。加性异常点又可分为加性水平异常点(ALO)和加性波动异常点(AVO)两类,ALO只对GARCH模型的均值方程产生影响,而不对方差方程影响。AVO不但对GARCH模型的均值方程产生影响,对方差方程也产生影响。Peña(2001)研究发现股票时间序列中革新异常点是不重要的[10],因此,本文主要研究加性异常点的检测。

近年来,文献[11],[12]针对时间序列提出了一些异常点检测方法,但这些方法都无法解决异常点的“遮蔽效应”(Zhang and King(2005))[13]。所谓“遮蔽效应”,是指在异常点检测时,一个异常点的存在会阻止其它异常点的检测。本文采取的方法是每检测出一个异常点,立即对其修正,然后再进行下一个异常点的检测,从而避免了“遮蔽效应”的影响。

1 加性异常点模型

Bellerslev(1986)提出的广义自回归条件异方差GARCH(1,1)模型[6]是描述股票收益率序列很好的一种方法。这种模型的形式为:

其中,μ是股票收益率条件均值,εt是随机误差项,是εt的条件方差;或者服从学生t分布。且,It-1表示在t期的已知信息集。为了保证条件方差恒为正,要求系数α1>0,β1>0。且α1+β1<1确保模型是平稳的。

1.1 加性水平异常点(ALO)

加性水平异常点(ALO)可能是由市场结构改变引起的,ALO只对GARCH(1,1)模型的条件均值方差有影响,而对条件方差方程没有影响。这样的异常点利用GARCH(1,1)模型可以表示为:

其中,εt和以前相同,ωAO表示加性水平异常点的影响程度。IT(t)=1,如果t∈T,否则为0。条件方差和方程(1)仍然相同,这种形式的异常点仅仅影响均值序列。

1.2 加性波动异常点(AVO)

加性波动异常点(AVO)不但对GARCH(1,1)模型的条件均值方差有影响,而且对条件方差方程也有影响。这样的异常点利用GARCH(1,1)模型可以表示为:

2 基于小波变换的异常点检测过程

通过方程(1)的GARCH模型,估计均值方程的残差项X=(X1,...,Xn),残差表示股票数据对其均值的偏离,属于随机波动。根据学者的研究经验,有三个阀值识别异常波动,分别为1%、5%和10%[14]。如果取1%的阈值通常会使异常点发生漏检的现象,取10%往往会使本不是异常波动点也识别为异常波动。因此,通常学者采用5%为异常波动的阈值,本文也是采取5%作为异常波动阈值。

估计出残差序列X=(X1,...,Xn)后,按以下步骤,检测异常点并处理。

步骤1:对残差序列X=(X1,...,Xn)进行一级haar小波变换,分别得到低频系数A1和高频系数D1。

步骤2:找出所有大于阈值的极大值点中的最大值dmax∈|D1|,并用数组P记录dmax在D1的位置p。

步骤3:将dmax置为0,重构D',D'=(d1,...,di-1,0,di+1,...,dn/2)。

步骤4:将A1和D'做逆小波变换,得到新的残差序列。

步骤5:重复步骤1到4,直到不存在大于阈值的极大值点。

步骤6:根据数组P中的每个p找到残差X中的异常点。计算去掉X中位于2p和2p-1两点后的样本均值,

3 实证分析

本文选取了个股苏宁电器(002024)从2004年7月22日到2010年10月15日的每日收盘数据和近一年来的上证指数作为分析对象。

3.1 个股分析

图1显示了苏宁电器(002024)从2004年7月22日到2010年10月15日的每日收盘价格曲线。可以看到该股的振幅介于10~70元之间,存在非常明显剧烈的波动。

图1 一段时期内苏宁电器每日收盘价

图2 经过GARCH模型处理得到的残差数据

图2是图1中的收盘价格经过GARCH模型处理后得到的残差数据。前文可知,残差数据反映的是股票价格对其均值的偏离。对照图1和图2,可以发现收盘价格的每一次大的波动都对应着残差信号的一个峰值。

图3 1级haar小波变换后得到的高频系数

图4 近一年内的上证指数

对残差数据进行一级haar小波变换,得到如图3的高频系数。按上节步骤2找出所有大于阈值的极大值点的位 置P=(337,103,149,250,400,523,334,218,353,219)。再按照步骤6找出残差X中的异常点,分别是(677,210,301,504,803,1049,672,440,710,442)。注意到,异常点(440,442)几乎相邻,正是由于本文采用了小波分解找出异常点后立即修正的方法,很好的解决了“遮蔽效应”,同时检测出这两个异常点。如果采取传统方法,直接对残差数据进行异常点检测,则无法检测出异常点(442)。

这些异常点说明了股票价格相对于均值的巨大波动,下面具体看一看异常点对应的日期所发生的事件。苏宁电器分别在2008年9月26日(677)、2005年6月3日(210)、2005年10月17日(301)、2009年4月10日(803)、2010年4月16日(1049)除权,股价跌幅最低为31%。2008年1月9日(504),苏宁电器在停牌1年3个月后复牌,复牌当日不限涨幅,股价由44元涨至68.55元,涨幅超过50%。2008年9月19日(672),股票实行单边征收印花税,因此重大利好消息,苏宁电器转跌为涨,当日接近涨停。其他3个交易日虽然没有重大事件或消息,但是交易日近两天的波动接近20%,属于股票交易异常波动。

图5 1级haar小波变换后得到的高频系数

图4显示了2009年11月9日到2010年11月18日的上证指数曲线。可以看到这段时间内上证指数的振幅介于2300点和3400点之间,有一些较大的波动。同样,找出所有大于阈值的极大值点的位置P=(63,122,5)及其在残差X中对应的异常点(130,248,14),如图5所示。2010月5月18日(130)的前一个交易日受加息传闻及美国股市暴跌的影响,上证指数下跌5.07%,后证实消息为假,上证指数微涨。2010月11月15日(248)的前一个交易日即2010月11月12日传出上调印花税的消息导致上证指数下跌5.26%,后被证实为假消息,故15日上证指数微涨1.07%。2009年11月26日(14)无重要事件发生,属于股票市场正常调整。

通过以上实验可以看到,大部分异常点都对应着重大事件和消息,其余则对应着相对较大的波动,证明了本文采用的方法能够准确有效地检测异常点,并避免了“遮蔽效应”对异常点检测的影响,取得了良好的效果。

4 结论

本文首先使用GARCH(1,1)模型对股票数据收益率进行残差估计。残差数据反映了股票市场走势对均值的偏离,但直接对其进行异常点检测,则无法避免“遮蔽效应”。本文通过对残差数据进行haar小波变换得到高频系数进行异常点检测,能够准确地检测异常点,且很好地克服了“遮蔽效应”。最后分析证明了我们的方法效果良好,具有很好的理论和应用价值。

[1]王宏鼎,童云海,谭少华,唐世渭,杨冬青.异常点挖掘研究进展[J].智能系统学报,2006.

[2]陶运信,皮德常.屏蔽输入参数敏感的异常点检测新方法[J].计算机科学,2008.

[3]刘晓艳,王丽珍,杨志强,陈红梅.基于数学形态学的模糊异常点检测[J].计算机研究与发展,2009,46.

[4]陶运信,皮德常.基于邻域和密度的异常点检测算法[J].吉林大学学报,2008.

[5]R.Engle.Autoregressive Conditional Heteroskedasticity with Esti⁃mates of the Variance of U.K.Inflation[J].Econometrica,1982,50(4).

[6]T.Bollerslev.Generalized Autoregressive Conditional Heteroskedastic⁃ity[J].Journal of Economics,1986,31(3).

[7]R.F.Engle,D.Lilien,R.P.Robins.Estimating Time Varying Risk Premia in the Term Structure:The ARCH-M Model[J].Econometrica,1987,55(2).

[8]张世英,柯柯.ARCH模型体系,系统工程学报,2002,(3).

[9]Aurea Granéa,Helena Veiga.Wavelet Based Detection of Outliers in Financial time Series[J].Computational Statistics and Data Analysis,2010,54(11).

[10]D.Pena,F.Prieto.Multivariate Outlierdetection and Robust Covari⁃ance Matrix Estimation[J].Technometrics,2001,43(3).

[11]傅强,彭选华,毛一波.金融时间序列变点探测的小波模极大值线方法[J].重庆大学学报(自然科学版)2007.

[12]周大镯,刘月芬,马文秀.时间序列异常检测[J].计算机工程与应用,2008.

[13]X.Zhang,M.King.Influence in Generalized Autoregressive Condition⁃al Heteroscedasticity Processes[J].Journal of Business&Economic Statistics,2005,118~129.

[14]高铁梅.计量经济学建模与教程第二版[M].北京:清华大学出版社,2009.

猜你喜欢
加性小波方差
基于多小波变换和奇异值分解的声发射信号降噪方法
构造Daubechies小波的一些注记
概率与统计(2)——离散型随机变量的期望与方差
模糊判断矩阵加性一致性局部修正算法
量子信道容量的不可加性首获实验验证
基于MATLAB的小波降噪研究
加性与广义加性模型回归分析
方差越小越好?
计算方差用哪个公式
基于改进的G-SVS LMS 与冗余提升小波的滚动轴承故障诊断