刘少梅, 董小刚
(长春工业大学基础科学学院,吉林长春 130012)
高频金融时间序列数据指的是在非常细小的时间间隔上,以日或更小的时间间隔(例如小时、分钟、秒钟)上抽取的观测值。随着实时数据的获得与处理方法的发展和提高,可以得到这些高频数据。所以,市场微观结构实证方面的研究越来越受到广泛的关注。自从上世纪90年代,高频金融交易数据的分析开始迅速发展,目前,已广泛用于金融市场微观结构理论的应用和实证检验。对于金融市场中高频数据分析方法的研究也在不断地发展和提高,这对于研究股票、证券、期货等具有重大意义。
Hilbert-Huang变换(HHT)是1998年由NASA的Norden E Huang[1]等人提出的,作为一个崭新的时频分析方法,它完全独立于傅里叶变换,能够进行非线性、非平稳信号的线性化和平稳化处理,被认为是近年来对以傅里叶变换为基础的线性和稳态谱分析的一个重大突破。与频谱分析方法相比,得到的每个振幅和频率是随时间变化的,消除了为反映非线性、非平稳过程而引入的多余无物理意义的简谐波。与小波分析方法相比,具有小波分析的全部优点,在分辨率上消除了小波分析的模糊和不清晰,具有更准确的谱结构,依此得到的分析结果更能准确地反映出系统原有的物理特性。虽然Hilbert-Huang变换拥有众多优点,但EMD分解[2]数据时存在模态混叠的现象。针对此问题,将白噪声加入数据中来补充一些缺失的尺度。使用EMD分解对Hilbert谱刻画比较前后具有良好的表现。
经验模态分解是Hilbert-Huang变化的核心,EMD方法的关键问题在于如何把一个非线性非平稳的信号(数据)分解为有限个IMF分量和一个趋势项的和。
1.1.1 本征模态函数(IMF)定义
本征模态函数[2]是满足两个条件的一类函数:
1)在整个资料集中,极值点的数目与穿零点的数目必须相等或者最多相差一个;
2)上、下包络线平均值为零。
1.1.2 EMD分解步骤
1)确定所有局部极值点,然后用3次样条插值将所有极大值点连接起来形成上包络线,将所有极小值点连接形成下包络线,上下包络线涵盖所有数据点。
2)原始信号(数据)减去上、下包络线的平均值
如果h1是一个IMF,那么h1就是第一个IMF分量。
3)如果h1不满足IMF条件,将h1作为原始数据,重复前两步,得到上、下包络线平均值m11,再判断h11=h1-m11是否满足IMF条件,若不满足,重新循环k次,得到h1(k-1)-m1k=h1k,使得h1k满足IMF的条件。记C1=h1k,则C1为信号x(t)的第一个满足IMF条件的分量。
4)将C1从x(t)中分离出来,得到
将r1作为原始数据重复步骤1)~3),得到x(t)的第二个满足IMF条件的分量C2,重复循环n次,得到信号x(t)的n个满足IMF条件的分量。这样就有
当rn成为一个单调函数不能再从中提取满足IMF条件的分量时,循环结束。这样得到
式中:rn——残余函数,代表信号的平稳趋势。设定筛选过程停止判据SD:
从一些实例来看,SD的参考取值为0.2~0.3,即可停止筛选过程。
经验模态分解后得到本征模态函数,将IMF分量做Hilbert变换
式中给出了一个时间函数的振幅和频率。同样数据,如果展开成傅里叶表示,将得到常值振幅和频率。EMD分解和傅里叶展开区别在于:IMF表示一个实时变化的振幅和频率函数的傅里叶展开。这个振幅的频率时间分布被称作Hilbert谱。再定义Hilbert边际谱:
式中:T——信号的总长度。
边际谱提供了对来自于每个频率值的整个振幅(或能量)的测量,并且展示了概率意义上的整个数据范围累积振幅。
当信号的时间尺度存在跳跃性变化时,对信号进行EMD分解,会出现一个IMF分量包含不同时间尺度特征的情况,被称之为模态混叠[1]。
文献[3]提出了多分辨率的EMD思想,对每一个IFM规定一个尺度范围来解决模态混叠,但EMD失去了良好的自适应性。Huang[4]曾提出了中断检测的方法来解决模态混叠现象,直接对结果进行观察,如果出现混叠,则重新分解,但是这种方法需要人为后验判断,使用较少。
应用DME分解处理高频数据时,虽然时间间隔短,却是不等时间间隔采取数据,并且数据量大,数据极值点呈现不均匀分布,此时出现模态混叠现象。
为了更好地解决模态混叠问题,Huang[4]提出了一种噪声辅助处理信号方法,称其为EEMD。文中应用Hilbert-Huang变换处理高频数据,同样出现模态混叠问题。在EMD分解中,得到合理的IMF的能力取决于数据极值点的分布情况,如果极值点呈现不均匀分布时也会出现模态混叠。为此,Huang将白噪声加入待分解信号,因为白噪声频谱是均匀分布的,所以,当信号加在整个时频空间分布一致的白噪声时,经过多次平均后,噪声可相互抵消,达到减弱模态混叠的效果。将白噪声序列加入待分解的数据中,消除由于不等间隔造成的数据中断,从而消除模态混叠现象。
为了验证EEMD方法处理高频数据改进之处,利用Matlab平台分析2010年5月12日某股票日成交量数据,对原始数据进行EMD和EEMD分解,可实现数据的各个IMF分量和瞬时频率,并能对Hilbert时谱进行刻画。
参数设置功能:自由设置加入300组标准差为0.2的白噪声。
数据来源:2010年5月12日某股票日成交量Hilbert-Huang变换分析结果。
对日股票成交量模态分解,通过Hilbert谱比较分析结果有了改进。EMD对数据的分解如图1所示。EMD对数据Hilbert的刻画如图2所示。
图1 EMD对数据的分解
图2 EMD对数据Hilbert的刻画
EMD将数据分解成3个IFM分量和一个残余项,通过频谱图可以看出,低频分量混杂在一起,难以分辨。
将数据中加入300组标准差为0.2的白噪声序列,结果如图3和图4所示。
图3 EEMD对数据的分解
图4 EEMD对数据Hilbert的刻画
通过频谱图比较,模态混叠现象有所改善。
应用Hilbert-Huang变换分析高频数据是个较有效的方法。文中分析的是日股票成交量数据,在EMD分解时出现模态混叠现象,向其加入辅助白噪声,通过比较前后的频谱图,有效地改善了模态混叠的现象,这将是对传统的高频数据分析方法的有效改进。
[1] 于德介,程军圣,杨宇.机械故障诊断的Hilbert-Huang变换方法[M].北京:科学出版社,2006.
[2] 郑祖光,刘莉红.经验模态分析与小波分析及其应用[M].北京:气象出版社,2010.
[3] 时世晨,单佩韦.基于EEMD的信号处理方法分析和实现[J].现代电子技术,2011,34(1):88-91.
[4] Huang N E,Shen I,Lorg S R.The empirical mode decomposition and Hilbert spectrum for nonlinear and non-staiorery time series analysis[M].Proc R Soc London:Ser A,1998:454,903-995.
[5] 马野,刘文博,董小刚,等.基于小波分解的高频时间序列预测[J].长春工业大学学报:自然科学版,2009,30(4):374-378.
[6] 应益荣,包郭平.金融市场高频数据分析的建模进展[J].五邑大学学报:自然科学版,2006,20(1):63-69.
[7] 薛年喜.Matlab在数字信号处理中的应用[M].北京:清华大学出版社,2008.
[8] PENG Z K,TSE P W,CHU F L.An improved Hilbert-Huang transform and its applifcation in vibtation signal analysis[J].Jounal of Sound and Vibration,2005,286(9):187-205.