张 思, 金 浩, 杨云锋
(西安科技大学理学院, 西安 710054)
预先检测结构变化可以让我们更好地解读数据、更准确地预测数据并规避风险.因此,通过检验所研究的时间序列是否存在变点来评价其结构的稳定性是非常有必要的.在变点问题的统计推断研究中,结构变点一直是变点检验的核心研究内容之一.Amirhossein[1]讨论了基于极大似然方法下的结构变点问题.Sen和Srivastava[2]、Worsley[3]基于最小二乘法提出了对正态序列水平结构变化的检验.Dehling等[4]基于累积和统计量检测了长相依序列的均值变点,发现统计量检验功效随着长记忆指数的增大而减弱.Habibi[5]应用比值型统计量研究了ARCH序列的多均值变点检验,这较好地解决了累积和统计量需要精确估计序列长期方差的问题.Saisai[6]利用累积和估计量给出了均值结构变点的一致估计.潘婉彬等[7]采用基于自正则的K-S方法对羊群行为的均值变点进行检验,这是因为自正则的K-S检验可以避免窗宽参数的选取.陈希孺[8]梳理了近三十年关于均值变点问题的研究方法,主要包括累积和、极大似然、最小二乘估计及M估计等方法.
针对上述均值变点问题,为了推导检验统计量的极限分布,要求观测数据方差存在.但大量的研究发现医学、经济、气象等领域中高频数据常出现较多的异常值,使得数据呈现尾部概率偏大的统计现象.众所周知,随机变量的尾部概率大小度量了其风险,因此不能用传统的高斯序列来刻画具备尾部概率偏大的数据,而厚尾序列很好的弥补了这一的缺陷.因此,许多统计学家和计量经济学家对厚尾序列的统计推断产生浓厚的兴趣.基于平方累积和统计量,Jin等[9]研究了厚尾ARCH序列均值变点检验问题,并证明了统计量的极限分布是Lévy过程的泛函.鉴于尾指数未知且难以估计的特点,Wang等[10]通过证明Bootstrap抽样分布依概率收敛逼近极限分布以避免尾指数的估计,从而实现厚尾序列均值变点检验的问题.Qin和Liu[11]基于符号函数研究了α-混合的厚尾序列均值变点检验和估计,并利用数值模拟表明其比基于最小二乘的检验具有更好的检测效果.更多关于厚尾序列变点的研究,可参见文献[12-14].
考虑到设定相依观测序列更符合实际情况,本文将研究厚尾自回归过程均值变点的检验问题.由于Horváth等[15]提出的比值型统计量对厚尾相依序列不能得到统计量的精确极限分布且检验功效受变点位置的影响,因此本文提出修正的比值型检验统计量来提升检验功效.同时,针对临界值依赖尾指数的情况,基于Wang等[10]提出的Bootstrap抽样方法以获得尾指数的响应曲线,从而解决厚尾自回归过程均值变点的检验问题.
假设均值变点模型如下:
yt=μ+Δ·I{t>k*}+εt,
(1)
εt=ρ1εt-1+…+ρpεt-p+ηt,t=1,…,T,
(2)
针对均值变点的检验,提出以下假设检验题:
H0:Δ=0,
H1:在未知的时刻k*,Δ≠0.
为了保证下面检验统计量的可行性,给出所需的假设和引理.
假设1特征多项式ρ(z)=1-ρ1z-…-ρpzp的根都在单位圆之外.
假设2{ηt}∈D(κ),这里D(κ)为尾指数κ∈(1,2]的稳定吸收域,且Eηt=0.
引理1若厚尾序列{ηt}是独立同分布,且{ηt}∈D(κ),则
这里aT=T-κ(T),而L1(r)和L2(r)是在区域[0,1]上的κ-Lévy过程和κ/2-Lévy过程.Kokoszka和Wolf[16]指出L1(·)是一个稳定过程,其可以表达为:
这里,{Ut}是独立同分布在区间[0,1]上的均匀分布随机变量,{δt}是独立同分布的随机变量,满足P(δt=1)=1-q,P(δt=-1)=q.Γ1,Γ2,…,Γt是具有勒贝格测度的泊松过程的到达时间,且{Ut,δt,Γt}相互独立.
经典的累积和统计量是检测均值变点的有效方法,但构建累积和统计量必须估计长期方差,Antoch等[17]指出,即使在独立的情况下,方差估计也相当困难.特别地,当误差是重尾序列时,由于长期方差的复杂形式更增加了估计难度.针对此问题,Horváth等[15]提出的比值型检验统计量避免长期方差的估计.比值型统计量定义如下,
(3)
(4)
定义修正的比值型检验统计量如下:
其中,
下面证明比值型统计量在原假设下的极限分布,并给出备择假设下的一致性.
定理1若观测序列{yt}由(1)~(2)生成,{εt}是p阶自回归厚尾过程,假设1~2成立,在原假设H0下,当T→∞时,有
其中,
V(s;r)=L1(s)-sr-1L1(r),
(s-r)(1-r)-1(L1(1)-L1(r)).
(5)
则式(5)可写为矩阵形式G=Rρ+ξ.则参数ρ的最小二乘估计为
(6)
将G=Rρ+ξ代入式(6),则
其中,
和
(7)
(8)
令
联立式(7)和(8),则
(9)
对于t=p+1,…,k,有
则
∏1+∏2+∏3+∏4.
(10)
同理可证得
L1(s)-L1(r)-(s-r)(1-r)-1[L1(1)-L1(r)]=
(11)
联立式(10)和(11),则
定理1证毕.
定理1表明在原假设下,修正的比值型统计量Q*的极限分布是Lévy过程的泛函.接下来讨论备择假设下检验统计量的一致性.
定理2若观测序列{yt}由(1)~(2)生成,{εt}是p阶自回归厚尾过程,假设1~2成立,在备择假设H1下,当T→∞时,
证明当k*≤k时,利用观测样本yt,t=1,…,k,则残差序列计算如下
It+IIt,
(12)
(13)
将式(12)代入式(2),则
其中,
(It-ρ1It-1-ρ2It-2-…-ρpIt-p)+ηt,
(14)
因式上式的第二项是常数,由BN分解,不难发现
(15)
令
结合式(13)和式(15),则
(16)
因此,当t=p+1,…,k时,
It-ρ1It-1-…-ρpIt-p+ηt=
(It-ρ1It-1-…-ρpIt-p)+ηt,
则
ρ1It-1-ρ2It-2-…-ρpIt-p)∶=
假定Δ(1-ρ1-…-ρp)<0,令i=[Ts],k=[Tr],k*=[Tr*],当p+1≤i≤k*时,有
-s(r-r*)r-1Δ(1-ρ1-…-ρp).
(17)
显然,式(17)关于s在区间[0,r*]单调递增,可得
-Δ(1-ρ1-…-ρp)r*(r-r*)r-1,
(18)
和
(19)
当k*
(s-r*)r*r-1]Δ(1-ρ1-…-ρp).
(20)
注意到,式(20)关于s在区间[r*,r]单调递减,可得
-Δ(1-ρ1-…-ρp)r*(r-r*)r-1,
(21)
和
(22)
综合式(18)、(19)、(21)、(22)可得
和
因此
同理当Δ(1-ρ1-…-ρp)>0时,有
综上,
r*(r-r*)r-1|Δ(1-ρ1-…-ρp)|.
由于均值变点没有出现在样本yt,t=k+1,…,T,检验统计量分母的极限分布与没有变点情形下的结论相一致,则1)得证.类似的,2)同理可证.则定理2证毕.
定理2给出了比值型检验统计量在备择假设下一致性的证明.显然,检验统计量的发散性与厚尾指数,样本容量和跳跃幅度呈正关联系.另一方面,若p=1,则发散速度与自回归系数ρ1呈负关联系.
因极限分布包含未知的尾指数κ,Mandelbrot[20]提出了矩估计来粗略的估计κ,但该方法的估计精确不高.针对κ的估计问题,本文利用Bootstrap抽样方法实现避免估计κ进而获取精确的临界值.具体步骤如下.
其中,
记F=σ(ηi,i≥1),PF,EF分别表示关于F的条件概率和期望.令
Υ(x)∶=
为进一步验证基于Bootstrap方法的比值型检验的可行性,本节通过蒙特卡洛方法进行数值仿真.这里只考虑但变点模型,其中信息过程为一阶自回归过程:yt=μ+Δ·I{t>k*}+εt,εt=ρ1εt-1+ηt.这里厚尾序列{ηt}是独立同分布的,且Eηt=0.因检验统计的临界值是厚尾指数的函数,先利用Bootstrap抽样方法确定临界值与尾指数之间的函数关系.不失一般性,设定显著性水平α=0.05,厚尾指数κ={1.1,…,2},设定循环次数为B=3000,样本容量T=2000,参数μ=0,自回归系数ρ1={-0.5,0,0.5}.模拟结果均通过Matlab软件实现.
表1 基于Bootstrap的比值型检验统计量临界值,T=2000
f(κ)=-43.38κ4+260.7κ3-
543.8κ2+430.2κ-72.82.
下面讨论比值型检验统计量分别在原假设和备择假设下的检验功效.设定跳跃幅度Δ={0,2,4},变点时刻r*={0.3,0.5,0.7},样本容量T={300,500,1000},原假设下的经验水平和备择假设下的经验势是基于3 000次随机试验中拒绝原假设的百分数(拒绝率).下图所有的横坐标为厚尾指数κ,纵坐标为拒绝率.
图1显示了在原假设条件下原比值型检验统计量Q(实线)和修正的比值型检验统计量Q*(虚线)的拒绝率.拒绝率在显著性水平0.05附近波动,且随着样本容量的增大波动性逐渐减小;拒绝率因厚尾指数、回归系数的变化而产生的变动很轻微,几乎忽略不计.这说明基于Bootstrap抽样的比值型检验统计量很好地控制了经验水平.
图1 原假设下比值型检验统计量的拒绝率Fig.1 Rejection power of ratio-type test under the null hypothesis
图2给出了在备择假设下出现一个均值变点情形,跳跃幅度Δ=2,变点时刻r*={0.3,0.5,0.7}所对应的原比值型检验统计量Q和修正的比值型检验统计量Q*的拒绝率.随着样本容量的增大,拒绝率增大,这与定理2的结论一致,即统计量的发散性与样本容量呈正相关性.随着厚尾指数κ的减小,统计量的拒绝率减小.这是因为厚尾指数κ越小,序列包含的异常值越多,临界值越大,导致拒绝率越小.此外厚尾指数κ越小,备择假设下统计量的发散性减弱,这就解释了厚尾指数κ越小,拒绝率越偏低现象的合理性.自回归系数为负时,拒绝率最大,而当自回归系数为正,拒绝率则最小.原因是在备择假设下,统计量的极限分布与自回归系数呈负相关性:自回归系数ρ1越小,统计量越发散,拒绝率越高.当r*=0.3时,原比值型检验统计量Q比修正的比值型检验统计量Q*的拒绝率略高.这说明Q在变点时刻位于样本前半段时对变点较敏感,容易检测变点.当r*=0.5和r*=0.7时,Q*的拒绝率高于Q的拒绝率.尤其当变点时刻位于样本前半段时r*=0.7,拒绝率之间差异愈加显著.这正是本文所提修正比值型检验统计量的优势.究其原因,相比原比值型检验统计量的经验势对变点位置的敏感性,修正的统计量的经验势不会因变点时刻位置靠近样本后半段而大幅度减小,从而没有显著的降低检验功效,这使得其更加稳健.
图3给出了备择假设下跳跃幅度Δ=4,变点时刻r*={0.3,0.5,0.7}的原比值型检验统计量Q和修正的比值型检验统计量Q*的拒绝率.正如所期待的,统计量的检验功效与跳跃幅度呈较强的正相关性,拒绝率随着跳跃幅度的增大而增大.其次,拒绝率也随样本容量、厚尾指数的增大而增大,但随着回归系数的增大而减小.总之,相对于Q对在样本后半段变点检验不敏感的缺陷,Q*的检验显著性不依赖变点位置,具备良好的稳健性.这表明基于Bootstrap方法的比值型检验统计量为检测厚尾相依序列均值变点提供了一种行之有效的工具.
图3 备择假设下比值型检验统计量的拒绝率,Δ=4Fig.3 Rejection power of ratio-type test under the alternative hypothesis,Δ=4
图4 美国铝业标准化收盘价,2017-04-31-2021-10-28Fig.4 Alcoa’s standardized closing price, 2017-04-31-2021-10-28
基于广义的中心极限定理,本文研究了厚尾p阶自回归过程均值变点的检验问题.针对变点位置对检验功效的显著性影响,提出了修正的比值型检验统计量.在原假设下证明了统计量的极限分布是Lévy过程的泛函,并得到了其在备择假设下的发散性.为了避免厚尾指数的估计,利用Bootstrap抽样方法来逼近极限分布以获得精确的临界值.最后,通过蒙特卡洛数值模拟和实证分析验证了文中检验方法对检测厚尾序列均值变点的有效性和可行性.