杨利雄,张春丽,李庆男
(1.兰州大学 管理学院 甘肃 兰州 730000;2.西北民族大学 经济学院 甘肃 兰州 730030;
3.台湾中山大学 经济研究所,台湾 高雄 80611)
含非线性的平稳变量之间的虚假回归研究
杨利雄1,张春丽2,李庆男3
(1.兰州大学 管理学院 甘肃 兰州 730000;2.西北民族大学 经济学院 甘肃 兰州 730030;
3.台湾中山大学 经济研究所,台湾 高雄 80611)
摘要:研究含非线性的平稳变量之间的虚假回归问题。通过推导OLS估计的收敛性、t统计量和R2的极限分布,证明含非线性的平稳变量之间会出现虚假回归现象,除非回归模型能精确地捕捉变量中的非线性。蒙特卡洛模拟的证据与推导出的理论相符。研究表明:在经济分析中,甄别和正确地处理变量中的非线性部分是十分重要的。
关键词:非线性;虚假回归;傅里叶函数
一、引言
当对两个相互独立的随机变量进行回归时,如果产生统计意义上的显著关系,则此时的回归分析为虚假回归。Granger和Newbold使用随机模拟表明了两个独立的随机游走序列之间的虚假回归问题,从而引出了非平稳时间序列计量经济学,如单位根检验[1-3]。进一步地,Phillips使用大样本理论阐明了两个独立的随机游走序列之间虚假回归的根源[4]。此后的文献更深入地研究了虚假回归问题,如Marmol研究了数据生成过程为I(d)的虚假回归问题[5-6];Tsay 和Chuang研究了长记忆的分数阶整合过程之间的虚假回归问题,并将虚假回归的根源归结为时间序列的高度记忆性[7]。近期,Kim等 指出包含确定性趋势的平稳时间序列之间也可能出现虚假回归问题[8]。
Perron研究指出了结构突变对计量分析的重要意义和影响,从而奠定了结构突变在计量经济学中的地位[9]。Noriega和Ventosa-Santaulria发现含结构突变的平稳序列之间会出现虚假回归问题[10]。Kim 和 Lee则证明回归误差中的过度波动可能导致虚假回归问题,不管因变量和自变量是平稳的或非平稳的[11]。
由于经济行为的复杂性,经济现象普遍存在非线性特征[12]。文献中建立了很多非线性模型来描述和解释非线性经济行为模式,其中最著名的是平滑转移模型(Smooth Transition Regression Model,STR)。给定很多经济变量能被描述为非线性的,那么含非线性的平稳变量之间是否存在虚假回归成为一个十分重要的课题。但是,文献中对此问题的研究还很少。
本文研究包含非线性的平稳过程之间是否存在虚假回归的问题①非线性模型分为均值非线性模型和方差非线性模型,本文主要讨论均值非线性。。Beckers等指出傅里叶变换、甚至低频的傅里叶函数能很好地反映非线性特征[13]。所以,本文基于傅里叶变换近似变量中的非线性特征,通过推导最小二乘估计量的收敛性、t统计量和R2的极限分布等,发现:含非线性的平稳变量之间的最小二乘回归估计量常常收敛于依赖非线性部分参数的随机数;t统计量是发散的;R2常常给出错误的信息。即含非线性的平稳变量之间会出现虚假回归问题,除非能精确地捕捉变量中的非线性部分。同时,本文的蒙特卡洛模拟结果支持本文的理论结果。
二、虚假回归中统计量的极限分布
假设yt和xt的数据生成过程含未知结构的非线性部分αy(t)和αx(t)。即,本文考虑如下的数据生成过程:
(1-φ1L)(yt-αy(t)-γ1t)=u1t
(1)
(1-φ2L)(xt-αx(t)-γ2t)=u2t
(2)
Beckers等指出傅里叶变换能以任意的精度近似非线性趋势,且低频的傅里叶函数就能很好地近似非线性时间趋势[13]。因此,考虑用傅里叶变换来逼近α1(t)和α2(t):
n≤T/2
n≤T/2
其中n代表傅里叶近似中包含的频率的个数,k表示频率,T是样本数。
另一方面,单一频率的傅里叶函数就能很好地捕捉非线性趋势或结构突变[13]。因此,为了理论推导方便,假设数据生成过程中未知结构的非线性部分为单一频率的傅里叶函数:
αy(t)=αy0+βy1ksin(2πkt/T)+
βy2kcos(2πkt/T)
(3)
αx(t)=αx0+βx1ksin(2πkt/T)+
βx2kcos(2πkt/T)
(4)
在数据生成过程式(1)~(4)下,本文将考虑如下回归模型的最小二乘估计的收敛性及其相关统计量的极限分布:
为了方便,将数据生成过程式(1)~(4)写成向量的形式,则有:
y=αy0I+βy1kΥ1+βy2kΥ2+γ1tT+v1
(5)
x=αx0I+βx1kΥ1+βx2kΥ2+γ2tT+v2
(6)
其中
Υ1=(sin(2πk1/T),sin(2πk2/T),…,sin(2πkT/T))
I=(1,1,…,1)′
Υ2=(cos(2πk1/T),cos(2πk2/T),…,cos(2πkT/T))
y=(y1,y2,…,yT)′
x=(x1,x2,…,xT)′
tT=(1,2,…,T)′
vi=(vi1,vi2,…,viT)′
i=1,2,L为滞后算子。
虚假回归的典型特征为:参数的最小二乘回归估计不收敛于真实值;t统计量发散;R2收敛于1等。因此,下文将考虑当T→时,回归模型1A、2A、1B和2B最小二乘估计的收敛性和相关统计量的特征来考察含非线性的平稳过程之间是否会出现虚假回归问题。为此,我们先从Hamilton、Beckers等人的文献中收集到如下极限结果[14]486-487:
I′Υ2=0
在本文中,“→”表示以概率收敛。
以回归模型1A为例,参数β1A的最小二乘回归估计为:
其中,M=IT-X(X′X)-1X′,X=(I,x),MI=IT-I(I′I)-1I′,I=(1,1,…,1)′。
又因
其中
所以
(7)
类似于式(7),可以证明:
(8)
同理,可以证明*详细推导过程可向作者索要。:
βx2kΥ2+v2)
βx2kΥ2+v2)
因此,容易得到:
(9)
(10)
(11)
由式(9)~式(11)可知,最小二乘估计并未收敛于真实值0,且用于检验显著性的t统计量是发散的,可决系数收敛于一个依赖于非线性部分参数的值。这些与Granger和Newbold所描述的虚假回归的特征相符合[1]。
当γ1≠0,γ2≠0时,时间趋势t主导变量xt和yt的行为,可以证明:
(12)
(13)
另一方面
令
B=diag(T-1/2,T-3/2)
因为
(14)
(15)
其中
又因为:
所以
(16)
类似于式(16),可以证明:
(17)
Ml(βy1kΥ1+βy2kΥ2+γ1t+v1)
(18)
由式(12)、式(13)、式(17)、式(18)可得:
(19)
(20)
(21)
式(19)~(21)也符合虚假回归的特征:最小二乘估计不收敛于真实值0,且用于检验显著性的t统计量是发散的。但与无时间趋势的退化特例不同,此时可决系数趋于1,这是因为时间趋势主导了变量xt,yt的大样本行为。
与回归模型1A的推导类似,当数据生成过程为式(1)~式(4)且γ1≠0,γ2≠0时*对于γ1=γ2=0的情况有类似的结论成立,可向作者索要。这里为节省空间省去。,对于回归模型2A、1B、2B,可以证明:
(22)
(23)
(24)
(25)
(26)
(27)
(28)
(29)
(30)
综上,当真实数据生成过程为式(1)~式(4)且γ1≠0,γ2≠0时,回归模型1A、2A、1B中变量xt系数的最小二乘估计均不收敛于真实值,甚至是发散的;该系数所对应的t统计量均是发散的;可决系数收敛于0或1,这也说明了高的可决系数并不能作为模型解释能力高或模型正确与否的证据。回归模型2B中变量xt的系数收敛于真实值,其对应的t统计量也依然是可用的。这是因为数据生成过程中含傅里叶项构成的非线性,而回归模型2B中加入了傅里叶项精确地“捕捉”了此非线性,从而消除了非线性部分引起虚假回归的可能。而回归模型1B中虽然加入了傅里叶项,但没有加入时间趋势项,从而依然引起了虚假回归,这种虚假回归即为Kim,Lee和Newbold所指出的虚假回归现象[8]。
当数据生成过程为式(1)~式(4)且γ1=γ2=0时,同理可以证明:回归模型1A、2A中xt的系数均不收敛于真实值,其对应的t统计量是发散的,即发生了虚假回归;回归模型1B、2B都能给出正确结论,是因为回归模型中傅里叶项作为自变量捕捉了数据生成过程中的非线性。这说明对于含非线性的平稳过程之间会出现虚假回归现象,除非精确“捕捉”此非线性部分。
三、有限样本下的虚假回归——蒙特卡洛模拟
上一节的理论推导表明:含非线性的平稳变量之间会出现虚假回归现象,除非精确“捕捉”此非线性部分。本节使用蒙特卡洛模拟为此提供证据。首先,考虑含傅里叶型非线性的数据生成过程;其次,考虑其他类型的非线性。本文中的蒙特卡洛模拟使用均使用Gauss软件实现。
(一)含傅里叶型非线性的数据生成过程
数据生成过程为式(1)~(4)所示,其中u1t~i.i.dN(0,1),u2t~i.i.dN(0,1)且u1t和u2t相互独立。不失一般性,选取参数αx0=αy0=1,βy1k=3,βy2k=3,βx1k=3,βx2k=5,k=1,φ1=0.5,φ2=0.5。模拟采用样本容量T=50,100,500,1 000,2 000,每组模拟实验重复1 000次。首先,我们考察数据生成过程无时间趋势的特例,即γ1=γ2=0。以回归模型1A为例*当数据生成过程如式(1)~(4)所示时,回归模型2A、1B和2B的模拟都与理论符合。为节省空间,本文省去了上述模拟结果。,模拟结果如图1~图3所示:
图1 模拟的^β1A分布图(T=100)图2 模拟的t统计量图图3 模拟的R2的分布图(T=100)
因为傅里叶变换可以以任意精度逼近非线性函数,且单一频率的傅里叶函数就能很好地近似很多类型的非线性函数[13],因此,为了理论推导方便,前文假设数据生成过程中未知结构的非线性部分为单一频率的傅里叶函数。可以预期:本文理论所预测含非线性的平稳变量间的虚假回归对于任何形式的非线性都是适用的。下文将使用蒙特卡洛模拟来验证这一点。
(二)含其他类型非线性的数据生成过程
文献中常用平滑转移函数(transitionfunction)描述时间序列中的非线性。因此,下文考虑非线性部分为一个平滑转移函数的数据生成过程:
(31)
(32)
其中,ε1t~i.i.dN(0,1),ε2t~i.i.dN(0,1)且ε1t和ε2t相互独立。
上述数据生成过程类似于Kapetanios等的设定。选取参数αy=1,βy=0.9,θy=1;αx=1,βx=0.9,θx=1。
从表1可以看出:在各种样本下,含平滑转移函数型非线性的平稳变量之间存在虚假回归问题,该问题不会随着样本增加而消失;通过在回归模型中加入时间趋势项有助于降低拒绝率;通过在回归模型中加入单频的傅里叶项,可以较明显地降低拒绝率。但因为单频的傅里叶项并不能完全消除变量中的非线性,因此依然存在虚假回归现象。这与本文的理论部分一致。
表1 不同数据生成过程下t统计量的拒绝率
四、结论
本文研究了含非线性的平稳变量之间的虚假回归问题。为此,本文使用低频的傅里叶函数近似变量中的非线性部分,并通过推导OLS估计的收敛性、t统计量和R2的极限分布,发现:含非线性的平稳变量之间的最小二乘回归估计量常常收敛于依赖非线性部分参数的随机数;t统计量是发散的;且R2常常给出错误的信息。即,含非线性的平稳变量之间会出现虚假回归现象,除非精确“捕捉”此非线性部分。蒙特卡洛模拟的证据与本文的理论结果一致。
本文的研究表明:计量经济分析中,甄别和正确处理变量中的非线性是十分重要的。
参考文献:
[1]GrangerCW,NewboldP.SpuriousRegressionsinEconometrics[J].JournalofEconometrics, 1974, 2(2).
[2]江海峰,崔立志,汪忠志. 递归均值调整单位根检验能提高检验功效吗?[J]. 统计与信息论坛,2014(11).
[3]江海峰,陶长琪,陈启明.ADF模式中漂移项和趋势项检验量分布与Bootstrap检验研究[J]. 统计与信息论坛,2014(6).
[4]PhillipsPC.UnderstandingSpuriousRegressionsinEconometrics[J].JournalofEconometrics, 1986, 33(3).
[5]MarmolF.SpuriousRegressionsbetweenI(d)Processes[J].JournalofTimeSeriesAnalysis, 1995, 16(3).
[6]MarmolF.SpuriousRegressionTheorywithNonstationaryFractionallyIntegratedProcesses[J].JournalofEconometrics, 1998, 84(2).
[7]TsayWJ,ChungCF.TheSpuriousRegressionofFractionallyIintegratedProcesses[J].JournalofEconometrics, 2000, 96(1).
[8]KimTH,LeeY,NewboldP.SpuriousRegressionswithStationaryProcessesAroundLinearTrends[J].EconomicsLetters, 83(2).
[9]PerronP.TheGreatCrash,theOilPriceShock,andtheUnitRootHypothesis[J].Econometrica, 1989, 57(6).
[10]NoriegaAE,Ventosa-SantaulàriaD.SpuriousRegressionUnderBroken-TrendStationarity[J].JournalofTimeSeriesAnalysis, 2006, 27(5).
[11]KimCS,LeeS.SpuriousRegressionsDrivenbyExcessiveVolatility[J].EconomicsLetters, 2011, 113(3).
[12]TerasvirtaT,AndersonHM.CharacterizingNonlinearitiesinBusinessCyclesUsingSmoothTransitionAutoregressiveModels[J].JournalofAppliedEconometrics, 1992, 7(S1).
[13]BeckersR,EndersW,LeeJ.AStationaryTestinthePresenceofAnUnknownNumberofSmoothBreaks[J].JournalofTimeSeriesAnalysis, 2006, 27(1).
[14]HamiltonJD.TimeSeriesAnalysis[M].Princeton:PrincetonUniversityPress, 1994.
(责任编辑:马慧)
【统计理论与方法】
Spurious Regression Between Nonlinear Stationary Variables
YANG Li-xiong1,ZHANG Chun-li2,LI Ching-nan3
(1.School of Management, Lanzhou University, Lanzhou 730000, China;
2. School of Economics, Northwest University for Nationalities, Lanzhou 730030, China;
3.Insititute of Economics, National Sun Yat-sen University, Gaoxiong 80611, China)
Abstract:This paper studies the spurious regression problem between nonlinear stationary variables. By deriving the convergence of OLS estimates, the limiting distribution of t statistics and , we show that there exists spurious regression phenomenon between nonlinear stationary variables, unless the nonlinearities can be captured accurately. The Monte Carlo simulations support our theory. This paper indicates that it is very crucial to test and model the nonlinearities in econometric analysis.
Key words:nonlinearities; spurious regression; Fourier function
作者简介:丁黄艳,男,安徽怀宁人,博士生,研究方向:区域经济理论,宏观经济统计。
基金项目:教育部省部共建人文社会科学重点研究基地项目《两江新区战略性产业和地区产业合作研究》(14JJD790018);重庆市研究生科研创新项目《三峡库区基础设施跨区域经济影响的空间特征》(YJSCXX2015-41-08)
收稿日期:2015-09-22;修复日期:2015-11-03
中图分类号:F224.0∶O212
文献标志码:A
文章编号:1007-3116(2016)01-0018-07