空间回归模型设定方法探讨

2018-03-21 09:20
统计与决策 2018年1期
关键词:偏误建模形式

刘 明

(兰州财经大学a.甘肃经济发展数量分析研究中心;b.统计学院,兰州 730020)

1 问题的提出

新经济地理学的出现与发展,使得人们越来越关注经济社会的区域空间问题。作为空间因素研究的重要工具,空间回归模型以及在此基础上建立的经济学分支学科——空间计量经济学受到了广泛的关注和讨论,为新经济地理学的研究提供了重要的方法支持。在国内的空间计量经学应用研究的主要文献里,可以发现很多文献无论是对问题本质的洞察力还是建模技巧,乃至技术上的处理都非常精致。但部分文献中还存在一些问题,其中一个重要问题就是模型形式设定有待于推敲,诸如在构建或选择空间回归模型时没有给出详细的说明和解释、没有联系实际问题就模型设定进行探究、模型变量的确定未经过细致的分析等问题,致使这些模型在文献中略感突兀,显现出“死搬硬套”的痕迹,这样就容易使问题研究的价值和可信度大打折扣。空间相关性在经济现象中确实普遍存在,但空间回归模型未必能够解释、解决一切问题,因此在实际问题研究中不能动辄就套以空间回归模型。诚然,考虑空间因素的回归模型确实较经典回归模型高一层次,甚至说是回归模型发展的一个质的飞跃,但也不是所有的问题都可以拿来套用空间回归模型。这些现象从某种角度来说,是反映了我国空间计量经济学发展的不成熟,方法讨论和实际应用还没有完全结合起来。基于此,本文通过对空间回归模型设定偏误问题进行分析,进一步讨论在实际应用中如何构建一个正确的空间回归模型,以求对模型应用技术的完善。

2 常用的空间回归模型及关系

空间回归模型中以空间自回归模型(SAR)、空间误差模型(SEM)以及空间杜宾模型(SDM)最为基础亦最为常见。如果回归模型中被解释变量在空间上与其相邻区域的变量(也是被解释变量)存在空间相关性,那么可以将这种相关性引入到回归模型中,从而构造出空间自回归模型。空间自回归模型形式为:

其中,y和X分别为被解释变量向量和解释变量矩阵,W为权重矩阵,ln为n阶单位向量,α、ρ、β分别为截距参数、空间效应参数和回归参数,ε为随机干扰向量,且假定ε~N(0,σ2In)。为讨论方便,通常将ln与X合并,将SAR模型直接写为:

将模型(1)的空间自相关项ρWy移至等式左边可得:

于是有:

令=(In-ρW)-1X,u=(In-ρW)-1ε,则可以得到:

模型(2)即为空间误差模型(SEM),其特征是模型随机项u存在空间依赖。

实际应用中时常出现模型选择的不确定性,即无法确定应该选择哪一个模型来对问题进行建模研究。假设这种情况出现在SAR模型和SEM模型之间,两类模型形式分别为:

令这两个模型出现的概率各自为πSAR、πSEM,且πSAR+πSEM=1,也就是说,实际的模型形式满足:

将SAR模型和SEM模型代入并计算可得:

令β1=β,β2=-ρπSEMβ,则可得到模型(3):

模型(3)即为空间杜宾模型(SDM)。上述分析表明,SDM模型是SAR模型和SEM模型的线性组合。

由变量的空间自相关现象引出SAR模型,通过对SAR模型的分析得到SEM模型,进一步对SAR模型和SEM模型进行线性组合得出SDM模型,由此可以看出这些模型之间的联系。在空间计量经济学中,这三类模型是最为基础也是最为常见的空间回归模型。

3 常见的模型设定偏误分析

空间回归模型的形式不仅局限于上述几类,在不同的情形下有诸多的拓展形式。在具体的问题研究中,从理论上讲最优的模型只有一个,因此在实际问题研究中构造能正确表述客观事实、符合实际研究需要的空间回归模型——即实现模型的正确设定,是一件重要且不易做到的事。一些模型的构建者在研究实际问题时出现了模型设定偏误。这些设定偏误的出现可能因为建模者对所研究的问题把握不够、存在认识偏差,或没有遵循事物的运行规律和特征,或者将模型形式设计得过于简化,这些都是建模过程中普遍出现的问题。除此之外,对于空间回归模型而言,出现设定偏误的原因可能有如下方面:

首先是未考虑空间因素,或空间因素考虑得不够全面。在经济学问题研究中,由于贸易交流、示范效应等因素的存在,使得地域关联性越来越受到研究者的重视。对于传统的认为经济运行发展过程中地域间不相关的观点,或者是模型构建过程中关于地域间不相关的假设条件,已不合时宜且不符合实际。因此,在经济模型构建过程中,尤其是存在区域坐标的经济问题研究中,空间因素是必须要考虑的对象。在此情形下若不考虑空间依赖因素而直接构建模型,就极有可能造成模型设定的错误。另外,在构建空间回归模型时,对于空间因素考虑得不够全面也是造成模型设定偏误的重要原因,例如在一个多变量的经济系统中,仅考虑了某一个或某一部分变量的空间依赖性,而忽略了另一些变量的空间依赖作用,此时构建的空间回归模型的形式也是错误的。假设正确的空间回归模型的形式为:

由于空间依赖因素考虑得不全面,忽略了解释变量X的空间依赖性,使得模型设定为:

显然,ε′=WXγ+ε,它和解释变量X是相关的,可以证明,此情形下的参数β的估计量(MLE及OLS)是有偏且不一致的(证明过程可依照普通线性回归模型遗漏变量的情景来进行)。因此需要全面考虑变量的空间相关性才能保证模型设定的正确。因此,在构建空间回归模型时不仅要考虑空间因素是否存在,也要考虑空间依赖关系是否全面。

造成空间回归模型设定偏误的另一原因是遗漏重要解释变量。不妨假设正确的模型形式为:

如果遗漏了重要的解释变量X,则模型被错误的设定为:

不难发现,ε′=Xβ+ε。假设X存在有空间自相关,即X=θWX+ϵ(∈与ε不相关),此时:

显然,模型随机项ε′存在有空间自相关问题,此时若直接对模型y=ρWy+ε′进行估计和分析而忽略随机项的自相关问题,其结果必定都是错误的——参数ρ的最大似然估计结果是不一致的,以此模型对所研究问题的分析是不可靠的。因此,遗漏空间回归模型的重要解释变量会造成模型的设定偏误。另一种情形是,如果遗漏的解释变量没有空间相关性,此时对于参数ρ的估计结果具有一致性,即不影响反映空间效应参数ρ的估计。但此时由于模型失去了部分解释变量而显得欠缺。

选择错误的模型形式也是造成空间回归模型设定偏误的一个重要原因。空间回归模型形式的选择是一个既有科学性又有艺术性的问题。模型选择的科学性在于依赖于已有的学科理论和知识背景设计模型的形式,同时可以对模型施加诸如拉格朗日乘数检验等统计检验方法以进行评判。因此,科学性使得模型形式的选择在实际问题研究中有科学的依据。而模型选择的艺术性在于,针对同一问题背景,不同的研究视角和研究目的,不同的研究人员,可能会选择不同的空间回归模型形式。换句话说,可能会因为不同的研究视角和研究目的而设定出不同的空间回归模型,也有可能因为不同的研究人员对问题的认识不同、研究水平的不同而使得设定的空间回归模型存在差异。因此,艺术性使得模型形式的选择在实际问题研究中有较大的主观性,从而使得模型形式误设的风险加大。

例如,正确的模型形式为SDM:

但由于某种原因误使模型设定为SAR:

和上述分析路径一致,由于随机项ε′存在空间自相关且和解释变量相关,不满足最大似然估计的独立性假定,因此ρ、β的估计量都是不一致的。

再如,当检测出研究对象存在有空间依赖性时,选择SAR模型还是SEM模型是困扰研究者的一个难题,我们可以用诸如拉格朗日乘数检验法来对模型加以选择,但这在有些问题中未必有效(例如数据的生成形式既包含SAR也包含SEM)。此时错误的模型形式会有较大的成本。如果正确的模型是一个SAR模型:

但研究人员设计了一个SEM:

由于SEM模型中没有考虑到被解释变量y的客观存在的空间自相关性,因此在随机项u中存在空间自相关。所以SEM模型是可估的。但针对这类模型设定偏误,毫无疑问,研究人员失去了估计y的空间自回归参数ρ的机会,换来的仅是随机项u的自回归参数τ的估计结果——它在实际问题中并不具有较多的经济意义,通常不被关注。同时,参数β的估计量也会发生偏倚。可以运算证明,SAR和SEM模型的参数β的估计量可以表示为:

4 正确设定空间回归模型的途径

对于多种类型的空间回归模型,在实际问题研究中该如何选择,即如何设定出正确的模型形式,是空间回归模型应用研究的关键。这里根据模型的数理关系及相关实证经验,构造出几类实现模型正确设定的思路及途径。

4.1 理论结合数据

依据所研究问题的理论背景和现有的样本数据特征来设定空间回归模型,是实现模型正确设定的首要一步。在一般的经济学问题研究中,都会有相关的理论背景,这些理论背景包括设计该问题研究的学说、假说以及问题的内在逻辑等,这些理论背景是完成空间回归模型设定的重要基础。一般来说,建模者需要依据实际经济理论和问题内在逻辑、厘清变量间的内在关系、全面寻找目标变量的影响因素,设计模型的表达式。这里以消费问题研究为例对此进行说明。

在凯恩斯理论框架下可以认为消费是收入的线性函数,即绝对收入假说。杜森贝里在此基础上提出了相对收入假说,该假说认为存在两种效应影响消费水平,即示范效应和棘轮效应。为对此假说进行实证检验,可以在凯恩斯消费函数的基础上设计出能够体现示范效应和棘轮效应特征的计量经济学模型。这就需要熟悉绝对收入假说理论和相对收入假说理论,为节约篇幅,相关理论背景此处不予复述。首先构造凯恩斯消费函数:

其中C为消费,I为收入,β为参数。为体现棘轮效应,当期收入会受到前期收入的影响,此时模型可进一步改设为:

下标t表示时间。若β2显著大于0,则棘轮效应存在。进一步考虑示范效应,此时可构造空间自回归模型:

其中W是空间权重矩阵。如果ρ显著大于0,则示范效应存在。模型(4)即为根据相关消费理论背景所设定的空间回归模型。

在一些实际问题研究中,有可能存在“无理可依”的情形,即没有既成的理论来指导建模,这时可以根据样本数据的特征、通过探索样本数据的规律来构建空间回归模型。这里主要是通过检验变量的空间相关性、考察空间分布信息以及变量间的空间依赖形式来进行探索式建模。更多情形下,可以将理论指导型建模方法和数据探索型建模方法结合起来,这样可以使得模型更为客观且容易发现新问题。例如,在上述基于相对收入假说构建的空间回归模型中,可以进一步考察收入的空间相关性问题——这是有必要的,因为收入水平常出现空间集聚现象,这或许可以发现有关收入-消费的一些新问题。

4.2 用另一空间回归模型替代

在一些模型的构建过程中,可能会因为种种原因而无法构造出原有的正确模型,这时选择合适的空间回归模型在一定程度上可以缓解甚至解决模型设定偏误的影响。例如,在构建统计模型时,可能会遗漏一些变量,这些变量可能是次要因素而不必要列入模型中,也可能是主要因素但无法观测而不得不舍弃,更或是建模者的水平有限而造成模型误设。如果模型遗漏的变量存在有空间自相关,一般可以考虑设定空间杜宾模型来加以修正。

为说明这一问题,本文设定一个空间回归模型,不妨假设某一因变量y完全可以由两个解释变量x和z来解释:

其中W是空间权重矩阵,此线性空间模型很容易求解参数β、θ。若变量z被“遗漏”,那么z的信息被归并到模型随机项之中。此时,参数θ因z被遗漏而不存在,需要估计的参数为β。显然,直接估计模型“y=xβ”无法得到β的正确估计结果。另外,直接使用空间误差模型(将变量z的空间形式带入到回归模型中并适当化简即可得到空间误差模型的形式,变换过程略):

也不能估计出正确的β,因为此时没有考虑x与u相关性——现实中由于x与u很可能相关(因为x和z很可能相关),此时β的估计量可能有偏且不一致。考虑到x与u的相关性,不妨假设为简单线性相关:

在此情形下,可以在模型(6)的基础上进一步将模型改写为:

稍做变换即可发现,此即为空间杜宾模型:

此时随机项ν和解释变量x不相关。模型(7)参数ρ、-ρβ都是可估计的,且得到的都是一致估计量,因而参数β也可估计且是一致估计量。因此,空间杜宾模型可以解决遗漏具有空间相关性的变量的影响,这可以得到参数的正确估计结果进而优化此类模型的设定效果。

4.3 借助于统计检验

判断空间回归模型设定的合理性,一个重要的手段就是进行统计检验,即所谓的模型设定检验。模型设定检验通常是一种事后检验方法,即将模型形式设定出以后,通过已知的样本数据信息检验判断模型设定是否合理。一个常见的模型设定问题是,到底是选择SAR模型还是选择SEM模型更为合理?为此,Anselin(1988)提出了针对SAR模型的检验方法,它是通过构造拉格朗日乘数(LM统计量)来完成,简记为LM-Lag检验,此检验可判断是否应该将模型设定为SAR形式。Burridge(1980)提出了针对SEM模型的LM统计量,即所谓的LM-Error检验,用来判断是否应该将模型设定为SEM的形式。对于SEM模型是否存在遗漏变量问题,可以使用Hausman检验来加以判断。用于直接或间接判断空间回归模型的统计检验方法较多,此处不再细述。

4.4 针对特定问题的模型形式

在诸多形式的空间回归模型中,有些模型是针对于一些特定问题研究的,或者说针对于某一特定问题,只能用某类特定的空间回归模型。在这些问题研究中,如果能熟悉问题和模型之间的联系,那么设定出正确的回归模型便相对容易。

例如,用于研究局部空间问题的空间地理加权模型(GWR):

其中βi表示与位置i对应的参数。Wi是n×n的加权矩阵,主对角线上的每个元素都是关于观测值所在位置j与回归点i的位置之间距离的函数,其作用是权衡不同空间位置j(j=1,2,…,n)的观测值对于回归点i参数估计的影响程度,非主对角线元素全部为0。运用最小二乘法可得到参数βi的估计量:=(XTWiX)-1XTWiy,这样,对于不同的观测区域可以得到不同的参数估计结果,以展示不同观测区域之间的差异性。因此,当研究局域空间依赖性、考察不同区域的差异性及空间变动特征时,通常考虑设定GWR模型。

再例如,在贸易领域,经济体之间的空间距离是影响双边贸易的重要因素。一种理论认为,经济体之间的单项贸易流量与它们各自的经济规模成正比,与它们之间的距离成反比。由此观点构造出著名的空间引力模型:

上述模型是LeSage和Pace(2008)在有关理论基础上构造的。这里假设有n个样本区域,每个样本区域都既是“来源地”又是“目的地”,这样就会有N(N=n×n)组观测数据。模型中,被解释变量y是N×1阶列向量;解释变量X是N×k阶矩阵;D是由“来源地”到“目的地”的距离构造的N×1阶矩阵;lN是N个1组成的列向量;ε为服从经典假定的随机扰动项;下标“o”代表“来源地”,下标“d”代表“目的地”;α、βd、βo及γ为待估参数。空间引力回归模型是研究双边乃至多边贸易影响关系的重要工具,它在研究地域贸易关系时非常有用,因为相关区域的路径距离是影响贸易的重要因素之一。这也正是新经济地理学的核心思想。因此,在区域经济贸易问题的研究中通常考虑设定此模型。

5 总结与思考

模型设定问题一直是应用计量经济学中一个重要的议题,模型设定正确与否关系到整个应用研究的成败。空间回归模型较经典回归模型更为复杂,因为其考虑了区域个体间的依赖关系,因而在设定过程中需要考虑更多的影响因素。本文重点在SAR模型、SEM模型和SDM模型基础上,讨论分析了未考虑空间因素或未完全考虑空间因素、遗漏重要解释变量、选择了错误的模型结构等空间回归模型设定偏误的不良后果,这些设定偏误在实际问题研究中较为常见,对这些设定偏误的分析有助于警示建模者尽量避免这些类型的设定偏误。对于如何设定出正确完善的空间回归模型,现实中还没有切实的理论可循,但可以针对于一些较具体的情形总结出一些经验方法。本文在讨论空间回归模型设定偏误的基础上进一步提出了“理论结合数据”、“使用可替代的空间回归模型”、“借助于统计检验”以及“使用特定模型”等一些来源于建模实践的设定出正确空间回归模型的思路与方法,通过结合实际经济问题、推演论证,证明这些思路与方法是可行的,有助于实现空间回归模型的正确设定。

当然,实现空间回归模型正确设定的方法也不仅局限于本文所提出的,本文也只是对一些常见的、主要的设定方法概而述之,在警示空间回归模型存在错误的设定形式会造成不良后果的同时,进一步提出问题的解决思路与方向,但这并不能形成理论体系或者教条,实际上在很多情况下仍需要具体问题具体分析。如何在实际应用中提高空间回归模型的设定效率、改进模型设定效果,仍需要进一步的探索研究。但目前的情况是,人们对这一问题并没有太多的关注,原因有两点:一是模型设定问题的研究没有既成的理论框架,也难以形成理论框架,更多的需要结合研究经验;二是模型设定问题是一个边缘化的问题,它似乎既不属于空间回归模型的理论研究,也不属于应用研究。人们更愿意在已有理论框架的学术领域或在实际应用领域进行研究探索,但这些并不说明空间回归模型设定问题不重要,相反,空间回归模型设定方法是将空间回归模型理论成功应用于经济问题实践的桥梁。

另外,本文重点讨论的是空间回归模型形式设定问题,是在假设空间回归模型已存在合理的空间权重矩阵的基础上完成的研究,而事实上空间权重矩阵的形式与构造也是空间回归模型设定的一个重要议题,虽然文献中已有很多关于空间权重矩阵构造的理论与方法,但在实际应用中仍显欠缺与不足,空间权重矩阵的设定也是需要进一步讨论的方向。

[1]Anselin L.Lagrange Multiplier Test Diagnostics for Spatial Dependence and Spatial Heterogeneity[J].Geographical Analysis,1988,20(1).

[2]Burridge P.On the Cliff-Ord Test for Spatial Autocorrelation[J].Journal of the Royal Statistical Society B,1980,42(1).

[3]Pace R K,LeSage J P.A Spatial Hausman Test[J].Economics Letters,2008,101(3).

[4]LeSage J P,Pace R K.Spatial Econometric Modeling of Origin-destination Flows[J].Journal of Regional Science,2008,48(5).

[5]Anselin L.Thirty years of spatial econometrics[J].Regional Science,2010,89(1).

[6]LeSage J,Pace R K.Introduction to Spatial Econometrics[M].UK:Taylor&Francis Group,2009.

猜你喜欢
偏误建模形式
2022 年本刊可直接使用缩写形式的常用词汇
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
初级对外汉语读写教学过程中偏误的成因及对策研究
小议过去进行时
微型演讲:一种德育的新形式
偏误分析内涵探究及应用
基于PSS/E的风电场建模与动态分析
搞定语法填空中的V—ing形式
偏误分析的意义与局限
IDEF3和DSM在拆装过程建模中的应用