经典非参数回归模型和贝叶斯非参数分位数回归模型的比较

2018-10-09 05:53
统计与决策 2018年17期
关键词:位数贝叶斯显著性

孔 航

(南京理工大学 马克思主义学院,南京 210094)

0 引言

参数回归是最早也是应用最为广泛的一类主流模型,主要是基于抽样方法对样本进行统计研究,使用统计数据对模型中的参数进行估计[1]。但由于参数回归对先验信息的要求过高,如果先验信息较少或错误,则直接导致估计结果不准确[2]。非参数回归模型是计量模型的一次重大变革,该模型只要求知道样本所属类别,可以在先验信息较少或很难获取的情况下进行统计推断,自Bleakley(2004)年首次应用该模型以来得到非常广泛的推广和应用[3]。

传统非参数回归模型虽然能对事物之间关系的基本规律进行较为准确地表述,但对事物发展过程中各个节点等同对待,无法区分部分节点的情况变化[4]。鉴于传统非参数模型的局限性,本文试图基于贝叶斯的基本原理对非参数函数进行分位数处理,从而分析该函数在每个分位点的基本特征,推介一种新的基于贝叶斯法的非参数分位数回归模型,实证研究我国企业的核心竞争力问题。

1 三种非参数回归模型的经典估计方法

1.1 核估计法

根据Kingne(2016)[5]的研究结果,假设所搜集的样本集X和Y共n组,分别为:(Y1,X1),(Y2,X2),…,(Yn,Xn),第i组样本中X和Y的函数关系可以表述为如下形式:

其中α表示Y的条件均值,ε是随机扰动项,假设随机扰动项服从标准正态分布,即ε~(0 ,σ2)。传统方法认为可以以上述公式为基础构建核密度函数K,假设带宽是h,则有如下形式:

对构建的核密度函数进行加权平均处理后的结果为:

Nadaraya(2007)[6]认为可以使用如下形式对核密度函数进行估计:

这种非参数的核密度估计方法实质上就是传统最小二乘法的加权处理。

1.2 多项式估计法

由于核估计是基于加权最小二乘法的估计方法,权重的相对固定性很容易使估计结果出现偏差[7]。多项式法试图在核估计法的基础上对权重进行动态处理,如果函数M在一定范围内属于n阶可导,可以通过无限逼近的方法进行泰勒公式展开[8]。其表达式为:

通过最小化方法可以求出β的估计值:

上述公式向量化的表述公式为:

对上述公式进行最小化求解可以得到β的估计值:

其中X和Y的形式分别为:

1.3 近邻估计法

假设存在正常数k,其范围为大于1且小于n,可以用离观测样本最近的k个观测值进行表述[9]。具体表述为如下形式:

其中Xi表示上述k个最近观测值中的第i个,使用这种最近邻估计法所得到的估计公式的表述形式为:

其中权重w的表述形式为:

近邻估计法主要基于以上加权公式进行变量的测度。

2 三种经典估计方法的对比

利用上述三种经典估计方法进行例证分析,以验证估计结果的精准性。

2.1 核估计法算例

根据前述核估计法的基本原理,构建如下非参数计量模型进行算例分析:

其中解释变量X属于均匀分布,随机扰动项属于正态分布,选取500组作为样本数据输入,进行800次模拟计算,计算结果见图1,其中实线表示Y的实际值,虚线表示Y的估计值。从图1估计结果可以看出,核估计法在一定程度上可以对Y值进行较为准确的估计,但是在很多地方出现较大的偏差,实际值和估计值的拟合度并不太理想。

图1核估计法算例分析结果

2.2 多项式估计法算例

根据前述核估计法的基本原理,构建如下非参数计量模型进行多项式算例分析:

同样解释变量X属于均匀分布,随机扰动项属于正态分布,为了保证估计结果的可比性,仍然选取500组作为样本数据输入,进行800次模拟计算,计算结果见图2,其中实线表示Y的实际值,虚线表示Y的估计值。从图2估计结果可以看出,多项式估计法在一定程度上也可以对Y值进行较为准确的估计,但是在很多地方也出现较大的偏差,实际值和估计值的拟合度也不是很理想。

图2多项式估计法算例估计结果

2.3 近邻估计法算例

根据前述核估计法的基本原理,构建如下非参数计量模型进行近邻估计法算例分析:

同样解释变量X属于均匀分布,随机扰动项属于正态分布,为了保证估计结果的可比性,仍然选取500组作为样本数据输入,进行800次模拟计算,计算结果见图3,其中实线表示Y的实际值,虚线表示Y的估计值。从图3估计结果可以看出近邻估计法在一定程度上也可以对Y值进行较为准确的估计,但是在很多地方也出现较大的偏差,实际值和估计值的拟合度也不是很理想。

图3近邻估计法算例估计结果

通过对上述三种传统的估计方法进行算例分析演算,认为传统估计方法可以在很大程度上对被解释变量进行较为准确的估计。但是由于传统算法实质上就是加权最小二乘法的应用,对变量权重的设定相对固定,无法根据变量的重要程度调整权重,因此对模型中出现的动态变量适应性较差,在估计过程中出现实际值和估计值较大偏差现象。所推介的基于贝叶斯法的非参数分位数模型可以通过分位数的多次估计来解决上述问题。

3 贝叶斯法的非参数分位数模型推导

由于传统非参数估计方法对变量权重的相对静态设定,使该方法的应用出现很大局限,贝叶斯估计是基于贝叶斯定理对先验信息的一种估计,而且贝叶斯估计法可以进行迭代处理,即可以利用根据贝叶斯定理得到的新信息迭代处理后得到进一步的信息,因此对数据的处理过程更科学[10]。但是贝叶斯法在处理过程中仍然面临变量权重的问题,而根据不同的分位数设定不同的权重具有较强的合理性[11]。因此本文接下来基于贝叶斯原理进行分位数回归来推导非参数模型。

3.1 贝叶斯非参数分位数模型的构建

传统的非参数模型的基本公式表达方式为:

该公式可以对事物之间关系的基本规律进行较为准确地表述,但对事物发展过程中各个节点的情况无法把握,这里基于贝叶斯基本方法对非参数函数进行分位数处理,从而分析该函数在每个分位点的基本特征,拓展的分位数非参数模型的基本形式如下:

其中QYij表示Yij的分位数,x表示样本个体的观测值,α和β是个体向量,z是相应的协变量。这里需要对随机扰动项ε进行以下基本假设:

如果能够知道先验信息p,则可通过以上分位数公式进行求解,先验信息p的表达式为:

其中Vk是独立同分布变量且服从Beta(ak,bk)分布,根据以上推导[9]构建如下非参数贝叶斯分位数模型:

3.2 简化贝叶斯非参数分位数模型的求解过程

由于似然估计法根据似然最大化的基本原理对估计结果的精准性预测较高[12],这里,使用似然函数的方法求解,其似然函数的公式为:

由于该公式包含(2M)N项需要计算,即使M和N很小,计算量也非常庞大,为了减轻计算负担,对上述公式进行拓展研究,引入潜变量G和H,则可以把上述公式改写为:

其中Cat表示变量的分布类型,此时上述公式的似然函数则可简化为:

该似然函数公式从原来的(2M)N项减少为现在N项,大大减轻了计算压力。基于贝叶斯的基本方法对非参数函数进行分位数拓展研究,可以大大提高运行速度。

4 模型的可信度:Gibbs抽样算法校准

由于基于贝叶斯定理的分位数回归模型对初始值的要求较高,如何选择初始值对估计结果的准确性有较大影响[13]。可以通过选定初始值然后进行逐步校准,如果得到的校准结果可以通过显著性检验表明所选定的初始值具有较高的可信度[14]。为了验证所构建的拓展的非参数函数的可信度,通过Gibbs抽样算法进行校准,对潜变量G和H进行推导,潜变量的条件密度函数为:

其联合密度函数的形式可以表述为:

根据贝叶斯的基本原理可以分别得到潜变量G和H的条件后验分布形式为:+B0b0,α的表达形式为:

由于构建的基于贝叶斯的非参数分位数回归模型通过先验信息V的方式进行计算,而不是直接计算,如果先验信息V可靠,则可以得出较为可靠的结论[15]。先验信息V的密度函数形式为:

上述密度函数的分布又可以写成以下形式:

同时对ϕ的形式设定如下:

把上述公式等价转化后可得ϕ的分布形式为:

以上推导表明所有潜变量和先验信息均属于较为常见的分布形式,因此,可以通过Gibbs抽样算法进行逐步计算从而对模型的可信度校准,基本步骤为:首先,设定一个初始值 Θ0,利用β的分布形式π(β|y,Θ-β)求出β值,利用α的分布形式π(α|y,Θ-α)求出α值,利用G的分布形式π(G|y,Θ-G)求出G值,利用H的分布形式π(H|y,Θ-H) 求出H值,利用μ的分布形式π(μ|y,Θ-μ)分别求出μ1g和μ0g值,利用σ的分布形式π(σ|y,Θ-σ)分别求出σ1g和σ0g值,利用ϕ的分布形式π(ϕ2|y,Θ-ϕ2)求出ϕ2值,利用V的分布形式π(V|y,Θ-V)求出V值。根据以上步骤对新构建的基于贝叶斯的非参数分位数回归模型进行抽样校准,校准结果见表1。从表1的结果可以看出当初始值为0.1、0.5、1.0、1.5、2.0和2.5时t值都在0.01的显著性水平下通过检验,表明所构建的基于贝叶斯的非参数分位数回归模型具有较高的可信度,Gibbs校准效果较好。

表1 基于贝叶斯的非参数分位数回归模型校准结果

5 数值样例的演算和对比

为了论证本文所构建的基于贝叶斯定理的分位数非参数回归模型的精准性,本文使用相同的样本进行算例比较分析,由于不同的估计方法对数据的处理过程存在较大差异,通过对各变量消除度量单位进行无量纲化处理,以便于更为形象的比较。为了在比较过程中更为清晰地看出结果差异,用表格的形式把估计值列出来。

5.1 经典非参数回归模型的演算

首先使用传统的非参数估计方法再次进行算例分析,对我国企业的核心竞争力进行定两测度,使用我国年营业额超过5000万的大中型企业作为研究样本,数据来源于2000—2017年《中国大中型企业竞争力发展报告》。核估计法、多项式估计法和近邻估计法的测度结果见表2,从估计结果来看,大部分结果都通过了显著性检验,但没有一个结果在1%显著性水平上通过检验,还有部分结果没有通过显著性检验,说明传统非参数估计方法需要进一步改进。

表2 企业核心竞争力的传统估计方法回归结果

5.2 贝叶斯非参数分位数回归模型的演算

与经典的非参数回归模型不同,贝叶斯非参数分位数回归模型的关键是选取初始值,这里通过蒙特卡洛模拟选取初始值,使用以下公式生成相应数据:,在蒙特卡洛模拟过程中对先验信息的选取规则为N(0,100I),Gibbs抽样次数为1000,进行500次蒙特卡洛模拟,模拟的均方差(MSE)为:,使用蒙特卡洛进行500次的模拟,从模拟结果来看0.3分位数的最优次数最多,初始值为0.6时为最佳选择标准,所以本文最终选择0.6为初始值进行实证研究。

根据Kjhege(2017)[10]的研究结论,企业的核心竞争力与其所处的发展阶段具有非常密切的关系,他把这种现象称为企业的生命周期,因此企业的核心竞争力和企业的发展阶段不是线性关系,而是二次项形式,这里设定如下三种模型研究企业的核心竞争力:

模型1:普通非参数分位数回归模型

模型2:带截距的非参数分位数回归模型

模型3:带截距和斜率的非参数分位数回归模型

使用蒙特卡洛模拟的最优分位数0.3和最佳初始值0.6为标准,分别使用三个不同模型对我国企业2000—2017年的核心竞争力进行非参数分位数回归分析,企业标准化的核心竞争力回归结果见表3,从回归结果来看,所有模型在所有年份都通过了显著性检验,表示使用所构建的非参数分位数模型的回归结果较为理想。从数值大小来看,模型1的数值相对较大,模型3的数值相对较小,模型2的数值介于模型1和模型3之间,可能是因为模型2加入了截距变量,模型3加入了截距和斜率变量,从而更能接近实际。估计结果表明我国企业2000—2017年核心竞争力的发展趋势,总体来看处于较为明显的上升阶段,表示我国企业的核心竞争力还有很大的发展空间,目前处于拐点左侧的上升发展区间,在2008—2009年金融危机期间有小幅下滑。

表3 企业核心竞争力的非参数分位数回归结果

5.3 结果对比分析

核估计法、多项式估计法和近邻估计法的测度结果大部分都通过了显著性检验,但没有一个结果在1%显著性水平上通过检验,还有部分结果没有通过显著性检验,说明传统非参数估计方法在进行计量验证时偏差相对较大需要进一步改进。本文所构建的基于贝叶斯的分位数估计方法在所有模型在所有年份都通过了显著性检验,而且大部分是在1%显著性水平下通过检验,表明使用所构建的非参数分位数模型的回归结果和传统估计方法相比估计结果的精度大大提高,该方法具有分位点差异性、高效性和可靠性等优点,用此方法进行计量分析所得结果较为理想。比较研究结果论证本文所构建的基于贝叶斯定理的分位数非参数回归模型的精准性。

6 结束语

传统非参数回归模型虽然能对事物之间关系的基本规律进行较为准确地表述,但对事物发展过程中各个节点等同对待,无法区分部分节点的情况变化,本文基于贝叶斯的基本方法对非参数函数进行分位数处理,从而分析该函数在每个分位点的基本特征,构建一种新的基于贝叶斯法的非参数分位数回归模型,并与传统非参数回归模型进行算例比较研究。比较研究结果认为基于贝叶斯法的非参数分位数回归该模型具有以下优点:第一,分位点差异性。该模型有别于传统非参数模型,可以对每个分位点的差异进行分析,可以根据需要设定分位点通过模型测度分位点的优劣,从而确定最优分位点。第二,高效性。该模型从传统非参数模型的(2M)N项减少为现在N项,大大减轻了计算压力,基于贝叶斯的基本方法对非参数函数进行分位数拓展研究,可以大大提高运行速度。第三,可靠性。通过Gibbs法对新构建的基于贝叶斯的非参数分位数回归模型进行抽样校准,发现校准结果较为理想,通过蒙特卡洛模拟选取初始值进行回归的精度较高。

猜你喜欢
位数贝叶斯显著性
对统计结果解释和表达的要求
基于贝叶斯解释回应被告人讲述的故事
连续自然数及其乘积的位数分析
本刊对论文中有关统计学表达的要求
基于动态贝叶斯估计的疲劳驾驶识别研究
基于显著性权重融合的图像拼接算法
基于互信息的贝叶斯网络结构学习
比大小有窍门
遥感卫星CCD相机量化位数的选择
IIRCT下负二项分布参数多变点的贝叶斯估计