陆妍
摘要:分位数回归主要描述自变量x和因变量丫的分位数之间的线性关系,不仅能够度量回归变量对因变量分布中心的影响,而且也能够度量回归变量对分布上尾和下尾的影响,因此比经典的最小二乘回归法更具有优势。
关键词:分位数回归;贝叶斯定理;马尔科夫链蒙特卡洛;非对称拉普拉斯分布
一、研究背景
回归分析一自以来都是社会科学定量研究领域的重点内容,使用回归分析的基本目的是为了揭示因变量和自变量之间的关系,模型主要是条件均值模型。在实际应用中我们会发现条件均值模型具有许多的局限性,通常在模型中需要假设随机扰动项是服从均值为零且同方.差的分布。但是在实际生活中,这些假设是很难被满足的,为了弥补普通最刁仁乘法在回归分析中的缺陷,Koenker和Bassett(1978)将均值回归模型扩展到了因变量的条件分位数模型,首次提出了分位数回归的思想。
随着贝叶斯推理在广义线性模型的使用越来越广泛的时候,研究者们发现贝叶斯方法相对于古典推断存在很大的优势。MCMC方法的应用也越来越广泛,即使是在复杂的情况下,MCMC方法依然可以获得人们感兴趣的所有参数的后验分布。结合这些优点,贝叶斯理论便能与分位数回归完美的结合起来,很好的发展了分位数回归模型。
二、分位数回归
分位数回归(Quantile Regression)由Koenker和Bassett在1978年提出,它主要描述自变量X和因变量Y的分位数之间线性关系。设随机变量X的分布函数为F,对任意0<τ<1,称F-1(τ)=inf{x:F(x)≥τ}为X的τ-分位数。
三、非對称拉普拉斯分布(LAD)
定义:称随机变量X服从非对称普拉斯分布,若其密度函数为:,记为X~ALD(μ,σ,τ),对应的分位数函数为:机变量X在τ处的分位数等于位置参数μ,即F-1(x;μ,σ,τ)|x=τ=μ,这是ALD可以作为分位数回归模型误差分布的重要依据。
四、贝叶斯估计的基本原理
(1)贝叶斯定理
对于给定的观测数据集y,β的条件分布为:p(β|y)=p(y|β)p(β)/p(y),由于当样本数据给定时p(y)为常数,与参数β无关,因此上式可以写为:p(β|y)∝p(y|β)p(β),上式称为贝叶斯定理,p(β)为参数β的先验信息。给定y下的β的似然函数为:L(β|y)=∏i=1np(yi|β)=p(y1,y2,…,yn|β)=p(y|β),则贝叶斯定理可以写成:p(β|y)∝L(β|y)p(β)。
(2)后验分布
先验信息与样本信息相结合得到后验信息,后验密度综合了所有参数的先验信息和样本信息,是贝叶斯统计推断的基础,若后验密度非标准形式,其分布特征可以通过模拟抽样技术得到。
(3)MCMC方法
MCMC方法是从函数f(·)抽取一个马尔科夫链X1,X2,……,然后用抽样均值近似总体期望μ=Eπ(f(Xi))其中π为其稳定分布。如果密度函数f(x1,x2,…,xn)=f(X1)∏i=2f(xi|x1,x2,…,xi-1)等式的各个条件密度不可以自接模拟得到,或者参数分布函数是非标准形式,可以在非参数空间上构造一个马尔科夫链,使其稳定分布为目标分布,这样只要马尔科夫链收敛,其抽样均值就是来自目标分布的扣孵羊序列,这种刊时羊算法称为MCMC抽样算法。
五、分位数回归、ALO、贝叶斯估计相结合
求解分位数回归系数是最小化损失函数:。在模型:y=x'β+ε中假定ε~ALD(0,σ,τ),则y~ALD(x'β,σ,τ),则样本的似然函数为:则在特定的分位数τ下,(1)式的极小化损失函数与(2)式的极大化似然函数是等价的,因此分位数回归的参数估计值可以通过优化似然函数得到,由于(2)式连续但不可导,对参数求导没有解析解,在这种情况下采用MCMC模拟的方法得到参数的后验分布。评估系数和尺度参数的先验密度为f(β)、φ(σ),参数的联合后验密度为p(β,σ|y)∝L(yi;xi',σ,τ)f(β)φ(σ)。
参考文献
[1]曾惠芳,朱慧明.基于MCMC算法的贝叶斯分位回归计量模型及应用研[D]湖南大学,2011.