基于MCMC算法的贝叶斯分位数回归

2019-06-11 05:48陆妍
财讯 2019年6期
关键词:分位数回归

陆妍

摘要:分位数回归主要描述自变量x和因变量丫的分位数之间的线性关系,不仅能够度量回归变量对因变量分布中心的影响,而且也能够度量回归变量对分布上尾和下尾的影响,因此比经典的最小二乘回归法更具有优势。

关键词:分位数回归;贝叶斯定理;马尔科夫链蒙特卡洛;非对称拉普拉斯分布

一、研究背景

回归分析一自以来都是社会科学定量研究领域的重点内容,使用回归分析的基本目的是为了揭示因变量和自变量之间的关系,模型主要是条件均值模型。在实际应用中我们会发现条件均值模型具有许多的局限性,通常在模型中需要假设随机扰动项是服从均值为零且同方.差的分布。但是在实际生活中,这些假设是很难被满足的,为了弥补普通最刁仁乘法在回归分析中的缺陷,Koenker和Bassett(1978)将均值回归模型扩展到了因变量的条件分位数模型,首次提出了分位数回归的思想。

随着贝叶斯推理在广义线性模型的使用越来越广泛的时候,研究者们发现贝叶斯方法相对于古典推断存在很大的优势。MCMC方法的应用也越来越广泛,即使是在复杂的情况下,MCMC方法依然可以获得人们感兴趣的所有参数的后验分布。结合这些优点,贝叶斯理论便能与分位数回归完美的结合起来,很好的发展了分位数回归模型。

二、分位数回归

分位数回归(Quantile Regression)由Koenker和Bassett在1978年提出,它主要描述自变量X和因变量Y的分位数之间线性关系。设随机变量X的分布函数为F,对任意0<τ<1,称F-1(τ)=inf{x:F(x)≥τ}为X的τ-分位数。

三、非對称拉普拉斯分布(LAD)

定义:称随机变量X服从非对称普拉斯分布,若其密度函数为:,记为X~ALD(μ,σ,τ),对应的分位数函数为:机变量X在τ处的分位数等于位置参数μ,即F-1(x;μ,σ,τ)|x=τ=μ,这是ALD可以作为分位数回归模型误差分布的重要依据。

四、贝叶斯估计的基本原理

(1)贝叶斯定理

对于给定的观测数据集y,β的条件分布为:p(β|y)=p(y|β)p(β)/p(y),由于当样本数据给定时p(y)为常数,与参数β无关,因此上式可以写为:p(β|y)∝p(y|β)p(β),上式称为贝叶斯定理,p(β)为参数β的先验信息。给定y下的β的似然函数为:L(β|y)=∏i=1np(yi|β)=p(y1,y2,…,yn|β)=p(y|β),则贝叶斯定理可以写成:p(β|y)∝L(β|y)p(β)。

(2)后验分布

先验信息与样本信息相结合得到后验信息,后验密度综合了所有参数的先验信息和样本信息,是贝叶斯统计推断的基础,若后验密度非标准形式,其分布特征可以通过模拟抽样技术得到。

(3)MCMC方法

MCMC方法是从函数f(·)抽取一个马尔科夫链X1,X2,……,然后用抽样均值近似总体期望μ=Eπ(f(Xi))其中π为其稳定分布。如果密度函数f(x1,x2,…,xn)=f(X1)∏i=2f(xi|x1,x2,…,xi-1)等式的各个条件密度不可以自接模拟得到,或者参数分布函数是非标准形式,可以在非参数空间上构造一个马尔科夫链,使其稳定分布为目标分布,这样只要马尔科夫链收敛,其抽样均值就是来自目标分布的扣孵羊序列,这种刊时羊算法称为MCMC抽样算法。

五、分位数回归、ALO、贝叶斯估计相结合

求解分位数回归系数是最小化损失函数:。在模型:y=x'β+ε中假定ε~ALD(0,σ,τ),则y~ALD(x'β,σ,τ),则样本的似然函数为:则在特定的分位数τ下,(1)式的极小化损失函数与(2)式的极大化似然函数是等价的,因此分位数回归的参数估计值可以通过优化似然函数得到,由于(2)式连续但不可导,对参数求导没有解析解,在这种情况下采用MCMC模拟的方法得到参数的后验分布。评估系数和尺度参数的先验密度为f(β)、φ(σ),参数的联合后验密度为p(β,σ|y)∝L(yi;xi',σ,τ)f(β)φ(σ)。

参考文献

[1]曾惠芳,朱慧明.基于MCMC算法的贝叶斯分位回归计量模型及应用研[D]湖南大学,2011.

猜你喜欢
分位数回归
新常态下我国城乡居民代际收入流动性分析
县域产业园区经济发展对城镇化的影响
中国农村居民消费函数的实证研究
支农贷款影响农户收入增长的路径分析
企业员工情绪劳动问题的统计研究
家庭债务变动对婚姻不稳定性的影响
制度软化、公众认同对大气污染治理效率的影响
流动人口家庭与城镇家庭的消费差异
税收政策影响居民消费水平的区域效应研究基于省级面板数据的分位数回归分析
我国城乡居民收入不平等的演变特征