基于半参数模型的插补方法研究

2015-02-13 01:25庞新生
关键词:样本量方差变量

庞新生,李 萌

(北京林业大学 经济管理学院,北京 100083)

基于半参数模型的插补方法研究

庞新生,李 萌

(北京林业大学 经济管理学院,北京 100083)

数据缺失是在数据收集中普遍存在的现象,因而缺失数据的插补问题就成了数据分析领域的重要命题.常用的插补模型有参数模型、非参数模型和半参数模型,其中关于半参数模型的研究较少,考虑到半参数模型的优越性,文章将半参数回归模型与插补方法相结合,利用最小二乘核估计构建半参数模型,再利用辅助变量对目标变量进行估计来建立缺失数据的插补数据集,进而实现缺失数据的插补,并通过案例探究该方法的实现及其可行性.

缺失数据;插补方法;半参数模型

通常情况下,在统计研究过程中研究人员都假设用于研究的数据分布是明确的,不存在缺失数据和不正确的值,然而,事实上并不是这样的,在数据的收集和整理过程中由于各种可控和不可控的原因往往会造成数据的缺失,这使得实际得到的数据与可用于模型处理的数据之间存在很大的差距,这一现象对统计质量的影响是显著的.缺失数据不仅会增加研究的复杂性,还会造成推论中估计的偏差增大,从而使得研究结果缺乏说服力.因此,需要采用一定的方法对数据缺失的现象进行补救.常用的补救方法主要包括加权调整、插补和参数似然估计等,加权调整主要用于处理调查中单位无回答,插补主要用于处理项目无回答,参数似然估计法不受无回答类型的限制,但要求知道数据分布.本文主要就插补方法进行讨论,插补方法的优劣取决于插补模型的选择,合理选择插补模型有助于提高插补效率.常用的插补模型有参数模型、非参数模型和半参数模型,半参数模型将参数模型与非参数模型相结合,这使得模型既解决了单纯的参数模型与非参数模型难以解决的问题,增强了模型的适应性;又克服了非参数模型信息损失过多的问题,能够在充分利用数据的同时更接近于真实,具有极强的解释能力.

1 国内外研究现状

半参数模型在20世纪80年代提出并发展起来,它弱化了建立线性或非线性回归模型的假设条件,同时克服了非参数方法中信息损失过多的问题,在处理数据时能更充分地利用数据提供的信息及经验,对实际问题的描述更接近于真实,有着广泛的应用前景,受到了许多学者的关注.

目前国内外文献中讨论的插补方法,主要是通过建立参数模型实现的,而有关非参数模型和半参数模型下的插补研究的文献很少,主要研究集中在对数据缺失情况下半参数模型的估计及估计量性质的探讨.Wang Qihua,Zheng Zhongguo(1997)针对观测值存在右侧随机删失的情况,讨论了半参数回归模型中参数部分和非参数部分的性质.Wang Qihua, Oliver Linton和 Wolfgang Härdle(2004)分析了当数据存在随机缺失时,半参数模型的边际平均估计量和倾向得分加权估计量的渐进正态性.Chen Xiaolin,Wang Qihua,Cai Jianwen和Viswanathan Shankar(2012)建立了一个通用的半参数边际税率回归模型,并证明了所提出估计的一致性和渐近正态性;并利用这一模型对生物医学研究中的多类型复发事件做了相关研究,其中也有对存在数据缺失情况的相关研究.王启华(1995)针对被解释变量因受某种随机干扰而被右截断的情况,对半参数模型的相合性进行了讨论.齐化富(2006)针对存在缺失数据的情况,用经验似然法对线性模型和部分线性模型(半参数模型)做了研究,得到经验似然置信区间.罗双华等(2007,2008)对缺失数据下半参数回归模型的渐近性质和局部线性光滑做了讨论,并给出了相应的证明.范承华,薛留根(2008)针对响应变量存在缺失的半参数回归模型,对未知参数构造了经验对数似然比统计量,并与最小二乘法进行了优劣比较.刘妍(2009)针对数据缺失的情形,结合缺失机制、缺失方式和对缺失问题的处理方法,研究了目标变量满足MAR缺失机制时半参数回归模型的二阶段估计及估计量的渐近性质.裴晓换(2011)利用最小二乘法和一般的非参数权估计方法,对随机缺失和固定设计下的半参数回归模型进行了估计;并在较弱的条件下,证明了参数向量、非参数部分及误差方差的强相合性.

将半参数模型与插补方法相结合的讨论很少,比较有代表性的有:Lipsitz,N.R.等(1998)将半参数方法引入了多重插补中;Scharfsten,Rotnitzky和Robins(1999)利用半参数回归模型对不可忽略的缺失数据进行了调整;Qin,Leung和Shao(2002),Tang,Little和Raghunathan(2003)分别提出了两种不同的半参数方法用于处理不可忽略缺失机制下缺失数据问题;Qin Yongsong,Zhang Shichao,Zhu Xiaofeng,Zhang Jilian和Zhang Chengqi(2007)对半参数模型下的插补方法做过讨论;尽管对半参数插补的介绍很少,但考虑到半参数模型所具有的优势,对这一方法的研究有助于插补方法的完善和进一步发展.

2 基于半参数模型的插补方法

如果针对一个数据集可以建立适当的参数模型,或研究者可以为数据集指定正确的参数模型,那么基于参数回归模型的插补方法是较优的选择.如果研究者指定的模型是错误的,参数估计的结果就会有较大的偏差.当研究者对数据集的实际分布情况并不了解时,非参数插补是一个很好的选择.非参数插补法最初是基于大样本的情况提出的,是通过掌握数据集的结构得到近似真值的插补值,然而这种方法会损失过多的信息,并且不适用于高维度的数据集.考虑到半参数模型兼顾了参数模型与非参数模型优点而具有更强的适应性和解释能力,可以将半参数模型用于插补方法中.

2.1半参数回归模型

半参数模型于1977年由Stone提出的,模型的具体形式如下:

(1)

2.2半参数回归模型的估计

本文采用最小二乘核估计的方法对模型进行估计,令K(·)为核函数,h=hm为窗宽序列,h随着样本量的增加而逐渐减小,当n趋近于∞时,窗宽趋近于0.式(1)经过变化后得到:

(2)

假设B是已知的,利用完全数据Sr和线性回归模型的理论估计B,得到g(x)的最终估计为:

.

(3)

2.3核函数和窗宽的选择

对于核估计,可以分为核函数的选择和窗宽的选择两部分.其中,核函数的作用是消除随机因素的影响,使模型能够反映变量间的实际关系.在半参数模型的推导中常用的核函数有:均匀核函数、高斯核函数、多项式核函数以及抛物线核函数.事实上,在MAR和MCAR的假设下,抛物线核函数的估计效果相对更好一些(叶阿忠,2003),因此本文中选择抛物线核函数对模型进行估计.

2.4缺失值的插补

(4)

(5)

其中,

式(4)和式(5)代表的是两个插补数据集,且它们具有相同的收敛性质.基于半参数模型的单一插补法,就是利用式(4)或式(5)为缺失数据估计一套可能值进行插补,其中利用式(5)构建的插补数据集的方法带有随机误差项,也可以称为基于半参数模型的随机插补法.

2.5估计量及其性质

对缺失数据进行插补后,我们可以得到插补后完整的数据集,通过对插补后目标变量的一些性质与原始数据得到的结果进行比较,来分析插补方法的优势.一般情况下,通过计算插补值的均方误差可以了解基于半参数模型估计出的插补值是否近似于真值.具体的计算公式为:

(6)

(7)

3 案例实现

依据上述理论,下面通过两个案例说明半参数回归模型的优越性以及基于半参数模型的插补方法的效率,案例1基于原始数据的分布未知,案例2基于已知分布.

案例1一组原始数据(Y,X1,X2,X3,X4,X5),样本量n=30,具体数据见来源于http://wenku.baidu.com/link?url=aLGJM5x6a4LOFSFZNIcIDTs9WpxYk8guwqpmZlLtZBl-9Kxjtd4aUR5fxqBnTUzv5uHZhnXwU-garmQw-sLEPLH9zFEsz3uHW9etmhv9Bpu.

运用随机数表,采用模拟方法随机抽取Y中的数据删除,构造符合随机缺失的数据集.由于数据的缺失会造成变量间的相关性发生变化,在相同缺失率情况下,建立线性模型进行拟合估计时,某些变量的系数没有通过检验需要被剔除,此时可以考虑用半参数模型进行估计,将未通过检验的变量作为非参数部分可以避免信息的损失.在本例中,由于半参数模型中g(·)的函数形式未知,无法进行估计,需要先对这部分进行插补.考虑到最近距离插补是对非参数模型进行插补的一种常用方法,本文选用这一方法对模型中非参部分进行插补.采用欧氏距离计算目标变量Y的辅助变量间的距离,选择距离最近的有回答单元所对应的g(·)值作为非参部分的估计值.分别考虑缺失率不同的几种情况下,基于半参数模型进行插补后Y的分布情况和插补值的均方误差.

情况1:目标变量的缺失率为10%,此时样本量n=27.对Y建立半参数方程,拟合结果为:

Y=2.556 0X1+2.424 4X2+3.460 7X3+1.137 7X4+g(X5)

拟合后的R2=0.905 4,方程的拟合效果较好.

情况2:目标变量的缺失率为20%,此时样本量n=24.对Y建立半参数方程,拟合结果为:

Y=2.401 6X1+2.493 1X2+3.709 4X3+1.222 8X5+g(X4)

拟合后的R2=0.902 2,方程的拟合效果较好.

情况3:目标变量的缺失率为30%,此时样本量n=21.对Y建立半参数方程,拟合结果为:

Y=2.553 5X1+2.311 6X2+3.652 2X3+1.092 2X5+g(X4)

拟合后的R2=0.895 9,方程的拟合效果较好.

情况4:目标变量的缺失率为40%,此时样本量n=18.对Y建立半参数方程,拟合结果为:

Y=2.882 6X2+3.573 2X3+1.219 0X4+1.721 2X5+g(X2)

拟合后的R2=0.880 1,方程的拟合效果较好.

情况5:目标变量的缺失率为50%,此时样本量n=15.对Y建立半参数方程,拟合结果为:

Y=2.453 4X2+3.533 4X3+0.309 2X4+2.367 4X5+g(X1)

拟合后的R2=0.955 0,方程的拟合效果较好.

为了进一步进行比较,再考虑这五种缺失率情况下,利用回归插补处理后Y的分布情况和插补值的均方误差.缺失率为10%,20%,30%,40%,50%时的回归模型分别为:

Y=2.810 8X1+2.406 8X2+3.517 8X2+1.467 1X4+1.719 6X5

Y=2.896 0X1+2.801 6X2+4.443 0X3+1.631 7X5

Y=3.203 1X1+2.852 4X2+4.439 3X3+1.525 7X5

Y=3.655 1X1+3.579 9X3+2.437 5X4+2.726 1X5

Y=3.059 7X2+4.526 4X3+1.936 0X4+2.591 1X5

比较在不同缺失率情况下,基于半参数模型的插补方法和回归插补的效果,如表1和表2所示.

表1中的第4列到第8列分别表示缺失率为10%到50%时,利用回归插补和基于半参数模型的插补方法进行插补处理后,描述变量Y的分布情况的统计量.从表1中可以看出,利用回归插补的方法进行插补后,Y的期望和方差都是随着缺失率的增加而增加的,且与根据完整数据得到的计算结果相比偏差是逐渐增大的.利用基于半参数模型的插补方法进行插补后,变量Y的期望会随着缺失率的增加而增加;当缺失率小于30%时,Y的方差随着缺失率的增加逐渐增大,当缺失率大于30%时,Y的方差随着缺失率的增加而减小.插补后Y的期望和方差与真值之间的偏差会随着缺失率的增加而逐渐增大,且当缺失率相同时,小于回归插补法处理后的偏差.另外,考虑分布的峰度和偏度,两种方法对缺失数据进行处理后得到的Y的分布曲线与根据完整数据得到的分布曲线的扁平程度相同,始终为扁平分布;当缺失率为10%,20%和40%时,插补处理后Y的分布曲线与原始数据情况下的偏斜方式相同,当缺失率为30%和50%时,两种方法对缺失数据进行处理后得到的Y的分布曲线都与根据原始数据得到的分布曲线的偏斜方式相反.

表1中的第2列到第6列分别表示缺失率为10%到50%时,利用这两种方法对缺失数据进行插补后插补值的均方误差.从表2中可以看出,利用这两种方法进行插补后,插补值的均方误差会随着缺失率的增加逐渐增大,且在缺失率相同的情况下,利用基于半参数模型的插补方法进行处理后得到的结果始终小于回归插补后的结果.因而,当辅助变量完全已知时,考虑用半参数模型对缺失数据进行估计,能够给出与真值近似的估计值进行插补,且优于回归插补处理后的结果.

案例2:解释变量序列{Zi}独立同分布,随机误差项序列{εi}独立同方差.令Z是在[0,1]上均匀取值且相互独立的变量,X是服从均值为0、方差为1正态分布的相互独立的变量,ε服从均值为0、方差为1正态分布且相互独立.半参数模型为:Yi=Zi+1+sin(8Xi+5)+εi,其中g(x)=1+sin(8Xi+5).令完整数据集为随机抽取的,且满足上述条件及模型的数据集{Yi,Zi,Xi,i=1,2,…,n},其中样本量n=300.

分别考虑当缺失数据满足随机缺失机制时,缺失率为5%,10%,20%,30%,40%,50%的情况,利用确定性半参数模型建立插补数据集对缺失数据进行插补.首先考虑目标变量Y缺失率为5%的情况,此时删除含有缺失数据的样本,样本量为n=285.利用这285组数据对模型进行估计,得到参数B和g(x)的估计.再将含有缺失数据的样本中的Z变量和X变量的值带入估计得到的模型,计算出对应目标变量的估计值作为插补值.按照同样的思路和方法考虑目标变量Y的缺失率为10%,20%,30%,40%,50%的情况,删除含有缺失数据的样本后,样本容量分别为n=270,n=240,n=210,n=180,n=150.利用不含缺失数据的样本对参数B和g(x)的进行估计,再利用得到的结果结合变量Z和变量X计算缺失数据Y的估计值进行插补.进一步可以利用插补后得到的完整数据集计算Y的描述性统计量期望和方差.从表3可以看出,与列表删除后Y的分布情况相比,利用插补后的数据集估计得到的Y的期望和方差与真值之间的偏差较小,Y的分布更接近于原始数据的分布情况.

计算插补值和真值之间的均方误差,发现均方误差始终在0.1的附近上下波动,可以看出估计值与真值较为近似,预测的准确性较高.综上所述,可以得出以下结论:基于半参数回归模型的插补方法优于列表删除的方法,并且变量的缺失率越低(即回答率越高),插补后的估计效果越好.

从上面两个模拟案例可以看出,当缺失数据满足随机缺失机制时,在缺失率为10%,20%,30%,40%,50%的这几种情况下,基于半参数回归模型的插补方法与回归插补相比依然具有优势,估计得到的插补值比回归插补估计的结果更接近于真值.因而将半参数回归模型用于估计插补数据集是可行的,且理论上应当具有更好的效果.

[1] WANG Qihua,ZHENG Zhongguo.Asymptotic properties for the semiparametric regression model with randomly censored data[J].Science in China,1997,40(9):945-957

[2] WANG Qihua,Oliver Linton,Wolfgang Härdle. Semiparametric regression analysis with missing response at random[J].Journal of the American Statistical Association,2004,99(466):334-345

[3] CHEN Xiaolin,WANG Qihua,Viswanathan Shankar.Semiparametric additive marginal regression models for multiple type recurrent events[J].Lifetime Data Anal,2012,18:504-527

[4] 王启华.随机截断下半参数回归模型中的相合估计[J].中国科学,1995,25(8):819-832

[5] 齐化富.缺失数据下两类回归模型的经验似然推断[D].桂林:广西师范大学,2006

[6] 薛留根.半参数回归模型中小波估计的随机加权逼近速度[J].应用数学学报,2003,26(1):11-25

[7] 罗双华,玄海燕.缺失数据下半参数回归模型的局部线性光滑[J].兰州理工大学学报,2007,33(5):151-155

[8] 罗双华,田 萍,蒋红英.缺失数据下半参数回归模型的渐近性质[J].兰州理工大学学报,2008,34(2):155-159

[9] 刘 妍.缺失数据情形半参数回归模型的二阶段估计[D].桂林:广西师范大学,2009

[10] 裴晓换.带有缺失数据统计模型的估计和检验[D].西安:西北大学,2011

[11] QIN Yongsong,Zhang Shichao,Zhu Xiaofeng.Semi-parametric optimization for missing data imputation[J].Appl Intell,2007,27:79-88

[12] 叶阿忠.非参数计量经济学[M].天津:南开大学出版社,2003:180

Study on Missing Data Imputation Based on Semi-Parametric Model

PANG Xinsheng,LI Meng

(College of economics management, Beijing Forestry University, Beijing 100083, China)

Data missing is a common phenomenon. Missing data imputation is an important issue in data analyzing. Parametric model, nonparametric model and semi-parametric model are the common models used to impute missing data. Considering the advantages of semi-parametric model, the essay tries to combine the imputation method with semi-parametric model. Firstly, the essay estimates semi-parametric model through using the least squares kernel estimator. Then covariate vectors are used to estimate the target variable in order to establish a data set that can be used for imputation.

missing data; imputation; semi-parametric model

2015-08-17

基本项目:国家社科基金项目“中国城维护调查一体化数据准确性评估修正研究”(13BTJ021).

庞新生(1970-),男,山西晋中人,博士,北京林业大学经济管理学院,主要从事抽样技术与数据分析研究.

1672-2027(2015)03-0001-06

O212.2

A

猜你喜欢
样本量方差变量
医学研究中样本量的选择
概率与统计(2)——离散型随机变量的期望与方差
抓住不变量解题
也谈分离变量
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十一)
样本量估计及其在nQuery和SAS软件上的实现*——均数比较(十)
方差越小越好?
计算方差用哪个公式
方差生活秀
分离变量法:常见的通性通法