纵向非单调缺失数据下部分线性模型的广义经验似然推断

2016-10-18 08:51刘娟芳薛留根胡玉琴
北京工业大学学报 2016年10期
关键词:广义单调线性

刘娟芳,薛留根,胡玉琴,3

(1.北京工业大学应用数理学院,北京 100124;2.河南师范大学数学与信息科学学院,河南新乡 453007;3.浙江财经大学数据科学学院,杭州 310018)

纵向非单调缺失数据下部分线性模型的广义经验似然推断

刘娟芳1,2,薛留根1,胡玉琴1,3

(1.北京工业大学应用数理学院,北京 100124;2.河南师范大学数学与信息科学学院,河南新乡 453007;3.浙江财经大学数据科学学院,杭州 310018)

为了研究纵向非单调缺失数据下部分线性模型的估计问题,基于二次推断函数提出了回归系数和基准函数的广义经验似然比函数,得到了相应的极大经验似然估计.证明了所提出的经验对数似然比渐近于卡方分布,由此构造了相应的置信域和逐点置信区间,模拟研究比较了广义经验似然与正态逼近方法的有限样本性质.

纵向数据;非单调缺失;广义经验似然;二次推断函数

纵向数据在计量经济学和生物医学研究中常常遇到,此类数据集的特点是组间独立、组内相关.考虑来自n个个体的数据,第i(i=1,2,…,n)个个体有ni次观测,总的观测次数为设Yij和 Xij、Tij分别是第i个个体的第j(j=1,2,…,ni)次观测的响应变量和协变量,其中Xij是p×1向量,Tij是数量或时间.本文考虑部分线性模型

式中:β为p×1维未知回归系数向量;g(t)为定义在闭区间[0,1]上的未知光滑函数;εij为随机误差,且满足E(εij|Xij,Tij)=0和假定来自不同个体的观测相互独立.为了表述方便,记Yi=(Yi1,Yi2,…,Yini)T,对Xi和Ti也类似,g(Ti)=(g(Ti1),…,g(Tini))T.

纵向数据的关键问题是如何处理个体观测的组内相关性.You等[1]和Xue等[2]在假定工作独立(即忽略个体内相关性)下,基于Owen[3]提出的经验似然(empirical likelihood,EL)方法分别构造了模型(1)中参数的经验似然置信域.Liang等[4]在广义线性模型下提出了广义估计方程(generalized estimating equations,GEE)方法,通过假定工作相关矩阵并估计其中少量的讨厌参数来得到模型中参数的估计.即使工作相关矩阵错误指定,GEE方法仍能得到参数的相合估计,但是估计的效率降低.为了解决这个问题,Qu等[5]提出二次推断函数(quadratic inference function,QIF)方法,其主要思想是将工作相关矩阵的逆用一些已知基矩阵的线性组合来逼近,避免了对讨厌参数的估计.在工作相关矩阵指定错误情况下,QIF方法比GEE方法更有效.该方法已经成为处理纵向数据的重要工具.Bai等[6]研究了纵向数据下部分线性模型的QIF估计.Qu等[7]将QIF方法用于研究纵向数据变系数模型.这些都是在纵向数据下对QIF的研究,还很少见到将QIF方法用于研究不完全纵向数据的情形,这是本文感兴趣的问题.

近年来,缺失数据问题在应用领域引起人们的普遍关注.从缺失机制上可将缺失数据分为3类:完全随机缺失,是指数据缺失的概率不依赖于任何观测到的或缺失的数据;随机缺失,是指缺失概率只依赖于观测到的数据而与缺失的数据无关;非随机缺失,是指缺失概率依赖于缺失数据本身.从数据缺失模式上,可以分为单调缺失和非单调缺失2种,前者指个体在某一时刻退出试验后再也没有回来,否则是非单调缺失,也称为任意缺失模式.本文研究的是非单调缺失的情形.Robins等[8]提出了逆概率加权广义估计方程(inverse probability-weighted generalized estimating equations,IPWGEE)方法,研究了单调缺失纵向数据下半参数模型中回归参数的估计.Zhou等[9]研究了单调缺失纵向数据下的广义部分线性模型,利用总体水平信息,结合伪经验似然和IPWGEE得到参数分量和非参数分量的估计.Sinha等[10]和Sanjoy等[11]研究了纵向非单调缺失,二者是基于伪似然或似然的方法.本文的想法是用经验似然方法处理非单调缺失纵向数据下半参数模型的估计问题,提出了回归系数的基于QIF的广义经验对数似然比统计量以及基准函数的基于残差调整的经验对数似然比统计量,并证明它们渐近服从χ2分布.最后,模拟研究了所提方法的有限样本性质.

1 回归参数的经验似然

本文考虑响应变量Yi缺失下的模型(1),引入变量δij表示Yij可以观测到的示性函数,即Yij观测到时δij=1,否则δij=0.假定Yij为随机缺失,即

式中π(·,·)未知.式(2)表明在给定协变量Xi和Ti下,δij和Yij条件独立.该假定在实际应用中通常是合理的[12].

注意到

两端取给定Tij下的条件期望,得

下面记

为了构造β的经验似然比函数,提出广义辅助随机向量

式中:Δi=diag{δi1,δi2,…,δini};Vi为含有讨厌参数α的工作协方差矩阵.根据Liang等[4]的研究,这里Ai=diag{Var(Yi1),Ri(α)是一个ni×ni的工作相关矩阵,而工作相关矩阵Ri(α)完全由参数向量α决定.如果工作相关矩阵指定错误,由式(3)得到的估计不再是最有效的估计.为此,Qu等[5]提出QIF方法,其主要思想是把工作相关矩阵的逆用一些已知基矩阵的线性组合进行逼近,即

式中:M1,M2,…,Ms是已知的基矩阵;a1,a2,…,as是未知的常数系数.QIF方法的优点在于不需要估计这些讨厌参数a1,a2,…,as.将式(4)带入式(3),得到的辅助向量

为了避免估计讨厌参数,定义扩展的广义得分向量

首先给出所需要的一些正则化条件.

注 条件C1~C6是文献中经常用的普通条件.条件C1保证不需要欠光滑非参数估计,进而可以用数据驱动的方法选择窗宽.条件C2对核函数的紧支撑的要求仅仅是技术上的假定,在实际应用中可以放宽到使用小尾的核,比如常用的标准Gauss核.条件C4保证了的分母以概率1有界且下确界大于0;再结合条件C3和C5可以保证有高阶的收敛速度.条件C6是基本的假定.

定理1 假设条件C1~C6成立,如果β是参数真值,则有

定理2 假设条件C1~C6成立,那么当n→∞时,有

2 基于残差调整的基准函数的经验似然

定理3 假设条件C1~C6成立,那么

式中:σ2(t0)=ν2(t0)(f(t0))-2;b(t0)和ν2(t0)分别在式(21)和(22)中定义.

类似Xue等[2],如果用Nh2/ln N→∞和Nh5→0代替条件C1,即采用欠光滑的方法,偏差项b(t0)就不存在了.

定理4 假设条件C1~C6成立,如果g(t0)是基准函数真值,则

3 模拟

模拟产生500个数据集,每个数据集包含n= 100个个体,并且每个个体观测5次.考虑部分线性模型

应用广义经验似然(generalized empirical likelihood,GEL)以及正态逼近(normal approximation,NA)给出参数β1、β2的置信域,模拟结果见图1.

从图1可以看出,GEL给出了比NA更小的置信域,且GEL的覆盖概率为0.942,而NA的覆盖概率为0.939,这说明了GEL比NA给出的置信域精度更高.

对非参函数g(t),比较REL和NA.模拟结果见图2、3.

从图2、3可以看出,残差调整的经验似然明显优于正态,因为REL比NA给出更短的置信区间且覆盖概率更接近0.95,这和不存在缺失数据时薛留根等[15]的结果类似.

4 结论

1)考虑了数据的组内相关性,并避免了对讨厌参数的估计,给出了回归系数的广义经验对数似然比函数,并证明是渐近中心卡方分布.

2)用填补技术,给出了基准函数的经验对数似然比函数,证明了极大经验似然估计的渐近正态性,但是非中心卡方分布.

3)在结论2)的基础上,提出残差调整的经验对数似然比函数,证明是渐近中心卡方分布,避免了对基准函数的欠光滑.

5 定理证明

为了表述方便,用c表示不同的常数.

[1]YOU J H,CHEN G M,ZHOU Y.Block empirical likelihood for longitudinal partially linear regression models[J].Canadian J Statist,2006,34:79-96.

[2]XUE L G,ZHU L X.Empirical likelihood semiparametric regression analysis for longitudinal data[J].Biometrika,2007,94:921-937.

[3]OWEN A.Empirical likelihood ratio confidence intervals for a single function[J].Biometrika,1988,75:237-249.

[4]LIANG K Y,ZEGER S L.Longitudinal data analysis using generalized linear models[J].Biometrika,1986,73:13-22.

[5]QU A,LINDSAY B G,LI B.Improving generalised estimating equations using quadratic inference functions[J].Biometrika,2000,87:823-836.

[6]BAI Y,ZHU Z Y,FUNG W K.Partial linear models for longitudinal data based on quadratic inference function[J].Scand J Stat,2008,35:104-118.

[7]QU A,LI R.Quadratic inference functions for varyingcoefficient models with longitudinal data[J].Biometrika,2006,62:379-391.

[8]ROBINS J M,ROTNITZKY A,ZHAO L P.Analysis of semiparametric regression models for repeated outcomes in the presence of missing data[J].J Am Statist Assoc,1995,90:106-121.

[9]ZHOU X H,CHEN B J.Generalized partially linear models for incomplete longitudinal data in the presence of population-level information[J].Biometrics,2013,69: 386-395.

[10]SINHA S K,TROXEL A B,LIPSITZ S R,et al.A bivariate pseudolikelihoodforincompletelongitudinal binary with nonignorable nonmonotone missingness[J].Biometrics,2011,67:1119-1126.

[11]SANJOY K S,KAUSHAL A,XIAO W Z.Inference for longitudinal data with nonignorable nonmonotone missing responses[J].Comput Stat Data Analysis,2014,72: 77-91.

[12]DANIELSMJ,HOGANJW.Missingdatain longitudinal studies[M].London:Chapman and Hall,2008:91-94.

[13]NADARAYA E A.On non-parametric estimates of density function and regression curves[J].Theory Prob Appl,1965,10:186-190.

[14]RICE J A,SILVEMAN B W.Estimating the mean and covariance structure nonparametrically when the data are curves[J].J Roy Statist Soc Ser B,1991,53:233-243.

[15]薛留根,朱力行.纵向数据下部分线性模型的经验似然推断[J].中国科学,2007,37(1):31-44.XUE L G,ZHU L X.Empirical likelihood for partially linear models with longitudinal data[J].Science China,2007,37:31-44.(in Chinese)

[16]ZHANG T,ZHU Z Y.Empirical likelihood inference for longitudinal data with missing response variables and error-prone-cobariates[J].Cmmmun Statist-Theory and Method,2011,40:3230-3244.

[17]XUELG,ZHULX.Empiricallikelihoodin nonparametric and semiparametric models[M].Beijing: Science Press,2010:220-226.

[18]OWEN A.Empirical likelihood confidence regions[J].Ann Statist,1990,18:90-120.

[19]SERFLING R.Approximation theorems of mathematical statistics[M].New York:Wiley,1980:28-35.

(责任编辑 吕小红)

Generalized Empirical Likelihood in Partially Linear Modes for Longitudinal With Non-monotone Missing Data

LIU Juanfang1,2,XUE Liugen1,HU Yuqin1,3
(1.College of Applied Sciences,Beijing University of Technology,Beijing 100124,China;2.College of Mathematics and Sciences,Henan Normal University,Xinxiang,Henan 453007,China;3.School of Data Sciences,Zhejiang University of Finance and Economics,Hangzhou 310018,China)

To study the estimation in partially linear models for longitudinal with non-monotone missing data,based on quadratic inference functions,the generalized empirical likelihood method is used to estimate the regression coefficients and the baseline function,and the corresponding maximum empirical likelihood estimators are derived.The empirical log-likelihood ratios are proven to be asymptotically chisquared,and the corresponding confidence regions and intervals are then constructed.The numerical study is conducted to compare the finite sample behavior of the generalized empirical likelihood and the normal approximation-based method.

longitudinal data;non-monotone missing;generalized empirical likelihood;quadratic inference functions

O 212.7

A

0254-0037(2016)10-1588-09

10.11936/bjutxb2015120013

2015-12-06

国家自然科学基金资助项目(11331011),北京市自然科学基金资助项目(1142003)

刘娟芳(1980—),女,博士研究生,主要从事半参数统计与数据分析方面的研究,E-mail:liujuanfang@emails.bjut.edu.cn

猜你喜欢
广义单调线性
单调任意恒成立,论参离参定最值
二阶整线性递归数列的性质及应用
线性回归方程的求解与应用
The Last Lumberjacks
怎样判断函数的单调性
一类特别的广义积分
非齐次线性微分方程的常数变易法
任意半环上正则元的广义逆
线性回归方程知识点剖析
世界正在变得单调