高维纵向数据的惩罚广义估计方程分析

2021-06-30 00:08尹长明王亚东
应用数学 2021年3期
关键词:维数向量条件

尹长明,王亚东

(广西大学数学与信息科学学院,广西南宁530004)

1.引言

广义线性模型(GLMs)在研究响应变量是离散的或非负的回归问题中起着重要的作用[1].纵向数据(面板数据或集团数据)在生物医学,经济和社会科学的研究中经常出现.纵向数据是对一个个体的多次观测的数据是相关的,但相关程度未知,不同个体之间的观测数据是独立的.广义估计方程(GEE)[2]是常用的分析纵向数据下GLMs的方法[3],GEE估计的一个显著特点是只要均值函数假定正确,即使相关阵(或协方差)假定不正确,得到的回归参数估计仍具有相合性和渐近正态性.若方差也假定正确,得到的估计方差最小.

高维协变量现在越来越普遍,特别是在基因研究和大规模健康研究中.例如酵母菌基因研究有96个协变量[4];心脏病的研究,协变量有年龄,抽烟情况,胆固醇含量,血压等等[5];有时变量虽然不多,考虑到各种交叉因素,协变量就很多.这些变量中有部分协变量与响应变量没有关系或者关系不密切,若将它们包含在模型中,会影响统计推断的精度,因此选择重要的协变量即变量选择就很重要.

关于GEE的大样本性质可参看文[5].当个体数n→∞,协变量维数pn可以趋于无穷时,WANG[5]在没有加稀疏条件下证明了GEE估计的大样本性质.变量选择的文献可参看文[6],该文献假定协变量的维数pn是不变的,且响应变量是连续.WANG,ZHOU,QU[4]研究了响应变量可以是连续的,也可以是离散的(属性数据和计数数据),协变量的维数pn可以是发散的纵向数据下广义线性模型的变量选择.本文改进了WANG,ZHOU,QU[4]和WANG[5]的结果.

设(Yij,Xij)是第i个个体的第j次观测值,i=1,2,···,n,j=1,2,···,m,其中Yij是响应变量,Xij是pn×1协变量,m是每个个体的观测次数.当个体数n→∞,协变量维数pn可以无界.假设不同个体之间的观测值是独立的,同一个个体的m次观测值是相关的.记Yi=(Yi1,···,Yim)T,Xi=(Xi1,···,Xim),i=1,···,n,其中T表示矩阵或向量的转置.

设广义线性模型的期望和方差分别为

其中μ(θ)是联系(link)函数,˙μ(θ)>0是它的导数,θij=XTijβn,βn=(βn1,···,βnpn)T是回归参数向量.当μ(θ)=θ,就得到线性模型;μ(θ)=eθ/(1+eθ),就得到logistic回归模型;μ(θ)=eθ,就得到研究计数数据的对数线性回归模型.

记μi(βn)=(μi1(βn),···,μim(βn))T,Ai(β)=diag(σi1(βn),···,σim(βn)),其中,diag(v)表示一个对角矩阵,其对角元素是向量v的元素.类似LIANG,ZEGER[2],WANG[5]定义方程

其中Qλn(|βn|)=(qλn(|βn1|),···,qλn(|βnpn|))T,Sign(βn)=(sign(βn1),···,sign(βnpn))T,Qλn(|βn|)·Sign(βn)定义为对应元素相乘得到的向量,SCAD惩罚函数为

t≥0,a>2,λn是调整参数,符号函数sign(t)=I(t>0)-I(t<0),I是示性函数.

2.主要结果

在本文中,C,C1,C2,...代表与n无关的正常数,在不同地方可以表示不同值.为了得到我们的主要结果,需要如下假设条件.

(A1)pn维向量Xij,1≤i≤n,1≤j≤m的所有元素关于n一致有界;

(A3)存在与n无关的有限正常数C1和C2使得

其中Xij(1)是Xij的前sn个元素构成的向量,Xi(1)=(Xi1(1),···,Xim(1)),λmin和λmax分别表示矩阵的最小和最大特征根;

(A4)Yi,i=1,···,n的共同真实相关阵Rn0满足Rn0≥CIm,估计工作相关阵满足其中是任意满足C1Im≤≤C2Im的正定阵,称为工作相关阵(可以不等于Rn0),Im是m阶单位阵,‖R‖=[trace(RRT)]1/2表示矩阵R的Frobenius范数;

(A5)存在某个r>2,对所有i≤n有E‖ϵi(βn0)‖r≤C,其中ϵi(βn)=(ϵi1(βn),···,ϵim(βn))T

(A6)对所有1≤i≤n,1≤j≤m,βn∈Bn,方差满足μ的二阶导数¨μ和三阶导数μ(3)满足≤C,其中δ是任意正常数;

(A7)(i)min1≤j≤sn|βnj0|/λn→∞;(ii)(iii)λn→0;(iv).

定理2.1若假设条件(A1)-(A7)成立,则存在使下面式子成立,

其中Unk(βn)是Un(βn)的第k个元素,αn是任意固定的sn维单位向量,(2.3)和(2.4)经常被称为变量选择的Oracle性质.

注2.1条件(A1)更正了文[4]中笔误:pn维向量Xij一致有界.

注2.2(A3)减弱了文[4]中条件:的最小最大特征根都是n的阶.

注2.3(A5)减弱了文[4]中条件:存在正常数M2,M3使E[exp(M2|ϵij(βn0)|)]≤M3.因为ϵij(βn0)的矩母函数一致有界可以推出对任意r>2有E|ϵi(βn0)|r≤C.

注2.4(A6)减弱了文[4]中条件:对所有1≤i≤n,1≤j≤m,其中特别当pn是n的高阶无穷大,文[4]中此条件较强.

注2.5(A7)减弱了文[4]中条件:在矩母函数一致有界条件下,文[4]中pn最高可达n2阶,我们的结果pn可达到nr阶,对任意r>2.

注2.6将文[5]中条件和减弱为在参数真值点成立,即其中βn(1)∈Bn(1)={βn(1):

其余条件与文中[4-5]中条件一样.

3.主要结果的证明

引理3.1若假设(A6),(A7)(ii)和成立,则其中βn∈Bn.

证由(A7)(ii)和知

由微分中值定理,(A6)和(3.1),知

由(3.2)和(A6),知

同理,由微分中值定理,(3.1),(3.3)和(A6),知

引理3.3[7](微分中值不等式)设D⊂Rn,f:D→Rm.若f(x)在D内可微,则对任何两点a,b∈D,必存在ξ=a+θ(b-a),0<θ<1,使得

引理3.4[8]设X1,X2,···,Xn是鞅差序列,r≥2,则

引理3.5[4]记epnk表示第k个元素是1,其余元素都是0的pn维向量,

其中

注3.1文[4]中Gnk(βn)与文[5]中(βn)表达式的有笔误,应为

定理2.1的证明由假设条件和引理3.1知,引理3.2的条件满足,因而其结论成立.所以若取即

其中Snk()是Sn()的第k个元素.

由引理3.3,引理3.1,(A1),(A7)(ii),知

由(3.12),(3.13)知

由假设条件(A1)知

由(3.15),(A4),引理3.1,Markov不等式,(3.14)和(A7)(iv),知

由泰勒公式,知

其中在βn与βn0的连线上.特别当有

其中Δnk(1)(βn)是向量的前sn个元素构成的向量,Dnk(1)(βn)是左上角的sn×sn矩阵.

由Markov不等式,引理3.4,(A1),(A4),(A5),(A6)和(A7)(v),知

记Hnk(1)(βn),nk(1)(βn),Gnk(1)(βn)分别是向量Hnk(βn),nk(βn),Gnk(βn)的前sn个元素构成的向量,则由引理3.5知

由(A1),(A4),(A6)和(A7)(iv),知

由引理3.4,(A1),(A4),(A5)和(A6),可得

由Markov不等式,Minkowski不等式,(3.22),(A7)(ii)和(A7)(v),知

所以

同理,

由(3.20),(3.21),(3.24)和(3.25),得

设emj表示第个j个元素是1,其余元素都为0的m维向量,则由可得,

由(3.29),(3.28),(3.27),引理3.5,(3.14),(A1),(A4),(A6)和引理3.1,可证

所以

再由Markov不等式,(A7)(iii)和(A7)(iv)知

由(3.32),(3.26),(3.19),(3.18),(3.16)和(3.6),知

当k=sn+1,···,pn,=0,所以再由(3.33)知(2.2)成立.由=知(2.3)成立.由假设条件,引理3.1和引理3.2知(2.4)成立.定理2.1证毕.

4.结语

本文只在较弱的条件下证明非零回归系数的个数发散情况下,纵向数据GEE的协变量选择的相合性质和Oracle性质.数值模拟请参看文[4].

猜你喜欢
维数向量条件
β-变换中一致丢番图逼近问题的维数理论
向量的分解
排除多余的条件
聚焦“向量与三角”创新题
选择合适的条件
一类齐次Moran集的上盒维数
为什么夏天的雨最多
关于齐次Moran集的packing维数结果
向量垂直在解析几何中的应用
涉及相变问题Julia集的Hausdorff维数