基于光滑门限估计方程的变系数EV模型的变量选择方法*

2013-10-24 00:49
关键词:测量误差门限方程

赵 培 信

(河池学院 数学系,广西 宜州 546300)

基于光滑门限估计方程的变系数EV模型的变量选择方法*

赵 培 信

(河池学院 数学系,广西 宜州 546300)

结合基函数逼近以及光滑门限估计方程,对变系数EV模型的变量选择问题提出了一个新的变量选择方法;该变量选择方法可以同时进行系数估计和变量选择,并且不需要解任何凸优化问题,因此实际应用中将大大减少计算量.

变系数EV模型;变量选择;光滑门限估计方程

0 引 言

考虑如下变系数EV模型:

(1)

其中Xi是不可直接观测的协变量,Wi可以直接观测,Vi为零均值的测量误. 在此假定Vi与(Xi,Ui,εi) 相互独立. 对模型(1),You等 (2006) 对系数函数提出了一个偏差纠正的局部多项式估计方法,并且考虑了模型(1)的拟合优度检验问题. Li和Greene[2]采用偏差纠正的估计方程方法研究了系数函数的估计问题. Sentürk和Müller[3]在协变量及响应变量均含有测量误差的情况下,考虑了系数函数的估计问题. Zhao和Xue[4]基于SCAD 惩罚方法考虑了模型(1)的变量选择问题,并且证明了所提出的变量选择方法具有Oracle 性质. 但是其估计过程涉及到凸优化问题,这将大大增加变量选择过程的计算量. 另外,除非人为地设定一个门限值,否则Zhao和Xue[4]基于局部二次逼近给出的迭代计算过程不能给出稀疏解,即达不到变量选择的目的. 关于局部二次逼近方法的更多细节,请参见文献[5].

为了克服这些缺陷,利用Ueki[6]的基本思想来研究模型 (1)的变量选择问题.利用基函数逼近以及光滑门限估计方程,提出了一个新的偏差纠正的变量选择过程,称之为CSEE变量选择方法. 该变量选择过程可以自动地通过把不重要变量对应的系数函数设为零来剔除模型中的不重要变量,并且可以同时给出非零函数系数的估计. 所提出的变量选择过程不涉及任何凸优化问题,因此在实际应用中更容易操作.

1 方法论及主要结果

为了保证模型(1)的可识别性,假定V的协方差阵∑vv是已知的. 若不然,可以利用类似Liang等[7]提出的方法,通过重复测量来给出其估计. 令B(u)=(B1(u),…,BL(u))T为阶数为M的B-样条基函数,其中L=K+M,K为内部节点个数. 那么θk(u) 可以近似表示:

θk(u)≈B(u)Tβk,k=1,2,…,p

(2)

如果Xi可以直接观测,把式(2)代入模型 (1) 可得:

(3)

(4)

其中Ω(u)=[Ip⊗B(u)]∑vv[Ip⊗B(u)]T. 因此,一个偏差纠正的估计方程可以定义:

(5)

(6)

为了应用该变量选择过程,需要选择内部节点个数K以及调整参数λ. 关于K和λ的选择,可以通过一些经典的数据驱动准则进行选择,比如CV,GCV 以及 BIC准则等. 为了计算简单,本文利用类似Zhao和Xue[4]给出的方法选择K和λ. 通过最小化如下交叉证实得分函数来给出K和λ的估计:

2 模拟研究

首先把提出的变量选择方法CSEE与朴素变量选择方法(NSEE)进行比较. 后者为忽略测量误差,在变量选择过程中直接用Wi代替Xi. 模拟结果见表1和表2. 另外,作为比较,表3还给出了基于Oracle过程的变量选择结果,即当零系数函数已知时,基于真实模型的估计结果. 在表1-表3中,列C表示把真实零系数函数正确估计为零的个数,列I表示把真实的非零系数函数错误估计为零的个数. 另外,表1-表3还给出了基于1 000次重复试验所得RASE的中位数.

表1 基于 CSEE方法的变量选择结果

表2 基于NSEE方法的变量选择结果

表3 基于Oracle过程的变量选择结果

从表1-表3,可以得到如下结论:

(1) 当测量误差水平较大时,CSEE方法明显优于NSEE.后者不能剔除某些不重要的变量并且给出了相对较大的模型误差. 这表明基于NSEE方法所得的估计是有偏的.

(2) 对给定的测量误差水平,随着样本容量n的增加,基于CSEE过程所得的模型误差随之减小,并且所选得的模型越来越接近真实模型.

(3) 对给定的n,在各种测量误差水平下,基于CSEE的变量选择结果是类似的,这表明本文所给出的偏差纠正方法是可行的.

表4 n=150时的变量选择结果

表5 n=300时的变量选择结果

3 结 论

针对协变量含有测量误差的变系数EV模型,提出了一个变量选择方法. 该方法可以同时选择模型中的重要变量和估计模型中的未知函数系数,并且避免了凸优化的问题. 所用方法把Ueki[6]提出的SEE变量选择方法推广到了非参数模型. 模拟研究表明本文所提出的变量选择方法可以有效地选择出模型中的重要变量,并给出模型中系数函数的估计. 在文中,尽管假定所有的协变量均含有测量误差,但是该假定并不是必须的,其变量选择方法可以容易地推广到只有部分协变量含有测量误差的情形.

[1] YOU J,ZHOU Y,CHEN G. Corrected local polynomial estimation in varying-coefficient models with measurement errors[J].Can. J. Stat.,2006,34(3): 391- 410

[2] LI L,GREENE T. Varying coefficients model with measurement error[J]. Biometrics,2008,64(2): 519-526

[3] SENTÜRK D,MÜLLER H G. Generalized varying coefficient models for longitudinal data[J]. Biometrika,2008,95(3): 653-666

[4] ZHAO P X,XUE L G. Variable selection for varying coefficient models with measurement errors[J]. Metrika,2011,74(2): 231-245

[5] FAN J Q,LI R. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. Amer. Statist. Assoc.,2001,96(456): 1348-1360

[6] UEKI M. A note on automatic variable selection using smooth-threshold estimating equations[J]. Biometrika,2009,96(4): 1005-1011

A Variable Selection Method for Varying Coefficient EV Model Based on Smooth Threshold Estimating Equation

ZHAOPei-xin

(Department of Mathematics, Hechi University, Guangxi Yizhou 546300, China)

By combining basis function approximation with smooth threshold estimating equation, this paper proposes a new variable selection method for the selection of variables of varying coefficient EV model and this method can select variables and estimate coefficients simultaneously and does not need to solve convex optimization problem so as to largely reduce computation quantity in practice.

varying coefficient EV model;variable selection;smooth threshold estimating equation

1672-058X(2013)09-0001-05

2013-03-10;

2013-04-12.

国家自然科学基金项目(11101119),国家社会科学基金项目(11CTJ004),广西哲学社会科学“十二五”规划课题(11FTJ002)资助.

赵培信(1981-),男,山东曹县人,副教授,博士,从事非参数统计研究.

O212.7

A

责任编辑:代小红

猜你喜欢
测量误差门限方程
方程的再认识
基于规则的HEV逻辑门限控制策略
密度测量误差分析
方程(组)的由来
纵向数据下变系数测量误差模型的渐近估计
圆的方程
随机失效门限下指数退化轨道模型的分析与应用
基于Neyman-Pearson准则的自适应门限干扰抑制算法*
生产性服务业集聚与工业集聚的非线性效应——基于门限回归模型的分析
牵引变压器功率测量误差分析