王 蕾,曹连英
(东北林业大学)
半变系数模型的一般形式如下:
(1)
针对半变系数模型有很多研究方法[1-5],如一般级数方法[1],局部多项式拟合方法[2],小波估计法[3],等等.由于半变系数模型可用于数据分析,然而在收集数据时可能有个别数据因录入错误或者测量错误,甚至缺少重要自变量,都会导致数据存在较大的误差,这些有“问题”的数据也就是异常点,异常点会偏离其他数据点的回归轨迹,所以对参数估计的结果会造成严重的干扰及影响,使模型的拟合效果变差,相关学者对于异常点问题也做了许多研究,如文献[6]提出了一种用于可加性和创新异常点识别的遗传算法,能有效地检测异常点的位置和类型,估计异常点的大小;文献[7]讨论了基于贝叶斯统计理论的GNSS时间序列的异常点检测问题,等等.该文利用轮廓最小二乘法,通过在模型中引入异常点Sl指示矩阵,对模型的异常点进行分析,并通过数值模拟对该文提出异常点分析模型进行验证,数值结果表明模型方法可行有效.
(2)
利用局部加权最小二乘,使
(3)
为了方便叙述,引入一些记号:
ε=(ε1,ε2,…,εn)T,Wu0=Diag(Kh(u1-u0),Kh(u2-u0),…,Kh(un-u0)).模型(2)的矩阵形式为
Y-Xβ=M+ε
(4)
SlY-SlXβ=SlM+Slε
(5)
利用轮廓最小二乘法对上述模型给出参数和非参数部分的估计.由
得到γ(u0)的估计为
取u0=ui(i=1,2,…,n),可得未知系数函数α(ui)=(α1(ui),…,αq(ui))T的估计为
用以下两种方法对所得异常点进行进一步检验.
(1)LYD检验:
下面通过数值模拟如下的半变系数模型来验证异常点分析模型.模型为:
yi=xi1β1+xi2β2+zi·α(ui)+εi
(6)
表1 30组样本数据的残差平方和SSE(Sl),LYD和Cook统计量
图1 模型中变系数函数的拟合曲线图
数值结果表明,若模型存在异常点,则去除异常点后,该组数据产生的残差平方和SSE(Sl)远小于其他组样本数据的SSE(Sl),根据表1可知第30组数据为异常点.再进一步对异常点进行检验,由第30组数据对应的LYD=5.2938>3,Cook统计量D=1.2133>4/30≈0.1333,综合得,第30组数据为模型的异常点.图1也给出了去除异常点前后的变系数函数α(u)的估计与真实函数的比较,由于异常点的存在使模型的系数函数轨迹发生改变,异常点分析模型对估计结果进行了修正.
该文主要讨论半变系数模型的异常点问题,在传统的轮廓最小二乘法的基础上加入Sl指示矩阵,得到异常点分析模型.可先判断模型是否存在异常点,利用残差平方和SSE(Sl)最小找出模型中的异常点.在相同条件下,去除异常点的数据组产生的残差平方和SSE(Sl)偏小,再利用LYD方法和Cook统计量对异常点进一步检验.
参 考 文 献
[1] Ahmad I, Leelahanon S, Li Q. Efficient Estimation of a Semiparametric Partially Linear Varying Coefficient Model[J]. Annals of Statistics, 2005, 33(1):258-283.
[2] Zhang W, LEE SY, Song X. Local Ploynomial Fitting in Semivarying Coefficient Model[J]. Journal of Multivariate Analysis, 2002, 82(1):166-188.
[3] Zhou X, You J H. Wavelet estimation in varying-coefficient partially linear regression models[J]. Statistics & Probability Letters, 2004, 68(1):91-104.
[4] 魏传华,吴喜之.部分线性变系数模型Backfitting估计的渐进性质[J].高校应用数学学报A辑,2008, 23(2): 227-234.
[5] 罗羡华,李元,周勇,等.基于纵向数据的半参数变系数部分线性回归模型[J].应用数学学报,2007, 30(3): 541-554.
[6] Baragona R, Battaglia F, Calzini C.Genetic algorithms for the identification of additive and innovation outliers in time series[J]. Computational Statistics & Data Analysis, 2001, 37 (1):1-12.
[7] Zhang Q, Gui Q. Bayesian methods for outliers detection in GNSS time series[J]. Journal of Geodesy, 2013, 87 (7):609-627.
[8] Wei C H,Wu X Z.Error Variance Estimation in Partially Linear Varying Coefficient Models[J].Mathematica Applicata, 2008, 21 (2):378-383.