半变系数模型中的异常点分析*

2017-06-25 11:59:40曹连英
关键词:平方和分析模型轮廓

王 蕾,曹连英

(东北林业大学)

0 引言

半变系数模型的一般形式如下:

(1)

针对半变系数模型有很多研究方法[1-5],如一般级数方法[1],局部多项式拟合方法[2],小波估计法[3],等等.由于半变系数模型可用于数据分析,然而在收集数据时可能有个别数据因录入错误或者测量错误,甚至缺少重要自变量,都会导致数据存在较大的误差,这些有“问题”的数据也就是异常点,异常点会偏离其他数据点的回归轨迹,所以对参数估计的结果会造成严重的干扰及影响,使模型的拟合效果变差,相关学者对于异常点问题也做了许多研究,如文献[6]提出了一种用于可加性和创新异常点识别的遗传算法,能有效地检测异常点的位置和类型,估计异常点的大小;文献[7]讨论了基于贝叶斯统计理论的GNSS时间序列的异常点检测问题,等等.该文利用轮廓最小二乘法,通过在模型中引入异常点Sl指示矩阵,对模型的异常点进行分析,并通过数值模拟对该文提出异常点分析模型进行验证,数值结果表明模型方法可行有效.

1 半变系数模型的轮廓最小二乘法

(2)

利用局部加权最小二乘,使

(3)

2 半变系数模型的异常点分析模型

为了方便叙述,引入一些记号:

ε=(ε1,ε2,…,εn)T,Wu0=Diag(Kh(u1-u0),Kh(u2-u0),…,Kh(un-u0)).模型(2)的矩阵形式为

Y-Xβ=M+ε

(4)

2.1 异常点分析模型及其轮廓最小二乘法

SlY-SlXβ=SlM+Slε

(5)

利用轮廓最小二乘法对上述模型给出参数和非参数部分的估计.由

得到γ(u0)的估计为

取u0=ui(i=1,2,…,n),可得未知系数函数α(ui)=(α1(ui),…,αq(ui))T的估计为

2.2 异常点分析

用以下两种方法对所得异常点进行进一步检验.

(1)LYD检验:

3 数值模拟实验

下面通过数值模拟如下的半变系数模型来验证异常点分析模型.模型为:

yi=xi1β1+xi2β2+zi·α(ui)+εi

(6)

表1 30组样本数据的残差平方和SSE(Sl),LYD和Cook统计量

图1 模型中变系数函数的拟合曲线图

数值结果表明,若模型存在异常点,则去除异常点后,该组数据产生的残差平方和SSE(Sl)远小于其他组样本数据的SSE(Sl),根据表1可知第30组数据为异常点.再进一步对异常点进行检验,由第30组数据对应的LYD=5.2938>3,Cook统计量D=1.2133>4/30≈0.1333,综合得,第30组数据为模型的异常点.图1也给出了去除异常点前后的变系数函数α(u)的估计与真实函数的比较,由于异常点的存在使模型的系数函数轨迹发生改变,异常点分析模型对估计结果进行了修正.

4 结论

该文主要讨论半变系数模型的异常点问题,在传统的轮廓最小二乘法的基础上加入Sl指示矩阵,得到异常点分析模型.可先判断模型是否存在异常点,利用残差平方和SSE(Sl)最小找出模型中的异常点.在相同条件下,去除异常点的数据组产生的残差平方和SSE(Sl)偏小,再利用LYD方法和Cook统计量对异常点进一步检验.

参 考 文 献

[1] Ahmad I, Leelahanon S, Li Q. Efficient Estimation of a Semiparametric Partially Linear Varying Coefficient Model[J]. Annals of Statistics, 2005, 33(1):258-283.

[2] Zhang W, LEE SY, Song X. Local Ploynomial Fitting in Semivarying Coefficient Model[J]. Journal of Multivariate Analysis, 2002, 82(1):166-188.

[3] Zhou X, You J H. Wavelet estimation in varying-coefficient partially linear regression models[J]. Statistics & Probability Letters, 2004, 68(1):91-104.

[4] 魏传华,吴喜之.部分线性变系数模型Backfitting估计的渐进性质[J].高校应用数学学报A辑,2008, 23(2): 227-234.

[5] 罗羡华,李元,周勇,等.基于纵向数据的半参数变系数部分线性回归模型[J].应用数学学报,2007, 30(3): 541-554.

[6] Baragona R, Battaglia F, Calzini C.Genetic algorithms for the identification of additive and innovation outliers in time series[J]. Computational Statistics & Data Analysis, 2001, 37 (1):1-12.

[7] Zhang Q, Gui Q. Bayesian methods for outliers detection in GNSS time series[J]. Journal of Geodesy, 2013, 87 (7):609-627.

[8] Wei C H,Wu X Z.Error Variance Estimation in Partially Linear Varying Coefficient Models[J].Mathematica Applicata, 2008, 21 (2):378-383.

猜你喜欢
平方和分析模型轮廓
轮廓错觉
基于BERT-VGG16的多模态情感分析模型
基于实时轮廓误差估算的数控系统轮廓控制
费马—欧拉两平方和定理
中等数学(2019年1期)2019-05-20 09:45:18
利用平方和方法证明不等式赛题
中等数学(2018年7期)2018-11-10 03:28:58
勾股定理的扩展
层次分析模型在结核疾病预防控制系统中的应用
关于四奇数平方和问题
全启发式语言分析模型
在线学习机制下的Snake轮廓跟踪
计算机工程(2015年4期)2015-07-05 08:27:39