韩小慧,葛永慧
(太原理工大学 矿业工程学院,山西 太原030024)
自变量优化的一元线性回归
韩小慧,葛永慧
(太原理工大学 矿业工程学院,山西 太原030024)
一元线性回归是应用最为广泛的参数估计方法之一。文中提出一元线性回归的自变量在等差级数的基础上进行双向黄金分割,提高两端点观测值的多余观测分量,缩小观测值之间多余观测分量的差异,在不增加观测值数量和不改变观测值精度的前提下,提高稳健估计方法消除或减弱粗差的能力。
一元线性回归;稳健估计;自变量优化;双向黄金分割
一元线性回归是测量实际应用中最为广泛的参数估计方法之一。但是传统的一元线性回归不具备抵抗粗差的能力,当测值中包含粗差时,传统的一元线性回归的结果便会受到歪曲[1]。而生产实践和科学实验所采集的数据中粗差的出现是不可避免的。为了减弱或消除粗差对参数估计的影响,G.E.P.BOX于1953年提出了稳健估计的概念。稳健估计是将估计理论建立在符合于数据实际情况的分布模式而不是建立在某种理想的分布模式[2],许多学者就此进行了卓有成效的研究,构造了很多不同的稳健估计方法。常用的稳健估计方法有残差绝对和最小法、Danish法、Huber法、Tukey法和IGGⅢ方案等。
一元线性回归的自变量通常为等差级数。由于回归方程本身的特点和自变量的设定方式决定了观测值之间的多余观测分量有着较大的差异,两端点观测值的多余观测分量较小而中间点观测值的多余观测分量较大。当相同的粗差包含在不同的观测值中时,稳健估计方法减弱或消除粗差的能力是不同的,下面用例子具体说明。
观测值的真值(xi,yi)分别为(10,6.50),(28,15.50),(46,24.50),(64,33.50),(82,42.50),(100,51.50)。xi和yi的单位均为 m,观测值个数n=6,将5.0 cm粗差分别加到第1和第3个观测值,用Danish方法计算观测值的改正数,结果见表1。
表1中,x为自变量,y为因变量。Δ1和Δ3为真误差。Y1和Y3分别为第1和第3个包含5.0 cm粗差的观测值,V1和V3分别为观测值Y1和Y3的改正数。
表1 第1和第3个观测值包含粗差时观测值的改正数
由表1可知,当第1个观测值包含5.0 cm的粗差时,观测值的改正数V1与真误差Δ1不相同,Danish方法不能完全消除粗差对参数估计的影响。当第3个观测值包含5.0 cm的粗差时,观测值的改正数V3与真误差Δ3相同,Danish方法完全消除了粗差对参数估计的影响[3]。
本文提出了自变量在等差级数的基础上进行双向黄金分割(通常自变量是可以人为设定的),提高了最小多余观测分量的数值。在不增加观测值数量和不改变观测精度的前提下,显著提高了一元线性回归稳健估计方法减弱或消除粗差的效率。
观测值包含粗差时能否被发现和定位,与观测值的多余观测分量有着紧密的联系,观测值的多余观测分量是观测值可靠性矩阵的主对角线元素[4]。
设自变量为等差级数,公差为q,x1为首项,
设自变量x与因变量y间直线相关。观测值为(xi,yi),i=1,2,…,n。xi为非随机变量,yi为随机变量。vi为yi的残差,^a和^b 为回归系数的估值。n为观测值个数,t=2为参数个数,r=n-2为自由度。
用估值表示的观测方程为
由式(13)可知,当自变量为等差级数时,可靠性矩阵与自变量的数值大小和公差的取值无关,只与观测值的个数有关。
表2 5到9个点的自变量双向黄金分割
当n=6时,自变量双向黄金分割为
x1,x1+q-λq,x1+q,x1+4q,
x1+4q+λq,x1+5q.
表3 自变量等差级数和自变量双向黄金分割的可靠性矩阵主对角线元素
表3中,AP表示自变量等差级数,GS表示自变量双向黄金分割,n表示观测值的个数,rii表示可靠性矩阵的主对角线元素。
由表3可知,对于一定的观测值个数,两端点的多余观测值分量小于中间点的多余观测值分量,即两端点和中间点发现和定位粗差的能力是不相同的。对于相同的观测值个数,自变量双向黄金分割两端点的多余观测值分量相对于等差级数的多余观测值分量增加大约为0.1,减小了各个观测值多余观测分量之间的差异,自变量双向黄金分割提高了两端点发现和定位粗差的能力。
设直线回归的理论方程为y=~a+~b~x。
取a=1.5,b=0.5(a和b的取值不影响计算结果),观测值的真值为(xi,yi)(x=1,2,…,n)。自变量xi的取值范围为10~100。因变量yi根据自变量xi计算。xi和yi的单位均为m,自变量不同取值方式的观测值(xi,yi)的真值如下:
自变量等差级数:(10,6.50),(28,15.50),(46,24.50),(64,33.50),(82,42.50),(100,51.50)。
自变量双向黄金分割:(10,6.50),(17,10.00),(28,15.50),(82,42.50),(93,48.00),(100,51.50)。
对于第1个和第3个观测值包含粗差的情况,用Danish方法计算观测值的改正数,结果见表1和表4。用IGGⅢ方案计算观测值的改正数,结果见表5和表6。用Tukey方法计算观测值的改正数,结果见表7和表8。
表4 第1和第3个观测值包含粗差时观测值的改正数(黄金分割)
由表4可知,自变量双向黄金分割:当第1个观测值包含5.0 cm的粗差时,观测值的改正数V1与真误差Δ1相同,Danish方法完全消除了粗差对参数估计的影响。当第3个观测值包含5.0 cm的粗差时,观测值的改正数与真误差相同,Danish方法完全消除了粗差对参数估计的影响。
表5 第1和第3个观测值包含粗差时观测值的改正数(等差数列)
由表5可知,自变量等差级数:当第1个观测值包含5.0 cm的粗差时,观测值的改正数V1与真误差Δ1不相同,IGGⅢ方案不能完全消除粗差对参数估计的影响。当第3个观测值包含5.0 cm的粗差时,观测值的改正数与真误差相同,IGGⅢ方案完全消除了粗差对参数估计的影响。
表6 第1和第3个观测值包含粗差时观测值的改正数(黄金分割)
由表6可知,自变量双向黄金分割:当第1个观测值包含5.0 cm的粗差时,观测值的改正数V1与真误差Δ1相同,IGGⅢ方案完全消除了粗差对参数估计的影响。当第3个观测值包含5.0 cm的粗差时,观测值的改正数与真误差相同,IGGⅢ方案完全消除了粗差对参数估计的影响。
表7 第1和第3个观测值包含粗差时观测值的改正数(等差数列)
由表7可知,自变量等差级数:当第1个观测值包含5.0 cm的粗差时,观测值的改正数V1与真误差Δ1不相同,Tukey方法不能完全消除粗差对参数估计的影响。当第3个观测值包含5.0 cm的粗差时,观测值的改正数与真误差相同,Tukey方法完全消除了粗差对参数估计的影响。
表8 第1和第3个观测值包含粗差时观测值的改正数(黄金分割)
由表8可知,自变量双向黄金分割:当第1个观测值包含5.0 cm的粗差时,观测值的改正数V1与真误差Δ1不相同,Tukey方法不能完全消除粗差对参数估计的影响。当第3个观测值包含5.0 cm的粗差时,观测值的改正数与真误差不相同,Tukey方法同样不能完全消除粗差对参数估计的影响。
对于自变量等差级数,当相同的粗差包含在不同的观测值中时,稳健估计方法减弱或消除粗差的能力是不同的。例如当观测值数量等于6和两端点的观测值包含粗差时,稳健估计方法不能有效地消除粗差对参数估计的影响。对于自变量双向黄金分割,当观测值数量等于6时,无论哪个观测值中包含粗差,Danish方法、IGGⅢ方案和Tukey方法都能有效地消除粗差对参数估计的影响。
本文提出了一元线性回归中自变量双向黄金分割。在不改变观测值数量和观测值精度的前提下,自变量双向黄金分割与自变量等差级数相比缩小了观测值多余观测分量之间的差异。相对于自变量等差级数,当自变量双向黄金分割时,稳健估计方法能够更有效地消除或减弱粗差对参数估计的影响。
[1]陈轲,归清明,柳丽,等.Gauss-Markov模型的t型抗差估计[J].测绘学报,2008,37(3):280-284.
[2]王新洲 ,陶本藻,邱卫宁,等.高等测量平差[M].北京:测绘出版社,2006:73-89.
[3]黄幼才.数据探测与抗差估计[M].北京:测绘出版社,1990:287-309.
[4]邱卫宁,陶本藻,姚宜斌,等.测量数据处理理论与方法[M].武汉:武汉大学出版社,2008:58-72.
[5]周江文.经典误差理论与抗差估计[J].测绘学报,1989,18(2):115-120.
[6]M.I.Griep,I.N.Wakeling,P.Vankeerberghen,et al.Comparison of semirobust and robust partial least squares procedures[J].Chemom.Intell.Lab.Syst.1995,29(1):37-50.
[7]Peter J.Huber.Robust statistics[M].New York:John Wiley and Sons.1981:229-236.
[8]Zioutas,G.,Avramidis,A.Deleting Outliers in Robust Regression with Mixed Integer Programming[J].Acta Math.Appl.Sin.Engl.Ser.2005,21(2):323-334.
[9]Peter J.Huber Robust Estimation of a Location Parameter[J].Ann.Math.Statist..1964,35(1):73-101.
[10]James K.G.Watson,Robust weighting in least-squares fits[J].J.Mol.Spectrosc.2003,219(2):326-328.
[11]Antonia López Villavicencio,Nonlinearities or outliers in real exchange rates[J].Economic Modelling 2008,25(4):714-730.
Simple linear regression with independent variables optimized
HAN Xiao-hui,GE Yong-hui
(College of Mining Engineering,Taiyuan University of Technology,Taiyuan 030024,China)
Simple linear regression is one of the most widely used methods of parameter estimation.The paper proposes a bidirectional golden section based on independent variables according to arithmetical progression,which increases the redundant observations of the observations at both endpoints and narrows the difference of redundant observations among the observations.Under the premise of not increasing the number of observations and changing observation accuracy,this method improves the capability of robust estimate method eliminating and weakening gross errors.
simple linear regression;robust estimation;independent variables optimization;bidirectional golden section
P228
A
1006-7949(2012)03-0013-05
2011-05-22
国家高技术研究发展计划(863计划)资助项目(2008AA06A415-06A4)
韩小慧(1986-),女,硕士研究生.
[责任编辑刘文霞]