包含异常数据的居民出行稳健回归分析

2011-02-27 07:28过秀成
关键词:回归系数残差乘法

王 谷 过秀成

(中交一公院综合交通运输研究所1) 西安 710001) (东南大学交通学院2) 南京 210096)

由于城市土地利用与城市交通间存在着密切的联系,交通生成模型作为联系城市形态与居民出行生成间的一个基础模型而受到普遍关注.生成率法作为该类模型的典型代表,通过调查人口、经济、土地利用等资料,采用最小二乘法估计(iterative least square method,LS)拟合现状数据,建立与居民出行间的回归关系,得到各变量系数,预测未来居民出行量的大小.通常,数据量比较少和自变量个数不多时,可由散点图或残差图等找出异常点,但当样本含量增大或变量个数增多时,异常点的检测就变得困难起来[1],况且,即使找出了异常点,只有经核查是由于记录、录入或系统误差等造成的,才可以剔除,否则,应保留之.因此,对于由随机误差造成的客观存在的异常点,既不能剔除,又不能对回归系数影响太大,这就需要采用不剔除异常点的稳健回归处理方法,该方法已成功应用于机械控制[2]、地震预报[3]、化学分析[4]等众多研究领域.

1 稳健回归分析

稳健估计(robust estimators)思想由来已久,早在1960年,Tukey曾经强调过稳健估计方法的重要性:“一个心照不宜的希望是忽略了与理想模型的偏离并不会有严重后果,在严格的模型条件下,最优的统计方法在近似的模型下也会最优.不幸的是这种希望往往是非常错误的,即使有的轻微偏离也会比我们的预想产生更大的影响”[5].

稳健回归的基本思想是采用迭代加权最小二乘估计回归系数,根据回归残差的大小确定各点的权wi,以达到稳健的目的,其优化的目标函数

为减少“异常点”作用,可以对不同的点施加不同的权重,即对残差小的点给予较大的权重,而对残差较大的点给予较小的权重,根据残差大小确定权重,并据此建立加权的最小二乘估计,反复迭代以改进权重系数,直至权重系数之改变小于一定的允许误差.其参数βj可采用迭代加权最小二乘法求解.其基本步骤是:先建立最小二乘回归,并根据其绝对残差构造权重,并据此建立加权最小二乘回归,如此迭代以不断修改权重系数,直至最大的权重系数之改变小于预定的值或是迭代达到指定次数.

构造权重,许多学者提出了许多方法,得到的稳健回归估计大同小异.这里我们选用较为常用的Huber方法[6]计算各样本点权重.

式中:ch一般取1.345;ui为“标准化”的残差指标,定义为 ui=ei/s=0.674 5×ei/med(|eimed(ei)|),其中:med(ei)为残差ei中位数,s定义为残差尺度.

2 案例应用

考虑如表1所列某城市居民出行调查数据,其中:ID为样本编号;Y为家庭平均工作出行次数;X1为每个家庭平均小于5岁人数;X2为每个家庭平均拥有汽车数;X3为总人数;X4为家庭数.该出行调查数据集是为采用出行发生率法预测出行次数做出的数据准备,由于需要处理的变量较多,无法通过二维平面散点图观察数据情况,进而难以保证观测样本中是否存在异常数据,由于传统最小二乘法回归系数没有考虑异常数据的处理,因此需要对其进行稳健分析.

表1 居民出行样本集

对表1数据采用最小二乘法回归,结果如表2所列,绘制以样本序号排列的残差图如图1所示.由残差图可见,有3个样本点在(-2,2)以外,即5,12,18,它们被视为“异常点”,4,6,30也离-2不远.

通过最小二乘法,模型标定自变量X2,X3系数P值均大于0.05,在5%的显著性水平下,与因变量Y不具有统计学意义,该回归方程不宜用于居民出行的出行发生预测.

图1 最小二乘法学生残差和稳健回归样本点权重值

使用Huber方法,在给定的100次迭代以后收敛,得出稳健回归结果见表3.对比表2和表3回归结果,X2,X3的变化较大,各系数的标准误差均有所减少,且各变量P值均小于0.05,均有显著性.同时,由图1样本点权重来看,被诊断为“异常点”的观察点5,12,18,其权重都较小;最小二乘残差越接近0,权重越大.稳健回归模型通过对不同的点施于不同的权重,即对残差小的点给予较大的权重,对残差较大的点给予较小的权重,使得回归模型更加贴近实际结果.

表2 最小二乘法回归结果

表3 稳健回归结果

3 结束语

研究发现居民出行生成率各参数由最小二乘法回归所确定,回归中出现的异常数据对最小二乘法估计的结果产生较大影响.但是由于该问题是多变量回归,调查样本无法描绘在平面散点图上,无法通过人工判断异常数据的取舍.因此,对于包含了实际中不易判定与剔除的异常数据的样本集,对其采用稳健回归分析.研究表明稳健估计可以克服最小二乘估计受异常样本点影响较大的弊病,模型参数更接近实际.实际算例表明,用稳健回归方法建立的数学模型避免了少数异常值的干扰影响,更加真实地反映了居民出行发生的变化趋势,是居民出行趋势变化分析强有力的数学工具.

[1]Ortiz M C.Robust regression techniques a useful alternative for the detection of outlier data in chemical analysis[J].Talanta,2006,70(3):499-512.

[2]Pennacchi P.Robust estimate of excitations in mechanical systems using m-estimators-theoretical background and numerical applications[J].Journal of Sound and Vibration,2008,310:923-946.

[3]杨马陵.地震前兆数据的稳健回归与建模[J].西北地震学报,1999(12):399-408.

[4]周 蒂.稳健统计学与地球化学数据的统计分析[J].地球科学,1991,16(3):273-279.

[5]Hample F R.Robust statistics:the approach based on influence function[M].New York:John Wiley &Sons,1986.

[6]Huber P.Robust Statistics[M].New York:John Wiley,1981.

猜你喜欢
回归系数残差乘法
算乘法
基于双向GRU与残差拟合的车辆跟驰建模
我们一起来学习“乘法的初步认识”
基于残差学习的自适应无人机目标跟踪算法
《整式的乘法与因式分解》巩固练习
把加法变成乘法
基于递归残差网络的图像超分辨率重建
多元线性回归的估值漂移及其判定方法
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性