卢 佩,陆秋君
(上海理工大学 理学院,上海 200093)
模糊线性回归模型的最小二乘方法
卢佩,陆秋君
摘要:针对自变量和因变量皆模糊的数据系统中的回归分析问题,为避免自变量退化成数值变量时可能引致的估计误差增大而带来的问题,提出系统中引入模糊调整项的回归模型的一般结构,并运用基于模糊数间完备距离的最小二乘法研究模型解析表达式;利用水平截集概念将模糊多元回归模型转化成两个传统回归模型,根据模糊数间距离采用最小二乘法得到参数估计,给出员工工作绩效评估的算例说明方法的有效性,并结合Bootstrap方法的应用,研究回归参数所具有的随机不确定性动态变化。
关键词:模糊线性回归模型;截集;最小二乘法
一、引言
在预测评价与决策等领域,回归分析是一个重要且常用的研究方法,但传统回归往往依赖于数值变量及二值逻辑。在社会经济统计中,许多看起来含混不清的语言变量,比如误差“相当小”、温度“不高”、增速“缓慢”等,恰恰是人们赖以识别、分析乃至决策的重要依据。1982年,日本学者Tanaka等人提出了模糊线性回归模型[1],继而有许多学者加入到开发模糊回归理论的研究行列之中,模糊方法在应用上也取得了很大的成果,如系统预测、评估和决策等问题[2-7]。
对模糊数据进行拟合,一般情况下因方法不同就会得到不同的模糊回归模型,其差别主要在于选取的拟合准则不同。目前,拟合准则主要有两种:第一种是Tanaka等人提出的最小模糊度准则,该方法将模型的参数估计过程转化为一个线性规划求解过程,即得到模糊回归系数的模糊线性规划(FLP)估计;第二种是Diamond提出的模糊最小二乘(FLS)准则,该方法的关键在于模糊数间距离的选择[8]。Apaydin等人在加权模糊数运算定义下给出了一种三角模糊数间距离,并研究了最小二乘回归模型[9];Xu等人定义的模糊数间距离是区间数间距离的积分[10],不少文献都基于此距离公式对多元线性回归模型进行最小二乘估计。目前,Diamond的方法因其可提供一个更精确的范围而更为实用。
从已有的模糊回归文献中的算例及应用案例可知,当自变量(输入、解释变量)和因变量(输出、被解释变量)都是模糊数时,常会出现自变量退化成数值变量时引致的估计误差增大问题,同时大多数模型依然设定回归系数为正数的分析框架,且考虑模糊观测数据为对称模糊数的情形。运用模糊数间的完备距离,本文提出的引入模糊调整项的模糊线性回归模型的最小二乘估计,在某种程度上提升了模型求解的准确性。
二、模糊数间的扩张运算及距离
(一)模糊数间的扩张运算
(1)存在x0∈R,使得A(x0)=1。
(1)
(2)
②(l,m,r)⊕(l′,m′,r′)=(l+l′,m+m′,r+r′)
③(l,m,r)⊖(l′,m′,r′)=(l-r′,m-m′,r-l′)
(二)模糊数间的距离
(3)
证明:不妨设0=α0<α1<…<αm-2<αm-1=1
(k=0,1,…,m-1)
三、模糊环境下考虑调整项的多元线性回归模型及其参数估计
(一)模糊环境下考虑调整项的多元线性回归模型
考虑自变量和因变量皆为模糊的线性回归模型,即:
(i=1,2,…,n)
(i=1,2,…,n)
(5)
(6)
(7)
(8)
因此在αk-水平截集下,模型(5)转化为两个传统回归模型:
(9)
注意到bj(j=1,2,…,p)的符号会影响到截集区间左、右端点的选择,所以取
(10)
(二)模型的参数估计
为了简化模型的研究,以下模糊数均取为三角模糊数。结合模糊数间距离D的定义,可将模糊因变量估计值与观测值间的均方误差表示为:
(11)
将式(9)代人式(11)得:
(12)
(13)
(14)
①常常在相关系数接近0时,会出现不一致的情况。
根据最小二乘法令:
(15)
引入如下记号:
求解方程得:
(16)
至此设计求解的具体步骤如下:
四、算例分析
(一)模糊回归模型的评价
拟合结果的优劣是回归分析者最关心的问题。传统的回归分析是针对观测值与拟合值的距离进行比较,利用点对点的差距来评价拟合结果,而模糊值拟合则关心的是实际的隶属函数与估计的隶属函数的差距,因此无法用衡量传统回归分析拟合效果的方法加以分析。除了均方误差指标,可利用Kim&Bishu测度[12]:
(17)
(二)员工工作绩效评估
使用TUA、DM、SY、HBS、WT、NN、LS模型①和本文模型(记为LL)[1,8,14-17],对表1中的数据进行拟合,得到回归方程如下:
(H=0)
表1 绩效评估的自变量与因变量
(-0.099 8,0.625 4,1.350 6)
0.154 5X3+0.082 9X4
(-157.277 2,-155.704 7,-155.704 7)
(α0=0,α1=1)
利用均方误差指标和Kim&Bishu指标评价上述各模型的拟合效果,见表2。
表2 拟合效果评价测度表
从均方误差指标看,本文模型与WT模型偏小;从Kim&Bishu指标看,DM、LS、WT模型及本文模型较小,其中本文模型最小,为65.16。综合上述两个指标,本文模型拟合效果是理想的。从模型看到,工作能力对员工工作绩效的影响是最大的;沟通协调能力对员工工作绩效也存在正面影响,但影响较小;弱抗压性和拖延频率这两个变量对工作绩效产生负面影响,但影响力度不大。计算上述模糊回归模型对因变量展形的估计值,见图1。
图1 各模型模糊因变量展形估计值对比图
从图1看到,SY、NN、HBS、WT模型模糊因变量展形估计值较大,TUA模型因变量展形估计值最小,DM模型和本文模型展形估计值差异不明显。可见,本文模型存在比较优势。
前面的计算中,模型的建立选取了0和1两种水平的截集。为了检验截集水平的个数对模型估计效果的影响,对不同截集水平分别建立拟合模型,并计算相应的均方误差,见表3。
从表3明显看到,当截集水平个数增多时所得模型的均方误差在减小,也就意味着模型拟合效果变得更好,不过截集水平增加到一定程度时模型均方误差递减的趋势也趋缓了。因此,在使用本文模型时,截集水平个数的选取不必盲目求多。
表3 不同截集水平下模型及其均方误差表
(三)结果分析
可以看到,截距项受样本不确定性的影响较大,而员工工作能力、沟通协调能力、弱抗压性和拖延频率对工作绩效的作用受样本的影响可能较小。
五、结束语
本文基于模糊数间完备可分距离,给出考虑模糊调整项的多元线性回归模型的解析表达式。利用水平截集将模糊多元线性回归模型转化成两个传统回归模型,基于此距离公式并根据最小二乘法得到相应的参数估计。通过一个应用实例,在与其他回归方法拟合效果优劣的比较以及模型的多截集拟合效果分析中,说明了本文方法的可行性和有效性。同时,给出Bootstrap方法的应用,以研究回归系数所具有的随机不确定性动态变化。
参考文献:
[1]Tanaka H, Uejima S, Asai K. Linear Regression Analysis with Fuzzy Model[J]. IEEE Transactions, Systems, Man and Cybernetics, 1982, 12(6).
[2]Chou T Y, Liang G S, Han T C. Application of Fuzzy Regression on Air Cargo Volume Forecast[J]. Quality & Quantity, 2011, 45(6).
[3]Lin K P, Pai P F, Lu Y M, et al. Revenue Forecasting Using a Least-squares Support Vector Regression Model in a Fuzzy Environment[J]. Information Sciences, 2013, 220(1).
[4]Azadeh A, Seraj O, Saberi M. A Comparative Assessment of Fuzzy Regression Models: The Case of Oil Consumption Estimation[J]. International Journal of Industrial and Systems Engineering, 2011, 7(2).
[5]高振斌. 基于可能度的模糊证券投资组合优化模型[J]. 统计与信息论坛, 2015, 30(5).
[6]Alptekin S E, Karsak E E. An Integrated Decision Framework for Evaluating and Selecting E-Learning Products[J]. Applied Soft Computing, 2011, 11(3).
[7]吴冲, 刘千, 万翔宇. 基于改进得分函数的直觉模糊多属性决策方法[J]. 统计与信息论坛, 2014, 29(1).
[8]Diamond P. Fuzzy Least Squares[J]. Information Sciences, 1988, 46(3).
[9]Apaydin A, Baser F. Hybrid Fuzzy Least-Squares Regression Analysis in Claims Reserving with Geometric Separation Method[J]. Insurance: Mathematics and Economics, 2010, 47(2).
[10]Xu R. A Linear Regression Model in Fuzzy Environment[J]. Advance in Modelling Simulation, 1991, 27(2).
[11]胡宝清. 模糊理论基础[M]. 2版. 武汉: 武汉大学出版社, 2010.
[12]Kim B, Bishu R R. Evaluation of Fuzzy Linear Regression Models by Comparing Membership Functions[J]. Fuzzy Sets and Systems, 1998, 100(1).
[13]Chen L H, Hsueh C C. Fuzzy Regression Models Using the Least-Squares Method Based on the Concept of Distance[J]. Fuzzy Systems, IEEE Transactions on, 2009, 17(6).
[14]Sakawa M, Yano H. Multiobjective Fuzzy Linear Regression Analysis for Fuzzy Input-Output Data[J]. Fuzzy Sets and Systems, 1992, 47(2).
[15]Hojati M, Bector C R, Smimou K. A Simple Method for Computation of Fuzzy Linear Regression[J]. European Journal of Operational Research, 2005, 166(1).
[16]Wu B, Tseng N F. A New Approach to Fuzzy Regression Models with Application to Business Cycle Analysis[J]. Fuzzy Sets and Systems, 2002, 130(1).
[17]Nasrabadi M M, Nasrabadi E. A Mathematical-Programming Approach to Fuzzy Linear Regression Analysis[J].Applied Mathematics and Computation, 2004, 155(3).
(责任编辑:郭诗梦)
Distance-Based Least Squares Method for Fuzzy Linear Regression Models
LU Pei, LU Qiu-jun
(College of Science, University of Shanghai for Science and Technology, Shanghai 200093, China)
Abstract:A general structure of the fuzzy regression model with adjusted term is proposed to avoid the problems brought by the increase of estimates errors when the independent variables are degraded into numerical variables. The least square method based on the complete distance is used to research the analytical expression. Firstly, translate the fuzzy multiple linear regression model into two traditional regression models. Then, estimate the parameters according to the distance by least-square. An example applied to evaluate employees' performance is given to illustrate the effectiveness. We also analyze the uncertain dynamic changes of the regression parameters by bootstrap method.
Key words:fuzzy linear regression models; α-cuts;least squares
收稿日期:2015-08-14;修复日期:2015-12-08
基金项目:沪江基金《理学院一流学科》(B14005);上海理工大学博士启动经费项目《基于模糊回归模型的拟合测试和预测》(1000341001)
作者简介:卢佩,女,浙江衢州人,硕士生,研究方向:管理统计;
中图分类号:N945.12∶C962
文献标志码:A
文章编号:1007-3116(2016)02-0014-07
陆秋君,女,江苏盐城人,统计学博士,副教授,研究方向:管理统计。
【统计理论与方法】