杨显飞,于 翔,杨巍巍
(台州学院 电子与信息工程学院,浙江 台州 318000)
在许多实际应用中,信息往往具有不确定、不精确和不完整等特征,可以用模糊数据或区间数据进行度量。区间数据回归作为一种重要的模糊数据处理分析工具,已经被广泛地应用在机电、气象、金融等各个领域。
一般来说,区间回归模型大致可以分为两类。一类是最小二乘区间回归模型,该类模型根据估计间隔和观测间隔之间的距离最小化原理构建回归算法[1-2]。另一类是可能性区间回归模型,该类模型利用观测间隔和估计间隔之间存在的包含关系,通过最小化估计模型的总模糊度而建立[3-4]。根据估计的输出区间数,可能性区间回归模型也可分为两类。第一类模型为双输出估计区间,其中一个输出估计区间是被观测区间包含的所有可能区间中半径最大的;另一个输出估计区间是包含观测区间中所有可能区间中半径最小的[5]。第二类可能性回归模型则仅输出单一回归区间[6]。Tanaka等[7]提出了第一个可能性回归模型,并假设回归模型中的系数为区间数,在其早期的研究中采用线性规划方法计算区间回归模型的系数。然而由于线性规划方法的特点,一些模型的估计参数变成了确定值。为了克服这一问题,其研究团队采用二次规划方法对可能性回归模型的区间参数进行了估计,二次规划得到的区间值系数比线性规划更理想。但是,基于上述两个方法建立的可能性回归模型也同时存在一定的局限性。首先,通过最小化经验风险建立的回归模型,更容易过度拟合训练数据集,影响预测性能。其次,它们很难处理非线性区间回归问题。因此,Hong利用支持向量机对区间数据进行回归,提出了基于二次惩罚支持向量机的区间回归模型,有效地避免了上述问题[8]。由于该方法在建模过程中没有考虑到现实数据集中大多包含噪声数据的事实,从而限制了该模型在现实中的应用。因此,本文提出一种利用Hausdorff距离和KNN的区间数据噪声筛选方法,有效地避免了噪声区间数据对基于二次惩罚支持向量机区间回归模型的干扰。
利用二次惩罚支持向量机建立的区间回归模型为双输出估计区间回归模型,其双输出估计区间与样本观测区间的关系如图1所示,外面两条实线是外边界模型(Upper Model),为包含所有观测区间中半径最小的估计区间组成;内侧两条虚线是内边界模型(Lower Model),为被所有观测区间包含的半径最大的估计区间组成。因此双输出估计区间回归模型可以对被估计区间数的外边界值和内边界值所在的范围进行较好的估计。
图1 双估计区间回归模型示意图
设区间回归模型的训练数据集为{(x1,Y1),(x2,Y2),…,(xn,Yn)},其中xi=(1,xi1,…,xim)t为n维向量,Yi=(yi,ei)为观测区间值,yi为区间的中心,ei为区间的半径。同样设区间回归模型的区间系数为Ai=(ai,ci),则区间回归模型可表示成:
Hong利用Y*(xi)和Y*(xi)分别代表外边界模型和内边界模型,Y*(xi)和Y*(xi)的计算公式分别为:Y*(xi)=(atxi,ct|xi|+dt|xi|)和Y*(xi)=(atxi,ct|xi|),基于二次惩罚支持向量机区间回归模型如下所示:
其中ξ2i和衡量了估计区间中心与观测区间中心的偏离程度,约束(6)和(7)保证了观测区间被外边界模型估计获得的区间所包含,约束(8)和(9)保证了观测区间包含内边界模型估计获得的区间。约束(3)和最优化公式(2)保证了外边界模型和内边界模型回归获得的估计区间之间差异尽可能地小。利用拉格朗日对偶法求最优化公式(2),则其拉格朗日函数为:
由于在建立二次惩罚支持向量机过程中并没有引入松弛变量,使得该模型容易受噪声数据影响,那么当出现噪声数据时,会使得Upper Model函数线向外移动且Lower Model向内移动,从而增加回归区间的范围,降低其包含的信息价值。
Hausdorff距离是在度量空间中任意两个集合之间的一种距离。其计算公式如下所示:
其中u和v是两个区间数据,ulow和uhign分别代表区间数据u的下限值和上限值。
当对区间数据进行线性区间数据回归时,本文采用Hausdorff距离对区间数据之间的距离进行度量;当对区间数据进行非线性回归时,则利用高斯Hausdorff距离度量两个区间数据之间的距离,其计算公式如下所示:
计算出所有区间数据对之间的距离之后,则利用KNN算法计算每一个数据xi的最近邻数据集φi,并利用Hausdorff距离或高斯Hausdorff距离计算获得xi与其最近邻数据集φi的平均距离di,若其大于设定的阈值,则可判断xi为噪声数据,否则判断其为正常数据。
为了验证所提方法的有效性,本文将经过噪声区间数据筛选后再进行二次惩罚支持向量机区间的回归算法与直接使用二次惩罚支持向量机区间的回归算法进行对比实验,分别比较两者在线性数据集和非线性数据集中的回归性能。所有算法均在window 7操作系统上运行,并使用Matlab编程工具实现。为了验证算法的有效性,本文拟采用如下四种标准衡量区间回归的性能。
(1)拟合优度
(2)Hausdorff距离
当Hausdorff距离越小时,表明外边界模型和内边界模型输出的估计区间与观测区间之间的距离越小。
(3)线性区间回归
线性区间回归测试集的生成函数如下:
如图2、图3、图4和图5所示可知,无论是在线性回归条件下还是非线性回归条件下,筛选噪声数据后可以显著提高二次惩罚支持向量机区间回归模型的回归性能;如表1和表2所示可知,拟合优度、UpperModel和LowerModel的Hausdorff距离均获得了更优的结果。
图2 二次惩罚支持向量机区间回归
图3 筛选噪声后二次惩罚支持向量机区间回归
表1 筛选噪声与否二次惩罚支持向量机区间回归性能比较
(4)非线性回归
非线性区间回归的测试集的生成函数如下:
xi=0.02(i-1)i=1,…,51;
yi=(2.7xi-0.2)2+4.5+rri[-0.4,0.4]+noise(0.2,[-4,4]);
ei=1.7exp(-49(xi-0.5)2)+1.7xi+1.2。
图4 二次惩罚支持向量机区间回归
图5 筛选噪声后二次惩罚支持向量机区间回归
表2 筛选噪声与否二次惩罚支持向量机区间回归性能比较
区间数据可以有效度量模糊信息和不确定信息,二次惩罚支持向量机区间回归模型是一个经典的区间数据回归模型,但该模型受噪声数据影响严重,因此,本文对噪声数据进行了剔除,从而有效地提高了该模型的区间数据回归性能。