汪学琴,岳建平,邱山鸣,岳 顺
(1.水能资源利用关键技术湖南省重点实验室,湖南 长沙 410014;2.河海大学地 球科学与工程学院,江苏 南京 210098)
基于长度修正的预测算法优化
汪学琴1,2,岳建平2,邱山鸣1,岳 顺1,2
(1.水能资源利用关键技术湖南省重点实验室,湖南 长沙 410014;2.河海大学地 球科学与工程学院,江苏 南京 210098)
当自变量之间存在多重相关性时,若利用最小二乘法建立预测模型,参数估计会存在误差。若应用偏最小二乘回归算法建立预测模型,可以克服自变量之间多重相关性问题,计算结果更为可靠。长度修正的偏最小二乘回归算法从预测的角度对偏最小二乘模型进行了改进。以芹山水电站的水平位移预测为例,验证了长度修正的偏最小二乘回归法比普通偏最小二乘回归法在预测方面效果更好。
偏最小二乘;长度修正的偏最小二乘;大坝水平位移;预测模型
为解决最小二乘法的多重相关性问题,提出了偏最小二乘法(partial least squares, PLS)。偏最小二乘回归综合了多元线性回归、典型相关分析和主成分分析[1],回归分析的精度高于传统的回归分析、主成分回归。为获得更高的长期预测精度,对PLS进行优化,提出了长度修正的偏最小二乘回归法(length modified partial least squares, LMPLS)[2]。将LMPLS应用于大坝位移的预测,与传统偏最小二乘回归法的预测模型进行对比,讨论其在预测方面的可行性与优越性。
1.1 概述
统计模型为大坝安全监控模型的主要建模方法之一,要求包含对效应量有重要解释意义的所有因子,且因子间不存在多重相关性[3]。大坝位移资料分析时引入“平均因子”的概念,将造成多重相关性。如果仍然采用多元线性回归分析方法建立统计模型,则模型的精确性、可靠性不能得到保证[4]。
则模型的预测偏差均方和为:
当自变量X间完全相关时,矩阵(XTX)不可逆。无法由公式(2)计算回归系数。当自变量X因子间高度相关时,|XTX|的值接近零,求(XTX)的逆矩阵时存在严重的舍入误差。舍入误差将影响回归系数的求解,增加抽样的变异性。即使样本总体不变,不同样本的选取也会造成系数估计值差异,导致统计模型异常,表现出最小二乘回归法在稳定性上的缺陷。偏最小二乘法能较好地解决多重相关问题,有效提高模型稳定性。而长度修正的偏最小二乘回归从理论出发,对模型近一步改进,提高预测精度。
1.2 偏最小二乘回归分析
观测n个样本点,构成数据表X=(x1,x2,…,xp)n×p和Y=(y1,y2,…,yp)n×q,用统计分析的方式,研究因变量与自变量的关系。根据偏最小二乘回归理论,在X与Y中提取成分t1和u1(t1为x1,x2,…,xp的线性组合,u1为y1,y2,…,yp的线性组合)[5]。提取t1和u1时,需满足:①t1和u1尽可能多地携带它们各自数据表中的变异信息;②t1和u1的相关程度达到最大。
上述2个要求表明,t1和u1应尽可能好地表达数据表X和Y,且X=(x1,x2,…,xp)n×p的成分t1对Y=(y1,y2,…,yp)n×q的成分u1亦有较强解释能力。
对X进行标准化处理,得到的矩阵记为E0=(E01,E02,…,E0p)n×p;对Y进行标准化处理后,得到的矩阵记为F0=(F01,F02,…,F0q)n×q。记t1是E0的第1个成分,u1是F0的第1个成分。提取完t1和u1后,再进行X对t1的回归、Y对u1的回归。
偏最小二乘回归的要求可表示为:
其中, w1为矩阵最大特征值对应的单位特征向量;c1为矩阵最大特征值对应的单位特征向量。
若精度达到要求,则算法终止;否则,利用X被t1解释后的残余信息、Y被t1解释后的残余信息进行第2轮提取。循环执行直到精度满足要求为止。设X共提取了m个成分t1,t2,…,tm,根据偏最小二乘回归理论进行yk(k=1,2,…,q)对t1,t2,…,tm的回归,再还原成关于x1,x2,…,xp的回归方程。
如果X的秩是A,则:
其中,t1,t2,…,tA均可表示成E01,E02,…,E0p的线性组合;再还原成关于的回归方程式,即
其中,FAk是残差矩阵FA的第k列。
在偏最小二乘回归方程中,并非一定需要选用全部的成分t1,t2,…,tA建模,可考察增加新成分后模型的预测功能有无明显改进后再判断。设SSS,h-1为全部样本点拟合所得具有(h-1)个成分的拟合误差,SSS,h为增加成分th后的拟合误差。若h个成分的回归方程拟合误差在一定程度上小于(h-1)个成分的拟合误差,则判定增加成分th后,预测精度明显提高。对每个因变量yk,定义为:
对于全部因变量Y,成分th的交叉有效性定义为:
交叉有效性可作为衡量成分th边际贡献的指标:①当≥(1-0.95)2=0.097 5 时,th的边际贡献是明显的;②对于k=1,2,…,q,至少有1个k,使得≥0.097 5。若增加成分th,至少使1个因变量yk的预测模型得到显著的改善,则认为增加成分th是明显有益的。
1.3 基于长度修正的优化算法
设由偏最小二乘回归法得到的估计参数为βPLS,对偏最小二乘回归进行改进(LMPLS),相应的的估计参数可表示为:
其中,
AlDRIN M证明了E(Y-XβPLS)2≥E(Y-XβLMPLS)2,即从预测角度分析,LMPLS精度优于PLS[6]。
2.1 工程概况
以穆阳溪梯级中的芹山水电站为例,该水电站位于福建周宁县洒桥乡芹山村附近,距周宁县城关32 km,于1999年底建成发电。坝址以上控制流域面积
453 km2,水库正常蓄水位755.0 m,总库容2.65亿 m3,为多年调节水库。水电站装机70 MW,大坝为混凝土面板堆石坝,最大坝高120 m,坝顶长260 m。本次应用实例选取大坝左侧观测点从2009-01-19~2010-12-21的35期数据建立回归模型,样本容量较小,且选择的因子之间存在一定的多重相关性,采用传统的最小二乘法建立回归模型不能保证模型的精确性和可靠性。本文用偏最小二乘回归原理,对测点的水平位移进行建模分析,利用前20期变形数据为样本确定模型参数,对后15期变形数据进行预报与分析。
2.2 水平位移模型的建立
大坝坝顶产生水平位移的作用分量很多,其中主要为水位、温度、时效分量,可表达为:
式中,yH为水位分量;yT为温度分量,yθ为时效分量。
本文以该大坝一坝段为例,建立统计模型为[7]:
式中,H为水深;ai为水位分量回归系数;t为观测日至观测基准日的累计天数;t0为建模资料系列第一个测值日至观测基准日的累计天数;b1i、b2i为温度分量回归系数;θ为观测日至观测基准日的累计天数除以100;θ0为建模资料系列的第一个测值日至观测基准日的累计天数除以100,c1、c2为时效因子回归系数。
该模型共选用9项作用分量因子。其中,水压因子3项,温度因子4项,时效因子2项。将式(14)简写成:
2.3 预测模型分析
依据交叉有效性原则确定成分数h,进而确定回归模型。
表1 对y的交叉有效性判别
根据偏最小二乘理论和20期观测值可得偏最小二乘法回归系数、长度修正的偏最小二乘法回归系数。由2组回归系数所构方程和实测15期数据,可得大坝水平位移值的偏最小二乘预测值、长度修正的偏最小二乘预测值以及各自的预测偏差。预测结果对比见表2。
表2 预测结果对比表∕mm
由实测位移与预测位移对比图(见图1)可知,长度修正的偏最小二乘法与偏最小二乘法拟合效果相当。在预测初期,两种方法效果相差不大,均较为理想。但偏最小二乘法在预测8期数据后出现发散,预测精度明显下降。而长度修正的偏最小二乘法预测效果稳定,在长期预测中表现更优。
为具体评价偏最小二乘回归模型和长度修正的偏最小二乘回归模型在预测方面的优劣,绘制预测误差图(见图2)。由图2可看出,长度修正的偏最小二乘法预测精度明显优于未优化的偏最小二乘法。
分别计算两种模型的预测均方误差,得偏最小二乘回归模型的预测均方误差为[8]:S1= 4.60 mm。
长度修正的偏最小二乘回归模型的预测均方误差为:S2= 1.53 mm。
图1 实测位移与预测位移对比图
图2 PLS与LMPLS预测误差图
大坝位移受到水位、温度、时效等因子的影响,这些因素之间存在多重相关性。用常规最小二乘回归法建模存在理论缺陷与误差。偏最小二乘回归法综合了多元线性回归、主成分分析和典型相关分析,克服了自变量间多重相关性对建模的影响,使得模型更可靠。但偏最小二乘法没有考虑非线性特性,故预测精度稍差。本文提出的基于长度修正的偏最小二乘优化法提高了预测模型的精度,并由实例证明该方法在长期预测中表现更优。
[1] 王惠文. 偏最小二乘回归方法及其应用[M]. 北京:国防工业出版社,1999
[2] 李红祥,岳东杰. 偏最小二乘回归在大坝位移监控中的应用[J].水电自动化与大坝监测,2010,34(2):42-44
[3] 吴道闻,韩大建. 因子相关性对大坝监测资料回归分析的影响[J].大坝观测与土工测试,1996,20(3):23-25
[4] 徐洪钟,吴中如. 偏最小二乘回归在大坝安全监控中的应用[J].大坝观测与土工测试,2001, 25(6):22-27
[5] 王惠文,吴载斌,孟洁. 偏最小二乘回归的线性与非线性方法[M].北京:国防工业出版社,2006
[6] AlDRIN M. Length Modified RidgeRegression[J]. Computation Statistics & Data Analysis,1997, 25(4): 377-398
[7] 何政翔.模糊聚类和偏最小二乘法在大坝监测数据分析中的应用[D].西安:西北农林科技大学,2014
[8] 许凤华,李述山. 基于改进的偏最小二乘回归的酸雨pH值预测[J].山东科技大学学报(自然科学版),2006,25(3):110-112
P258
B
1672-4623(2016)10-0085-03
10.3969/j.issn.1672-4623.2016.10.026
汪学琴,硕士研究生,主要从事大地测量与测量工程方面的研究工作。
2015-11-02。
项目来源:国家自然科学基金资助项目(41174002);水能资源利用关键技术湖南省重点实验室开放研究基金资助项目(PKLHD201311);河海大学中央高校基本科研业务费资助项目(2013/B14020383)。