董 永 张志诚 关文海
(1.河海大学水文水资源与水利工程科学国家重点实验室,南京 210098;2.中国长江三峡集团公司三峡枢纽建设运行管理局,湖北宜昌 443133)
大坝安全监测数据建模分析中,通常考虑水压、温度、降水、时效等影响因子作为自变量,利用回归分析方法建立其与监测效应量(因变量)之间的数学模型[1].目前广泛应用的多元回归分析要求自变量因子之间不存在密切的线性相关关系.然而,各类因子间往往不可避免地存在不同程度的相关性,也称为多重相关性[2].这种因子之间的多重相关性有时会对多元回归分析效果产生很大的影响,甚至使回归分析失效[3].本文应用偏最小二乘回归分析方法对大坝安全监测数据进行建模分析.工程实例表明,回归模型能够有效消除因子相关性对模型回归系数估计和回归分析效果的影响,取得的结果较为合理.
设有多元线性回归模型[4]
式中,y为监测效应量(因变量);X为自变量集合;β为回归系数;ε为残差.
当监测数据总体满足高斯-马尔科夫假定ε~N (0,σ2I)时,利用最小二乘估计原理可得
b是β的线性无偏估计,且其方差为
式中,cii为方阵(XTX)-1第i个对角元素.
当X中的因子之间完全相关时,XTX为不可逆矩阵,此时回归系数的最小二乘估计不存在;当X中的因子之间密切相关时,(XTX)-1含有严重的舍入误差,此时回归系数估计方差很大,稳定性降低,使得所建立的多元回归模型可靠性难以保证,这将给模型的应用带来问题.
本文仅考虑单因变量的偏最小二乘回归分析[2],其基本思路是:首先分别在自变量集合X和因变量集合y中提取t1和u1两个主成分.在提取t1和u1这两个主成分时,要求它们最大程度地携带原数据系统中的变异信息,同时它们的相关程度要达到最大,即要求t1和u1的协方差取最大值.
在提取第一主成分t1和u1后,偏最小二乘回归将分别进行X对t1和y对t1的回归,然后利用X和y被t1解释后的残余信息,用同样的方法进行第二轮的主成分提取.依此类推,则第h轮可求得第h个主成分th.若最终对X提取了m个成分t1,t2,…,tm,偏最小二乘回归将进行y对t1,t2,…,tm的回归,然后再变换成y对x1,x2,…,xp的回归方程.
偏最小二乘回归分析通过交叉有效性检验[5-6]来确定建模分析中所需提取的主成分个数.
对因变量的原始数据yi,记是^yhi采用所有样本点并提取h个成分回归建模后,第i个样本点的拟合值,记y的拟合误差平方和为
记^yh(-i)是除去第i个样本点并提取h个成分回归建模后,再把第i个样本点带入模型得到的yi的拟合值,记y的拟合误差平方和为
则定义交叉有效性为
提取主成分时,如果h个成分回归方程含扰动的拟合误差PRESSh能在某种程度上小于h-1个成分回归方程的拟合误差SSh-1,则可认为增加成分th有利于模型精度的提高.因此,比值 PRESSh/SSh-1越小越好,即越大越好.一般认为2h≥(1-0.952) =0.0975时,增加主成分th是有益的,可继续下一步的成分提取,否则停止提取主成分.
某电站厂房为坝后式厂房,在厂房靠下游位置设置了防渗帷幕,并在基础灌浆廊道内布设了测压管监测帷幕线前、后的地下水位变化.以帷幕线后的一支测压管水位为例进行分析,计算时段为2007年3月至2010年6月.参考文献[1],统计模型表达式取为
由于计算时段内库区上游水位、下游水位和降雨量均呈一定的周期性变化,而且考虑滞后效应引入“平均因子”,使得各类因子之间不可避免地存在一定程度的多重相关性.通过计算分析所有建模因子的简单相关系数也可得知,水压因子和时效因子存在密切的线性相关关系.此时,采用传统的多元回归分析将影响模型的回归系数估计和回归分析效果.
本文在建立测压管水位的偏最小二乘回归模型的同时,采用相同的数据及因子建立了多元线性回归模型和逐步回归模型.各种模型的回归系数见表1,模型参数见表2.
由表1综合分析,多元线性回归所求得的回归模型水压分量偏小,降雨分量偏大,无法对模型分量进行准确有效的分解,物理解释能力不足.逐步回归通过过度剔除多重相关因子来消除因子相关性影响,不尽合理.偏最小二乘回归模型分量分解结果表明,时效是引起测压管水位变化的主要因素,水压分量相对多元线性回归有所增大,降雨分量相对减小,与工程实际情况吻合.
表1 模型回归系数
表2 模型参数
结合表2分析,因子相关性对多元回归模型的复相关系数等精度指标影响不大,但在一定程度上影响模型的回归系数估计和回归分析效果,而偏最小二乘回归模型取得的结果较为合理.
(1)针对传统的多元回归分析难以克服因子相关性对模型回归系数估计和回归分析效果的影响,应用偏最小二乘回归分析方法对大坝安全监测数据进行建模分析.工程实例表明,偏最小二乘回归能够有效消除因子相关性的影响.
(2)偏最小二乘回归分析中,如何删除对因变量没有显著解释作用的自变量因子,以增加模型的合理性,有待深入研究.
[1] 吴中如.水工建筑物安全监控理论及其应用[M].北京:高等教育出版社,2003.
[2] 王惠文.偏最小二乘回归方法及其应用[M].北京:国防工业出版社,1999.
[3] 姚楚光.因子相关性对大坝安全监测资料回归分析的影响[J].大坝观测与土工测试,1987(2):13-18.
[4] 陈久宇,林 见.观测数据的处理方法[M].上海:上海交通大学出版社,1987.
[5] 徐洪钟,吴中如.偏最小二乘回归在大坝安全监控中的应用[J].大坝观测与土工测试,2001,25(6):22-23,27.
[6] 邓念武.偏最小二乘回归在大坝位移资料分析中的应用[J].大坝观测与土工测试,2001,25(6):16-18.