偏最小二乘回归在系统形变分析中的应用

2014-08-25 01:19张亚利
测绘工程 2014年8期
关键词:共线性分析模型因变量

张亚利,刘 星

(1.重庆大学 土木工程学院,重庆 400045;2.重庆大学 山地城镇建设与新技术教育部重点实验室,重庆 400045)

偏最小二乘回归在系统形变分析中的应用

张亚利1,2,刘 星1,2

(1.重庆大学 土木工程学院,重庆 400045;2.重庆大学 山地城镇建设与新技术教育部重点实验室,重庆 400045)

系统形变往往由很多主导因素引起,且各主导因素之间并不独立。以国土利用变化驱动分析为例,运用偏最小二乘回归方法建立变化的驱动机制模型,并和主成分回归法相比较。结果表明,偏最小二乘回归不仅在拟合效果上优于主成分回归,系统性更强,结论更可靠,而且偏最小二乘模型的回归系数更易于解释,提供的系统信息也更丰富。偏最小二乘为样本个数少、自变量多、且变量间存在多重共线性的复杂大系统形变分析提供了新的、有效的解决途径。

偏最小二乘;多重共线性;形变分析

由于受多种主观和客观因素影响,系统会产生形变,形变如果超出了规定的限度,就会影响系统的正常使用,严重时还会导致安全事故。为此,系统形变监测不仅要掌握变形体的实际性状,更要分析导致形变的原因及各原因的相互耦合作用,即形变的物理解释[1]。

统计分析法是形变物理解释中的一种重要方法,主要以回归分析模型为主。传统的回归分析模型中包括多元回归分析模型、逐步回归分析模型、主成分回归分析模型和岭回归分析模型等[2]。多元回归对相互独立的自变量系统形变分析比较有效,当系统存在多重共线性时,则分析效果不好;逐步回归存在自变量取舍问题,且取舍的原则仅仅从该变量是否显著的数学原则出发,而未考虑其在系统中的具体意义和所起的作用,有些比较重要的自变量常被舍弃;岭回归分析中岭参数的选择受到人为因素的影响,导致建立的模型可比性差,且岭回归仅是从数学角度,改善矩阵求逆时的病态性问题,并没有顾及自变量系统对因变量系统的解释问题,因此所建立的模型中各变量的系数所体现的含义常常与事实不符;主成分回归仅仅从自变量中提取主成分,导致所建立的模型可能对因变量的解释不强。而偏最小二乘(Partical Least Squares,PLS)回归分析在建模过程中集中了主成分分析、典型相关分析和多元线性回归分析的特点,是建模预测类型的数据分析方法与非模型式的数据认识性分析方法的有机结合,被称为“第二代回归分析”。

PLS在1983年被提出后,国外学者开展了广泛深入的理论探讨和应用研究[3-10],国内则主要从应用方面开展了相关研究[11-17]。研究表明,在多因变量对多自变量的回归建模中,当各变量集合内部存在较高程度的相关性时,用偏最小二乘回归分析建模,比对逐个因变量做多元回归更加有效,其结论更加可靠,整体性也更强[18],因此是一种非常有效的系统形变分析方法。

1 偏最小二乘回归原理

偏最小二乘回归通过提取对整个变量系统具有最佳解释能力的新综合变量,然后进行回归建模,其基本算法如下[18]:

t1=E0w1.

(1)

u1=F0c1.

(2)

根据主成分分析原理,则

Var(t1)→max,

Var(u1)→max.

再由典型相关分析

r(t1,u1)→max.

综合起来,偏最小二乘表达式为求解下列优化模型:

(3)

采用拉格朗日算法,令

(4)

对s分别求关于w1,c1,λ1,λ2的偏导,并令其为0,即

(5)

上式可导出

(6)

(7)

将式(7)代入式(6)得

(8)

求得w1,c1后,则第一个成分

t1=E0w1,

u1=F0c1.

分别求E0,F0对t1,u1的3个回归方程,得

(9)

其中:回归系数向量

(10)

用残差矩阵E1,F1分别代替E0和F0,求w2,c2,则第二个成分

t2=E1w2,

u2=F1c2.

(11)

而目标函数

(12)

(13)

(14)

因此,回归方程

(15)

(16)

依此类推,若X的秩为A,则

(17)

(18)

(19)

其中,FAk是残差矩阵FA的第k列。

(20)

2 实例分析

由PLS的回归原理可以得出:偏最小二乘回归在对多自变量系统中的信息进行筛选时,不是对自变量进行逐个的判断去留,而是利用信息分解的方法,将自变量系统中的信息重新组合,有效地提取对系统解释性最强的综合变量,去除重叠信息或无解释意义的信息,从而获得更好的分析结果。

为体现PLS对多因变量和多自变量所组成的复杂系统分析时的优越性,现选择自变量意义明确,样本个数少于自变量个数的重庆市某区国土利用变化作为实例。

由总人口、非农人口、农林牧渔产值、国内生产总值、全社会固定资产投资额和人均国内生产总值构成原始自变量数据X,即

X=[X1,X2,X3,X4,X5,X6].

由耕地面积、园地面积、林地面积、水域面积、建设用地面积和未利用地面积构成原始因变量数据Y,即

Y=[Y1,Y2,Y3,Y4,Y5,Y6].

计算自变量相关系数如表1所示。表1表明:各自变量之间并非相互独立,存在相关关系,而且大部分属高度相关。

为发现自变量对因变量的影响规律,计算二者相关系数如表2所示。

表1 自变量相关系数

表2 自变量与因变量相关系数

将原始自变量数据X标准差标准化后构成矩阵E0;原始因变量数据Y标准差标准化后构成矩阵F0,则

依据偏最小二乘回归[18]计算得

所得到的标准化回归方程可以概括各自变量对因变量的作用关系。自变量系数的符号表示其对因变量的作用方向:“+”表示自变量对因变量的作用是正向的,即自变量与因变量变化方向相同;“-”表示自变量对因变量的作用是反向的,即自变量与因变量变化方向相反。系数绝对值的大小表示自变量对因变量的作用强度:绝对值越大,表示其作用强度越强;绝对值越小,表示其作用强度越弱。

模型(21)中各系数具有“权重”意义,通过比较系数,确定各自变量对因变量的作用强弱关系。模型表明:影响该区土地利用变化的解释变量系统中,各变量对土地利用系统的驱动强度不同,由强到弱的排序为:国内生产总值>全社会固定资产投资额>总人口>非农人口>人均国内生产总值>农林牧渔产值。

虽然自变量系统存在严重的多重共线性问题,但模型(21)中各自变量系数的符号与表2所体现的规律一致,不仅清晰地体现了各自变量对因变量的作用方向,而且较表2更直观科学地反映出各自变量对因变量的作用强度。

将模型(21)还原为用原始变量表示的偏最小二乘驱动模型为

(22)

3 与主成分回归的对比分析

对X进行标准差标准化,计算得到其协方差矩阵所对应的各特征根和主成分的方差贡献率如表3所示。

表3显示:第一主成分所对应的特征值为5.175,贡献率也达到86.244%;因此,选择第一主成分计算其所对应的标准化特征向量[19]

0.439 0 0.439 0 0.425 4).

代入数据得到主成分回归模型如下:

表3 特征值及主成分贡献率

(23)

比较偏最小二乘回归模型(22)和主成分回归模型(23)发现,两种回归方法得到的模型非常接近,现将两种回归方法得到的残差平方和进行比较,数据如表4所示。

表4 残差数据

表4表明:PLS回归模型中园地的残差平方和5.022大于主成分回归的残差平方和4.955;但其他土地类型的残差平方和都小于主成分回归,导致其系统总残差平方和较小。可见,PLS回归所建立的模型不仅能对自变量与因变量的相互关系有良好科学的解释,整体性也更强。

4 结束语

PLS回归是一种非常有效的系统形变分析方法,所建模型中能保留自变量系统中的全部自变量,自变量系数的符号和绝对值的大小可以清晰地说明该自变量对因变量的作用方向和作用强度,语义明晰,解释性强。与主成分回归的对比分析表明,PLS回归的稳健性和整体性更强。

PLS回归作为一种新的回归方法,尤其对自变量个数多于样本个数,且各变量间存在严重的多重共线性的复杂形变分析有很好的效果。为拓展PLS回归的应用范围,今后应加强以下几方面的研究:①针对因变量可能存在较大的粗差,研究PLS回归系数的稳健求解方法;②加强非线性模型与PLS回归模型的融合,以解决现实中存在的大量非线性问题;③充分利用先验信息建立约束条件,探求此基础上的PLS回归系数求解方法;④研究关于偏最小二乘的统计检验方法。

[1]陈 蕾,刘立龙,陈东银.自适应卡尔曼滤波法用于变形监测数据处理[J].测绘工程,2008,17(1):48-50,54.

[2]黄声享,尹晖,蒋征.变形监测数据处理[M].武汉:武汉大学出版社,2003.

[3]HOSKULDSON A. PLS regression methods[J].Journal of Chemometrics,1988,2:211-228.

[4]HELLAND I S. On the structure of partial least squares regression. Communications in statistics- simulation and Computation, 1988,17:581-607.

[5]HELLAND I S.PLS regression and statistical models[J].Scandivian Journal of Statistics, 1990, 17:97-114.

[6]WOLD S,KETTANEH-WOLD N,SKAGERBERG B. Non-linear PLS modeling[J].Chemometerics and Intelligent Laboratory Systems, 1989,7:53-65.

[7]EDWARD M A, RICHARD T. Nonlinear Partial Least Squares [J].Computers in Chemical Engineering, 1997,8:875-890.

[8]YAROSHCHYK P,DEATH D L, SPENCER S J.Comparison of principal components regression, partial least squares regression, multi-block partial least squares regression, and serial partial least squares regression algorithms for the analysis of Fe in iron ore usin g LIBS [J]. Journal of Analytical Atomic Spectrometry, 2012,27(1):92-98.

[9]ABUDU S,KING J P ,PAGANO T C.Application of partial least-squares regression in seasonal stream flow forecasting[J].Journal of Hydrologic Engineering,2010,15(8):612-623.

[10]GELADI P, QKOWLASKI B. Partial Least Squares regression :A tutorial [J]. Analytica chemical Acta, 1986,35:1-17.

[11]蒋国兴.偏最小二乘回归方法(PLS)在短期气候预测中的应用研究[D].南京:南京信息工程大学, 2007.

[12]张正健,刘志红,郭艳芬,等.偏最小二乘在遥感监测西藏草地生物量上的应用[J].草地学报,2009,17(6):735-739.

[13]徐洪钟, 吴中如.偏最小二乘回归在大坝安全监控中的应用[J].大坝观测与土工测试, 2001,25(6): 22-27.

[14]杨杰, 吴中如.观测数据拟合分析中的多重共线性问题[J].四川大学学报:工程科学版,2005,37(5):19-24.

[15]李林, 付强.偏最小二乘回归模型的城市水资源承载能力研究[J].水科学进展,2005,16(6):822-825.

[16]罗批, 郭继昌, 李锵, 等.基于偏最小二乘回归建模的探讨[J].天津大学学报, 2006,35(6):783-786.

[17]李智录.大坝安全监控统计模型研究[D].西安:西安理工大学,2006.

[18]王惠文.偏最小二乘回归方法及其应用[M].北京: 国防工业出版社,1999.

[19]王黎明, 陈颖, 杨楠.应用回归分析[M].上海: 复旦大学出版社,2008.

[责任编辑:刘文霞]

The application of partial least squares regression in system deformation analysis

ZHANG Ya-li1,2, LIU Xing1,2

(1.School of Civil Engineering, Chonqjing University,Chongqing 400045,China;2.Key Laboratory of New Technology for Construction of Cities in Mountain Area of Ministry of Education, Chongqing University, Chongqing 400045,China)

System deformation is usually caused by many leading factors, which aren’t independent. Taking driving analysis of the land use change as an example, a dynamic models is set up based on partial least squares regression. and also compared with principal component regression.The results show that partial least squares regression not only has better fitting, stronger systematic and reliable than principal component regression, but also the coefficients are easily explicated and much large systematic information are transmitted. Partial least squares will provide a new and effective analysis method for complicated and big system which has less samples,more independent and multicollinearity variables.

partial least squares; multicollinearity; deformation analysis

2013-09-24

重庆市自然科学基金资助项目(cstc2011jjA0065)

张亚利(1971-),女,副教授,博士.

P207

:A

:1006-7949(2014)08-0001-05

猜你喜欢
共线性分析模型因变量
基于BERT-VGG16的多模态情感分析模型
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
文氏图在计量统计类课程教学中的应用
——以多重共线性内容为例
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
不完全多重共线性定义存在的问题及其修正建议
偏最小二乘回归方法
层次分析模型在结核疾病预防控制系统中的应用
全启发式语言分析模型