朱苹
摘 要 本文利用多元线性回归方法对北京市自来水总销售量数据进行建模。用主成分分析产生以北京市国民生产总值、常住人口数、污水处理率、年降水量、城市绿化覆盖率为原始变量的线性组合作为主成分,而后利用比较标准,建立“最优”的回归方程。模型通过残差图检验可知回归效果良好,具有预测能力。本文的建模方法以及模型为较准确地预测北京市自来水总销售量提供参考。
关键词 自来水总销售量 主成分分析 多元线性回归 R语言
中图分类号:TV213.4 文献标识码:A DOI:10.16400/j.cnki.kjdks.2015.12.076
Application of Multivariate Linear Regression Model
in Predict the Amount of Water in Beijing
ZHU Ping
(School of Science, Beijing Technology and Business University, Beijing 100048)
Abstract In this paper, the use of multiple linear regression method of Beijing Waterworks total sales data modeling. Beijing produced GDP, the resident population, the sewage treatment rate, annual rainfall, urban green coverage to a linear set of original variables of cooperation as the main ingredient, then the use of comparative standards, establish "optimal" principal component analysis of the regression equation. Model tested by residual plot shows that the return to good effect, with the predictive ability. Modeling methods and model reference herein to more accurately predict the Beijing Waterworks total sales.
Key words total sales of tap water; principal component analysis; multiple linear regression; R language
0 引言
水是人类赖以生存和发展的最重要的物质资源之一。丰富的可利用水资源有利于加速城市发展和强化其容纳能力,保障社会、经济、生态的可持续发展,促进和谐社会建设。城市自来水总销售量可以反映城市用水的长期需求,因而准确地预测城市自来水总销售量,不仅有利于水资源的合理分配,而且为保障充足的城市生活用水量提供参考依据。在城市的发展和规划中,政府始终对更加准确地预测城市自来水总销售量十分重视。在国内外学者针对城市用水需求量预测的学术研究中,应用的预测方法包括用水定额法、解释性预测方法、灰色预测、时间序列分析法以及人工神经网络法等。本文选取北京市1985~2012年共28年的北京市自来水总销售量数据,并针对影响北京市自来水使用量的因素及其数据进行收集处理,采用多元线性回归法预测北京市自来水销售总量,并取得较好的预测结果。
1 理论与概述
1.1 主成分分析①
主成分分析是通过降维技术把多个变量化成少数几个主成分的方法。这些主成分表示为原始变量的线性组合,并且能够反映原始变量的绝大部分信息。主成分的表达式:
= + +…+
= + +…+
= + +…+
其中,原始变量的标准化变量为,线性组合的系数称为因子负荷量。主成分按其对反映原始数据信息特征的贡献率大小排序为:>>…>。
1.2 多元线性回归分析②
在许多实际问题中影响因变量的自变量往往不止一个,通常设为≥2个,此时可以采用多元线性回归模型:
设变量与变量,,…,间有线性关系 = + + … + + ,其中~(0,), ,,…,,和是未知参数。
2 多元线性回归模型的建立
2.1 变量选取与原始数据
城市生活中的自来水主要通过自来水处理厂汲取江河湖泊及地下水、地表水,经过净化、消毒等工艺流程的处理,最后通过配水泵站输送供人们生活、生产使用。城市的国民生产总值反映一个城市的经济水平,由于城市自来水满足着人们对生产运营用水、公共服务用水以及居民家庭用水的需求,因而其总销售量与城市的经济发展水平有着密不可分的关联,城市自来水需求总量越大可反映这个城市的经济发展较为迅速;城市的常驻人口数对居民家庭用水需求量有着决定性的影响;污水处理率可以反映城市的节水能力,处理率的提高有助于水资源的循环利用;城市的用水总量可能与城市的年降水量成负相关,由于降水可减少农作物灌溉、公共绿地喷洒、市政道路清洁作业等用水需求;城市绿化覆盖率可以反映城市生态环境状况,绿化覆盖率的增加虽然会增加公共绿地浇洒的用水需求量,但同时可以保护水资源并改善生态环境。
综合分析,选取北京市自来水总销售量作为因变量,对北京市自来水总销售量产生较多影响的五个影响因素作为自变量,分别为北京市国民生产总值(GDP)、北京市常住人口数、污水处理率、年降水量、城市绿化覆盖率。利用1985~2007年数据③ 建立多元线性回归模型,2008~2012年数据检验模型预测能力。
2.2 数据的处理
数据说明:令为北京市国民生产总值(GDP)(单位:亿元)、为北京市常住人口数(单位:万人)、污水处理率(单位:%)、年降水量(单位:毫米)、城市绿化覆盖率(单位:%)和自来水销售总量(单位:万)。
数据处理:通过观察数据标准化后的散点图和复相关系数及其对应检验的值,得知自变量间存在共线性问题。利用主成分分析的方法,解决变量之间的多重共线性问题(表1)。
表1 主成分分析结果
由载荷因子矩阵得:
= 0.4660.4780.470+0.3510.459,
= 0.2660.1650.2030.926,
= 0.363+0.4160.1310.82,
= 0.7580.2370.603,
= 0.826+0.449+0.332。
如图1所示,利用主成分分析的方法,变量之间的多重共线性问题成功得到解决,同时得到5个自变量的主成分分析数据。
2.3 模型的选择
“最优”的回归方程:利用比较标准,建立“最优”的回归方程。
图1 Y和主成分,,,,的散点图
图2 关于,回归系数的检验结果
(下转第190页)(上接第168页)
表2 回归子集及相应的,,,:
通过以上实验结果(表2),根据这样的格式较大,的值较小并且与自变量个数较接近,较小,的值较小的回归方程较优的比较标准,进行回归的效果对比。④
从上述结果可知(图2)所建立回归模型显著。“最优”的回归方程如下:
= 8.740?.38021.231
经变换得到原坐标下的关系表达式:
= 0.505+0.385+0.429+1.006+0.175
3 模型的检验
如图3残差分析图所示说明该模型回归效果良好。
表3 预测值的相对误差
如表3所示,通过利用2008~2012年数据对模型预测能力进行检验,所得相对误差足够小,说明模型有效并具备预测能力。
4 结论
从以上分析可以看出,通过主成分分析解决了因变量之间严重的复共线性问题,利用全部主成分选择建立“最优”回归方程,模型通过显著性检验并能够用来预测。目前,北京市持续发展着供水水源多元化的格局,用以保障人们正常的生产、生活用水需求,但由于北京市人口数量已超负荷,使得北京市人均水资源占有量远低于国际人均水资源占有量的重度缺水标准。长期以来自来水供求关系紧张的实际情况解释了建立模型中所求参数均大于零的现象,GDP、人口数量和绿化覆盖率的增长会增加用水需求,污水处理率、年降水量的增长有助于丰富水资源的同时增加自来水的供应量,从而提高自来水总销售量。本文通过科学的方法为较准确地预测北京市自来水总销售量提供参考。
注释
① 薛毅.R统计建模与R软件[M].清华大学出版社,2007:423-441.
② 王惠文.多元线性回归的预测建模方法[J].北京航空航天大学学报,2007.33(4):500-504.
③ 中华人民共和国国家统计局,中国统计年鉴[M].中国统计出版社,2003-2012.
④ 肖枝洪.多元统计分析及其R实现[M].科学出版社,2013:69-82.