上海市自来水供水量的预测与分析研究

2023-03-10 08:29徐见爽
内蒙古统计 2023年5期
关键词:供水量因变量回归系数

文/徐见爽

水资源是人类赖以生存的基石。随着经济社会的不断进步,水资源对保障城市的可持续发展起到了至关重要的作用。本文通过收集上海市2010-2021 年全年自来水供水量以及用水人口、供水管道长度等4 个变量的数据,采用spss 多元线性回归分析方法,建立自来水供水量的预测模型,分析了影响城市自来水供水量的主要因素,并对模型的适用性进行检验,拟合情况良好,以期为城市水资源调度和规划提供可靠、详实的依据。

一、研究背景

水资源是人类赖以生存和发展的基础,是人类可持续发展的重要自然资源和绿色清洁能源。上海是我国最大的经济中心城市,也是一个水质型缺水的城市。随着经济社会的迅速发展,城市出现的水污染和浪费现象与日俱增,由此产生经济效益和生态效益的极大流失。对城市自来水供水量进行预测,有助于做好水资源规划与管理,增强用水效率,使区域水资源高效配置,推动城市的可持续发展。

目前对供水量的主要预测方法有:多元线性回归模型和多元非线性回归模型、时间序列分析模型、灰色预测模型、 神经网络模型等[1]。本文采用多元线性回归分析方法,研究影响上海城市自来水供水量的主要因素,并进行较为精准的预测,以期为城市水资源调度和规划提供可靠、详实的依据。

二、多元线性回归模型

通常在实际问题中,影响因变量的因素往往会有一个或多个,这种一个因变量同多个自变量的回归就是多元回归。当因变量与各自变量之间为线性关系时,称为多元线性回归。

(一)多元线性回归模型原理

设因变量为y, 描述因变量y 与k个自变量x1、x2、x3,…xk之间线性关系的理论模型为:

其中,β0为常数项,表示当所有自变量取值均为0 时,因变量的估计值。β1,β2,…βk为回归系数,表示每个自变量对y 部分地产生了影响。ε为随机误差项,表示由被忽略、没有考虑到的因素引起的变化和数据测量的误差等。

通常假设ε满足E(ε)=0,服从正态分布N( 0,σ2)且相互独立。用最小二乘法通过x、y 的观测样本对β0,β1,…βk进行估计,以b0,b1,…bk表示估计值,则得到估计的多元线性回归方程:

(为因变量y 的预测值)

(二)多元线性回归模型的检验

为了使建立的模型准确预测实际问题,必须保证选择的统计数据是真实的,且自变量与因变量之间存在相关性,因此要对建立的回归方程和回归系数进行显著性检验。一般检验方法有:拟合优度检验、回归方程的显著性检验(F 检验)和回归系数的显著性检验(t检验)。

1. 拟合优度检验。回归方程的拟合优度检验是衡量模型能够解释的数据波动占数据总体波动的百分比情况,从而判断回归方程对样本数据的代表程度,用调整判定系数R2表示。其原理是将总离差平方和分解为回归平方和与残差平方和进而用回归平方和占总离差平方和的比例来反映方程的总体拟合情况,即

调整判定系数R2度量了多元线性回归方程的拟合优度。R2取值范围在[0,1],越接近于1,表明用x的变化来解释的y 的离差部分越多,方程的拟合程度就越好。反之,R2越接近于0,拟合程度越差。

2. 回归方程的显著性检验(F 检验)。回归方程的显著性检验是对因变量与所有自变量之间线性关系是否显著的一种假设检验,一般采用F 检验。基本步骤如下,先提出假设:

其次,计算检验统计量F。

最后,计算F 值对应的概率p 值并进行判断。在给定的显著性水平α下,当α>p 时拒绝H0,认为β1,β2,…βk中至少有一个是不为零,回归方程的线性关系存在。反之,回归方程不存在线性关系。

3.回归系数的显著性检验(t 检验)。回归系数的显著性检验是检验解释变量xi 对因变量y 的影响是否显著。由于方程的显著性检验(F 检验)结果不能确保所有的自变量都能够较好地解释因变量变化,因此必须通过t 检验对每个回归系数作进一步检验。基本步骤如下,先提出假设:

最后,计算t 值对应的概率p 值并进行判断。在给定的显著性水平α下,当α>p 时拒绝H0,认为因变量y与解释变量xi之间有真正的线性关系,即xi的变化对y的线性效果显著。否则H0成立,即xi的变化对y没有显著的线性影响。

三、自来水供水量spss 回归分析及检验

(一)变量的选取及数据获取

一般影响城市供水量的因素比较多样,基于全面性、重点性、可量化及易得性原则,选取了用水人口、供水管道长度、最高日供水量、工业生产总值等四个指标作为反映自来水供水量的解释变量。以2010-2021 年全年供水总量和4 个变量的数据建立多元线性回归模型,进而运用spss 软件对模型进行多元线性回归分析。将全年供水量记为y,用水人口、供水管道长度、最高日供水量、工业生产总值分别记为x1、x2、x3、x4。数据引用自2010-2021 年《中国城市建设统计年鉴》、《上海统计年鉴》、《上海市水资源公报》。

表1 供水量及其影响因素的基本资料

(二)自来水供水量spss 回归分析及结果检验

spss 作为研究中常用的统计软件之一,具有强大的数据管理功能,可以帮助研究者对数据进行整理、分析,探寻其中的规律。打开spss,导入数据,选择分析—回归—线性,选择y 为因变量,x1、x2、x3、x4为自变量,采取“输入”分析方法,点击统计,选择选项“估算值”“模型拟合”“德宾沃森”。在线性回归:图对话框中,勾选“正态概率图”。在保存界面选择“预测值未标准化”及“残差未标准化”,得到如下检验结果。

1.拟合优度检验。

由表2 可知,该模型的调整R2值为0.911,表示自变量对因变量的解释程度为91.1%,从数值看对供水量的预测程度较高,拟合程度比较好。DW 值(德宾-沃森)说明样本是否满足独立性。一般DW 值在0-4之间,越接近于2,观测值相互独立的可能性越大。本例中DW 值为2.77,可以认为本研究中的观测值具有相互独立性。

表2 模型摘要

2.回归方程的显著性检验。

由表3 可知,回归方程的显著性水平小于0.001,说明至少有一个自变量的回归系数不为零。一般当p<0.01 时,称回归方程高度显著,模型具有统计学意义。

表3 方差分析

3.回归系数的显著性检验。

t 检验是对单个自变量的显著性检验。在一般假设检验中常用的α 值有0.01、0.05、0.1。一般认为当P ≤0.05 时为显著,p ≤0.01 时称高度显著。由表4可知,x1、x2、x3的显著性水平都低于0.01,变量系数高度显著,具有极强的统计学意义。常量的显著性水平小于0.05,也是显著的。x4的显著性水平为0.054,稍高于0.05。因本例中研究的样本数量为小样本,此时α可适当放宽到0.1,同时基于模型预测的准确性考虑,所以对x4不作剔除,将常量、x1、x2、x3、x4均纳入到回归方程中,得到回归方程模型如下:

表4 回归系数的显著性检验

4.回归标准化残差的正态P-P 图。P-P 图是一种用于检验数据是否符合指定分布的图形化方法。多元回归模型的基本假设之一是残差服从正态分布。通过spss 软件可得到回归标准化残差的正态P-P 图如下图1。可以看出数据点围绕着对角线附近波动,表明预期累计概率与实测累计概率差别不大,基本符合正态分布。

图1 回归标准化残差的正态P-P 图

5. 误差分析。结合上海市2010-2021 年自来水供水量的实际值和回归方程的预测值,对两者之间进行拟合误差检验,spss 返回结果见下表5(保留2 位小数)。

表5 误差分析

通过对上海市自来水供水量的实际值和预测值之间相对误差的比较,该回归模型的最大误差为1.25%,最小误差为0.08%,平均误差为0.56%。说明回归模型具有较高的精确度,可以用来预测城市供水量。

6.模型应用。通过查阅上海市统计局、上海市水务局2022 年相关数据资料,将2022 年上海市用水人口、供水管道长度、最高日供水量、工业生产总值这4个影响自变量的数据代入到建立的回归方程模型中,预测得到2022 年上海市自来水供水量为29.59 亿立方米,实际自来水量为29.23 亿立方米。通过比对发现预测值与实际值存在1.2%的误差,在允许范围内,进一步验证了该模型的准确性。

表6 2022年上海市自来水供水量预测结果

四、结语

随着城市经济社会的不断发展,水资源在人们生活中的影响日趋显著,其分配、供给与现代文明城市可承载的人口数量、经济发展水平有着极为重要的关系。科学准确地预测城市自来水供水量,不仅是合理分配水资源的重要前提,而且对于合理规划城市规模、布局和发展方向起着至关重要的作用。

本文通过收集上海市2010-2021 年的全年供水量、用水人口、供水管道长度、最高日供水量、工业生产总值等数据,对上海市自来水供水量及其影响因素进行讨论。运用spss 多元线性回归中的输入回归分析法,可以看出用水人口、供水管道长度、最高日供水量等3 个变量对城市供水量的影响颇为显著。由于自来水供水量大部分用于城市居民生活,且工业生产用水中有较大部分依赖于自建设施直接通过泵房从河湖取水,因此工业生产总值的指标对于自来水供水量的影响稍小,但不能因此认为没有关联性,所以仍一并纳入回归方程中进行考量。

通过建立的回归方程模型的预测值和实际值之间的差值比对,平均误差为0.56%,说明该模型具有较高的精度,拟合情况较好,可以达到简单方便地预测城市供水量的效果,对城市供水系统规划设计、优化区域水资源配置以及城市的可持续性发展均具有一定的理论意义和实用价值。

猜你喜欢
供水量因变量回归系数
成都市主城区日供水量的气象相关性分析
调整有限因变量混合模型在药物经济学健康效用量表映射中的运用
兰溪市供水需求侧气象条件分析及预测模型建立
河南省供水结构变化及不平衡性
适应性回归分析(Ⅳ)
——与非适应性回归分析的比较
多元线性回归的估值漂移及其判定方法
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
偏最小二乘回归方法
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
全省供水工程供水量(按工程类型分)