张志博
(广西大学土木建筑工程学院,广西 南宁 530004)
水资源是国家稳定、社会发展、人民幸福的重要基础。随着中国深化改革的推进,国民经济总产值得到进一步的提高,水资源的供需矛盾日益显著,水资源合理配置显得尤为重要[1]。在水资源配置的研究中,区域需水量预测是重要的前提,所以合理有效的需水量预测是区域水资源规划的首要任务。目前国内外采用的需水量预测方法比较多[2],主要包括单一方法和组合方法,单一方法分为传统的预测方法和新型预测方法。传统的预测方法有定额法[3]、线性回归、多元回归[4]、趋势预测法[5]等,新型预测方法有神经网络法[6]、灰色预测法[7]等。单一预测方法和组合预测方法得出的需水量预测结果都是确定性,不能准确预测未来时段用水量的波动性,在实际供用水过程中会出现很多影响预测结果的不确定性因素,而区间预测能够很好地反映需水量预测结果的不确定性[8]。本文在BP预测模型的基础上,引入正态分布区间估计方法,以期更加准确的描述未来柳州市不同时段需水量的不确定性。
柳州市位于广西中部偏东北,全市包括五区五县,即城中区、鱼峰区、柳南区、柳北区、柳江区五区,柳城、三江、融安、融水、鹿寨五县,国土面积18 592 km2。年平均降雨量在1 500~1 600 mm,全年降雨时空分布不均,在5—8月份降雨较多,地表水是其主要的供水水源。根据柳州市统计局统计,柳州市供水量基本维持在23亿m3,供水量年际有一定的变化,主要是受降雨量、供水工程调蓄能力影响。供水结构变化不大,以地表水供水为主。
BP神经网络[9]是一种应用领域广泛的预测模型,它通过模拟训练得到输入数据与输出数据之间的关系,再通过输入新的数据得出模拟预测结果,是一种新型智能预测方法。它的学习过程主要包括以下4个部分,输入模式顺传播、输出误差逆传播、循环记忆训练、学习结果判别[10]。一般情况下,需水预测应用最多的三层BP神经网络,它包括输入层、隐含层和输出层3部分[11]。在MATLAB运行环境下,三层BP神经网络模型的构建步骤如下。
a)数据的预处理。如果BP神经网络输入、输出数据范围特别大,会导致神经网络收敛速度慢、训练时间长。因此,在训练神经网络前需要对原始数据进行归一化处理,使得数据映射到[0,1]或[-1,1]或更小的范围。本文选用premnmx函数对原始数据进行归一化处理,使得归一化后的数据映射到[-1,1]。
b)隐含层结点数的确定。隐含层结点数对BP神经网络训练效果有很大的影响,如果隐含层结点数过多,会导致网络训练过慢且易陷入局部最优。若隐含层结点数过少,则会导致网络学习能力不足、无法实现输入和输出变量的映射关系[12]。隐含层结点数通常按式(1)确定:
(1)
式中n——输入层节点数;h——隐含层节点数;m——输出层节点数;a——0~10的常数。
本文的输入层结点数为5,输出层结点数为1,取a=9,则代入式(1)得隐含层结点数h=11。
c)创建新的前向神经网络。本文选择输入层激活函数为“tansig”、输出层激活函数为“purelin”,构造了一个3层BP神经网络对需水量进行预测。采用梯度自动下降动量和自适应lr算法“traingdx”训练BP网络,目标误差goal=10-3,学习率lr=0.035,最大迭代次数epochs=2000。函数构造语句如下:
net=newff(minmax(P),[11,1],{‘tansig’,‘purelin’},‘traingdx’);
net.trainParam.show=50;
net.trainParam.lr=0.035;
net.trainParam.epochs=2000;
net.trainParam.goal=1e-3;
d)BP网络训练及仿真。调用TRAINGDM算法训练BP神经网络,并对BP网络进行仿真,其算法语句如下:
[net,tr]=train(net,P,T);
A=sim(net,P);
a=postmnmx(A,mint,maxt);
(2)
(3)
(4)
可得μ的置信度为1-α的置信区间[14]为:
(5)
根据《柳州市水资源公报》和《柳州市统计年鉴》统计,柳州市的用水量主要集中在农业、居民生活、工业等,本文初步选取7个因子作为柳州市需水量的影响因子,分别是柳州市常住人口、国内生产总值、工业生产总值、农业生产总值、固定资产投资、有效灌溉面积、播种面积(表1)。通过SPSS软件相关性分析得出这7个影响因子对用水量指标都有一定的影响(表2)。通过表3成分贡献率可以发现,前5个因子累计贡献率达到99.924%。一般情况下,因子累计贡献率达90%就很好的代表相关因子的影响。由表4的因子荷载矩阵可以看出常住人口、国内生产总值、工业生产总值、农业生产总值、固定资产投资对第一主成分的相关系数都达到了0.95以上,所以选择这5个影响因子作为主成分,并以此构造BP模型的输入样本。
表1 柳州市统计数据
表2 各影响因子的相关系数矩阵
表3 主成分特征值和贡献率
表4 主要因子的荷载矩阵
运用SPSS软件对常住人口、国内生产总值、工业生产总值、农业生产总值、固定资产投资与年份进行相关性分析,结果见表5。可以发现,常住人口、国内生产总值、工业生产总值、农业生产总值、固定资产投资均与年份的相关系数分别为0.999、0.997、0.978、0.985、0.991,都接近于1,显著性P值都小于0.01,表明此5个因子均与年份之间存在显著线性关系。于是,绘制5个因子与年份的散点图,见图1—5。
表5 主成分因子与年份的相关性分析结果
图1 常住人口与年份散点拟合
图2 国内生产总值与年份散点拟合
图3 工业生产总值与年份散点拟合
图4 农业生产总值与年份散点拟合
图5 固定资产投资与年份散点拟合
由散点图可以看出,各影响指标和年份之间有良好的线性拟合关系。拟合优度是回归分析的决定参数,可以表明自变量与因变量形成的散点与回归曲线的接近程度[15]。通过SPSS回归分析:常住人口、国内生产总值、工业生产总值、农业生产总值、固定资产投资在回归模型中的拟合优化度分别为R2=0.998、0.993、0.957、0.969、0.981,调整后拟合优化度R2=0.997、0.993、0.953、0.966、0.979,得出回归直线对实际值拟合效果较好。另外,由输出变异系数表(ANOVA)可知各模型统计量F值分别为4 004.230、1 464.204、222.460、315.332、523.761,显著性P值均小于0.01,表明显著性效果很好,模型具有统计学意义。于是对2020、2025年数值进行回归预测分析,结果见表6。
表6 2020、2025年输入层各指标预测值
为了尽量减少样本量少而引起的系统过拟合等随机因素导致的误差对预测结果的影响[15],将柳州市2007—2016年统计数据作为训练数据,2017、2018年统计数据作为检验数据,检验BP神经网络预测的相对误差,并挑选相对误差小于2%的100个BP神经网络预测模型,对2020、2025年柳州市需水量进行预测。
由表7和图6、7可以发现,通过BP模型得出的预测结果满足正态性。由于2020年预测结果的偏度为-0.069、偏度标准差为0.241,偏度值约等于0。2025年的预测结果的偏度为0.609,偏度标准差为0.241,偏度值大于0、偏度的绝对值约为其标准差2.53倍。通过查阅相关资料,偏度大于0为正偏态,偏度小于0为负偏态,偏度约等于0为正态。偏度的绝对值为其标准值的2~3倍,偏度大于0,则此为轻度正偏态分布,反之,偏度值小于0,为轻度负偏态分布。偏态的绝对值为其标差的3倍以上,偏度值大于0,为中度正偏态分布,偏度值小于0,为中度负偏态分布。因此,2020年的预测结果服从正态分布,2025年的预测结果服从轻度正偏态分布。
表7 预测结果统计值
图6 2020年预测结果频率分布
图7 2025年预测结果频率分布
当数据的分布服从轻度正偏态分布时,可以考虑用自然数对数(ln)或以10为底的对数(lg)对其数据进行转化,使其数据服从正态分布,便于对数据进行分析。但是,以10为底的对数(lg)的纠正力度较强,2025年预测数据的偏度绝对值为其标准值的2.53倍,所以采用自然对数(ln)对其进行转换。转换的SPSS语句为new_X=LN(Z),转化后的统计结果为偏度为0.536,偏度的标准误差为0.241,峰度为0.235,峰度的标准误差为0.478。偏度的值小于1,并且转换后的偏度值小于转换前,在一定程度上改善偏态分布,可近似认为转换后2025年预测数据服从正态分布。频率分布见图8。
图8 正态变换后2025年预测结果频率分布
通过SPSS软件对数据进行分析,得出表8预测结果描述统计值。因为抽取的100组2020、2025年预测结果服从正态分布,根据统计学以样本估计总体知识可知,2020、2025年BP模型预测结果服从正态分布。根据正态分布总体均值区间估计方法可得:在置信度95%的情况下,柳州市2020、2025年需水量预测结果分别为21.478亿~21.622亿m3、21.813亿~22.023亿m3。
表8 预测结果描述统计
与传统的预测模型相比,本文将确定性方法与不确定性方法相结合,在满足预测方法相对误差小于2%的前提下,提取100个抽样预测结果,通过SPSS频率分布描述统计,发现预测结果服从一定的正态分布。结合正态分布的区间估计,得出在置信水平95%的情况下2020、2025年柳州市需水量预测结果分别为21.478亿~21.622亿m3、21.813亿~22.023亿m3。