马英豪 成 雷 高 攀
(山东省胶东调水局, 山东 济南 250013)
因子分析对青岛水资源情况的预测
马英豪成雷高攀
(山东省胶东调水局, 山东 济南250013)
本文利用成分因子分析等统计学方法,通过对青岛历年水资源数据的整合和分析对比得出风险因子,从而建立数学模型对水资源紧缺情况进行预测,为水资源综合利用提供科学依据。
青岛; 成分因子; 水资源; 风险预测
水资源紧缺是世界所有国家都面临的迫切问题,而我国缺水问题尤为严重,特别是长江以北地区,呈现逐年递增趋势,严重影响了当地的居民生活和经济发展。青岛作为北方缺水型大城市,对于分析地区水资源紧缺情况具有较大的代表性和可研究性。通过查看2013年青岛公布的水资源情况统计资料,发现与青岛水资源紧缺问题有关的直接因素有年降雨量、胶东调水年送水量、人口数量递增量、大沽河水情、工农业生产需求量等。本文对产生水资源紧缺的风险因子进行分类分析并进行评价判定,通过建立数学模型对青岛水资源紧缺的风险情况进行综合性的辨析,并得出调控主要风险因子的方法。然后,运用此方法对青岛2013年和2014年两年的水资源情况进行详细的分析判断并判断出水资源是否紧缺,同时通过青岛2013年和2014年两年的水资源实际情况对判断方法和结论进行检验。
影响水资源紧缺风险评价判定的因素非常多,且每个因素对评价判定的影响程度不同。因此,运用主成分分析法和因子分析法等方法,找到影响因素对水资源紧缺风险的权重程度,从而得到青岛水资源紧缺风险的主要风险因子。
主成分分析法是将多个变量通过线性变换选出较少个数重要变量的一种多元统计方法。这种方法可以利用变量之间的相关关系进行重叠从而相对原变量提出尽可能少的新变量,同时使这些新变量相互之间不关联影响,且确保这些新变量在反映课题的信息方面尽可能保持原有的信息。
因子分析是指研究从变量群中提取共性因子的统计技术。主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量。因子分析的结果可以通过主成分分析的结果进一步计算得出。
我们可以用F1表示由缺水量的第一个线性组合所形成的主成分指标,即F1=a11X1+a21X2+…+ap1Xp,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。F1作为第一主成分,在所有的线性组合中选取的F1应该是X1、X2、…、XP的所有线性组合中方差最大的。但是它不能够涵盖原来p个指标的信息,于是选取第二个主成分F2,但F2与F1要保持独立、不相关,即协方差Cov(F1,F2)=0。依此类推构造出的F1、F2、…、Fm为原变量指标X1、X2、…、XP的第1、第2、…、第m个主成分。
根据以上分析得知:
X1、X2、…、XP在线性组合中的方差最大,即Fm是与F1、F2、…、Fm-1都不相关的X1、X2、…、XP的所有线性组合中方差最大者。F1、F2、…、Fm(m≤p)为构造的新变量指标。
求解:a. 计算协方差矩阵。 ∑=(sij)p×p,其中
b.不仅要得到∑的特征值λi而且要知道正交化单位特征向量ai。λ1≥λ2≥…≥λm>0是方差数值,而ai就是成分分析中的主成分的Fi的原变量系数,则它们之间的关系如下:
根据贡献率的数值,可以判断出来变量情况。比如贡献率超过85%时,说明此数值合理反映了原来变量的信息,对应的m就是抽取的前m个主成分。具体计算过程,采用MATLAB主成分分析进行主成分判定选取。
d.计算相关程度。相关程度反映了主成分Fi与缺水量之间的相互关联程度。相关程度的含义不同于权重,但是它同样能够反映各主成分与缺水量之间的相关关系。运用SPSS软件中因子分析并得出结果。
主成分分析结果:应用MATLAB对所需数据进行分析,得到每个因子对于实际水资源缺乏量的影响大小,进行主成分的判定选取。通过MATLAB处理得出:总用水量、实际的水资源数量、自然水资源降水数量、污水处理净化能力、污水处理转换率的影响程度值为:7.74,20.21,9.91,5.56,4.39。
2.1风险指标
根据常用的水资源风险评判指标,选取了风险率、脆弱性、可恢复性、重现期、风险度五项指标。下面对这五项指标分别进行阐述。
a.风险率。一般而言,每个城市对于水资源情况都会有记录,通过长期观测会发现一个比率:整个水资源系统的缺水时长与整个水资源使用时长之间的比,计算公式如下:
(1)
b.脆弱性。是指水资源在使用过程平均短缺情况的重要数据。例如,将缺水年每个月的缺水量叠加为∑VEi,干旱月份的整体用水量用∑VDi表示,故此,整个水资源系统的脆弱性就可以表示为:
(2)
c.重现期。相邻两次出现缺水情况F之间的时间间隔,称为平均重现期。我们用d(μ,n)表示第n次间隔时间的历时,可以得出平均重现期为:
(3)
d.可恢复性。指城市从水资源紧缺状态回复到满足需求状态的可能性。
(4)
其中,0<β<1, β越大表明该系统越能更快地从缺水状态转变为不缺水状态。
e.风险度。用σ表示标准差,σ值如果变大,就证明该水资源系统的风险越大,反之则相反。
(5)
特别需要注意的是:风险度与前面提到的风险率有所区别,风险度可以比1大,而风险率一定不能大于1。
2.2风险评价
根据上述5项评价指标,建立数学概率模型,对水资源紧缺风险进行综合评价。所谓风险评价,是指在风险识别和风险分析的基础上,把损失概率损失程度以及其他因素综合考虑,分析该风险产生的影响,寻求风险对策并对该对策的影响进行分析,为风险决策创造条件。
假设给定2个有限论域U={v1,v2,v3,…,vn},V={v1,v2,v3,…,vn}。其中U代表由综合评判因素所组成的集合, V代表由评语所组成的集合。分配权重A是U上的模糊子集,评判结果B是V上的模糊子集,并且可表示为A={λ1,λ2,λ3,…,λm},0≤λi≤1;权重分配A满足∑λi=1(i=1,2,…,m);权重分配A的系数确定通过层次分析法(AHP)得到。关系矩阵R可表示为:
Ri={ri1,ri2,ri3,…,rin}即为对第i个因素ui的单因素评判结果。
将水资源紧缺风险划分为五个等级,见表1。
表1 各评价因素分级指标
此模型用以下矩阵表示
水资源紧缺风险评价各因素影响程度采用(AHP)式的分析方法,同时通过A=(λ1,λ2,λ3,λ4,λ5)得到以下向量:
在具体计算实现的过程中,仍然运用MATLAB进行运算,得到各项风险判定指标,之后根据采用层次分析法确定各因素权重,对水资源紧缺风险等级进行判定评价并得出结论,风险等级的判定结果,见表2。
表2 青岛1982—2012年缺水概率分布参数 单位:106m3
在实际操作过程中,可以一边计算水资源能否做到进出平衡,一边用风险数据指标对青岛水资源情况进行数据量化分析,见表3。
表3 青岛水资源紧缺风险性能指标描述
采用AHP法对青岛各评价指标的权重计算结果为A=(λ1,λ2,λ3,λ4,λ5)=(0.40,0.20,0.10,0.10,0.20),利用上述的风险评价的指标对青岛水资源紧缺风险情况进行综合评价判断,成果见表4。
表4 青岛水资源紧缺风险综合评分值
根据常识及AHP法分析得到权重分配:
再根据上边的关系矩阵的公式得到如下关系矩阵:
通过模型得出的评价值可知青岛的水资源紧缺等级介于较高风险和高风险之间;根据得出的风险因子采取有效措施进行调节,可以避免出现用水紧张情况,否则就可能造成当地生活和生产的用水紧张。
由于需要对2013年以及2014年青岛水资源紧缺风险进行预测,建立缺水量预测的BP神经网络模型进行缺水量的预测。其中, Y为固定年份用水总量(万t),ZY为作为标准化处理后的变量值;令W固定年份实际需求用水量(万t),ZW为作为标准化处理后的变量值(见图1和表5~表6)。
图1 具有单隐层的三层BP神经网络拓扑结构
年 份200720082009201020112012缺水量Y/万t17.4013.2011.309.8011.000.90标准化ZY/万t-0.0288-0.1913-0.2647-0.32281.0000-0.6670
表6 基于时间序列的青岛年需水量
求解:
a.训练样本确定。对将1983年和2012年数据进行建模,将2013年和2014年的数据带入模型进行测试。利用主成分分析,比较ZY和ZXi的相关系数矩阵,得出各因子对ZY的作用大小为:ZX1>ZX2>ZX3>ZX4>ZX5>ZX6>ZX7>ZX8,利用下列因子建模ZX1、ZX2、ZX3、ZX4、ZX5。
b.模型参数。训练函数、学习函数、性能函数、隐层传递函数、输出层传递函数分别为TRAINLM、LEARNDM、MSE、TANSIG、PURELIN。根据输入层、输出层、惯量因子、迭代,学习系数和目标误差,列出数据分别为:5.0,1.0,0.5,1000,0.05,0.001。
c.隐含层神经元数目的确定。该层神经元数目采用试算法确定。
d.网络仿真。通过ATLAB的newff函数建立一个前向型BP神经网络。训练经迭代8次后误差达到允许范围。将测试样本向量输入作预测,并将结果做反归一化处理,得到2013年和2014年的缺水量分别为12.34万t和15.6万t,总用水量分别为30.96万t和32.21万t。以此为依据,可预测到各项指标,青岛2013年缺水风险预测结果见表7。
表7 2013年各项风险系数数据
由表7数据并结合关系矩阵Rv内各元素的求解公式得到:
仿照前述的模糊数学综合评判方法B=A∘Rv,而A=[0.40,0.20,0.10,0.10,0.20],可得B=(0.20,0.20,0.20,20.40,0.40)。
由此可知2013年青岛缺水等级为高风险缺水,需采取有效调控措施,以减轻水资源高风险的现状,青岛2014年缺水风险预测结果见表8。
表8 2014年各项风险系数数据
由表8数据并结合关系矩阵Rv内各元素的求解公式得到
运用模糊数学综合评判方法B=A∘Rv,而A=[0.40,0.20,0.10,0.10,0.20],可得B=(0.20,0.20,0.20,20.40,0.40)。由此可知2014年青岛缺水等级为高风险缺水,需采取有效调控措施,以减轻水资源高风险的现状。
由于2013年和2014年已经过去,笔者用有关部门现已公布的数据对以上预测进行对比,发现以上结论均与事实相符,使本文所建立和求解的模型得到了很好的验证。证明利用因子分析方法预测水资源情况是可行,在合理利用SPSS统计学分析工具和MATLAB神经网络工具以后,增加了预测的准确性,也一定程度上避免了人工繁杂的计算过程,不失为一种很好的水资源风险预测方法。
Forecast of water resources condition in Qingdao by factor analysis
MA Yinghao, CHENG Lei, GAO Pan
(ShandongJiaodongWaterDiversionBureau,Jinan250013,China)
In the paper, component factor analysis and other statistical methods are adopted for obtaining risk factors through the integration, analysis and comparison of water resources data of Qingdao in previous years. Mathematical model is established for forecasting water resources shortage condition. Scientific basis is provided for comprehensive utilization of water resources.
Qingdao; component factor; water resources; risk prediction
10.16616/j.cnki.10-1326/TV.2016.03.018
TV211.1
A
2096- 0131(2016)03- 0063- 05