秦 成
(中国煤炭科工集团重庆研究院,重庆 400039)
水资源危机是指水资源系统不能保证生态、经济和社会可持续利用及其发展,并且供求矛盾异常尖锐时的状态[1]。水资源危机涉及的诱因较多,存在明显不确定性,但爆发前的水资源系统状态的变化却是一个按客观规律演变的连续变化过程,水危机的发生只是该系统连续变化过程中符合客观科学规律的一个突变[2]。
从水资源危机发生前各种危机前兆的出现,到问题积聚到某一程度引发水资源危机这一过程存在一定的时间间隔,因此可以在这个时间段内通过预警来提前预报危机并采取相应措施控制或减缓危机的产生。所以预警的研究对解决水资源危机问题有着至关重要的作用,并成为当前研究的热点。陈绍金[3]建立了基于系统动力学的湘江流域水安全系统预警模型;文俊等[4]提出了基于熵组合权重的区域水资源可持续利用预警新模型;李仰斌等[5]进行了山西省水资源安全评价与预警研究。但是,当前的研究还存在3个关键问题:①目前常用的预警方法将会面对预警警界即阈值难确定的问题,很多文献是根据实际经验确定阈值,缺乏理论依据;②面对预警指标众多、指标间非线性关系复杂的难题,如何筛选合适的预警指标以及如何预测指标在未来时段的量值;③传统的预警方法需要建立精准的数学模型方可实现对未来状态的预测,然而面对像水资源系统这样不确定或非线性时,此类方法就难以实现。为此,笔者将粗糙集(rough set)理论引入到水资源危机预警研究中,利用决策表的属性约简来筛选预警指标并获得预警判别规则,在此基础之上通过BP神经网络预测预警指标未来的值,然后带入预警判别规则即可快速而简便地完成水资源危机预警。
刘梅[2]和申海亮[6]分别验证了水资源系统具有突跳性、多径性、发散性和可恢复性,符合突变理论的基本应用条件,因此可以把尖点突变(cusp catastrophe)模型应用到水资源系统危机识别中[2,6]。
尖点突变模型势函数是
式中:x为状态变量,a和b为控制变量,故相空间是三维的。
势函数的所有临界点集合成突变流形M,其表达式为V'(x)=4x3+2ax+b,通过联立V'=0和V″=0可得到反映状态变量与各控制变量间关系的分歧集Δ,Δ是突变流形M在控制空间a~b平面上的投影:
在平衡曲面M中发生质变有2种基本形式:①渐变。当a>0时,b的变化只引起状态变量x的光滑变化,x连续的从上叶量变过渡到下叶或由下叶量变过渡到上叶,b称为正则因子;②突变。当a<0时,M上出现褶皱,x的变化不再连续,a、b达到分歧集方程关系时,x从上叶突跳到下叶或由下叶突跳到上叶,a称为剖分因子。在尖点突变中,a是决定突变的力量,b是某种质态的保守力量[7]。
因此,在应用突变模型前首先要确定控制变量。一般来说,水资源危机识别因子错综复杂又相互关联,如果分析每个因子,不仅增加工作量,而且分析是孤立的,如果盲目减少因子又会损失很多信息。所以寻求一个合理的方法成为解决问题的关键。笔者采用主成分分析法,在保证数据信息丢失最少的前提下,把反映人类活动对水资源系统不利影响的识别因子 I1,I2,…,In-k进行主成分提取,得到少数几个主成分,对这几个主成分加权求和得到综合主成分,将其作为尖点突变模型的剖分因子a。同样把反映水资源系统自身状态的识别因子In-k+1,…,In进行主成分分析,求得综合主成分将其作为尖点突变模型的正则因子b。状态变量x是指水资源系统的状态。将各年a、b的值带入式(2),若Δ<0,说明水资源系统将会发生突变。分歧集值Δ与控制变量a和b直接相关,而a和b又是从整个水资源系统出发通过主成分分析得到的,因此分歧集值Δ代表着水资源系统内部各个子系统综合作用的结果。这就是说,水资源系统中某个或某几个子系统出现了问题,可能并不会影响整个系统正常运行,当各子系统之间相互碰撞,不利因素突显出来,便会导致系统状态发生突跳,即爆发水资源危机[2]。
设S={U,A,V,f}为一知识表达系统,U为对象的非空有限集合,称为论域;A=C∪D是属性集合,子集C和子集D分别称为条件属性和决策属性;V是对象属性的值域;f是信息函数,指定每个对象属性的属性值。具有条件属性和决策属性的知识表达系统称为决策表。本次研究中将水资源危机识别的结果作为决策属性,识别因子作为条件属性。决策表以1个二维表格的形式表示。表中的每1列描述了1个属性(识别因子),每1行描述了所研究论域中的1个样本。
粗糙集理论易于处理离散数据,然而在实际的水资源系统中大多数指标数据都是连续的。因此要实现连续数据的粗糙集约简处理,得到水资源危机识别规则知识,其前提就是要将连续数据进行离散化。目前对连续数据进行离散化的方法有多种:等距离划分、等频率划等,但是使用这些方法需用户对数据特征有较清楚的认识[8],所以本文采用具有动态聚类特性和一定的自适应性的K-均值聚类算法对连续数据进行离散化。
在选取的各种水资源危机识别因子中,并非所有的因子都很重要,其中某些属性是冗余的。属性约简就是在保持属性分类能力不变的条件下,删除其中不相关或不重要的属性。对∀a∈C,若posC(D)=pos(C-{a})(D)(posC(D)称为 D 的 C正域)则认为a是冗余的,称C'=C-{a}为C的一个约简。通过属性约简后保留的指标即为预警指标。
令Xi和Yj分别代表U/C与U/D中的各个等价类,des(Xi)表示对等价类Xi的描述,即等价类Xi对于各条件属性值的特定取值;des(Yj)表示对等价类Yj的描述,即等价类Yj对于各决策属性值的特定取值。决策规则定义如下:
根据约简后的决策信息系统,可以得到具有一定决策概率的不精确决策规则。其中大量的决策规则是冗余的,这就需要衡量这些规则的价值。从系统客观层面评价一条规则,主要依据可信度、覆盖率和支持数来衡量,在数据挖掘时,一般希望得到可信度和覆盖率都高的有效规则,但实际上这两个指标是成负关系的。所以需要权衡一规则的可信度和覆盖率来评价其价值。虽然运用数学方法可以对一规则进行评价,但还应结合水资源科学的相关知识、考虑水资源危机自身的特点。
由于预警指标历史样本数目N往往较小,故一般只能对各指标进行短中期预测。在确定BP网络拓扑结构时,网络输入层和输出层的神经元节点数均取预警指标数目,隐层的神经元节点数往往需要根据设计者的经验和多次试验来确定。用BP神经网络模型进行滚动预测的基本思想就是[9]:设xi为一系统因子数据系列,i=1,2,…,N,在进行神经网络预测时用 xi-n,xi-n+1,…,xi-1的信息数据来预测 i时刻的值,即将 xi-n,xi-n+1,…,xi-1作为数据信息输入,而xi的值作为预测的期望值,以此构造如下学习样本:输入(x1,x2,…,xn)输出 xn+1;输入(x2,x3,…,xn+1)输出 xn+2…;输入(xN-n,xN-n+1,…,xN-1)输出xN。通过对学习样本的训练,直到误差达到允许的范围,就可以用它滚动预测预警指标值。
将预测得到的预警指标数据样本根据决策规则对水资源危机状况进行判别,可能出现以下某种情况:①一个数据样本与一个规则相匹配;②一个数据样本与一个以上规则相匹配,结果一致;③一个数据样本与一个以上规则相匹配,但结果不一致;④一个数据样本不与任何一个规则相匹配。对于情况①和②,规则的判定结果是一致的;对于情况③和④可采用少数推理方法[10]来消除不一致冲突问题。应用这种推理方法,对于任意待识样本都可以根据从决策表中所得到的规则进行判别,得到合适的结论。
本文以A市为例,在文献[11]的基础上,针对水资源危机的特点筛选如下识别因子:I1为GDP年增长率,%;I2为人口自然增长率,%;I3为万元GDP产值耗水量,m3/万元;I4为万元产值工业耗水量,m3/万元;I5为农田灌溉用水定额,m3/hm2;I6为水资源开发利用程度,%;I7为地表水综合污染指数;I8为地下水位下降速率,m/a;I9为人均占有水资源量,m3/人;I10为地表水资源模数,万m3/(km2·a);I11为地下水可开采资源模数,万m3/(km2·a)。为了进行系列年水资源危机识别,所有的识别因子都包含了1998—2007年10 a的数据,如表1所示。
采用 spss17 统计分析软件分别对 I1、I2、I3、I4、I5、I6、I7、I8和 I9、I10、I1111 个评价因子进行主成分抽取,先将指标在方向统一为越大越好的值,再将各个指标值进行标准化处理,取得标准化值Z。对Z1,Z2,Z3,Z4,Z5,Z6,Z7,Z88 个表现人类活动对水资源系统影响的标准化变量进行分析,得到3个主成分F1、F2、F3,方差计算表明,累计方差贡献率达到93.1%,认为能够很好地代表原始数据,由F1、F2、F3加权求和得综合主成分a(其代表人类活动对水资源系统影响,是决定突变的力量),将它作为尖点突变模型的剖分因子。对Z9、Z10、Z113个表现自然水资源状态的标准化变量进行分析,抽取累计方差贡献率达93.7%的两个主成分 W1、W2,由 W1、W2计算综合主成分b(其代表水资源自然状态,是保守力量),将它作为尖点突变模型的正则因子。各年的剖分因子、正则因子计算结果如表2所示。
表2 系列年a、b值
将a、b值带入式(2)进行计算,可知Δ<0的是1998年和1999年,水资源系统处于不稳定状态,将会发生突跳,即水资源系统处于危机状态。其他年份Δ>0,水资源系统处于稳定状态,发生渐变。在决策表中决策属性取值按Δ<0取0,Δ>0取1。决策属性取值按Δ<0取0,Δ>0取1,即,0代表危机状态,1代表非危机状态,见表3所示。
表1 水资源危机识别因子原始数据
表3 各指标离散后数据类别及决策属性
采用K-均值聚类的方法将表1中的样本数据离散化,将各属性下的列数据离散为两类数据,分别用数字“1”和“2”来表示所分的类别。离散后的数据如表3所示,对应各个聚类中心I1(9.06,14.08),I2(0.75,0.54),I3(614,372),I4(145.5,82.25),I5(3438.75,2692.50),I6(89.92,171.19),I7(0.86,0.75),I8(0.23,0.28),I9(300.93,177.19),I10(7.33,18.58),I11(33.06,24.46)。
得到表3的离散数据后,对上述11个水资源危机识别因子进行属性约简,最终得到只含有3个识别因子的15条约简,在此约简基础之上产生了83条相应的决策规则,通过从用户主观和系统客观两层面来衡量这些规则的价值,筛选出其中的约简(万元产值工业耗水量I4、农田灌溉用水定额I5、人均占有水资源量I9)作为水资源危机的预警指标,并通过对应的决策规则(表4)来进行预警。即通过{I4,I5,I9}这3个因子对应的数据就可以判断水资源系统是否处于危机状态,通过计算实际数据与聚类中心的距离,判断样本数据所属类别后就可以按表4的规则知识来对水资源系统危机进行识别,快速而方便。
用BP神经网络模型滚动预测预警指标2008—2012年的值,BP神经网络的输入层、隐层、和输出层的神经元节点数分别为3、8、3,训练网络达到收敛后进行滚动预测,结果如表5所示。计算各预测值与 I4,I5,I9聚类中心的距离可知,2008—2012年满足规则3:
因此未来几年内水资源系统不会发生突变,即不会产生危机。
表4 水资源危机预警规则
针对水资源系统具有突跳性、多径性、发散性和可恢复性的特点,用尖点突变模型进行水资源危机识别,其中尖点突变模型中的正则因子和剖分因子分别通过对相应水资源危机识别因子进行主成分分析得到,将识别因子和识别结果分别作为决策表的条件属性和决策属性;针对粗糙集易于处理离散数据的特点,采用具有动态聚类特性和一定的自适应性的K-均值聚类算法对连续的识别因子数据进行离散化,对离散化的决策表进行属性约简确定出水资源危机预警指标和决策规则;针对预警指标间非线性关系复杂的特点,用BP神经网络模型滚动预测预警指标,按照决策规则就可进行水资源危机预警判别。通过上述方法的耦合,建立了水资源危机预警的CC-RS-BP模型。
表5 用BP神经网络预测各预警指标值
CC-RS-BP模型对A市进行水资源危机预警结果表明:分歧集Δ<0的是1998和1999年,水资源系统处于不稳定状态,将会发生突跳,即水资源系统处于危机状态,其他年份Δ>0,水资源系统处于稳定状态,发生渐变;I4、I5、I9可以作为该地区的水资源危机预警指标,从系统客观和用户主观两层面在产生的83条规则知识中筛选出5条规则作为水资源危机预警的判别规则;BP神经网络滚动预测2008—2012年的指标满足其中规则3:
即未来几年内水资源系统不会发生突变,这与A市2008—2010年的实际情况相吻合。
CC-RS-BP模型将尖点突变模型应用于内部作用尚未知的水资源系统,充分发挥了尖点突变理论直接处理不连续性而不联系任何特殊的内在机制的优点,该模型的预警是以规则的形式来判断的有别于传统的预警方法,易被人理解和利用,模型采用BP神经网络滚动预测预警指标值可以充分利用相邻时期各指标的变化趋势信息,为非线性、自学习、自适应、大规模并行分布多指标预测问题提供新途径。
[1]周玉玺,马传栋.制度、技术、政策与水资源危机[J].中国生态农业学报,2006,14(2):1-4.
[2]刘梅.区域水资源危机的识别与对策研究[D].保定:河北农业大学,2009.
[3]陈绍金.水安全系统评价、预警与调控研究[M].北京:中国水利水电出版社,2006.
[4]文俊,李靖,金菊良.基于熵组合权重的区域水资源可持续利用预警模型[J].水电能源科学,2006,24(3):6-10.
[5]李仰斌,畅明琦.水资源安全评价与预警研究[J].中国农村水利水电,2009(1):1-4.
[6]申海亮.天津市水资源安全预警系统研究[D].天津:天津大学,2007.
[7]艾德春.我国煤炭供需平衡的预测预警研究[D].徐州:中国矿业大学,2008.
[8]徐袭,祝力,范学鑫.基于粗糙集与K-均值聚类的故障知识挖掘[J].微计算机信息,2007(15):141-142.
[9]吕光辉.中国西部干旱区生态安全评价、预警与调控研究:以新疆地区为例[D].乌鲁木齐:新疆大学,2005.
[10]刘菁菁,田银华.基于主成分-粗糙集理论的企业信贷风险预警研究[J].哈尔滨商业大学学报:社会科学版,2009(2):57-61.
[11]李升.地下水环境健康预警研究:以黄河下游悬河段(河南)为例[D].长春:吉林大学,2008.