基于模式识别神经网络的水资源配置评价模型研究

2018-11-29 00:47李志新赖志琴龙云墨徐桂弘
中国农村水利水电 2018年11期
关键词:模式识别交叉水资源

李志新,赖志琴,龙云墨,徐桂弘

(贵州理工学院土木工程学院,贵阳 550003)

0 引 言

水资源合理配置是为了保障经济社会可持续发展以及水资源可持续利用,在一定范围内,根据有效、公平和可持续的原则,按照市场经济规律进行资源配置,通过科学合理的调节需求与供给关系、维护和改善生态环境等途径,在区域或用水部门间对水源进行的调配活动,在提高经济社会效益方面具有重要意义。

在水资源配置中,影响因素众多,且其互相影响、制约机制非常复杂,表现形式多样,水资源配置模型很难充分反映这些不确定因素的影响以及决策者的偏好,因此,为提高优化配置成果的实用性,探索水资源配置评价的模型与方法具有重要的意义。

水资源配置评价需要对水资源优化配置后的各项效应进行衡量,由于各项效应都对应多项指标,每个指标可划分为多个等级,故其评价属于多指标评价问题,其方法应采用综合评价的方法[1,2]。在评价实践中,常用的综合评价法有聚类分析、判别分析、主成分分析、灰色关联评价、层次分析、模糊综合评价等等方法,通过以上方法相关研究取得了一定的成果,但这些方法也存在一些缺陷:模糊综合评价法极值作用过大,按隶属度最大进行级别确定,由此得到的评价结果可信度较低,结果易失真,而且在隶属函数确定时,其主观任意性较大,从而使得评价结果排序趋同,评价结果无法充分反映客观实际情况;在采用灰色关联评价、聚类分析方法时,构建的白化函数模式通用性较差,如按最大隶属度评价时,由于评价对象类别不同,从而使评价结果有多解;在确定评价指标权重方面,常用层次分析法或者德尔斐法,该类方法确定权重主观性较大,不能充分利用指标的已知信息,使评价结果可信度降低[3,4]。

神经网络模式识别是神经网络在模式识别领域的具体应用,通过建立神经网络对已有分类标签的目标输出数据进行训练,然后对完成训练的网络输入预测数据,进行该数据的分类,该方法具有较强的非线性映射、自适应、自学习能力、且鲁棒性和容错性也较好,是处理如水资源配置评价这类多指标复杂系统综合评价问题最为有效的途径之一。当前国内外许多领域利用神经网络模式识别对数据进行分类预测,取得了有价值的成果。Kartzas等[5]用神经网络识别研究了臭氧空气污染以及大气参数之间的互相关系;R.Xing等[6]基于LM算法的神经网络模式识别构建了空气质量预报模型,其对城市空气质量预报得到了高精度的预测结果;蒋志方等采用神经网络模式识别方法对空气质量变化规律进行了分析和预测;盖美等基于模糊模式识别方法对海域水质环境进行了分析研究;陈守煜等构建了模糊模式识别模型对空气洁净度进行评价。上述研究结果有一定的参考性,但各个模型及相应数据信息具体特点各异,因而在预测应用上存在一定的局限性。因此,本文基于模式识别神经网络,提出了水资源配置评价指标及分级标准,构建了水资源配置综合评价模型,并结合实例应用,利用神经网络模式识别的方法对全国各省级行政区水资源配置情况进行了综合评价与分析。

1 模式识别神经网络

本文模式是描述客观世界事物的一种数学模型,通过模式识别可对外界信息进行综合思维、判断,从而做出决策。模式识别对事物对象的特征属性进行,根据算法判定对象类别,并使识别结果尽量与实际相符,模式识别包含通过特征和属性(系统的输入输出数据对)来描述的事物对象的数学模型,由两个过程组成:设计过程和实现过程。在设计过程中,利用相当数量的训练集样本来对分类器进行设计;然后再利用完成训练的分类器对测试集样本进行分类,即实现过程[7,8]。

本模型构建时模式识别神经网络为两层前馈网络,其结构如图1所示,即一个含激活函数sigmod的隐含层,以及带有多分类函数softmax的输出层,如隐含层神经元数量满足条件,通过该多分类函数可以对任意给定的向量进行分类。

图1 模式识别神经网络拓扑结构图Fig.1 pattern recognition neural network topology diagram

常见的逻辑回归、SVM等常用于解决二分类问题,对于多分类问题,理论上也可以用逻辑回归或SVM,如将多个二分类来组成多分类,但本研究中水资源配置综合评价属于多分类场景问题,且其分类类别为互斥性质,不宜采用上述分类器,因此本文提出另外一种方式即softmax分类器来处理多分类。softmax的函数如下:

(1)

一般代价函数常使用方差代价函数即均方误差MSE。在通过梯度下降,更新权值和偏置值时,因为sigmoid激活函数的饱和性质,导致该代价函数的导数在输入值较大时变得极小,则其权值及偏置值更新非常缓慢,几近中止[9,10]。

因此,本文为避免此问题,代价函数改用交叉熵函数,即:

(1-y(i))log[1-hθ(x(i))]

(2)

计算J(θ)对第j个参数分量θj的偏导得:

(3)

式中:m为样本组数(x(i),y(i))为第i组数据及其对应的类别标记,x(i)为包括偏置项在内的一个多维向量,y(i)则为表示类别的一个数。此即代价函数对参数权重的梯度,然后进行优化。

2 基于模式识别神经网络水资源配置模型实现

2.1 综合评价指标

由于水资源配置的实质在于寻求抑制需求和增加供给之间的平衡,因此其评价应基于水资源的现状配置,按照公平、合理及高效的原则,从社会、经济、效率、生态以及水资源的开发利用等几个方面,对水资源在生产、生活及生态用水方面的满足度和配置合理性进行分析,同时对现状及规划配置对应的效益分别进行综合评价,从而判断现状配置及规划配置条件下的合理性。而在综合评价过程中,必须先构建一个科学合理的评价指标体系,在此基础上才能进行配置合理性的判断以及比较择优。考虑到水资源配置须充分反映社会、经济、效率、生态及水资源的开发利用等多方面的影响,本文在参考相关文献的基础上[10,11],选取了13个评价指标,作为构建本模型所需的水资源配置评价指标及分级标准体系,见表1。每个指标都量化地划分为11个等级,按照优劣顺序排序,从1级依次到11级。

表1 水资源配置评价指标及分级标准Tab.1 water resource allocation evaluation index and grading standard

2.2 评价模型的实现

2.2.1 训练、验证、测试集设计

本文在整个指标体系的每个级别对应的分级标准阈值区间,通过随机内插方法共组合生成300组样本,因此共组合生成涵盖11个等级3300组总样本数量;然后同样也采取随机分配的方式,按照各占总样本数量70%、15%、15%的比例又将其划分为训练集、验证集及测试集三类样本,其中训练集样本在训练过程中输入到网络中,神经网络在完成初始化之后,根据输出值与标注值之间的误差不断进行权值和偏置值的调整;验证集样本不直接参与到上述的训练调整,主要用于测度在训练过程中网络泛化能力的表现,在泛化能力停止改进时就停止训练,从而防止神经网络训练中发生过拟合现象,导致泛化能力的下降;测试集样本对训练过程不施加影响,而是在训练期间及训练后,作为独立于训练的样本数据,对神经网络的性能进行测试、分析及评价。

2.2.2 评价模型设计

本文基于模式识别神经网络构建水资源配置评价模型,网络模型拓扑结构如上图1所示。该模型以上表2中的各评价指标值为输入向量,因此输入层向量维数相应地确定为13;隐含层神经元数目则根据Kolmogorv定理结合试错方法,对比分析确定为16;以各个等级对应的期望输出作为输入向量,共11个评价等级,因此输出层神经元数目相应确定为11,输出值为一向量,其维数也相应为11,而每个标注样本的期望输出同样为维数11的向量,但由于神经网络最后一层为softmax分类层,故要求每个期望输出向量的各元素均为0,除了其标注等级对应位置的元素值为1外。如标注等级为1,期望输出向量则为[1 0 0 0 0 0 0 0 0 0 0]’,注等级为11,则为[0 0 0 0 0 0 0 0 0 0 1]’,其余依次类推。神经网络主要训练参数设置:最大的训练轮回为1 000次,设置最小目标为1.0×10-6,同时将网络泛化能力开始下降设置为训练结束条件之一,当验证样本产生的误差开始出现增加即停止。

2.2.3 模型性能评价指标

对网络模型性能评价选用误判百分率PE和交叉熵CE两个评价指标。误判百分率衡量网络模型对样本的误判率,其最小值为0表示没有错误分类,最大值为100%表示全部错判;交叉熵值较小表示更好的分类性能,如为零则意味着没有误差。误判百分率PE及交叉熵CE表达式如下:

(4)

式中:n为错误分类判别错误样本数;N为进行分类判别样本总数。

(1-yi) log(1-y_predictedi)]

(5)

式中:yi为第i个样本期望值;y_predictedi为第i个样本预测值。

2.2.4 模型训练及测试实验结果分析

本文通过随机内插方法共组合生成3 300组样本数量,并采取随机分配的方式,按照各占总样本数量70%、15%、15%的比例又将其划分为训练集、验证集及测试集三类样本,即分别为2310、495、495组,训练集用以调整网络权值偏置值、验证集在训练中起到防止过拟合作用,可适时终止训练、测试集则独立测试网络模型的性能。主要通过误判百分率和交叉熵值等两个指标并以混淆矩阵图和交叉熵误差动态变化图等形式对模型训练及测试实验结果进行分析。混淆矩阵图和交叉熵误差动态变化图分别如图3所示。

图3 训练及测试实验结果混淆矩阵图Fig.3 obfuscation matrix diagram for training and testing experimental results

图3包含了训练集、验证集、测试集和全体样本等实验混淆矩阵,混淆矩阵横坐标为实际标定类别共11类,纵坐标为模型输出判定类别共11类,从图3中可以看出,训练集、验证集、测试集和全体样本实验中,模型输出判定类别与实际标定类别全部符合,误判百分率PE=0,没有发生分类误判现象;图4交叉熵误差动态变化图则显示,随着训练过程的进行,交叉熵误差不断趋于减小,直到达到规定最小目标误差,并没有发生严重震荡;训练集和验证集误差动态变化基本吻合一致,交叉熵误差最后分别为2.81×10-7、3.07×10-7,测试集交叉熵误差动态变化趋势也与之基本一致,其值最后为1.31×10-6,表明训练过程中没有发生过拟合现象。由此可见,本文基于模式识别神经网络而构建的评价模型模拟精度较高,且泛化能力较好,可用以水资源配置综合评价,故本文在此基础上,进一步将本模型实际应用于对全国各省级行政区水资源配置综合评价的实例分析。

图4 交叉熵误差动态变化图Fig.4 dynamic change diagram of cross entropy error

3 实例应用

全国各省级行政区水资源配置实例分析,采用的评价数据来源参考相关文献[10,11],见表2所示。

采用本文构建的模型对上述省级行政区水资源配置进行评价,根据上述评价指标相应的数据,输入到模型进行模拟计算,利用softmax多分类器直接实现各行政区水资源配置等级的划分,然后对评价等级进行定性的描述分析,评价结果见表3。

通过对表3中结果的分析有如下结论:

(1)模式识别神经网络模型对全国各省级行政区的水资源配置的评价总体情况是:其评价等级基本都在3~9级之间,依次对应为“合理”、“较合理”及“不合理”等定性评价,基于同等的标准,对各地的水资源配置情况有一个较客观而合理的反映,对于水资源管理实践具有一定的指导参考价值。以上对各地水资源配置情况定性和定量的评价分析表明,基于模式识别神经网络构建的水资源配置模型,性能精度较高,方法合理可行。

表2 各省行政区评价指标值Tab.2 evaluation index value of provincial administrative region

(2)本文以定量评价等级1~2级对应“最合理”定性评价描述、3~5级对应“合理”、6~7级对应“较合理”、8~9级对应“不合理”。综合评价结果显示:江苏、江西、广西、辽宁、上海、湖南、广东、海南、贵州、陕西、青海、宁夏及新疆等地配置情况合理;北京、天津、山西、吉林、浙江、安徽、福建、湖北、四川、云南及甘肃等地配置较合理;河北、内蒙古、黑龙江、山东、河南、重庆及西藏等地配置不合理。上述各地水资源配置情况评价出现差距究其原因,与水资源相对的丰裕程度及经济发展情况都有一定关联,突出表现在缺水率(%)、水功能达标率(%)、用水GDP、开发利用率(%)等评价指标达标情况较差,从而严重制约了相应地区水资源配置整体合理性,通过大力解决其配置中公平性欠缺、经济高效合理性不够、与生态协调较差等薄弱环节问题,其水资源配置合理性可得到进一步提高。

表3 全国各省级行政区水资源配置综合评价Tab.3 comprehensive evaluation of water resources allocation in various provincial administrative regions of China

4 结 语

本文在分析了当前水资源配置评价的各种方法及其存在的问题,基于神经网络模式识别的特点和原理,构建了模式识别神经网络水资源配置评价模型,网络拓扑结构采用了适于水资源配置评价分级要求的多分类函数softmax为输出层,代价函数以交叉熵函数代替均方差MSE,解决了模型训练可能出现缓慢甚至中止的问题;在综合相关研究成果的基础上,提出了水资源配置13个评价指标、11个分级及相应分级标准,为水资源配置合理性判断及比较择优,构建了一个科学合理的评价指标体系基础;水资源配置评价模型采用的训练集、验证集及测试集等数据源于在分级标准临界值之间随机内插而得到,并以误判百分率及交叉熵等作为模型性能评价指标。训练及测试实验情况表明,训练集、验证集及测试集交叉熵误差分别为2.81×10-7、3.07×10-7、1.31×10-6,且无过拟合现象,模式识别神经网络水资源配置评价模型精度性能较高、分类能力优良;在此基础上,将该模型应用于实例分析,对各省级行政区水资源配置情况进行评价分级,总体情况其评价等级基本都在3~9级之间,依次对应为“合理”、“较合理”及“不合理”等定性评价,评价结果信息较为客观合理反映了各地水资源配置总体情况;通过差距原因分析,提出了制约地区水资源配置合理性的突出因素:缺水率、水功能达标率、用水GDP及开发利用率等,并提出了进一步改进配置合理性的建议措施;评价结果进一步表明模型应用于水资源配置评价实践中的合理可行性。

猜你喜欢
模式识别交叉水资源
水资源(部级优课)
《水资源开发与管理》征订启事
菌类蔬菜交叉种植一地双收
2019年河南省水资源公报(摘录)
“六法”巧解分式方程
水资源配置的现状及对策初探
UPLC-MS/MS法结合模式识别同时测定芪参益气滴丸中11种成分
连数
连一连
卷积神经网络分类模型在模式识别中的新进展