基于极限学习机模型的内陆湖泊水质遥感监测研究

2018-08-09 09:08贾雷曹红业
科学与财富 2018年18期
关键词:极限学习机机器学习

贾雷 曹红业

摘 要:针对内陆水体光谱特征信息与叶绿素a之间具有强非线性的特点,而广泛应用的传统的BP(Back Propagation)模型存在着学习速度慢、极易陷入局部极小等问题、而支持向量机(Support Vector Machine, SVM)模型过于复杂,且其参数难以调整,提出将极限学习机(Extreme Learning Machine, ELM)方法用于内陆湖泊水质遥感监测,该算法不但可以简化参数选择过程,而且可以提高网络的训练速度。在确定了最优参数的基础上,建立了叶绿素a浓度(表征水体富营养化程度的重要参数)预测模型,并且将预测结果与BP和SVM进行比较。实验结果表明:该方法可以显著提高模型的学习速度,且相比BP和SVM模型具有更好的泛化性能。实验结果证明了极限学习机应用于水质遥感监测的可行性和有效性。

关键词:机器学习;极限学习机;水质遥感监测;内陆湖泊

0 引 言

隨着沿海和内陆地区人口的持续增长和工业压力持续加大,中国目前正面临极为严重的水资源问题,而其中水环境质量的急剧下降已成为一个亟待解决的问题[1],尤其是内陆湖泊的水质问题己经成为全球性问题,而水质监测是水质评价与水污染防治的主要依据[2],因此,准确、有效、实时的内陆湖泊水质监测对保护湖泊及其流域水生态环境具有重要的意义。近几十年来,水质评价都依赖于传统的现场抽样和数据收集,然后在实验室分析和评估各项水质参数,这种方法虽然可以得出较为精确的结果,但是耗时耗力,成本高昂,且严格受限于时间尺度与空间尺度,难以达到实时、大尺度的监测要求。

基于上述传统水质监测方法的各种缺陷,近年来,遥感(RS)技术的商业应用及其迅猛发展为水质监测提供了崭新的思路。由于遥感影像能够很清晰地显示目标区域内水体污染情况及空间分布特点,并且利用同一区域多个时间节点的影像,甚至可以较精确地预测该地区的污染蔓延趋势。水质遥感监测是基于水体中不同组成分的光谱反射率的差异,并根据卫星传感器接收到的特征信息,对大面积水域中不同组成分的空间分布及其变化进行动态定量分析与评价[3]。

目前,内陆湖泊水质遥感的反演方法主要包括3种:分析模型、经验模型以及半经验模型或半分析模型[4]。三种算法中应用最广泛的是半经验模型。该方法是根据已知的水质光谱特征选择最佳的波段或波段组合,利用适合的方法建立水体光谱特征参数与遥感影像数据间的经验性模型算法。

由于内陆湖泊水体光谱反射率与各项水质参数之间的关系存在着大量不确定因素[5]。近年来,人工神经网络(Artificial Neutral Network,ANN)等机器学习算法具备自适应、自组织映射性和容错性等优越性能,成为一种非常有效的水质遥感反演策略[6]。然而,传统的单隐层前馈神经网络(SLFNs)在模型参数训练过程中由于需要进行多次迭代运算,造成整个模型运算过程会产生很大的时间成本,使网络训练过程的效率难以保证,并且极易达到局部最小值,该问题在很大程度上制约了SLFNs的发展。

极限学习机(ELM)是由Huang Guang Bin等学者于2004年提出来的一种全新思想的SLFNs。该算法的特点是只需要设置隐含层神经元结点数目及隐含层激活函数即可,模型隐含层与输出层的最优连接权值根据穆尔-彭罗斯广义逆矩阵理论,并通过最小化平方损失函数得到的唯一最优解。相比BP模型,ELM模型算法中未采用迭代方法,克服了传统神经网络模型训练时间长、过拟合等问题。

1 ELM基本原理与算法流程

1 .1 ELM 基本原理

ELM改进了SLFNs算法存在的一些严重问题发展而来的[7]。对于N个不同的随机样本(xi,ti) ,其中

1.2 算法流程

(1) 输入训练样本数据 ,选择最优的隐含层输出函数

和隐层结点个数L;

(2) 系统根据(1)随机确定隐层结点参数,如权值w以及隐层结点偏置 b;

(3) 计算隐含层输出矩阵H;

(4) 求解网络模型的最优外权 ;

(5) 根据矩阵H和最优外权 所构建的最优模型算法对选择的测试样本数据进行预测。

2 应用实例

由于水体中叶绿素a含量是表征富营养化程度的重要参数,因此本文拟选取叶绿素a浓度参数进行研究,这样可为内陆湖泊水质监测与评价及灾害防治提供新的思路和方法。

2.1 数据获取与预处理

2.1.1 影像数据获取与预处理

本文研究区域为太湖,遥感影像选取该区域环境小卫星HJ-1B CCD数据,卫星过境时间为2009年10月6日早上11:35。遥感影像数据虽然经过了几何粗校正,但仍存在较大的几何畸变,并受大气吸收、散射等因素的影响,不能直接将其应用于实验反演研究。为了削弱甚至消除几何畸变影响,获取地物真实光谱反射率或辐亮度值,必须要对遥感影像进行必要的预处理,如下:

利用太湖区域已经过精校正的Landsat-TM影像作为基准图像,完成对HJ-1B CCD影像的精校正;读取HJ-1B/CCD数据头文件中的绝对定标参数,将遥感影像DN(Digital Number)值转换成辐亮度值,完成辐射定标处理;大气校正采用相对成熟的“MODTRAN4+”方法,削弱甚至消除一定大气组成分对地物光谱吸收和散射方面的影响。

2.1.1 太湖叶绿素a浓度数据获取与预处理

在卫星过境时间段内,组织人员在湖面采集了48个监测点(图1)数据,包括监测点表层水样、水温、风速以及经纬度等信息,在室内得出监测点叶绿素a实测数据(表1)。现将实测数据分为训练样本数据和测试样本数据,其中79%的数据用于建模,其余21%用于模型验证。

为了更加突出地比较出ELM的优异性能,本研究使用BP、SVM和ELM三种算法分别对太湖区域叶绿素a浓度进行预测,且三种算法采用的样本数据完全一致。

2.2 模型的参数选择

对于BP、SVM和ELM三种模型的预测分析通过Matlab2012b软件编程实现。支持向量机(SVM)采用LibSVM工具包进行实验研究,并通过编写的SVMcgForRegress函数寻找模型最佳参数。其最佳选择参数为选取Gaussian函数作为其核函数,核函数参数 和回归惩罚系数均为1,设置允许的终止判据为0.001;根据上节极限学习机ELM的基本原理,相比BP和SVM两种模型,该模型只需确定隐含层激励函数以及结点个数即可。

ELM中的激励函数主要包括:Sigmodial函数、Sine函数、Hardlim函数、Triangular Basis函数和Radial Basis函数。为了更有效地确定两个参数,本研究选取上述五个激励函数,将隐含层结点个数初始化为5,且以5为周期递增,比较分析不同激励函数与隐结点数目对叶绿素a预测的影响程度。见图3

从图可知,Sigmodial函数和Sine函数在节点数为10之后测试误差(RMSE)开始平稳,Radial Basis函数在节点数为20之后开始趋于平稳,而Hardlim和Triangular Basis函数随着隐节点个数的增加,其测试误差波动比较大。且相比于Sigmodial和Sine两种激励函数,Radial Basis函数在节点数为20之后,其测试误差

最小,均在0.7以下,并且相当稳定。因此本研究选取

Radial Basis函数作为激励函数,隐结点数为20。

2.3 实验结果与分析

将BP、SVM和ELM三种算法根据上节选取的最优参数,对38个输入训练样本数据进行训练,记录该过程所占用的内存时间(CPU Time),建立模型后,分别对10个验证样本进行预测,得到其预测结果。

由三种模型的预测结果可知,ELM模型相对于BP和SVM两种模型,其预测结果的相对误差要小很多;从图2-4可以看出,ELM模型预测值与实测数据的拟合程度要高于其余两种模型;而从表2可以更加直观地看出模型(1)的泛化能力方面:ELM模型训练样本和预测样本的均方根误差RMSE = 6.3494和平均相对误差MRE = 9.5705%均小于SVM和BP模型;(2) 运行时间上:由于ELM模型无需迭代操作,相比BP和SVM模型运算速度显著提高。

不难得出如下结論,相比BP和SVM模型,ELM模型的整体性能更优。BP模型的模型结构比ELM简单,预测精度不如 ELM,并且BP模型算法参数在运算过程中需要一直调整,以致其模型的训练时间多于ELM模型。而SVM模型结构复杂,并且其参数调整较为困难,因此相比ELM模型,其时间成本较高。

3 结语

本文基于极限学习机ELM模型,对太湖叶绿素a浓度数据进行了预测,获得了较高的预测精度和速度。并与传统的BP神经网络模型和SVM模型预测结果进行比较分析,ELM的预测精度最高,并且占用的内存时间更短。结果表明该方法具有很强的学习能力和泛化能力。说明将其应用于内陆湖泊水质遥感监测是可行的、有效的,为该方法在内陆湖泊水质遥感监测方面的应用开创了广阔的应用前景。

参考文献:

[1]王旭楠,陈圣波,吕航 [J].吉林大学学报: 地球科学版, 2007, 37(Sup):189-193.

[2]朱利,姚延娟,吴传庆[J].地理与地理信息科学, 2010, 26(2): 81-84.

[3] MOREL A. Y. , PRIEUR L. Analysis of variations in ocean color

[J]. Limnology and Oceanography, 1977, 22(4): 709.

[4]刘灿德,何报寅 [J].世界科技研究与发展, 2005, 27(5): 40-44.

[5]张玉超,钱新,钱瑜[J].环境科学, 2009, 30(5): 1321-1328.

[6]吕恒,江南,李新国[J].地球科学进展, 2005, 20(2): 185-192.

[7] HUANG Guangbin. Learning capability and storage capacity of two-hidden-layer feedforward networks[J], IEEE Trans. Neural Networks. 2003:14 (2): 274–281.

作者简介:

贾雷,硕士研究生,主要从事土地调查与评价,遥感监测方面的研究。

猜你喜欢
极限学习机机器学习
神经元的形态分类方法研究
基于判别信息极限学习机的高光谱遥感图像分类
极限学习机修正误差的体育成绩预测模型
基于极限学习机的玻璃瓶口缺陷检测方法研究
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
机器学习理论在高中自主学习中的应用
极限学习机在图像分割中的应用
基于关节信息和极限学习机的人体动作识别