王克晓 周蕊 虞豹 黄祥 王茜
摘要:以重庆市永川区朱沱镇Sentinel-2多光谱影像为例,构建随机森林分类模型,分别以单时相和多时相特征变量集为变量提取水稻空间分布,并对水稻对不同波谱特征集的响应程度及提取精度进行分析。分类结果显示,研究区水稻分布相对较为分散,且地块特征较为复杂,与区域典型地貌基本相适应;处于分蘖期的水稻稻田比处于灌浆期的稻田更有区分特征,利用多时相数据能够有效提高提取精度;通过传统的最大似然法、光谱角分类器提取地物精度有限,而基于机器智能分类的随机森林模型提取方法提取结果总体精度90%以上,Kappa系数达到0.80以上,可为西南山地地区作物信息提取提供参考。
关键词:随机森林;水稻提取;遥感;西南地区
中图分类号:P237 文献标识码:A
文章编号:0439-8114(2018)21-0143-04
DOI:10.14088/j.cnki.issn0439-8114.2018.21.037 开放科学(资源服务)标识码(OSID):
Research on Extraction Method of Rice Information Based on Random Forest
WANG Ke-xiao,ZHOU Rui,YU Bao,HUANG Xiang,WANG Qian
(Information Center of Agricultural Sciences and Technology,Chongqing Academy of Agricultural Sciences,Chongqing 401329,China)
Abstract: Taking Sentinel-2 multispectral image of Zhutuo, Yongchuan district of Chongqing as an example,a random forest classification model was constructed, and rice spatial distribution was extracted using single-time and multi-time feature variable sets as variables,and the response degree and extraction accuracy of rice to different spectral feature sets were analyzed. The results show that the rice distribution in the study area is relatively scattered and complex,which is basically compatible with the typical landform of the region. Rice at tillering stage have more distinguishing characteristics than that at filling stage,and the extraction accuracy can be effectively improved by using multi-temporal data. Traditional MLC and SAM classifiers have limited precision in extracting ground objects,while remote sensing model based on machine intelligence classification has an overall precision of more than 90% and kappa coefficient of more than 0.80,which provides a reference for crop information extraction in southwest mountainous areas.
Key words: random forest;rice extraction;remote sensing;southwest region
目前,中國利用遥感技术监测的农作物主要为小麦、玉米、水稻、大豆等大宗作物,研究区主要集中在华北、华东及东北地区,有小部分在西北和西南,但种植地块多是连片大范围[1]。作物地类遥感制图精度受影像底图及分类提取方法的双重影响[2,3],多时相及多源遥感数据能够进一步提升提取精度[3]。复杂地区主要依赖影像光谱信息的农作物常规提取分类方法精度有限,而源于机器学习领域的智能分类方法却更加有效[4]。李爱农等[5]曾以云南大理地区TM影像土地利用分类实践为例,将监督分类与非监督分类有机结合,证明了在西南地块破碎地区利用多光谱图像分类具有一定的可行性。雷小雨等[6]提出一种利用两个时相的数据,通过Landsat 8/OLI数据构建差值特征突出水稻物候变化,并与随机森林算法结合较高精度提取了水稻种植面积,与单时相提取结果相比总体精度有较大提高。苏亚麟等[7]以丘陵地带为主的南昌市第一季水稻为例,通过GF-1号WFV(16 m)单时相、多时相影像光谱特征集组合及优选,构建随机森林分类模型,特征排序及优化后的提取总体精度达到92%以上,Kappa系数达到0.90。王娟等[8]通过对四川省德阳市旌阳区的SPOT-5卫星影像进行监督、面向对象以及决策树等多种方法水稻分类结果对比,凸显了决策树分类在西南地区水稻提取中的应用潜力。然而,对多云雾,地块破碎、作物类型复杂的重庆地区却鲜有研究。重庆地区水稻种植具有分散、地块小、形状多样等特点,利用中低分辨率遥感数据提取水稻种植面积,难以满足精度要求[9]。
本文以重庆市永川区朱沱镇Sentinel-2多光谱影像为例,基于EnMAP-Box工具包构建随机森林(RF)分类模型,并分别以单时相和多时相特征变量集为变量提取水稻空间分布,并对水稻对不同波谱特征集的响应程度及提取结果精度进行分析,以期为进一步准确快速监测多云雾、地块破碎的低山及丘陵地貌地区耕地的其他农情信息打下基础。
1 研究区概况
重庆市永川区位于长江上游北岸,重庆西部,地处东经105°38′-106°05′、北纬28°56′-29°34′,地貌分为低山、丘陵、缓丘平坝三大类。属于亚热带季风性湿润气候,全年平均气温17.7 ℃,年均降雨量1 015.0 mm。研究区朱沱镇,区内丘陵地貌广布,地块破碎,农作物种植结构复杂多样,其中水稻以中稻为主,生长期一般从4月初至8月末。
2 数据与方法
2.1 遥感源数据获取及处理
本研究遥感数据源主要为高分一号(GF-1)和Sentinel-2B,参考系为WGS-84坐标系。其中,GF-1数据为2 m分辨率融合多光谱正射影像,获取时间为2017年4月23日。Sentinel-2数据为2017年5月17日和7月11日成像的L1C级产品,经大气校正为L2A级地表反射率产品,然后借助工具SEN2RES将Sentinel-2B数据红边、短波红外等6个空间分辨率20 m的多光谱波段进行超分辨率重采样为10 m,与L2A产品可见光、近红外等4个波段构建多波段特征数据集。单时相数据集利用单期影像10个波段构建,多时相数据集通过两期影像层叠加20个波段构建。Sentinel-2影像多光谱波段参数信息见表1。
2.2 样本选取
训练样本选取主要通过GF-1影像数据,该时期重庆渝西地区小麦、油菜处于成熟收获期,水稻处于移栽期,玉米处于七叶期。研究区丘陵地形及水体泡田特征为水稻样本点选取提供较大辅助。
由于研究区内植被与人工地物两类在Sentinel-2B影像上均呈现出两种不同色调,将研究区地物类型划分为水稻、植被1、植被2、水域、公路、裸地、人工地物1及人工地物2等8个类型,结合GF-1影像选取8组样本点,然后基于分类影像Sentinel-2通过Jeffries-Matusita距离对样本进行可分离性检验。经检验Jeffries-Matusita值均在1.9以上,样本可分离性较好。
2.3 研究方法
2.3.1 随机森林 随机森林(Random Forest,RF)是一种基于 CART决策树的组合式自学习集成机器学习方法[10],利用 bootsrap 随机重抽样技术从原样本中随机抽取若干样本,通过节点随机分裂技术为各样本选取特征构建独立决策树并综合多棵决策树的预测投票得出最终结果[11]。建立在CART决策树基础上的随机森林,对于缺省值问题也能够获得很好的结果,有更强的数据挖掘、泛化能力和更理想的分类效果,已逐步发展成分析复杂地区遥感数据的有效集成分类器之一[12]。RF能在各类别样本容量分布不平衡的情况下保持分类误差平衡,并且通常能抵制并检测出训练样本集的异常值,无需预处理,并且随机森林的树是由随机方式独立生成的,能抑制过拟合[13]。随机森林原理示意图[14]见图1。
2.3.2 随机森林参数设置及模型构建 RF分类法用于遥感地物识别主要基于大量随机生长决策树,其模型建立主要涉及两个参数,即决策树数ntree和决策树内部节点随机选择特征数mtry[15]。EnMAP-Box是一款由德国环境制图与分析计划项目组基于IDL开发的处理高光谱遥感数据的工具包,提供了数据归一化、SVM和RF分类与回归、滤波等功能。本研究基于EnMAP-Box工具包确定模型决策树数目,节点分裂时输入的特征变量数默认mtry=(M为特征变量个数)进行分类。时相组合下随机森林参数见表2。
3 结果与分析
3.1 不同波段特征集响应分析
基于Sentinel-2多光譜单时相及多时相影像的随机森林水稻提取模型变量重要性曲线如图2所示,从图2可以看出,不同时相下光谱波段对水稻及背景地物的可分性识别响应程度不一。在可见光-近红外范围内,两个时相波谱曲线走势基本一致,且归一化重要性度量值基本位于0.3~0.5。5月影像各个波段变量归一化重要性指标均在7月对应波段变量之上,分蘖期水稻稻田水体特征较为明显,使得对水分较为敏感的短波红外b11和b12波段明显突出,归一化重要性度量值达到0.7以上,即在不同波段下,处于分蘖期的水稻稻田比处于灌浆期的稻田更有区分特征。在利用多时相影像提取水稻信息时,通过两个时相影像数据波段层叠加,将像元所代表地物在不同时相下的光谱同时作为特征变量,在样本像元与待提取像元间进行规则匹配。从图3b可以看出,尽管各波段变量归一化重要性度量值有所下降,但有更多波段归一化重要性度量值在0.3以上,即提供更多信息以助于水稻与背景信息的有效区分。
3.2 提取结果与精度分析
将RF分类结果分别与最大似然分类MLC、光谱角SAM等分类结果进行对比分析(图3)。从图3可以看出,研究区水稻分布相对较为分散,且地块特征较为复杂,与区域典型丘陵地貌基本相适应。本研究验证集选取主要通过Sentinel-2B影像,同时结合2 m分辨率的GF-1影像选取200个,采用混淆矩阵及相关指标进行分类精度评价(表3)。从表3可以看出,在总体精度和生产者精度方面,RF模型较MLC、SAM等精度都有较大提高,基于光谱角的SAM水稻分类结果精度55.35%,Kappa系数为0.336,而基于单时相和多时相的RF分类总体精度达到90%以上,Kappa系数达到0.80以上。在随机森林RF模型中,在95%的置信度前提下,基于多时相的影像数据源能够在生产者精度方面提高了3.30个百分点,总体精度提高了1.36个百分点,Kappa系数也由单时相的0.839提高到0.865。
4 小结
本文以重庆市永川区朱沱镇Sentinel-2多光谱影像为例,基于EnMAP-Box工具包构建随机森林(RF)分类模型,并分别以单时相和多时相特征变量集为变量提取水稻空间分布,并对水稻对不同波谱特征集的响应程度及提取精度进行分析。分类结果显示,研究区水稻分布相对较为分散,且地块特征较为复杂,与区域典型地貌基本相适应;处于分蘖期的水稻稻田比处于灌浆期的稻田更有区分特征,利用多时相数据能够有效提高提取精度;通过传统的MLC、SAM分类器提取地物精度有限,而基于机器智能分类的RF模型提取方法提取结果总体精度在90%以上,Kappa系数达到0.80以上。
随机森林(RF)分类模型通过构建多个决策树,利用优化参数对多波段影像数据建立模型,并对研究区影像地物进行分类提取,其提取精度明显相对于单一分类方法具有较高的精度。同时对参与建立模型的特征变量重要性进行度量来判断特征变量对地物类别的敏感性,并进行属性节点分裂构建随机树,显示出RF自学习集成机器学习分类法在高分辨率遥感影像作物识别应用中的潜力。
参考文献:
[1] 黄思宇,陈水森,李 丹,等.基于NDVI物候特征的华南地区冬种马铃薯遥感提取方法[J].热带地理,2016,36(6):976-984.
[2] CHAN J C,PAELINCKX D. Evaluation of Random Forest and Adaboost tree-based ensemble classification and spectral band selection for ecotope mapping using airborne hyperspectral imagery[J].Remote Sensing of Environment,2008,112(6):2999-3011.
[3] WASKE B,VAN DER LINDEN S. Classifying multilevel imagery from SAR and optical sensors by decision fusion[J].IEEE Transaction on Geoscience and Remote,2008,5(46):1457-1466.
[4] GISLASON P O,BENEDIKTSSON J A,SVEINSSON J R. Random Forests for land cover classification[J].Pattern Recognition Letters,2006,27(4):294-300.
[5] 李愛农,江小波,马泽忠,等.遥感自动分类在西南地区土地利用调查中的应用研究[J].遥感技术与应用,2003(05):282-285.
[6] 雷小雨,卓 莉,叶 涛,等.基于时差特征与随机森林的水稻种植面积提取[J].遥感技术与应用,2016(6):1140-1149.
[7] 苏亚麟,吕开云.基于随机森林算法的特征选择的水稻分类——以南昌市为例[J].江西科学,2018(1):161-167.
[8] 王 娟,张 杰,张 优,等.基于SPOT-5卫星影像的水稻信息提取方法研究——以德阳市旌阳区为例[J].西南农业学报,2017(4):861-868.
[9] 陈燕丽,莫伟华,莫建飞,等.基于面向对象分类的南方水稻种植面积提取方法[J].遥感技术与应用,2011(2):163-168.
[10] 王书玉,张羽威,于振华.基于随机森林的洪河湿地遥感影像分类研究[J].测绘与空间地理信息,2014(4):83-85.
[11] 刘 毅,杜培军,郑 辉,等.基于随机森林的国产小卫星遥感影像分类研究[J].测绘科学,2012(4):194-196.
[12] WASKE B,VAN DER LINDEN S,OLDENBURG C,et al. imageRF-A user-oriented implementation for remote sensing image analysis with Random Forests[J].Environmental Modelling & Software,2012,35:192-193.
[13] BREIMAN L.Random Forests[J].Machine Learning,2001,45(1):5-32.
[14] 宋 茜.基于GF-1/WFV和面向对象的农作物种植结构提取方法研究[D].北京:中国农业科学院,2016.
[15] XIANJU L,GANG C,JINGYI L,et al. Effects of RapidEye Imagery's Red-edge Band and Vegetation Indices on Land Cover Classification in an Arid Region[J].Chinese Geographical Science,2017,5(27):827-835.