基于GF-2遥感影像的葡萄大棚信息提取

2020-03-15 12:31:36汤紫霞李蒙蒙汪小钦邱鹏勋
中国农业科技导报 2020年11期
关键词:面向对象尺度大棚

汤紫霞, 李蒙蒙, 汪小钦, 邱鹏勋

(福州大学, 空间数据挖掘和信息共享教育部重点实验室, 卫星空间信息技术综合应用国家地方联合工程研究中心, 数字中国研究院(福建), 福州350108)

自20世纪80年代以来,设施农业面积不断扩大,逐渐在蔬菜瓜果的供应上占有重要地位,成为部分地区的支柱产业,我国已成为设施农业大国。截至2015年底,我国设施农业面积达410.9万hm2,除去地膜后农业塑料薄膜总用量为113.88万t[1]。农业大棚的增加反映了农业现代化的高速发展,准确快速地获取大棚空间分布情况,不仅有助于农作物监测和农业产值估算,对实现农业资源的高效和可持续利用也具有重要意义[2]。

遥感技术凭借宏观、实时、覆盖面积广和成本低等特点已成为现代农业信息获取的重要途径,在农业大棚信息提取和变化监测方面发挥着重要作用。基于专家知识与规则[3]、支持向量机(SVM)[4-5]、随机森林模型[4]等方法,农业大棚分布信息提取取得较好的精度,学者构建了大棚遥感指数为农业大棚提取研究提供参考[6-7]。由于卫星传感器性能的限制,以上方法大多以中低分辨率影像为数据源,无法有效利用地物的空间信息。近年来,高分辨率影像逐渐被应用于农业大棚提取研究,如Agüera等[8-10]基于QuickBird和Ikonos卫星影像,利用最大似然法开展农业大棚自动化提取,虽然均取得了较高的精度,为后续基于高分影像的大棚检测提供了研究思路,但基于像元的方法制约着高分影像信息提取的精度。

随着高空间分辨率遥感数据的广泛应用,基于面向对象的分类方法比基于像元的方法具有更大的优势[11],如Tarantino等[12]应用面向对象影像分析方法,基于高分辨率真实彩色航空数据对葡萄大棚进行检测,精度达90%;Aguilar等[13-14]结合高分辨率影像的空间信息和中分辨率影像的光谱、纹理等信息,利用决策树分类法获取了精细的农业大棚空间分布图。利用面向对象方法有效提高了农业大棚的提取精度,但也增加了特征维度,影响提取效率。Gonzalez-Yebra等[15]结合面向对象方法和随机森林模型,基于国外高分辨率航空正射影像提取农业大棚信息,一定程度上有效处理了高维数据,提高了农业大棚信息提取精度。GF-2卫星是我国自主研制的首颗空间分辨率优于1 m的民用光学遥感卫星,具有亚米级空间分辨率、高定位精度和快速姿态机动能力等特点[16]。但基于国内GF-2数据将面向对象方法和随机森林模型结合提取农业大棚信息的研究却鲜有报道。此外,基于面向对象方法进行信息提取,分辨率制约着提取结果的形状完整性,因此,对提取结果的形状不确定性进行评价具有重要意义。

本文以GF-2影像为数据源,以福建省福安市葡萄大棚集中分布的城镇为研究区,基于面向对象图像分析模式,充分挖掘随机森林算法在特征选择和专题分类提取上的优势,开展南方丘陵地区葡萄大棚信息提取研究,采用改进的面向对象评价指数对基于GF2影像提取结果的形状不确定性进行评价。同时分析面向对象方法和随机森林算法模型结合在GF-2影像上的适用性,推进国产高分辨率卫星的应用,也为日后其他地区农业大棚信息提取提供借鉴。

1 材料与方法

1.1 研究区概况

福安市位于福建省宁德市中部,地处鹫峰山脉东南坡,太姥山脉西南部、洞宫山脉东南延伸部分;地理位置介于北纬26°41′—27°24′、东经119°23′—119°52′之间。该地区气候温暖湿润、光照充足,属中亚热带海洋性季风气候,年均气温13.6~19.8℃,年降雨量1 350~2 050 mm,有利于葡萄的生长。为隔绝雨水和防治病虫害,福安市一直采用以农业大棚为主的葡萄栽培方式,一般3月葡萄发芽开始覆膜,4—7月葡萄处于结果期和成熟期,该阶段大棚基本处于稳定覆盖薄膜阶段。独特的气候、种植方式使得福安市葡萄产业化发展拥有了坚实的基础,成为了我国东南沿海最大的葡萄生产基地,有“南国葡萄之乡”的美誉。研究区位于福安市南部(图1),涵盖了赛岐、湾坞、甘棠和松罗等乡镇,是葡萄大棚最集中分布的区域,可以很好地反映当地葡萄地理位置分布。

1.2 数据源

采用2017年5月28日的GF-2影像作为数据源,包括分辨率为4 m的多光谱影像和分辨率为1 m的全色影像。该时间段内研究区大棚处于稳定覆膜阶段,同时农田作物处于非生长季,对提取精度的影响较小。 首先利用ENVI软件对遥感影像进行正射校正,并使用NND(nndiffuse pan sharpening)方法融合得到1 m分辨率的多光谱影像,图1展示预处理后的研究区真彩色遥感图像。

图1 研究区地理位置及考察点在GF-2 真影像上的分布Fig.1 Study location and distribution of sample on GF-2 image

1.3 研究流程

首先利用eCognition软件中的多尺度分割算法对预处理后的GF-2影像进行分割,并结合ESP (estimation of scale parameter) 尺度评价工具和邻域差分绝对值与标准差比RMAS [ratio of mean diff.to neighbors (abs) to standard deviation]方法为图像分割设置最优分割尺度参数;然后基于随机森林进行特征重要性度量,构建最优特征空间后提取葡萄大棚信息;最后基于面向对象的精度评价指数对葡萄大棚提取结果进行精度评价与分析。

对分割后的图像对象计算包含光谱、纹理、形状等在内的多种对象特征,其中光谱特征反映了遥感影像上不同地物的光谱信息,是最基本的特征。根据实地调研和目视解译,将研究区土地类型分为建筑物、裸地、植被、水体、道路和葡萄大棚六类,对以上土地类型各选取约60个样本区域,统计不同地物在4个波段上的均值,绘制光谱曲线。

1.4 最优分割尺度确定

为探索GF-2影像上对于葡萄大棚的最优分割尺度,本文设定形状因子和紧凑度因子均为0.5,分割尺度取值范围为[50,120],以步长1进行递增。本文将ESP尺度评价工具和RMAS法结合选择最优分割尺度,即首先通过ESP工具对分割尺度进行初步评价,确定不同地物的潜在最优尺度,然后选择邻域对象地物更为丰富的葡萄大棚对象进行RMAS值统计,以得到葡萄大棚的最优分割尺度。

①ESP尺度评价。通过统计影像同质性的局部方差 LV(local variance)以及其变化率值 ROC(rate of change)来确定最优分割尺度[17]。当ROC达到峰值时,所对应的分割尺度极有可能为某种地物最优分割尺度。

(1)

式中,Li+1表示第i+1层对象的平均标准差,Li表示第i层中对象的平均标准差。

②邻域差分绝对值与标准差比(RMAS)。其利用对象内部的标准差与邻域的均值差分绝对值来构建分割评价指数[18]。对于特定地物,当RMAS值最大时,其分割效果最好。

(2)

(3)

(4)

1.5 随机森林算法

随机森林是2001年由Breiman等[19]提出的一种基于决策树的多分类器集成机器学习方法。作为一种分类预测模型,它能有效地避免过度拟合,降低分类的泛化误差,适用于存在大量未知特征的数据集,并估计出每个特征对分类的重要性。随机森林通过Bootstrap进行抽样,从原始数据集中有放回地随机抽取k个训练集合,每次约抽取原始数据集的 2/3作为的训练集,未被抽取的数据称为袋外数据(out-of-bag,OOB);然后从M个特征中随机抽取m个(m<

1.6 特征提取

为降低传统基于反射率分类中“同物异谱”和“异物同谱”现象对影像分类的影响,综合光谱特征、纹理特征和形状特征共50个特征构建初始特征变量(表1),其中光谱特征主要包括各波段对象均值、亮度值和标准差,以及利用波段构建的指数特征,如归一化植被指数(normalized vegetation index,NDVI)[21]和归一化差值湿度指数(normalized difference water index,NDWI)[22];纹理特征基于灰度共生矩阵(GLCM)计算,主要选取0°、45°、90°和135°四个方向下的平均值(mean)、方差(variance)、同质性(homogeneity)、对比度(contrast)、非相似性 (non-similarity)、熵 (entropy)、二阶矩 (second)和相关性(correlation)等;几何特征主要包括面积、长宽比、形状指数和对称性等。

表1 特征变量Table 1 Details of object’s features

1.7 特征重要性度量

随机森林作为分类预测模型一个重要特点是能对每个特征变量进行重要性评估和排序,从而去除冗余特征,构建最优特征空间。其中最常用的是Gini指数法,其通过在每个决策树结点上实现计算特征子集中每个特征的重要性得分[23]。

假设样本集合S中含有n个类别的样本,则其Gini指数[24]公式如下。

(5)

式中,Pi表示第i类样本的概率。在一次分割后,集合S分成了m个子集(Sj,j=1,2,…,m)。分割Gini指数如式(6)所示。

(6)

Gini重要性最终由分割节点前节点的Gini指数减去计算候选特征子集中每一个特征分割该节点后的Ginisplit值得到。其值越大,说明重要性程度越高,对分类结果的影响越大。

1.8 精度评价

本文首先通过混淆矩阵计算生产者精度(PA)、用户精度(UA),并利用F值[25]对葡萄大棚提取结果进行检验,F值可以更好地判断分类方法和数据源优劣。

F=2×UA×PA/(UA+PA)

(7)

(8)

(9)

(10)

结合OC(Mi)和UC(Mi),总误差指数TC(Mi)定义如下。

(11)

此外,利用TC(Mi)获得用于估计分类结果全局属性的全局误差指数GTC。

(12)

式中,m是分类图中指定类分类对象的数量。

2 结果与分析

2.1 地物光谱分析

光谱曲线如图2所示,可以看出,葡萄大棚与水体和植被在绿光波段和红光波段上的值较为接近,但在蓝光和近红外波段上具有一定的可分性;与裸地在各个波段上的值差别均较明显;与建筑物和道路只在近红外波段具有一定可分性,在其余波段亮度值上较为相似,可分离性差。

图2 地物光谱曲线Fig.2 Spectral curves of ground objects

2.2 最优分割尺度定量选择结果

利用ESP评价工具对分割尺度进行初步评价(图3),ROC曲线整体呈下降趋势,而下降过程中达到峰值的分割尺度为56、65、78、87、94、107、114、118等,这些峰值极有可能代表某种地物的最优分割尺度。

图3 ESP尺度分割评价Fig.3 Evaluation of ESP scale segmentation

ESP工具并不能准确得到葡萄大棚所对应最优分割尺度值,仍需进一步的目视判断,具有主观性,通过RMAS法进一步确定葡萄大棚的最优分割尺度。在ESP所得的初始所选分割尺度下计算RMAS值(表2),可以看出,当分割尺度为78时,RMAS值最大为1.312,因此确定葡萄大棚的最优分割尺度为78。

表2 RMAS尺度分割评价表Table 2 RMAS values of various image segmentations

2.3 随机森林最优参数选择

确定最优的ntree和mtry能有效地提高所构建的随机森林模型的精度和效率。通过讨论不同参数组合下的OOB误差率,从而确定随机森林模型的最优参数ntree和mtry,最终结果如图4所示。随着树的数量增加,OOB误差逐渐降低,直至增加到140后OOB误差率趋于稳定。随着mtry的增大,OOB误差率降低,当mtry为7时,OOB误差率整体降至最低,之后mtry增大OOB误差随之增大,这是因为输入特征过多造成冗余。因此最佳参数组合是ntree取值为140,mtry取值为7时,OOB误差率为5.62%。

图4 OOB误差变化Fig.4 Variation of OOB errors

2.4 变量重要性分析

2.4.1特征数量对分类精度的影响 为探究特征数量与随机森林分类精度之间的关系,本文基于Gini指数法对所有提取的特征进行重要性排序,通过改变特征变量个数得到分类精度与特征数量之间关系图如图5所示。可以看出,随着参与分类的特征数量增加,前期分类精度呈现陡增的趋势,当特征数从1增加到6时,分类精度从70.44%迅速提高到92.23%,这主要是因为特征数量过少时,分类器识别各种地物的有效信息不足,使得分类精度较低,而随着特征的增加,有效信息增多,且特征之间的相关性和冗余特征少,提高了地物类别在特征空间的可分性;随着特征数量持续增加,分类精度提高缓慢;当特征数大于15时,分类精度比较稳定,在94%上下波动,主要因为随着特征数量的增加,冗余特征和不相关特征也会随之增多,从而使得分类器性能下降。本文选择重要性较高的前15个特征变量构建最优特征空间。

图5 特征数量与分类精度关系Fig.5 Relationship between the number of features and the accuracy of classification

2.4.2特征变量作用分析 统计前15个特征变量的重要性并进行排序(图6),可以发现,不同特征变量的重要性得分差异较大,光谱特征排名均比较靠前,说明光谱特征是区分葡萄大棚和其他地物的重要特征。其中,光谱最大差分(Max_diff)重要性得分最高,这是因为覆膜时新旧薄膜反射率差异较大导致葡萄大棚内部亮度值变化大,和其他地物差异明显;且由于在栽种的葡萄上覆盖白色塑料膜,削弱了葡萄的植被信息,使其兼具了建设用地等不透水面的光谱特征,结合图2各地物光谱曲线图可以看出,在蓝、绿、红三个波段上葡萄大棚与建筑物和道路可分离性不大,但因为大棚受内部种植作物的影响,具有一定的植被信息,所以在红外波段和以近红外波段所构建的光谱指数上与其他地物具有较大差异,因此,近红外波段均值和基于近红外波段构建的指数NDWI和NDVI重要性排名靠前。纹理特征中,由于南方丘陵区局部空间变化较大,而葡萄大棚在空间分布上具有密集性和规划性,使得其在影像的纹理表现出一致性和均匀性,和其他地物在纹理上表现出很好的可分离性,因此相关性和熵等特征起到重要作用,且为了种植和运输方便,葡萄种植一般靠近公路,种植方向也大多垂直或平行于公路,具有规划性,这也使得纹理特征在90°或135°上和其他地物差异更加明显。几何特征中密度特征对于葡萄大棚的提取有重要作用,这与葡萄大棚主要集中分布在赛江平原和坡度较为平缓的山坡上有关。

图6 特征重要性Fig.6 Features ranked according to their importance

2.4.3优选特征比重分析 对优选的特征进一步分析可以发现,当特征个数不同时,各类别特征参与分类时所占比重也不同。因此,对重要性得分较高的前30个特征变量,以1为步长计算特征数量变化下各类别特征所占的比重。如图7所示,从占比可以看出,前12个特征中,光谱特征占据绝对优势,且排名前两位的特征均为光谱特征,说明光谱特征是区分葡萄大棚和其他地物的重要特征;从整体上看,随着特征个数的增加,光谱特征所占比重在逐渐下降,纹理特征的比重一直稳定上升,这虽然与光谱特征总个数较少有关,但也证明纹理特征在葡萄大棚提取中的作用较为显著;几何特征个数直至增加到14个才发挥作用,说明其对于葡萄大棚和其他地物的区分性相对较小。

图7 不同特征所占比重Fig.7 Proportion of different types of features

2.5 提取结果分析

利用构建的最优特征空间和参数优化后的随机森林模型提取研究区的葡萄大棚信息,提取结果如图8所示。可以看出,葡萄大棚集中分布在赛江平原上和坡度较为平缓的山坡上,其中山坡上的葡萄大棚更为破碎零散。研究区葡萄大棚总面积为15.34 km2,与实际情况相符,其中赛岐镇葡萄大棚种植面积最大为5.67 km2,这是因为赛岐镇平原面积较大,路网发达,便于葡萄种植和运输;溪柄镇种植面积为3.15 km2,稍小于赛岐镇;下白石和湾坞的葡萄种植面积分别为1.99和1.63 km2;甘棠和溪尾镇则由于地形起伏较大,葡萄大棚分布较少。

图8 葡萄大棚空间分布与面积统计Fig.8 Locations and planting areas of grape greenhouses

2.6 提取精度分析

结合野外实地考察数据和Google Earth 高分辨率影像,通过人工目视解译共获取826个验证样本点构建精度评价数据库。用于验证葡萄大棚的样本338个,其中错分37个,生产者精度为89.1%,用户精度为92.3%,总体精度为92.5%,F值为0.91。本文进一步选取葡萄大棚种植面积最大的赛岐镇进行评估,通过计算加权的分割和过分割几何误差指数得到基于面向对象的精度评价指数GTC为0.12,全局误差指数较小,从精度评价结果图(图9)可看出,大部分分类结果整体误差小于0.2,提取结果的形状完整性较好,表明本文方法能提高模型性能和分类精度,有效区分葡萄大棚和其他地物。

A: 区域I的全局误差分布;B:赛岐镇影像与参考图层;C:区域Ⅱ的全局误差分布A: Total error distribution map of region I;B: Image and reference layer of Saiqi; C:Total error distribution map of region Ⅱ图9 基于面向对象的精度评价Fig.9 Object-based evaluation of extracted grape greenhouses

3 讨论

本文以GF-2遥感影像为数据源,基于最优特征空间的随机森林模型对南方丘陵地区葡萄大棚进行信息提取。影像分割是面向对象影像分类的首要步骤。目前,各种图像分割算法层出不穷,基于多尺度分割算法的图像分割被广泛应用于高空间分辨率遥感图像分类中。但对于不同影像不同地物不存在普适的尺度,分割尺度的选择直接决定了影像对象的大小以及信息提取的精度,特定地物最优分割尺度的选择仍然是一个难以攻克的难题[28-29]。针对以往高分辨率影像分割常采用的试误法确定分割尺度所存在的弊端[30],本文结合ESP尺度评价和RMAS法实现了对于葡萄大棚的最优分割尺度选择,为特定地物最优分割参数的选择提供定量依据;基于面向对象的分类方法会增加特征维度,许多研究学者将面向对象和决策树分类、随机森林和支持向量机等结合来处理高维数据[15,31],但并未对多特征进行综合优化,过多的特征会影响模型复杂度和分类精度,基于此问题,利用Gini指数对所提取的对象特征进行重要性评分和排序,构建最优特征空间,能有效提高南方丘陵地区葡萄大棚提取精度;此外,国产GF-2数据的分辨率依然制约面向对象方法提取结果的形状完整性,引入面向对象评价指数对基于GF2影像提取结果的形状不确定性进行评价,得到全局误差指数GTC为0.12,表明该方法对GF-2影像上葡萄大棚信息提取的位置和形状完整性方面具有潜在优势。目前,基于国内GF-2数据将面向对象方法和随机森林模型结合应用到农业大棚信息提取方面还鲜有报道,而本文方法对基于GF-2影像的南方丘陵区域葡萄大棚信息提取具有较大的应用潜力,并可为其他地区的农业大棚信息提取提供较好的解决思路。

虽然本文研究方法在南方复杂丘陵地区的葡萄大棚提取上获得了较好的结果。但也存在很多不足:①未曾探讨优选特征的稳定性和可迁移性,这些特征在其他农业大棚分类中的适用性还需要进一步的探讨;②随机森林模型在某种程度上属于黑箱模型,虽然文中对输入的特征变量个数mtry和决策树的数量ntree的最优参数组合进行了分析,但具体节点阈值的设置还需要更细致的研究;③本文方法暂时只在GF-2影像上实现了葡萄大棚的精确提取,在其他国产卫星数据如GF-1、ZY-3上的应用潜力还需要进一步验证。

猜你喜欢
面向对象尺度大棚
大棚妹子
大棚换茬季 肥料怎么选
今日农业(2022年16期)2022-09-22 05:38:44
谨防大棚房死灰复燃
今日农业(2022年16期)2022-09-22 05:37:44
财产的五大尺度和五重应对
原地翻建大棚 注意啥
今日农业(2020年15期)2020-09-25 03:03:00
面向对象的计算机网络设计软件系统的开发
电子测试(2018年15期)2018-09-26 06:01:34
面向对象的数据交换协议研究与应用
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
面向对象Web开发编程语言的的评估方法
9