基于网格搜索随机森林算法的工矿复垦区土地利用分类

2017-11-24 06:07陈元鹏彭军还李少帅
农业工程学报 2017年14期
关键词:工矿网格精度

陈元鹏,罗 明,彭军还,王 军,周 旭,李少帅

(1. 中国地质大学(北京)土地科学技术学院,北京 100083;2. 国土资源部土地整治中心,北京 100035)

基于网格搜索随机森林算法的工矿复垦区土地利用分类

陈元鹏1,2,罗 明1,彭军还2,王 军1,周 旭1,李少帅1,2

(1. 中国地质大学(北京)土地科学技术学院,北京 100083;2. 国土资源部土地整治中心,北京 100035)

为提高工矿复垦区遥感影像土地利用分类精度,为土地复垦监测工作提供数据支持,该文探讨了基于网格搜索(Grid-Search)的随机森林(random forest)复垦区土地利用分类方法。研究利用GF-1影像、DEM(digital elevation model)和野外调查等数据,以随机森林分类算法为框架,采用基于OOB(Out-of-Bag)误差的网格搜索法对算法进行参数寻优,结合影像光谱、地形、纹理、空间信息,计算选取了33个特征变量,构建了4种变量组合模型开展随机森林分类试验,4个组合模型的分类精度分别达到82.79%、84.91%、86.75%、88.16%。为去除33个特征变量中的冗余信息、降低影像波段变量维度、缩短分类执行时间并保证影像分类精度,试验分别利用变量重要性估计和Relief F方法进行特征选择后再次执行随机森林分类,将分类结果与不同组合模型、不同分类方法进行比较,结果表明:基于网格搜索参数寻优的随机森林算法在多特征变量的影像分类中可以达到88.16%的分类精度,在利用不同方法降维后依然可以将分类精度保持在85%以上,精度优于相同特征变量下的SVM(support vector machine)和MLC(maximum likelihood classification)分类方法;在效率方面,随机森林分类方法执行时间优于SVM,并且在处理多维特征变量时能力更强。由此可见,采用基于网格搜索的随机森林方法对工矿复垦区土地利用信息进行分类提取可以得到较高的精度,基于该方法开展遥感影像解译可为土地复垦监测工作提供技术支持和理论参考。

土地复垦;土地利用;工矿;复垦区;随机森林;网格搜索;多特征变量;特征选择

0 引 言

中国是一个矿业大国,矿产资源开发为国家社会经济发展做出了巨大的贡献,但矿产资源开采对一些区域土地资源和生态环境造成了严重的负面影响[1],对此,土地复垦与生态重建成为统筹矿产资源开发和土地资源保护、推动生态文明建设的重要措施。利用遥感技术手段开展复垦区土地利用信息的识别、提取与分类成为验证、评估土地复垦工作成效,持续跟踪复垦土地后期管护情况的重要手段之一。

随机森林(RF,random forest)分类方法目前在基于机器学习的遥感影像分类方法中精度相对较高,在处理大数据集时运行速度更快,不容易过拟合,处理多维变量能力强,可生成变量重要性估计,所以该方法在多维数据分类回归中被广泛应用,并取得较好效果[2]。

在国外,RF方法应用于遥感影像分类的研究开展较早,如Pal等利用其对土地覆被进行分类,并与迭代、支持向量机、决策树等方法在精度及效率方面进行比较,验证了方法的优越性[3-4]。近些年,国内亦有研究人员将RF方法应用于遥感影像的分类研究,如马玥、郭玉宝等分别应用该方法对农耕区和城市区土地利用信息进行了分类提取,并取得较高精度[5-7]。但国内对于 RF方法的研究与应用仍有待深入和加强,如对方法本身而言,存在一定缺陷,封装性强、运行过程不可控,只能通过参数调节完善模型;对研究应用而言,以中等分辨率影像和平原区的研究居多,基于高分辨率影像的山地丘陵区研究较少。

工矿复垦区域,多位于山地丘陵区,域内地形起伏大、地物分布破碎,项目区较小、布局分散,利用中等分辨率影像开展地物信息提取的精度难以满足土地复垦管理需求。因此采用高分辨影像开展工矿复垦区土地利用分类研究很有必要,同时利用参数寻优与RF结合可弥补方法本身不足,有助于提高分类精度。

本文使用高分辨率影像,采用基于 RF袋外数据(OOB,Out-of-Bag)误差网格搜索(Grid-Search)参数寻优的分类方法对工矿复垦区土地利用信息进行分类提取,分析不同特征变量对分类结果的影响与重要性,并根据特征变量重要性和 Relief F方法分别对高维数据降维,通过与支持向量机(SVM,support vector machine)和最大似然(MLC,maximum likelihood classification)分类方法进行比较,评估RF分类方法的性能和在工矿复垦区土地利用分类中的适用性,为土地复垦监测工作提供理论参考和技术支持。

1 研究区概况

研究区位于四川省泸州市古蔺县石屏乡,地理坐标为 28°0′55′~28°3′26′N,105°59′32′~106°2′13′E,区域内海拔410~1 025 m,中亚热带气候,年平均气温17.1~18.5 ℃、平均降雨量748.4~1 184.2 mm。区域内分布有若干硫磺厂与工业区,堆积有废弃磺渣堆,对周边土地造成了一定污染[8-10],参照《土地利用现状分类标准(GB/T 21010-2007)》,研究区内土地利用类型划分为有林地、灌木林地、旱地、工矿用地(工业用地、采矿用地)、农村宅基地、道路(公路、农村道路)和坑塘水面等,地理区位、样点分布及遥感影像数据如图1所示。

图1 研究区地理位置、样点分布和3D遥感影像Fig.1 Location of study area, sampling points distribution and 3D of remote sensing image

2 数据选取及预处理

本研究中采用的主要数据为GF-1卫星遥感影像,辅助数据包括无人机航拍影像、DEM数据、地面实测数据、Google Earth数据。其中,GF-1卫星遥感影像用于复垦区土地利用信息分类提取;DEM数据作为辅助数据,提取坡度、坡向信息,参与影像分类并用于提高影像分类精度;无人机航拍影像与Google Earth数据用于样点采集和精度评价。

2.1 GF-1卫星遥感影像

GF-1号卫星发射于2013年,搭载了两台2 m分辨率全色/8m分辨率多光谱相机(PMS),四台16 m分辨率多光谱相机(WFV)[11]。本文选用的GF-1遥感数据为2 m分辨率全色/8 m分辨率多光谱波段数据1景,波段数为5,分别为 B、G、R、NIR、PAN,获取日期为 2016年 10月9日,域内无云量。影像的预处理在ENVI5.3软件平台中完成,对多光谱数据的预处理包括辐射定标、FLAASH模块大气校正、正射校正,后对全色数据进行辐射定标、正射校正,再将全色和多光谱数据利用Gram-Schmidt 方法融合后裁剪生成研究区影像数据[12]。

2.2 辅助数据

辅助数据中,航拍影像为 UV-II型无人机搭载的Pentax-645D相机拍摄,拍摄时间为2016年11月,空间分辨率为0.2 m;DEM数据基于无人机航拍影像的畸变校正、自由网空三加密后生成,空间分辨率2 m。

2.3 地面实测与样点数据

地面实测数据的采集在无人机航拍过程中同步开展,地面实测仪器采用天宝手持式 GPS,水平精度优于1m(Trimble geoexplorer 2008 Series GeoXH,trimble navigation limited,USA);此外,还应用Google Earth影像数据用以辅助航拍影像选取训练与验证样点,其中训练样点48 279个像素,占比20%;验证样点209 691个像素,占比80%。

3 研究方法

3.1 技术方法

本文方法流程:1)对全色和多光谱影像进行预处理和融合,对航拍影像、DEM影像与卫星影像进行配准、裁剪,利用Nearest Neighbor方法将航拍影像空间分辨率重采样至1 m以提高影像处理速度;2)结合数据的光谱、地形、纹理、空间信息进行特征变量的计算、选取;3)建立了4种不同的特征变量组合模型:模型1(光谱特征,SPE),模型 2(光谱、地形特征组合,SPE+DEM),模型3(光谱、地形和纹理特征组合,SPE+DEM+TXT),模型4(光谱、地形、纹理和空间特征组合,SPE+DEM+TXT+SPA),评测各特征变量对影像分类的贡献度,选出最佳的分类方案;4)通过基于 OOB误差的网格搜索法进行RF分类算法参数寻优,对4种模型执行分类并对结果进行精度评价[13-14];5)利用特征变量重要性估计和Relief F方法分别择优选取波段变量,再次执行RF分类算法,通过与SVM和MLC分类方法进行比较,评估RF分类方法的性能,技术路线如图2。

图2 技术路线Fig.2 Work flow of this study

其中,影像的特征变量计算包括基于光谱信息计算的适于提取植被的NDVI(normalized difference vegetation index)、适于提取不透水面的BCI(biophysical composition index)[15-16];基于地形数据计算的坡度、坡向、曲率;基于纹理信息计算的均值、方差、同质性、熵与二阶距等;反映空间信息的 Local Moran’I和 Local Getis Ord Gi[17]。

3.2 特征变量计算与选取

影像获取月份为10月,该时段部分旱地植被覆盖度较低,其目视特征与工矿用地十分相似。GF-1影像没有中红外、热红外波段,无法构建NDISI、NDII等提取不透水层较为有效的光谱指数[18],因此本文利用三指数法构建了 BCI指数,用以增强分类算法识别低覆盖度植被区与工矿区的能力。

BCI的计算过程如下[19-20]

式中B、G、R、NIR分别为蓝、绿、红光和近红外波段,TC1、TC2、TC3为缨帽变换后的前3个分量,H、V、L为归一化后的TC1、TC2、TC3。

地形信息特征变量包括DEM,基于DEM计算的坡度(slope)、坡向(aspect)、曲率(curvature);纹理信息特征变量中,经多次试验对比分析,选用 3×3大小的移动窗口,利用灰度共生矩阵分别计算影像 4个波段变量的8种纹理特征[21]:均值(mean)、方差(variance)、同质性(homogeneity)、对比度(contrast)、差异性(dissimilarity)、熵(entropy)、二阶矩(second moment)、相关性(correlation)[22],总计32个变量,因32个变量之间相关性较高,利用主成分变换(PCA)对其进行降维,以标准差值0.3为阈值正向排序择优选取了前12个变量(PC1~PC12)参与影像分类;空间信息特征变量是基于全部光谱、地形、纹理信息计算的Local Moran’I和Local Getis Ord Gi,以标准差值0.6为阈值正向排序最后选择了10个变量参与分类。所有特征变量如表1所示。

表1 特征变量统计Table 1 Statistic of feature variables

3.3 RF分类方法

RF分类方法是由决策树组合构成的机器学习算法,该算法适用于处理高维数据且运行速度相对较快[23],它的执行过程如下:首先采用随机Bootstrap方法从原始数据中有放回的抽取N组训练集,每组训练集的大小约为训练数据集的 2/3,这一过程称为Bagging;然后利用N组训练集构建N棵决策树,在每棵树生长过程中,从全部M个特征变量中随机抽选m个(m≤M)进行内部节点划分;最后,集合N棵决策树的预测结果,采用投票的方式决定新样本的类别。在训练数据抽取过程中,约1/3的数据未被抽中,这些数据称为袋外数据(OOB),OOB可用于类别错分的误差评估和变量重要性估计,在变量选取过程中采用了Gini系数测量变量的不纯度。通常树的默认数量(ntree)为100,变量默认数量(mtry)为影像波段总数的平方根[24-26],为进一步提高分类精度,本文采用了基于 OOB误差值的网格搜索法[27]进行ntree和mtry的参数寻优。

网格搜索法(Grid-Search)是ntree和mtry分别取M和N个值,用M×N个(ntree,mtry)的组合分别训练不同的RF分类器,再根据OOB误差值估计其学习精度,进而在若干个组合中得到学习精度最高的一个组合作为最优参数,其优点是可以保证所得的搜索解是划定网格中的全局最优解,避免重大误差[28]。RF分类算法与网格搜索算法均在Matlab 2012b语言平台实现。

3.4 训练与验证样点

参照无人机航拍影像、地面实测数据和Google Earth高分辨率影像,选取训练与验证样点,其中训练样点48 279个像素,占比20%;验证样点209 691个像素,占比80%。各类地物样点数量与分布如表2。

表2 各地物类型样点数量Table 2 Numbers of samples for each class

4 结果与分析

4.1 分类结果与精度

利用网格搜索法分别对4个模型的RF算法进行参数寻优,模型1的mtry参数寻优范围是(2、3、4、5),模型2的mtry参数寻优范围是(3、5、7、9),模型3的mtry参数寻优范围是(5、10、15),模型 4的mtry参数寻优范围是(6、12、18);ntree参数寻优范围统一为(25、50、75、100)。4个模型的mtry和ntree最优参数分别为(4,100)(7,100)(10,100)(12,100),利用以上参数分别执行RF分类算法得到分类结果,分类图局部效果如图 3。4个模型分类总体精度分别为82.79%、84.91%、86.75%、88.16%,由变化幅度看,增加了地形特征变量后,精度提升幅度最大为2.12%,加入纹理特征变量和空间特征变量也能够相应提高分类精度。

通过图3比较,模型2的分类结果明显优于模型1,模型1结果:灌木林地错分为有林地为32%,村庄错分为耕地为32.4%(灌木林地和村庄的错分如位置①),因为灌木林地和有林地具有相似的光谱特性,而在该低山丘陵区部分村庄和耕地混合分布,所以单纯利用光谱信息进行分类效果不佳,而在加入地形数据变量后,效果得以改善、精度有所提高、椒盐现象消除显著。

模型2结果相较与模型1:灌木林地、道路、耕地的误分结果较模型 1结果有所改善(位置①),但有林地与耕地误分增加;的灌木林地与耕地误分结果与模型 1比较得以改善(位置②);工矿用地与村庄的区分效果更优(位置③),线状地物的提取效果更明显,但部分道路混分到村庄和工矿用地中(位置④)。

图3 分类结果局部效果对比Fig.3 Comparison of local classification result

模型3结果相较于模型2:有林地与耕地的误分得以进一步改善(位置①),灌木林地错分为耕地比率有所减少(位置②),村庄和工矿用地中混分的道路得到进一步去除(位置④)。

模型4与模型3结果比较:引入Local Getis Ord Gi变量后,空间集聚效应更优,细碎的分类地物得到有效归并(位置②),分类精度进一步提高。

4个模型中,模型4分类精度最高达88.16%,混淆矩阵见下表 3,其中精度在 80%以下的有灌木林地和村庄,分别为76.75%和68.61%,虽然精度相对较低,但较之模型1的56.89%和54.31%,分别提高19.86%和14.3%,可知在多特征变量下分类精度提高显著。各地物类型的错分和漏分误差如下图4,由图4知加入地形信息变量后,各地物的错分漏分误差都有不同程度降低,尤其灌木林地、村庄、道路的漏分误差下降显著,可知地形数据变量对于提取建设用地信息较为有效。加入纹理信息变量和空间信息变量后,各类地物错分漏分误差总体呈现下降趋势,虽然部分地物如道路错分误差有所提高,但漏分误差下降,总体看仍提高了分类精度。

表3 模型4精度评价表Table 3 Accuracy assessment of model 4 %

图4 分类结果错分与漏分误差图Fig.4 Commission and omission errors of the classification results

4.2 特征变量重要性与降维

如图5所示,根据OOB误差得出4个模型的特征变量重要性排序,由图5可知在前个3模型中R、DEM、NDVI、BCI、NIR、PC9、PC5、Slope 重要性较高,B、G、Cur等波段重要性相对较低,而在模型4中加入了空间统计变量Local Getis Ord Gi后,Gi相关波段变量在分类的重要性中排序较为靠前,其中Gi R变量重要性值最高。在参与分类的变量增多时,冗余变量信息也逐渐增多,B、G、Cur、PC7、PC6等重要性排序相对靠后的变量参与分类后延长了算法执行时间,降低了工作效率,如模型1~4的分类执行时间分别为6、11、19、26 min,所以虽然模型4的分类精度最高达到88.16%,但相对的分类算法执行时间也最长26 min。为此,为在保证分类精度的同时提高分类效率,试验进行了进一步的特征变量选择,对影像波段进行降维。主要应用了 2种方法进行比较分析。

1)根据变量重要性估计进行选择。按照模型4的特征变量重要性排序,利用前向选择方法抽取了模型 4的前11个特征变量(Gi R、R、DEM、Gi DEM、Gi NDVI、NDVI、slope、PC9、Gi NIR、PC5、BCI),构建了与模型2特征变量数目相同的由11个波段组成的模型,记为模型RF_FS。

2)利用Relief F算法对模型4的变量进行降维。Relief F 算法是一种考虑了多变量和特征互相依赖作用的过滤式(Filter)特征选择算法[29-30],算法通过“假设间隔”对特征的分类能力进行评价,综合考虑类间距与类内距,若类间距大于类内距,则增加其权值,若类间距小于类内距,则降低其权值,通过类间距与类内距不断更新其权值,并根据计算的最终权值进行特征选择,权值更新公式见(8),假设间隔θ是指当保持样本类别不变时分类决策面可移动的最大距离,公式见(9)。

式中,diff()是不同样本间的距离,n是样本数量,f是评价的特征,i是随机抽中的样本,H(x)、M(x)分别是样本x的同类和异类最近邻样本点。

利用Relief F算法对模型4的33个特征变量进行选择,保留了与目标类相关性较大的前11个变量(Gi R、Gi B、Gi R、R、G、B、PC1、PC3、PC6、PC2、Gi NIR),构建了与模型 2特征变量数目相同的模型,记为RF_Relief F。

4.3 不同方法分类结果比较

将基于Relief F算法降维的变量组合模型RF_Relief F、基于变量重要性估计降维的变量组合模型RF_FS进行基于网格搜索的 RF算法分类,将分类结果分别与模型4RF分类(Model 4)、模型2 RF分类(Model 2)、基于变量重要性估计降维后的支持向量机分类(SVM_FS)、基于变量重要性估计降维后的最大似然分类(MLC_FS)结果进行比较,比较算法执行时间、分类总体精度和Kappa 系数,分析各组合、分类方法对复垦区土地利用信息分类提取的适用性,比较结果如表4。

对照结果可知,RF_Relief F和RF_FS的总体精度分别为86.26%、85.24%,与Model 4相比精度分别下降1.9%和2.92%,但与同是11个特征变量的Model 2相比,分类总体精度分别提高1.35%和0.33%,说明虽然特征变量的减少对分类总体精度有负面影响,但对于同等数量的特征变量而言,特征变量的优选对于RF分类总体精度改善有着不同程度的正面影响。RF_Relief F和RF_FS相比,前者总体精度略高,说明总体上看Relief F算法和基于变量重要性估计降维方法相比较,Relief F算法的变量寻优效果更佳。但两者的灌木林地分类精度为分别为59.33%和 75.26%,耕地分类精度分别为 87.59%和 81.59%,道路分类精度分别为86.48%和97.15%,说明基于地形信息的特征变量对于该区域的灌木林地和道路等的分类精度影响较大,比较结果见表5。从图6a、b比较也可看出,位置①②③④差异显著,主要是道路、工矿和灌木林地的差别。

图5 模型1~4变量重要性Fig.5 Variable importance value of model 1-4

表4 不同方法精度评价表Table 4 Accuracy assessment of result based on different method

如表5,RF_FS与SVM_FS、MLC_FS相比较,RF_FS分类结果总体精度分别提高4.1%和5.57%。MLC方法运行时间最短,但精度最低为79.67%,其中工矿用地的分类精度只有52.63%,可知该方法对复垦区内工矿用地信息的提取效果不理想,但其余各地类分类精度均在 70%以上,其中有林地 95.14%、道路 93.32%、灌木林地84.30%。SVM方法分类结果总体精度较MLC方法稍有提高,但村庄的分类精度只有46.30%、灌木林地65.86%、工矿用地62.97%,算法执行时间在四种方法中时间较长达22分钟,所以本实验中SVM与MLC分类方法相比,对于工矿复垦区土地利用信息的分类提取适用性更低。分类结果及差异如图6c、d示。

表5 不同方法类间精度评价表Table5 Accuracy assessment of classification result based on different method %

图6 不同组合、分类方法结果对比Fig.6 Comparison of different model and classification results

5 结 论

基于网格搜索参数寻优的 RF方法在多特征变量的影像分类中可以达到88.16%的分类精度,利用不同方法降维后分类精度依然保持在 85%以上,精度优于相同特征变量下的SVM和MLC分类方法;在效率方面,随机森林分类方法执行时间优于SVM,并且在处理多维特征变量时能力更强。可见采用基于网格搜索的RF方法对工矿复垦区土地利用信息进行分类提取可以得到较高的精度,基于该方法开展遥感影像解译可为土地复垦监测工作提供技术支持和理论参考。但研究试验中仍存在一些有待改进的环节:如参数寻优过程中的参数预设范围有待进一步扩大;导致各地类分类精度变化的相关性影响因素有待进一步验证等,不足之处将在未来的学习研究中逐步完善。

[1] 国土资源部土地整治中心. 《中国土地整治发展研究报告NO.3》[M]. 北京:社会科学文献出版社,2016.

[2] 马玥,姜琦刚,孟治国,等. 基于随机森林算法的农耕区土地利用分类研究[J]. 农业机械学报,2016,47(1):297-303.Ma Yue, Jiang Qigang, Meng Zhiguo, et al. Classification of land use in farming area based on random forest algorithm[J].Transactions of the Chinese Society for Agricultural Machinery,2016, 47(1): 297-303. (in Chinese with English abstract)

[3] Pal M. Random forest classifier for remote sensing classification[J]. International Journal of Remote Sensing,2005, 26(1): 217-222

[4] Pall Oskar Gislason, Jon Atli Benediktsson, Johannes R Sveinsson. Random forests for land cover classification[J].Pattern Recognition Letters, 2006, 27(4): 294-300

[5] 郭玉宝,池天河,彭玲,等. 利用随机森林的高分一号遥感数据进行城市用地分类[J]. 测绘通报,2016(5):73-76.Guo Yubao, Chi Tianhe, Peng Ling, et al. Classification of GF-1 remote sensing image based on random forests for urban land-use[J]. Bulletin of Surveying and Mapping,2016(5): 73-76. (in Chinese with English abstract)

[6] 杨珺雯,张锦水,朱秀芳,等. 随机森林在高光谱遥感数据中降维与分类的应用[J]. 北京师范大学学报(自然科学版),2015,51(1):82-88.Yang Junwen, Zhang Jinshui, Zhu Xiufang, et al. Random forest applied for dimension reduction and classification in hyperspectral data[J]. Journal of Beijing Normal University(Natural Science), 2015, 51(1): 82-88.

[7] 王书玉,张羽威,于振华. 基于随机森林的洪河湿地遥感影像分类研究[J]. 测绘与空间地理信息,2014,37(4):83-85.Wang Shuyu, Zhang Yuwei, Yu Zhenhua. Classification of Honghe wetland remote sensing image based on random forests[J]. Geomatics & Spatial Information Technology,2014, 37(4): 83-85. (in Chinese with English abstract)

[8] 张玉芳,庞艳梅,刘琰琰,等. 近50年四川省水稻生产潜力变化特征分析[J]. 中国生态农业学报,2014,22(7):813-820.Zhang Yufang, Pang Yanmei, Liu Yanyan, et al. Potential productivity of rice in Sichuan Province in recent five decades[J]. Chinese Journal of Eco-Agriculture, 2014, 22(7):813-820. (in Chinese with English abstract)

[9] 孙园园,徐富贤,孙永健,等. 四川稻作区优质稻生产气候生态条件适宜性评价及空间分布[J]. 中国生态农业学报,2015,23(4):506-513.Sun Yuanyuan, Xu Fuxian, Sun Yongjian, et al. Suitability evaluation of eco-climatic conditions for high quality rice production in Sichuan Province[J]. Chinese Journal of Eco-Agriculture, 2015, 23(4): 506-513. (in Chinese with English abstract)

[10] 肖科. 泸州市土地整理效益分析与评价[D]. 四川:四川农业大学,2009.Xiao Ke. Land Consolidation Benefit Analyzation and Evaluation in Lu Zhou[D]. Sichuan: Sichuan Agricultural University, 2009.

[11] 王利民,刘佳,杨福刚,等. 基于GF-1卫星遥感的冬小麦面积早期识别[J]. 农业工程学报,2015,31(11):194-201.Wang Limin, Liu Jia, Yang Fugang, et al. Early recognition of winter wheat area based on GF-1 satellite[J]. Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2015, 31(11): 194-201. (in Chinese with English abstract)

[12] 贾玉秋,李冰,程永政,等. 基于GF-1与Landsat-8多光谱遥感影像的玉米LAI反演比较[J]. 农业工程学报,2015,31(9):173-179.Jia Yuqiu, Li Bing, Cheng Yongzheng, et al. Comparison between GF-1 images and Landsat-8 images in monitoring maize LAI[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015,31(9): 173-179. (in Chinese with English abstract)

[13] Aaron E Maxwell, Timothy A Warner. Differentiating mine-reclaimed grasslands from spectrally similar land cover using terrain variables and object-based machine learning classification[J]. International Journal of Remote Sensing,2015, 36(17): 4384-4410.

[14] Wu Chaofan, Deng Jinsong, Wang Ke, et al. Object-based classification approach for greenhouse mapping using Landsat-8 imagery[J]. International Journal of Agricultural &Biological Engineering, 2016, 9(1): 79-88.

[15] 徐涵秋,王美雅. 地表不透水面信息遥感的主要方法分析[J]. 遥感学报,2016,20(5):1270-1289.Xu Hanqiu, Wang Meiya. Remote sensing-based retrieval of ground impervious surfaces[J]. Journal of Remote Sensing,2016, 20(5): 1270-1289. (in Chinese with English abstract)[16] Chengbin Deng, Changshan Wu, et al. BCI: A biophysical composition index for remote sensing of urban environments[J]. Remote Sensing of Environment, 2012, 127:247–259.

[17] 赵玉,王红,张珍珍. 基于遥感光谱和空间变量随机森林的黄河三角洲刺槐林健康等级分类[J]. 遥感技术与应用,2016,31(2):359-367.Zhao Yu, Wang Hong, Zhang Zhenzhen. Forest healthy classification of robinia pseudoacacia in the Yellow River Delta, China based on Spectral and spatial remote sensing variables using random forest[J]. Remote Sensing Technology and Application, 2016, 31(2): 359-367. (in Chinese with English abstract)

[18] Xu Hanqiu. Analysis of impervious surface and its impact on urban heat environment using the normalized difference impervious surface index (NDISI)[J]. Photogrammetric Engineering and Remote Sensing, 2010, 76(5): 557-565.

[19] 杨文治,张友静,尹新沆,等. 面向 GF-1影像的比值建筑用地指数构建[J]. 国土资源遥感,2016,28(1):35-42.Yang Wenzhi, Zhang Youjing, Yin Xinhang, et al.Construction of ratio build-up index for GF-1 image[J].Remote Sensing for Land & Resources, 2016, 28(1): 35-42.(in Chinese with English abstract)

[20] Horne J H. A tasseled cap transformation for IKONOS images[C]. ASPRS 2003 Annual Conference Proceedings.2003: 60-70.

[21] 王文静,张霞,赵银娣,等. 综合多特征的Landsat 8时序遥感图像棉花分类方法[J]. 遥感学报,2017,21(1):115-124.Wang Wenjing, Zhang Xia, Zhao Yindi, et al. Cotton extraction method of integrated multi-features based on multi-temporal Landsat 8 images[J]. Journal of Remote Sensing, 2017, 21(1): 115–124. (in Chinese with English abstract)

[22] 王书志,张建华,冯全. 基于纹理和颜色特征的甜瓜缺陷识别[J]. 农业机械学报,2011,42(3):175-179.Wang Shuzhi, Zhang Jianhua, Feng Quan. Defect detection of muskmelon based on texture features and color features[J].Transactions of the Chinese Society for Agricultural Machinery, 2011, 42(3): 175-179. (in Chinese with English abstract)

[23] Breiman L. Random forest[J]. Machine Learning, 2001, 45(1):5-32.

[24] Vahid Eisavi, Saeid Homayouni, Ahmad Maleknezhad Yazdi,et al. Land cover mapping based on random forest classification of multitemporal spectral and thermal images[J]. Environ Monit Assess , 2015, 187: 291.

[25] Ghosh A, Sharma R, Joshi P K. Random forest classification of urban landscape using Landsat archive and ancillary data:Combining seasonal maps with decision level fusion[J].Applied Geography, 2014, 48: 31–41.

[26] 雷震. 随机森林及其在遥感影像处理中应用研究[D]. 上海:上海交通大学,2012.Lei Zhen. Random Forest and Its Application in Remote Sensing[D]. Shang Hai: Shanghai Jiao Tong University,2012.

[27] 王兴玲,李占斌. 基于网格搜索的支持向量机核函数参数的确定[J]. 中国海洋大学学报,2005,35(5):859-862.Wang Xingling, Li Zhanbin. Identifying the parameters of the kernel function in support vector machines based on the Grid-search method[J]. Periodical of Ocean University of China, 2005, 35(5): 859-862.

[28] 刘颖. 《基于机器学习的遥感影像分类方法研究》[M]. 北京:清华大学出版社,2014.

[29] Liu Jiantao, Feng Quanlong, Gong Jianhua, et al. Land-cover classification of the Yellow River Delta wetland based on multiple endmember spectral mixture analysis and a Random Forest classifier[J]. International Journal of Remote Sensing,2016, 37(8): 1845-1867.

[30] 王永吉,孟庆岩,杨健,等. 一种基于特征选择的面向对象遥感影像分类方法[J]. 科学技术与工程,2016,16(32):1671-1815.Wang Yongji, Meng Qingyan, Yang Jian, et al. Object based remote sensing image classification based on feature selection method[J]. Science Technology and Engineering,2016, 16(32): 1671-1815. (in Chinese with English abstract)

Classification of land use in industrial and mining reclamation area based grid-search and random forest classifier

Chen Yuanpeng1,2, Luo Ming1, Peng Junhuan2, Wang Jun1, Zhou Xu1, Li Shaoshuai1,2
(1. China University of Geosciences (Beijing), School of Land Science and Technology, Beijing100083, China;2.Land Consolidation and Rehabilitation Center, Ministry of Land and Resource, Beijing100035, China)

In the industrial and mining land reclamation area, the strong topographic relief, the diversity, breakage, mixed distribution and scattered layout of the surface features and other factors cause the difficulties for remote-sensing image classification mapping. In order to improve the classification accuracy for land use of industrial and mining reclamation area and provide data support for land reclamation monitoring and supervision, this article explored the classification method based on grid-search and random forest algorithm for the reclamation area. Satellite and auxiliary dataset including GF-1 images,DEM (digital elevation model) and field investigation data were acquired in October 2016. The study area was Gulin County,Luzhou City, Sichuan Province. In order to obtain the real surface reflectance and reduce the atmospheric and environmental effects from the satellite images in this study, FLAASH atmospheric correction and geometric correction were used in the satellite image pre-processing with ENVI 5.3 software. A machine learning algorithm, random forest algorithm, was used because the method facilitated the use of ancillary data in classification. Feature selection was an important preprocessing step in many machine learning applications, which selected the smallest subset of relevant features that built robust learning models.In the paper, spectrum, topography, texture and space variables were included in feature selection, in order to differentiate the built-up areas and farmlands, and BCI (biophysical composition index) was calculated in spectrum features. Texture feature processing comprised principal component analysis. Local Moran’ I reflecting spatial autocorrelation feature and Local Getis Ord Gi reflecting hotspot feature were selected to improve the result of classification further. The grid-search method based on OOB (Out-of-Bag) error was used to optimize parameter. Based on data image spectrum, topography, texture, space and other information, 33 feature variables were figured out from the feature selection step, and 4 combined models were constructed to carry out random forest classification experiment; and the precision was 82.79%, 84.91%, 86.75% and 88.16% respectively.To eliminate the redundant information in the 33 feature variables and reduce the image band dimensionality, the study adopted variable importance estimation and Relief F algorithm to select the principle feature variables to conduct classification according to random forest algorithm. Through the comparison between the Model 2, Model 4, SVM (support vector machine)and MLC (maximum likelihood classification) classification result respectively, the study indicates that the random forest algorithm based on grid-search parameter optimization can achieve the classification accuracy of 88.16% in the multi-feature variables frame. After different methods are used to reduce the dimension of variables, the classification accuracy can also be kept above 85%, and the accuracy is higher than SVM and MLC classification results under the same number of feature variables. The random forest classifier is superior to SVM and more capable of dealing with multidimensional characteristic variables. The random forest method based on grid-search can obtain high precision in land use classification applied in reclamation area. Based on this method, remote sensing image interpretation can well provide the technical support and rational reference for land reclamation monitoring and supervision.

land reclamation; land use; mines; reclamation area; random forest; grid-search; multi-feature variables; feature selection

10.11975/j.issn.1002-6819.2017.14.034

TP79;S127

A

1002-6819(2017)-14-0250-08

陈元鹏,罗 明,彭军还,王 军,周 旭,李少帅. 基于网格搜索随机森林算法的工矿复垦区土地利用分类[J]. 农业工程学报,2017,33(14):250-257.

10.11975/j.issn.1002-6819.2017.14.034 http://www.tcsae.org

Chen Yuanpeng, Luo Ming, Peng Junhuan, Wang Jun, Zhou Xu, Li Shaoshuai. Classification of land use in industrial and mining reclamation area based grid-search and random forest classifier[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(14): 250-257. (in Chinese with English abstract)

doi:10.11975/j.issn.1002-6819.2017.14.034 http://www.tcsae.org

2017-02-26

2017-07-05

公益性行业科研专项(201411017)

陈元鹏,男,辽宁人,博士生,主要从事遥感技术在土地利用与复垦中的应用研究。北京 国土资源部土地整治中心,100035;中国地质大学(北京),100083。Email:cyp520918@163.com

猜你喜欢
工矿网格精度
苏州市开展工矿行业安全生产大检查
热连轧机组粗轧机精度控制
超高精度计时器——原子钟
追逐
分析误差提精度
基于DSPIC33F微处理器的采集精度的提高
重叠网格装配中的一种改进ADT搜索方法
基于曲面展开的自由曲面网格划分
打开工矿灯市场前,你必须知道的散热知识!
恳请将黑龙江“工矿型”革命老区纳入国家精准扶贫规划