孙 政,王 迪,仲格吉
(中国农业科学院农业资源与农业区划研究所/农业农村部农业遥感重点实验室,北京 100081)
及时准确地获取区域内农田地理信息(位置、面积和空间分布等),对作物识别和估产、田间管理、种植结构优化,以及政府部门制定农业政策和经济计划具有重要意义[1]。传统农田地理信息的统计方式是通过行政单元逐级汇总上报或基于农户抽样调查获取,存在耗时、耗力、耗财等缺陷,另外,易受错报、漏报和空报等主观因素影响,大区域农作物的种植面积、结构及空间分布信息很难及时准确地获取[2-3]。自1970年开始,各国开始重视利用遥感技术提取农情信息,遥感具有大范围监测、成本低、客观性强、时效性高等优点,已经被广泛应用于农情监测中,但是实时有效的遥感数据难以立刻获取,且成本相对较高。
OpenStreetMap(OSM)数据具有时效性强、覆盖范围广且可被免费使用的独特优势,与官方数据库相比,其更新速度更快[4]。将遥感数据、自发地理信息(Volunteered Geographic Information,VGI) 数 据 平 台( 如 OSM) 和 云 计 算 平 台( 如 Google Earth Engine,GEE)相结合,能够为土地覆盖和土地利用的相关研究提供重要资源。此外,遥感数据和OSM数据结合能为从事土地利用/覆盖监测与制图研究的学者提供更具有效的数据信息[5-6]。OSM包含了道路数据和土地利用信息等面要素的组合数据,且与商业数据集相比,OSM是具有高实用价值、高精度且可被用于土地覆盖/土地利用研究的数据源[4,7-11]。目前,已有学者使用OSM数据对土地覆盖变化进行研究[12-15]。当前研究仍主要集中在将OSM数据运用于城市建成区提取、道路数据质量评价以及土地覆盖/土地利用变化监测上,将OSM数据运用到农业中的研究鲜有报道。文章使用OSM数据提取农田地理信息,并对该方法的精度和误差进行评价,为快速、低成本的农田地理信息提取提供参考。
本研究选取韩国陕川郡为研究区,该地区OSM数据质量较好,是当地重要的农业种植区。陕川郡位于韩国中南部,地处北纬 35°23′~35°50′、东经 127°57′~128°28′之间,图1展示了陕川郡所处的地理位置。总面积983.39 km2,其中山地面积占72.4%。海拔较高的山脉分布在该区域的西北部,中北部则是山脉的分支或盆地,东南部是相对低洼地区。该区域按海拔分类时:100 m以下的面积占总面积22.2%,100~300 m占48.6%,300~500 m 占 18%,500~1 000 m 占 10.8%,1 000 m 以上占 0.3%。该区域属南部内陆型气候,冷热差异十分明显,多年平均气温12.7℃,多年平均降雨1 238.6 mm,60%的年降雨量集中在每年的6—8月期间,每年平均有110 d晴天、90 d多云和77 d降雨。大蒜和圆葱是陕川郡最重要的蔬菜作物。根据2015年韩国统计资料显示,大蒜和圆葱在陕川郡的种植面积分别为743 hm2和1 138 hm2,主要分布在该郡的中部、北部和东部地区。
(1)基础地理数据
研究使用了韩国的行政区划数据,包括道(特别市、直辖市)、郡(市、区)两个等级。该数据主要用于裁剪整个研究区域内的OSM数据。
(2)OSM数据
研究中使用韩国2018年3月14日的OSM数据。包括点、线、面3种类型的矢量数据。实验中使用了陕川郡的线数据(道路)和面数据(建筑、交通、水体、土地利用、公共服务),图2展示了裁剪后陕川郡5种类型的OSM数据。
图1 研究区概况Fig.1 General situations of study region
从遥感图像中可以看出,研究区域内的主河道处于常年枯竭状态,在OSM数据类型中不能归类于水体,属于空数据集,为提高研究精度,采用人工矢量化方法在遥感图像中计算这条干枯的河道面积,且此面积不纳入精度评价的计算。最终整合的OSM数据包括建筑、水体、交通(包含停车场、加油站、水坝)、公共服务(包含公园、学校、银行等)、土地利用(去除农田及社区花园后,包含森林、住宅、灌木丛等)5个面图层。图3为将这5个图层合并得到的研究区非农田区域。
(3)遥感影像数据
利用2016年RapidEye(空间分辨率为5 m)影像、研究区5景Bee无人机(Unmanned Aerial Vehicle,UAV)获取影像(5景影像中前4景的时间为2017年4月27日,第5景影像时间为2017年4月28日),UAV影像空间分辨率为0.08 m。
图2 韩国陕川郡OSM数据 Fig.2 OSM data of Hapcheon Gun
(4)地面调查数据
结合卫星遥感影像和无人机影像,对当地农田进行实地勘测,并对得到的农田数据进行修正。图4展示了遥感数据结合地面调查得到的陕川郡耕地数据。
1.3.1 方法概况
由于研究区内OSM数据中城市建成区数据严重不足,将影响农田信息的提取精度,图5为研究技术路线,即通过OSM数据提取研究区的非农田信息,从而得到该区域的农田区域。
图4 陕川郡耕地数据Fig.4 Farmland data of Hapcheon Gun
1.3.2 阈值设定
实验中道路密度等级阈值的设定方法为ArcMap软件中自然间断点法(Jenks),将所有格网的道路密度划分为5个等级。该方法能够使类内方差最小,类间方差最大,能够将5个等级最大化地区分开来。
1.3.3 城市建成区提取
目前利用道路数据提取城市建成区的方法中大致分为基于街区面积、基于格网(线密度、点密度)以及基于核密度3种方法[16]。3种方法对建成区的提取能力都已经得到证实,本文选取了基于街区面积和基于格网这2种方法对陕川郡的建成区进行提取,并评价使用两种方法提取陕川郡建成区对农田地理信息提取精度的影响。
(1)基于街区面积的方法。首先将OSM道路数据通过线转面方法得到街区数据,并计算街区面积。将面积小于街区面积均值和中值的街区判断为城市建成区,得到基于街区面积均值和中值的城市建成区数据,并将此数据分别与OMS的直接非农田数据和以2 m缓冲区大小的道路缓冲区融合,得到整个区域的非农田区域。最后与陕川郡行政区域交集取反,得到农田区域。
图5 实验思路Fig.5 Workflow of research
(2)基于格网的方法。在研究区内分别建立了50 m×50 m 和 100 m×100 m 的格网,计算落在每个格网的道路密度ρ[16],计算方法如下:
式中,L是落在每个格网内的道路长度;S是该格网的面积。去掉道路密度为0的格网,将剩余的格网通过自然间断点法分级,密度大于间断点时则将该格网判断为建成区。将建成区与OSM的直接非农田数据和以2 m道路缓冲区融合,得到了10个不同密度下的陕川郡非农田区域。最后与陕川郡行政区域交集取反,得到农田区域。
本文定义的面积提取率PS和田块提取Pm率计算方法如下:
式中,Sin是OSM数据提取出来的农田范围中RapidEye的农田面积;Sall是RapidEye数据中提取的总的农田面积。Min是OSM数据提取出来的农田范围中RapidEye的田块的数量;Mall是RapidEye数据中提取的总的田块数量。
OSM道路数据并没有详细到田间小路,而参考数据精细到了每一个田块,导致田块之间的道路及空隙无法提取,最终判断为农田,一定程度上影响了提取精度。本文将参考数据做缓冲区分析,缓冲区大小为10 m,再向内对其进行大小为10 m的缓冲区分析,得到了消除10 m农田间隔后的农田区域。同理还进行了20 m、30 m、40 m大小的缓冲区分析。将消除了农田间隔的数据作物参考数据,并进行了面积匹配率计算,本文定义面积匹配率Pq计算方法如下:
式中,Sin是OSM提取的农田数据与消除农田间隔后的参考数据相交的面积;SOSM是OSM提取的农田面积。
根据不同格网大小和不同道路密度等级提取出来的农田数据与RapidEye影像提取出研究区耕地数据进行对比,得到了不同的精度结果。
在基于街区面积的提取方法中,基于中值方法面积提取率达到89.07%,田块提取率达到88.70%;基于均值方法面积提取率达到84.21%,田块提取率达到84.87%。
图6 道路密度等级和格网大小对精度的影响Fig.6 Effect of road density and grid size on accuracy
可以看出,在基于街区面积的方法中,选取中值作为阈值提取精度明显优于均值;在基于格网的方法中,面积提取率和田块提取率总体在80%以上,当使用50 m×50 m的格网时,把道路密度等级大于3的格网判断为建成区时,提取精度可达到85%以上,能够基本能满足使用需求。
本研究使用了遥感影像(卫星和无人机)结合地面调查数据,农田数据精度达到地块级,而OSM道路数据并没有达到田块级,为了评价田块之间的间隙以及间隙大小对本研究精度的影响,故对农田间隙对方法的精度进行了误差分析。
表1与表2分别展示了在格网大小为100 m×100 m和50 m×50 m时,消除不同大小的农田间隔后面积匹配率的变化情况。可以看出,面积匹配率有明显的升高,最高可以达到19%以上。
表1 100 m×100 m道路格网中农田间隔对面积匹配率的影响Table 1 The influence of the interval of farmland on the area matching rate when the size of the fishing net is 100 m×100 m
表2 50 m×50 m道路格网中农田间隔对面积匹配率的影响Table 2 The influence of the interval of farmland on the area matching rate when the size of the fishing net is 50 m×50 m
由此可见,农田的间隙对精度有一定影响,不同程度地消除农田间隙后,面积匹配率有明显的提升。
其次,本研究使用的RapidEye数据并非官方公布的标准数据,存在一定误差,将其作为参考数据会影响到最终的误差评定。结合谷歌地图,可见中山地地区的农田比较破碎,参考数据存在农田遗漏的现象,降低了提取精度。
最后,由于部分保密地区的存在,导致OSM数据本身存在一定的误差及缺失,无法精确到每一个区域,本研究将数据空白区域定义为农田,降低了提取精度。
研究通过对OSM数据的筛选,选取其面数据中能够直接显示非农田区域的数据;使用OSM道路数据结合街区面积和格网的方法,设定不同参数分别提取研究区内的建成区;将非农田区域与提取的建成区合并,再与研究区交集取反,得到研究区域内的农田地理信息,并比较设定不同参数时提取精度的变化;最后得到的农田地理信息与RapidEye数据、无人机数据结合地面调查提取的农田数据进行对比,结果显示对韩国陕川郡的农田面积提取率能够达到85%以上,证明OSM数据对研究区进行农田地理信息提取存在可能。耕地数据中田块间隙对面积匹配率的影响较大,可达19%左右。
本文方法能够简单快速提取农田信息,结合OSM数据可被免费使用、时效性高的特点,可以有效提高农田地理信息的获取速度,降低农田地理信息获取成本,在没有研究区域土地覆盖信息的情况下,能够使用该方法得到土地覆盖信息,具有一定的参考价值,为农田地理信息获取提供一个新的思路。
研究中还存在以下不足需要在后续研究中解决。
(1)如何定量选取合适的格网大小来提取建成区有待确定。实验中格网的大小设置并没有理论支撑,50 m×50 m和100 m×100 m的格网得到的结果也有一定的差异,如何选取最合适的格网大小来提高农田的提取精度有待研究。
(2)道路密度设置的最佳阈值有待确定。自然间断点法虽然可以使分成的5个等级最大差异化,但是如何分级并设立合适阈值从而提高提取精度也是接下来需要研究的重点。
(3)实验中仅使用了韩国陕川郡地区的数据,没有多个地区的数据进行对比,方法的普适性有待验证,需要更多地区的实验数据进行比较,且对于一些OSM数据没有广泛使用或OSM数据并未公开允许上传和下载的地区该方法适用性较差。
(4)没有使用OSM数据中点数据。点数据中包含了很多信息,可用于农业地理信息专题图的制作,且点数据可能会影响到农田地理信息的提取精度。