刘吉羽,彭 舒,陈 军,廖安平,张宇硕,3
(1.西南交通大学地球科学与环境工程学院,四川 成都610031;2.国家基础地理信息中心,北京100830;3.北京师范大学地理学与遥感科学学院,北京100875)
空间数据质量主要是指其所表达的实体空间位置、特征和时间能够达到的正确性、一致性和完整性[1]。对于全球地表覆盖遥感制图而言,由于同物异谱、异物同谱现象突出,地物纹理和结构特征复杂特殊[2-4],极易造成错分和漏分,数据质量检查的难度大、任务重。如何根据全球地表覆盖的特殊性,设计和研发科学有效的数据质量检查方法,提高数据质量,是GlobeLand30产品研制面临的一个难题。其中耕地是GlobeLand30的10大类型之一,在全球范围内光谱特征复杂、纹理特殊[2-4],自动分类难以利用人的知识提取空间相关信息[5],通过质量检查,能最大限度地降低耕地分类提取的误判率和漏判率。
质量检查是数据质量控制的重要环节,已普遍应用于各类空间数据研制中。刘建军、Mills等探讨了等高线、道路等各类地形数据质量检查的方法[6-8],利用要素间的空间关系规则进行质量检查;吴长彬通过建立地籍知识与规则库,提出了基于知识与规则的地籍数据质量检查方法[9];方利等对土地利用数据的质量检查方法进行了研究,有效保证了数据的规范性和完整性[10-11]。已有的方法主要是从数据标准、空间关系等角度考虑,对于地表覆盖数据的检查停留在数据规范的层面,没有形成系统的质量检查方法。地表覆盖数据作为遥感分类数据,数据质量更多关注的是分类精度高低,以及分类数据的正确性和完整性。地表覆盖数据的特殊性加上全球尺度带来的更大难度,导致现有的质量检查方法已无法满足于全球地表覆盖数据的研制。
本文以耕地为例,分析了影响全球耕地信息提取的主要质量因素,凝练了耕地的地域分布、相关人文知识、时空稳定性、物候特征等方面的知识,构建了基于知识的数据质量检查规则,设计了由整体到局部、分区域检查与交互式修改处理的策略,形成了一种基于知识的全球耕地数据质量检查方法。本文主要介绍了耕地的相关知识,以及基于知识的质检规则建立,并对检查方法在GlobeLand30耕地数据研制中的具体应用进行了阐述。
全球范围内影响耕地数据质量的因素很多,如光谱混淆、原始影像质量低、影像时相单一等。GlobeLand30采用基于像素尺度的多特征优化的方法对两期耕地数据进行提取,虽然分类方法已尽可能顾及耕地的光谱、纹理与物候特征,但分类结果仍不满足精度要求,普遍存在错分、漏分的情况。
(1)光谱混淆
耕地光谱特征复杂,异物同谱或同谱异物的情况普遍存在,对于一些光谱信息与耕地相似的地类,影像自动分类提取的正确率较低。如在城镇与耕地交错分布区,两者像元混合严重,人造覆盖易被错分为耕地,如图1所示。
在遥感影像中,经济林通常显示规则的纹理且植被特征明显,易被错分为耕地,如图2所示。
图2
砍伐后未种植的迹地光谱,纹理特征与耕地相似,易被错分为耕地,如图3所示。
图3
(2)影像质量
原始影像质量不佳或是相邻影像时相不同时,样本选取的不一致会导致耕地数据提取出现细致程度不一的无法接边情况,如图4所示。
图4
(1)光谱、纹理特殊
某些特殊形态的耕地,其纹理特征不明显且光谱特征特殊,自动分类难以准确识别。如人工牧草地无明显规则纹理特征,光谱特征与草地相似,易被错分为草地,如图5所示。
图5
由于耕地的物候特征,水田在灌水期水的高度盖过秧苗,影像显示水体的光谱特征,易被错分为水体,如图6所示。
图6
(2)影像质量
原始影像质量不佳(如存在云遮挡等)或数据集成有误,都易导致耕地数据遗漏。如图7所示,云层将耕地遮挡,自动分类将云层提取为草地。
图7
通过对影响耕地信息提取的主要质量因素进行分析,本文提出了一种基于知识的耕地质量检查方法。如图8所示,从耕地的地域分布、相关人文知识、时空稳定性、物候特征等方面提炼知识,构建基于知识的质量检查规则,将全球按大洲分为5个区域,由总体到局部,利用构建的规则对耕地分类数据进行检查,标注错分、漏分情况并反馈给修改人员,经过多次检查与修改交互处理后,得到符合精度要求的数据成果。
图8 基于知识的耕地数据质量检查方法
根据GlobeLand30提取技术规定,耕地定义为用来种植农作物的土地,主要包括有作物耕地、收割后无作物耕地、灌水期水田、收割后水田、人工牧草地、由迹地开垦的耕地、菜地等。耕地的形态及分布受自然环境、人文环境、季节变化等因素的影响明显,从以上领域对耕地相关知识进行总结,建立耕地检查的质量检查规则,能有效解决分类数据的错分、漏分。值得注意的是,GlobeLand30利用30 m遥感影像提取耕地,因此,应从30 m尺度的影像特征出发,正确处理耕地最小提取斑块的取舍。
(1)耕地的地域分布
耕地作为种植农作物的土地,自然环境因素对其分布的影响占主导地位。全球范围内,不同的地形、气候条件导致耕地分布、形态特征各有不同。在了解耕地定义的前提下,掌握各地区地形、气候条件,了解各大洲的作物分布、作物类型,总结各地区易发生的错误类型,有助于耕地数据错误的快速发现。另外,对于一些备受关注的粮食危机地区,应重点检查,确保耕地无遗漏。
(2)耕地相关的人文知识
在社会、经济、文化等因素的影响下,不同地区的农业生产方式不同。在农业技术发达的大规模机械农业区域,耕地连片分布且耕作痕迹规则。在一些农业技术水平相对落后的地区,农业耕作方式仍以迁移农业为主,作物品种不一,种植方式无规律,易与草地产生混分,如图9所示。
图9
在水资源不充足的地区,为增大灌溉面积,使用时针式喷灌设施进行灌溉,使得耕地的几何形状为规则圆形,如图10所示。
在水土流失较严重的坡耕地区域,人为修筑梯田蓄水保土。梯田在30 m影像上形态与周围环境类似,如图11所示。
图10
图11
森林砍伐后的迹地被开垦为耕地,该类耕地一般位于天然林区内,靠近人工建筑物(如道路、房屋等)的区域,应将其与迹地区分开来,如图12所示。
图12
人工牧草地作为经过人工改造后专门用于种植牧草的农用地,每年可以种植收割一次或多次(热带地区,一年可收获多次,但土地不翻耕),其影像一般无明显规则纹理特征,如图13所示。
图13
西班牙火山岛大片葡萄种植园,由于缺水,所以人为修筑鱼鳞坑来蓄水,如图14所示。
图14
为保持蔬菜生长的温度适当,人类使用温室大棚种植反季蔬菜,如图15所示。
图15
已有的地表覆盖数据、高分影像、耕地调查数据等均有助于耕地的识别。现有的耕地参考数据有GLC2000、GlobCover2009等全球范围的数据,以及北美的NLCD、欧洲的CORINE、Geo-Wiki非洲数据和中国1∶10万的土地利用耕地数据。利用Google Earth高分影像虽可快速辨别耕地,但应合理把握30 m影像原则,若高分图像识别为耕地但30 m影像上难以划分耕地界限的区域,则可不分为耕地。
利用区域耕地调查统计数据能及时发现耕地数据的异常。若调查数据与地表覆盖数据差异较大,则需仔细确认。由于耕地常分布在居民地周围,因此,利用全球居民点数据对低人口密度地区的耕地进行检查,能确保不遗漏。
(3)耕地的物候特征
由于耕地的物候特征,作物生长的不同生长期存在不同的光谱特征。通常情况下,生长季节呈植被特征,作物在收割后呈裸地特征,如图16所示。
图16
水田在灌水期,秧苗被水体盖过,影像上耕作区域显示水体特征;成熟期的水田呈现正常植被特征;水稻成熟收割后,水田中残留的部分积水和干枯桔梗使影像显示水体和植被的混合特征,如图17所示。
图17
(4)耕地的时空稳定性
耕地的区域分布具有一定的稳定性。2000—2010年10年间,较大空间范围内的耕地具有较好的空间一致性,但局部区域的耕地增加或减少现象仍存在。城镇化、退耕还林、弃耕、气候变化、沙漠化、战争等因素可能导致耕地减少;农业开垦、围湖造田、填海造田可能导致耕地增加。总体而言,耕地减少的情况较少,耕地增加则普遍发生。根据GlobeLand30数据,耕地开垦明显的地区主要是中国新疆地区等,如图18所示,根据FAO的统计资料,10年间,耕地面积增加的国家主要有巴西、阿根廷、埃塞俄比亚、坦桑尼亚、布基纳法索等。
图18
基于知识的耕地数据质量检查方法主要通过基于知识的质量检查规则构建和检查与修改的交互处理来实现,检查与修改的交互处理主要为总体和区域两步。
(1)耕地总体空间分布检查
针对整个检查区域,将两期耕地数据进行对比,对两期成果分布趋势明显不一致的区域进行标注。同时,将耕地数据与现有参考数据对比,对于两者差别较大的地区进行标注,以便进一步检查。
(2)耕地区域范围检查
区域范围内的检查一般分为两种情况:对于耕地特征明显的区域,可直接利用定义进行判别;对于耕地特征不明显的区域,需结合多方面知识对耕地数据进行检查。具体判断步骤如下:
1)正确掌握耕地定义及其典型形态,确定检查区域所在的地理位置,了解该地区耕地地域分布的知识,帮助耕地错误的快速发现,重点检查区域需特别注意。
2)若检查区域耕地特征明显,能够直接判断是否提取有误,可直接标注错误类型(漏分/错分);若检查区域耕地特征不明显,则进行下一步判断。
3)对比两期耕地分布是否存在变化,若存在,判断变化是否符合10年耕地变更事实。同时,需结合人文相关知识、物候特征等进行判断,若数据提取有误则进行标注,若不能判断则继续下一步。
4)将耕地数据与对应地区的参考数据进行对比,检查判定是否与参考数据一致,根据参考数据进行判别。
由于地表覆盖数据检查非常复杂,涉及的影像数据和辅助数据庞大,有效集成各类辅助数据需要高效的技术支持。为此,研发了专用的网络化检核系统,通过全球地表覆盖在线服务平台,采用网页直接标注的方式,填写耕地错分、漏分并附修改建议,最大限度地提高了数据检查的效率[12]。
在GlobeLand30数据产品研制中,利用基于知识的耕地检查方法对全球两期各853幅耕地提取成果按图幅进行检查。经统计全球共发现29 402处耕地错误,其中,亚洲耕地检查点共计11 855个,欧洲耕地检查点共计2590个,美洲耕地检查点共计9638个,非洲耕地检查点共计3808个,大洋洲检查点共计1781个。在耕地密集区域,每幅检查点最高可达300个以上。现以大洲为单位,对各大洲耕地数据质量检查情况进行总结。
欧亚大陆从西欧延伸至西伯利亚平原这块区域存在着密集的耕地。在欧洲作物的种类繁多,高密度种植地区为玉米带,即从北部平原延伸经过法国的南部、意大利的北部到多瑙河流域。南部平原主要作物为春小麦、大麦、果园及葡萄园。地中海流域主要作物为冬小麦、水果、坚果及蔬菜。在亚洲,印度北部和中国东部一些平原地区存在大范围的连片耕地,如图19所示,主要种植小麦和水稻,这些地区耕地与密集的人造覆盖交错分布,易发生耕地与人造覆盖混分的问题。水稻作为亚洲地区的主要作物,主要集中在中国东南部、印度的恒河下游平原、恒河-布拉马普特拉河三角洲、伊洛瓦底江三角洲、沿印度东海岸的三角洲和喀拉拉邦地区[13-14]。
图19 中国东部耕地与人造覆盖夹杂分布地区
由于水稻在灌水期可能存在水体的光谱特征,如图20所示,掌握水稻主要分布的区域,有助于耕地与水体混分现象的发现。中国北部农牧交错区、阿拉伯半岛等干旱半干旱地区常年处于干燥的环境下,降水稀少,生态脆弱,需特别关注[15]。另外,太平洋地区的一些热带岛屿上呈规则分布的经济林地不属于耕地,如棕榈树等。
图20 中国东部地区水田
北美洲耕地的特点表现为大陆中央平原地区存在高集约化的种植区域,如图21所示。高集约化的耕作区域应注意耕地中道路错提成耕地的现象。北美耕地最明显的特征之一是玉米带,从东部的北达科他州和内布拉斯加州延伸至爱荷华州、伊利诺伊州、威斯康星州、印第安纳州和西部的俄亥俄州。另一种主要的耕作密集区为春小麦种植区,主要位于北达科他州、蒙大拿州东部地区、阿尔伯塔的加拿大草原省份及萨斯喀彻温省[13,16]。南美洲中高强度的耕作区域主要分布于阿根廷湿润的潘帕斯平原地区,其中西南和中北部为小麦种植区,北部为玉米种植区,西部和西北部为高粱种植区。高集约化耕作的小规模区域主要分布于南部的大查科地区。哥伦比亚和厄瓜多尔西部也存在一些高集约化耕作的区域,这些区域以咖啡、可可、玉米、马铃薯、木薯和甘蔗等作物为主[13]。
图21 北美大型规模机械农业区耕地影像以及提取成果
非洲的耕作系统较复杂,拥有大量自给自足的农业区域[17]。耕地集约化程度最高的区域位于尼罗河河漫滩、马格里布、苏丹部分区域、埃塞俄比亚高原、塞内加尔,以及维多利亚湖岸边背部的一些区域。苏丹延伸经过埃塞俄比亚高原,南向维多利亚湖的一些区域主要为小米、高粱、玉米、咖啡等作物。赞比西河流域和东南部南非主要作物为玉米、小米、高粱、小麦及甘蔗。大米和咖啡主要生长在东部沿海区域[18]。如图22所示,干旱半干旱的萨赫勒草原地区,具有典型的由热带草原向撒哈拉沙漠过渡的地理特点,当地居民主要从事农牧业,大部分地区种植小米、野豆、甘薯,由于生态环境脆弱,耕地问题备受关注。
图22 萨赫勒草原地区耕地
澳大利亚主要作物为小麦和大麦,分布在东南和西南沿海地区。苏门答腊、马拉西亚、菲律宾等地也分布着耕地,主要种植水稻。澳大利亚由于土地条件良好,大部分耕地呈大规模规则种植的形态[19]。新西兰的作物主要分布于南岛东部的坎特伯雷平原。澳大利亚和新西兰作为农牧业为主的国家,其耕地主要分为两类:一是小麦种植和畜牧兼营区耕地,该区种植谷物和部分人工草场;二是高雨量区耕地,主要靠人工种植牧草,广泛使用机械,如图23所示。由于将人工牧草地划分为耕地,因此,应特别注意人工牧草地与草地的区分。
图23 澳大利亚地区人工牧草地
本文针对全球30 m地表覆盖耕地数据研制中面临的质量问题,提出了一种基于知识的耕地数据质量检查方法,并将其应用于GlobeLand30数据生产中。经统计,全球共修改29 402处耕地错误,有效保证了GlobeLand30的耕地数据质量。国家基础地理信息中心、中国科学院遥感与数字地球研究所等6家单位分别对GlobeLand30各大洲地表覆盖数据产品进行了精度验证[20]。常用的4套全球1 km地表覆盖数据总体精度均不到60%[21-22],而Globe-Land30中耕地成果数据总精度达80%以上,远高于其他地表覆盖数据。
实践证明,该方法有效地解决了耕地数据错分、漏分等问题,确保了最终数据成果能满足地表覆盖制图的质量要求。同时,基于网络的标注方式有效地提高了工作效率。鉴于全球范围内耕地类型各异,有些特殊情况可能存在遗漏。同时,方法的自动化应用有待提升,需在今后的实践中进一步完善。下一步工作将对其他地表覆盖类型(如人造覆盖、水体等)的检查方法进行总结,为地表覆盖数据检查工作提供参考与支持。
[1] 韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):2-12.
[2] 陈军,廖安平,何超英.全球地表覆盖高分辨率遥感制图[J].地理信息世界,2011,4(2):12-14.
[3] 陈军,陈晋,廖安平,等.全球30米地表覆盖遥感制图的总体技术[J].测绘学报,2014,43(6):1-7.
[4] CHEN J.Global Land Cover Mapping at 30 m Resolution:A POK-based Operational Approach[J].ISPRSJournal of Photogrammetry&Remote Sensing,2014,9(2):1-19.
[5] 张银辉,赵庚星.土地利用/土地覆盖遥感分类方法的研究综述[J].中国农业资源与区划,2002,23(3):21-25.
[6] 刘建军,陈军,王东华,等.等高线邻接关系的表达及应用研究[J].测绘学报,2004,33(2):174-178.
[7] MILLSJE,NEWTON I.A New Approach to the Verification and Revision of Large-scale Mapping[J].ISPRSJournal of Photogrammetry&Remote Sensing,1996,51:17-27.
[8] GERKEM,MARKUSB,BUTENUTH M,et al.Graph-supported Verification of Road Databases[J].ISPRSJournal of Photogrammetry&Remote Sensing,2004,58(3):152-165.
[9] 吴长彬,闾国年,舒飞跃.基于知识与规则的地籍数据质量检查方法[J].地理与地理信息科学,2007,23(5):22-30.
[10] 方利,刘生权,钟耳顺.基于元数据和质量规则的土地数据检查[J].地球信息科学,2004,6(3):19-23.
[11] 诸云强,朱少春,刘海川.土地利用数据质量检查方法研究与实现[J].国土资源科技管理,2008,25(6):66-71.
[12] HAN G,CHEN J,HE C Y.A Web-based System for Supporting Global Land Cover Data Production[J].ISPRS Journal of Photogrammetry and Remote Sensing,2014,7(12):1-15.
[13] RAMANKUTTY N,JONATHAN A F.Characterizing Patterns of Global Land Use an Analysis of Global Croplands Data[J].Global Biogeochemical Cycles,1998,12(4):667-685.
[14] 周锡跃,徐春春,李凤博.世界水稻产业发展现状、趋势及对我国的启示[J].农业现代化研究,2010,5(5):523-528.
[15] 邹亚荣.中国农牧交错区土地利用变化空间格局与驱动力分析[J].自然资源学报,2003,18(12):222-227.
[16] 何树全.北美农业一体化趋势及影响因素分析[J].当代经济管理,2009,21(1):75-79.
[17] 王健梅.非洲农业生产主要特点[J].中国农业信息,2007,4(11):18-19.
[18] 孟庆栽,张卉.非洲农业发展的现状和前景[J].现代国际关系,1983,4(5):35-40.
[19] 刘红梅,杨殿林.澳大利亚农业发展概况及对我国农业发展启示[J].农业环境与发展,2008,5(2):32-35.
[20] HUSSEIN E M.A First Complete Benchmarking of the New Chinese 30 m Resolution GLC30 and Regional Land Coverage Datasets in Italy[D].[S.l.]:Milano Politecnico di Milano School,2014.
[21] 宫鹏.基于全球通量观测站的全球土地覆盖图精度检验[J].自然科学进展,2009,19(7):754-759.
[22] 冉有华,李新,卢玲.四种常用的全球1 km土地覆盖数据中国区域的精度评价[J].冰川冻土,2009,31(3):490-498.