赵 爽, 修田雨, 蔡国印,2,3, 王荣华,2,3
(1.北京建筑大学 测绘与城市空间信息学院,北京 102616;2.现代城市测绘国家测绘地理信息局重点实验室,北京 102616;3.城市空间信息工程北京市重点实验室,北京 100038)
随着遥感技术的迅猛发展,目前在世界范围内已经存在多套全球地表覆盖产品,如UMD数据集、IGBPDISCover、MODIS数据集,以及GLC2000、2005、2009等,以满足全球生态学、地理学、气候变化以及环境模拟的需要[1-2]。上述产品的分辨率为1 km或300 m。为了在更细尺度上进行全球变化、气候模拟等方面的研究,我国研制了2000年和2010年两期全球首套空间分辨率为30 m的地表覆盖产品Glboeland30,这被国际同行誉为全球对地观测和地理空间数据共享领域的一个里程碑成就,受到了国内外社会及学术界的广泛关注[3-4]。
遥感产品的精度,无论是对于数据生产部门还是用户均至关重要,GlobeLand30在生产过程中以陕西省为实验区,对2010年产品采用空间抽样的方法,利用混淆矩阵对产品进行了精度评估。结果表明,Glboeland30产品总体精度为79.96%,Kappa系数为0.74,表明该产品具备很好的数据质量[5]。J.J.Arsanjani等(2016)选择了在生态方面颇具代表性的6个大中城市作为研究区,探讨了GlobeLand30 2010年的数据精度及其可能的应用,其研究结果表明,在整个伊朗地区,GlobeLand30的总体精度达到了77.9%,完全可以满足该地区生态环境评价的需要[6]。
本文以TM数据 123/032所对应的区域为研究区,通过目视解译的方法,从原始TM影像上选取有代表性的样区,测试了2000年和2010年两期Glboeland30的产品精度。受限于TM光谱信息有限以及作者对地类的目视解译能力,本文主要测试了人造地表、农田、林地和水体的精度。同时,重点分析和探讨了上述四类地表覆盖要素的用户精度,以期为GlobeLand30产品的使用及其后续产品的质量检查和更新提供技术支持。
本文选用Landsat影像轨道号/行号分别为123/032所对应的区域为研究区,覆盖范围为185 km×185 km,北京市大部分行政区位于该影像范围内,如图1所示。
图1 本文的研究区Fig.1 The study area in this research
GlobeLand30是我国科学家研制出的世界首套30 m分辨率全球地表覆盖数据集。本研究采用GlobeLand30于2000年及2010年两期地表覆盖产品。该产品包括10类地表覆盖类型:耕地、森林、草地、灌木、湿地、水体、人造地表、裸地、冰雪覆被和苔原。此外,还有2000年和2010年的TM影像各一景。
借助于ArcGIS的重分类功能,将研究区所在的两个格网的10类地表覆盖信息提取出来,并进行镶嵌处理,再利用研究区的矢量图对镶嵌后的数据进行裁切处理,得到本研究所用的两期地表覆盖数据,如图2、图3所示。本文将TM波段5、4、3合成假彩色影像,以提高目视解译的准确度。
图2 2000年研究区地表覆盖图Fig.2 Land cover map in 2000
图3 2010年研究区地表覆盖类型图Fig.3 Land cover map in 2010
本文采用分层与随机采样相结合的方法,即对GlobeLand30产品进行逐类别单独采样,采样时选择随机采样方法。由于过多的样区会增加样点之间的相关性,因此,在满足样区最小数量的基础上,样区与样区之间的最小距离为产品空间分辨率的10倍,即3 km,最大可能地减少样区之间的相关性[7-9]。
混淆矩阵的建立是进行精度评定的前提[10]。首先将选好的样区,利用随机采样的方法,生成样区内的样点[11]。并将其叠加到GlobeLand30产品影像上,生成混淆矩阵并进行精度评定。考虑到本文仅选择四类地表覆盖类别,在混淆矩阵中不能反映用地类别的错分情况。为了确保精度,我们对地面点数据采用3×3模板取众数作为最终的GlobeLand30产品类别与地面数据进行对比,以考察各用地类别的详细错分类别。详细的技术路线如图4所示。
图4 本文详细研究方法路线图Fig.4 Flow chart used in this research
根据前述的研究方法,对上述四类地表类别分别选择了100多个样区,且2000年和2010年采用相同的样点,样点分布如图5所示。其中林地采集了137个点,水体为124个,人造地表为148个,农田为142个。从图5中可以看出,本文选择的样区基本覆盖了各类地表要素的典型区域。比如人造地表样点,基本覆盖了城区、近郊、远郊等各类不同发展状况的人造地表类别。
图5 样点数据位置图(背景为2000年TM假彩色合成图)Fig.5 Spatial distribution of the sampling sites (background is the false color composition image using TM bands 5,4 3 in 2000)
表1 2000、2010年研究区精度评定表Tab.1 Accuracy assessment parameters in 2000 and 2010
表1为2000年和2010年的GlobeLand30的精度评定结果。从总体精度可以看出,两期产品均达到了很好的精度,要明显优于陕西实验区的79.96%以及伊朗地区的77.9%,这表明在北京及其周边地区,GlobeLand30产品具有非常高的分类精度。当然,这一点也可以从Kappa系数中反映出来,无论是2000年的0.91还是2010年的0.86,均表明GlobeLand30产品在研究区具备很高的分类精度。
从用户精度来看,2000年林地的用户精度最高,农田的最低,而2010年水体的最高,而农田的最低。均表明,在两期产品中农田的用户精度相对偏低。在本文所选择的四类地表覆盖中,由于农田相对比较复杂,无论是从光谱角度,还是从几何、纹理角度,均很难实现高精度的自动化提取。
从制图精度来看,两期产品的水体制图精度是相对最低的。相对而言,水体是所有地表覆盖类别中,自动化提取可行性最高的一类,但是受限于水体的时间变化性以及水体与水田较低的区分度,水体的提取结果并没有达到理想的制图精度。
从2000年产品与2010年产品综合比较来看,前者的分类精度明显高于后者。这可能是由于2010年的产品是最先发布的,而2000年的产品明显要晚于2010年产品的发布时间。有了前期产品的参照及生产经验积累,后期产品的精度在理论上应该是要优于前期产品。
由于本文仅选择了研究区内8类地表覆盖类型其中的4类,所以在混淆矩阵中并不能很好地反映其地表覆盖类型的错分误差。为了探究本文所选择的四类地表覆盖类型的错分状况,同时考虑到点对点的混淆矩阵可能在计算结果上会与实际情况有部分出入,因此,本文考虑样点的领域特性,以保证精度评定结果的可靠性。源于水体的现状分布特征,本文对水体的样点采用2×2领域,而其他的地表覆盖类型均选择3×3领域。这样就得到了样点的面状图层。图6为研究区局部放大图。统计样点邻域范围内GlobeLand30的众数,作为该区域的地表覆盖类别。
图6 样点邻域局域放大图Fig.6 Regional enlarged map for showing the sampling sites
通过将产品与样点邻域的众数所对应的类别进行对比,以目视解译的方式,发现每一类地表覆盖类型正确分类和错误分类的样点,表2给出了2000年和2010年两期GlobeLand30产品地表覆盖类型的用户精度表。从表中可以看出,人造地表和农田的用户精度是最让人满意的,人造地表覆盖类型的主要易混用地类型是农田,其次是草地和林地。林地的用户精度在80%以上,主要易混用地类型是草地和农田。用户精度最低的是水体,影响其分类精度的主要地类是农田。造成其分类正确性较低的原因主要在于GlobeLand30在生产过程中,将水田划分到农田中,而尺度相对较小的水体很容易被错误地划分到水田中,进而造成水体极易错分为农田。图7给出了上述四类地表覆盖要素错分的典型区域图,每一类错分对比图中,位于上部的图片是GlobeLand30的结果,位于底部的图片是TM影像543假彩色合成的结果。在每个图片的中部用红框框起来的位置即为样点及其邻域范围,可以清晰地分辨出各地表覆盖类型在划分上与下垫面正确的地表覆盖类别存在明显差异。
表2 2000年和2010年GlobeLand30用户精度表Tab.2 User's accuracy for GlobeLand30 in 2000 and 2010
图7 2000年4种地类错分图Fig.7 Misclassification for the four selected land cover types in 2000
GlobeLand30的发布,将世界范围内地表覆盖产品的空间分辨率从百米级提高到30米级,为全球环境规划、气候模拟等提供了更细尺度的基础数据,其产品精度也得到了国内外相关用户的认可。本文针对一景TM影像数据覆盖的区域对GlobeLand30产品精度进行了详细的抽样测试,结果表明在本研究区内所测试的四类地表覆盖类型的精度,无论是总体精度还是Kappa系数,均好于文献[5]和[6]所测试的精度。本研究结果的取得,受限于如下因素:
1)本研究区位于北京及其周边地区。北京是我国的首都,备受国内外社会及科学工作者的关注。基于此,数据生产过程中势必对该区域的数据生产质量进行更为严格的控制。
2)地面点的选取及其精度对研究结果的重要性不言而喻。受困于没有可用的高分影像,本文采用目视的方式在影像上选点,这无疑会对精度评定的结果造成一定的影响。
3)以点对点的形式进行精度的评定本身也存在一定的问题,虽然本文已经将可能的孤立地表覆盖类型排除掉,但是因为遥感影像分类后或多或少都会存在“椒盐”现象,因此对精度评定的结果肯定会有一定程度的影响。此外地面点选点个数的多少、选点的位置、点与点之间的相关性等问题都会对本文的结果产生影响。
4)从地表覆盖类别的类型和数量上,GlobeLand30提供了10类地表覆盖类别,在本研究区一共识别出8类,不包含苔原和永久性积雪。在具有30 m分辨率7个光谱波段的TM影像上,受限于人眼的识别能力,同时为了确保结果的可靠性,本文的精度评定仅针对四类地表覆盖类型,即人造地表、农田、林地和水体。相对于湿地、草地等地表覆盖类型,本文选定的地表覆盖类别更易于实现高精度的自动分类。如果选取全部的8类地表覆盖类型进行精度评定,其精度评定结果可能会有所下降。
5)受限于可用的GlobeLand30数据有限以及时间等因素,本文仅选择了一景TM影像对应的区域对产品精度进行了测试。研究结果在一定程度上缺乏代表性。
上述存在的主要问题及可能的解决途径,比如利用高分辨率影像作为数据源来获取参考数据,更为科学的采样方法,以及在不同的气候区或者不同的洲际范围设置实验区对产品进行精度的评定等,将是本文后续重点研究的内容。
本研究基于全球30 m地表覆盖数据(GlobalLand 30),以TM影像轨道号/行号为123/032所对应的区域为实验区,采用空间抽样和目视解译的方式,利用混淆矩阵对GlobeLand30的四类地表覆盖类别(即人造地表、农田、林地和水体)进行了精度评定。混淆矩阵的研究表明,在本研究区,总体精度和Kappa系数都明显优于文献中评定的结果,并且2000年的产品精度要优于2010年的产品精度。在用户精度的详细评定方面,人造地表和农田具有很高的用户精度,其次是林地,而水体的用户精度则是最低的。农田是影响人造地表和水体最为严重的地表覆盖类型,而将林地错分为草地的可能性是最高的。
本文的研究成果可以为相关用户提供使用本区域Globaland30产品时的参考信息,但是在区域的广泛性、选点的科学性和自动化,以及需要照顾到全部的地表覆盖类型等问题上还需要做深入的研究。