赵理君,郑柯,史路路,2,白洋,2,唐吉文,2,张伟,2,饶梦彬,2,邹松,2,李艳艳,2
1.中国科学院遥感与数字地球研究所,北京 100101
2.中国科学院大学,北京 100049
数据库(集)基本信息简介
数据库(集)名称 全国地表类型遥感影像样本数据集数据作者 赵理君、郑柯、史路路、白洋、唐吉文、张伟、饶梦彬、邹松、李艳艳数据通信作者 赵理君(zhaolj01@radi.ac.cn)数据时间范围 2013-2017年地理区域 全国(除港澳台地区外)31个省、自治区、直辖市等区域空间分辨率 2.4-30 m数据量 647 MB (解压缩后)数据格式 *.tif, *.jpg, *.txt, *.xml数据服务系统网址 http://www.sciencedb.cn/dataSet/handle/663基金项目 科技基础性工作专项(2014FY210800)数据库(集)组成本数据集由2个分卷压缩文件构成,解压后包含了米级空间分辨率样本点的GF1和QuickBird这两个文件夹,以及十米级空间分辨率样本点的Landsat文件夹,各个文件夹下又由以不同采样地区命名的子文件夹组成。每个子文件夹下,存储了覆盖土壤、水体、岩矿、植被、冰雪冻土、人工目标6大类地表类型的样本点压缩文件,每个压缩文件中仅压缩存储同一景影像中同一种地表类型的多个样本点数据。解压缩后,每个样本点数据又由4个数据文件组成,分别为:样本点原始影像数据文件(*.tif),样本点预览图文件(*.jpg),样本点的影像波段DN值文件(*.txt),样本点的元数据文件(*.xml)。
地表覆盖是地球表面各种物质类型及其自然属性与特征的综合体,其空间分布直接影响着地球表面的物质和能量的循环过程[1]。利用遥感影像开展地表覆盖监测是生态环境变化研究、土地资源管理和可持续发展的重要基础,在全球资源监测、全球变化检测中发挥着重要作用[2]。目前,遥感影像的计算机分类成为主要的发展方向,涌现出多种分类方法,如统计模式识别方法、人工智能分类法、遥感与GIS结合法、面向对象的分类法、多源信息复合分类法等[3]。遥感影像分类就是把图像中的每一个像元或区域划分为若干类别中的一种,即通过对各类地物的光谱特征分析来选择特征参数,将特征空间划分为互不重叠的子空间,然后将影像内各个像元划分到各子空间中去,从而实现分类[4]。在遥感影像地表覆盖分类的过程中,影像样本的采集可支持监督分类模型的构建,为地表类型的遥感影像分类提供类别先验知识。目前,国家基础地理信息中心发布了2010年GlobalLand 30全球30米地表覆盖分类产品(http://www.webmap.cn/commres.do?method=globeIndex),可免费下载使用;中国科学院遥感与数字地球研究所发布了连续多年的中国土地覆盖遥感监测产品;清华大学发布了FROM-GLC2010地表覆盖分类产品(http://data.ess.tsinghua.edu.cn/landsat_ pathList_fromglc_0_1.ht ml)以及全球范围的验证样本点数据(http://data.ess.tsinghua.edu.cn/ data/temp/GlobalLandCoverVali dationSampleSet_v1.xlsx),但训练样本并未完全公开。
本文构建的数据集是依托科技基础性工作专项“测绘地物波谱本底数据库建设”(2014FY210800)完成,与项目中的典型水体反射率数据集、典型地物反射率数据集、典型地表类型全波段波谱数据集、作物生长季时间序列反射率数据集、森林和作物多尺度反射率波谱数据集、多频率多角度森林微波辐射亮温数据集、全国岩矿标本反射率数据集等其他数据集共同构成了项目最终的测绘地物波谱本底数据库,所有数据将通过平台网站(http://210.72.27.78/spectrum/)向公众发布。需要指出的是,项目中其他数据集数据均来自地面实测波谱,而本数据集样本数据则是从遥感影像的角度采集影像样本,以期为研究影像与地面波谱之间的关联关系提供支撑,同时也期望能够为遥感影像的分类提供补充样本。本数据集利用了全国范围内与项目其他数据集试验区域相近的遥感影像,通过人工判读与比对得到最终的影像样本。相比已有的影像样本数据集(如GlobeLand 30,FROM-GLC数据集[5-6]),本数据集特色在于:(1)时相更新(2013-2017年);(2)包含影像样本空间分辨率更高(最高2.4-8 m);(3)样本类型更精细(面向测绘地物类型);(4)服务方式完全免费(所有样本数据在平台完全公开)。
本数据集包括十米级和米级两种影像的样本数据,其中十米级影像以Landsat 8卫星的30 m空间分辨率数据为主,米级影像以国产GF-1卫星的8 m空间分辨率数据为主,补充了部分QuickBird卫星的2.4 m空间分辨率数据。所有的影像数据通过地理空间数据云平台(http://www.gscloud.cn/)、购买等渠道获取下载。其中,Landsat 8数据使用L1T产品,据USGS提供的信息,该产品已使用地面控制点和数字高程模型数据进行精确校正,几何校正精度为12 m,小于0.5个像元;GF-1数据使用L1级产品,无几何信息,利用RPC参数文件进行了RPC几何精校正;QuickBird数据使用L2A级产品,已经过了几何精校正处理。上述所有数据源影像均经过了几何精校正处理,不做辐射和大气校正处理,保留原始像元值(Digital Number,DN)数据,但需要注意的是样本点的DN值一般不能直接应用于分类模型的构建。这里更多地考虑几何信息主要源于在实际应用中,不同传感器会因波段设置上的差异造成像元波谱信息无法保持一致性,在遥感影像分类过程中,可以很容易地根据地理点位和类别信息构建训练样本。通过对待分类影像进行辐射和大气校正便可以得到训练样本点的光谱反射率特征。在影像空间范围选择上,十米级影像覆盖全国(除港澳台地区外)31个省/自治区/直辖市的区域,每个行政区划单元随机选择至少2景影像;米级影像覆盖全国的7大分区,即东北、华北、华东、华中、华南、西南、西北地区,每个地区随机选择至少2景影像。在影像时相选择上,主要考虑夏季和冬季两个差异度最大的时相,其中冬季时相的时间跨度设定为12-3月,夏季时相的时间跨度设定为7-9月。在影像的获取年份上,设定为最近5年时间内的影像,以保证样本数据的时效性。最终,获得待采样的影像数据情况如表1所示。
表1 不同卫星影像数据获取情况表
基于上述预处理后的遥感影像,通过人工解译开展地表类型影像样本采集工作。类别体系严格遵从项目内部制定的标准规范《测绘地物波谱库地物分类编码规范(草案)》,该草案主要参考了已有的国家相关标准和公认度较高的分类原则、标准,根据测绘部门和遥感数据分类研究的实际需要制定,覆盖地表类型种类包含植被、土壤、岩矿、冰雪冻土、水体、人工目标6大类一级类,植被向下划分至6级分类体系,冰雪冻土向下划分至5级分类体系,土壤、岩矿、水体、人工目标向下划分至4级分类体系。根据遥感影像对地表区分的能力,对上述分类体系进行了精简,表2给出本数据集构建中使用的类别体系划分情况。
表2 类别体系简表
1级类 2级类 3级类 4级类编号 类别 编号 类别 编号 类别 编号 类别43 冻土51 河流511 常年河513 干枯河(干河床)52 沟渠 522 干渠5 水体53 湖泊 531 常年湖、塘 53101 湖泊53102 池塘533 干枯湖54 水库551 海域55 海洋要素552 海岸线557 海岛61 水系 6101 沟渠6 人工目标62 居民地及设施6201 居民地6202 工矿及其设施63 交通 6302 城际公路6303 城市道路
在人工解译采样过程中参考了已有的专题产品和历史资料以确保样本类别标注的准确性。这里的专题产品和历史资料包括植被、水体等单一类别的分类专题产品,Google Earth高分辨率历史影像,项目组其他课题采集的地面样本实测数据等。针对不同分辨率的影像样本数据(十米级和米级),每景影像中的每一个子类别,采样数量控制在50-700个,采样大小为7像元×7像元的区域,并在采样过程中避免边缘像元的选择。按照项目内部数据入库规范与要求,每一个样本数据采用标准统一的数据组织和存储格式进行记录,每一个样本数据对应4个文件,如表3所示。
表3 样本记录文件
在表3中,
全国地表类型遥感影像样本数据集包含十米级和米级两个空间分辨率等级,其中十米级影像样本采集了118 324个样本(以省/自治区/直辖市为单元采样,每个地区至少两个时相),其中夏季58 317个,冬季60 007个;米级影像样本采集了29 551个(以全国大的区划为单元采样,每个区划至少两个时相),其中夏季15 792个,冬季13 759个。采样点的空间分布如图1所示。图2和图3分别给出了数据集中十米级影像样本和米级影像样本的组成情况。
图1 全国地表类型遥感影像样本数据集空间分布图
本数据集以“图像+描述文档”的方式组织存储,包含了影像数据和文本数据,如表3所示。图4以农林用地这一类别的一个样本点数据为例,展示了其对应的存储文件列表。
图2 十米级影像样本数量统计
图3 米级影像样本数量统计
图4 影像样本数据组织存储文件示例
其中,tif文件为7像元×7像元大小的原始影像文件;jpg文件为7像元×7像元大小的预览图像,与原始影像对应;txt文件为样本点中心像元的DN值文件,内容的格式为两列数值,以Tab键分隔,第一列数据为波长,第二列数据为DN值;xml文件为元数据描述文件,采用格式化存储方式,内容如图5所示:
图5 影像样本元数据描述文件内容示例
针对遥感影像样本数据,数据质量控制过程包括对待采样影像数据的检查整理,单个样本数据点的检查,样本点配套文件的生成和入库,以及元数据的编写、检查和入库。对待采样影像数据的检查包括影像投影信息、波段数、存储损坏等明显的数据问题以及文件格式等。单个样本数据点的检查,主要针对类别标注错误的样本点数据进行修正、剔除。样本点配套文件以及元数据文件的检查包括文件命名、文件格式、文件内容中字段标准化命名以及文件内容的完整性等。
针对遥感影像样本数据集的构建,在数据入库阶段建立了完善的质量控制过程(图6),保证已入库数据的正确性、完整性和一致性。在数据采集整理和入库过程的质量控制方面,进行了原始遥感影像数据和影像样本点数据的整理和格式统一,同时通过一系列质量控制方法,如正确性检查、数据一致性检查等,以保障数据的质量。影像样本点配套文件和元数据文件由影像样本数据采集人员根据项目制定的数据标准格式(包含图像文件名、经纬度、传感器型号、观测时间、空间分辨率、光谱类型人员信息等)进行填写,为减少人工填写引起的错误,所有元数据信息均通过程序编写自动从原始影像数据和采样点数据中读取填写得到。
图6 数据质量控制
为了对数据集的质量进行定量的精度评估,我们以样本采集过程中使用到的那景遥感影像的分类结果作为评价对象,将该影像中采集到的样本点随机划分为两部分,即训练样本和测试样本,使用训练样本训练支持向量机(Support Vector Machine,SVM)分类器,使用测试样本计算分类精度,统计总体分类精度和Kappa系数。我们随机选取了不同地区不同时相的样本进行评测(见表4)。最终得到平均分类精度为81.17%,平均Kappa系数为0.78。从抽检结果可以看到,数据质量总体良好。
表4 数据集质量精度评价
样点区域 季相 总体分类精度(%) Kappa系数天津地区 冬 82.25 0.80黑龙江地区 冬 75.80 0.71湖南地区 夏 84.75 0.82广西地区 夏 85.25 0.81平均值 81.17 0.78
本数据集是测绘地物波谱本底数据库平台的原始入库文件,可通过门户网站(http://210.72.27.78/spectrum/)检索查询获得检索区域内样本点的相关信息,也可以通过编程的方式批量解析读取本数据集 XML文件中的样本点空间信息。数据集可以为遥感影像分类算法研究提供训练和测试样本数据,通过地理坐标与待分类影像像元坐标的转换,得到待分类影像中的样本点分布,使用最大似然(Maximum Likelihood Classification,MLC)、支持向量机(Support Vector Machine,SVM)、卷积神经网络(Convolutional Neural Network,CNN)等分类算法完成分类,使用流程如图7所示。由于本数据集并没有完全覆盖全国的每一个地区,如待分类影像的空间范围没有包含到任何影像样本点,建议相关研究者查询周边相邻地区的影像样本点,以筛选出的样本点为参考样本集,指导待分类影像中同类样本点的采集,进而利用所得到的样本点完成影像分类任务。
图7 数据集用于影像分类的应用流程
另一方面,本数据集可以与地面实测波谱数据配合使用,通过与测绘地物波谱本底数据库平台提供的其他地面实测波谱数据集进行空间位置配对(相同和相近位置),研究和分析地面实测波谱与影像波谱的关联关系,为相关算法的研究提供数据基础,为直接利用地面实测波谱数据指导影像样本自动采集提供可能。