韩冰冰,陈圣波
吉林大学 地球探测科学与技术学院,长春 130026
土地覆盖面积是地球表层系统最突出的景观标志之一[1]。利用遥感影像获取地物分布信息是遥感技术在土地资源利用中一项基础且重要的工作,遥感具有快速检测大规模地物分布信息的能力,是当前地物检测的主要手段之一[2-3]。
目前通过遥感影像进行地物信息识别时大多利用时间序列遥感影像进行识别分析,时间序列影像能充分利用不同地物在不同时期影像细微的特征差异进而更加准确地识别地物[4],当前利用遥感影像对地物分类的研究多基于光学影像。刘佳等[5]利用时间序列环境一号卫星影像数据生成月度NDVI,采用基于月度NDVI进行阈值划分的决策树分类方法对河北省衡水市各类地物进行识别。Liu et al.[6]利用多时相的Landsat-8和高分一号影像并计算SAVI、NDVI指数,利用随机森林方法进行分类,实现地物空间分布信息的提取。通过时间序列光学影像进行地物分类能够充分利用各类地物在红外波段和近红外波段的光谱特征和NDVI等植被指数的差异。但是在实际应用中,由于云雨等天气的影响,光学影像的质量往往难以保障,这会影响到各类地物的识别精度。而雷达影像不受天气影响,可全天时、全天候对地观测,为遥感识别地物提供有效的数据支撑[7],可利用雷达影像对云雨天气较多地区进行地物识别。
目前基于雷达影像进行地物分类的研究有很多,过往的研究发现,C和L波段是在多种地物中捕捉这些细节的最有效波长[8-9]。本文以吉林省敦化市为研究区,基于Google Earth Engine(GEE)云平台,利用C波段Sentinel-1雷达影像建立10 d、15 d、20 d、30 d时间间隔的时间序列数据集,对不同时间序列的数据分别选取最小距离分类器、分类回归树和随机森林分离器对敦化市地物进行分类,旨在探究哪一种分类器能更好利用时间序列数据对地物进行分类和哪一种时间序列的数据能够对地物进行更加精确的识别。
本文以吉林省敦化市为研究区,地处长白山腹地,位于127°~129°E和42°~44°N之间。研究区是吉林省区域面积最大的县级市,总面积为11 957 km2。研究区地势构成为四周高、中部低,境内平均海拔高度为756 m。研究区位于北半球中温带,大陆季风气候明显,春季多风干燥,夏季湿热多雨,秋季温和凉爽,冬季寒冷漫长,具有四季分明,干湿适中的气候特征。研究区主要农作物为玉米、水稻和大豆,均为一年一熟制,三类作物普遍在5月初播种,9月末至10月初进入收获期,研究区位置如图1所示。
图1 研究区位置图Fig.1 Location of study area
1.2.1 影像数据
由两颗极地轨道卫星组成的 Sentinel-1卫星是欧洲航天局哥白尼计划中最早研制的卫星,两颗卫星均位于同一太阳同步轨道且相位差为180°,两颗卫星结合的重访周期为6d。Sentinel-1 卫星具有多种成像模式,本文选取Sentinel-1卫星干涉宽幅模式的地距多视影像为数据源,该成像模式包括 VH和 VV两种极化方式[10]。根据作物物候期选取作物整个生长季5月至10月初的Sentinel-1数据用于研究区作物分布信息的识别,共计选取71景影像,Sentinel-1影像的日期、轨道号和标识码如表1所示。
表1 研究区的Sentinel-1影像信息Table 1 Sentinel-1 imaging information in study area
从表1中可以看出,当将时间间隔设置较小时可能无法保障每个时间间隔内合成的影像均能对研究区进行全覆盖,实验不同时间间隔后发现至少将时间间隔设置为10 d才能保证每个时间间隔内合成的影像均可对研究区完成全覆盖。本次研究中将时间间隔分别设置为10 d、15 d、20 d、30 d,探究不同密度的时间序列影像集分类结果的变换。GEE云平台具有强大的处理分析遥感数据的能力,在GEE 中Sentinel-1数据已经过热噪声去除、辐射校正和地形校正等预处理操作,可直接利用该云平台Sentinel-1影像进行拼接合成以及后续的分类实验,将时间间隔设置为30 d对研究区5月的 Sentinel-1影像进行拼接合成产生影像(图2)。
图2 研究区影像图Fig.2 Image map of study area
1.2.2 野外数据
在2018年5月到10月对整个研究区进行了抽样调查,获取了丰富可靠的野外信息。在野外调查中选择远离居民点、道路的地区利用手持GPS进行采样调查,记录各类地物基本信息,记录的地物信息主要涵盖经纬度、作物类型、作物高度、株间距和垄间距、高程等作物采样点分布图(图3)。
图3 采样点分布图Fig.3 Map of sampling sites in study area
1.2.3 全球土地利用覆盖数据
2019年Gong et al.[11]基于Sentinel-2影像对全球地物类型进行划分,发布了2017年10 m分辨率的全球土地利用覆盖图 (global land cover map, GLCM),将全球地物分为耕地、森林、草地、灌木丛、湿地、水体、冻土地带、不透水表面、荒地和冰雪等10类地物,为避免其他类地物在作物识别时产生干扰,本文在对作物分类前先利用GLCM中的耕地信息对研究区 Sentinel-1影像进行掩膜得到研究区Sentinel-1耕地影像。
本文分类方法如图4所示,利用GLCM产品对Sentinel-1进行掩膜得到研究区Sentinel-1耕地影像,对产生的Sentinel-1耕地影像合成不同密度(10 d、15 d、20 d、30 d)的时间序列影像集。由于作物物候期为5月至10月初,当时间间隔设置为10 d的时候可合成16景Sentinel-1影像合成图,16景合成的影像就构成了10 d时间间隔的时间序列Sentinel-1影像集,其他时间间隔的时间序列影像集生成方式与之类似。其中当时间间隔设置为30 d的时候仅合成了5景Sentinel-1影像合成图,由于10月处于作物成熟收获阶段,10月中下旬时各类作物均已收获,此时影像已不具有各类作物的影像特征,所以在构建时间间隔为30 d的时间序列影像集时仅选取了5月至9月的影像进行合成。各类作物样本的创建是通过野外采样点完成的,三种作物采样点位置处的像元作为各类作物的样本,各类作物样本的类别属性与获取的野外采样点作物类别相同。每次利用最小距离(MD)、分类回归树(CART)、随机森林(RF)等分类器对不同时间序列影像集数据分类时随机选取70%的作物样本用于分类模型构建,对产生的分类结果利用未参与训练的样本进行精度评价,从而对不同时间序列数据分类结果与不同分类器分类结果进行度量。
图4 分类流程图Fig.4 Classification flow chart
最小距离(minimum distance, MD)分类器是一种基于向量空间的分类算法,是分类器中一种常用的分类方法,通过求出未知类别向量到事先已知的各类别中心向量的距离,将待分类的向量归结为这些距离中最小的那一类的分类方法。最小距离分类器算法的基本原理是计算各类训练样本集的中心向量,之后计算影像像元与各类样本中心向量之间的距离,根据与不同样本的距离判断该像元所属的类别。计算影像像元与每类样本中心向量之间距离的方式有欧式距离、马氏距离等,本文中对进行不同分类试验后选取马氏距离作为计算影像像元与每类样本中心向量之间距离的度量方式。
分类回归树又称CART(classification and regression trees)决策树[12],是由 Breiman et al.在1984年在提出。CART决策树是一种有效的回归方法且无需参数进行分类。CART算法是一个二叉树,将训练样本集不断进行分割,通过计算每个分割点的GINI系数,选择其中 GINI系数最小值作为该分割点的阈值,通过GINI系数进行阈值划分后会形成复杂且庞大的决策树,GINI系数计算公式为:
(1)
式中:|K|表示训练样本集的总样本数;|Ci|表示训练样本集中属于类Ci的样本个数;i表示样本类别;n表示样本总类别数。
随机森林(random forest, RF)是机器学习方法的一种[13],通过构建大量彼此不相关的随机决策树,对所有生成的决策树利用一种预测模式进行引导和聚合,进而实现对数据的分类。在随机森林算法中,可以对两个参数进行优化: 树的数目(k)和分割节点的特征数目(m)。 在本文中,将m设置为输入特征总数的平方根[14],k值根据时间序列的不同进行不同数值的尝试以得到最高分类精度,经过多次实验分别将10 d、15 d、20 d和30 d时间序列数据的k值设为150、300、10和30。
利用三种不同分类器(MD、CART、RF)对不同时间序列的Sentinel-1雷达影像进行分类,检验不同时间序列雷达数据进行作物识别的能力。对不同密度时间序列的雷达数据进行分类实验,得到最适合对敦化市作物进行划分的分类器以及时间序列数据,利用三种分类器对不同时间序列数据集分类的总体分类精度和Kappa系数如表2所示。
表2 不同时间序列数据分类精度表Table 2 Classification accuracy table of different time series data
从表2中可以看出,对不同时间序列雷达影像进行分类时,选取随机森林分类器产生的分类结果的总体分类精度高于其他两种分类器产生的分类结果的分类精度,这表明选取随机森林能更好地对时间序列数据进行作物识别。对10 d时间间隔构建的时间序列数据进行分类,随机森林分类精度达到了98.04%,Kappa系数为0.969 8,而通过最小距离分类器得到分类结果的精度仅为66.67%,CART分类器得到分类结果的精度为76.47%,随机森林分类结果精度远高于最小距离和CART分类结果精度。
最小距离、CART分类器产生的分类结果如图5a和图5b所示。从图5中可以看出选取最小距离和 CART分类器对10 d间隔的时间序列影像集进行分类的效果较差。对于随机森林分类器,总体分类精度整体变化趋势随时间序列密度的增大而增大,时间间隔为30 d时,总体分类精度为90.2%,当时间间隔提升到10 d时,总体分类精度达到了98.04%,分类结果图如图5c所示。
图5 敦化市分类结果图Fig.5 Classification results map of Dunhua
此次分类实验的数据源Sentinel-1影像为雷达影像,此类影像在云雨天气较多的地区仍能获取作物生长季的影像,可知通过Sentinel-1影像对云雨天气较多地区作物进行识别具有巨大应用潜力。本文在对不同时间序列雷达数据进行作物分类时,选取了不同分类器,得到了不同分类精度,其中选取随机森林分类器对时间序列密度较高的影像集进行分类能够更精确地识别研究区作物分布信息。由此可知,利用雷达影像进行作物识别时选择合适的分类器对获得高精度、高稳定性的分类结果具有重要意义。
(1)通过GEE云平台能够实现快速准确的影像分类。在GEE云平台上可直接对影像进行分类实验,大大缩短了对影像做长时间序列分析的试验周期,GEE云平台有效地解决了大量遥感影像处理复杂的问题。
(2)时间序列密度的增加能够提高分类精度。当时间间隔为30 d时,随机森林产生结果的分类精度为90.2%。而当时间间隔提升到10 d时,总体分类精度提升至98.04%。随着时间序列密度的增加各类作物的影像特征差异也在不断增加,进而提高了分类精度。
(3)与最小距离分类器和分类回归树分类器相比,随机森林分类器能够更准确识别各类作物分布信息。在对不同时间序列影像集进行分类时,随机森林分类结果的精度均高于选取最小距离和分类回归树时分类结果的精度,这表明通过随机森林分类器能够更有效地识别出各类作物的影像特征差异。