非监督分类的冬小麦种植信息提取模型

2019-09-05 08:48王冬利张安兵赵安周

测绘通报 2019年8期

王冬利，张安兵，赵安周，李静

(1. 河北工程大学矿业与测绘工程学院，河北邯郸 056038； 2. 河北工程大学河北省煤炭资源综合开发与利用协同创新中心，河北邯郸 056038)

冬小麦是全球各国重要的粮食作物，掌握其时空分布可为农业监测、水资源调控、粮食安全等提供基础信息[1- 2]。卫星遥感技术具有大区域、多源、多时空尺度的数据获取能力[3]，能够相对精确地提取冬小麦。因此，高中低空间分辨率卫星影像数据在冬小麦种植信息提取方面得到了广泛应用，如基于MODIS、陆地卫星数据、Aster、环境与灾害监测小卫星、WorldView- 3等卫星影像[4- 8]，采用监督分类、决策树分类、支持向量机、面向对象分类、波谱库匹配等方法[9- 11]，结合线性混合像元模型、模糊数学、抽样方法和时间序列等技术[12- 15]，能够提取不同区域内的冬小麦种植信息[16]。

综上所述，冬小麦种植信息遥感提取方法主要集中在应用监督学习的算法，该系列方法顾及农作物的物候特征、光谱特征及纹理特征等，在农作物精细化分类上取得了一定效果，但是也存在一些问题，如较严重地依赖地面采样数据、人为干扰因素大、自动化程度低、普适性差等。本文对应用非监督分类技术提取冬小麦种植信息的方法进行深入研究，提出一种新的非监督分类冬小麦种植信息提取模型，并以河北省辛集市为例进行试验研究。

1 材料与方法

1.1 研究区与数据

研究区域选取河北省辛集市，该区域位于华北平原，地势平坦，总面积约为950 km2，其中耕地面积约650 km2。主要农作物为冬小麦、玉米及果树。

本文以空间分辨率为16 m的国产卫星高分一号(GF- 1)多光谱数据为数据源；辛集市行政边界来自于全国1∶400万县矢量边界数据。验证样本点数据通过随机撒点方法，结合Google Earth地图和多期高分一号影像数据获取。

1.2 方法

本文提出的模型原理是以归一化植被指数(NDVI)作为冬小麦信息提取的判别指标，以非监督分类为核心，结合多尺度技术，即空间尺度由大到小、分辨率由粗到细，逐层剔除非冬小麦地物，从而达到由概略到具体、逐步精细、准确提取冬小麦种植信息的目的。

1.2.1 多尺度表达

多尺度影像处理技术是指对同一区域采用多个尺度的影像来表达，并且在不同尺度影像上分别进行处理。在不同尺度上，遥感影像的某些特征信息不同，这样某些影像处理的效果也会不同。多尺度技术中的尺度可以是空间分辨率，也可以是时间分辨率。本文采用的是基于空间分辨率的多尺度技术，并通过重采样方法实现对同一区域多空间尺度的表达，如图1所示。

1.2.2 非监督分类

非监督分类是一种聚类统计分析方法。本文采用经典聚类方法——K- means算法进行试验。K- means算法需要提前输入类别数目(聚类中心个数)，并且类别数目对分类精度影响非常大，而一个区域的类别数通常情况下是很难准确获得的。例如，本文的研究区辛集市内地物具体种类不确定，但是本文提取的目标地物为冬小麦，若将研究区内的地物粗略地划分为两种类别：一种是冬小麦，另一种是非冬小麦。试验发现，这样粗略划分类别并应用K- means算法提取冬小麦的效果不好，分类结果偏大。经分析，主要原因在于：根据NDVI原理，研究区中道路、水体、裸地及建筑物等主要非冬小麦地物位于NDVI低值区域，冬小麦处于NDVI高值区域，NDVI值中间部分同时包含冬小麦和非冬小麦信息(如图1中左数第一个方框所示)。当应用K- means算法时，无论输入类别为2类还是3类，NDVI值中间范围内的地物分类误差较大，从而影响了整体分类精度。

1.2.3 非监督分类与多尺度结合

针对上述问题，本文结合多空间尺度分析技术，提出试验改进流程(如图2所示)，试验结果证实该方法可以解决由于类别数目不能准确确定所带来的非监督分类精度不理想的问题。具体流程如下：①基于原始影像数据，通过重采样技术，获取更大尺度(更低分辨率)数据，构建多尺度表达。②由于在大尺度(低空间分辨率)遥感影像上地物综合特征更明显，同时研究区内冬小麦主要呈大面积或细长状分布形态，因此当研究区遥感影像通过重采样方法生成大尺度影像数据时，绝大部分冬小麦能够被综合为NDVI高值区域的冬小麦，当然其中很少部分冬小麦会被误综合为NDVI中值区域的干扰地物。此时，当输入类别数目为两类(冬小麦和非冬小麦)时，基于升尺度后的NDVI数据，K- means算法提取的冬小麦信息包括NDVI高值区域和部分中值区域。③应用大尺度下提取的冬小麦种植范围掩膜下一个较小尺度NDVI数据，掩膜后利用非监督分类进行分类，类别数目依然设为两类(冬小麦和非冬小麦)。④重复以上步骤，直到最小的尺度数据(原始数据)为止，当最小尺度NDVI数据经过掩膜后，NDVI数据只剩下两类地物：冬小麦和干扰地物。其中，绝大部分冬小麦位于NDVI高值区域，少量冬小麦位于中值区域，绝大部分的干扰地物位于NDVI低值区域。此时，当输入类别数目为2，应用K- means算法提取冬小麦时，类别数目不准确对提取结果的影响会很小，从而使得提取精度得到极大提高。

1.2.4 流程步骤

首先选取3月初至4月上旬的遥感数据，因为该时期正处于冬小麦返青和拔节期，其他绿色植被正处于枯黄状态，冬小麦的NDVI值相对较大，而其他非冬小麦地物的NDVI值较小。然后，结合图2流程提取冬小麦种植信息。具体而言：①先将所选择的GF- 1 NDVI数据升尺度为原始数据尺度的2倍、3倍，即升尺度后数据的空间分辨率分别为32和48 m；②基于最大尺度、最粗分辨率的遥感数据(空间分辨率为48 m的NDVI遥感数据)，应用非监督分类将研究区分为两大类，一类为冬小麦候选区域，另一类为非冬小麦区域；③以②提取结果中的冬小麦候选区域掩膜下一级尺度遥感数据(空间分辨率为32 m的NDVI数据)，然后进行非监督分类。同样输入类别数目为两类：一类为冬小麦候选区域，另一类为非冬小麦区域。同理，最后再对空间分辨率为16 m的原始NDVI数据进行掩膜和非监督分类，从而得到最终冬小麦种植区域，并对提取结果进行精度验证。

2 结果

2.1 非监督分类模型

由于研究区内野草、树木等其他绿色干扰地物在4月初时基本还处于枯黄状态，因此本次试验采用2014年4月3日GF- 1遥感影像数据，以NDVI作为冬小麦信息提取判别指标，应用本文提出的非监督分类模型提取2014年辛集市冬小麦种植信息，提取的结果如图3和表1所示。

表1 辛集市冬小麦面积

2.2 精度验证

基于验证样本点数据，应用混淆矩阵方法对非监督分类模型进行精度验证，验证精度见表2。

表2 冬小麦非监督分类模型精度验证

3 讨论

基于2014年4月3日GF- 1影像，应用最大似然监督分类法提取冬小麦358.00 km2(见表1)，其空间分布如图3(b)所示。将非监督分类模型和监督分类两种提取结果作混淆矩阵，Kappa系数为0.87，整体精度为95.04%。这证明：对于研究区内的冬小麦，本文提出的非监督分类模型的提取结果与监督分类方法高度相似。此外，表1和表2证明：该模型是一种逐层剔除非冬小麦地物信息、逐层精确冬小麦种植面积的过程，即由419.09 km2到373.24 km2，再到最终的352.44 km2，结果符合该模型中逐层精细、准确地提取冬小麦种植信息的原理和目的；同时该模型的制图精度和用户精度都在92%以上，具有较高的精度。

该模型也存在需要进一步完善的地方：①该模型只对GF- 1数据进行了试验，后续有待开展其他数据源的试验；②该模型在数据预处理中未考虑去除地物干扰和增强目标地物信息，后续工作中会开展相关工作研究；③该模型的研究区域范围是县域尺度，后续可以尝试更多尺度的应用。

4 结论

本文以河北省辛集市为研究区，应用本文提出的非监督分类模型提取了2014年辛集市冬小麦种植信息，主要研究结果为：①分析了由于非监督分类初始输入的分类数目难以准确确定，从而导致冬小麦种植信息提取精度不高的问题，并通过多尺度技术对其加以改进，最终构建了一种新的冬小麦非监督分类提取模型，该模型的提取精度较高，是一种新的、行之有效的冬小麦种植信息提取方法。②对于研究区内的冬小麦，与监督分类相比，本文提出的非监督分类模型具有与监督分类相似的精度，同时又具有无需训练样本、人为主观因素少、自动化程度高等特点。

非监督分类的冬小麦种植信息提取模型

1 材料与方法

1.1 研究区与数据

1.2 方 法

2 结 果