尹华锋,苏 程,冯存均,李玉琴,黄智才,章孝灿*
(1.浙江大学地球科学学院空间信息技术研究所,杭州310027;2.浙江省地理信息中心,杭州310012)
粮食是人类生存的必需品,粮食安全是维系社会稳定的前提,是全世界许多国家共同面临的重大问题[1]。及时准确地获取粮食种植信息对粮食价格预测、粮食生产指导、粮食安全保障等具有重要意义[2]。
水稻是世界主要粮食作物之一[3],及时掌握水稻种植信息是一项十分必要的工作。由于遥感技术具有覆盖范围广、探测速度快、现势性强、判断客观等优势,目前已成为获取水稻种植信息的一种重要手段[4-5]。近年来,随着高分遥感对地观测技术的发展,国内外不少学者对利用高分辨率遥感图像提取水稻种植信息展开了研究,提出了许多水稻种植信息提取方法,主要可分为基于像元的分类提取方法[6-7]、面向对象的分类提取方法[8-12]和基于地块的分类提取方法[13-14]。但基于像元的分类提取方法仅利用了图像的光谱信息,由于高分辨率遥感图像上的地物细节信息十分丰富,地物内部异质性增强,干扰了类间光谱差异的认知,单纯依靠水稻光谱特征难以取得良好的提取效果;面向对象的分类提取方法的水稻提取精度优于基于像元的分类提取方法,但其难点在于分割尺度的确定和对象特征参数的选择;基于地块的分类提取方法需要有与分类图像时相对应的地块矢量数据作为支撑,应用成本较高。也有学者通过对高空间和高时间分辨率遥感数据的协同利用,从米级分辨率图像上提取农田地块结构信息,结合多时相中分辨率图像的光谱及其变化特征,构建反映水稻生长过程的时间序列与水稻识别模型,实现农田地块尺度的水稻识别;但由于中分辨率图像的空间分辨率的限制,对零碎地块及多作物地块的处理效果仍有待提高[15-16]。
实际上,受天气条件制约,一些水稻种植地区在水稻生长周期内难以获取多期高质量图像,因此,充分利用单期高质量、高分辨率图像实现水稻种植信息的准确提取,具有重要的现实意义。本文针对高分辨率遥感图像上水稻种植区域细节信息十分丰富、光谱组成多种多样的特点,提出了一种基于水稻样本知识挖掘的水稻种植信息提取方法。该方法以构成水稻种植信息的水稻、泥土、水、杂草、浮萍等各种地物信息为分析的基本单元,依据空间自相关性理论,挖掘基于各种基本单元的水稻种植信息的组合特征,进而提出一种水稻种植信息提取策略:首先,分割图像得到各类混合地物信息的基本单元;其次,通过分析水稻样本图斑所包含的基本单元种类确定构成水稻的基本单元类型,并将相应类型的基本单元都归入初始水稻种植区;最后,通过分析矢量化的初始水稻种植区图斑内的基本单元的组合特征与水稻样本图斑内的基本单元的组合特征的相似性,将不符合水稻种植信息基本单元组合规律的初始水稻种植区图斑予以排除,实现水稻种植信息的准确提取。
1.1.1 高分辨率遥感图像水稻特征分析
水稻种植信息实际是水稻、泥土、水、杂草、浮萍等地物的混合信息,水稻种植信息的混合性在高分辨率遥感图像上表现得尤为明显。水稻种植信息的提取实质上是一种混合信息的提取,这种混合信息在高分辨率图像上表现出如下特征。
1)光谱多样性
在高分辨率图像上,复杂的地表通过丰富的细节信息呈现。水稻种植地块作为一种混合地物,在高分辨率遥感图像上显现出丰富多样的光谱信息,且由于播种时间、播种方式、播种环境等的差异,不同水稻种植地块的光谱组合也多种多样。如图1所示,水稻种植地块包含了聚类分析结果中的多种聚类,且不同水稻种植地块的聚类组成存在着差异,反映了水稻种植信息在高分辨率遥感图像上的光谱多样性。
2)空间自相关性
TOLBER[17]在1970年提出了著名的地理学第一定律:任何地物都与其他地物相联系,但邻近的地物之间的联系更为紧密(Everything is related to everything else,but near things are more related than distant things)。李小文等[18]在2007年提出了地理学第一定律与时空邻近度的关系。该定律描述了地理空间实物的基本规律。
图1 高分辨率遥感图像水稻种植信息聚类结果示意Fig.1 Schematic diagram of cluster results of rice fields in high resolution remote sensing images
表1 水稻种植地块内各聚类面积占比Table1 Proportions of different clusters in rice fields %
以各地块为统计单元,忽略占比小于1%的聚类以减弱噪声影响,对图1中水稻种植地块内各种聚类的面积占比情况进行统计发现,不同水稻种植地块覆盖的聚类类型相似(表1)。通过计算不同水稻种植地块聚类组合比例的相关系数(表2)发现,不同水稻种植地块内聚类的组合比例相关性较高,说明水稻种植地块光谱组合情况类似,某些光谱总是以一定比例组合出现在水稻种植地块中,这符合地理学第一定律,反映了水稻种植信息在高分辨率遥感图像上的空间自相关性。
表2 水稻种植地块聚类组合比例相关系数Table2 Correlation coefficients of the proportions of different clusters in rice fields
1.1.2 高分辨率遥感图像水稻样本知识挖掘
针对水稻种植信息在高分辨率遥感图像上表现出的光谱多样性特征和空间自相关性特征,进行了以下水稻种植信息光谱组合规律挖掘。
1)水稻基元与水稻种植图斑
遥感图像由像元组成,然而单个像元的光谱不具有统计意义,也无法体现图像光谱在空间上的分布特征。因此,为便于研究水稻种植信息的光谱组合规律,本文以光谱相近的邻接像元组成的连通区域为基本单元(以下简称为基元)对图像光谱信息进行概括。基元既可以描述其代表的图像区域的光谱特征,又能够体现其代表的图像区域的空间分布特征。本文将构成水稻种植信息的基元称为水稻基元,邻接水稻基元组合形成的连通区域称为水稻种植图斑。水稻种植图斑基元组合规律能够代表图像上对应区域水稻种植信息的光谱组合规律。
2)水稻种植图斑基元组合特征
从水稻种植图斑的基元组成、基元组合比和基元聚集程度3方面对水稻种植图斑的基元组合规律进行特征描述。
水稻种植图斑基元组成特征:由1.1.1节分析可知,水稻种植信息在高分辨率遥感图像上表现出光谱多样性,因此水稻种植图斑所包含的基元类别多样。本文通过水稻基元光谱特征向量[式(1)]对基元的光谱特征进行描述。水稻基元光谱特征向量概化了水稻基元对应图像区域在图像各波段上的光谱信息,把水稻种植图斑内各类水稻基元光谱特征向量集合成水稻种植图斑基元组成特征,能反映出水稻种植图斑对应水稻种植信息的光谱成分。
水稻种植图斑基元组合比特征:经1.1.1节分析发现,在高分辨率遥感图像上水稻种植地块的聚类组成比例相似,因此水稻种植图斑的基元组合比例应是相似的。本文通过基元优势度[式(2)]对水稻种植图斑内基元的面积占比进行描述。水稻基元优势度越高,说明水稻基元对应的光谱特征在该区域中的主导性越高。因此,把水稻种植图斑内各类水稻基元的优势度集合成水稻种植图斑基元组合比特征,能描述水稻种植图斑内基元的组合比例关系,可反映出水稻种植图斑对应水稻种植信息光谱空间的基本分布情况。
水稻种植图斑基元聚集度特征:由于水稻种植往往较为规整、连续,在高分辨率遥感图像上水稻纹理较为平滑,因此水稻种植图斑内的基元往往较为规则、聚集。本文通过水稻基元聚集度[式(3)]描述水稻种植图斑内基元的聚集程度。不同水稻基元代表不同的光谱特征,把水稻种植图斑内各类水稻基元的基元聚集度集合成水稻种植图斑基元聚集度特征,可在一定程度上反映出水稻种植图斑对应水稻种植信息的光谱组成纹理情况。
图2 基元聚集度示意Fig.2 Schematic diagram of aggregation indices of base-unit
3)水稻种植图斑特征分布
把水稻种植图斑F内i类水稻基元的光谱特征向量和聚集度组合成i类水稻基元特征向量,计算公式如下:
本文通过下式描述水稻种植图斑F的基元组合特征:
式中:F为水稻种植图斑;n为F内水稻基元类别数。
XF描述了水稻种植图斑F的基元成分、各基元的光谱特征和空间特征及成分基元的组合比例关系,能反映对应水稻种植信息的光谱组合规律。
基于水稻样本知识挖掘,本文提出了一种水稻种植信息提取策略:对高分辨率遥感图像进行光谱分割得到对应的基元图像;通过水稻样本图斑与基元图像的叠置,分析确定哪些类型的基元是水稻基元,并将对应类型归入水稻基元类型集。依据水稻基元类型集,将图像基元分为水稻基元和非水稻基元2大类,从而将图像初步划分为水稻种植区与非水稻种植区;矢量化水稻种植区得到初始水稻种植图斑,计算所有水稻样本图斑的特征分布并归入水稻样本图斑特征分布库以量化描述水稻种植信息光谱组合规律;通过计算初始水稻种植图斑特征分布与库中特征分布的相似性,将不符合水稻种植信息光谱组合规律的初始水稻种植图斑认为是混淆图斑,予以排除。整体技术流程如图3所示。
1)基元获取
高分辨率遥感图像水稻种植信息提取的基础工作是获取基元。基元是图像上光谱相近的邻接像元组成的连通区域,不同基元代表了不同的光谱特征。本文基于K-均值(K-means)聚类算法对高分辨率遥感图像进行光谱分割,将由像元组成的高分辨率遥感图像概化为由内部光谱均质的基元组成的基元图像,实现基元获取。
2)初始水稻种植图斑提取
水稻基元分析。将水稻样本图斑与基元图像进行叠置,通过分析水稻样本图斑主要包含的基元种类确定哪些类型的基元是水稻基元。设定阈值α(α≤1,α一般取0.9以剔除噪声基元),对水稻样本图斑内基元的优势度按由高到低的顺序进行累加,直到累加值超过α,其中未参与累加的基元认为是非水稻基元,参与累加的基元认为是水稻基元,并将对应的基元类型归入水稻基元类型集。例如,对图4中的水稻样本图斑①~④进行水稻基元分析,对其内的基元优势度进行排序并累加,水稻样本图斑①中基元类型为35、29、38、36的基元优势度和为0.94,水稻样本图斑②中基元类型为35、38、29、36的基元优势度和为0.92,水稻样本图斑③中基元类型为35、29、38、36、40的基元优势度和为0.92,水稻样本图斑④中基元类型为35、38、29、36、44、40的基元优势度和为0.94,因此基元类型35、29、38、36、40、44均被认为是水稻基元类型,归入水稻基元类型集。
初分类。依据经水稻基元分析得到的水稻基元类型集,对基元图像进行初分类:将基元图像上基元类型属于水稻基元类型集的基元的值都标为1,其余基元的值都标为0,得到一幅初步区分水稻种植区与非水稻种植区的二值图像。图4中区域基元图像的初分类结果如图5所示。
初始水稻种植图斑获取。矢量化上一步得到的二值图像(0视为背景值,不参与矢量化),得到一组初始图斑(图4区域二值图像矢量化得到的初始图斑如图6A所示)。再对初始图斑进行滤波处理,滤除面积较小的细碎图斑及图斑中面积较小的孤岛,得到较为规整的初始水稻种植图斑(图4区域初始图斑经滤波处理后得到的初始水稻种植图斑结果如图6B所示)。
图3 基于样本知识挖掘的水稻种植信息提取流程Fig.3 Flow diagram for rice cropping information extraction based on sample knowledge mining
图4 水稻样本图斑基元类别组成Fig.4 Base-unit types in four rice field sample polygons
只要水稻样本具有代表性,利用这种提取方法就能把所有与水稻样本图斑光谱成分相似的图像区域都提取出来。
3)混淆图斑剔除
初始水稻种植图斑只是基元成分与水稻样本图斑相似,由于遥感图像存在异物同谱现象,某些初始水稻种植图斑对应的图像区域有可能不是水稻,即为混淆图斑。为了获取准确的水稻种植信息,需将混淆图斑剔除。
由1.1节分析可知,水稻种植信息的光谱存在一定的组合规律,因此可根据初始水稻种植图斑的光谱是否符合这种规律判别其是否为混淆图斑。水稻种植图斑特征分布[式(5)]能反映对应水稻种植信息的光谱组合规律,而水稻样本图斑特征分布符合水稻种植信息光谱组合规律,因此通过比较初始水稻种植图斑特征分布是否与水稻样本图斑特征分布相似就可以判断初始水稻种植图斑的光谱是否符合水稻种植信息光谱组合规律。要度量特征分布的相似性,需要构建相似性度量函数。常用的统计距离计算方法如Bhattacharyya距离、Kolmogorov-Smirnov距离、Jensen-Shannon散度、总变分(total variation)等无法对离散化定义域不同(不同水稻种植图斑基元成分不完全相同)的特征分布进行比较计算。因此,本文提出了一种基于陆地移动距离(earth mover’s distance,EMD)的特征分布相似性度量方法。EMD是一种直方图的相似度量值,可度量2个分布之间的距离[19-20]。通过计算每个水稻样本图斑的基元组合特征得到每个水稻样本图斑的特征分布,并将所有水稻样本图斑的特征分布集合成水稻样本图斑特征分布库以量化描述水稻种植信息光谱组合规律。通过计算初始水稻种植图斑的基元组合特征得到其特征分布,计算初始水稻种植图斑特征分布与水稻样本图斑特征分布库中每个分布的EMD,取最小值作为初始水稻种植图斑与水稻样本图斑的差异距离,若差异距离过大,则认为初始水稻种植图斑是混淆图斑,将其剔除。图4中区域混淆图斑剔除结果如图7所示,其中:图7A为初始水稻种植图斑结果图;图7B为剔除混淆图斑后的水稻种植图斑结果图,本图中差异距离阈值为3(不同图像需根据实际情况确定)。
图5 基元图像初分类结果Fig.5 Preliminary classification result of base-unit image
图6 初始图斑(A)和初始水稻种植图斑(B)Fig.6 Initial polygons(A)and initial rice cropping polygons(B)
图7 混淆图斑剔除Fig.7 Elimination of confusion polygons
本文以浙江省为研究区,其地处长江三角洲南翼,陆域面积中丘陵山地占74.63%,平原和盆地占20.32%,河流和湖泊占5.05%,有“七山一水两分田”一说。水稻是浙江省的主要粮食作物,其播种面积和产量常年分别约占粮食作物总播种面积和总产量的70%和80%。浙江省耕地地块破碎,种植结构复杂,插花、套种现象较多,水稻种植多以家庭为单位进行,同一地区的水稻种植方式、种植时间存在差异。为体现本文水稻种植信息提取方法的适用性,本研究选取了浙江省境内位于海盐县南部平原地区和位于诸暨市南部丘陵地区的2个水稻种植典型区域作为实验区。
本研究选取两景能完全覆盖这2个实验区的高分辨率遥感图像作为基础图像,具体图像信息如表3所示。本研究的基础数据还包括国家统计局浙江省调查总队提供的位于实验区内的2016年浙江省第3次全国农业普查夏播样方地块数据,其中3/5用于样本绘制参考,2/5用于精度评价。
表3 实验区所用图像信息Table3 Information of two images for experimental zone
应用1.2节所述的水稻种植信息提取策略得到实验区水稻种植信息,如图8所示,提取结果与水稻种植的实际情况较为吻合。由于本研究的提取对象是水稻,因此将分类评价体系中的分类类型分为水稻和其他2大类,考虑到验证样方数量有限且需验证提取结果的位置精度,本文利用验证样方内距离样方地块边缘距离大于2像素的所有像元对提取结果进行精度评价,评价结果如表4、表5所示。海盐实验区水稻种植信息提取总体精度达96.77%,Kappa系数为0.94;诸暨实验区水稻种植信息提取总体精度达96%,Kappa系数为0.89。上述结果验证了用本文方法提取水稻种植信息的有效性。
图8 实验区水稻种植信息提取结果Fig.8 Rice cropping information extraction’s mapping results in experimental zones
针对水稻在高分辨率遥感图像上的特点,提出了一种基于样本知识挖掘的水稻种植信息提取方法,该方法已应用于浙江省第3次全国农业普查水稻种植空间分布遥感测量工作中,实际的水稻种植信息提取结果表明本文所描述的方法具有较好的提取效果。该方法有如下特点:
表4 海盐实验区水稻提取结果精度评价Table4 Confusion matrix for rice cropping information extraction’s mapping results in Haiyan experimental zone
表5 诸暨实验区水稻提取结果精度评价Table5 Confusion matrix for rice cropping information extraction’s mapping results in Zhuji experimental zone
1)通过分析高分辨率遥感图像上的水稻特征,发现水稻种植信息的混合光谱存在一定的组合规律,符合地理学第一定律;并据此将水稻种植信息表示成代表不同光谱的基元组合,以便于分析水稻种植信息混合光谱的组合规律。
2)提出了一种水稻种植信息提取策略:根据水稻样本图斑的基元成分确定水稻基元类型,分别合并水稻基元和非水稻基元,从而将图像初步划分成水稻种植区和非水稻种植区;矢量化初始水稻种植区得到初始水稻种植图斑,通过比较初始水稻种植图斑与水稻样本图斑特征分布的相似性,筛选出符合水稻样本光谱组合规律的水稻种植图斑,得到最终的提取结果。