宋玉彬 ,肖 成 ,赵云峰 ,王延仓
(北华航天工业学院,河北 廊坊 065000)
遥感技术的出现为农作物种植面积统计与调查提供了有力的手段。专家学者和研究人员基于卫星遥感数据,提出了一系列作物分类的机器学习方法来对区域农作物种类以及种植面积进行提取或统计[1]。这些分类的方法大致可以分为两大类[2]。第一类为基于遥感机理的方法来提取作物的种植面积,第二类为利用机器学习和深度学习的方法来提取不同作物的种植面积[3]。第一类包括利用时序的作物生长特征比如光谱特征(地表反射率)、植被指数、增强植被指数等系列特征来对作物进行分类;第二类目前应用较多,包括利用计算机视觉、模糊分类、神经网络、随机森林、支持向量机、深度学习等方法对作物进行分类[4-8]。单纯利用光谱特征对作物进行分类的方法效果并不十分理想,这是因为绝大多数作物和非作物普遍存在异物同谱的现象,仅仅从光谱维度很难将作物和其他非作物植被区分开来[9]。本研究从遥感作物分类精度较差的原因出发,提出从数据特征深入挖掘数据本身深层次特征的方法。在作物生长的过程中,不仅光谱能够反映作物与其他非作物的区别,物候时间节点上的空间信息、光谱的时间序列信息、光谱的时间序列的一阶差分信息、空间时间序列信息、空间时间序列的差分信息更能够反映出作物和非作物本质的区别[10]。本研究将上述特征加入到机器学习分类的特征属性中,以突破传统反射率和散射特征无法有效表征作物的局限性。
河北省大部分位于华北平原地区,是我国重要的农作物产地。河北省西部与西北部边缘地区多山脉,面积相对较小,绝大多数区域为地势较为平坦的平原地区,非常适宜开展规模化的农业生产活动。城市化进程的加快为土地流转创造了积极条件,土地的集中则为智慧农业产业的发展提供了基础,获取作物分类信息和位置是智慧农业开展的重要保障。研究区域如图1所示。
图1 研究区域(河北省DEM)
作物识别特征属性的选择能够反映作物自身物质成分、结构、几何,和成像几何也有密切的关系。通常情况下,可见光波段的地表反射率反映的是作物种植区域的作物生物成分、内部微观结构与外部几何,土壤的成分、含水量、粗糙度等基本信息;红外波段反映的是地表和作物的物理温度;微波波段主要反映的是作物种植区域地表土壤含水量、土壤含盐量、土壤表面几何粗糙度,作物的化学成分、含水量、几何结构等。因此,为了能够准确识别作物,将光学波段、红外波段以及微波波段均作为作物识别的基本属性特征。
作物生长的时序特征也是识别作物的重要属性特征。光学波段、红外波段与微波波段的时间序列则可以反映作物的成分、内部微观结构与外部几何结构以及土壤成分、土壤含水量、土壤粗糙度随时间的变化。作物有完整的生命周期,作物的物候和非作物有着显著的差别。因此,作物生长的时间序列特征随着时间的变化会呈现出一定的规律,这种规律与非作物植被是存在显著差异的,这种作物生长的显著特点可以作为机器学习的属性特征。
作物在不同的物候时间节点,其纹理特征与非作物有着显著的区别。通常情况下,树木、杂草等植被由于无人为干预与管理,一般情况下其纹理无显著特点,随机性较强,而农作物在不同的生长时期其整体纹理特征会呈现一定规律的变化。比如小麦生长的过程中,在3 月份植株相对较小,大面积被裸土覆盖,较小且密集的植株呈行排列。随着小麦的不断生长,其覆盖面积不断增加,裸土的面积逐渐减小,而小麦的叶片形式也使得其整体的表现呈现出小麦这种作物在特定时期独特的纹理特征。一般很难去获取到这种细致的纹理特征,因为即使是光学卫星影像的分辨率通常也在1 m以上。但是像素点和像素点间所形成的纹理信息,能够在很大程度上体现出与其他作物或非作物显著不同的时空特征。因此,可以对特定时间的波段影像求一阶和二阶导数以反映作物在特定时间的纹理特征。
纹理或空间特征的时间序列可以作为区分作物与非作物的显著特征。对于作物来说,其在某个时间节点的纹理特征到其生命周期结束所形成的空间纹理特征时间序列,也可以有效地区分作物与非作物。在通常情况下,不同作物由于植株大小、叶片大小、叶片倾角等都会存在较为显著的差别,不同时间节点的空间纹理特征会有差异,并且整个生命周期不同物候节点的纹理所形成的时间序列也会存在显著的差异。所以本研究将空间纹理特征的时间序列作为作物分类的特征属性。根据上述描述,本研究所选择的特征属性组合如表1 所示。
表1 作物生长时空特征
本研究采用的是GEE 平台中自带的机器学习中的监督分类算法——随机森林算法。随机森林分类算法的原理是随机生成一定数量的树,每一棵树都是一个非线性分类器,通过训练可以将这些树都作为分类器。当输入特征向量之后每棵树都会产生一个分类结果,系统根据多棵树输出的分类结果通过投票的方式确定最终特征向量所属的类别。本研究通过遍历随机森林分类器的超参数,经过精度的比较最终将超参数number Of Trees 设置为100,min Leaf Population 设置为1,variables Per Split 设置为null,bagFraction 设置为0.5,maxNodes 设置为null,seed 设置为0。在研究区域内随机采取样本点20 000个,这些样本在空间上均匀分布于整个河北省。选择不同的seed 参数生成与上述样本点不同的20 000 个点,用于测试模型的泛化能力。
利用随机森林分类器在上述参数的设置下,利用河北省内随机的作物分布样本对河北省的作物进行分类。其中样本标注采用的是GEE 平台中的全球粮食支持分析数据集GFSAD1000,将其中的作物区的5 种类型作为标签。分类的结果如图2 所示,其中,训练精度达到了99.52%,测试精度达到了80.95%。
图2 河北省作物分类结果
在进行试验的过程中,当仅将初始的反射率数据作为特征属性时,测试的精度仅为40%左右,随着作物生长参量时间序列、物候节点的空间特征、物候节点空间特征的时间序列等大量属性特征的加入,分类的精度从40%提升到60%、70%再到80.95%,这实际上说明本研究所选择的作物生长的时序特征、物候节点的空间特征和物候节点空间特征的时间序列特征对于提高作物分类精度有着实质性的作用。在逐步利用作物时空特征来对作物进行分类的实验过程中发现:随着时空特征的加入,具有作物生长时空与时空序列特征的区域大量减少,最终导致分类结果中出现了大面积分类结果的缺失,这也是作物生长时空与时空序列特征用于作物分类的局限性。
机器学习能力的局限性其实还受到像素级别特征及像素级别特征组合之后形成的时空纹理特征的限制。通常情况下,像素点的值实际上是一个统计均值,一般从这些信息上无法获取到像素内部丰富的信息。根据宋玉彬等在Remote Sensing 上发表的文章所提出的分辨率单元的散射信号分解理论,有望得到分辨率单元内更加丰富的信号分布,这会对机器学习特征基本概念与特征构建形成实质性的挑战,也必然会影响到机器学习未来特征属性构建的方式,对于未来模型分类精度的提升将产生显著且积极的影响。