黄祥 王克晓 李波 吴园
摘 要 为了解农作物种植信息提取领域的图像分割技术研究现状,对常用的图像分割方法进行了系统性梳理。根据是否引入深度学习算法将图像分割技术分为传统方法和深度学习分割方法。简要概述了阈值分割、分水岭分割、聚类分割、边缘分割及多尺度分割等4种传统图像分割方法和FCN、DeepLab及SegNet等3种基于深度学习的图像分割方法,分析了各种方法在农作物种植信息提取中的优缺点,以及图像分割技术目前存在的难点,以期为提高图像分割技术在农作物种植信息提取中的应用水平提供参考。
关键词 农作物;遥感监测;图像分割;深度学习;计算机视觉
中图分类号:S771.8 文献标志码:C DOI:10.19415/j.cnki.1673-890x.2023.17.020
农作物种植面积是制定农业政策和优化农作物种植结构的重要依据,快捷、准确地获取农作物种植面积对保障粮食安全和国家经济发展具有重要意义[1-2]。传统的农作物种植面积监测方法大多依赖于现场目视解译,监测时效性和精确性较差。遥感技术凭借其快速、无损、大范围等优点已广泛应用于农作物种植信息监测。随着传感器技术的快速进步,无人机遥感得以飞速发展,高光谱、高分辨率遥感影像获取成本大大降低,在农田信息监测领域表现出巨大的应用潜力。为了能够更好地分析农田种植信息,本文对常见的图像分割方法进行了比较分析。
1 图像分割概述
图像分割是基于图像灰度、颜色、形状和纹理等特征,将图像划分成具有独特性质的子区域。同一子区域的像素点被认为是同类,即是对图片中有相同性质的像素赋予相同标签的过程[3]。根据分割机理可以分为连续分割和非连续分割,连续分割是指将具有相同特征的像素划分为同一区域,常见的连续分割方法有阈值分割、区域生成及聚类分割等。非连续分割是利用像素值突变特性所呈现的不同边界,常见的分割方法有边缘分割。近年来,随着深度学习的飞速发展,计算机视觉实现了巨大突破,其中,图像分割作为计算机视觉领域的重要技术,也取得了突破性进展。本文以深度学习是否引入分割算法为依据,将图像分割分为传统分割方法和基于深度学习的分割方法,并根据类别分别简述其经典算法。
2 传统图像分割方法
传统的图像分割方法大多基于光谱、纹理等浅层次特征进行区域划分,简单且易操作,分析效率高。本节对农作物种植信息提取中常用的经典图像分割算法进行阐述,包括阈值分割法、分水岭分割法、聚类分割法、边缘分割法和多尺度分割法,并简要描述其優缺点及在丘陵山区农作物遥感监测中的应用潜力。
2.1 阈值分割法
最早的图像分割方法是基于阈值的图像分割方法,通过设定不同的灰度阈值,将同类划分在同一灰度范围内,进行粗糙的像素级别分割。这种分割方法,对于背景和目标区别明显的简单场景有效。根据不同的分割规则,可将阈值分割分为:局部阈值分割方法[4]、基于点的全局阈值分割方法[5]、基于区域的全局阈值分割方法[6]。阈值分割方法简单易实现,并且耗时较短,能迅速完成分割。然而,该类方法只考虑到光谱信息,未考虑空间信息。对于同物异谱或异物同谱等现象,阈值分割并不能取得理想的分割效果。因此,对于种植结构复杂、地形起伏较大的丘陵山区,阈值分割的应用潜力较小。
2.2 分水岭分割法
分水岭分割算法是一种基于区域生长的图像分割方法,通过像素的相似性特征对像素点进行分类并构成区域[7]。分水岭分割是将图像特征看作地理上的地貌特征,将图像的边缘轮廓转换为“山脉”,将均匀区域转换为“山谷”。算法过程如下:1)以局部最小值作为谷底,局部最高值作为山峰。2)通过谷底向外慢慢生长,直至覆盖所有区域。类似于向各个孤立的山谷中注入不同颜色的水,每一种颜色代表一个类别[8]。3)当水涨起来后,为了避免不同山谷间的水开始合并,在合并处建立障碍,连同山峰构成分水岭,完成图像分割。分水岭分割算法适用于大部分应用场景,其核心在于种子点和生长原则的选取,将直接影响分割效果。通常以局部极小值点作为种子点,并围绕种子点向外生长,由于图像中存在噪声像元和像元缺失等情况,出现局部种子点过多,易导致分割结果出现过度分割现象,同时,该方法相对复杂,耗时较长。
2.3 聚类分割法
基于像素的聚类分割是将具有特征相似性的像素点聚集到同一区域[9],反复迭代聚类结果至收敛,以实现分割,代表方法有K-means聚类[10]、谱聚类[11](Spectral Clustering, SC)和简单线性迭代聚类[12](simple linear iterative Clustering,SLIC)等。K-means聚类是最著名的聚类分割算法,于20世纪60年代提出,算法过程如下:1)首先从数据库中随机选取K个数据样本作为聚类中心。2)依次测量每个样本到每个聚类中心的距离,并把它归到最近的聚类中心的类。3)重新计算已经得到的各个类的聚类中心。
4)迭代2~3步,直至新的聚类中心与原聚类中心相等或小于指定阈值。目前,基于K-means聚类算法已经发展出大量不同的改进算法。Achanta等在2010年提出SLIC算法,该算法是一种易于实现的图像分割算法。SLIC算法通过构造像素点距离度量标准,来衡量颜色和空间相似度,对图像进行聚类。SLIC 算法可以将图像中的像素划分为超像素块,因此也被称为超像素分割、在运算速度、物体轮廓保持等方面具有较高的综合评价,被广泛应用于多种图像分割场景。
聚类分割算法基于特征相似性原则,包括光谱、纹理等特征,需满足同一聚类中的对象特征相似度较高,而不同聚类中的对象特征相似度较小,更适用于目标地物特征差异明显的应用场景。在农作物种植信息提取中,超像素分割法是应用较广的聚类分割算法,相对其他聚类分割算法,对地物边界的还原度更好,但是也存在耗时较长的问题。
2.4 边缘分割法
基于边缘检测的图像分割方法[13],本质上是利用像元灰度值不连续进行图像分割,其基础是边缘检测。通过边缘检测并连接边界处像素点,形成边缘轮廓,从而将图像划分成不同的区域。边缘检测通常借助微分算子,将待分割图像与微分算子卷积,完成边缘像元提取,获取地物轮廓信息。根据采用的微分算子,可以区分不同的边缘检测算法,常用的微分算子有Canny[14]、Roberts[15]等。基于边缘检测的图像分割方法,过程简单易操作,耗时较短,性能相对优良,对像元灰度值具有明显突变的影像分割效果较好,但该算法易受图像噪声和像元缺失的影响,边界特征无法被完整描述。因此,边缘检测后,对于断开的边缘轮廓,需要通过相似性准则搜索并连接相邻边缘点,以完整描述边界信息,形成有意义的边界。
2.5 多尺度分割法
针对传统单一尺度分割出现过分割或欠分割情况,比如,地物面积大而分割尺度小,必然导致分割结果过于破碎,反之分割尺度大而地物面积小,则分割结果不完全。Bruzzone和Carlin等[16]提出了多尺度分割算法,该算法的核心分割模型仍然是传统的单一尺度图像分割模型,比如阈值分割、区域生长和边缘分割等,区别在于利用分割模型去处理多种尺度图像,再将各尺度下的分割结果进行融合。具体算法过程如下:1)进行尺度变换,采用小波变换或金字塔变换将原始图像变换为不同分辨率的新图像。2)对变换后的不同尺度新图像,借助传统分割模型,逐一进行单一尺度分割。3)对不同尺度分割结果进行融合,得到多尺度分割结果。多尺度分割算法通过像素级的加权平均或区域级的合并等方式进行分割结果融合,使得融合后的分割边界较为平滑,符合农作物种植信息提取要求。特别是丘陵山区,地形复杂,地块破碎,单一尺度分割精度不够理想,更适合采用多尺度分割算法。当然,多尺度分割的“尺度”数量较单一尺度多,尤其分割尺度太小时,运行效率极慢。
3 基于深度学习的分割方法
近年来,深度学习发展迅猛,卷积神经网络(Convolutional Neural Networks,CNN)被广泛应用于图像分类、识别等计算机视觉领域,基于卷积神经网络框架的图像分割技术发展迅速,并取得了突破性进展[17],成功构建了多种图像分割模型。随着图像分割场景日益复杂化,传统的图像分割方法难以满足实际要求,基于深度学习的图像分割方法实现了更加高效和精准的分割。本节重点介绍几种经典的基于深度学习的分割方法,包括:FCN[18]、DeepLab[19]、SegNet[20]等。
3.1 完全卷積网络
完全卷积网络[18](Fully Convolution Networks,FCN)由Jonathan Long等学者于2015年提出,是首个端到端的深度学习分割模型,在图像分割领域具有重要意义。FCN基于传统的卷积改进而来,采用卷积层替换网络中的全连接层。FCN的网络架构采用编码-解码结构,编码部分采用经典的CNN网络,如VGG、ResNet等,用于特征提取;解码部分,由于卷积和池化操作会导致图像尺寸变小,使用上采样方式对图像尺寸进行恢复,得到输入图像尺寸大小的分割图像。此外,通过跳跃连接,将浅层输出和深层输出进行联合,减少底层的图像信息丢失,同时避免网络退化及梯度爆炸等问题。
3.2 DeepLab网络
DeepLab[19]是Chen等学者基于FCN提出的一系列图像分割模型,最新版本为DeepLab-v3+[21]。“DeepLab-v3+”采用编码-解码结构。编码器由深度卷积神经网络(Deep Convolutional Neural Network,DCNN)模型及ASPP模块构成,将图像输入DCNN进行处理,输出中浅层特征图和经过ASPP 融合卷积后的特征图,并将两者作为解码器的输入。解码部分,对输入的中浅层特征图进行卷积,再与经过上采样的ASPP特征图进行融合,然后经过上采样操作输出原始尺寸大小的分割图,实现端到端的语义分割。DCNN网络是一种采用深度可分离卷积层的卷积神经网络,将通道之间分开处理,减少光谱和空间相关性干扰。ASPP模块将空洞卷积和特征金字塔池化结合在一起,在相同的计算代价下增大卷积核的感受野,挖掘多尺度上下文信息,以更好地捕捉地块边界。
3.3 SegNet网络
SegNet是在FCN基础上改进而来,由一个编码器网络、一个相应的解码器网络和一个逐像素分类层组成,其特点在于编码阶段,进行池化时,保留最大值的位置信息,然后,在解码阶段,利用最大池化索引进行非线性上采样,将低分辨率编码器输出特征映射到原始输入图像分辨率特征图,避免在编码阶段保存特征图,从而节省内存空间。同时,消除了学习上采样的需要,减少了训练参数,从而节约了计算时间。
4 结语
本文着重介绍了几类常用的传统图像分割方法和几种深度学习图像分割方法,传统的图像分割方法在简单场景下应用效果较好,而基于深度学习的图像分割方法在复杂场景下效果更好。不同分割算法的优缺点不同,需要根据应用场景灵活选择,甚至将多种分割方法结合使用,以获得最佳分割效果。图像分割作为计算机视觉领域的一项基础技术,是图像理解的重要一环,至今仍受到工业界与学术界的高度重视,但仍然存在一些难题:1)样本标注工作繁重,海量样本数据集构建难度大;2)小尺寸或复杂形状目标分割精度不够;3)基于深度学习的分割网络对计算资源的消耗严重,使得模型收敛速度非常慢,在计算能力有限的情况下,模型训练耗时长久;4)采用编码-解码结构的卷积神经网络框架,运用卷积和池化操作,会降低图像分辨率,深层次特征对细节信息表达不够充分,导致目标地物轮廓分割得不够细致,即使采用跳跃连接技术,将浅层特征和深层特征融合,也只在一定程度上缓解了上述问题。这些问题具有重要的研究价值,若能较好地解决,对于促进图像分割技术落地、应用和推广具有重要意义。
参考文献:
[1] 胡琼,吴文斌,宋茜,等.农作物种植结构遥感提取研究进展[J].中国农业科学,2015,48(10):
1900-1914.
[2] 王岽,吴见.农作物种类高光谱遥感识别研究[J].地理与地理信息科学,2015,31(2):29-33,2.
[3] 黄鹏,郑淇,梁超.图像分割方法综述[J].武汉大学学报(理学版),2020,66(6):519-531.
[4] YEN J C, CHANG F J, CHANG S. A new criterion for automatic multilevel thresholding[J]. IEEE transactions on image processing: a publication of the IEEE Signal Processing Society, 1995, 4(3): 370.
[5] OTSU N. A threshold selection method from gray-level histograms[J]. IEEE transactions on systems, man, and cybernetics, 1979, 9(1): 62-66.
[6] PUN T. A new method for grey-level picture thresholding using the entropy of the histogram[J]. Signal processing, 1980, 2(3): 223-237.
[7] 王國权,周小红,蔚立磊.基于分水岭算法的图像分割方法研究[J].计算机仿真,2009,26(5):255-258.
[8] 王鑫,罗斌,宁晨.一种基于小波和分水岭算法的图像分割方法[J].计算机技术与发展,2006(1):
17-19,22.
[9] 白雪飞.基于视觉显著性的图像分割方法研究[D].太原:山西大学,2014.
[10] 霍迎秋,秦仁波,邢彩燕,等.基于CUDA的并行K-means聚类图像分割算法优化[J].农业机械学报, 2014(11):47-53.
[11] 张向荣,骞晓雪,焦李成.基于免疫谱聚类的图像分割[J].软件学报,2010,21(9):2196-2205.
[12] ACHANTA R, SHAJI A, SMITH K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(11): 2274-2282.
[13] 刘侠,甘权,李冰,等.融合加权随机森林的自动3D椎骨CT图像主动轮廓分割方法[J].光电工程,2020,47(12):37-48.
[14] ER-SEN L, SHU-LONG Z, BAO-SHAN Z, et al. An Adaptive Edge-Detection Method Based on the Canny Operator[C]//International Conference on Environmental Science & Information Application Technology. IEEE, 2009.
[15] ROSENFELD A. The max Roberts operator is a Hueckel type edge detector[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1981, 3(1): 101-103.
[16] BRUZZONE L, CARLIN L. A Multilevel Context-Based System for Classification of Very High Spatial Resolution Images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(9):
2587-2600.
[17] 张明月.基于深度学习的图像分割研究[D].长春:吉林大学,2017.
[18] SHELHAMER E, LONG J, DARRELL T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(4): 640-651.
[19] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[20] BADRINARAYANAN V, KENDALL A, CIPOLLA R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.
[21] CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.
(责任编辑:丁志祥)
收稿日期:2023-06-19
基金项目:重庆市农业科学院市级财政科研项目(cqaas2023sjczqn007)。
作者简介:黄祥(1988—),男,四川绵阳人,硕士,农艺师,主要从事农业遥感研究。E-mail:419850173@qq.com。