张博洋 倪海明 胡馨月 戚大伟
摘 要:针对传统方法进行图像分割易受噪声影响的问题,提出一种基于U-Net网络的无人机图像语义分割网络模型。该模型不需要对图像进行预处理,利用反卷积恢复图像分辨率,采用U型结构连接低层网络和高层网络的特征图,利用跳跃连接降低网络复杂度,同时使用Dropout正则化随机激活网络隐藏单元以防止过拟合。实验结果表明:该网络模型可以自动定位林木信息,准确分割林木区域,进一步优化边缘分割结果,实现端对端的图像分割。该模型具有良好的泛化能力,在其他图像分割领域也具有应用价值。
关键词:无人机图像;图像分割;U-Net;跳跃连接
中图分类号:S758.5 文献标识码:A 文章编号:1006-8023(2021)02-0067-07
Research on Tree Image Segmentation Based on U-Net Network
ZHANG Boyang, NI Haiming, HU Xinyue, QI Dawei*
(College of Science, Northeast Forestry University, Harbin 150040, China)
Abstract:Aiming at the problem that traditional image segmentation is susceptible to noise, a U-Net network-based semantic segmentation network model for UAV images is proposed. The model does not need to preprocess the image, uses deconvolution to restore the image resolution, uses a U-shaped structure to connect the feature maps of the low-level network and the high-level network, uses skip connection to reduce network complexity, and uses Dropout regularization to randomly activate network hiding Unit to prevent overfitting. The experimental results show that the network model can automatically locate forest information, accurately segment the forest area, further optimize the edge segmentation results, and achieve end-to-end image segmentation. The model has good generalization ability and has application value in other image segmentation fields.
Keywords:UAV image; image segmentation; U-Net; skip connection
收稿日期:2020-11-09
基金項目:国家自然科学基金项目(31570712)
第一作者简介:张博洋,硕士研究生。研究方向为图像处理与模式识别。E-mail: zhangbyang0624@163.com
通信作者:戚大伟,博士,教授。研究方向为图像处理与模式识别。E-mail: qidw9806@126.com
引文格式:张博洋,倪海明,胡馨月,等.基于U-Net网络的林木图像分割研究[J].森林工程,2021,37(2):67-73.
ZHANG B Y, NI H M, HU X Y, et al. Research on tree image segmentation based on U-Net Network [J]. Forest Engineering,2021,37(2):67-73.
0 引言
林木资源是我国生态系统的重要组成部分,在维持生态系统稳定方面具有决策性的作用。一旦林木资源遭到破坏,会很难恢复,从而造成巨大的经济损失。由于传统图像分割方法难以处理复杂场景下的分割任务[1],准确率低,耗时长,难以大规模部署。因此,如何精确识别出每个像素的所属类别一直是图像语义分割领域内最具挑战的问题之一[2]。
传统的图像分割方法包括阈值分割[3-6]、边缘检测和分水岭算法[7]等。针对这些方法进行的模型优化提高了分割精度,减少了计算量,但是难以处理复杂的分割任务,一般不会在图像语义分割领域部署应用。近年来,卷积神经网络的提出对于图像分割具有独特的优势[8]。LONG等[9]提出了全卷积网络(FCN),拉开了使用深度学习进行图像语义分割的序幕。将条件随机场(CRF)融合到全卷积网络(FCN)中[10-11],可以对全卷积网络(FCN)的分割结果进行精化。扩大感受野和融合多尺度上下文信息往往是提高图像语义分割精度的重要方法,为解决这个问题,研究人员相继提出了多种模型和方法。其中,以RefineNet[12-13]、GCN[14]、DFN[15]、ParseNet[16]等算法为代表。除此之外,ZHAO等[17]将PSPNet引入全局平均池化到空间金字塔池化(SPP)结构中,加快了网络收敛速度。DeepLab v3网络中提出了带孔卷积和金字塔池化[18],保持了特征图的感受野以及分辨率。马玥[19]利用卷积网络结合残差模块对土地的多种植被预测分类,有效提高了预测准确率。王琢等[20]构建全卷积神经网络,采用有监督的学习方法,实现了对叶片端对端的分割。以上方法虽然能够过滤掉噪声,但也丢失了一定的空间信息,不能够对无人机图像的林木区域得到精细实时的分割。
针对上述所存问题,为使得网络能够精确分割林木区域,精准定位林木信息。本文在利用无人机获取林场图像的基础上,提出一种基于U-Net网络的无人机图像语义分割网络结构,使得低层网络的林木信息和高层网络的林木信息能够有效融合,弥补了之前网络模型输出边缘粗造的缺陷,同时提高了网络的分割精度。经实验验证,该模型可以细化林木图像边缘,能够在林木图像上实现精确分割。
1 基本理论
1.1 激活函数
ReLU是近几年在圖像语义分割领域使用较为广泛的激活函数,其函数为:
f(x)=max(0,x)。(1)
图1是ReLU的可视化图,当输入值大于0时,神经元被激活,梯度得到保证,始终是1,不会随着输入值的改变逐渐变成0。当输入值小于0时,神经元没有被激活。该激活函数避免反向传播过程中调节权重的梯度消失等问题,计算简单方便。
1.2 优化算法
RMSProp是基于AdaGrad优化算法的改进算法,在迭代过程中,该算法既能增大学习率,又能降低学习率,通过引入一个衰减系数,让衰减率(γ)每回合都衰减一定比例。其计算公式为:
G1=γGt-1+(1-γ)g2t。(2)
Δθ=-ηGt+ε。(3)
式中:gt是第t时刻参数的梯度;γ是衰减率;ε是常数;η是基础学习率;Gt表示对梯度的平方做了一次平滑处理。
1.3 反卷积
反卷积(Transposed Convolution),又称转置卷积,对应于卷积操作的后向和前向传播,在优化上做颠倒。按照一定比例通过外围全补零操作来扩大图像的尺寸,与正常卷积相比,网络能够直接将误差信息传递到所需要的位置,快速恢复图像尺度,加快训练速度。反卷积结构如图2所示。
1.4 跳跃连接
跳跃连接(Skip Connection),指的是在普通的卷积神经网络中,较浅层网络的输出结果作为相邻下一层网络的输入,或者可以作为更深一层网络层或者多层网络层的输入。也就是建立了低层网络和高层网络的连接通路,浅层网络用来解决像素定位的问题,深层网络用来解决像素分类的问题,这样使得信息能够跨通道的融合,可以向高层网络提供底层网络的信息特征来辅助进行图像重构。此外,跳跃连接不仅能够精化分割结果,还可以减少网络参数,减小计算量和内存消耗。
1.5 损失函数
网络对林木图像中所有像素点的交叉熵和取平均值作为该模型的损失函数(Loss Function),如公式所示:
J(θ)=-1N∑mi=1∑kj=11yi=jlneθTjxi∑kj=1θTixi。 (4)
式中:N为样本数,k为标签数;θ是计算概率值的偏移量;对于其中一幅林木图像m来说,(xi,yi)表示像素i及其对应的类别标记,最后通过梯度下降更新参数。
图3是损失函数学习方式。由图3可知,通过对无人机拍摄的大量林木图像进行网络模型的迭代训练,选定提到的损失函数,来计算U-Net网络得到的林木提取结果与样本标签的差异,从而判断该网络模型是否能够适应数据集以及模型对林木图像的分割能力能否达到预期标准。将得到的误差信号传递到U-Net神经网络,网络接收之后,自我学习训练林木标签和输入的林木图像之间的非线性关系,通过不断地调节超参数来加快网络模型的收敛速度,使得误差逐渐降低且稳定收敛,从而提高边缘分割的准确率。
2 网络结构
本文的实验框架是基于U-Net模型,如图4所示。U-Net网络模型短小而又精悍,不仅可以在小样本数据集上进行模型的训练,而且网络收敛较快和分割速度很快。网络整体由2大部分组成:收缩路径和扩张路径。收缩路径不断提取丰富的林木特征,用于捕获林木图像中完整的上下文信息,使得局部信息和全局信息得以充分融合,不易丢失空间信息。在收缩路径中,每两个3×3的卷积操作之后,会有一个2×2的最大池化操作,连续4次下采样,特征图分辨率逐渐降低,通道数逐渐增大;扩张路径对称于收缩路径,用来精确定位输入图像中待分割的林木区域,网络采用2×2的上采样层恢复图像分辨率,后接2个3×3的卷积层,使用ReLU函数作为整个网络的激活函数。网络的最后一层采用1×1的卷积核进行跨通道之间的信息交互和融合,最后通过softmax获得最终的分类结果。
网络结构有两个最大特点:U型结构和跳跃连接。编码器的特征图和每个对应阶段解码器通过上采样操作得到的特征图进行拼接,从而形成一个U型;通过跳跃连接的结构,在每个阶段都将编码器在池化过程中丢失的相关特征提供给解码器进行学习。为了能够重构图像特征,网络采用跳跃连接的方式,使得低层网络的特征图和高层网络的特征图连接,较浅的网络层体现细节特征,用于林木信息定位;较深的网络层体现语义特征,用于林木和非林木信息的分类。无人机图像的林木区域分割需要处理丰富的边缘细节特征,该网络能够有效实现精确的像素级分割效果。
3 实验及结果分析
3.1 实验软硬件配置
实验在Windows 10系统上使用python语言,PyCharm 2019.2.2平台,基于pytorch框架实现,所用的计算机配置是Intel四核2.50 GHz处理器,内存是4 GB,GPU内存是8 GB。
3.2 实验数据集
本文使用的基础数据集拍摄于黑龙江省哈尔滨市香坊区的某实验林场,使用水平镜像、上下翻转等方法对无人机采集到的林木图像进行数据增强,共得到985张512×512大小的林木图像,按照训练集和测试集4∶1的比例划分数据集,得到788张林木训练集,197张林木测试集,如图5所示,主要使用这两种数据集对U-Net模型进行训练和测试,实验分为林木和空地2个类别;通过labelme图像标注工具对林木图像进行标注,如图6所示。
[4]马军,贾鹤鸣,赵国强,等.基于优化粒子群的最大熵阈值法叶片图像分割[J].森林工程,2019,35(3):63-68.
MA J, JIA H M, ZHAO G Q, et al. Leaf image segmentation based on the maximum entropy threshold method of optimized particle swarm[J]. Forest Engineering, 2019, 35(3): 63-68.
[5]张浩然,东佳毅,张岱,等.木材节子缺陷图像分割方法比较研究[J].林业机械与木工设备,2020,48(8):22-26.
ZHANG H R, DONG J Y, ZHANG D, et al. Comparative study on image segmentation methods of wood knot defects[J]. Forestry Machinery & Woodworking Equipment, 2020, 48(8):22-26.
[6]郭康乐,黄元,杨妮,等.基于TVCV模型的多通道木材缺陷图像分割算法[J].林业机械与木工设备,2020,48(9):22-26.
DUO K L, HUANG Y, YANG N, et al. Multi-channel wood defect image segmentation algorithm based on TVCV models[J]. Forestry Machinery & Woodworking Equipment, 2020, 48(9):22-26.
[7]孙钊,潘磊,谢运鸿,等.分水岭算法在林业中的应用[J/OL].世界林业研究:1-6[2020-11-03].
SUN Z, PAN L, XIE Y H, et al. Application of watershed algorithm in forestry[J/OL]. World Forestry Research:1-6[2020-11-03].
[8]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014: arXiv:1409.1556[cs.CV].
[9]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.
[10]李宇,肖春姣,张洪群,等.深度卷积融合条件随机场遥感图像语义分割[J].国土资源遥感,2020,32(3):15-22.
LI Y, XIAO C J, ZHANG H Q, et al. Remote sensing image semantic segmentation using deep fusion convolutional networks and conditional random field[J]. Remote Sensing for Land & Resources, 2020, 32(3):15-22.
[11]林朝劍,张广群,杨洁,等. 基于迁移学习的林业业务图像识别[J]. 南京林业大学学报(自然科学版), 2020, 44(4): 215-221.
LIN C J, ZHANG G Q, YANG J,et al. Transfer learning based recognition for forestry business images[J].Journal of Nanjing Forestry University (Natural Science Edition), 2020, 44(4): 215-221.
[12]LIN G S, MILAN A, SHEN C H, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[EB/OL]. 2016: arXiv:1611.06612[cs.CV].
[13]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[14]PENG C, ZHANG X Y, YU G, et al. Large kernel matters: improve semantic segmentation by global convolutional network[EB/OL]. 2017: arXiv:1703.02719[cs.CV].
[15]YU C Q, WANG J B, PENG C, et al. Learning a discriminative feature network for semantic segmentation[EB/OL]. 2018: arXiv:1804.09337[cs.CV].
[16]RABINOVICH A, LIU W, BERG A C. ParseNet: looking wider to see better[EB/OL]. 2015: arXiv:1506.04579[cs.CV].
[17]ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2881-2890.
[18]CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]. Cham: Springer International Publishing, 2018.
[19]马玥.基于多源遥感信息综合的湿地土地覆被分类研究[D].长春:吉林大学,2018.
MA Y. Land cover classification of wetland based on multi-source remote sensing[D]. Changchun: Jilin University, 2018.
[20]王琢,汪雅婷,宋文龙,等.基于深度学习的叶片图像分割算法[J].森林工程,2019,35(1):42-46.
WANG Z, WANG Y T, SONG W L, et al. Leaf image segmentation algorithm based on deep learning [J]. Forest Engineering, 2019, 35(1): 42-46.