赵艳杰,郭晓丽,刘洋,娜茜泰,李雅婷,张铭梓,秦文强
(内蒙古大学电子信息工程学院,呼和浩特 010021)
图像分割是理解和分析图像的重要环节,即基于图像的颜色、灰度、纹理等特征对图像的主体部分进行提取[1],目前被广泛的应用于目标识别、目标追踪、3D重构等技术的基础处理过程,本文主要的分割对象为野外采集的花朵型植物和叶片型植物。T.Saitoh等人[2]通过选择局部代价与路径长度之比最小的路径来提取边界,并开发了一种分割识别一体的界面,实验对600幅图片进行测试,获得了97%的花朵分割准确率,但是当待分割主体中心处有清晰边缘时,会出现分割不完整需要手动在边界输入分割点的情况。K Yang[3]等人通过收集标注得到2500张复杂背景叶片图像,分割和识别网络分别为Mask-R-CNN和VGG16,网络的第一部分选择候选目标区域,接着将目标候选区域输入网络的第二部分产生叶片分割图和识别率,最终的误分率(Misclassification Error,ME)为1.15%,但其实验数据量不够充足且模型训练和验证的时间相对较长。刘永波等人[4]使用两组U-Net进行并行计算,实现玉米的叶部病斑分割,其叶片分割的MIOU值达到96.33%,但其只考虑了对叶片的分割,很多病症存在于植物果实等部位,不具有普适性。邓颖等人[5]针对花量密集、多遮挡场景,证明当以ResNeXt50为主卷积网络,Mask-R-CNN获得较高准确率和较低误差率且模型运行时间短,该方法创造性的实现了密集、大量场景中花朵数量的统计但其准确率有待进一步提升。钟伟镇等人[6]为对植物后续的生长状态识别和监控,提出一种基于Mask-RCNN网络的分割和识别复杂背景多叶片的情况,其中将ResNet101和FPN作为系统的主干架构用于图片的特征提取,兴趣区域(Region of Interest,ROI)分类器将最终的植物进行分类,另外系统还设置了边框回归器来对目标区域进行位置校正,另一网络分支为FCN网络[7,8]来实现对植物图像的分割,最终将识别和分割的网络相结合生成一幅与原始图片大小相同的输出,但是其样本图片拍摄时对背景要求较高,模型效果容易受拍摄角度、光照等的影响。Hu J等人[9]提出一种在多通道关系上搭建的注意力模型[10-13],在分类任务中取得了更好的识别率,实验表明注意力机制的应用可以有效的提高网络整体性能。仝真等人[14]结合ResNet34[15]和U-Net网络特点形成ResNet-U-Net模型对立木图像进行初步分割,后使用动态阈值分割前景和背景,最后验证该方法误分率降低了3.5%,运用评分奖惩思想,在立木分割中获得较高准确率和较强的鲁棒性,但是当光照出现过亮过暗的情况时,其图像分割误差较大。
在对植物分割过程中其花朵和叶片都是主要研究部位,针对目前网络对于两种植物部位分割缺乏普适性,且植物生长环境中图片数据取样存在多尺度、分辨率等问题,本文提出多尺度Res-Att-UNet模型,实验表明该方法具有较强的泛化性,无论在花朵型数据集还是叶片型植物数据集中都表现出良好的收敛性、较高的精度等特点。
实验中整个项目流程如图1所示,本文的工作内容主要为第三部分即将无人机回传的植物图片进行分割操作。分割作为后期识别的基础,分割的好坏直接决定了植物识别准确率的高低。
图1 项目实施过程
由于原始U-Net网络在植物图像分割过程中存在特征提取不够全面、缺乏对多尺度植物图像包容性等问题,并不适合实际项目需求,故基于U-Net模型做出如下三方面改进:
(1)残差模块:针对U-Net网络层数少提取到的植物图像特征信息并不充分,网络中增加残差模块在提升网络性能的同时避免了模型加深导致的梯度消失问题。
(2)多尺度机制:无人机在野外拍摄植物图片时,由于拍摄角度等原因会采集到不同尺度的图像,在网络的收缩部分引入多尺度输入机制。输入U-Net网络中的不同尺度数据与本身对应通道信息融合可以提取到更加丰富的上下文信息,无论大尺度还是小尺度植物图片均能取得较好的分割效果。
(3)双通道注意力机制:为了使网络对植物的主体部分实现更精准的捕捉,在模型的扩张部分增加双通道注意力机制,可以有效提高整个网络的分割准确度。改进后的U-Net模型结构如图2所示。
图2 改进后的U‐Net分割模型
由于原始U-Net网络层数较少,对于植物图像的特征信息提取不够全面准确,造成分割后的图像粗糙且精度低,于是本文提出在原有的U-Net网络中加入残差块,其独特的shortcut连接方式,相当于在网络中加入了一条跳过权重层的新路径,即在最终的输出上新增一项没有经过权重衰减的梯度,可以融合植物图像浅层和深层特征信息。目前残差块有两层或者三层如图3所示,由于该场景下两层和三层残差块得到的分割准确率相差十分微小,考虑减少训练时间复杂度,本文改进的模型中采用两层残差块。引入残差块解决了当网络加深到某一程度,由于梯度消失导致模型的分割效果出现不升反降的情况。
图3 ResNet的残差学习块[16]
在原始U-Net模型中加入残差块,使得网络模型在相对简单的情况下[17],降低模型训练参数和训练时长且可以在本层的末端引入了初始端的植物特征信息,增强了各层之间的特征融合,并在一定程度上解决了网络层加深后导致分割模型性能退化的问题,但是野外拍摄植物图片时由于距离角度等原因得到的多尺度图片同样会影响分割精度,接下来将利用多尺度目标分割模块对该问题做出解决。
在实际项目中,无人机对植物的拍摄会得到不同尺度的植物图像,这为植物图像分割带来了一定难度。从SPPNET[18]中将多尺度特征融合的思想引用至本文的模型中。为了得到不同尺度的输入图片,首先将已有的植物图片通过连续下采样之后得到分辨率逐渐降低的一系列图像构成图像金字塔,其次将得到的多尺度图像输入构建好的网络提取不同尺度下的特征信息,最后使用相应尺寸下的Label图对植物分割结果进行深监督。
如图2所示,模型的左侧为多输入的下采样部分,通过对原始图片进行缩小,得到相当于原始图片大小1/2、1/4、1/8的三组数据,原始尺寸图像输入网络之后经过两个3×3的卷积层以及池化层得到1/2原始图像大小的特征图,此时输入该层的多尺度图像经过两层卷积以及批量归一化,再经过ReLu激活函数进行非线性映射与上一层得到的特征图进行特征拼接,新得到的拼接特征再进行两次卷积、批量归一化、激活函数、最大池化,以此类推。在模型的上采样部分,对Sigmoid函数输出的分割预测图,使用与该分割图相对应尺度监督标签样本进行深监督,以此加快网络收敛速度。
多尺度输入机制解决了多尺度图像对后期分割带来的困难。融合了金字塔结构的U-Net网络把提取到的多尺度信息与本身网络对应通道信息进行融合从而实现不同感受野的上下文信息融合以及植物图像的表层轮廓信息和深层纹理信息的融合,无论是大尺度目标分割还是小尺度目标分割均可以获得更完备的语义信息。但是由于U-Net独特的结构特征在对编码和解码特征进行融合的同时,一些对分割无用的信息同样被传递到了解码层造成分割精度降低,针对这样的问题提出双通道注意力机制来抑制分割过程的无关信息表达。
注意力模型最初是由人类的注意力机制启发而来。仿照人类这一机制衍生的注意力模型首先被应用于机器翻译中,后期被广泛的用于计算机、语音、自然语言处理等领域[19]。
由于传统的U-Net网络为融合更加丰富的信息,在模型的扩张网络部分会接收到模型收缩网络中的浅层信息,在接收到有用特征信息的同时会接收到对最终分割目标无用的特征信息,此时注意力机制的引入会让网络学习我们更为关注的区域,增强模型的分割性能。为此本文融合了两种注意力机制用于提高网络信息处理的效率和准确性。
(1)通道注意力机制
通道注意力机制(Channel Attention,CA)[20]概念同样来源于人类的注意力机制,在神经网络中,每一张输入图片可以表示为(W,H,C)形式,其中W和H分别为输入图像的长和宽,C为图像的通道数。例如在植物图像分割网络中,输入的初始图像(256,256,3)通过不同卷积核来提取图像中的特征信息,在经过64的卷积核后变为(256,256,64)新的特征图,64个特征图中有的特征图上占据的关键信息较多,有的对于最终的分割任务并没有多大作用,此时就需要对各个特征图进行权值分配来调节对最终结果影响程度的比例。
在U-Net网络中不同的特征通道对于最终的表现各不相同,同样的在响应的过程中很可能有一些重要的信息被削弱,在上采样的自下而上的三层输出端各加入通道注意力,使得特征通道对最终的分割表现有高响应性。用x表示网络模型某一层的特征图,x=[x1,x2,...,xc]中的xi表示第i个特征图,然后需要对c个特征图做平均合并得到该通道的特征向量,之后通过两个全连接层来得到各通道之间的关联关系,最终使用Sigmoid函数将特征向量映射到[0,1]范围之间。
本文的通道注意力模块的设计如图4所示:
图4 通道注意力模块
上述公式中,W表示该通道注意力模块中所有的参数,σ表示Sigmoid函数,fc表示全连接层,δ为ReLu函数,得到每层特征图的CA系数后,对各层特征图进行加权得到最终输出特征值:
通道注意力机制的本质是给不同特征赋以不同的权重,从而学习对植物分割任务更有用的特征通道。
(2)空间注意力机制
在图像处理过程中,低级特征往往存在很多图像的细节信息,分割任务中我们更希望得到目标区域和背景之间的边界轮廓,对其余区域的细节纹理信息不进行过多关注,即对图像所有的空间信息不能进行同等考虑。如果将通道注意力机制比作让网络去看什么,那空间注意力机制(Spatial Attention,SA)[21-22]则是让网络去看哪里,具体模型如图5所示,模型中为了扩大感受野和获取更加丰富的全局特征,使用两个相邻的卷积核,最后使用Sigmoid函数将最终特征映射到[0,1]之间。
图5 中的特征图2 为经过通道注意力机制得到的高维特征图,特征图1为当前通道特征图,现将涉及到的公式列举如下:
图5 空间注意力机制模块
最终的输出结果为:
其中的W为空间注意力模块的参数,conv1、conv2为卷积层,表示经过通道注意力机制得到的高维特征图,σ为Sigmoid 函数,C1、C2为实现扩大感受野及捕获高维特征空间信息得到的两分支卷积输出值,xl为当前通道的低维特征图。在进行图像分割时,注意力机制的引用可以更好的关注任务相关区域,提高模型的分割准确率。
融合后的注意力模块见图6所示,其中高维输出特征图经过通道注意力机制后进行上采样,再通过空间注意力模块与经过跳跃结构后低维特征1相乘,相乘之后的结果与经过上采样后高维特征融合,得到处理之后的低维特征2,通道注意力机制和空间注意力机制的融合可以使模型在学习过程中抑制无用特征信息表达。
图6 双注意力通道模块
为确保实验数据的有效性和准确性,本文所有实验均采用同一计算机进行实验完成,计算机的相关硬件配置及所用软件环境情况如表1所示:
表1 实验中计算机的硬件配置和软件环境
实验中所用到的花朵型植物数据集为Oxford 102flowers 见图7 所示,由于该数据集最初用于植物的识别领域,故本文对该数据集中的8189张图片进行手动分割,分割软件采用图像标注软件Labelme,叶片型植物数据集采用cvppp 数据集如图8 所示,由于该数据集中只有810 张已经分割好的图片,为提高模型的泛化能力,对已有的图片进行图像角度变换、翻转、尺度变换、对比度变换、添加噪声等[23]数据增强操作,将植物叶片数据集扩充为8870张。
图7 花朵部分数据集
图8 叶片部分数据集
为了确保模型的有效性,本文采用多指标来对分割结果进行评估。其中FN表示被模型错误的分为负例,实际是正例;FP为被模型错误的分为正例,实际是负例;TP为被模型正确的分为正例,实际为正例;TN为被模型正确的分为负例,实际为负例。
(1)像素准确率
像素准确率(Pixel accuracy,PA)是一种比较简单的评价指标,它表示的是像素被正确分类的个数与总像素的比值,即图像中像素被正确分类的百分比,像素准确率的表达式为:
(2)均交并比
均交并比(Mean Intersection over Union,MIOU)是对IOU 指标优化的结果,IOU 表示真实Label 值与预测值之间的交集同真实值与预测值之间并集的比值,而MIOU 是分别计算每个类的IOU,然后对所有类的IOU 求取均值,MIOU 被广泛的用于各种分割场景中。MIOU的表达式为:
(3)F1 score(Dice score)
F1 score 又称为Dice score,是统计学用来衡量二分类任务模型精确度的指标,其数学表达式为。
实验过程分为两个部分,分别为花朵型植物数据集以及叶片型植物数据集在改进后的U-Net 和FCN模型的对比情况,实验中使用的图片大小均为256×256×3,在每层卷积操作之后都使用批量归一化和Re-Lu 函数,在模型训练过程中使用Adam 优化器,初始学习率设置为2e-4,batch_size 设置为2,迭代次数为100次,参数设置见表2所示。
表2 训练过程部分超参数
(1)花朵型数据集各模型分割精度对比
图9 为花朵型数据集在FCN-8s、原始U-Net、Res-Unet、多尺度Res-Unet、多尺度Res-Att-Unet 模型训练过程中Loss值的变化情况对比。
从图9 可以看到在100次迭代范围内五条曲线的Loss值均经过持续下降趋于收敛,证明模型对于该场景的植物图像分割有效,其中多尺度Res-Att-Unet 模型在经过短暂的训练之后达到收敛,模型的训练时间短且模型训练过程Loss曲线稳定下降,模型稳定性及用时均优于其他模型。
图9 网络训练过程中各模型Loss值
表3为各训练模型最终在三种精度评价指标上的表现情况,由表可知U-Net的整体表现要优于FCN-8s模型,这是由于U-Net 独特的结构融合了植物图像的浅层轮廓信息和深层纹理信息,改进后的多尺度Res-Att-Unet模型像素准确率、MIOU、F1 score指标较原始U-Net网络分别提高0.1274、0.1209、0.1402。
表3 花朵型数据集在不同模型上的精度表现情况
表3表明改进后的模型在主体为花朵的植物数据集中取得较FCN-8s、原始U-Net模型更优的分割准确率。
现将测试图片输入已经训练好的模型中观测最终分割效果,各模型分割对比情况如图10所示,其中(a)为原始图像(b)原始图像对应图片的Label图(c)为FCN-8s模型分割图(d)为U-Net模型分割图像(e)为加入残差模块Res-Unet模型的分割效果图(f)为加入残差模块及多输入机制的多尺度Res-Unet模型的分割图(g)为加入残差模块、多尺度输入机制及双通道注意力机制的多尺度Res-Att-UNet模型的分割效果。
图10 各模型测试情况
观测图10,可以看到虽然FCN-8s模型融合了底层的特征信息,但是其对图像细节区域的分割仍十分粗糙,U-Net网络融合了各自通道的浅层信息,其分割效果虽优于FCN-8s模型,但由第一幅图像可以看出U-Net进行分割的过程中仍将叶子误分为花朵,在模型中加入残差结构和多尺度输入机制后该现象有明显好转但是部分细节信息表现仍欠佳,在引入双通道注意力机制后基本实现花朵主体部分的分割。第二张对于图像主体和背景颜色差异非常小的植物图片,原始U-Net模型和FCN-8s模型均将与分割主体颜色很相近的白云误分为花朵,优化后的模型该误分现象被有效避免。
(2)叶片型数据集各模型分割精度对比
项目后续的植物识别操作主要是对植物的主体部分进行特征识别,由于有的植物并没有花朵结构,所以对叶片型植物进行分割同样十分必要。现就叶片型植物在各模型上进行分割对比验证。图11为FCN-8s和多尺度Res-Att-Unet模型在训练过程中损失函数的变化情况。可以看到两条曲线在开始时损失值快速下降,当下降到一定程度曲线趋于平缓,证明模型在训练过程中均达到收敛,但是多尺度Res-Att-Unet模型收敛时间和最终的损失值均优于FCN-8s模型。
图11 FCN‐8s和改进U‐Net训练过程Loss值
表4为FCN经过三种不同上采样得到的模型与已改进的U-Net模型进行分割效果的对比情况。可以看到FCN-32s模型是直接将conv7层的特征图进行32倍上采样,其准确率分别为0.8719、0.7119、0.8986。对于FCN-16s的模型,将conv7进行一次卷积操作,得到的特征图的大小为conv7的2倍大小,此时2倍大小的conv7与pool4的特征图大小相同,将2×conv7与pool4进行拼接,并进行16倍的上采样后得到的分割准确率分别为0.9233、0.7284、0.9123。对于FCN-8s模型先将conv7进行4倍的上采样,pool4经过2倍的上采样,再将pool3、2×pool4、4×conv7进行拼接,最后增加一个8倍的上采样层得到和原始图片相同大小的图像。此时的准确率分别为0.9354、0.7389、0.9225。当在模型中增加多尺度残差双注意力机制后准确率则达到了0.9462、0.8232、0.9365。相比表现效果最佳的FCN-8s模型准确率分别提高0.0108、0.0843、0.014。
表4 叶片型植物数据集在不同模型上的精度表现情况
现将叶片测试图片分别输入训练好的FCN-8s、FCN-16s、FCN-32s 和多尺度Res-Att-Unet 模型得到图12。因为FCN 模型在进行像素分类的过程中没有充分考虑像素与像素之间的关系,其分割边缘存在明显锯齿状。采用多尺度Res-Att-Unet模型来进行叶片图像的分割,得到的叶片分割图像与Label 图像非常接近,这是因为多尺度Res-Att-Unet 模型在模型构建过程中融合了多层信息,且多尺度机制可以学习更加丰富的尺度信息,双通道注意力机制使模型更加专注图像分割主体,最终得到的分割图更加细腻精确。实验证明改进后的多尺度Res-Att-Unet模型在叶片型植物分割中同样取得不错的效果,达到预期分割要求。
图12 改进后的U‐Net与FCN三种模型的测试效果
本文从实际项目需求背景出发,考虑到无人机采集到的野外植物图片存在多尺度问题,以及目前的网络对于花朵植物和叶片型植物缺乏普适性,对比验证了U-Net 网络和FCN 网络在两部分数据集上的表现,对表现较优的U-Net 模型做出如下改进,针对其网络层数少导致分割精度低的问题,在网络中加入残差块;其次野外植物拍摄的多尺度问题通过带监督的多尺度模块得以解决;最后由于U-Net 网络自身的不足在融合底层有利信息的同时也融合到无关特征的问题,在网络解码部分加入双通道注意力机制。最终改进的多尺度Res-Att-Unet模型无论对于花朵型植物还是叶片型植物都具有不错的分割效果,证明了该分割算法在本项目背景下具有一定的可行性和有效性。
接下来的工作进一步探究将项目中无人机的植物图片自主采集、双目标定算法确定植物的具体位置、本文的植物图片分割、后续植物种类的识别这四个部分更好的结合起来,实现全自动植物种类识别,另外目前对于卷积神经网络的训练往往都需要大量的数据集进行深监督,但是在很多植物生长的环境中获取大量样本本身不是一件容易的事,在以后将针对小样本数据进行神经网络模型训练研究。