基于改进FCN-8s的灵武长枣图像分割方法

2021-05-12 06:21薛君蕊王昱潭曲爱丽张加欣邢振伟魏海岩孙浩伟
农业工程学报 2021年5期
关键词:网络结构尺度准确率

薛君蕊,王昱潭,曲爱丽,张加欣,邢振伟,魏海岩,孙浩伟

基于改进FCN-8s的灵武长枣图像分割方法

薛君蕊,王昱潭※,曲爱丽,张加欣,邢振伟,魏海岩,孙浩伟

(宁夏大学机械工程学院,银川 750021)

针对不同成熟度灵武长枣图像中多尺度长枣目标的分割问题,该研究提出了一种基于改进FCN-8s的灵武长枣图像分割方法。首先,建立包含不同成熟度灵武长枣图像的数据集。其次,提出一个多尺度特征提取模块,该模块以3×3卷积为主分支,增加1×1卷积和5×5深度可分离卷积作为辅助分支,以提取灵武长枣图像中的多尺度特征。然后,用多尺度特征提取模块替换FCN-8s中的3×3卷积,又对FCN-8s网络结构做了一定的改进,得到了改进FCN-8s。最后,在灵武长枣数据集上进行试验,结果表明,改进FCN-8s的枣类交并比、平均交并比、像素准确率、召回率和像素准确率、召回率的调和平均值1分数分别达到了93.50%、96.41%、98.44%、97.86%和98.15%,比原FCN-8s的各项评价指标分别高出了11.31、6.20、1.51、5.21和3.14个百分点。网络参数量为5.37×106,分割速度为16.20帧/s。改进FCN-8s满足了灵武长枣智能化采摘机器人对视觉识别系统的要求,为实现灵武长枣的智能化采摘提供了技术支持。

语义分割;图像识别;图像分类;FCN-8s;深度可分离卷积;灵武长枣图像

0 引 言

灵武长枣是宁夏回族自治区重要的经济林果[1],目前主要依靠人工进行采摘,存在采摘效率低、劳动强度大等问题[2]。为了更好地发展灵武长枣产业,自动化和智能化采摘成为当务之急。为解决这一问题,首先要解决的就是基于机器视觉的灵武长枣图像分割问题。

针对灵武长枣图像的分割问题,许多学者已经进行了大量研究。文献[3]根据灵武长枣颜色与背景的差异,通过提取灵武长枣图像的色调信息,提出一种基于最大熵的灵武长枣图像分割方法,分割准确率达到了89.60%,处理速度为1.313 2 s/幅。文献[4]根据灵武长枣在不同环境下RGB颜色空间中颜色分量的不同,提出一种基于R分量的灵武长枣图像色调信息提取模型,以增大灵武长枣与背景之间的差异,分割准确率达到了92.688 3%,处理速度为1.310 7 s/幅。文献[5]针对传统分水岭算法的过分割问题,通过使用遗传算法优化阈值,提出一种基于分水岭算法的灵武长枣图像分割方法,分割准确率达到了89.99%。文献[6]针对灵武长枣图像中长枣目标存在粘连和遮挡等问题,根据灵武长枣的外形特征,提出一种基于几何特征的灵武长枣图像分割方法,分割准确率达到了92.31%。尽管以上灵武长枣图像分割方法都取得了较好的分割效果,但仍存在一些问题。文献[3-4]均通过使用长枣目标和背景的颜色差异进行图像分割,但该方法只能分割出长枣目标中的红色部分,对于绿色部分分割效果极差。文献[5-6]提出的灵武长枣图像分割方法也均是基于表面全红的长枣目标而言的。根据文献[7]中的灵武长枣成熟度演化模型可知,只有十成熟的灵武长枣表面才呈现全红。为保证灵武长枣的储存和运输,八成熟时最适宜采摘,而此时长枣表面还存在较多的绿色部分,故以上研究有很大的局限性。如何针对不同成熟度灵武长枣图像进行有效地分割是亟待解决的问题。

近年来,基于深度学习的语义分割方法被广泛应用到了多个领域之中[8-16]。在自然图像分割方面也取得了较大进展[17-20],尤其在植物果实分割方面,文献[21]针对重叠苹果的分割问题,提出一种基于优化掩膜R-CNN的苹果图像分割方法,结合残差网络ResNet和稠密连接网络DenseNet作为特征提取的骨干网络,实现了对重叠苹果目标的分割,平均准确率和召回率分别达到了97.31%和95.70%。文献[22]针对复杂果园环境下的青苹果分割问题,提出一种基于小样本数据集的集成U-Net青苹果分割方法,平均准确率和召回率分别达到了97.91%和96.23%。文献[23]提出一种基于掩膜R-CNN的橙子分割方法,在RGB图像中加入HSV数据作为网络模型的输入,准确率和召回率分别达到了97.54%和81.28%。尽管以上研究都取得了很好的分割效果,但都是针对苹果和橙子等个体较大的果实而言,并不适用于灵武长枣小目标分割。且由于各个长枣生长位置不同,采集到的图像中存在大小不同的长枣目标,如何提高网络模型提取灵武长枣图像中多尺度特征的能力,对于提升分割效果而言具有十分重要的意义。

考虑到灵武长枣智能化采摘机器人在实际作业时,工作环境复杂,采摘速度并不会很快,对视觉识别系统而言,分割图像的网络尽量小而浅,保证在一定的分割速度下,尽量有较高的分割精度,而全卷积网络FCN-8s[24]恰好符合这一要求。因此,尝试使用FCN-8s作为基础网络对不同成熟度灵武长枣图像进行分割。但FCN-8s仍存在以下问题:1)网络结构中的3×3标准卷积只能提取单一尺度信息,无法满足灵武长枣图像中多尺度长枣目标分割任务的要求;2)网络结构参数量较多。针对以上2个问题,该研究对FCN-8s网络结构进行了一定改进。

综上,传统的灵武长枣图像分割方法无法满足不同成熟度的灵武长枣图像分割,且无法利用图像中丰富的多尺度信息,因此该研究提出一种基于改进FCN-8s的灵武长枣图像分割方法,保证在一定分割速度下,提高灵武长枣图像的分割精度,以解决不同成熟度灵武长枣图像中多尺度长枣目标的分割问题,为灵武长枣智能化采摘机器人中的视觉识别系统提供理论基础和技术保证。

1 材料与方法

1.1 图像采集与数据集构建

图像采集地点位于宁夏回族自治区灵武市绍伟农牧专业合作社(106°20′E,38°8′N)。采集设备为FUJIFILM FinePix S1800。在晴天、阴天和雨天等不同天气状态下采集图像。为满足本研究中的图像分割方法适用于不同成熟度灵武长枣图像分割的要求,采集的图像包括各个成熟度下的灵武长枣,共242张,初始分辨率为4 000像素×3 000像素,为提高网络模型的训练效率,将图像分辨率改为像素1 280像素×960像素,以JPG格式储存。

灵武长枣图像的标注使用Labelme软件完成,通过人工标注灵武长枣边界轮廓,如图1所示,将标注好的图像以JPG格式储存在标签文件夹下。从采集到的242张灵武长枣图像中,随机选取196张图像作为训练集,剩余的46张图像作为测试集。

图1 标记后的灵武长枣图像

1.2 改进FCN-8s网络结构

1.2.1 多尺度特征提取模块

由于单个3×3卷积只能提取3×3大小的特征,对于其他尺度的特征无法提取,而灵武长枣图像中存在大小不同的长枣目标,单个3×3卷积无法满足提取多尺度特征的要求,因此,为提高FCN-8s网络结构提取灵武长枣图像中多尺度特征的能力,提出了一个多尺度特征提取模块。如图2所示,该模块以3×3标准卷积为主分支,分别增加1×1卷积和5×5卷积作为辅助分支。这样一来,不仅能提取3×3大小尺度的特征,同样也能提取到1×1和5×5大小尺度的特征,使得提取特征的能力增强,提高了对于图像中信息的利用程度,在拓宽非线性层的同时,增强了非线性表达能力。又考虑到新增2条辅助分支后会引入大量参数,因此将5×5标准卷积改为深度可分离卷积[25]。其中,深度可分离卷积是指将卷积过程分为深度卷积和点卷积2步,针对每个通道使用单个滤波器进行滤波之后,又通过1×1点卷积实现了通道间的融合,以达到减少参数量的目的。最后,通过使用1×1卷积实现1×1卷积、3×3卷积和5×5深度可分离卷积3条分支输出结果之间的融合。其中,图2中的“BN”代表批量标准化[26],“ReLU”代表激活函数为ReLU。

1.2.2 建立改进FCN-8s网络结构

本研究中采用FCN-8s的网络框架,将提出的多尺度特征提取模块替代3×3标准卷积以提取灵武长枣图像中的多尺度信息。如图3所示,为改进FCN-8s的网络框架。

改进FCN-8s网络结构共采用了13个多尺度特征提取模块来提取灵武长枣图像中的特征。对于每一层网络而言,多尺度特征提取模块中3×3标准卷积作为主分支,1×1标准卷积和5×5深度可分离卷积作为辅助分支的方式,能够加深非线性层,增强输入与输出之间的非线性关系,同时又能够提高提取灵武长枣图像中不同空间特征信息的能力。对于整个网络结构而言,提出的多尺度特征提取模块能够拓宽网络宽度,增加下采样过程中尺度特征的抽象性,使得整个网络能够提取到灵武长枣图像中更多的语义信息。

与FCN-8s不同的是,为提高网络模型的效率,降低网络结构的参数量,在不影响分割精度的前提下,改进FCN-8s网络结构去掉了原FCN-8s中的第14和15个卷积层,在第5次下采样后直接进行了上采样。除此之外,考虑到上文中提出的多尺度特征提取模块有3条分支,拓宽了整个网络结构的宽度,因此将改进FCN-8s网络结构中每层输出特征图的通道数减为原始通道数的一半。

与FCN-8s相同的是,改进FCN-8s也采用了跳跃结构。网络结构中第5次下采样后产生的特征图经上采样扩大2倍后得到了分辨率为80像素×60像素的特征图,与第4次下采样后产生的特征图融合之后,又经上采样扩大2倍后得到了分辨率为160像素×120像素的特征图,又与第3次下采样后产生的特征图融合之后,再经上采样扩大8倍后得到了分辨率为1 280像素×960像素的特征图,从而恢复到与输入图像相同的分辨率,完成了整个输出图像的尺寸还原。总而言之,将由不同池化层得到的特征图经上采样后的结果融合起来的方式有利于补充细节信息,使不同成熟灵武长枣图像的分割结果更为精确。

2 试验与结果分析

2.1 试验设备

试验时使用的工作站运行内存为64 G,CPU型号为至强Xeon-金牌5118,配备Nvidia TitanX GPU,操作系统为Ubuntu16.04,CUDA版本为10.0.130,CUDNN版本为7.6.4。在PyTorch深度学习框架下使用Python编程语言实现。

2.2 模型评价指标

本研究中选用网络参数量、枣类交并比IoU、平均交并比MIoU、像素准确率PA、召回率Recall、1分数和分割速度对网络结构的性能进行评价。在该研究中,枣类交并比IoU是指网络结构对枣类预测结果和真实值的交集与并集的比值,平均交并比MIoU是指枣类交并比和背景类交并比的平均值,像素准确率PA是指被正确分类的像素数占所有预测为该类别像素数的比例,召回率Recall是指被正确分类的像素数占所有实际为该类别像素数的比例,1分数是用来衡量二分类模型精确度的一个指标,它同时兼顾了准确率和召回率,分割速度是指网络模型每秒计算的图像帧数。各评价指标计算公式如下:

式中+1表示种类别及一种背景,T表示正确分割的像素数,F表示误分割的像素数,F表示漏分割的像素数。

2.3 试验参数设置及训练过程分析

网络训练时学习率设置为0.002 5,批量设置为2,运行迭代次数为1 000次,使用Adam算法[27]优化,训练过程中使用的损失函数为交叉熵损失函数loss,公式如下:

式中为训练过程中一个批量中像素数的总和,为类别数,本研究中将灵武长枣图像分为枣类和背景类,故为2。y为像素点对类别的标注,若为枣类即为1,背景类即为0。ŷ为像素点为类别的概率值。

改进FCN-8s训练损失和平均交并比曲线如图4所示,随着迭代次数的增加,损失值逐渐降低,平均交并比MIoU的值逐渐增大,变化量均逐渐减小。当迭代次数达到800次左右时,损失值和平均交并比MIoU的值均基本趋于平稳,表明此时模型较为稳定,当迭代次数达到1 000次时,损失值基本收敛,平均交并比MIoU的值较为稳定,此时模型已经获得了较好的训练效果。

2.4 试验结果分析

在灵武长枣数据集上进行试验,FCN-8s、SegNet[28]、ENet[29]、PSPNet[30]和改进FCN-8s的分割结果如图5所示,基于分水岭算法、基于几何特征算法、FCN-8s、SegNet、ENet、PSPNet和改进FCN-8s的各评价指标结果如表1所示。

表1 灵武长枣数据集测试结果

从图5中可以看出,改进FCN-8s和其他的网络模型都完成了对不同成熟度灵武长枣图像的分割任务,无论是针对灵武长枣表面的红色部分还是绿色部分,都能够取得较好的分割效果。

FCN-8s对灵武长枣图像中较大和较小长枣的分割效果较好,但是对中等尺度大小和极小长枣的分割效果较差,如图5橙色方框框选内容所示,FCN-8s并未将图像1(图5c)和图像3(图5c)中的中等尺度大小长枣分割出来,且对于图像2(图5c)中右上角极小长枣的分割效果较差,被分割出来的长枣边界较为模糊。SegNet在FCN的基础上做了一定的改进,解码器使用对应编码器最大池化中的索引来进行非线性上采样操作,但仅仅只是减少了网络结构的参数量,网络分割效果并未提高很多,如图5所示,SegNet对于中等尺度大小长枣的分割效果甚至不如FCN-8s,但对图像2 (图5d)中极小长枣的分割效果略好于FCN-8s,被分割出来的长枣边界也较为模糊。ENet是一种轻量化图像语义分割网络,在模型大小和分割速度上都具有较大的优势。ENet整体分割效果要略优于FCN-8s和SegNet,分割出来的长枣边界轮廓较FCN-8s和SegNet而言更为清晰,分割出来的长枣表面也无黑斑存在,但是同样未能很好地将中等尺度大小和极小长枣分割出来。由于以上网络均未考虑对图像中多尺度信息的利用,因此对灵武长枣图像中多尺度长枣目标的分割效果均较差。PSPNet通过使用PSP模块来获取特征图中丰富的多尺度信息,使得整个网络结构能够获得更为精确的分割结果。如图5所示,PSPNet的分割效果明显优于FCN-8s、SegNet和ENet,对各个尺度大小的长枣目标都有较好的分割效果,被分割出来的长枣边界轮廓也较为清晰。但是分割极小长枣的能力仍较差,并未将图像2(图5f)中右上角的极小长枣完全分割出来,且部分被分割出来的长枣表面仍有黑斑存在。改进FCN-8s利用多尺度特征提取模块来提取灵武长枣图像中丰富的多尺度信息,如图5所示,无论是对较大还是较小的长枣目标,亦或是中等尺度大小和极小的长枣目标,均能够表现出较好的分割效果,被分割出来的长枣边界轮廓较为平滑且清晰。

总体来看,改进FCN-8s网络结构对灵武长枣图像中多尺度目标的分割效果较好,尤其是在细节处理方面,均强于其他网络结构。

由于传统的灵武长枣图像分割方法对长枣表面的绿色部分分割效果极差,具有很大的局限性,而基于深度学习的语义分割方法可以通过学习灵武长枣图像中的不同特征信息来解决这一问题,因此如表1所示,FCN-8s、SegNet和ENet等基于深度学习的语义分割方法的各评价指标均优于传统的灵武长枣图像分割方法。

针对FCN-8s提取灵武长枣图像多尺度特征的能力较弱这一问题,利用以3×3卷积为主分支,1×1卷积和5×5深度可分离卷积为辅助分支的多尺度特征提取模块来提取灵武长枣图像中的多尺度特征,改进FCN-8s的网络性能得到了很大提升,枣类交并比IoU、平均交并比MIoU、像素准确率PA、召回率Recall和1分数分别比FCN-8s高出了11.31%、6.20%、1.51%、5.21%和3.14%。对FCN-8s网络结构调整和改进后,最终改进FCN-8s的参数量仅有5.37×106,分割速度为FCN-8s的4.75倍。

SegNet是基于FCN改进后得到的网络模型,它使用最大池化中的索引来进行非线性上采样操作,因此网络参数量相比于FCN-8s而言大大降低。但是与改进FCN-8s相比,网络结构参数量仍然较多,而且枣类交并比IoU、平均交并比MIoU、像素准确率PA、召回率Recall和1分数分别比改进FCN-8s低5.97%、3.29%、2.08%、1.51%和1.80%,分割速度仅为改进FCN-8s的1/5左右。ENet是一个轻量型网络,在网络参数量和分割速度方面有较大优势。ENet的枣类交并比IoU、平均交并比MIoU、像素准确率PA、召回率Recall和1分数分别比改进FCN-8s网络结构低4.98%、2.73%、1.74%、1.23%和1.49%,分割速度仅1.78帧/s。尽管ENet的网络结构参数量较少且分割速度较快,达到了32.81帧/s,但是整体而言,改进FCN-8s的分割效果要优于ENet的分割效果,更符合不同成熟度的灵武长枣图像分割任务的要求。PSPNet引入PSP模块提取灵武长枣图像中的多尺度特征,分割效果优于FCN-8s、SegNet和ENet,但除召回率Recall略高于改进FCN-8s以外,枣类交并比IoU、平均交并比MIoU、像素准确率PA和1分数均低于改进FCN-8s,且参数量为改进FCN-8s的12.23倍,分割速度过慢,仅为1.33帧/s。

综上,无论是与传统的灵武长枣图像分割方法,还是FCN-8s、SegNet和ENet等基于深度学习的语义分割方法相比,改进FCN-8s在各评价指标上均具有较大优势,满足了不同成熟度的灵武长枣图像分割任务保持在小而浅的网络结构和一定的分割速度下,具有较高分割精度的要求。

3 结 论

1)针对传统灵武长枣图像分割方法对长枣表面绿色部分分割效果极差和FCN-8s网络结构无法充分利用图像中多尺度信息及参数量较多的问题,提出了一种基于改进FCN-8s的灵武长枣图像分割方法,为灵武长枣智能化采摘提供了技术支持。

2)在灵武长枣数据集上的试验结果表明,改进FCN-8s的枣类交并比IoU、平均交并比MIoU、像素准确率PA、召回率Recall和1分数分别达到了93.50%、96.41%、98.44%、97.86%和98.15%,网络结构参数量为5.37 M,分割速度为16.20帧/s,比原FCN-8s的枣类交并比IoU、平均交并比MIoU、像素准确率PA、召回率Recall和1分数分别高出了11.31、6.20、1.51、5.21和3.14个百分点,网络结构参数量降低了128.63M,分割速度提高了12.79帧/s。

本研究提出的基于改进FCN-8s的灵武长枣图像分割方法解决了不同成熟度灵武长枣图像中多尺度长枣目标的分割问题,改进FCN-8s的网络结构小而浅,能保证在一定的分割速度下,达到较高的分割精度,满足了灵武长枣智能化采摘机器人对视觉识别系统的要求,为实现灵武长枣智能化采摘奠定了基础。

[1]朱丽燕. 宁夏灵武长枣产业发展的对策建议[J]. 时代经贸,2020(28):36-37.

[2]王昱潭,朱超伟,赵琛,等. 基于Faster R-CNN的灵武长枣图像检测方法[J]. 计算机工程与应用,2021,57(4):216-224.

Wang Yutan, Zhu Chaowei, Zhao Chen, et al. Image detection method of Lingwu long jujube based on faster R-CNN[J]. Computer Engineering and Applications, 2021, 57(4): 216-224. (in Chinese with English abstract)

[3]Wang Yutan, Dai Yingpeng, Xue Junrui, et al. Research of segmentation method on color image of Lingwu long jujubes based on the maximum entropy[J]. Eurasip Journal on Image & Video Processing, 2017, 2017(1): 34.

[4]Dai Yingpeng, Wang Yutan, Xue Junrui, et al. Research of segmentation method on image of Lingwu long jujubes based on a new extraction model of hue[J]. IEEE Sensors Journal, 2017, 17(18): 6029-6036.

[5]刘向南,王昱潭,赵琛,等. 基于分水岭算法的灵武长枣图像分割方法研究[J]. 计算机工程与应用,2018,910(15):174-180.

Liu Xiangnan, Wang Yutan, Zhao Chen, et al. Research on image segmentation method of Lingwu long jujubes based on watershed[J]. Computer Engineering and Applications, 2018, 54(15): 169-175. (in Chinese with English abstract)

[6]赵琛,王昱潭,朱超伟. 基于几何特征的灵武长枣图像分割算法[J]. 计算机工程与应用,2019,55(15):204-212.

Zhao Chen, Wang Yutan, Zhu Chaowei. Lingwu long jujubes image segmentation algorithm based on geometric features[J]. Computer Engineering and Applications, 2019, 55(15): 204-212. (in Chinese with English abstract)

[7]王昱潭. 基于机器视觉的灵武长枣定位与成熟度判别方法研究[D]. 北京:北京林业大学,2014.

Wang Yutan. Research on Methods of Lingwu Long Jujubes’ Localization and Maturity Recognition Based on Machine Vision[D]. Beijing: Beijing Forestry University, 2014. (in Chinese with English abstract)

[8]Qi Yuankai, Zhang Shenping, Qin Lei, et al. Hedged deep tracking [C]// Computer Vision & Pattern Recognition. IEEE, 2016: 4303-4311.

[9]Zhang Shenping, Qi Yuankai, Jiang Feng, et al. Point-to-Set distance metric learning on deep representations for visual tracking[J]. Transactions on Intelligent Transportation Systems, 2017, 19(1): 187-198.

[10]Brossard Martin, Bonnabel Silvere. Learning wheel odometry and IMU Errors for localization[C]//2019 International Conference on Robotics and Automation (ICRA). Montreal: IEEE, 2019: 291-297.

[11]Bewley Alex, Rigley Jessica, Liu Yuxuan, et al. Learning to drive from Simulation without real world labels[C]//2019 International Conference on Robotics and Automation (ICRA). Montreal :IEEE, 2019: 4818-4824.

[12]Zhao Amy, Balakrishnan Guha, Durand Fredo, et al. Data augmentation using learned transformations for one-shot medical image segmentation[C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 8535-8545.

[13]陈进,韩梦娜,练毅,等. 基于 U-Net 模型的含杂水稻籽粒图像分割[J]. 农业工程学报,2020,36(10):174-180.

Chen Jin, Han Mengna, Lian Yi, et al. Segmentation of impurity rice grain images based on U-Net model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(10): 174-180. (in Chinese with English abstract)

[14]杨阿庆,薛月菊,黄华盛,等. 基于全卷积网络的哺乳母猪图像分割[J]. 农业工程学报,2017,33(23):219-225.

Yang Aqing, Xue Yueju, Huang Huasheng, et al. Lactating sow image segmentation based on fully convolutional networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(23): 219-225. (in Chinese with English abstract)

[15]Gokay Karayegen, Mehmet Feyzi Aksahin. Brain tumor prediction on MR images with semantic segmentation by using deep learning network and 3D imaging of tumor region[J]. Biomedical Signal Processing and Control, 2021, 66(102458): 1746-8094.

[16]Nasser Alalwan, Amr Abozeid, AbdAllah A ElHabshy, et al. Efficient 3D deep learning model for medical image semantic segmentation[J]. Alexandria Engineering Journal, 2021, 60(1): 1231-1239.

[17]段凌凤,熊雄,刘谦,等. 基于深度全卷积神经网络的大田稻穗分割[J]. 农业工程学报,2018,34(12):202-209.

Duan Lingfeng, Xiong Xiong, Liu Qian, et al. Field rice panicle segmentation based on deep full convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(12): 202-209. (in Chinese with English abstract)

[18]刘立波,程晓龙,赖军臣. 基于改进全卷积网络的棉田冠层图像分割方法[J]. 农业工程学报,2018,34(12):193-201.

Liu Libo, Cheng Xiaolong, Lai Junchen. Segmentation method for cotton canopy image based on improved fully convolutional network model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(12): 193-201. (in Chinese with English abstract)

[19]张善文,王振,王祖良. 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法[J]. 农业工程学报,2020,36(16):149-157.

Zhang Shanwen, Wang Zhen, Wang Zuliang. Method for image segmentation of cucumber disease leaves based on multi-scale fusion convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(16): 149-157. (in Chinese with English abstract)

[20]Ni Xueping, Li Changying, Jiang Huanyu, et al. Deep learning image segmentation and extraction of blueberry fruit traits associated with harvestability and yield[J]. Horticulture Research, 2020,7(1): 110-124.

[21]Jia Weikuan, Tian Yuyu, Luo Rong, et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot[J]. Computers and Electronics in Agriculture, 2020, 172: 105380.

[22]Li Qianwen, Jia Weikuan, Sun Meili, et al. A novel green apple segmentation algorithm based on ensemble U-Net under complex orchard environment[J]. Computers and Electronics in Agriculture, 2021, 180: 105900.

[23]Ganesh P, Volle K, Burks T F, et al. Deep orange: Mask R-CNN based orange detection and segmentation[J]. IFAC-PapersOnLine, 2019, 52(30): 70-75.

[24]Long Jonathan, Shelhamer Evan, Darrell Trevor. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4): 640-651.

[25]Howard Andrew, Zhu Menglong, Chen Bo, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications. 2017.in arXiv preprint arXiv:1704.04861v1.

[26]Ioffe Sergey, Szegedy Christian. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. JMLR.org, 2015. arXiv:1502.03167

[27]Kingma Diederik, Ba Jimmy. Adam: A method for stochastic optimization[J]. Computer Science, 2014. in arXiv preprint arXiv: 1412.6980.

[28]Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2418-2495.

[29]Paszke Adam, Chaurasia Abhishek, Kim Sangpil, et al. ENet: A deep neural network architecture for real-time semantic segmentation. 2016. in arXiv preprint arXiv: 1606.02147v1.

[30]Zhao Hengshuang, Shi Jianping, Qi Xiaojuan, et al. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Hawaii: IEEE, 2017: 6230-6239.

Image segmentation method for Lingwu long jujubes based on improved FCN-8s

Xue Junrui, Wang Yutan※, Qu Aili, Zhang Jiaxin, Xing Zhenwei, Wei Haiyan, Sun Haowei

(750021,)

Lingwu long jujube is commonly referred to as Chinese date, one of the special advantage fruits in Ningxia Hui Autonomous Region. Currently, image segmentation has widely been used to identify the ripeness of Lingwu long jujubes in modern agriculture. Traditional image segmentation can achieve better segmentation effects for the red part of Lingwu long jujubes, but not for the green part. Consequently, deep learning can contribute to multi-scale object segmentation for the jujubes with various ripeness. Besides, the improved network models can be expected to extract multi-scale features from the different sizes of objects in Lingwu long jujubes images. In the actual operation, a visual recognition system needs to meet the execution time of an actuator in a picking robot under a complex working environment. Correspondingly, the network model of image segmentation is required to be small, shallow, and high accuracy at a relatively low picking speed. In this study, an improved FCN-8s was selected as the basic network for the image segmentation of Lingwu long jujubes with different ripeness. Firstly, the image dataset of Lingwu long jujubes was established, including 196 training and 46 test images. Since the initial resolution of collected images was 4 000×3 000, the resolution of 1 280×960 was used for training, in order to improve the training efficiency. Then, a multi-scale feature extract module was proposed to extract features beyond 3×3 scale. Specifically, a 1×1 convolution and a 5×5 convolution were added into a single 3×3 standard convolution in FCN-8s. A depth-wise separable convolution was applied to the 5×5 convolution to reduce parameters, considering that numerous parameters were introduced after adding two auxiliary branches. As such, the 3×3 standard convolution in FCN-8s was replaced with the proposed module. Some improvements were made on FCN-8s to reduce the parameters of the network for high efficiency. The 14th and 15th convolution layers were removed from the original FCN-8s to maintain the segmentation accuracy, and then the up-sampling operation was directly performed after the 5th down sampling operation. In addition, the half channels were reduced in the output feature maps for each layer in the multi-scale feature extraction module with three branches, compared with the original one. Therefore, the improved FCN-8s was obtained to increase the width of the whole network. The experimental results on Lingwu long jujubes dataset showed that the intersection over union, mean intersection over union, precision accuracy, recall rate, and F1 score were 93.50%, 96.41%, 98.44%, 97.86%, and 98.15%, respectively, which were 11.31, 6.20, 1.51, 5.21, and 3.14 percentage points higher than the original FCN-8s. The network parameters of the improved FCN-8s were 5.37 million, and the segmentation speed was 16.20 frames/s. Compared with the SegNet, ENet, and PSPNet, the improved FCN-8s presented remarkable advantages for the high requirements of visual recognition in the picking robot for Lingwu long jujubes.

semantic segmentation; image recognition; image classification; FCN-8s; depthwise separable convolutions; Lingwu long jujubes images

薛君蕊,王昱潭,曲爱丽,等. 基于改进FCN-8s的灵武长枣图像分割方法[J]. 农业工程学报,2021,37(5):191-197.doi:10.11975/j.issn.1002-6819.2021.05.022 http://www.tcsae.org

Xue Junrui, Wang Yutan, Qu Aili, et al. Image segmentation method for Lingwu long jujubes based on improved FCN-8s[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(5): 191-197. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.05.022 http://www.tcsae.org

2020-12-30

2021-02-28

国家自然科学基金(No.31660239)

薛君蕊,研究方向为图像处理。Email:599265213@qq.com

王昱潭,教授,研究方向为图像处理和农业装备自动化与智能化。Email:wang_yt1108@163.com

10.11975/j.issn.1002-6819.2021.05.022

TP391

A

1002-6819(2021)-05-0191-07

猜你喜欢
网络结构尺度准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
快递网络结构研究进展
财产的五大尺度和五重应对
基于AutoML的保护区物种识别①
汽车零部件供应网络结构
宇宙的尺度
非常规突发事件跨组织合作网络结构演化机理研究