摘 要:针对目前槟榔点卤工艺中卤水量不好精确控制的问题,文章提出采用深度学习的方式对槟榔内轮廓进行语义分割,分离出内轮廓并计算出相应面积,最后推算出比较准确的卤水量。其中,网络模型以UNet为基础模型,考虑到模型的通用性,将UNet的encoder特征提取部分替换成VGG16网络。实验结果表明,该网络模型对于槟榔内外腔的分割效果很好,分割精度达到97%以上,性能优于不进行迁移学习的UNet。
关键词:语义分割;UNet;VGG16;槟榔轮廓分割
中图分类号:TP391.4 文献标识码:A 文章编号:2096-4706(2023)05-0149-04
Application of Areca Nut Contour Image Segmentation Algorithm Based on Deep Learning
CHENG Pan
(Sankyo-HZ Precision Co., Ltd., Huizhou 516006, China)
Abstract: Aiming at the problem that the brine amount is not well controlled accurately in the process of adding brine to areca nut at present, this paper proposes to use the deep learning method to perform semantic segmentation on the inner contour of areca nut, after separating the inner contour and calculating the corresponding area, and it finally calculates the more accurate brine amount. The network model is based on UNet model. Considering the universality of the model, the encoder feature extraction part of UNet is replaced by VGG16 network. The experimental results show that the network model has a good segmentation effect for the internal and external cavities of areca nut, with the segmentation accuracy of more than 97%, and its performance is better than that of UNet without migration learning.
Keywords: semantic segmentation; UNet; VGG16; areca nut contour segmentation
0 引 言
目前我国槟榔产品主要以青果和烟果为主,其生产流程主要工艺包括选籽、切片、去芯、点卤、包装等工艺。其中,点卤工艺为其中一环。由于槟榔本身差异性很大,设备很难准确控制卤水量,而鹵水量的准确度直接影响槟榔的食用口感,导致该工艺主要以人工点卤为主。通过机器视觉技术分析槟榔内轮廓的面积,进而推算出需要的卤水量,成为自动化方向的首选。然而,槟榔本身形态多变,内外轮廓特征的准确分割成为一大难题。
传统的图像分割算法往往基于阈值、区域/边缘、纹理、聚类等,算法相对简单,但是效率低,准确度不高。近年来,随着计算机视觉技术的兴起,特别是涉及深度学习非常关键的算法、算力、数据的不断发展,基于计算机图形学和机器学习的图像分割技术受到了人们的广泛关注。其中,卷积神经网络(CNN)是图像分割或分类任务的佼佼者[1-3]。2014年Simonyan等[4]提出基于小卷积核和池化核的VGG卷积神经网络模型,该模型在2014年的ImageNet挑战赛(ILSVRC -2014)中获得了亚军,后被广泛应用于分类和定位任务中。2015年,Ronneberger[5]等提出基于Encoder-Decoder结构的UNet网络模型。跳跃连接(Skip-Connection)有别于全卷积网络[6](Fully Convolutional Network,FCN)采用的加操作(Summation),UNet采用堆叠操作(Concatenation),这样的结构使得网络在上采样(Decoder)阶段更加利于空间信息等特征的保留。由于UNet的下采样阶段(Encoder)的网络结构与VGG高度相似,考虑到可以使用VGG预训练的成熟模型来进行迁移学习,从而起到加速UNet的训练的效果。结合VGG与UNet网络模型,2018年,Iglovikov等[7]演示了如何通过使用预训练的编码器模型来改进UNet的架构,其中采用预训练权重的VGG-UNet网络模型的语义分割效果明显优于没有预训练权重的模型。
UNet网络模型及其变种模型通常用在医学图像、遥感图像等的语义分割上,并取得了非常好的效果。2016年,Faustod等[8]提出了一种基于体积、全卷积神经网络的3D图像分割方法V-Net。2018年Zongwei Zhou等[9]提出医学图像分割架构UNet++,其本质上是一个深度监督的Encoder-Decoder网络,其中Encoder与Decoder子网络通过一系列嵌套的密集跳跃路径连接。重新设计的跳跃路径旨在减少编码器和解码器子网络的特征图之间的语义差距。2021年,Ali Nawaz等[10]提出用于脑肿瘤分割的VGG19-UNet和用于生存预测的集成学习模型。
考慮到医学图像与槟榔图像的共性:语义较为简单和结构相对固定,本文采用VGG-UNet网络模型,用于槟榔图片的语义分割任务中。其中,以UNet为基础模型,下采样部分用VGG16代替。
1 VGG-UNet网络结构
VGG-UNet网络可以看作UNet网络的一种改进,而UNet本身也可以归类为FCN网络。典型的UNet包括下采样和上采样两部分,分别对应Encoder和Decoder。从结构上看,本文使用的网络与UNet网络主要改进在于:(1)下采样部分采用VGG16网络结构,但是去掉了全连接层;(2)上采样部分采用两倍上采样+拼接,单层输出与跳跃连接输入的通道数保持一致。具体网络结构如图1所示。
本文的VGG-UNet网络中,卷积操作用于特征提取,绝大部分使用的卷积核(kernel)大小为3×3,步长(striding)为1,各边缘填充(padding)等于1,这样保证了卷积前后的长宽不变;最大池化操作使用2倍下采样,用于降低维度和减少噪声。反卷积操作采用2倍上采样,用于维度的恢复。跳跃连接则主要用于底层的空间位置信息与深层特征的语义信息的融合,减少空间信息的丢失。具体流程如下,如表1所示。
(1)Input:输入图像大小为512×512×3。
(2)下采样阶段:
1)Block 1:输入图像大小为512×512×3,使用大小为3×3的64通道卷积核进行2次卷积,再进行减半池化;
2)Block 2:输入图像大小为256×256×64,使用大小为3×3的128通道卷积核进行2次卷积,再进行减半池化;
3)Block 3:输入图像大小为128×128×128,使用大小为3×3的256通道卷积核进行3次卷积,再进行减半池化;
4)Block 4:输入图像大小为64×64×256,使用大小为3×3的512通道卷积核进行3次卷积,再进行减半池化;
5)Block 5:输入图像大小为32×32×512,使用大小为3×3的512通道卷积核进行3次卷积。
(3)上采样阶段:
1)Block 1:输入图像大小为32×32×512,采用2倍反卷积+拼接,然后使用大小为3×3的512通道卷积核进行2次卷积;
2)Block 2:输入图像大小为64×64×512,采用2倍反卷积+拼接,然后使用大小为3×3的256通道卷积核进行2次卷积;
3)Block 3:输入图像大小为128×128×256,采用2倍反卷积+拼接,然后使用大小为3×3的128通道卷积核进行2次卷积;
4)Block 4:输入图像大小为256×256×128,采用2倍反卷积+拼接,然后使用大小为3×3的64通道卷积核进行2次卷积。
(4)Output:输入图像大小为512×512×64,使用大小为1×1的3通道卷积核进行1次卷积,得到输出图像大小为512×512×3。
2 实验及分析
2.1 数据集
槟榔放置于料盘上,槟榔切口水平朝上时为正常状态。考虑到槟榔的识别效果易受槟榔形状、姿态等影响,在取图时部分槟榔会故意将切口倾斜、整体姿态倾斜,异常槟榔约占整体数量的5%,与实际生产情况保持一致。另外,实际生产过程中料盘经常会沾到卤水,在取图时也需要考虑。数据采集使用130万象素相机采集,一次拍6个槟榔,图片大小1 280×960,总数量923张。打光采用回型背光源,通过旋转角度,将数据增广到3 692张。随机选取90%作为训练集,10%作为验证集。相机采集到的槟榔图片示例如图2所示。
2.2 模型训练及评价指标
本文使用的VGG-UNet网络模型采用Pytroch深度学习框架进行训练,系统环境为Win 10,GPU使用NVIDIAGeforce RTX 2080 Ti。数据集图片以长边保持比例缩放到512×512,短边不足部分补齐,灰度值设置为全白255。整个模型输入图片大小为512×512×3,语义分割类别有3类,分别是背景,外腔,内腔。输出图片大小与输入一致。
采用的语义分割常用的评价指标为像素准确率(PA)和Dice系数,其中,PA用来预测正确的样本数量占全部样本的百分比,Dice系数则用于评估两集合的相似度。
由表2可以看出,VGG-UNet的像素准确率为97.25%,比UNet的高出0.48%;VGG-UNet的Dice系数为89.58%,比UNet的高出0.38%。采用预训练的VGG-UNet无论在准确度和Dice系数上的表现都要优于UNet。
从图3的效果对比可以看出,VGG-UNet在图像的细节分割更加准确。比如,UNet处理的外轮廓明显会更多受到盘子特征的影响更多;当内轮廓分界线不是很明显时容易丢失部分内轮廓面积。
3 结 论
由于先验知识的加入,使得VGG-UNet网络模型在训练时收敛性更快,对图像分割效果更加稳定,具有更好的鲁棒性。实际在生产的过程中,模型的分割效果跟样本本身也有很大关系,要注意不良样本的比例要与实际生产保持一致。另外,此方法的不足之处还有,当两个槟榔相连时,槟榔轮廓会找错。轮廓的平滑性还是有些许不足,训练比较耗时,这将是后期亟须完善的地方。
参考文献:
[1] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE,1998,86(11):2278-2324.
[2] KRIZHEVSKY A,SUTSKEVER I,HINTON G. ImageNet Classification with Deep Convolutional Neural Networks [J].Advances in neural information processing systems,2012,25(2):75-79.
[3] TAIGMAN Y,YANG M,RANZATO M,et al. DeepFace:Closing the Gap to Human-Level Performance in Face Verification [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE,2014:1701-1708.
[4] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL].arXiv:1409.1556 [cs.CV].(2015-04-10).https://arxiv.org/abs/1409.1556.
[5] RONNEBERGER O,FISCHER P,BROX T. U-Net:Convolutional Networks for Biomedical Image Segmentation [C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015.Cham:Springer,2015:234-241.
[6] SHELHAMER E,LONG J,DARRELL T. Fully Convolutional Networks for Semantic Segmentation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,39(4):640-651.
[7] IGLOVIKOV V,SHVETS A. TernausNet:U-Net with VGG11 Encoder Pre-Trained on ImageNet for Image Segmentation [J/OL].arXiv:1801.05746 [cs.CV].(2018-01-17).https://arxiv.org/abs/1801.05746.
[8] MILLETARI F,NAVAB N,AHMADI S A. V-Net:Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation [C]//2016 Fourth International Conference on 3D Vision (3DV).Stanford:IEEE,2018:565-571.
[9] ZHOU Z,SIDDIQUEE M,TAJBAKHSH N,et al. UNet++:A Nested U-Net Architecture for Medical Image Segmentation [C]//DLMIA 2018,ML-CDS 2018.Cham:Springer,2018:3-11.
[10] NAWAZ A,AKRAM U,SALAM A,et al. VGG-UNET for Brain Tumor Segmentation and Ensemble Model for Survival Prediction [C]//2021 International Conference on Robotics and Automation in Industry (ICRAI).Rawalpindi:IEEE,2021:1-6.
作者簡介:程盼(1988—),男,汉族,湖北天门人,高级工程师,硕士,研究方向:机器视觉。
收稿日期:2022-12-26