魏占国 宋娅萍 李 亚
中南林业科技大学
物流与交通学院
湖南 长沙 410004
托盘在现代物流运输行业中起着关键的作用,它可以将包裹规格化和模块化,从而极大地提高运输效率。传统的人工叉车已不能满足现代物流运输搬运作业的高效率要求。因此,基于托盘智能分割识别的自动化叉车成为智慧物流行业的前沿热点。自动化叉车高效精准的作业关键在于可视化识别系统的物流托盘分割算法能准确识别托盘图像。
随着算法的提升和深度学习技术的飞速发展,卷积神经网络(convolutional neural networks,CNN)在图像语义分割[1-3]任务上表现出了强大的性能。图像语义分割是一种将图像分割成具有精确语义类别属性的区域序列方法,即利用每个像素及其周围的图像块独立地对每个像素进行分类。加州大学伯克利分校的J. Long等提出的全卷积网络(fully convolutional networks,FCN)推广了传统的CNN结构,能在不带全连接层的情况下进行密集预测,但是FCN会造成图像位置信息的丢失[4-7]。为使语义分割能够完全贴合图像,保留图像位置信息,研究者提出了两种不同形式的结构:
1)编码器-解码器(encoder-decoder)结构。编码器利用池化层逐渐减小输入数据的空间维度,而解码器则利用像反卷积层这样的网络层来逐步修复目标对象的细节和空间维度。编码器和解码器通常有直接的信息连接,因而解码器可以更好地恢复目标对象细节。编码器-解码器结构的典型网络包括U-Net[8]、SegNet[9]。
2)空洞卷积(dilated convolutions)结构[10-12]。空洞卷积结构可以在去除池化层的情况下扩大视野域,避免池化处理带来的位置信息丢失。该结构的典型网络包括DeepLab V1、DeepLab V2[10-11]。
受工业生产环境下物流托盘易被遮挡、光照条件变化以及托盘类型繁多等因素的影响,现有物流托盘分割算法难以进行精准的图像识别和有效分割,进而影响自动化叉车的精准装卸作业。基于此,本文以U-Net作为主干网络,提出一种新颖的激励压缩空洞卷积模块(squeeze excitation dilated convolution,SEDC)来改进U-Net网络,通过对特征通道间的相关性进行建模,强化重要特征,提升物流托盘图像分割的准确率。
为实现物流托盘的精准分割,本文构建了一个轻量级的物流托盘分割模型即基于SEDC模块改进的U-Net网络[12-14],网络模型如图1所示。在SEDC模块(如图2所示)中,先用1×1×1卷积进行数据降维,以降低计算量,再用传统卷积与膨胀率为2的空洞卷积获取多尺度感受视野下的图像特征,并通过SE模块(squeeze-and-excitation)提升U-Net网络对通道特征的敏感性,使其更加有效地对不同层的重要程度进行自动学习,最后以1×1×1卷积进行数据升维。
图1 基于SEDC模块改进的U-Net网络Fig. 1 Improved U-Net network model based on SEDC module
图2 SEDC模块示意图Fig. 2 SEDC module
1.2.1 1×1×1卷积
采用1×1×1卷积的动机如下。
1)实现跨通道的交互和信息整合
1×1×1卷积对多个特征进行线性组合,能够保持数据的宽度、高度与深度不变,实现跨通道的特征整合,提升网络的表征能力。
2)实现卷积核通道数的降维和升维
3×3×3卷积在几百个过滤器的卷积层上做卷积操作非常耗时,因此使用1×1×1卷积在3×3×3卷积层前后进行数据降维与升维操作,使参数数量进一步减少,缩短网络的训练时间。
1.2.2 空洞卷积
空洞卷积是在标准的卷积映射里注入空洞。相比传统卷积,空洞卷积多了一个超参数,即膨胀率(dilation rate),它代表卷积核(kernel)的间隔数量(传统卷积的卷积核膨胀率为1)。空洞卷积的优点是在不做池化操作、丢失特征信息的情况下,加大感受视野,让每个卷积输出都包含较大尺度的信息[15-16]。
1.2.3 SE模块
SE模块[17]的主要作用是关注通道之间的关系,使模型可以自动学习到不同通道特征的重要程度。SE模块包括压缩和激励两个关键操作,如图3所示。图中,W′、H′表示特征图宽和高,C′表示通道数,输入特征图大小为W′×H′×C′。压缩操作是对卷积得到的特征图进行聚合,将维度为W×H的特征图作为特征描述器,以此获得全局感受视野信息。激励操作是一种自筛选机制,使用样例特化激活函数对所有通道进行权值评比。
图3 SE模块Fig. 3 SE module
SE模块可以适用于任何映射Ftr:X→U,X∈RH′×W′×C′,U∈RH×W×C。以卷积过程为例,卷积核为V=[v1,v2, …,vC],那么输出为U=[u1,u2,…,uC]。
式中:*为卷积操作;vc为第c个卷积核;vcs为第s个通道的第c个卷积核;xs为第s个通道像素。输入一个通道上的空间特征,卷积核会学习特征空间关系。由于对各个通道的卷积结果做了求和运算,因而通道的特征关系与卷积核学习到的空间关系被混合在一起。而SE模块可抽离这种混杂,使得模型能够直接学习到通道特征关系。
为了验证本模型对物流托盘图像分割任务的有效性及分割效果,本文采用自行采集的物流托盘图像集(如图4所示)训练与测试网络模型,用精度(P)、召回率(R)和F1分数3个评价指标评价算法的分割性能。3个评价指标的公式如下:
图4 采集的物流托盘图像以及分割后的样例Fig. 4 An example of the image of collected logistics pallet
式中:TP为预测具有正类别标签数据的正类别数量(即物流托盘被正确检测到的像素数);FP为预测具有负类别标签数据的正类别数量;(即物流托盘被错误检测的像素数);FN为预测具有正类别标签数据的负类别数量(即物流托盘被正确检测但又被错误识别的像素数)。
2.1.1 指标函数
1)Dice系数
Dice系数,即重合索引,在信息检索领域也称之为F1分数,其目标是在验证物流托盘图像分割效果时保证高查全率和查准率[18]。较之自动分割结果与原标签数据的差异比较方法,Dice系数可以更好地刻画分割效果。Dice系数公式为:
式中:G为原标签数据的真实分割结果;R′为测试数据的自动分割结果。理想情况下,原标签数据的真实分割结果应与自动分割结果完全重合,即G=R′,Dice系数的值为1。
2)豪斯多夫距离
豪斯多夫距离表示一个集合到另一个集合中最近点的最大距离[17]。从集合A到集合B的豪斯多夫距离是一个极大值函数,即:
式中d(a,b)为a、b两点之间的欧几里得距离。
豪斯多夫距离用来刻画轮廓的相似性,值越大代表越不相似,反之,值越小代表越相似。
3)平均交并比
平均交并比(mean intersection over union,MIoU)是用于分割性能评价的常用指标,计算两个集合的交集和并集的比率[19]。在本文中,平均交并比是原标签数据的真实分割结果和预测结果的比率,即:
式中:MIoU为平均交并比;pii为真正样本;pij′为假正样本;pij为假负样本。
2.1.2 损失函数
用 Adam作为算法优化器,因为它具有快速收敛的特性[20]。将一阶矩估计的指数衰减率设置为 0.99;二阶矩估计的指数衰减率设置为 0.999;Epsilon设置为1e-8;Decay学习率衰减设置为3e-8。
本实验采用的硬件平台为英特尔酷睿i7-8700K CPU @ 3.70 GHz,GPU为GeForce GTX 1080,RAM为16.0 GB,操作系统为Windows 10 专业版,编程语言为Python 3.6.5,深度学习开发库为Keras 2.1.5。
2.2.1 消融实验
为验证SEDC模块的有效性,本文对模型进行消融实验。5个测试样本从测试集中随机选取,消融实验结果见图5和表1。其中,U-Net with SE表示使用SE模块改进的U-Net网络,U-Net with SE and 1×1×1 conv表示使用SE和1×1×1卷积改进的U-Net网络。
表1 4种网络模型对物流托盘图像的分割效果对比Table 1 The results of the four network models compared on the logistics pallet image data set
图5 样本1对比实验的可视化结果Fig. 5 Visualized results of the comparative experiment on the first sample
由表1可知:
1)与传统U-Net网络相比,U-Net with SE网络的性能有小幅提升,但参数量有小幅增长。
2)与U-Net with SE网络相比,U-Net with SE and 1×1×1 conv网络的参数量仅为U-Net with SE网络的39%,但网络性能明显减弱。
3)与传统U-Net网络相比,本文模型的参数量下降了54.5%,网络结构更加轻量化。在大幅降低网络结构复杂度的情况下本文模型的性能没有大幅度变化。可见,本文模型在尽可能保证图像分割性能的情况下大幅降低了模型的计算量,并提升了网络的鲁棒性。
2.2.2 不同模型性能对比实验
为了进一步验证本文模型的优越性,将本文模型与Attention U-Net模型[17]、SegNet模型和 PSPNet模型[21]进行对比实验。实验结果如表2所示。
表2 物流托盘图像分割对比实验结果Table 2 The results compared on the logistics pallet image data set
由表2可知,本文模型的性能均优于其他3种模型,其原因是本文模型有效地关注了通道之间的关系,自动学习不同通道特征的重要程度,从而得到更优的分割效果。
本文提出了一种新颖的基于激励压缩空洞卷积改进的U-Net网络用于物流托盘图像分割识别任务。利用1×1×1卷积降低参数量,使用传统卷积与膨胀率为2的空洞卷积获取多尺度感受视野下的图像特征,同时引入SE模块有效对不同层的重要程度进行自动学习,提高模型鲁棒性。消融实验和对比实验的结果证明了本文模型的有效性。未来的研究工作将进一步研究编码与解码之间的关联性,充分利用低级特征与语义信息对模型进行优化。