邹 鲁, 赵永新, 王西超, 焦 斌
(1. 上海电机学院 电气学院, 上海 201306; 2. 上海振华重工(集团)股份有限公司 陆上重工设计研究院, 上海 200215)
集装箱锁销的自动拆装是行业内的世界性难题,而锁销是集装箱之间绑扎的重要工具。 集装箱的装船和卸船都必须要拆装锁销,传统的人工拆装已成为制约港口自动化的最大瓶颈,因此,通过减少人员来提升自动化程度势在必行。完成锁销拆装首先就需要对锁销进行识别,选择对应的夹具,使用机械人为载体进行拆装。
我国在自动化港口方向近10年来取得了明显进步。王伟等[1]认为集装箱装卸效率的提高在于各个环节;谢云等[2]介绍了中国港口第一个集装箱自动化无人堆场;杨瑞等[3]考察了国外全自动化码头的发展,重点在于工艺布局和装卸设备;陆拥军[4]针对上海港洋山深水港4期自动化码头加入视觉定位系统进行锁销自动化拆装研究,并且对比分析了单目和双目视觉系统。
近年来,深度学习的应用非常广泛,诸如图像目标识别、语音识别和自然语言处理等。其中,卷积神经网络(Convolutional Neural Network, CNN)应用最为广泛。欧阳颖卉等[5]将深度卷积神经网络(Deep Convolutional Neural Network, DCNN)应用在遥感图像舰船检测中,取得对舰船的精确定位;Hussain[6]将DCNN应用在水果自动识别系统中取得了不错的商业效果;傅建明等[7]利用CNN对Webshell文件进行检测;龚丁喜等[8]利用CNN对植物叶片进行分类,并验证得出CNN识别效果显著优于传统的叶片识别算法。
锁销较难识别,各锁销制造规格、开启方式均有不同,且使用过程中磨损程度不一,而DCNN通过对大量锁销进行训练,总结图像特征进行识别。本文通过将DCNN应用在锁销识别领域取得了高识别率。
DCNN[9]是在神经网络的发展基础上演化而来的,神经元都含有偏置常量和网络权重。输入至神经元,经过计算后输出各类的分数,并根据分数来判断输出结果。DCNN可以将图片直接输入卷积神经网络中,任其自行总结和提取特征,从而提高效率。
人工神经网络(Artificial Neural Network, ANN)是许多单个单元连接在一起形成的网络结构,它是根据生物神经网路演化得到的,可以模拟生物神经系统对外界的反应[10]。目前,神经网络在复杂的非线性建模上运用广泛。
神经网络的结构包括输入层、输出层和隐含层,对于隐含层的层数并没有明确的规定,可以根据实际情况增减[11]。图1中的神经网络含有2层隐含层。
图1 传统的神经网络图解
神经网络的输入层和隐含层都含有若干神经元,称为节点,输入层的各节点连接隐含层的各节点,隐含层的节点连接输出层的节点[12]。对于有多层隐含层的网络,上一级隐含层的各节点连接下一层的每个节点。每个节点之间的连接权重不尽相同,因此,神经网络自身可以看到某种已有算法的逼近。
图2所示为CNN图解。图片可以作为CNN的输入[13],故神经元设计成3个维度:宽度,高度,深度。输入是原始图片的像素,例如大小为32×32×3像素的图片,输入神经元就包括32×32×3个维度。
图2 CNN图解
CNN具有多层结构,且输入和输出都是三维的[14],各层是否需要参数根据实际情况而定。 CNN通常包含卷积层、线性整流(Rectified Linear Units, ReLU)层、池化层和全连接层。其中每层卷积层都含有许多卷积单元,根据反向传播算法优化计算出参数,卷积运算就是要提取输入的不同特征,第1层卷积层提取完特征后,后一层在第1层的基础上继续提取特征,往往第1层提取的特征并不明显,卷积层层数越多则提取的特征越明显[15],其原理公式为
(1)
线性整流层中,激活函数ReLU来输出特征图,由于ReLU函数几乎是线性的,这使得只要是处于激活状态,其导数都能保持较大,小于0则没有输出,因此,这种线性模型更易于使用基于梯度的方法进行优化,同时也符合生物神经元单侧抑制和兴奋边界宽阔的特性,并且ReLU函数还具有稀疏表达能力。
卷积层之后会得到维度很大的特征,池化过程就是将特征切成几个区域,取最大值或平均值,从而得到新的、维度较小的特征[16],池化层也叫下采样层,是一种特殊的卷积层,一般有两种形式:极大池化和平均池化。池化的目的是对上一层特征图进行缩放映射以减少数据降维,提取的特征具有缩放不变性,同时还可以防止过拟合,原理公式为
(2)
式中:down()为降采样函数;β为网络乘性偏置。
全连接层中,结合所有局部特征形成全局特征,用来计算最后每一类的得分[17]。
实验中的锁销均来自洋山4期自动化码头,洋山4期码头是国内最先进的全自动化码头,集装箱运送到港后都需要拆卸锁销。实际中锁销分为3大类,分别是边锁、中锁和舱内锁,其开锁方式不同。对于相同种类的锁销其开锁方式也会有所差别。本文选择了其中最具有代表性的26个锁销,根据其开锁原理总结归为16类。使用的相机信息为华为P10 PLUS手机,镜头为2 000万像素。
由于锁销在集装箱上的状态为一部分内嵌一部分外露,因此,采用了铰件的方式来模拟。如图3所示,锁销的下半部放入铰件中,露出的为上半部分,接触部分用普通A4纸覆盖。在此基础上对每个锁销拍照400张,力求获得锁销的360°姿态。
图3 锁销示意图
对每个锁销的400张图片,其中300张作为训练集,剩余100张作为测试集。首先读取训练集图片大小为100×100×3像素的矩阵,然后经过3层卷积层和池化层提取特征矩阵,最后经过softmax分类器。
图4给出了CNN模型的迭代次数与正确率的关系图。由图可见,迭代开始后识别准确率立刻提升,但是整个模型在迭代过程中一直存在波动,约500次迭代后相对稳定但波动依旧明显且准确率未达到100%。
图4 CNN效果图
图5显示了DCNN模型的迭代次数与正确率的关系,迭代次数很低时正确率不发生变化,随着迭代次数的增加识别正确率显著增加,约500次迭代之后整个模型趋于稳定且识别正确率接近100%,相比而言DCNN模型的效果优于CNN模型,同时DCNN的高识别率也依靠大量的训练。
图5 DCNN效果图
训练完成后保存模型,用测试集来测试已保存的模型,记录分类正确的数量与错误的数量见表1。
表1 CNN和DCNN识别效果 %
CNN在识别各种锁销时均会出现不等误差,经计算其正确率稳定在89%左右,所以其测试集识别偏差较大,而DCNN只有在识别第10种与第14种锁销时有偏差,识别其他种类的锁销时非常准确。如表1所示,CNN对于第7、8、13、16种锁销识别准确率较高,而对其他的锁销的识别不是很理想,而对于第14种锁销两种方法的识别正确率都为各自的最低值,这很可能是锁销本身结构过于复杂或者人工拍照不全面所致。
针对集装箱锁销识别困难的问题,对锁销大量拍照建立训练集和测试集,并将DCNN引入到锁销识别领域,与CNN作对比后得出:DCNN在迭代次数很低时效果不如CNN,但随着迭代次数的增加DCNN在特征提取方面明显优于CNN,其识别效果和稳定性也更好。本文研究对于锁销自动化拆装和码头自动化建设具有重要意义。