罗秀芝,马本学, 2,李小霞,胡洋洋,王文霞,雷声渊
(1.石河子大学机械电气工程学院,新疆石河子 832000;2.农业部西北农业装备重点实验室,新疆石河子 83200)
【研究意义】哈密干枣作为极具新疆地域特色的干果产品之一,具有皮薄、肉厚、质地较密、色泽鲜亮、维生素含量高等优点,其大多经过干制加工分类再进入市场[1]。由于受到外部自然条件的影响,即使是同一品种的红枣,红枣外部的纹理也会有一定的差异,如果不经过分选进入销售市场,那么它的价值会降低。红枣加工分级是红枣销售前一个很重要的环节。【前人研究进展】近年来,根据外观品质对干制大枣分类技术已经进入智能化识别分选阶段[2-4]。康宁波等[5]基于电磁式同步执行机构的鲜枣分级机设计与试验,蒋伟[6]提出了基于 OpenCV的红枣纹理检测研究,柴春花等[7]提出采用机器视觉红枣纹理分级方法。【本研究切入点】上述的方法都要从图片中计算出人为设置的特征,再利用这些特征去训练一个分类器,用于测试数据的分类,这些方法都是人为去选择特征,存在一定的人为主观判断性。设计了一种基于计算机视觉技术[8],并融合深度学习算法的干制哈密大枣纹理分级系统,该系统主要运用了深度学习方法中的卷积神经网络。卷积神经网络不需要手动设计要提取的特征,可以直接将图片作为输入,隐式地学习多层次特征,进而实现分类[9]。相比目前常用的人工设计特征然后利用各分类器训练分类,具有明显的优势。近年来,卷积神经网络已成为语音、图像识别领域研究热点[10-11]。它的权值共享使得网络复杂度降低,权值数量减少。卷积神经网络直接将图片作为输入,避免了复杂的特征设计和提取,具有一定的平移、缩放和扭曲不变性等特点[12]。【拟解决的关键问题】采用卷积神经网络根据干制哈密大枣纹理进行分类,分析在卷积神经网络中,卷积层和池化层的个数,以及卷积核和特征图的大小、数目等为干制哈密大枣纹理分级提供科学依据。
1.1材料
1.1.1哈密大枣
材料为干制哈密大枣,采购自新疆哈密地区中北部的五堡乡。依据干制哈密大枣地方标准对干枣进行筛选,按照其表面纹理标准分为特级、一级、二级三类,每类各300个。图1
图1 干制哈密大枣样品
Fig.1 The sample of Dried Hami jujube
1.1.2 设备
图像采集装置及处理环境包括JAI CV-M7+CL型CCD工业相机、AFT-BL250W型平面光源、AFT-ALP2406-02型光源控制器、Matrox Solios XCL型图像采集卡、Intel CORE i5的处理器、Windows7 x86的系统、在平面光源环境下,通过CCD工业相机采集图像。图2
注:1.图像采集卡;2.电脑主机;3.传输线路;4.工业相机;5.LED光源;6.遮光箱 7.干制哈密大枣;8.传送带;9.驱动轮
Note: 1.Image acquisition card; 2.Computer; 3. Transmission line; 4.Industrial camera; 5.LED light source; 6. Blackout box; 7.Dried jujube fruit; 8.Conveyor belt. 9. Drive wheel
图2 机器视觉装置
Fig.2 The machine vision device
1.2 方 法
1.2.1 图像采集与处理
用湿毛巾将干制哈密大枣表面的尘土擦拭干净,为了提高网络对干制哈密大枣图片分类的鲁棒性以及增加图片的数量,对哈密大枣进行了水平翻转处理,总共采集图片2 030张。将干制哈密大枣的彩色图片,用Matlab R2018a软件对其进行最小矩形框处理,并且图片像素大小统一为64×64。图3
1.2.2 基于卷积神经网络的干制哈密大枣纹理提取
采用5层网络结构,2个卷积层,2个池化层和一个全连接层。图4
图3 处理后枣
Fig.3 The processed map
图4 卷积网络结构
Fig.4 Convolutional network structure of this study
1.2.2.1 将64×64的彩色图片输入网络中,第一层为卷积层C1,卷积层即输入的图片与卷积核进行卷积运算得到特征平面,卷积核的大小设为9×9,特征平面上每个神经元都与原图像9×9大小的局部感受野相连接。卷积核的移动步长设置为1个像素,计算出卷积层C1的特征平面的大小56×56=(64-9+1)×(64-9+1)。采取6个不同的卷积核与输入图片进行卷积运算,得到6个不同的特征面。图5
图5 神经元权值共享
Fig.5 The shared weight of neurons
特征面上的所有神经元共享一个卷积核,在卷积的过程中卷积完成以后的结果并非直接存储在C1层特征图中,而是用激活函数将神经元非线性化,使得网络具有更强特征表达能力。Krizhevsky等[13]发现激活函数Relu收敛速度相比于sigmod/tanh快很多,并且得到的结果稀疏。选择的激励函数为ReLu。卷积层的各平面表达公式如下:
式中down(.)—一个下采样网络;
l—当前层数;
1.2.2.2 卷积完成后的池化层S1由6个特征面组成,池化层是对上一层特征图进行第二次特征提取。常用的池化方式有均值池化(Average pooling)和最大池化(Max pooling)。均值池化是对邻域里的特征点求平均值,而最大池化是对邻域内所有特征点取最大值。研究采用的是最大池化。图6
图6 池化过程
Fig.6 The pooling process of images
因为C1特征图的大小为56×56,所以最终每个平面的大小为14×14。池化层的各平面表达公式为:
式中down(.)—一个下采样网络;
l—当前层数;
1.2.2.3 卷积层C3与C1层的操作有类似的地方,不同的是卷积核的大小设为7×7,步长为1,卷基层C3特征图大小为8×8=(14-7+1)×(14-7+1),共有12个特征平面图。池化层S4池化尺寸设为2×2,步长设为2,输出了12个4×4大小的特征图平面。
1.2.2.4 最后一层为全连接层,将上一层12个4×4大小的二维平面图展开成为1×192大小的一维向量输入Softmax分类器,输出层一共有3个神经元,也就是把输入的干制哈密大枣图片按纹理分为特级、一级、二级三类。
1.2.3 网络训练
1.2.3.1 正向传播
正向传播即将预处理好的图片输入卷积神经网络计算得到分类标签。卷积神经网络正向传播单个神经元模型如图7所示[14]。每个神经元的输出公式为(3):图7
cn-1—第n-1层神经元的个数;
图7 单个神经元模型
Fig.7 The model of Single neuron
1.2.3.2 反向传播
反向传播即计算分类标签与实际分类标签之间的误差。目的就是使误差最小化,根据这个原则来调整网络中的各个权值。共有n个训练样本,并且分为三类。n个样本的误差表达式为:
式中tn—第n个样本的网络输出标签;
为了让误差变得更小,利用公式(5)来更新各层神经元的权值,直到网络误差率曲线收敛才停止训练。
W(t+1)=W(t)+ηδ(t)×X(t).
式中W(t)—表示计算第n个样本的权值;
W(t+1)—表示计算第n+1个样本的值;
η—表示学习率;
δ—为神经元的误差项;
X—表示输入。
2.1 试验数据
试验在Matlab R2018a软件上完成,所采用的干制哈密大枣图片由工业相机拍摄,在拍摄过程中为了提高网络对哈密大枣图片分类的鲁棒性以及增加图片的数量,对哈密大枣进行了水平翻转处理。测试集样本占总样本的30%。表1
表1 试验数据
Table 1 The experimental data
纹理Texture特级Grade Special一级Grade 1二级Grade 2合计In total训练集4625394201421测试集198231180609合计6607706002 030
2.2 卷积网络结构调整
2.2.1 卷积层层数
在卷积神经网络中,卷积层个数的设置至关重要,过多和过少都会影响网络的训练结果。该文分别使用3层卷积、2层卷积进行试验,每一种卷积层都迭代550次,并将其得到误差率和训练耗时进行比较,当网络的层数为2层时,误差率最低训练耗时最少。表2
表2 不同卷积层数网络误差率
Table 2 Network error rate of different convolution layers
卷积层数Number of convolution layers23网络结构Network structure9-79-5-5训练耗时(hh:mm:ss)Training time00:17:0000:17:27误差率(%)Error rate2.37.22
2.2.2 卷积核的设置
卷积核大小也是影响网络分类准确率的因素之一,使用2层卷积网络结构,并且将网络的卷积核大小分别设置为9-7、9-5、5-7、5-5、5-3进行试验,迭代次数为550次,5种情况误差率。表3
表3 不同卷积核网络误差率
Table 3 The error rate of different convolution kernel network
网络结构Network structure9-79-55-75-55-3误差率(%)Error rate2.32.64.64.274.27
卷积核选择9-7、9-5误差率较小,两者的损失函数值,网络卷积核大小选择9-7误差率最小,相比于卷积核大小为9-5,卷积核为9-7的收敛速度较快,并且损失函数值低。因此,该网络采用两层卷积层,各层卷积核为9-7的卷积神经网络结构。表3,图8
图8 不同卷积核网络损失函数
Fig.8 The loss function of Different convolution kernel network
3.1 网络的训练方式为批量训练,即将样本分为多个批次,当一批样本前向传播完以后再进行权值更新,每个批次为50张图片,网络的迭代次数为550次。学习速率η决定了反向传播中梯度下降的速度,设置过大或过小都会致使训练失败[15],研究设置的学习率为0.000 1。从开始训练到迭代次数为50次的时候,误差率下降的较快,并且50次以后网络误差率收敛,当训练到250次时,误差率降为0。图9
图9误差率曲线
Fig.9 The graph of error rate
3.2 常用的纹理提取方法是用灰度共生矩阵提取哈密干枣的六个纹理描述子(最大概率、相关性、对比度、能量、熵、同质性),并将其作为BP神经网络和SVM分类器的输入向量。对于非线性的三分类问题,试验选择在Matlab软件安装LIBSVM工具箱[16],并且选择径向基函数作为SVM的核函数。与设计的卷积神经网络分类效果进行对比。表4
表4 卷积神经网络和其他方法的性能对比
Table 4 Performance comparison between convolutional neural networks and other methods
方法平均准确率(%)灰度共生矩阵+BP88.67灰度共生矩阵+SVM85.66CNN97.7
4.1 提出了一种基于卷积神经的分类方法,该方法避免了复杂的图像预处理过程,能够更好地对干制哈密大枣纹理进行分类,分类准确率达到了97.7%。
4.2 采用5层网络结构,利用卷积神经网络的局部连接和权值共享等特点使得网络复杂度降低,提高了网络的训练性能。卷积神经网络直接将RGB图片作为输入,避免了复杂的特征设计和提取。
4.3 相对于用灰度共生矩阵提取纹理信息,再分别用BP神经网络和SVM来分类,用卷积神经网络对哈密大枣纹理进行分类准确率高并且试验过程更简单。