张成双,王先伟,刘志刚,王桂荣,姜增昀,郝允志
(1.山东潍坊烟草有限公司,山东 潍坊 261000;2.西南大学,重庆 400715)
目前密集烤房烟叶烘烤主要通过干湿球温度传感器监测烤房状态,通过预设烘烤曲线和烘烤师肉眼观察进行预设值修正调节[1]。这种由干湿球温度直接调控的方式难以对烟叶烘烤状态进行准确识别,对烘烤师依赖性很大,往往需要烘烤师24 h值守,进行烘烤工艺调整。这种工作方式的劳动强度较大,而且受烘烤师主观影响很大,除此之外,从温度异常到烘烤师发现进行调整往往存在滞后性[2]。因此,实现烟叶烘烤阶段智能识别,是烟叶智能烘烤的重点。近年来,随着神经网络技术的发展,深度神经网络模型在农业方面的应用越来越广泛[3],但是在烟叶烘烤阶段识别方面的应用还鲜有耳闻。
烟叶方面的研究还主要集中在病虫害识别[4],或者烟叶成熟度和烟叶等级鉴定[5]方面的研究。焦方圆等[6]提出一种改进的基于VGG16的烟叶分级模型,使用空洞卷积代替传统卷积,对41种烟叶烘烤等级烟叶进行识别,准确率比传统SVM(叶片叶绿素含量的相对值)模型提高了10.46%。陈乾锦等[7]通过分析烟叶SPAD(支持向量机)叶片叶绿素含量的相对值的含量判断和烟叶烘烤质量的关系,最终和不同部位烟叶的相关性达到了0.991,0.988,0.961。张丽英等[8]将烘烤过程中烟叶叶绿素和类胡萝卜素与烟叶颜色特征进行了逐步回归分析,建立了回归方程模型,相关系数达到了0.976 6和0.632 5。但利用图像处理乃至深度卷积神经网络对烟叶烘烤阶段进行识别的研究还鲜有耳闻。
本文通过双边滤波算法[9]在保留边缘特征的基础上对烟叶原始图像进行去噪,将数据输入MobileNetv3-ECA深度卷积神经网络,并采用SE注意力机制增加模型对重要通道的关注度提取分类关键特征,模型最终识别率达到了91.38%。在烟叶烘烤阶段工艺匹配上可以达到良好的精度,对实现精准烤烟有重要意义,为深度学习图像识别在烟叶烘烤阶段识别上的应用提供理论依据和技术支持。
试验图像于2021年在山东省潍坊市诸城烟叶烘烤模范合作社采集。烘烤烤房为燃煤密集烤房,装烟室规格长宽高为8.0 m×3.0 m×3.5 m,装烟三层双路。图像采集设备采用120°高清广角网络摄像头,通过当地有线网络、无线路由器上传至服务器识别或在网络较差的地方进行本地设备识别。
网络摄像头采用360°可旋转的固定机构进行固定,距离烟竿25~30 cm,距离烟叶30~35 cm,主要拍摄部位为叶尖部位。
图像拍摄处于光线较暗的灰暗环境,辅助光源难以达到高质量的均匀光效果,而且拍摄环境长期温度较高。在这种环境下,采集的图像极易产生高斯噪声,高斯噪声是一种概率分布满足高斯分布(正态分布)的噪声,在自然界中广泛存在。但是一般的高斯滤波方式,都会产生明显的边缘模糊,使图像丢失部分边缘特征。为了对采集的图像进行有效处理,本文采用了双边滤波算法。双边滤波[10]是一种基于空间分布的非线性高斯滤波方法,由于其空间特性,对边缘附近较远的像素不会产生太大影响,可以更好地保留边缘像素,达到“保边去噪”的目的。处理前后图像如图1所示。
图1 处理前后的图像
参考三段式烘烤工艺和当地烘烤师傅烘烤经验,将烟叶烘烤过程采集的图像分成10个阶段。
MobileNet是一种经典的深度学习模型[11],该模型使用了残差结构来保留原始特征,减缓了深层网络的网络退化问题。
MobileNetv3[12]是MobileNet系列中最先进的模型,通过逐像素点的多层运算,提取图像的深层特征,并在最后将特征矩阵映射为和分类数相同的一维向量,进行图像分类。
残差连接可用如下公式表示
式中:xl是上一层的输出;xl+1是该层输出;F(xl,wl)是xl经过权重矩阵wl后的输出;f(xl)是经过激活函数等操作后的输出。
如果忽略激活函数等操作,则残差连接可以表示为
则深层网络L层的输出xL可以表示为
在深层模型中,残差结构一直保持一个恒等映射,将原始特征保留下来,避免了网络层数加深时的模型退化问题。
在MobileNetv3模型中,为了准确识别目标,将模型的权重参数合理分配,加入了SE注意力机制模块[13],如图2所示,该模块将特征矩阵压缩为1×1×C的向量,经过2个全连接层对该特征向量参数学习后,将其与原始特征矩阵逐通道相乘,对通道间的权重进行重新分配,使模型更多关注重要通道的信息。
图2 SE注意力模块
MobileNetv3模型保留了残差结构和深度可分卷积,但是将SE模块更换为更加高效的ECA模块。ECA模块[14]采用一维卷积代替了全连接层,将数万参数量的注意力模块精简到了个位数。如图3所示。
图3 ECA注意力模块
并对模型尺寸进行了枝减,进一步减少了MobileNetv3-ECA模型的大小,减少了计算所需的设备成本。
将经过双边滤波后的烟叶图像RGB 3个通道输入到MobileNetv3-ECA模型中,通过多次卷积操作提取图像特征,最后将所有特征映射为10个输出,对输出进行Softmax操作,计算图片在10个类别的概率,将最高概率的标签作为预测标签,使用交叉熵损失函数计算实际标签和预测标签之间的损失值,通过优化器函数将损失梯度反向传播,对权重矩阵进行优化,最终得到合适的模型权重参数。
特征提取过程如图4所示。
图4 特征提取过程
将烟叶烘烤阶段数据分别输入MobileNetv3-ECA、MobileNetv3、GoogLeNet、VGG16和ResNet34模型。在100轮训练后,验证集的准确率曲线如图5所示。
由图5可以看出,VGG16曲线波动十分明显,准确率稳定性不佳;GoogLeNet模型收敛速度较慢,在前40轮准确率明显低于其他曲线;ResNet34和MobileNetv3模型曲线则整体上高于VGG16和GoogLeNet曲线;改进后的MobileNetv3-ECA模型准确率曲线总体处于其他曲线上方,而且波动明显减小,具有更好的综合性能。
图5 准确率曲线
从表1可以看出,改进后的MobileNetv3-ECA模型准确率达到了91.38%,模型参数量与MobileNetv3相比,减少了16.6%,仅为VGG16的2.6%,ResNet34的16.5%,可以节省大量计算资源,降低对设备的要求。
表1 多模型性能对比
由图6可以看出,由于分类阶段数为10,每个批次加载图片数量不足10张时,对批次图片归一化难以代表各个阶段的特性,batchsize(每个批次加载的图片数量)为4或8时,曲线波动明显更大,当每个批次加载图像为16张或32张时,图像波动明显减小,但batchsize为32时准确率相比于batchsize为16时没有明显提升,但是加载图片过多,会对设备内存占用迅速增长。
图6 不同batchsize下的准确率曲线
目前密集烤房烟叶烘烤状态主要靠烘烤师肉眼观察,手动调节烘烤曲线,受人主观性影响较大,而且夜间值守也需要耗费大量精力。本文通过双边滤波方法对烤房图片进行去噪,同时保留烟叶的轮廓信息,使用MobileNetv3模型进行特征提取,并通过梯度下降法进行反向传播优化参数,滤波前后各个阶段的识别准确率见表2。
表2 双边滤波前后各个阶段识别准确率对比
将双边去噪前后的图像分别输入到MobileNetv3和MobileNetv3-ECA模型中,batchsize(每批次加载图片数量)为16时,迭代100个训练轮次后,其准确率曲线如图7所示。由图7可以看出,在前10轮训练过程中,准确率不高,但经过10轮之后,模型权重基本优化确定,准确率迅速达到80%以上;在80轮训练后,MobileNetv3准确率最高达到了89.66%,而MobileNetv3-ECA模型的识别准确率达到了91.38%。
图7 改进前后的准确率曲线
实验证明在MobileNetv3模型上,识别准确率达到了89.66%,而改进后的MobileNetv3-ECA模型识别准确率可以达到91.38%。MobileNetv3模型在4—6阶段的识别错误率较高,该时期,烟叶正处于变黄后期;定色前中期,烟叶整体未达到特征相近的阶段,特征提取难度较大。
而MobileNetv3-ECA模型的识别准确率达到了91.38%。该模型在3—6阶段的识别错误率明显降低,对变黄定色的关键时期有更好的识别效果,在7—10段的错误率略有提高,该时期处于烘烤过程的定色后期和干筋期,此时烟叶烘烤大部分已经完成,主要对烟筋进行脱水处理,对烟叶整体烘烤质量影响不大。
本研究表明,在不使用其他辅助特征提取设备和人为对特征进行提取的情况下,只通过摄像头采集数据,使用神经网络自主提取特征进行烟叶烘烤阶段识别是可行的,这对于轻便型易布置的烟叶烘烤阶段识别装置研发提供了理论基础。使用双边滤波法对图像进行去噪,在MobileNetv3-ECA深度神经网络模型上,对烟叶烘烤质量影响较大,特征难以提取的3—6阶段识别准确率得到了明显提升,但由于识别需要上传服务器进行,在信号较差的地区实施具有一定难度,本地识别往往对计算机性能要求较高,这为后续研究提供了方向,可以进一步优化搭建更轻量级的模型,从而在微型设备上进行识别。