基于SE-ResNet网络的油茶果果壳与茶籽分选模型

2023-06-15 17:02:12段宇飞董庚孙记委王焱清
中国农机化学报 2023年4期
关键词:注意力机制深度学习

段宇飞 董庚 孙记委 王焱清

摘要:油茶果脱壳后果壳与茶籽混合在一起,采用传统的机械分选仍会出现掺杂果壳的情况,清选率有待提高。比较ResNet不同层数模型,发现在当前壳籽实验样本下ResNet18与其他模型相比每次迭代的平均训练时间最少,并且验证集平均准确率最高,同时均优于其他CNN分类模型。为进一步提升分选效率,在ResNet18网络中引入注意力机制,结果表明,SE-ResNet18模型与改进前的模型相比,训练过程中每次迭代的平均时间由1.31 s下降到1.13 s,缩短0.18 s,验证集平均准确率为98.88%,提升1.4个百分点。经过测试后得出,测试集整体准确率为98.43%,与原模型相比提升1.3个百分点,说明使用ResNet18模型结合注意力机制的方法在油茶果果壳与茶籽的分选上是可行的,为油茶果在分选方法提供一种新的理论基础与思考方向。

关键词:油茶果;深度学习;分选;SE-ResNet18模型;注意力机制

中图分类号:S226.5: TP391.4

文献标识码:A

文章编号:2095-5553 (2023) 04-0089-07

Abstract: When the shell is mixed with the tea seed, the traditional mechanical separation will still be doped with the shell, and the cleaning rate needs to be improved. In this paper, by comparing different layers of ResNet, it is found that in the current shell seed experiment samples, ResNet18 has the lowest average training time of each iteration compared with other models, and the highest average accuracy of verification set, which is more superior to other CNN classification models. In order to further improve the sorting efficiency, the attention mechanism was introduced into the ResNet18 network and the results showed that the average time per iteration in the training process of SE-ResNet18 model decreased from 1.31 s to 1.13 s by shortening 0.18 s, and the average accuracy of the validation set was 98.88% by improving 1.4 percentage points, compared with the model before improvement, and the overall accuracy of the test set was 98.43%, which was 1.3 percentage points higher than that of the original model, indicating that the use of ResNet18 model combined with the attention mechanism was feasible for the sorting of oil tea fruit shells and tea seeds, providing a new theoretical basis and thinking direction for the sorting method of camellia fruit shells and seeds.

Keywords: camellia fruit; deep learning; sorting; SE-ResNet18 model; attention mechanism

0 引言

茶油的內在经济价值与食用价值较高,能与橄榄油媲美[1-2]。近年来,随着油茶果种植面积的不断增大,油茶果的采摘、脱壳、分选和榨油等环节的产业化也在不断提高[3]。在其产业化的过程中,机械化和自动化[4-5]是缩短农忙时间和提升经济效益的重点。而分选的机械化中,分选的准确率是分选结果好坏的集中表现,较低的准确率会影响茶籽筛选,给农户造成不必要的损失,因此油茶果分选准确率的提高对于推动油茶果产业化有着重大的意义。

近些年,深度学习在很多领域上有着突出表现,特别是在农业应用中,吕梦棋等[6]将玉米种子按照玉米颗粒的面积大小分为大中小三类,通过对其他经典模型的对比与ResNet的改进,对这三类玉米进行分类识别,有效地提升了玉米种子总体分类的准确率,其准确率由之前91.87%提升为94.01%。林丽惠等[7]利用不同的模型对9个品种的武夷岩茶叶进行分类,最后发现ResNet50模型替代传统人工提取特征的方法最有效,其武夷岩茶叶的分类准确率达到了96.04%。苏宝峰等[8]选取了12个种类的葡萄,并将注意力机制与ResNet50模型相结合,研究表明结合后的ResNet50-SE模型在复杂背景下具有较强的分类性能和鲁棒性,最终模型测试集准确率在88.75%,平均召回率为89.17%。

以上的研究表明深度学习应用于农业领域中能够较好地完成分类任务。因此,本文通过对深度学习算法的研究和对比,探索深度学习模型与油茶果分选结合的可行性。

1 数据采集与处理

本试验使用的样本均为油茶果破壳机破壳后晾晒2~5天的油茶果茶籽和果壳。将其使用9~18 mm 的筛网进行筛选,剔除尺寸较小的破碎果皮与较大的未完全脱壳的油茶果。分选装置上安装毛刷与长条通道以确保样本可以在托盘内单独放置且不会发生重叠现象而影响分选。

油茶果果壳与茶籽图像采集装置如图1所示,总共采集包含茶籽和果壳图像26张,图像分辨率为1 280像素×1 024像素(占用空间约为3.9 MB),如图2所示。

由托盘将样本图片分为64个部分,使用matlab软件将样本图片去除宽边后按64等份进行均匀的剪切,剪切后的图像分辨率为128像素×128像素(占用空间约为8 KB),共获得剪切后的图像1 664张,所有的图像可以分为4个种类,分别是茶籽、油茶果内壳、油茶果外壳和空格托盘,如图3所示,图中发现外壳与茶籽颜色、形状等特征较为相似,加大了区分的难度。

所获茶籽图像590张,外壳230张,内壳234张,空格托盘610张。考虑到果壳分为内壳、外壳后的样本数量较少,造成样本不均衡,故在其中随机选取茶籽图像250张,空格托盘250张,外壳230张,内壳234张,用作建模的数据集。同时考虑到样本数量较少不利于模型的训练,对样本图像进行一定的角度翻转,分别是90°、180°和270°,数据扩充至3 856张。

将数据集按照7∶2∶1的比例划分为训练集、验证集和测试集,即取2 700张图像进行标注后作为训练集,取772张标注后作为验证集,余下384张图像用于最终测试。

2 模型结构

2.1 ResNet

在深度学习图像分类中,较为经典的CNN模型有AlexNet[9],VGGNet[10]以及ResNet[11]等。在模型应用过程中发现增加模型深度会使模型效果变好,但是随着模型深度继续增加,简单的层数堆积并不会使模型准确率得到进一步提升,相反的是训练过程中产生了梯度消失[12]现象,导致梯度不断趋近于零,权重不再更新。

残差神经网络(Residual Neural Network, ResNet)是由He等[11]首次提出。它使数百甚至数千的训练强度成为可能。残差块的设计是ResNet中最为重要的部分,设定输入的神经网络层为x,期望的输出为H(x),残差神经的使用创造性解决了因为H(x)难度较大而引起梯度消失的问题,即学习两者之间的残差F(x)=H(x)-x。具体结构如图4所示的残差结构图。

SE模块是由挤压(Squeeze,Fsq) 和激发(Excitation,Fex)两部分构成。

挤压的操作过程是将输入尺寸为H×W×C的样本图片(H为图片的长度,W为图片的宽度,C为图片的特征通道数)用全局平均池化(Global average pooling)进行计算,得到1×1×C的特征向量,便于模型对图片的全局感受,之后进入特征通道维度相同的全连接层,使用ReLu激活函数对全连接层进行计算,最后使用Sigmoid激活函数[20]生成每个特征通道的权重,权重由Scale操作(Fscale)将输出的特征向量与之前的输出特征向量相乘,以此完成在特征图上的重点特征标注,获得更具有指向性的特征,从而进一步提升分类的准确性。

2.3 融合注意力机制的ResNet18模型

本文采用ResNet18模型,并添加注意力机制进一步提升整体模型分类准确率,使模型在训练过程中对样本图片的通道信息更加关注。基础网络模型采用具有18层结构的ResNet模型,将SE模块与ResNet18相结合。改进模型如图6所示。

改进的SE-ResNet18模型参数设置详见表1。

SE-ResNet18中卷积层conv2_x,conv3_x,conv4_x, conv5_x的残差块均为2。残差单元共有16层,加上conv1的卷积层和全连接层共18层。将SE模块与ResNet18相结合如圖6所示。图6中ResNet18的网络结构保持不变,但是残差模块需要在进行加法计算之前对样本图片的特征进行了重新标定,其原因是sigmoid函数存在归一化的权重计算,当卷积网络较深时,模型的输入层部分会出现梯度消散现象,使模型的优化变得更为困难。

3 试验部分

3.1 训练环境的搭建

本文试验搭建的训练环境为Win11操作系统,Intel(R) Core(TM) i7-11800H处理器,使用CPU进行模型训练,Python版本为3.9.7,Pytorch版本为1.11.0。

3.2 试验结果与分析

考虑到分类的类别数量较少,无需使用太多层ResNet来进行模型训练,因此仅分别对18层、34层和50层的模型进行50个epochs试验,训练结果如表2所示。

由表2得出,ResNet18在训练过程中每次迭代平均训练时间为1.31 s,ResNet50的训练时间最长,平均时间为2.44 s,可见随着层数的增加,训练时间不断提高,但是平均准确率却在下降。

不同层次ResNet验证集准确率与损失值的变化曲线如图7所示。

从图7可以发现ResNet18曲线比较平滑,曲线波动幅度较小,ResNet18的损失值最低,验证集准确率与其他两个模型相比更高。分析原因可能是图片复杂程度较低,用ResNet18可以在较少的层数下完成较高的识别分类,考虑到同样的模型之间差距可能较少,ResNet18在同种模型中做到了最优。再将ResNet18与AlexNet、VGG-16这两个经典模型作对比,结果如表3所示。

由表3可以看出,AlexNet模型在油茶果分选中验证集平均准确率高于VGG-16模型,但是与ResNet18相比仍然有一定的差距,不同模型验证集准确率与损失值的变化曲线如图8所示。

从图8得出,AlexNet模型和VGG-16模型在验证集准确率和训练损失值方面与ResNet18相比曲线波动较大,收敛速度较慢,模型不够理想。考虑到ResNet34与ResNet18差距较小,可能存在误差,在模型的进一步改进中,同时将两个模型改进,验证改进后的SE-ResNet18与SE-ResNet34相比是否仍然具有优势,其结果如表4所示。

从表4可以看出,SE-ResNet18与未改进之前相比在训练时间上有了明显的变化,每次迭代训练平均时间由之前的1.31 s降低为现在的1.13 s,缩短了0.18 s,与此同时验证集平均准确率提升了1.4%,有了较小的提升,但是SE-ResNet34改进后效果仍然没有达到较好的效果,如图9所示。

改进后的SE-ResNet18模型具有更好的稳定性,训练损失函数和验证集准确率的浮动较少,将改进前的模型与改进后的模型使用预留的384张测试集图片进行测试,结果如表5所示。

测试结果说明, SE-ResNet18对油茶果茶籽和果壳的分选具有较高的识别率,能够很好地进行区分,相比于改进前的ResNet18在内壳、外壳与茶籽的错误判别数上均有下降。试验表明,SE-ResNet18模型应用于油茶果分选能够满足实际的需求。

4 结论

1) 为提高油茶果的分选准确率,提出了一种基于SE-ResNet的分选方法,能够很好地对油茶果混合体进行识别,注意力机制加深了ResNet对图片特征的提取能力,提升了分选准确率。

2) 以ResNet模型为主体进行研究,考虑到不同层数的ResNet模型,ResNet18模型以1.31 s的最短训练平均时间和97.48%的验证集平均准确率在层数方面领先于其他模型。

3) ResNet18模型与其他经典模型比较如AlexNet和VGG-16,通过对比发现,其 ResNet18无论是时间和平均准确率均是最优,以其作为最佳模型并与注意力机制进行结合。结果表明,其验证集的平均训练时间减少了0.18 s,平均准确率由之前的97.48%提升为当前的98.88%提升了1.4%。

4) 将测试集在训练好的模型中进行测试,其最终平均准确率由之前的97.13%提升为当前的98.43%,提高了1.3%,特别是在外壳与茶籽的判别正确数量上有了一定的提升,可较好的应用于实际生产。深度学习模型与油茶果分选结合是可行的。

SE-ResNet18虽然提升了部分准确率,但是仍有提升空间,接下来可以考虑如何在此基础上进一步提升准确率,也可以考虑对其他卷积神经网络模型改进来提升模型的性能。

参 考 文 献

[1] 柏云爱, 宋大海, 张富强, 等. 油茶籽油与橄榄油营养价值的比较[J]. 中国油脂, 2008, 33(3): 39-41.

[2] 段宇飞, 皇甫思思, 王焱清, 等. 基于机器视觉的油茶果果壳与茶籽分选方法研究[J]. 中国农机化学报, 2020, 41(6): 171-178.

Duan Yufei, Huangfu Sisi, Wang Yanqing, et al. Sorting method of seeds and shells of the camellia oleifera fruit based on machine vision [J]. Journal of Chinese Agricultural Mechanization, 2020, 41(6): 171-178.

[3] 徐克生, 杜鵬东, 汤晶宇, 等. 油茶果预处理装备及发展趋势[J]. 林业机械与木工设备, 2021, 49(4): 8-14.

Xu Kesheng, Du Pengdong, Tang Jingyu, et al. Pretreatment equipment and development trend of camellia oleifera fruit [J]. Forestry Machinery & Woodworking Equipment, 2021, 49(4): 8-14.

[4] 周敬东, 李敏慧, 周明刚, 等. 油茶果的模糊聚类色选算法[J]. 中国农机化学报, 2015, 36(4): 94-99.

Zhou Jingdong, Li Minhui, Zhou Minggang, et al. Color sorting algorithm for camellia oleosa seed recognition based on fuzzy c-means clustering [J]. Journal of Chinese Agricultural Mechanization, 2015, 36(4): 94-99.

[5] 周敬东, 黄云朋, 李敏慧, 等. 一种基于CCD相机的通道式油茶果色选机系统[J]. 中国农机化学报, 2015, 36(5): 128-133.

Zhou Jingdong, Huang Yunpeng, Li Minhui, et al. Channel color sorter of camellia oleifera fruit based on CCD camera [J]. Journal of Chinese Agricultural Mechanization, 2015, 36(5): 128-133.

[6] 吕梦棋, 张芮祥, 贾浩, 等. 基于改进ResNet玉米种子分类方法研究[J]. 中国农机化学报, 2021, 42(4): 92-98.

Lü Mengqi, Zhang Ruixiang, Jia Hao, et al. Research on seed classification based on improved ResNet [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(4): 92-98.

[7] 林丽惠, 魏毅, 潘俊虹. 基于卷积神经网络的武夷岩茶叶片分类方法[J]. 宁德师范学院学报(自然科学版), 2021, 33(4): 363-369.

Lin Lihui, Wei Yi, Pan Junhong. Classification of Wuyi rock tealeaves based on convolutional neural network [J]. Journal of Ningde Normal University (Natural Science), 2021, 33(4): 363-369.

[8] 苏宝峰, 沈磊, 陈山, 等. 基于注意力机制的葡萄品种多特征分类方法[J]. 农业机械学报, 2021, 52(11): 226-233, 252.

Su Baofeng, Shen Lei, Chen Shan, et al. Multi-features identification of grape cultivars based on attention mechanism [J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(11): 226-233, 252.

[9] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84-90.

[10] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [J]. Arxiv Preprint Arxiv: 1409.1556, 2014.

[11] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[12] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift [C]. International Conference on Machine Learning. PMLR, 2015: 448-456.

[13] Zhu X, Cheng D, Zhang Z, et al. An empirical study of spatial attention mechanisms in deep networks [C]. Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 6688-6697.

[14] 王凯诚, 鲁华祥, 龚国良, 等. 基于注意力机制的显著性目标检测方法[J]. 智能系统学报, 2020, 15(5): 956-963.

Wang Kaicheng, Lu Huaxiang, Gong Guoliang, et al. Salient object detection method based on the attention mechanism [J]. CAAI Transactions on Intelligent Systems, 2020, 15(5): 956-963.

[15] 任欢, 王旭光. 注意力机制综述[J]. 计算机应用, 2021, 41(S1): 1-6.

Ren Huan, Wang Xuguang. Review of attention mechanism [J]. Journal of Computer Applications, 2021, 41(S1): 1-6.

[16] 黎万义, 王鹏, 乔红. 引入视觉注意机制的目标跟踪方法综述[J]. 自动化学报, 2014, 40(4): 561-576.

Li Wanyi, Wang Peng, Qiao Hong. A survey of visual attention based methods for object tracking [J]. Acta Automatica Sinica, 2014, 40(4): 561-576.

[17] Choi H, Cho K, Bengio Y. Fine-grained attention mechanism for neural machine translation[J]. Neurocomputing, 2018, 284: 171-176.

[18] 张梦雨. 基于ResNet和注意力机制的花卉识别[J]. 计算机与现代化, 2021(4): 61-67.

Zhang Mengyu. Flower recognition based on ResNet and attention mechanism [J]. Computer and Modernization, 2021(4): 61-67.

[19] Jia Deng, Wei Dong, Socher, et al. ImageNet: A large-scale hierarchical image database[C]. 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009), 248-255.

[20] 黃毅, 段修生, 孙世宇, 等. 基于改进sigmoid激活函数的深度神经网络训练算法研究[J]. 计算机测量与控制, 2017, 25(2): 126-129.

Huang Yi, Duan Xiusheng, Sun Shiyu, et al. A study of training algorithm in deep neural networks based on sigmoid activation function [J]. Computer Measurement & Control, 2017, 25(2): 126-129.

猜你喜欢
注意力机制深度学习
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
软件导刊(2019年1期)2019-06-07 15:08:13
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
软件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一个基于知识库的问答系统
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
现代情报(2016年10期)2016-12-15 11:50:53
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望