基于深度残差网络ResNet的废料瓶分类系统

2020-07-25 06:56王浩
科技与创新 2020年14期
关键词:废料残差卷积

王浩

基于深度残差网络ResNet的废料瓶分类系统

王浩

(武汉理工大学 信息工程学院,湖北 武汉 430070)

为探索深度学习在资源回收领域中的应用,采用深度残差网络ResNet18网络模型将废料瓶分类为塑料瓶、金属瓶、玻璃瓶、纸瓶四类。在图像采集过程中,利用Opencv识别出主体对象,并去除多余的背景,将图像预处理为224×224矩阵数据,以减少模型运算量,再以TF2.0框架为后台搭建ResNet18残差网络,并在卷积层后激活函数前增加BN层减少模型训练时间。最终基于深度残差网络ResNet18的废料瓶分类识别正确率为89.4%,实现了对废料瓶子的有效分类,但识别正确率仍有待提高。

废料瓶分类;Opencv;深度学习;ResNet18

1 引言

在再生资源回收领域,废料瓶是生活中最主要的可回收利用资源。资料显示,中国每年需要生产的包装瓶数量在 2 000亿个左右。但在实际回收操作中,由于人工分类废料瓶成本较高,使得废料瓶的回收率不高。

计算机硬件水平以及运行速度的提升,使得计算机图像数据处理能力不断提高。由机器视觉加深度学习的图像处理逐渐可替代人的重复性识别劳动,与人眼识别相比,深度学习识别图像的能力与准确度更强,深度学习中的卷积神经网络模型(CNN)由最初的LeNet模型到 AlexNet、VGGNet、InceptionNet再到ResNet,模型的深度逐渐加深,识别准确率逐渐提高。所以,本文采用训练深度残差网络ResNet网络模型实现对废料瓶的识别分类。

2 总体方案设计

本文所用数据集来源为像机采集与网络图片爬取,并将采集到的数据在图像预处理过程中进行数据增强,避免因为训练样本数据量小而模型过于复杂出现过拟合使测试集准确率降低。由此建立数据集塑料瓶、金属瓶、玻璃瓶、纸瓶共4个类别,按训练样本集与测试集比例8∶2进行分类。为尽可能缩小模型运算量并保留数据集中有效的特征,本文先对图像中待识别的主要物体进行目标定位、高斯模糊二值化与框选裁剪掉多余背景留下主体的256×256像素RGB图像。在实际模型建构中,考虑到训练条件的影响,为提高模型收敛速率缩短模型训练时间,在ResNet模型中添加了BN层,最后输入测试样本集进行模型训练,并用测试集进行模型测试,直至测试达到正确率方可应用。

3 数据预处理

3.1 数据集采集

本文在数据集采集中为了减少背景噪声对识别正确率的影响,人工拍摄时背景为白色。因人力劳动资源有限,无法获得大量的废料瓶数据训练模型。在深度学习模型训练过程中,随着模型深度的逐渐提高,意味着训练模型的数据集数量也需适应模型的复杂程度而逐渐增大。深度残差ResNet18网络模型在训练过程中需要数量极大的训练样本数据集,否则会加大因为输入数据量过小出现过拟合的可能,导致在测试集测试时模型预测正确率下降,所以本文在图像预处理中采取了将数据集进行数据增强以扩展数据集数量的方法,同时数据增强也有利于提高模型的泛化能力。

3.2 图像预处理

图像预处理如图1所示。由于现实拍摄图像的尺寸过大,往往背景比废料瓶主体部分还要大,为了减少无用数据量和模型的运算量,并尽可能保留图像的主体特征,本文在图像预处理过程中对图像背景进行裁剪。具体实现步骤如下:①首先将输入的RGB图像转化为单通道灰度图像,并对灰度图进行高斯模糊处理(将灰度图像每个像素与高斯分布进行卷积),增强图像在不同比例大小下的图像效果并弱化反光点,有助于接下来保证二值化操作的准确性。得到图像如图1(a)所示。②再对图1(a)进行二值化,并将图像进行黑白反色得到图像,如图1(b)所示。③对图像(b)进行主体的轮廓识别,得到图像主体轮廓的边界矩形。④将图像裁剪为256×256像素的RGB图像,如图1(d)所示。

4 深度残差网络ResNet

4.1 残差网络概述

在CNN网络结构的发展中,基本思想为通过不断加深网络层数以丰富特征的层次,来提高分类精度。但简单地堆叠层数不但没提高模型的精度反而导致出现梯度消失问题。

2015年何恺明及其团队提出深度残差网络ResNet,可将模型层数提高到上百层,ResNet残差网络不再让下一层直接拟合我们想得到的底层映射,而是令其对一种残差映射进行拟合。其核心思路为:对一个准确率达到饱和的浅层网络,在它后面加几个输出等于输入的恒等映射层,增加网络深度的同时不增加误差。这使得神经网络的层数又可以继续加深,提高了准确率。

ResNet模型仍然沿用了VGG网络的多个3×3小卷积核的结构方法,这使得ResNet模型的计算量变得更小,且相比于其他网络尺寸较大的5×5卷积核来说,小卷积核对提取的特征具有更好的表征能力。

4.2 网络构建

在代码编写中恒等映射的具体实现方法分为两种情况,当两层堆叠卷积没有改变特征图的维度时可直接将前一层的输出叠加到当前层;相反,当两者改变了特征图维度时,则需要对前一层的输出用1×1的卷积核进行降维后再与当前层相加。

ResNet模型逐渐加深了CNN网络结构的同时,模型中需要迭代确定的权重、训练中需要计算的复杂度也随之增加,导致训练时资源占用过多,对训练设备的要求也高,训练效率低。

本文为了提高模型训练时的收敛速率,缩短了模型的训练时间。在ResNet网络模型的卷积层后增加批标准化BN层,即把神经网络每层的输入进行数据预处理为符合均值为0、标准差为1的分布,因此经过BN层后的数据落入到非线性激活函数后对输入变化更敏感的区域,从而减少了模型的过拟合,避免模型出现梯度爆炸的问题。另外添加BN操作后就不需要Dropout进行随机踢出神经元的过程,BN层能替代Dropout层实现抑制模型的过拟合,添加BN层后,模型训练时间缩短,收敛速率加快。

5 实验结果分析

在本文实际实现过程中,首先使用相机拍摄与网络爬取获得废料瓶图像数据,经过数据增强与图像预处理后制作成ResNet模型可用的三通道矩阵数据集,并在ResNet残差网络的卷积层后增加BN层提高收敛速率,将三通道矩阵样本集送入ResNet网络模型中进行残差神经网络模型训练,再用测试数据集调用模型验证生成的残差神经网络识别废料瓶的准确率。经过测试集测试结果表明本文方案将废料瓶分类为塑料瓶、金属瓶、玻璃瓶、纸瓶四类的准确率为89.4%。

6 结语

本文采用深度残差网络ResNet18网络模型并为避免模型训练过程中出现过拟合的现象,在网络的卷积层后增加BN层以减少模型的训练时间方便进行模型训练,有效实现了将废料瓶分类为塑料瓶、金属瓶、玻璃瓶、纸瓶四类的目的,经过测试集测试,识别正确率为89.4%,有助于解决废料瓶分类领域中人工劳动价值比分类所获价值更高的窘境,可应用于工业分拣废品系统中。

因在实际过程中采集图像较困难,本文网络采集的部分数据集中出现图像与标签不一致现象,使模型适应性降低,导致相比较于深度学习在其他方面的应用,本文所训练的模型正确率仍有待提升。

[1]林云森,范文强,姜佳良.基于深度学习的水果识别技术研究[J].光电技术应用,2019,34(6):45-48,58.

[2]李力涵.基于计算机视觉的智能废料瓶分类系统[D].杭州:浙江工商大学,2019.

[3]杨剑,刘方涛,张涛,等.基于改进型残差网络烟雾图像识别[J].科学技术与工程,2019,19(32):236-243.

X705;TP391.41

A

10.15913/j.cnki.kjycx.2020.14.026

2095-6835(2020)14-0071-02

〔编辑:王霞〕

猜你喜欢
废料残差卷积
一种精冲模中向上排出废料的创新设计方案
基于系统动力学的建筑废料回收管理*
基于全卷积神经网络的猪背膘厚快速准确测定
基于残差-注意力和LSTM的心律失常心拍分类方法研究
冲压生产线中“卡料”问题的解决措施
融合上下文的残差门卷积实体抽取
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
基于残差学习的自适应无人机目标跟踪算法