基于ResNet⁃18网络的城市生活垃圾识别方法研究

2023-03-30 08:52金张根于红绯孙才华
现代计算机 2023年2期
关键词:查全率查准率集上

金张根,曹 杨,于红绯,孙才华,刘 克

(1.辽宁石油化工大学人工智能与软件学院,抚顺 113001;2.辽宁石油化工大学信息与控制工程学院,抚顺 113001)

0 引言

我国人口基数大、地域发展不平衡,在一些较为发达的地区,多数垃圾会被无害化回收处理。欠发达地区垃圾往往采用堆填埋的方法处理,这导致大量土地被垃圾所占用,进而导致土壤和地下水被污染[1]。垃圾分类作为一种有效防止垃圾污染,实现垃圾资源化的手段,既能实现资源的重复利用,又能给社会带来经济效益。所以一个准确且高效的智能垃圾分类系统对提高生态文明建设有着极其重要的作用[2]。

当前对于垃圾分类识别的研究有许多种方法,但最主要的两种研究方法,一是基于手工特征的垃圾特征识别;二是基于神经网络的生活垃圾识别。其中,通过卷积神经网络来进行垃圾分类是较为高效的。卷积神经网络(CNN)在计算机视觉领域扮演着非常重要的角色,在图像分类、语义分割等方面取得了显著的成就[3]。Yann Lecun 在1998 年提出来了基于CNN架构的结构简单的LeNet5 模型[4],该模型很好地解释了CNN网络所包含的主要结构,如输入层、卷积层、全连接层、输出层。2012年Krizhevsky等[5]提出了AlexNet 网络,网络中包含的ReLU激活函数使模型收敛的速度更快,

并且提出了通过数据增强和Dropout 来解决训练过程中的过拟合问题。2014 年,VGG 模型诞生,多个卷积层加一个最大池化层的模型使得网络模型得到了更深的扩展[6]。2014 年NiN网络出现[7],增加了模型的非线性拟合能力和特征信息的提取能力。同年GoodLeNet模型被提出,该模型主要提出了Inception 结构的模块[8],提出了多尺度卷积变换的思想,减少了计算量,并且提高了精准度。2015 年He 等[9]提出了残差网络模型ResNet,在一定程度上解决了深度网络在训练中准确率过低的问题,进一步提高了特征提取的能力。

城市生活垃圾图像的信息丰富、目标尺寸多变,同类目标之间和不同类目标之间尺寸差别较大,并且目标形状不规则,这些因素影响着不同目标的分类精度。

本文使用了深度学习的方法对城市生活垃圾进行识别研究。使用ResNet‑18 卷积神经网络搭建城市垃圾分类模型,采用经过预处理的Kaggle 数据集作为识别对象,进行模型的优化和评估,最终探讨模型用于城市垃圾分类。

1 ResNet原理及网络结构

ResNet 残差网络是卷积神经网络中最为经典的模型之一。该网络通过在输入层和输出层之间添加跳跃链接层来有效解决卷积神经网络随着层数增加出现的梯度消失或梯度爆炸问题,能有效控制网络收敛飞速下降和模型的泛化能力降低等一系列问题。ResNet 网络提升了训练超深神经网络的速度,在深度增加的同时网络性能也得以极大的提升。

ResNet 网络提出“恒等映射”原理的目的是使网络在增加层数的同时训练误差Loss 不会增加。原始状态是网络输入x,得到输出为H(x),通过残差函数F(x)=H(x) -x,设置训练目标将F(x)逼近于0,将其进行转化,得到H(x)=F(x) +x,如图1所示。

图1 残差块结构原理

ResNet‑8 网络是最为经典的卷积神经网络,网络结构如表1 所示,假设输入图片的维度为(224,224,3),经过第一层Conv_1x 输出图像为(112,112,64),然后经过Conv_2x的极大池化层使得参数减少一半,此时图像的维度变为(56,56,64),使用四层相同的卷积层处理图像大小维度不变,依然为(56,56,64);到达第三层Conv_3x,卷积核的数量为128,最后输出的图像大小为(28,28,128);到达第四层Conv_4x,卷积核数量为256,经过特征提取之后的图像大小维度变为(14,14,256);同样地,到达第五层Conv_5x 时卷积核数量为512,经过处理后的图像大小维度为(7,7,512),最后到达全连接层使得图像的维度变为(1,1,512)。

表1 ResNet18网络结构表

2 数据预处理和ResNet模型搭建

2.1 数据集获取

本文采用2000年发布的使用最为广泛的垃圾分类Kaggle 数据集进行城市垃圾分类识别自动检测研究的数据集。Kaggle 数据集中主要包含城市中常见的生活垃圾,分别为可回收垃圾、厨余垃圾、有害垃圾、其他垃圾四类。提取了每种垃圾的一张图片作为范例,如图2所示。

图2 Kaggle数据集样本图

实验使用监督学习的方法对神经网络模型进行训练。为每类分类识别数据设定了对应的标签,如表2所示。

表2 数据集中不同垃圾对应的不同标签

2.2 ResNet⁃18模型搭建

本文采用ResNet‑18 的网络结构进行生活垃圾分类实验网络搭建,网络结构见图3。

图3 ResNet⁃18卷积神经网络

此网络模型中包括卷积层和全连接层在内,共有带有权重的18 层,但不包括池化层和BN层。首先,ResNet‑18 网络中数据需要经过一个7×7的卷积层,然后经过四个残差块,每个残差块是由四个3×3 的卷积层构成,最后经过平均池化层(Avg pool)后得到结果。

3 网络模型性能分析与评估

本研究硬件配置信息如下,实验电脑的基本配置为:CPU 为Intel(R)Core(TM)i7‑9750H、内存为16 GB DDR4、显卡为GTX 1660Ti、操作系统为64 位Windows 10,编程软件为PyCharm,框架为Pytorch。

3.1 网络模型性能分析

选取Kaggle 数据集作为模型的输入,该数据集中包含2940 张不同种类的生活垃圾图片,图片的大小均为256×256。将数据集按照7∶3的比例分为训练集和验证集。通过多次实验确定各个参数,其中epoch 为150,学习率lr 为0.001,训练的Batch_Size 为32,Dropout 的断开概率为0.5。

图4 是ResNet‑18 神经网络在训练集和验证集上的准确率虽训练次数的变化。从图4可以看出,训练过程中ResNet‑18 神经网络在城市垃圾训练集和验证集上的准确率都是随着训练次数的增加呈现先快速增加后缓慢增加的趋势,最后收敛。多次实验表明,模型的准确率可达90%以上,且验证曲线基本上与训练的曲线一致,说明优化参数之后的神经网络拟合能力较好,识别各种生活垃圾的准确率达到了较为理想的效果。

图4 ResNet⁃18在训练集和验证集上的准确率

图5为神经网络在训练集和测试集上的Loss损失率随训练次数的变化。实验表明,优化参数后的神经网络在训练集和验证集上的Loss 损失随着训练次数的增加先快速减小后缓慢减小,最后接近收敛。训练集上的Loss 损失降低至0.25,验证集的Loss损失减低至0.43,验证曲线基本上与训练的曲线趋势一致,拟合度较高,说明优化参数之后的神经网络拟合能力亦有所提升,识别垃圾分类的错误率明显降低。

图5 ResNet⁃18在训练集和验证集上的损失

3.2 模型评估

模型评估将预测正确的样本划分为一类,预测错误的样本划归另外一类。即将多分类问题转变成了二分类问题。根据预测结果可将所有样本分为四大类,即真实情况的正例、真实情况的反例、学习器预测出的正例、学习器预测出的反例,如表3所示。通过以上四个参数并不能直接判断模型的优劣,需进一步通过其组合形成的评估指标中的查准率P和查全率R确定模型的适用性。

表3 分类结果矩阵

查准率P(precision)表示预测正确的正样本占所有预测为正例的比例,能反映完全正确的样本的正确比例,是预测的底线。其计算公式如式(1)所示:

查全率R(recall)表示预测正确的正样本占所有真实的结果为正例的比例,其计算公式如式(2)所示:

本文使用ResNet‑18 卷积神经网络识别城市生活垃圾的查准率和查全率的P-R关系如图6所示,P-R 曲线反映出模型的平衡点出现在查全率在0.8、查准率在0.89 的时候,此时模型的综合性能最佳,同时具备较好的泛化能力,对种类繁多、样式各异的城市生活垃圾有较好的识别能力,结合本模型在验证集上的准确率达到90.0%以上,此模型适合于城市垃圾分类识别的研究。

图6 ResNet⁃18神经网络垃圾分类识别P-R曲线

4 结语

卷积神经网络可用于城市垃圾分类自动识别并具有较高的准确度。本文将Resnet‑18 卷积神经网络模型应用到城市生活垃圾的分类识别研究中。实验结果表明,该模型在Kaggle 生活垃圾数据集上的训练准确率到达90.0%,Loss损失可低至0.43。查准率和查全率两项模型评价的指标显示,模型的平衡点约在查全率为0.8、查准率为0.89 的时刻,其查准率和查全率皆比较理想。该模型的性能较好、泛化能力较强,为进一步对各类城市垃圾的自动识别分类提供了参考依据。

猜你喜欢
查全率查准率集上
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
海量图书馆档案信息的快速检索方法
基于数据挖掘技术的网络信息过滤系统设计
基于词嵌入语义的精准检索式构建方法
大数据环境下的文本信息挖掘方法
复扇形指标集上的分布混沌
基于深度特征分析的双线性图像相似度匹配算法
几道导数题引发的解题思考
基于Web的概念属性抽取的研究