基于MobileViT轻量级视觉模型的垃圾自动分类系统设计

2023-12-20 03:00袁斌张超军李晨
包装工程 2023年23期
关键词:垃圾箱准确率卷积

袁斌,张超军,李晨

基于MobileViT轻量级视觉模型的垃圾自动分类系统设计

袁斌,张超军,李晨

(浙江科技学院 机械与能源工程学院,杭州 310023)

针对传统机器视觉网络模型存在的参数量大、效率低、落地难等问题,设计一种更高效的基于轻量级网络模型的垃圾自动分类系统。结构的创新设计可实现4种占比不同的垃圾分类存储和垃圾箱工作模式的自动切换。利用STM32控制机构的电机和多种传感器,与树莓派4B串口通信实现垃圾分类投放,采用云服务器实现小程序端物联网通信,提高管理效率。采用MobileViT轻量级模型在自建数据集上训练,并结合迁移学习,提高模型的训练速度和准确率,与主流模型对比,并验证其可行性。MobileViT模型的准确率可以达到98.01%,实际测试平均单张图像的推理时间为17.8 ms,模型参数量仅为5.6×106;在与轻量化网络MobileNetV3参数量相近的情况下,准确率高出9.25%,各性能指标优于传统ResNet50、AlexNet模型。基于MobileViT轻量级视觉模型的垃圾自动分类系统设计能够更高效地完成垃圾自动分类任务,模型精度和速度满足实际需求,对垃圾分类领域边缘设备非常友好。

垃圾分类;智能垃圾箱;MobileViT;轻量级;迁移学习

随着社会经济的快速发展,居民生活产生了越来越多的垃圾。据统计,我国每年的生活垃圾产量已经从2003年的1.48亿t迅速增长到2019年的2.4亿t,预计未来几年内我国的生活垃圾产量将超过4亿t[1]。由于垃圾种类繁多,传统人工分类方法易出错、效率低,导致我国垃圾分类形势十分严峻。近几年,人工智能在各行各业的应用越来越多,利用机器视觉进行垃圾分类逐渐成为研究热点。由于传统的机器视觉面临着网络模型参数量大、运行时间长等问题,因此并不适合在移动端和嵌入式等边缘端设备上运行。由此,利用深度学习中轻量级神经网络模型来实现垃圾分类成为新的研究方向[2]。

当前很多学者针对垃圾分类已经做了大量研究。例如,宋铁[3]设计了一种基于机器视觉的家庭式智能垃圾桶,根据家用垃圾袋的大小,设计其桶身直径为30 cm,高度为27 cm,内部有4个相同的子箱,提供4种垃圾的存储,识别模块利用主流的VGG16卷积神经网络,在自建数据集上达到了87.2%的准确率。康庄等[4]设计了一种应用于室外基于机器视觉的智能垃圾桶,其桶身由2个半圆桶构成,分别存储可回收和不可回收垃圾,采用太阳能供电的方法,节省了垃圾桶的能源消耗,识别模块使用InceptionV3神经网络模型,在自建数据集上获得了95.7%的准确率。此外,Bircanoglu等[5]对深度学习模型AlexNet、VGG16、GoogLeNet和ResNet分别进行了微调,采用2种不同的分类器Softmax和SVM改变模型结构,在垃圾数据集上测试不同分类器的性能,测试结果表明GoogLeNet+SVM模型在所有模型中表现最好。

尽管基于深度学习模型的垃圾分类研究已经获得了较高的准确率,但是这些高性能的深度学习模型存在参数量大、计算量复杂等问题,并不适合应用于移动端或嵌入式等内存资源有限的边缘端设备[6]。由此,研究人员逐渐将深度学习的研究重点转向轻量级神经网络模型的研究。比如,袁建野等[7]以ResNet模型为基础进行改进优化,在保证准确率不下降的情况下,优化后模型参数量和计算量分别为原来的10%和7%,这对资源有限的边缘设备非常友好。此外,部分学者在垃圾分类领域应用深度学习模型进行了有关研究[8]。尽管一些轻量级神经网络模型在小规模数据集上已经取得不错效果,但在实际应用过程中,往往需要庞大的垃圾数据集作为基础。迁移学习可以将训练好的神经网络模型的通用特征参数迁移到另一个新的模型中,以帮助新的模型获得更好的初始性能、更快的训练速度,在一定程度上可以弥补垃圾数据量不足的问题[9]。由此,这里利用ImageNet数据集先对轻量级模型MobileViT进行分类任务的预训练,再结合迁移学习的思想使用自建垃圾数据对MobileViT模型进行二次训练,从而获得表现更优的训练模型。

文中将结合卷积神经网络(Convolutional Neural Network,CNN)与Transformer架构的MobileViT轻量级深度学习模型作为垃圾识别算法[10],并设计一种应用于室外的垃圾自动分类系统。根据我国生活垃圾分类标准及不同类别垃圾占比的不同[11],将垃圾箱设计为4个不同大小的子箱,并合理分配内部存储空间。该垃圾分类系统将STM32作为控制板,控制步进电机、舵机及多种传感器等元器件,结合用于部署MobileViT轻量级模型的树莓派4B串口通信,实现垃圾自动分类投放、垃圾箱容量检测及蓄电池电量监测等多项功能。此外,为了确保垃圾能够被及时清理,文中还设计开发了一款小程序,以帮助管理员实时查看垃圾箱的使用情况,进一步提升管理效率。

1 系统总体设计

1.1 机械结构设计

基于垃圾自动分类和低碳环保的初衷,并考虑目前相关设计和研究的不足,提出一种新的分类更精准、更高效的垃圾自动分类系统。整体结构三维图由SolidWorks软件绘制,具体的三维结构和实物如图1所示。整个垃圾箱的长度为80 cm、宽度为60 cm、高度为145 cm。结合我国生活垃圾分类情况统计及适用场景,将垃圾箱内部划分为4个大小不同的区域,从大到小依次为厨余垃圾、可回收物、其他垃圾和有害垃圾。此外,根据实际需求的不同,使用者也可自由调整空间分配。

图1 垃圾箱三维结构与实物

智能垃圾分类系统主要由以下模块组成,其系统工作流程如图2所示。

1)采集模块。将单目摄像头安装在垃圾箱入口正上方,用于采集垃圾的图像数据。

2)分类模块。树莓派4B用于部署轻量级深度学习模型,完成垃圾的图像识别工作,并将识别结果发送给下位机执行。

3)感知模块。主要由多种传感器组成,用于获取垃圾箱的存储信息、开关信息和光照信息等。其中,电压检测传感器可检测蓄电池的剩余电量,以便切换工作模式。

4)电源模块。整个系统由太阳能板和蓄电池提供稳定电源,摆脱了传统智能垃圾箱需要布线的地域限制,从而节省了成本。

5)微处理器。将STM32开发板用于处理传感器等元器件的感知数据,并发送指令控制整个设备的运行。

6)电机。系统电机包括2种,一种为步进电机,将安装在丝杆滑台上的垃圾托盘运送到指定位置;另一种为舵机,控制垃圾托盘的转动和垃圾箱盖的开合。

7)通信模块。用于云服务器的物联网信息传输,实现对垃圾箱的远程监控。

图2 系统工作流程

1.2 硬件控制系统设计

1.2.1 多传感器检测

传感器是智能垃圾分类箱在完成复杂任务时必不可少的电子元件。在设计的垃圾箱内安装HC-SR04超声波传感器,其探测距离为2~400 cm,采用I/O口TRIG触发测距。当检测到有信号返回时,将通过I/O口ECHO输出1个高电平,高电平持续时间即为超声波从发射到返回的时间,根据时间计算距离,见式(1)。

式中:为高电平持续时间;为声速,通常取340 m/s。

根据箱体的实际大小,将4个超声波传感器分别安装在不同子箱体的正上方约20 cm处,设定检测距离为26.8 cm。当垃圾分类箱的剩余容量小于20%时,STM32控制板将通过ESP8266WiFi模块向云服务器发送信息。此时,小程序端将收到同步信息,并提醒管理人员该垃圾箱即将满溢,必须及时清理。为了保证智能垃圾箱仅在有投放垃圾人员靠近时才进行识别工作,在垃圾投放入口旁安装1个超声波传感器和光敏传感器,分别判断是否有人靠近投放垃圾,以及是否需要开启灯光,设定超声波检测距离为30 cm。光敏传感器能够控制LED灯的开关,以实现白天和夜晚垃圾箱的正常工作。

1.2.2 电源电量智能监测

这里提供一种智能垃圾箱节能控制系统及方法,采用太阳能板和蓄电池提供电源。为了解决传统太阳能供电不足的问题,设计了一种蓄电池电量智能监测系统,其检测流程如图3所示。INA226电压电流监控器模块通过I2C协议与STM32控制板通信,可检测0~36 V范围内电源总线上的电压,通过普通蓄电池电压与电池电量的关系,实时检测判断蓄电池的剩余电量[12-13]。当检测到电源电量小于或等于20%时,INA226模块将会触发控制程序,打开垃圾箱的箱盖,进入手动工作模式。当INA226模块检测到电池电量大于或等于80%时,垃圾箱盖将会关闭,恢复自动识别工作模式。基于该逻辑,实现了2种工作模式的自动切换,避免了传统太阳能垃圾箱存在的缺点。

1.2.3 电机驱动与控制

步进电机由STM32控制,控制板通过TB6600型驱动器驱动步进电机转动,带动滚珠丝杆转动,使安装在丝杆滑台上的垃圾托盘做横向移动,在运动到对应的垃圾子箱旁边时停止。舵机的型号为MG995,其工作扭矩为1.27 N·m,转动角度为180°,由STM32控制板控制。根据识别的垃圾种类控制安装在滑台上的舵机转动45°,在重力作用下倾斜的垃圾将被倒入指定子箱。控制垃圾箱盖开关的电机选择同型号舵机,分别安装在前后两端控制2个箱盖。

图3 电源电量检测流程

1.3 上位机软件设计

为了方便垃圾箱管理人员查看管理垃圾箱,采用物联网技术,通过云服务器实现人与物的实时交互。利用ESP8266WiFi模块将硬件控制设备与网络云平台相连接,环卫人员可通过小程序实时查看垃圾箱的容量状态。在垃圾箱容量即将满溢时环卫人员会收到提醒,便于及时清理垃圾,这在一定程度上节省了人力成本,并提高了工作效率。小程序界面如图4所示。

图4 小程序界面

2 MobileViT轻量级视觉模型

2.1 数据集制作

基于现实生活中的应用场景,数据主要来源于人员较集中的场所,如校园、公交车站、公园等,并涵盖了20种常见的生活垃圾,如矿泉水瓶、口罩、果皮等。根据我国城市生活垃圾分类标准的要求,将20种垃圾划分为厨余垃圾、可回收物、其他垃圾和有害垃圾四大类[14],每类垃圾的具体数量如表1所示。数据集的来源为网络及手机拍照,共收集垃圾图像8 500张,平均每种垃圾有425张图像,将数据集按照8∶2的比例划分为训练集和测试集,分别包含6 800张和1 700张图像。

2.2 MobileViT视觉模型

CNN在学习图像表征信息方面有着天然的归纳偏置优势(权重参数共享与平移不变性),在一些资源有限的视觉分类任务中具有较广泛的应用,但CNN只能在空间信息域建立局部依赖关系。基于自注意力机制的视觉转换器(Vision Transformer,ViT)模型对输入特征图具有捕捉全局感受野的能力,能够在空间维度上建立全局依赖关系,从而学习到全局视觉表征信息,但基于自注意力机制的网络结构通常具有较大的参数量和计算量[15]。针对上述2点,MobileViT模型能够有效结合CNN模型的归纳偏置优势和ViT模型的全局感受能力,同时具有轻量化网络的特点,比较适合应用于智能垃圾箱这种资源有限的边缘端设备中,MobileViT网络架构如图5所示。

表1 垃圾图像数据集

Tab.1 Garbage image data set

图5 MobileViT网络架构

从图5可以看出,MobileViT模型的核心组成为MobileViT block,它通过结合应用CNN和ViT,能够更好地获取局部表征(Local representations)和全局表征(Global representations)的视觉信息。MobileViT的初始层是一个卷积核为3×3的卷积层,其下采样操作的stride取值为2。然后连接初始层的是MV2层和MobileViT block模块,MV2是MobileNetV2模型中的一种倒残差网络结构,其特征图的维度先升后降,维度更高时经激活函数后,损失的信息将会变少[16]。MobileViT模型的关键是MobileViT block,首先将特征图通过一个卷积核为3×3的卷积层进行局部特征建模,然后通过一个卷积核为1×1的卷积层来调整通道数量,并通过Unfold、Transformer和 Fold操作对结构进行全局特征建模,随后再利用一个卷积核为1×1的卷积层将通道数量调整回原始大小,接着通过捷径分支与原始输入特征图进行拼接(沿通道方向),最后再通过一个卷积核为3×3的卷积层进行特征融合,从而得到其输出。为了能够将MobileViT模型应用到文中的垃圾分类任务中,将MobileViT模型进行一定改动,使其输出层为1×1×20。改动后的MobileViT模型结构如表2所示。

表2 MobileViT结构

Tab.2 MobileViT structure

3 实验与结果分析

3.1 实验环境与设置

数据集训练使用的电脑为64位Windows10系统,配置为i5-12500H,8 GB内存,GPU为NVIDIA RTX 3060显卡,4 GB独立显存。电脑运行环境为11.1版本的CUDA,Pytorch深度学习框架,其版本为1.10.1。在实验训练过程中,将原始图经过中心裁剪后得到256×256的模型输入。模型训练采用AdamW优化算法,设置学习率(LR)为0.001,训练周期(Epoch)为200轮,批次(batch size)为32,正则化系数为0.01。

3.2 训练结果与分析

为了验证MobileViT模型相较于当前应用广泛的AlexNet、ResNet50和MobileNetV3模型具有更高的性能,更加适合应用于垃圾分类领域中资源有限的边缘设备,这里采用相同的自建数据集对目前部分主流网络模型分别进行了训练,结果见表3和图6。

表3 不同模型的实验结果

Tab.3 Experimental results of different models

图6 不同模型训练精度

从表3和图6可知,经过200轮训练后,MobileViT模型的准确率为92.05%,MobileNetV3模型的准确率为88.76%,ResNet50模型的准确率为90.13%,AlexNet模型的准确率为75.89%。与MobileNetV3模型相比,MobileViT模型在参数量和模型大小相近的情况下,其准确率高出3.29%。与ResNet50模型相比,MobileViT模型的准确率与其相近,但ResNet50模型的参数量和模型大小却是MobileViT模型的4.5倍和4.7倍,这对于资源有限的嵌入式设备并不友好。此外,相较于AlexNet模型,MobileViT模型在准确率、模型参数量、模型大小等方面均明显占优。显然,综合多方面来看,MobileViT轻量级视觉模型与目前部分主流网络模型相比,表现出更好的性能,更适合于移动端和嵌入式等这类资源有限的垃圾分类智能设备。

此外,在数据集有限的情况下,为了使模型更快收敛,并获得更好的性能,MobileViT模型的训练将结合深度学习中的迁移学习思想来提高其性能表现。这里先采用ImageNet数据集对MobileViT模型进行分类任务的预训练,使其预先获得良好的图像特征提取能力,得到一个预训练权重。然后,重新构建MobileViT模型,加载预训练权重,并将其输出层调整为20,以对应文中自建数据集的垃圾种类数量。最后,使用自建数据集对MobileViT模型进行二次训练,并输出保存最终的模型权重。对比分析了模型训练过程中的准确率和损失值,其训练过程如图7所示。

由图7可知,经过200轮训练后,基于迁移学习思想训练的MobileViT模型的准确率达到98.01%,而未使用迁移学习方式训练的MobileViT模型的准确率为92.05%,二者相差5.96%。显然,迁移学习训练的应用使得模型的准确率在数据集不变的情况下得到明显提高。此外,基于迁移学习训练的MobileViT模型,其训练过程更快趋于稳定,损失值更快趋于收敛,这从侧面充分表明迁移学习应用的必要性。

图7 MobileViT模型训练精度与损失

3.3 模型测试与分析

为了得到MobileViT模型实际识别推理所耗费的时间,从实际生活环境中获取了100张垃圾图像进行测试,并将其划分为20种垃圾图像,每种类别各含5张照片(不同角度、不同光照下)。经实际验证统计,平均每张图像的推理时间约为17.8 ms,部分测试结果如图8所示。

图8 部分垃圾图像测试结果

4 结语

针对传统机器视觉在垃圾分类领域存在的问题,从视觉模型、控制系统逻辑及上位机软件等方面着手,设计了一种更为高效的智能垃圾分类装置,有效提高了垃圾识别的准确率及垃圾分类的管理效率。

1)视觉模型采用MobileViT轻量级视觉模型,它在自建数据集的训练准确率达到92.05%,明显优于部分主流模型。在此基础上引入了迁移学习,进一步将模型识别准确率提高到98.01%,从而获得一个性能更优的视觉模型。

2)控制系统以STM32单片机为主控芯片,结合多电机和多传感器检测技术,通过树莓派4B串口通信,能够实现垃圾自动分类、设备能源自给和工作模式自动切换等多项功能。

3)上位机软件结合先进的云服务技术,实现了小程序端物联网通信,有效提高了智能垃圾分类装置的管理效率,进一步提高了垃圾自动分类系统的应用价值。

[1] 孙晓杰, 王春莲, 李倩, 等. 中国生活垃圾分类政策制度的发展演变历程[J]. 环境工程, 2020, 38(8): 65-70.

SUN Xiao-jie, WANG Chun-lian, LI Qian, et al. Development and Evolution of China's Domestic Waste Classification Policy System[J]. Environmental Engineering, 2020, 38(8): 65-70.

[2] MA Han-xu, YE Yong, DONG Ji, et al. An Intelligent Garbage Classification System Using a Lightweight Network MobileNetV2[C]// 2022 7th International Conference on Signal and Image Processing (ICSIP) Suzhou, China IEEE, 2022: 531-535.

[3] 宋铁. 基于机器视觉的家庭智能分类垃圾桶设计研究[D]. 上海: 东华大学, 2019: 51-58.

SONG Tie. Research on Design of Household Intelligent Classified Trash Bin Based on Machine Vision[D]. Shanghai: Donghua University, 2019: 51-58.

[4] 康庄, 杨杰, 郭濠奇. 基于机器视觉的垃圾自动分类系统设计[J]. 浙江大学学报(工学版), 2020, 54(7): 1272-1280.

KANG Zhuang, YANG Jie, GUO Hao-qi. Automatic Garbage Classification System Based on Machine Vision[J]. Journal of Zhejiang University (Engineering Science), 2020, 54(7): 1272-1280.

[5] BIRCANOĞLU C, ATAY M, BEŞER F, et al. RecycleNet: Intelligent Waste Sorting Using Deep Neural Networks[C]// 2018 Innovations in Intelligent Systems and Applications (INISTA) Thessaloniki, Greece IEEE, 2018: 1-7.

[6] 康欢. 基于深度学习的生活垃圾分类算法和移动端系统设计[D]. 广州: 广东工业大学, 2021: 1-7.

KANG Huan. Classification Algorithm of Domestic Waste Based on Deep Learning and Design of Mobile Terminal System[D]. Guangzhou: Guangdong University of Technology, 2021: 1-7.

[7] 袁建野, 南新元, 蔡鑫, 等. 基于轻量级残差网路的垃圾图片分类方法[J]. 环境工程, 2021, 39(2): 110-115.

YUAN Jian-ye, NAN Xin-yuan, CAI Xin, et al. Garbage Image Classification by Lightweight Residual Network[J]. Environmental Engineering, 2021, 39(2): 110-115.

[8] CHEN Zhi-chao, YANG Jie, CHEN Li-fang, et al. Garbage Classification System Based on Improved ShuffleNet V2[J]. Resources, Conservation and Recycling, 2022, 178: 106090.

[9] 李金玉, 陈晓雷, 张爱华, 等. 基于深度学习的垃圾分类方法综述[J]. 计算机工程, 2022, 48(2): 1-9.

LI Jin-yu, CHEN Xiao-lei, ZHANG Ai-hua, et al. Survey of Garbage Classification Methods Based on Deep Learning[J]. Computer Engineering, 2022, 48(2): 1-9.

[10] MEHTA S, RASTEGARI M. MobileViT: Light-Weight, General-Purpose, and Mobile-Friendly Vision Transformer[EB/OL]. 2022: https://arxiv.org/abs/2110.02178.

[11] 李海丹, 郑丽萍, 周涵, 等. 我国生活垃圾组分的时空分布特征回顾[J]. 环境工程, 2022, 40(9): 126-134.

LI Hai-dan, ZHENG Li-ping, ZHOU Han, et al. Review on Temporal and Spatial Distribution Characteristics of Domestic Waste Components in China[J]. Environmental Engineering, 2022, 40(9): 126-134.

[12] 付华圆. 电动汽车蓄电池剩余电量估计算法的研究与实现[D]. 杭州: 杭州电子科技大学, 2011: 17-21.

FU Hua-yuan. Research and Implementation of Estimation Algorithm for Battery Remaining Power of Electric Vehicle[D]. Hangzhou: Hangzhou Dianzi University, 2011: 17-21.

[13] 吉炫玮. 基于STM32的蓄电池充放电控制及无线监测系统的设计[D]. 银川: 北方民族大学, 2018: 34-38.

JI Xuan-wei. Design of Battery Charging and Discharging Control and Wireless Monitoring System Based on STM32[D]. Yinchuan: Beifang University of Nationalities, 2018: 34-38.

[14] 李钧泽, 刘中梅. 我国城市生活垃圾分类制度现状及法律对策[J]. 科学发展, 2022(11): 92-97.

LI Jun-ze, LIU Zhong-mei. Present Situation and Legal Countermeasures of Municipal Solid Waste Classification System in China[J]. Scientific Development, 2022(11): 92-97.

[15] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale[EB/OL]. 2020: https://arxiv.org/ abs/2010.11929.

[16] SANDLER M, HOWARD A, ZHU Meng-long, et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA IEEE, 2018: 4510-4520.

Design of Automatic Garbage Classification System Based on MobileViT Lightweight Visual Model

YUAN Bin,ZHANG Chao-jun,LI Chen

(School of Mechanical and Energy Engineering, Zhejiang University of Science and Technology, Hangzhou 310023, China)

The work aims to design a more efficient automatic garbage classification system based on the lightweight network model to solve the problems of the traditional machine vision network model, such as large number of references, low efficiency and difficult landing. The innovative design of the structure could realize the automatic switching of four kinds of garbage classification and storage with different proportions and the working mode of the garbage bin. The STM32 control mechanism motor and a variety of sensors were used to communicate with the Raspberry PI 4B serial port to realize garbage classification and delivery. The cloud server realized the Internet of Things communication at the small program side to improve management efficiency. The MobileViT lightweight model was used to train on the self-built data set, and the training speed and accuracy of the model were improved by combining transfer learning. The feasibility was verified by comparing the model with the mainstream model. The accuracy of MobileViT model could reach 98.01%, the average reasoning time of a single image in the actual test was only 17.8 ms, and the number of model parameters was only 5.6×106. The accuracy was 9.25% higher than that of lightweight network MobileNetV3 under the similar parameters. The performance indexes were better than those of traditional ResNet50 and AlexNet models. The design of automatic garbage classification system based on MobileViT lightweight visual model can complete the task of automatic garbage classification more efficiently. The accuracy and speed of the model meet the actual demand, and it is very friendly to the edge equipment in the field of garbage classification.

garbage classification; smart garbage bin; MobileViT; lightweight; transfer learning

TP23;TB486

A

1001-3563(2023)23-0208-08

10.19554/j.cnki.1001-3563.2023.23.025

2022-12-08

国家自然科学基金(62103340)

责任编辑:彭颋

猜你喜欢
垃圾箱准确率卷积
洗扫车垃圾箱体及过滤装置优化研究
基于3D-Winograd的快速卷积算法设计及FPGA实现
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
垃圾箱的变化
从滤波器理解卷积
高速公路车牌识别标识站准确率验证法
基于傅里叶域卷积表示的目标跟踪算法
基于PLC的自动降解垃圾箱压缩粉碎模块的设计