基于语音交互与图像识别的多功能垃圾分类系统设计

2023-11-22 11:41李澥范斌年余峻锋曹志贤
现代信息科技 2023年19期
关键词:树莓派垃圾分类图像识别

李澥 范斌年 余峻锋 曹志贤

摘  要:随着社会的进步和人们生活水平的提高,垃圾的产生量也随之增加,意味着资源消耗量不断加大,垃圾分类刻不容缓。但垃圾分类政策实施以来,分类效果不佳,依然存在分类难、效率低等问题。为此,文章提出采用计算机视觉技术、CNN卷积神经网络以及语音交互进行垃圾图像识别以实现垃圾分类。使用树莓派驱动外接摄像头采集垃圾图像,上传图像并解析返回结果,使用STM32单片机作为底层驱动核心板驱动电机,完成对单个目标的分类。

关键词:树莓派;STM32;垃圾分类;语音交互;图像识别

中图分类号:TP274;TP391.4;TN912.34 文献标识码:A 文章编号:2096-4706(2023)19-0032-05

Design of Multifunctional Garbage Sorting System Based on Speech Interaction and Image Recognition

LI Xie, FAN Binnian, YU Junfeng, CAO Zhixian

(Software Engineering Institute of Guangzhou, Guangzhou  510990, China)

Abstract: With the progress of society and the improvement of people's living standards, the amount of generated garbage has also increased, which means that resource consumption is constantly increasing, and garbage classification is urgent. However, since the implementation of the garbage classification policy, the classification effect has been poor, and there are still problems such as difficulty in classification and low efficiency. Therefore, this paper proposes to use computer vision technology, CNN convolutional neural networks, and voice interaction for garbage image recognition to achieve garbage classification. Use a Raspberry Pi to drive external camera to collect garbage images, upload images, and parse the returned results. Use the STM32 Single-Chip Microcomputer as the underlying driver core board to drive the motor, completing the classification of individual targets.

Keywords: Raspberry Pi; STM32; garbage sorting; voice interaction; image recognition

0  引  言

垃圾分类政策实施3年多以来,主要依赖居民自主判别垃圾类别后分类投放和垃圾回收站人员人工分拣。目前我国居民的垃圾分类意识还比较薄弱,仅靠居民自主识别垃圾种类的方式达不到理想效果,错扔错分的情况屡见不鲜。尤其是在以年轻人为主的大城市中,进行垃圾分类处理的人员占比偏低,一般是对认知内的可回收物单独处理,其他垃圾分类或不分类直接丢进垃圾桶中,靠垃圾站工人再度进行分类处理。无论是居民自主分类还是依赖垃圾站工人再度分类的方式,都存在效率低、成本高、分类效果不佳等问题。因此,研发一种高效可行的垃圾分类系统将是推动垃圾分类政策落地见效的催化剂。

基于以上信息,采用树莓派作为图像处理控制单元,以STM32单片机为控制核心单元来驱动底层设备,设计一款能够在短时间内完成垃圾识别任务的多功能垃圾桶,如图1所示。

1  垃圾分类系统设计

采用树莓派和STM32开发平台,通过超声波感应开盖装置完成垃圾投放,利用摄像头采集垃圾的图片,通过树莓派进行图像识别并返回识别结果,树莓派对识别结果进行分析后形成自定义协议内容经由串口通信发送到STM32,单片机借助信号驱动电机驱动器间接驱动电机实现垃圾分类投放。此系统底层使用STM32单片机,采用LD3320语音交互模块,通过咪头采集语音信息,与提前设定好的关键词列表进行匹配,并返回最佳匹配结果,由MP3语音播报模块播报垃圾种类,同时STM32單片机间接驱动电机使垃圾投入到相应的垃圾桶完成垃圾分类。通过HX711y压力传感器采集垃圾桶的重量以判断是否需要清理垃圾。

1.1  硬件设计

采用树莓派进行图像摄取与处理,采用STM32驱动底层硬件。下文将简要介绍树莓派3B和STM32的选取。

目前市场上的树莓派有Model A和Model B两种型号。Model A硬件功能裁剪部分多,比如没有网线接口;相对而言,Model B树莓派有以太网接口并且支持Wi-Fi,与B+类型相比,成本较低。

树莓派3B拥有1.2 GHz的64位双核处理器、板载BCM43438Wi-Fi、40个GPIO引脚,功能强大。基于图像识别的垃圾分类需要能够驱动摄像头拍摄图片,通过无线网络将图片上传至云平台进行处理并接收返回结果,同时能够与STM32进行串口通信。基于以上信息可知,树莓派3B满足本系统的设计需求,故选择树莓派3B作为图像识别垃圾分类的控制单元。

STM32系列产品根据CPU位数可分为32位和8位。在32位CPU位数的STM32系列里根据内核不同可分为Cortex-M0、Cortex-M3、Cortex-M4、Cortex-M7;8位的則有超级版6502内核,主要应用于汽车应用领域。本设计使用32位意法半导体微控制器,选取主频为72 MHz、48个引脚、64 KB字节闪存存储器的STM32F103C8T6单片机作为底层硬件驱动核心板。

STM32F103C8T6是Cortex-M3系列中的最小系统板,其内核的主频高达72 MHz,能够快速处理复杂的控制任务,可提供包括ADC、DAC、I2C、SPI、USART等在内的多种常用外设,可以扩展更多的外设或接入外部存储器,功耗低,能够满足本系统的设计需求,故选择STM32F103C8T6单片机作为底层硬件驱动核心板。

1.2  软件系统设计

选择树莓派作为核心处理器,用以实现图像识别与语音交互功能。基于PyTorch搭建ResNet卷积神经网络模型,通过摄像头采集垃圾图像,再调用训练好的模型进行图像预测,识别结果可通过树莓派串口发送到STM32进行控制处理,从而实现语音交互功能。在此过程中,树莓派搭载LD3320语音识别模块与SYN6288语音合成模块协同工作。

1.2.1  图像识别模块

通过摄像头采集垃圾图片,使用PyTorch深度学习框架训练出来的模型进行图像识别,通过串口通信将识别结果发送到STM32进行控制处理,与此同时树莓派结合SYN6288语音合成模块将识别结果文字信息合成语音进行播报,如图2所示。

模型训练前,首先需要获取数据集,根据Python爬虫基本原理向远程服务器发送请求,获取目标网页的HTML文件,然后跟踪并解析文件,获取数据并创建数据集。需要根据实际应用场景选择合适的卷积神经网络模型结构,在PyTorch开源框架上搭建深度学习环境并训练模型。在图像识别领域,经典的卷积神经网络结构有GoogLennet、VGG、ResNet等。本次设计选用ResNet深度残差网络结构,ResNet是一个基于深度可分离卷积神经网络的模型,它利用残差结构来构建更深层次的特征表示,有效解决了深度网络中“梯度消失”的问题,从而获得更高的准确率。ResNet残差网络结构如图3所示。

ResNet模型定义的核心流程图如图4所示。初始化ResNet模型的参数,包括输入数据的形状、卷积核数量、步长。定义第一层卷积层,包括一个7×7大小的卷积核、步幅为2、填充为3的卷积操作,以及批量标准化和ReLU激活函数。定义四个残差模块,每个模块包含若干个残差块。其中,第一个残差模块进行降采样,每个残差块包含两个3×3卷积层以及批量标准化和ReLU激活函数;后续三个残差模块均包含连续存在的若干个残差块,在最后一个残差模块结束后,进行全局平均池化层的操作,将特征图转换为固定长度的向量,然后传递到全连接层中,输出结果为分类概率。最后,采用交叉熵损失函数进行训练,并选择合适的优化算法反向传播更新参数,直至损失函数收敛。整个ResNet-50网络模型的主要特点在于使用残差块技术,缓解深层神经网络训练中的梯度消失和精度下降问题,实现更好的图像分类效果。

在PyTorch上根据50-layer模型结构搭建ResNet-50网络模型,如图5所示。

1.2.2  语音功能模块

语音交互功能包含语音识别和语音合成两种功能,语音识别功能基于LD3320语音模块实现,LD3320是一种基于非特定人语音识别技术的语音识别/声控芯片,如图6所示。LD3320芯片上集成了高精度的A/D和D/A接口,无须外接辅助的Flash和RAM即可实现语音识别/声控/人机对话功能。LD3320对语音信息进行频谱分析并提取相对应的特征,通过设定好的关键词列表进行匹配,将识别率最高的关键词作为识别结果。

LD3320语音识别模块初始化包括GPIO初始化、中断初始化、SPI初始化,最后复位LD3320模块等待音频信号,当模块接收到音频信号时触发中断,在中断处理函数中读取识别码判断是否识别成功,成功则发送识别结果,失败则忽略。识别流程图如图7所示。

语音合成采用SYN6288语音合成模块,该模块采用一种先进的数字信号处理技术,基于差值融合的音素合成技术,可以将文本转换为高质量的语音输出。该模块支持中文、英文、日文等多种语言的语音合成;声音可制定,可根据客户要求定制不同类型的声音,如男生、女生、年轻人或老年人的声音等;灵活性强,支持不同的音频格式输出,如WAV、MP3等;易于集成,提供多种接口和SDK。如图8所示为SYN6288芯片原理图。

树莓派和SYN6288语音合成模块通过UART接口进行连接。当需要进行语音合成时,树莓派会向SYN6288语音合成模块发送文本信息。SYN6288语音合成模块接收到文本信息后会将其转换为语音信号输出。输出的信号经过功率放大器放大后,通过喇叭进行播放,具体流程图如图9所示。

利用模块板载的咪头采集语音信息,通过内置的离线语音芯片对采集到的语音信息进行一系列处理(包括频谱分析、特征提取以及匹配词汇列表等),以实现语音信号识别,并将识别结果发送到该模块板载的STC11L08单片机。树莓派通过SPI通信读取LD3320内部识别码,通过匹配识别码得到识别结果,再利用串口将识别结果发送至STM32进行控制处理,与此同时树莓派结合SYN6288语音合成模块将识别结果文字信息合成语音进行播报。如图10所示为语音交互功能结构图。

2  结果分析

构建好模型后,设置数据集加载路径,在搭建好的环境中进行模型训练,通过可视化输出与实际要求准确率的对比结果,若准确率达不到实际要求则通过反复调整参数进行模型训练,最终得到准确率较高的模型,最终训练结果如图11所示。

当用户对LD3320模块说出预设的垃圾名称时,触发语音识别垃圾分类功能,MP3模块播报出对应垃圾种类名称,STM32驱动电机完成垃圾分类。

通过黑盒测试得知,本系统垃圾图像识别功能准确率符合预期目标,语音交互功能测试过程中系统处于噪音较大的环境下,系统的语音交互功能受到一定的影响,不过通过反复修改,系统的各项功能均满足基本要求,符合“多功能应用分类垃圾桶”的需求设计。

3  结  论

项目使用了语音交互、图像识别和传感器技术。语音交互技术采用LD3320模块,在对语音信息进行频谱分析、提取特征后,将语音识别器中的内容与寄存器储存的关键词语列表进行匹配,输出最优匹配结果发送到STM32F103C8T6单片机,启动控制程序,控制电机和语音播报。选择超声波模块作为启动模块,当超声波检测到的距离比阈值小时,启动舵机并开启摄像头获取图片,然后将图片上传至云平台进行处理并返回结果,从而完成图像识别。然而,由于时间所限,该系统在稳定性和识别精度上仍然存在一定的缺陷,如语音识别上需要在绝对安静的环境下才能有较好的识别准确度;图像识别上对实时拍摄的照片质量有较为严格的要求,光线充足地方拍摄的图片才有更高的识别准确度。本系统可以广泛应用于家庭和写字楼办公场所等地方。

参考文献:

[1] 刘祥臻,王红梅,戚成功,等.Android环境下车载智能音乐播放APP的开发设计 [J].林业机械与木工设备,2020,48(3):41-45.

[2] 秦川,刘浩然,韩晓燕,等.基于物联网的多功能智能豆浆机设计 [J].中国科技信息,2021(20):89-92.

[3] 毛昕蓉,赵嘉豪,史智帅.基于树莓派的智能垃圾分类系统设计 [J].电子设计工程,2022,30(20)157-160+165.

[4] 龙昭鹏.基于无线通信技术的出租车调度系统设计 [D].齐齐哈尔:齐齐哈尔大学,2014.

[5] 陈德胜.实时领域图形化元模型构建方法研究 [D]. 昆明:昆明理工大学,2014.

[6] 李妍.基于ResNet算法的垃圾圖像识别分类研究 [J].长江信息通信,2021,34(5):25-27.

[7] 程时升.卷积神经网络在交通图像识别中的应用 [D].兰州:西北师范大学,2021.

[8] 张旭娟.基于图像识别的垃圾分类深度学习模型研究 [D]. 兰州:西北师范大学,2021.

[9] 许华威,乔雪涛,梁发明,等.智能语音识别城市生活垃圾分类箱的设计 [J].成组技术与生产现代化,2020,37(3):45-48.

[10] 马俊.语音识别技术研究 [D].哈尔滨:哈尔滨工程大学,2004.

[11] 雷静.语音识别技术的研究及基本实现 [D].武汉:武汉理工大学,2002.

作者简介:李澥(1963—),男,汉族,广东梅县人,副教授,本科,主要研究方向:物联网应用技术、嵌入式系统原理与应用等;范斌年(1997—),男,汉族,广东茂名人,产品经理,本科,主要研究方向:深度学习、机器学习、计算机视觉等人工智能领域;余峻锋(2000—),男,汉族,广东汕尾人,本科在读;主要研究方向:物联网应用技术、自动化应用与研究等;曹志贤(2000—),男,汉族,广东廉江人,本科在读,主要研究方向:物联网应用技术、嵌入式驱动开发等。

收稿日期:2023-04-14

基金项目:广东省科技创新战略专项资金立项项目(“攀登计划”专项资金)(pdjh2021a0702)

猜你喜欢
树莓派垃圾分类图像识别
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
图像识别在物联网上的应用
图像识别在水质检测中的应用
小学校本课程《垃圾分类》智慧教育案例研究
浅析我国农村垃圾处理难题
日本城市垃圾分类的做法
智能安全防盗探测小车
高校环境教育非课堂教学模式的探索
基于嵌入式技术的农村医疗系统设计