基于VD-MobileNet网络的WebAR生活垃圾分类信息可视化方法

2022-08-16 09:42刘南杉裴云强韩永国吴亚东王赋攀易思恒
图学学报 2022年4期
关键词:空洞可视化卷积

刘南杉,裴云强,蒋 皓,韩永国,吴亚东,王赋攀,易思恒

基于VD-MobileNet网络的WebAR生活垃圾分类信息可视化方法

刘南杉1,裴云强1,蒋 皓1,韩永国1,吴亚东2,王赋攀1,易思恒1

(1. 西南科技大学计算机科学与技术学院,四川 绵阳 621010;2. 四川轻化工大学计算机科学与工程学院,四川 自贡 643002)

随着我国垃圾分类制度的加速推行,基于虚拟/增强现实技术的垃圾分类应用大量涌现。受识别设备平台及居民应用习惯等方面的影响,针对目前该类应用在便捷性、实用性上存在较大不足,提出了一种基于轻量化神经网络并融合移动增强现实及可视化技术的垃圾分类应用方案。首先,提出了基于深度学习的垃圾分类可变扩张卷积VD-MobileNet模型方法能够解决移动设备中存在的计算能力有限、网络庞大等问题,通过在MobileNet模型中引入空洞卷积增加感受野、扩大垃圾的特征信息以提升分类精度,引入LeakyReLU激活函数优化网络的表达能力;其次,将该模型与WebAR技术结合,设计了一款面向移动设备的轻量级垃圾分类信息可视化系统,该系统具备跨平台特性,实现了对分类信息的多元化可视呈现,提供了灵活的交互方式。实验及评估表明,该VD-MobileNet模型在垃圾分类数据集中分类效果良好,能够在参数量不变的前提下有效减少计算量,此外结合该模型所设计的WebAR应用系统可为用户的垃圾处理事务提供合理有效地协助。

垃圾分类;移动增强现实;MobileNet模型;可视化技术;空洞卷积;WebAR

上海于2019年开始严格执行垃圾分类相关法律法规,其余各地部分示范城市也纷纷加入垃圾分类的行列中。当前不同地区采取了各种方式协助居民进行垃圾分类,同时相关部门安排监管人员监督、检查生活垃圾的投放情况。但多数居民仍缺乏垃圾分类的环保意识,其主要原因为:①不同地区对垃圾类型未明确定义,导致实际投放效果较差,且居民对垃圾分类意识薄弱;②传统的垃圾分类宣传方式成本物力高。

增强现实[1](augmented reality,AR)技术正在稳定地发展,在真实场景中AR能够渲染由计算机产生的虚拟物体,并将虚拟信息叠加到真实场景并进行呈现,让用户感知信息增强后更丰富的新世界。结合该技术学习新知识的方式已运用于如乳腺癌分类、人脸识别、零件分类等工作中。融合AR技术与垃圾分类的知识并结合信息可视化技术,能快速提示垃圾的类别信息,并提高垃圾分类的准确性。AR设备大体分为头戴式设备、投影显示器、移动设备等。当前头戴式设备价格高昂,不能满足大部分用户的需求,且不易随身携带;投影显示的不足在于设备体积庞大、受光照等环境因素制约太大[2-3]。对比之下,移动设备的便携性能满足大部分用户的应用需求,而庞大的受众群体基数同时也促进了移动AR技术的发展。基于APP的移动增强现实(mobile AR,MAR)技术和WebAR技术均属于MAR技术。其中APP-based AR普遍存在额外下载、响应时间长、跨平台等问题。WebAR的优势不仅弥补了APP-based AR存在的上述不足,还拥有保护用户隐私、提高用户体验[4]等优点。

针对目前传统的WebAR图像识别准确性较低的问题,本文提出基于深度学习的垃圾分类VD-MobileNet可视化系统,实现WebAR辅助用户高效地处理垃圾。实验证明本文方法分类效果较好,在参数量不变的情况下,计算量降低,解决了移动设备计算能力有限的问题,同时减缓移动设备延迟的现象。

1 相关工作

本文的目标是促进WebAR与垃圾分类的结合,并以可视化的形式展示出垃圾的类别等信息。

(1) WebAR与垃圾分类。CARMO等[5]提出了关于AR的应用程序,使用可视化呈现太阳辐射数据信息,其优势在于既可以检测数据中的错误,又能提高公众对于发电的认识。李军锋等[6]使用卷积神经网络(convolutional neural networks,CNN)解决了AR中变压器图像识别问题,使得识别准确率更高。裴云强等[7]使用L-K光流方法解决了对象的识别跟踪问题,并丰富了WebAR与信息可视化的交互方式。孔庆杰和林姝[8]提出了基于AR的垃圾分类方法,用户可使用设备提示器快速准确地进行垃圾分类投放。以上研究大多未对垃圾作为目标进行独立的图像分类方案,因此本文考虑让垃圾分类结合WebAR来做研究。

传统的WebAR图像识别技术,如:尺度不变特征变换(scale-invariant feature transform,SIFT)以及方向梯度直方图(histogram of oriented gradient,HOG)等,由于计算量过大,无法满足海量图像的分类,导致识别准确性较低。因此引入深度学习技术能够加强图像分类的精度以弥补这一缺陷。

(2) 轻量化网络。深度学习更好地解决了图像识别和图像分类等问题,其中对网络架构的研究是神经网络发展的重点之一。随着研究的深入,神经网络结构会越来越庞大、复杂,越来越多的研究者开始关注网络模型与移动设备存在的计算能力有限、模型过大、实时性等问题。HOWARD等[9]提出了轻量化网络结构MobileNet,其中用深度可分离卷积代替标准卷积,有效地降低了计算量和参数量,使得网络轻量化。接着SANDLER等[10]又继续在MobileNet上做出创新改进,并提出具有线性瓶颈的倒置残差。该MobileNetV2结构为低维-高维-低维,高维使用深度可分离卷积(depthwise separable convolutions)能够有效提取网络特征,而低维则避免了高维信息的丢失。之后,HOWARD等[11]在MobileNetV2的基础上又提出MobileNetV3结构,包括Large和Small 2个版本分别在V1和V2的基础上,又引入了通道注意力结构(squeeze-and-excitation,SE),该组合能够降低计算量。上述的轻量化网络模型降低计算量却导致分类准确性有所降低。王威等[12]利用扩张感受野,在MobileNet网络结构引入空洞卷积,有效地提高了图像分类的准确性。本文受此启发,考虑在不增加额外计算量的情况下,将扩张率为2的空洞卷积引入到MobileNet网络模型的深度卷积层中,并作用于前几层深度卷积层中,让网络模型获得不同程度的感受野特征,增加垃圾的特征信息,以提高分类精度。

本文将深度学习引入WebAR与信息可视化系统,在不增加计算量和参数的前提下,在MobileNet网络模型的基础上加入空洞卷积,扩张了特征局部感受区域,获得更多的垃圾特征信息,以提升垃圾分类的精度。另一方面,在MobileNet网络结构中,原本存在的非线性激活函数ReLU,其负轴输出为0,梯度为0,导致神经元无法使用,最终忽略负值信息,造成信息丢失。因此本文采用优化的LeakyReLU,保留了负值特征,避免信息丢失。

2 垃圾分类网络模型

为了提高WebAR中垃圾分类的准确性,本文提出了基于可变扩张卷积MobileNet模型(variable dilation rate-MobileNet,VD-MobileNet)的垃圾分类的网络架构,并对WebAR中垃圾分类方法做如下4个假设:

(1) 基于VD-MobileNet的网络模型,在参数量不变、计算量减少的前提下,在深度卷积层中引入空洞卷积增加感受野,以提升垃圾分类的精度。

(2) 使用LeakyReLU激活函数以保留更多的垃圾信息,能够增加网络的表达能力。

(3) 采用VD-MobileNet的网络模型能稳定地进行垃圾分类。

(4) 该方案能在一定程度上缓解虚拟模型渲染时的延迟、卡顿等现象。

2.1 MobileNet基础网络模型

随着深度学习向移动设备渗透的趋势,研究人员越来越注重寻找使深度神经网络更快、更简洁的方式。轻量化网络MobileNet架构,其核心思想是使用深度可分离卷积替代传统卷积来大幅度降低模型的计算量和参数量,因此轻量化MobileNet网络适用于移动设备。图1为MobileNet网络。

图1 MobileNet网络结构

深度可分离卷积分为深度卷积(depthwise convolution)和逐点1×1卷积[13-14](pointwise convolution)。各个深度卷积逐一将各自的卷积核应用到不同的输入通道,以此保证输出特征的各个通道只与输入特征图对应的通道相关。最后,将各个通道对应的深度卷积的结果通过逐点1×1卷积进行信息组合并输出特征。图2为深度卷积可分离卷积的分解过程。其中和分别表示输入、输出的通道数,特征图输入尺寸大小为×,×表示卷积核的大小,输出的特征尺寸为×。

图2 标准卷积分割为深度卷积和逐点卷积

针对图像语义分割问题,WANG等[15]提出了一种空洞卷积(dilated convolution)的思路。其又称为扩张卷积,该卷积需要引入一个扩张率(dilation rate)参数,并在卷积核中完成卷积构造,插入0来丰富卷积核的感受野(即视觉感受区域的大小),以此弥补池化层中丢失的信息,以提升网络精度[16]。

图3以3×3卷积为例,展示普通卷积和空洞卷积之间的区别。

图3 空洞卷积的示意图((a)普通卷积;(b)扩张率为2的空洞卷积;(c)扩张率为3的空洞卷积)

黑色的圆点表示3×3的卷积核,灰色部分表示卷积后的感受区域,大框表示输入图像(感受野默认为1)。图3(a)~(c)分别表示普通卷积(扩张率为1,感受区域大小为3×3)、空洞卷积(扩张率为2,感受区域大小为5×5)、空洞卷积(扩张率为3,感受区域大小为7×7),三者分别进行卷积。

图3(b)在保持参数量的情况下,加入空洞卷积,感受野范围相较于图3(a)的普通卷积扩大了许多;图3(c)可知,空洞卷积的扩张率越大,感受野越大,可获得更多的信息,且不增加额外的成本。根据该思想,将空洞卷积引入垃圾分类网络模型中,扩大信息感知域,使得垃圾的特征信息更多,进而提升垃圾分类精度。

2.2 模型优化

目前MobileNet模型的卷积核多以3×3的小尺寸代替7×7或5×5的大尺寸,以减少计算成本,使模型更轻量化,方便设备移动。但小尺寸卷积核的感受区域过小,在前几层特征图分辨率较高的情况下,无法获取较好的特征信息[12]。反之,较大尺寸的卷积核又会增大计算量。而空洞卷积的设计可以很好地避免以上问题,用以扩大感受区域,且不会额外增加计算成本。因此,考虑在网络模型的前几层扩大其感受野。感受野越大,感受的区域也越大,所获得的垃圾特征信息就越完整。但随着网络层数的增加,特征图的分辨率逐渐降低,感知的垃圾特征信息也随之减少。故本文优化方案考虑在不增加额外计算量的情况下,利用扩张率为2的空洞卷积引入到深度卷积中,并作用于前几层深度卷积层中,且称其为可变扩张卷积VD-MobileNet模型。VD-MobileNet将扩张率为2的空洞卷积核引入到MobileNet中,作用在深度卷积层中。同时,为了避免增加多余的计算量,其他层不变。本文在前几层深度卷积中引入不同数量的空洞卷积,使网络模型表达不同程度的感受野特征,并增加网络特征信息,进而提高垃圾分类精度,VD-MobileNet模型结构的核心是深度可分离空洞卷积层。本文设计的4种网络模型,即VD1-MobileNet,VD2-MobileNet,VD3-MobileNet和VD4-MobileNet。

VD-MobileNet网络模型是由VD1-MobileNet,VD2-MobileNet,VD3-MobileNet和VD4-MobileNet分别在前几层深度卷积层中加入1,2,3和4个不同数量的空洞卷积,其他层不变。4种网络模型在参数量不变,计算量减小的条件下,扩张不同数量的深度卷积层的感知范围,如图4所示。

图4 VD-MobileNet网络

2.2.1 VD-MobileNet的特性

深度可分离卷积分解为一个深度卷积和逐点1×1卷积。对深度卷积层而言,假设输入特征图的大小为(高)×(宽)×(通道数),与大小为××的深度卷积核进行无填充补零的卷积操作,最后输出的通道数为,其输出的特征图尺寸为

其中,为输入图像的尺寸;为卷积核尺寸;为填充补零层数;为卷积步长;w为输出特征图的尺寸大小。由式(1)可知,特征图的输出尺寸为1=(-+1)×(-+1),即进行(-+1)×(-+1)次运算。

深度卷积的卷积计算过程为

则总计算量为

总的参数量为

在VD-MobileNet模型的深度卷积层中引入空洞卷积,其扩张率为,输入相同的特征图,与卷积核进行无填充补零的深度空洞卷积操作,最后输出的通道数同样为,输出特征图尺寸为

其中,输入空洞卷积的大小为;步长为;原卷积核大小为;为填充补零层数;为扩张率;w为输出特征图的尺寸大小。由式(5)可知,特征图的输出尺寸为2=(--(-1)(-1)+1)×(--(-1) (-1)+1),即进行(--(-1)(-1)+1)×(--(-1) (-1)+1)次运算,则总计算量为

总参数量为

在VD-MobileNet模型的深度可分离卷积层中引入空洞卷积,其扩张率为,输入相同的特征图,与卷积核进行无填充补零的深度可分离空洞卷积操作,最后输出的通道数同样为,由式(2)可知,输出特征图尺寸为2,即进行(--(-1) (-1)+1)×(--(-1)(-1)+1)次运算,则总计算量为

总参数量为

综上,深度空洞卷积层相对于深度卷积层,计算量减少为

同理,深度可分离空洞卷积层相较于标准卷积,计算量减少为

由式(4),式(7)和式(10)可知,引入空洞卷积后,虽然深度空洞卷积和深度卷积参数相同,但计算量减少了。

又假设深度卷积核大小为×,空洞卷积扩张率为,则其空洞卷积的卷积核大小为

当前层的感受野为

其中,RF+1为当前层的感受野;RF为上一层的感受野;ʹ为卷积核的大小;S为从第1层到第-1层步长的乘积。

推算出当前卷积核的感受野为(×-+1)× (×-+1)。由此说明引入空洞卷积可以在参数量不变,计算成本减少的基础上,扩张感受野,使得感知信息更多。

此外,相较于深度卷积,空洞卷积可在保持原有卷积参数量的前提下,提升卷积核的感受野大小,以获取特征图不同范围的信息,使网络结构更加高效和轻量,进一步提升垃圾分类的准确性。

2.2.2 LeakyReLU激活函数

在MobileNet网络中,使用非线性ReLU激活函数避免了梯度消失的发生,同时为各层提供更好的非线性变换能力,减少各参数之间相互依赖关系,最大程度地避免过拟合问题的发生[17]。

ReLU激活函数为

从式(14)可以看出,ReLU存在使所有的负输入的输出均变为0,导致神经元不可使用,即神经元死亡的局限性。因为ReLU在小于0的范围内的梯度为零,随着网络训练次数的增加,部分神经元对应的权重不会再更新。该神经元在输入特征时是没有反应的,导致最终会忽略输入负值信息,但是垃圾分类的关键点极有可能是这些被忽略掉的负值特征信息。

为了提高VD-MobileNet网络对垃圾负值特征信息提取的完整度,解决ReLU激活函数神经元死亡的问题,使得负输入垃圾信息不被忽略,本文使用LeakyReLU激活函数来解决此问题。

LeakyReLU激活函数为

LeakyReLU与ReLU很相似,仅在负输入的部分有差别,LeakyReLU负输入的部分,输出为负,梯度不为0。LeakyReLU与ReLU函数有着相同的简单计算过程,同时保留了负输入的值,避免垃圾的特征信息全部丢失,增加了网络的表达能力,使得垃圾分类的结果更加准确。

3 WebAR垃圾分类可视化系统

3.1 AR与垃圾分类

AR技术能够有效地辅助居民学习垃圾分类相关知识,其优点主要包括沉浸式体验和低成本学习。一方面,对垃圾分类的宣讲与传统的方式不同,AR能通过沉浸式交互手段,辅助用户学习垃圾分类的基础知识。另一方面,AR的技术成本和体验门槛较低,开发人员或用户皆只需一部可携带的移动设备(智能手机)进行开发或体验分类过程和学习分类知识。

在城市基础建设中,为了有效地提示居民垃圾投放方式,在垃圾箱上方通常会悬挂垃圾分类标志。但该呈现方式存在一定的局限性,其一,垃圾箱上的标志保存着提示垃圾投放的信息,恶劣天气会腐蚀标志,导致居民难以获取提示信息;其二,垃圾箱上的标志一旦被确定,则相关人员无法实时动态地改变标志内容,导致提示信息不全面,进而影响居民垃圾投放的总体效果。

本文将AR与可视化相结合,①丰富了AR的交互能力和空间数据分析方式以及呈现形式;②弥补了传统信息可视化的空间感,使得表达的信息更加直观、清晰。垃圾分类的可视化结果被AR作为模型叠加到现实世界中,极大丰富用户所观察到的真实场景,在虚拟场景中显示垃圾分类信息,从而实现对现实世界信息的增强。AR的三维可视化既有三维场景的空间感和沉浸感,又有虚拟模型的真实感和交互感[18],这样AR与垃圾分类信息可视化的结合,能有效帮助用户直观地了解垃圾分类信息,并进一步协助相关人员分析分类情况。

3.2 系统设计

该系统采用深度学习和WebAR技术实现垃圾分类,并将垃圾分类结果以可视化的形式呈现到AR模型中;用户只需打开手机摄像头实时捕获真实场景下的视频帧,便可以图片的形式输入预先训练好的网络模型对其识别,并根据识别结果对这些视频帧进行分类;得到分类结果传向前端,并将对应的虚拟数据信息通过可视化的形式叠加在视频帧的对应位置,AR通过虚实结合的方式将多元的垃圾数据信息呈现出来,并运用WebGL技术将二维垃圾分类数据三维化,更直观地为体验者提供相关垃圾分类的信息。图5(a)和(b)分别展示了操作流程和系统流程图。

图5 WebAR系统框架((a)操作流程;(b)系统流程图;(c)交互操作)

3.2.1 WebAR中的数据交互

主流的MAR应用存在一定的交互局限性。一方面,直接操控三维空间难度较大,用户可以通过二维屏幕感知三维空间以弥补三维空间交互的缺失;另一方面,移动设备的屏幕过小导致交互范围、呈现信息均有限。针对这些问题本系统运用可视化技术和WebAR技术来呈现和渲染这些数据信息。交互方面,除了常规的单指操作外,系统还增加了六自由度下的双指交互如双指缩放、双指拖动等(图5(c)),用以提升居民的垃圾分类沉浸式体验。

3.2.2 可视化结果呈现

该系统的目的是将可视化后垃圾的信息呈现给用户,让用户了解室内生活垃圾的产生和投放情况等,以协助用户合理地处理垃圾。可视化结果包括对室内生活垃圾占比(图6(a))、生活垃圾所处环境的温度、湿度、光照(图6(b)),各类垃圾的月投放量(图6(c))以及每月四周垃圾的投放情况(图6(d))。垃圾分类可视分析结果如图6所示。

图6 可视化结果呈现((a)室内生活垃圾占比;(b)生活垃圾的环境;(c)各类垃圾的月投放量;(d)每月四周垃圾的投放情况)

所用数据均来源于室内生活垃圾的产生和投放情况。图6(a)饼图描述的是生活垃圾(厨余垃圾、可回收物、其他垃圾、有害垃圾)的占比情况,让用户实时掌握各类生活垃圾投放量占总投放量的比例,通过单指点击各类别垃圾相关区域查看对应类别垃圾的具体投放量,以协助用户合理处理各类生活垃圾;图6(c)词云描述的是各类垃圾的月投放量,每种垃圾均有与之对应的文字,文字越大表明该类垃圾投放的数量越多。用户通过触屏词云中的文字可以查看具体垃圾的月投放量。词云让用户更加直观地了解每月垃圾投放情况,协助用户及时控制当月部分垃圾的数量;图6(d)折线图呈现的是每月四周时间内的垃圾投放情况,用户需单指点击、缩放等交互方式来查看每周垃圾的具体投放量;用户可以通过旋转、双指缩放、单指点击等交互方式,查看图6(b)雷达图展示的生活垃圾所处环境的温度、湿度、光照,并根据不同环境改善对垃圾的处理方式,以免出现垃圾腐化等情况,更便捷地协助用户高效地处理垃圾。

因此,信息可视化多元的呈现方式和交互能力弥补了WebAR在呈现、交互能力和空间数据分析方式上的不足。

4 测试结果与分析

4.1 实验环境

实验设备包括OppoR15 (安卓手机)、华硕笔记本电脑和一台宝塔服务器,设备参数见表1。该实验采用Python3.6版本下的Anaconda,来安装Tensorflow深度学习框架。深度学习模型的训练采用随机梯度下降优化器,学习率以余弦方式衰减,动量因子为0.9,批量大小设定为32,分类器采用Softmax,损失函数为交叉熵损失函数。

表1 设备参数

4.2 数据集

本文垃圾分类数据集来自于华为垃圾分类公开数据集和自制数据集。按照要求垃圾分为4类:厨余垃圾、其他垃圾、可回收物和有害垃圾。公开垃圾分类数据集有5 000余张图片,由于数据集中厨余垃圾、其他垃圾种类相较与可回收物和有害垃圾种类偏少,可能影响垃圾分类准确性的测试。因此额外从谷歌和百度爬虫得到的1 000余张厨余及其他垃圾的图片,以满足4类垃圾数量的均衡训练,所有图片均经过筛选,且图片均为jpg格式,以方便输入数据,加快训练速度。在网络训练时,首先将数据集中的图片进行标签分类,之后充分打乱,再随机抽取图片训练网络。表2是各类垃圾的训练集、测试集的数量。

表2 各类垃圾的数据集

4.3 实验测试及分析

为验证本文提出的VD-MobileNet 4种网络模型(VD1-MobileNet到VD4-MobileNet)及LeakyReLU激活函数在垃圾分类数据集上的合理性,实验分别在准确率、召回率、模型参数、计算量与原MobileNet网络进行了对比,且参考了近几年的轻量化网络以对比本文设计的4种网络模型的有效性。表3为不同垃圾分类网络模型的实验性能对比。

表3 不同分类网络模型实验性能对比

从表3可以看出,改进的4种垃圾分类网络模型在参数不变、计算量下降的前提下,准确率均有提升,其原因是在前几层深度卷积中分别引入不同数量的空洞卷积,增大了感受野,使感受区域也变大,感知的垃圾特征信息也越完整,使得分类准确率均得到了提升。其中VD3-MobileNet提升的精度效果比其余3种模型要好。但VD4-MobileNet网络准确率略降低,是由于当前层数不断增加,分辨率逐渐减小,捕获的垃圾特征信息不够全面,再加入空洞卷积使准确率就开始逐渐降低;与原MobileNet模型相比,在参数量相同的情况下,性能更高效。在加入空洞卷积的同时,还引入了LeakyReLU激活函数,其功能是增强垃圾的被忽略的特征信息,使网络分类效果更准确。与MobileNet模型的改进版网络MobileNetV2和MobileNetV3相比较,后两者的参数量比其高,但计算量比其低,从准确率看来本文设计的VD3-MobileNet模型比这2个模型要更高效。本文使用的4种网络模型相较于流行的参数量、计算量更少的轻量化网络SqueezeNet和Xception,其准确性更高。综上,验证了VD3-MobileNet网络模型的高效性及其余3种模型的有效性。

为了更好比较模型之间的优劣,实验分别对各类垃圾的数据集针对准确率、召回率进行了性能测试,结果见表4。

表4 模型性能对比(%)

从表4可以看出,原模型和改进的VD-MobileNet 4种网络模型在各类垃圾的数据集中的性能较稳定,其中VD3-MobileNet模型比其余3种改进的模型效果更高效,验证了改进的垃圾分类网络模型的正确性。

对移动设备而言,关键的是模型在测试或实际使用时的分类时间,能否达到实时的效果。表5对模型内存、训练时间、识别时间分别进行了测试。

表5 时间性能对比

从表5可以看出,MobileNet网络识别垃圾的时间比改进的4种模型识别时间长,其原因是网络的计算量大,导致识别时间更长,对于移动应用来说效果欠佳,需缩短识别时间。MobileNet网络训练垃圾分类数据集的时间是252 s,而改进后的4种垃圾分类网络模型训练时间均少于其用时。其原因VD-MobileNet网络中的深度卷积层加入空洞卷积,使得计算量有所下降,训练时间减少。MobileNet占用内存比其他4种改进的网络模型的容量大。从而,验证了VD-MobileNet网络能够达到移动设备实时性等要求。

4.4 消融实验

为了进一步验证基于MobileNet网络引入的空洞卷积所设计的4种网络模型的性能和加入LeakyReLU激活函数是否能增强网络的表达能力,设计了一个消融实验来证明引入空洞卷积和LeakyReLU激活函数的必要性,见表6。

表6 消融实验(%)

从表6和表3可以看出,原模型MobileNet中加入LeakyReLU激活函数,准确率增加了0.4%,改进的4种模型加入LeakyReLU激活函数也分别增加了0.1%,0.3%,0.2%和0.2%,原因是LeakyReLU激活函数比ReLU激活函数能保留更多的垃圾信息,增强网络性能;结合表3可以看出,在原模型MobileNet中加入不同数量的空洞卷积,准确率比原模型分别增加了1.3%,1.7%和3.5%,其计算量也逐渐降低,VD4-MobileNet的准确率有所下降,是因为卷积层数不断增加,获得的垃圾特征信息不够完整所致。

综上,在原模型中加入空洞卷积和LeakyReLU激活函数性能均有所提升,验证了该设计的合理性。

4.5 用户评估

为验证本系统及可视化结果的有效性和准确性,实验邀请了20名受试者(包括本科生和研究生),其中男性12名,女性8名,年龄20~26岁,所有受试者均具有可视化相关知识,13名熟悉AR相关知识。20名受试者均参加用户评估实验。

具体的评估指标是室内垃圾占比、各类垃圾的月投放量、每月四周垃圾的投放情况和生活垃圾所处的环境以及系统的有效性,根据用户的使用情况选择使用效果。如图7所示,大部分用户对该系统的使用效果较好,并表示使用该系统了解室内垃圾占比情况,联合图6(b)雷达图能够及时知晓当日垃圾所处的环境,及处理容易腐化和有害的生活垃圾;图6(c)词云的字体大小能提醒用户及时处理腐化的垃圾,及了解用户的生活状况,其中外卖盒最多,进而提醒用户饮食需健康;图6(d)折线图的设计既能让用户了解具体垃圾投放情况,也积极响应社会对垃圾分类的号召。此外,也体现了系统满足用户对交互操作、模型流畅的认可,验证了该系统及可视化结果的有效性和准确性。

图7 用户评估((a)可视化结果评估;(b)系统设计)

5 总 结

本文提出了一种基于深度学习的WebAR垃圾分类可视化方案,利用改进的VD-MobileNet网络对垃圾进行识别分类。首先对垃圾分类的数据集进行处理,再将数据集放入改进后的模型中训练,并利用手机摄像头实时捕获真实世界的垃圾,获取信息后再利用预先训练好的模型对垃圾进行分类预测。WebAR结合可视化技术更好地将垃圾分类的结果及相关信息呈现在虚拟物体上,双指缩放等高效的交互方式协助用户及时了解到垃圾分类的数据信息,然后根据垃圾的投放情况做出反应。通过实验证明,在原模型MobileNet的基础上引入空洞卷积比原模型分类精度更高,改进后的模型优点在于参数量不变、计算量减少,说明改进后的VD-MobileNet网络模型将图像分类更好地应用到移动设备。本文的研究也可用于其他应用场景,如花木识取、宠物品种甄别等。另外,在后续研究中结合WebAR垃圾分类可视化对垃圾三维位姿进行精确估计来提升识别精度等方面展开研究。

[1] 刘佳, 郭斌, 张晶晶, 等. 视触觉融合的增强现实三维注册方法[J]. 计算机工程与应用, 2021, 57(11): 70-76.

LIU J, GUO B, ZHANG J J, et al. 3D registration method for augmented reality based on visual and haptic integration[J]. Computer Engineering and Applications, 2021, 57(11): 70-76 (in Chinese).

[2] 刘万奎, 刘越. 用于增强现实的光照估计研究综述[J]. 计算机辅助设计与图形学学报, 2016, 28(2): 197-207.

LIU W K, LIU Y. Review on illumination estimation in augmented reality[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(2): 197-207 (in Chinese).

[3] 朱淼良, 姚远, 蒋云良. 增强现实综述[J]. 中国图象图形学报, 2004, 9(7): 767-774.

ZHU M L, YAO Y, JIANG Y L. Overview of augmented reality[J].Chinese Journal of Image and Graphics, 2004, 9(7): 767-774 (in Chinese).

[4] ZHANG Y X, LU Y P. Application advantages and prospects of web-based AR technology in publishing[EB/OL]. [2021-08-17]. https://doi.org/10.1007/978-3-030-25999-0_2.

[5] CARMO M B, CLÁUDIO A P, FERREIRA A, et al. Poster] Visualization of solar radiation data in augmented reality[C]// 2014 IEEE International Symposium on Mixed and Augmented Reality. New York: IEEE Press, 2014: 255-256.

[6] 李军锋, 何双伯, 冯伟夏, 等. 基于改进CNN的增强现实变压器图像识别技术[J]. 现代电子技术, 2018, 41(7): 29-32.

LI J F, HE S B, FENG W X, et al. Improved CNN based transformer image recognition technology in augmented reality environment[J]. Modern Electronics Technique, 2018, 41(7): 29-32 (in Chinese).

[7] 裴云强, 吴亚东, 王赋攀, 等. 基于改进L-K光流的WebAR信息可视分析方法[J]. 图学学报, 2020, 41(6): 962-969.

PEI Y Q, WU Y D, WANG F P, et al. IV LKWA: an information visual analysis tool with advanced L-K optical flow based WebAR[J]. Journal of Graphics, 2020, 41(6): 962-969 (in Chinese).

[8] 孔庆杰, 林姝. 垃圾分类的方法及增强现实设备: 中国, CN201910894312.4[P]. 2020-01-24.

KONG Q J, LIN S. Waste classification method and augmented realityequipment: China, CN201910894312.4[P]. 2020-01-24 (in Chinese).

[9] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. [2017-04-17]. https://arxiv.org/abs/1704. 04861.

[10] SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[EB/OL]. [2021-09-12]. https://arxiv.org/abs/1801.04381.

[11] HOWARD A, SANDLER M, CHU G, et al. Searching for MobileNetV3[EB/OL]. (2019-05-06) [2021-10-20]. https://arxiv. org/abs/1905.02244.

[12] 王威, 邹婷, 王新. 基于局部感受野扩张D-MobileNet模型的图像分类方法[J]. 计算机应用研究, 2020, 37(4): 1261-1264, 1270.

WANG W, ZOU T, WANG X. Image classification method based on D-MobileNet model[J]. Application Research of Computers, 2020, 37(4): 1261-1264, 1270 (in Chinese).

[13] 程越, 刘志刚. 基于轻量型卷积神经网络的交通标志识别方法[J]. 计算机系统应用, 2020, 29(2): 198-204.

CHENG Y, LIU Z G. Traffic sign recognition method based on lightweight convolutional neural network[J]. Computer Systems & Applications, 2020, 29(2): 198-204 (in Chinese).

[14] 杨辉华, 张天宇, 李灵巧, 等. 基于MobileNet的移动端城管案件目标识别算法[J]. 计算机应用, 2019, 39(8): 2475-2479.

YANG H H, ZHANG T Y, LI L Q, et al. Target recognition algorithm for urban management cases by mobile devices based on MobileNet[J]. Journal of Computer Applications, 2019, 39(8): 2475-2479 (in Chinese).

[15] WANG P, CHEN P, YUAN Y, et al. Understanding Convolution for Semantic Segmentation[C]//2018 IEEE Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2018: 1451-1458.

[16] 杨少波. 一种基于空洞卷积的遮挡目标检测方法[J]. 软件, 2021, 42(1): 135-139.

YANG S B. A method base on dilated convolution for occluded object detection[J]. Software, 2021, 42(1): 135-139 (in Chinese).

[17] 王韦祥, 周欣, 何小海, 等. 基于改进MobileNet网络的人脸表情识别[J]. 计算机应用与软件, 2020, 37(4): 137-144.

WANG W X, ZHOU X, HE X H, et al. Facial expression recognition based on improved mobilenet[J]. Computer Applications and Software, 2020, 37(4): 137-144 (in Chinese).

[18] 吴蕾, 肖书浩, 何为, 等. 基于增强现实技术的三维可视化教具的研制[J]. 信息通信, 2017, 30(12): 47-49.

WU L, XIAO S H, HE W, et al. The development of 3D visuals based on augmented reality technology[J]. Information & Communications, 2017, 30(12): 47-49 (in Chinese).

WebAR garbage classification information visualization method based on VD-MobileNet network

LIU Nan-shan1, PEI Yun-qiang1, JIANG Hao1, HAN Yong-guo1, WU Ya-dong2, WANG Fu-pan1, YI Si-heng1

(1. School of Computer Science & Technology, Southwest University of Science and Technology, Mianyang Sichuan 621010, China; 2. School of Computer Science & Engineering, Sichuan University of Science and Engineering, Zigong Sichuan 643002, China)

With the accelerated implementation of the garbage classification regulation in China, many applications for garbage classification based on virtual/augmented reality technologies have sprung up. Under the influence of the identification equipment platform and residents’ habits of using applications, there remain a number of shortcomings in convenience and practicability for this kind of application. A waste classification application scheme was proposed based on a lightweight neural network combined with mobile augmented reality and visualization technology. Firstly, the variable expansion convolution VD-MobileNet model method was proposed for garbage classification based on deep learning, which can solve the problems of limited computing capacity and a huge network of mobile devices. The receptive field was increased by introducing dilated convolution in the MobileNet model. The characteristic information of garbage could be expanded to enhance classification accuracy, and LeakyReLU activation function was introduced to optimize the expression ability of the network. Secondly, the model was equipped with the WebAR technology, and a lightweight garbage classification information visualization system was designed for mobile devices. This system could operate cross different platforms, realize the diversified visual presentation of classified information, and enable flexible interactions. Experiments and evaluations show that the VD-MobileNet model could achieve excellent classification in the garbage classification data set and can effectively reduce the amount of calculation with constant parameters. In addition, the WebAR application system designed based on the model can provide users with reasonable and effective assistance in garbage disposal.

garbage classification; web-based augmented reality; MobileNet model; visualization technology; dilated convolution; WebAR

25 November,2021;

Sichuan Science and Technology Department Jieqing Project (19JCQN0108); Key Research and Development Project of Sichuan Province (2020YFS0360, 2020YFG0031)

LIU Nan-sha (1996-), master student. Her main research interest covers human-computer interaction. E-mail:643652033@qq.com

TP 391

10.11996/JG.j.2095-302X.2022040667

A

2095-302X(2022)04-0667-10

2021-11-25;

2022-03-04

4March,2022

四川省科技厅杰青项目(19JCQN0108);四川省重点研发计划项目(2020YFS0360,2020YFG0031)

刘南杉(1996-),女,硕士研究生。主要研究方向为人机交互。E-mail:643652033@qq.com

吴亚东(1979-),男,教授,博士。主要研究方向为可视化与可视分析、人机交互。E-mail:wyd028@163.com

WU Ya-dong (1979-), professor, Ph.D. His main research interests cover visualization and visual analysis and human-computer interaction. E-mail:wyd028@163.com

猜你喜欢
空洞可视化卷积
基于CiteSpace的足三里穴研究可视化分析
思维可视化
番茄出现空洞果的原因及防治措施
基于3D-Winograd的快速卷积算法设计及FPGA实现
如何避免想象作文空洞无“精神”
基于CGAL和OpenGL的海底地形三维可视化
卷积神经网络的分析与设计
“融评”:党媒评论的可视化创新
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法