张鼎开 杨耀嘉 徐济惠 冯志峰
摘要:近年来,人工智能技术在商业领域的使用引起了越来越多的关注,通过开发更加智能化的系统帮助超市管理者管理超市和便捷顾客成了研究趋向。文章选取五类常见蔬菜作为训练标签,通过提取和学习图片,将卷积神经网络与随机梯度下降算法应用于实现蔬菜对象识别模型。根据评估结果,最终选择300万次迭代训练识别模型,模型准确率为95.2%。
关键词:图像识别; 深度神经网络; 卷积神经网络;随机梯度下降;超市管理
中图分类号:TP18 文献标识码:A
文章编号:1009-3044(2022)30-0007-04
开放科学(资源服务)标识码(OSID):
1概述
随着人工智能技术的发展,智能化产品在人们的生活中被越来越多地运用,与机器学习相结合的系统在生活中的许多领域都有着广泛且成熟的使用[1],如指纹解锁门锁、人脸识别付款等。同时随着科技的发展,超市等购物场所的部分环节也逐渐从人工操作转换为以机器为主,例如超市的自助结账系统。一方面,随着社会的发展,工资水平的提高,采用机器替换人力能够在一定程度上节省雇佣的成本;另一方面,大量机器的部署会减少顾客排队的时间,因此,在商业领域,管理者越来越倾向于使用人工智能技术的智能化管理来帮助自己获得更大的收益。
人工智能技术的飞速发展为超市管理带来了全新的模式。超市管理者能够通过购买和使用智能化机器优化传统的超市经营模式。Daljeet通过挖掘大量的顾客在超市购买商品的数据,建立预测模型和描述模型,从而了解商品与商品间被购买的关系,如顾客在购买牛奶时一般还会购买面包。该研究得出结论,通过数据挖掘,超市管理者能够在人工智能技术的帮助下,了解顾客的购买水平、购买倾向、甚至顾客家庭的购买情况;同时超市管理者通过了解这些数据能够制定相应有效的营销策略从而帮助自己保留顾客等[2]。Kedar等提出了一种基于机器学习的方法用于及时发现制冷和冷藏系统中出现的问题。该团队通过将时间序列预测问题转化为分类问题,采用基于随机森林的二进制分类器进行特征提取,来实现仅需制冷情况下的温度读数和除霜状态,就能分析出制冷系统是否存在问题的模型,并且该系统在上千家超市制冷系统测试中实现了89%的准确率[3]。
人工智能技术除了能为超市管理者带来良好的经济效益和智能管理模式,还能为超市的消费者带来许多好处。
人工智能技术的应用,也能使消费者通过使用智能系统和设备获得良好的购物体验,节省等待时间,体验便捷的购物方式。Antonio的团队提出了一种购物辅助系统的设计框架,该系统主要用于老年人或残障人士在超市中根据购物清单在载有系统的机器人的帮助下引导购物[4]。何小旭提出利用射频识别技术实现在不需要接触的情况下就能够完成商品标签识别的购物方式[5]。但由于这项技术的布置成本较高,还无法在市场上普及使用。
虽然在超市环境的许多方面,人工智能技术的应用为超市管理和消费者购物体验都带来了许多便利,但由于技术的难度和成本原因,自助、智能地扫描商品种类问题还未得到完全解决。通过调研、实际走访当地超市,发现很多超市仍雇佣人力帮助顾客进行散装生鲜食品的称重,部分超市虽引进了顾客自助称重的机器,但使用的自助称重系统均需要顾客手动选择蔬菜品类,所需时间较长。
因此,本文运用图像识别为基本技术,以大量的超市常见蔬菜图片为数据集,通过优化算法及卷积层,实现智能识别蔬菜种类。在商业层面,本系统既帮助超市管理者节省了雇佣人力的成本,又帮节约了消费者称重排队的时间;在科技层面,本系统通过优化蔬菜类区别度不明显的商品识别,促进了进一步实现全面智能化管理。
2 探究实现生鲜蔬菜精准识别系统基本思路
生鲜蔬菜精准识别系统的探究与实现过程主要包括超市常见蔬菜图片采集、蔬菜图像识别模型训练、识别模型选择三个部分组成,如图1所示。
首先,图片采集主要针对常见蔬菜的照片采集。数据来源于互联网图库中相关的蔬菜信息,对于蔬菜的种类,主要选择爬取国内超市常见的蔬菜,如白菜、胡萝卜等;对于蔬菜图片,主要筛选与超市货架上情况较为相似的蔬菜图片,不考虑种植环境中的蔬菜图片。
第二,将图片采集中挖掘的常见蔬菜图片作为模型训练的数据集,蔬菜名称作为模型训练的标签,运用卷积神经网络和随机梯度下降算法训练分类模型,类别为各种蔬菜名称。根据蔬菜名称和蔬菜图片,为训练数据构建基于卷积神经网络的蔬菜识别模型。 同时,在训练过程中,尝试使用不同的训练迭代次数,构建探究不同迭代下训练所得模型的性能。
最后,测试识别模型对于识别超市场景下蔬菜照片的表现,并通过比较在训练的过程中选择几种不同的迭代次数所获得的识别模型的准确率和召回率性能指标值,选择识别能力最优的模型作为实验最终推荐的蔬菜识别系统。
3 超市常见蔬菜图片采集
超市常见蔬菜图片采集以百度图片为数据源。为结合当地特色,体现宁波市居民蔬菜购买趋向,团队成员于寒假期间走访了宁波当地各大超市(沃尔玛、乐购、三江、新江厦、欧尚、家乐福等),通过市场调研的方式,了解并统计了超市常见的蔬菜种类及销量。图2为沃尔玛、三江和新江厦超市某一分店某日日销量前5的蔬菜名称及销量。
根据调查分析所得结果,优先选择销量较高的蔬菜作为模型训练的数据标签,同时考虑研究目标为构建召回识别系統,因此选择同一品种但具体种类不同的几类外形相似蔬菜作为模型训练的数据分类。
最终,通过比较与分析,本文选用冬笋、雷笋、韭菜、芹菜、菜心五种蔬菜作为模型训练的标签,并运用爬虫技术分别爬取了百度图片中上述五种蔬菜的图片各30张,总共150张清晰的、已摘取状态下的蔬菜照片作为训练集数据;对于测试集数据,为了结合实际场景评判识别系统的性能,团队成员到超市实际拍摄了上述五种蔬菜的照片各5张,共25张照片作为模型的测试数据。
4 基于卷积神经网络的蔬菜识别模型构建
4.1 深度神经网络
深度神经网络(Deep Neural Networks,DNN),也就是常说的深度学习,具有连接多个内部隐藏层以进行特征检测和表示学习的深度层次结构[6],如图3所示,x代表输入的特征值,w代表层与层的值间的特征向量。表示学习就是学习如何表达现实世界中从观测数据中提取的基本信息[7]。通过深度学习的方法,特征提取可以通过使用深度学习使用图像的像素级别作为输入值,并通过学习获得最合适的特征并进行识别,从而替代需要通过人为操作进行反复试验的传统方式的弊端[8]。最简单的神经网络是单层感知器网络,它由单层输出组成,输入直接馈送到输出,上述的神经网络可以认为是最简单的前馈网络[9]。通过在多层神经网络中采用反向传播,模型的训练变得很容易学习。在本文中,卷积神经网络会被用来学习和训练蔬菜图像识别模型。
4.2 卷积神经网络
本文采用深度学习方法中的卷积神经网络模型(Convolution Neural Networks,CNN),实现蔬菜图像识别模型的训练与构建。在结构方面,卷积神经网络由卷积层、池化层、全连接层构建而成,形成了一种在内部层次实现全连接的一种形式,能够有效地表征学习能力,提高学习的准确性[10]。在学习方法方面,卷积神经网络中的学习方法如传统的多层感知器一样,使用反向传播模型,并使用随机梯度下降法用来更新加权滤波器和耦合系数。依靠这样的学习方法,卷积神经网络通过使用卷积和池化操作[11-13]来识别优化的功能。对于类别识别任务,卷积神经网络中使用了整流线性单元(Rectified Linear Unit,ReLU)来加快训练速度。
在结构方面,卷积层为该神经网络模型的核心部分,采用卷积公式进行卷积核计算[14],如公式(1)所示。
[f=σb+l=1Lm=1Mwl,maj+l,k+m] (1)
在公式(1)中,[f]表示蔬菜图片在经过卷积层卷积计算后得到新的特征表示, [L]表示蔬菜名称,[M]表示蔬菜图片的像素值,[j]和[k]分别表示增长长度, [b]为偏置项,[σ]为激活函数。
卷积层输出作为后一层:池化层的输入,从而实现提取图片的局部重要特征,以减少过拟合的发生[15]。本研究使用的池化层计算公式如式(2)所示。
[f=σpool(fl-1j)+blj] (2)
在公式(2)中,[pool]为前向和反向传播梯度的最大池化和平均池化的函数。
全连接层是将卷积和池化层获得的局部特征作为输入,经过加权连接后组装成完整的图后再输出,全连接层的计算公式如式(3)所示。
[f=σKlfl-1+bl] (3)
在学习方面,本文运用Caffe实现卷积神经网络模型的训练与测试。Caffe提供了一个完整的工具包,用于训练、测试、微调和部署模型,并为所有任务提供了详细记录的示例[16]。
根據上述描述及分析,卷积神经网络被认为能够成功应用于对象识别的模型构建。典型的卷积神经网络如图4所示。网络由一组层组成,每个层包含一个或多个平面。平面中的每个单元都从上一层平面中的一个小邻域接收输入。
4.3 蔬菜识别模型构建
在模型的构建过程中,使用训练集数据实现识别模型的学习与训练过程。根据第3节所描述,本文中所用到的训练数据集共包含150张图片,图片的分类标签是五种蔬菜名称(分别是冬笋、雷笋、韭菜、芹菜和菜心),每种标签下分别有30张对应蔬菜图片。蔬菜的图像数据示例如图5所示。
在训练识别模型的过程中,通过卷积层的特征计算,利用随机梯度下降算法监督特征与模型识别结果的关系,训练获得能够实现蔬菜识别的预测模型。为了探究在训练过程中迭代次数对于模型识别能力的影响,本文尝试在模型训练的过程中使用从100万至1000万不同的学习迭代。根据迭代次数的不同,在训练阶段,共构建了三种识别模型,分别是基于100万次训练迭代、300万次迭代和1000万次迭代。
5 蔬菜识别模型的测试与选择
由于在进行模型的训练过程时,使用了不同蔬菜的图片分别进行迭代学习。在测试阶段,通过比较不同迭代次数所构建的模型识别的准确率和召回率来选择最优模型。
准确率是衡量模型正确地对数据点进行分类频率的一种性能指标,尤其适用于分类样本数量较为平均的分类问题。因此,本文选用准确率作为评估模型识别能力的指标之一。
准确率的结果如图6所示,横轴表示蔬菜类别,纵轴表示准确率。其中迭代学习的平均准确率分别为92.4%(100万次迭代)、95.2%(300万次迭代)和88.4%(1000万次迭代)。可以看出,在使用300万次学习迭代训练模型时,所表现出的识别性能最高(超过95%的准确率),并且差异较小。
除了计算准确率,本文还计算了识别结果与真实标签间的召回率来评估模型的识别能力。召回率所计算的是预测为正的样本占实际正阳本数量的比例,一般用于评估模型预测或识别某一已经发生或存在的真实事物的能力。因此,对于评估识别蔬菜的能力,可以选用召回率作为另一个评估指标。
不同蔬菜和不同学习迭代的召回率结果如图7所示,模型在识别测试集图片时的召回率总体(三种迭代分别为89.6%、93.2%和86.2%)相对于准确率较低。其中最明显的差异表现在对于使用韭菜图片进行的100万次迭代,召回率约为84%,但是当学习迭代为300万次时,召回率会提高(约89%),但随着迭代次数增加到1000万次时,召回率反而下降至3种迭代的最低(约79%)。在这种情况下,模型可能会将图片中的背景部分作为有效学习区域进行识别。
通过考虑模型在不同迭代次数和不同种类蔬菜图片的准确率和召回率的最大值、中间值和最小值,本文选择使用300万次的迭代学习次数来实现卷积神经网络下的蔬菜图片识别模型的训练与构建。并选择此训练环境下构建的识别模型作为本文所构建的识别模型。
6 结论
本文面向超市顾客称重蔬菜需要花时间排队并且超市雇佣人力进行称重需要大量的成本等问题,提出了一种基于卷积神经网络的蔬菜精准识别系统。通过运用卷积神经网络,最终选择了300万次迭代作为模型的训练迭代次数,获得了一种拥有95.2%准确率的常见蔬菜识别模型。该模型有望与称重台等硬件设备相结合,服务于超市中,优化超市对于生鲜食品的管理。
参考文献:
[1] 王志宏,杨震.人工智能技术研究及未来智能化信息服务体系的思考[J].电信科学,2017,33(5):1-11.
[2] Kaur D, Kaur J. Data Mining in Supermarket: A Survey[J]. International Journal of Computational Intelligence Research, 2017, 13(8): 1945-1951.
[3] Kulkarni K,Devi U,Sirighee A,et al.Predictive maintenance for supermarket refrigeration systems using only case temperature data[C]//2018 Annual American Control Conference (ACC).June 27-29,2018.Milwaukee,WI.IEEE,2018:4640-4645.
[4] Marin-Hernandez A,de Jesús Hoyos-Rivera G,García-Arroyo M,et al.Conception and implementation of a supermarket shopping assistant system[C]//2012 11th Mexican International Conference on Artificial Intelligence.San Luis Potos,Mexico.IEEE,2012:26-31.
[5] 何小旭.RFID技术在智能超市中应用问题研究[D].武汉:武汉理工大学,2009.
[6] 孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810.
[7] Bengio Y,Courville A,Vincent P.Representation learning:a review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.
[8] Le Q V.Building high-level features using large scale unsupervised learning[C]//2013 IEEE International Conference on Acoustics,Speech and Signal Processing.Vancouver,BC,Canada.IEEE,2013:8595-8598.
[9] Bebis G,Georgiopoulos M.Feed-forward neural networks[J].IEEE Potentials,1994,13(4):27-31.
[10] Lee H,Grosse R,Ranganath R,et al.Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning.Montreal,Quebec,Canada.New York:ACM,2009:609-616.
[11] Takaki S,Yamagishi J.A deep auto-encoder based low-dimensional feature extraction from FFT spectral envelopes for statistical parametric speech synthesis[C]//2016 IEEE International Conference on Acoustics,Speech and Signal Processing.Shanghai,China.IEEE,:5535-5539.
[12] Kang L,Kumar J,Ye P,et al.Convolutional neural networks for document image classification[C]//2014 22nd International Conference on Pattern Recognition.Stockholm,Sweden.IEEE,:3168-3172.
[13] 盧宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17.
[14] 王振,高茂庭.基于卷积神经网络的图像识别算法设计与实现[J].现代计算机(专业版),2015(20):61-66.
[15] 刘万军,梁雪剑,曲海成.不同池化模型的卷积神经网络学习性能研究[J].中国图象图形学报,2016,21(9):1178-1190.
[16] Jia Y Q,Shelhamer E,Donahue J,et al.Caffe:convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM international conference on Multimedia.Orlando,Florida,USA.New York:ACM,2014:675-678.
【通联编辑:唐一东】