基于深度学习对图像信息识别技术的研究与分析
——以猫狗图像为例

2021-12-09 05:06:52王宇中国地质大学北京经济管理学院
品牌研究 2021年17期
关键词:图像识别神经网络深度

文/王宇(中国地质大学(北京)经济管理学院)

一、研究背景

目前,人工智能成为越来越热门的研究对象,它代表了最前沿的科技水平和最先进的服务理念。而其中算法领域上的重要突破点之一,就是对深度学习的研究。我们知道,人体所接受的来自视觉感官系统的信息达到80%以上,所以计算机的视觉架构显得更加重要。物体识别是很多视频跟踪识别领域的基础,而深度学习在物体识别上有很大的作用,只有快速而准确地识别出图像的类型,才能为后续的视频图像处理分析打下良好的基础。由此可见,物体识别的重要性不言而喻。

早期的图像识别主要是先提取物体特征,然后再根据特征识别物体。而随着人工智能的发展,用深度学习进行物体识别慢慢占据主流。其中,动物图像识别也慢慢成为图像识别中的一个热点。而深度学习在动物识别上可以展示出极强的优异性。目前已有的动物图像识别大都存在识别种类少、识别率低的问题,我们的研究也将从基本的图像识别出发,逐步解决目前存在的问题。

根据2015年完成的《中国生物多样性红色名录——脊椎动物卷》,共评估了中国4357种脊椎动物(见图1),包括673种哺乳类、1372种鸟类、461种爬行类、408种两栖类和1443种淡水鱼类。其中,939种数据缺乏、1868种无危、596种近危,受威胁的物种共934种。在934种受威胁物种当中,易危459种、濒危289种、极度濒危186种。可见,我国脊椎动物的生存情况不容乐观。为保护环境,拯救那些正在消失的濒危动物,我国正在做一些力所能及的事。

图1 中国脊椎动物红色名录等级分布

二、目的和意义

在濒临灭绝的野生动物越来越多的情况下,人工智能中的图像识别,就有了非凡的研究意义——为濒临灭绝的野生动物提供力所能及的保护,同时,它也能成为一个简易的识别动物的工具。

动物的图像识别相比于其他图像而言更有难度,首先,人脸识别在生活中有庞大的数据库基础,我们每天的手机解锁、人脸付款等都为人脸识别系统提供了大量的训练素材,而动物的图像数据库则远不如此,对于动物的图像检测应用少之又少。其次,动物分为界、门、纲、目、科、属、种七个等级,随着等级的降低,动物的相似程度也随之提高,这便使得动物图像更难区分。由此可见,动物图像识别尤其具有挑战性和重要性。

由于专业能力以及数据库承载能力受限,本次研究以生活中最常见的猫狗为识别对象,通过训练神经网络模型,使其能对简单的猫狗图片做出判断。综合研究时间和数据库考虑,目前只能对猫狗图像做出初步判断,但这只是动物图像识别的第一步。在试验条件允许后,我们将训练神经网络对猫狗的种类等做出判断,乃至进行各种动物的识别,从而实现对濒危物种的识别与保护。

三、国内外研究现状与前景

早期的物体识别算法主要是通过对原始图像进行预处理,从而得到图像的底层特征,并且在获取图像特征的基础上加入特征描述,最后进行模板匹配来识别物体。随着人工智能的发展,利用深度学习进行物体识别渐渐取代了传统的图像处理方法。

近年来,作为物体图像识别的一个特殊的部分,动物图像识别也逐渐成为研究热点。早在2014年,Slavomir Matuska等人使用混合的SISURF特征检测器加上SVM分类器的传统方法,利用图像识别技术对野猪、棕熊、狼、狐狸和鹿等五种动物进行分类,实验的最高准确率能达到86%。2017年,Tibor Trnovszky等人利用卷积神经网络技术对狐狸、狼、熊、猪和鹿等五类动物进行分类,实验最终达到了最高98%的识别率。

之前研究中的动物图像识别技术大多依托PC端进行,而随着各式各样移动设备的发展和推广,目前的研究热点开始向在移动终端实现与PC端同样性能的深度学习技术转移。近年来各互联网巨头纷纷投身AI领域,同时也在紧锣密鼓地部署移动端深度学习框架。国外互联网公司以Facebook和谷歌为首,先后在2017年发布了具备工业化、模块化和轻量化等优点的Caffe2深度学习框架,以及一款专注用于移动设备以及嵌入式设备的轻量级解决方案Tensor Flow Lite。与此同时,国内互联网公司也十分重视对移动端深度学习框架的研究,2017年7月25日,腾讯优图实验室发布了专门为移动终端设计进行极致优化的高性能神经网络前向计算框架NCNN,它具有无第三方依赖、跨平台的优点;2017年9月25日,百度公司在GitHub上开源了一款基于卷积神经网络实现的移动端深度学习框架1VIDL,如今1VIDL已经在手机百度中稳定运行了多个版本,其稳定性和可靠性也有了可观提升。

目前在移动终端上的深度学习主要有两种开发模式:一种是在线模式,移动终端通过获取图像数据,进行简单预处理后把数据传到服务器端,通过服务器端的深度学习模型识别得到结果,再将结果返回给终端,最后通过移动端展示出结果。其具有部署简单、不需要占用太多终端资源的优点,但在线模式必须在联网的条件下运行,同时难以保证用户数据的私密性。另一种是离线模式,指是在服务器端进行模型训练,然后在移动端加载模型预测结果,其优缺点正好与在线模式相反。

随着人工智能的不断发展,深度学习因为其在动物图像识别领域展示出来的优异性能,逐渐成为动物图像识别算法的主流,毫无疑问,深度学习将在未来的物体识别研究上扮演越来越重要的角色。然而过往对动物图像识别的研究普遍存在能识别的动物种类较少、总体识别率并不是特别高的问题,这也就驱动了对这方面的研究。

四、分析过程

我们虽然并不能像真正的研究者那样提供提高识别率、增加识别种类的方法或原理,但是作为进行初步学习与研究的大学生,提取出这项研究内容中的重点进行实践模拟和简单复现,可以帮助我们今后更好地进行相关知识的学习和对高级程序语言的理解,甚至可以利用所学过的方法进行触类旁通和实际应用。

接下来,我们团队对实现猫狗图像识别技术过程中的环境搭建、数据集下载与整理、构建网络、导入数据进行识别等过程进行了简易复现和深度理解。

(一)原理分析与流程设计

1.原理分析

本猫狗图像识别系统采用卷积神经网络进行深度学习,具有监督学习与非监督学习的能力。借由卷积神经网络仿照生物视觉感知结构,在应对可格点化的信息时可以通过池化操作在占用更少运算资源的情况下,进行更加稳定的信息分析和分类。

作为与以往不同的多层神经网络,识别系统可以实现在较短的时间内分析大量信息,不必对更多的特征工程进行辅助学习,简化了图像识别的学习过程。同时在应对不同的应用场景时,可以通过返卷积来实现对信息的补全,提高对低质量低清晰度图片的识别能力。

综上所述,本图像识别能够以较小的运算资源对特定类别(基于前期学习而定)进行稳定的信息分类,同时还具备对低质量图像的识别能力,契合了实际应用中处理来自客户上传图片的冗杂和低质量等问题。

2.流程设计

(1)图像输入阶段:用户将图像输入至图像识别系统。

(2)图像增强处理阶段:对图像进行归一、分类、几何变换、颜色变换以及分割处理。

(3)图像分类阶段:提取图像基本特征并进行分类识别,并对识别失败的图像进行结果报告分析。

(4)结果输出阶段:根据概率挑选出可能性比较大的几种结果,根据判断从数据库调取关于识别图像的相关信息(见图2)。

图2 猫狗图像流程设计流程图

(二)实际操作

1.搭建环境

初始步骤,我们搭建了Python3.6、Tensorflow1.15.0、Keras2.2.5、Numpy1.19.5等环境(见图3)。

图3 搭建环境详情

2.下载数据集

(1)首先登录数据科学竞赛平台“kaggle”,进 入“https:// www.kaggle.com /c/dogs-vs -cats/data”,注册登记后,下载数据集“Kaggle Cats and Dogs Dataset”(见图4)。

图4 下载好的数据集文件

(2)该文件包含可供训练的猫和狗图像数据(见图5)。

图5 猫狗数据集图像

3.整理数据集

(1)我们需要将图片进行标签设置,由于图片数量过多(图片数量一共25000张),因此编写了一个简单的python脚本对全部图片进行重命名处理(见图6)。

图6 图片标签处理脚本

(2)通过上述操作后,给每一张图片完成标签设置操作,效果见图7。

图7 标签设置效果图

3.构建简单CNN网络

我们构建了以两个卷积层和一个池化层为一组,共三组的多层网络,通过定义模型(见图8),定义优化器、代价函数等步骤,构建了一个简单的卷神经网络(CNN)。

刘训峰表示,华谊集团要以习近平新时代中国特色社会主义思想为指引,不忘初心,牢记使命,坚持“绿色发展、创新发展、高端发展、跨市发展、一体化发展”战略,加快“华谊制造”向“华谊创造”转型,力争早日实现营业收入1000亿元,跻身全国化工行业前3位,世界化工50强,为把华谊集团建设成为具有核心竞争力的世界一流企业、成为具有国际竞争力和影响力的企业集团而努力奋斗!

图8 卷神经网络(CNN)构建过程

4.读入数据,进行训练并保存模型

(1)首先对用来训练的数据进行修改,和归一化处理(见图9);对测试数据进行归一化,然后进行训练。由于硬件限制,我们只选取了其中234张的图片进行训练。

图9 图片归一化过程

(2)我们设置了正确率展示,每一个Epoch会显示正确率。由于训练数据不大,以及Epoch只有30轮,最后数值稳定在了0.7左右(见图10)。

图10 可能性判断过程

(3)读入数据进行测试(见图11)。

图11 测试对象——猫的图像

(4)我们将训练好的模型保存为“model_cnn_cat_dog.h5”,在网上随机选取了一张猫的图像“whm.jpg”,进行测试,得到了正确测试结果——cat(见图12)。

图12 测试结果

5.模型评价

(2)缺点:猫狗图像分别只选取了100张左右,对于想要提高识别准确率和对特征不明显图像较困难、存在不足。

五、计算机图片识别技术发展策略与建议

(一)加强图像传输品质

如今,由于受到计算机软硬件发展水平的影响,使得图像识别仍然无法达到预期的效果。例如图像不够清晰、图像处理速度达不到预期等,这些都会影响最后处理能否达到目标。因此,加强图像传输品质,同时确保达到更高的处理速度和清晰度是推动计算机图像识别技术发展的必要条件。

(二)设计和开发专用的图像处理芯片

目前,计算机图像识别计算主要是通过大量的矩阵计算来实现的,与目前计算机算法主要发展的浮点运算来说是相悖的,故在进行矩阵计算是通常会出现运行效率低、无法充分发挥性能等问题,对此,可以通过设计和开发专用的图像处理芯片,来改善运算的便捷性和准确性。

(三)注重计算机图像识别新技术理论的运用

当下,现代科学技术水平的高速发展,其更新速度也不断加快,新开发的技术或者发明都对目前的技术理论体系的更新和完善起到一定作用,计算机图像识别技术的实践与理论之间也是如此。如何在当今科技不断发展的社会背景下,设计出一个符合当前计算机图像识别计算发展趋势的理论,是目前该领域必须要面对的难题。现在,科研人员们不断挖掘出新的相关理论与技术,遗传计算处理体系、小波体系等均在其中。所以,注重计算机图像识别新技术理论的运用,是计算机图像识别技术发展最为重要的策略之一。

(四)向人工智能方向转变

现在,即使人工智能技术仍处在初步发展阶段,却早已表现出了可观的发展前景,同时为图像识别技术发展带来发展机遇。与语音识别、人脸识别等与人工智能相关的识别技术不断出现,促使以往的信息检索和处理方式产生了不得已的改变。大数据的时代到来,也使得数据的保存不拘泥于物理硬件中,也可以保存在云数据库。如果领域发展能结合云数据库发展,将会促进技术智能化水平的提高。

(五)计算机图像识别技术动态演化发展

从古至今,任何技术的演进都随着其实用性的变化而变化。计算机图像识别技术要得以不断发展,就需要与目前实用性可观的新技术不断结合,提高自身的实用性并不断完善,以不断满足人类工作和生活中的需要。

(六)克服面部过于相似问题

由于存在面部相似度很高的不同种类猫狗,类间差异过小,便需要进行细粒度分类,在分类本身有难度的情况下,还需要考虑具体植物在图像上呈现效果受影响的问题,例如形状、视角、光线、遮挡、模糊等因素,真实的场景使得对于相似度较高的猫狗进行识别的准确度降低。

(七)移动端的技术推进能够带来更多便捷

开发识别精度更高的移动端识别系统,将为人们的实际生活带来更多的便捷,提高实用性,利用市场现有的几个植物花卉识别软件的成功经验,并分析其现存缺陷,寻找改进重点。

猜你喜欢
图像识别神经网络深度
深度理解一元一次方程
神经网络抑制无线通信干扰探究
电子制作(2019年19期)2019-11-23 08:42:00
基于Resnet-50的猫狗图像识别
电子制作(2019年16期)2019-09-27 09:34:50
高速公路图像识别技术应用探讨
深度观察
深度观察
图像识别在物联网上的应用
电子制作(2018年19期)2018-11-14 02:37:04
深度观察
图像识别在水质检测中的应用
电子制作(2018年14期)2018-08-21 01:38:16
基于神经网络的拉矫机控制模型建立
重型机械(2016年1期)2016-03-01 03:42:04