基于卷积神经网络的图像识别研究综述*

2020-11-03 05:54黄志强李军
汽车工程师 2020年10期
关键词:图像识别卷积神经网络

黄志强 李军

(重庆交通大学机电与车辆工程学院)

20 世纪40 年代神经元的概念首次被引入计算机领域,开启了神经网络的大门。在2005 年之后,神经网络因为当时解决了梯度弥散问题而得到了广泛应用、出现大量已标注的数据和GPU 的快速发展。神经网络算法在图像和字符识别领域起着重要作用,如欺诈检测、人脸识别、医学病理的判断等等,还可以对股票价格、经济走势等广义上的模型做预测,其克服了传统模型不能预测复杂的非线性模型的缺点,因此越来越多的学者投身于该领域。文章从理论和算法的可行性等方面详细介绍了各种算法的优点和缺点,并针对各类算法在图像识别中存在的问题提出一些改进建议,为今后更进一步地深入研究提供了参考。

1 图像识别分类

图像识别是为了将不同类别的图像划分到不同的类别中,引入卷积神经网络是为了达到最小的分类误差,获得最高的识别率。图像识别问题总体[1]上可以分为跨物种语义级分类、子类细粒度图像分类以及实例级图像分类。

跨物种语义级分类是为了识别不同种类的对象,此类算法的特点是存在较小的类内方差,较大的类间方差;子细粒度图像分类是在同一大类实现其子类的细分,此类检测对分类器的要求更高;实例级图像分类在实现前2 种图像分类的基础上,同时还需要识别不同的个体。目前广泛使用的是基于实例级的图像分类技术,在满足精度要求的同时,也能达到较好的速度要求。

2 图像识别算法

2.1 传统检测算法

传统的图像识别算法包括微分算子边缘检测算法、Canny 边缘检测算法、角点检测算法等。文章将对后2 种常用的算法作详细说明。

1)Canny 边缘检测算法一般包含 4 个步骤[2]:滤波、梯度幅值和梯度方向计算、非极大值抑制计算、边缘检测与连接。首先通过高斯滤波函数去除图像的噪声,并对图像进行平滑处理,接着通过一阶有限差分法分别对滤波后的图像水平和垂直方向的像素点进行偏导求解,再使用非极大值抑制算法将局部最大值之外的正负梯度值设置为0,最后通过不相同的2 个阈值对候选边缘图像中的像素进行处理,保留两阈值范围内的像素,最终检测出物体。

传统的Canny 边缘检测算法降噪能力较差,针对这一情况,文献[3]提出同时使用4 个具有各向异性的5阶差分模板检测多个方向上的像素点,不仅能够检测上、下、左、右4 个领域的灰度加权值,同时还能够检测对角线方向的值。为了提高Canny 算法的自适应能力,文献[4]采用自适应中值滤波和形态学闭合运算来防止多方向梯度幅值计算时边缘信息被弱化,同时利用目标与背景的最佳分离点是最优梯度下最大的类间方差与最小的类内方差这一概念,来计算Canny 算法中的上下阈值,以此来提高其自适应能力。

2)角点检测算法[5]是通过一个固定像素窗口在图像中进行任意方向的滑动,比较滑动前后窗口中的像素灰度值,如果存在较大的变化,则可判断出该像素内存在角点。角点检测算法分为3 类[6]:基于二值图像的角点检测、基于灰度图像的角点检测和基于边缘轮廓的角点检测。

传统的Harris 角点检测算法精度较低,抗噪性差,文献[7]将Sobel 算法和Harris 算法结合,首先使用Sobel 算法进行角点初选,将非极大值抑制算法中的矩形模板用圆周模板替代,以此来提高检测精度,最后使用临近点剔除法提高算法的抗噪性。文献[8]通过比较阶梯边缘、L 型拐角、Y 或 T 型拐角、X 型拐角和星型拐角的强度变化特性后,提出利用多尺度各向异性高斯方向导数滤波器,从输入图像中提取灰度变化的新方法,该方法能够连续地提取图像中的边缘点和角点特征。

2.2 神经网络算法

通过模拟人脑运转建立的神经网络算法,是一种非线性动力学系统,通过大量输入神经元构成的网络系统,能够实现各种传统算法所不能达到的目标。许多曾经严重依赖于手工提取特征的机器学习任务(如目标检测、机器翻译和语音识别),如今都已被各种端到端的神经网络学习算法彻底改变了。神经网络学习算法[9]主要分为卷积神经网络、注意力神经网络、自编码神经网络、生成网络和时空网络5 大类。

卷积神经网络是所有其他复杂网络的基础,但是由于其结构简单,不能在复杂环境中实现较高精度的分类任务,为此研究者提出了一些比较典型的CNN 框架[10-12]:LeNet、AlexNet、GooleNet、VGGNet、ResNet。一般情况下研究者会将其融合使用,使其效果更佳。文章将重点介绍卷积、注意力、生成对抗神经网络和金字塔神经网络。

2.2.1 注意力神经网络

注意力神经网络包含编码器和解码器2 部分[13],编码器为采用加权组合的方式对输入的参数进行编码,得到一组向量,解码器采用RNN 结构对该组向量进行解码,引入注意力机制的神经网络更容易分析图像信息集中的那一部分,从而会忽略一些细节信息,因此文献[14]通过ResNet 提出利用注意力机制实现特征的软阈值化,网络中输出的阈值是各个特征通道的绝对值的平均值与一组0 和1 之间的系数的乘积,这样能够确保所有的阈值都为正数,而且不会使所有的输出都为0,使得该网络能够适用于噪声含量不同的样本中,避免了人工设置阈值所需要的专业知识不足的问题。此外,针对低分辨率图像在较深的网络中会丢失大量信息的问题,文献[15]提出了通道注意力机制,通过对特征通道之间的相互依赖性建模来自适应地重新缩放每个通道的特征,设计出一个RIR(Residual In Residual)架构,其中 RG(Residual Group)作为基本模块,LSC(Long Skip Connection)则用来进行粗略的残差学习,在每个RG 内部则叠加数个简单的残差块和SSC(Short Skip Connection)。LSC、SSC 和残差块内部的短连接可以允许丰富的低频信息直接通过恒等映射向后传播,这可以保证信息的流动,加速网络的训练。

2.2.2 生成对抗神经网络

生成对抗神经网络由生成器和判别器组成[16],生成器首先接收一个随机噪声信号,产生相应的虚拟样例,判别器则将虚拟样例与真实样例作比较,并给真实样例尽可能大的概率,给虚拟样例尽可能小的概率,反复迭代后,直至判别器无法区分样例的真实情况。但是该方法在训练时不稳定,不能生成离散的数据,由此文献[17]提出了一种端到端多任务生成对抗网络(MTGAN),其生成器是一个超分辨率网络,它可以将小的模糊图像采样成精细的图像,并恢复详细的信息,以便进行更精确的检测。鉴别器是一个多任务网络,它用真/假分数、对象类别分数和边界盒回归偏移量来描述每个输入图像块。同时将鉴别器中的分类和回归损失反向传播到生成器中,使生成器恢复更多的细节以便于检测。文献[18]提出了一种卷积编/解码器框架来提取图像轮廓,并由生成性对抗网络来支持,以提高轮廓质量。传统的图像到图像模型只考虑预测值与地面真实值之间的损失,而忽略了结果的数据分布与地面真实值之间的相似性。基于这一观察结果,文章提出的生成对抗神经网络旨在提高检测的准确率。所得到的方法包含2 个模型,即编码器-解码器模型和鉴别器网络,编码器-解码器模型使用来自VGG16 预训练模型的微调的二进制交叉熵损失来更新权重,而鉴别器网络采用地面事实和预测轮廓作为判别的输入。

2.2.3 金字塔网络

金字塔神经网络的出现大大提高了小物体的识别率,其将原始图片缩放为不同的大小[19],分别对这些图片提取特征进行预测,由于每次特征提取和预测都是独立进行的,这样会造成不同层级之间信息不能共享,增加网络的计算时间。为此,文献[20]使用特征转化和特征融合2 个模块,将图像金字塔得到的浅层空间信息和细节信息融合到主干网络中,让网络能够提取足够的浅层图像信息,和来自深层语义的信息,从而可以减少特征未对准和细节丢失的影响。所得到的特征也既包含了丰富的语义信息,又补充了浅层的空间细节信息,从而提升网络对小目标检测的性能。为了克服使用多尺度图片金字塔计算量大的问题,文献[21]设计了自上而下、自下而上、融合-分割3 种模式,分别检测小型、大型、中型物体,最后使用混合特征金字塔网络将其特征融合使用,以继承3 种模式的优点。

2.2.4 自编码神经网络

自编码网络由负责降维的编码器和负责升维的解码器组成[22],其目的是为了在输出层重新构建输入数据,让输出数据与输入数据相同,这就可以看作是一种无监督学习方法。自编码神经网络最简单的方法可以通过2 个恒等函数表达式来完成,但是这样会造成隐藏层无法被表达,多尺度信息丢失。针对这些问题,文献[23]提出分两阶段提取图像的深度多尺度信息,先通过堆叠稀疏自动编码器(SSAE)提取图像的多尺度信息,再通过一维平均合并策略来降低特征维数,这样可使神经网络在隐藏层神经元较多的情况下依然能够提取样本的深层特征和结构。而文献[24]利用稀疏自动编码器降低图像的特征维度,并重新构建图像中的感性区域,再从该区域进行特征提取,该方法可减少无用特征所占用的计算空间,提高最终的识别率。

3 结论

文章主要分析了传统神经网络和卷积神经网络的优缺点,对其原理以及当前的运用现状进行了研究。当今图像识别中已广泛应用卷积神经网络技术,未来图像识别应用的环境将更加复杂,单独使用某一类卷积神经网络技术时会存在一定的局限性,为了提高特殊环境下的识别率,如在目标颜色与背景颜色一致,多个目标重叠在一起,识别的目标遮挡严重等极端环境下,可将不同的卷积神经网络技术相结合,充分利用各自的优点,同时可以针对不同物体的特殊结构使用相应的神经网络,进一步提高物体的识别率。

猜你喜欢
图像识别卷积神经网络
基于全卷积神经网络的猪背膘厚快速准确测定
支持向量机的舰船图像识别与分类技术
基于神经网络的船舶电力系统故障诊断方法
基于人工智能LSTM循环神经网络的学习成绩预测
基于计算机视觉的图像识别技术研究
基于图像处理与卷积神经网络的零件识别
MIV-PSO-BP神经网络用户热负荷预测
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
人工智能背景下图像识别技术浅析