王 颢
随着信息技术的快速发展,图像的数量呈指数型增长,图像识别技术可以智能、高效地完成海量图像的分类与识别,因此,图像识别一直是计算机视觉领域的研究热点。近年来,深度学习技术的应用范围日益扩大,将深度学习应用到图像识别领域已成为新的研究方向。
随着网络信息技术的发展,各类社交软件正逐渐成为人们获取信息、保持与他人联络的必备手段。在这些社交软件中,图片由于不会受到语言和文字等地域文化的约束,正在逐渐取代传统的文字信息表达方式。
图像识别技术能够智能的提取图像特征、完成图像分类,现已应用到医疗、交通、安防等各类生活场景中。图像识别一般包括图像预处理、图像特征提取和图像分类三个步骤。图像预处理是通过去除图像中的噪声和干扰,增强有用信息,来提高图像识别的准确率。图像的特征提取是将图像转化为“非图像”的描述,比如数值表示或向量描述等,其基本思想是将高维空间中的原始图像映射或变换为低维特征描述。图像识别是以提取到的图像特征为基础,根据分类决策,得到待识别图像所属的类别。
深度学习是机器学习的一种,其概念源自人工神经网络(ANN),人工神经网络从信息处理角度模拟了人脑的神经元之间传递和处理信息的模式。2006年,Hinton[1]等人提出深度学习的概念,它是一种包含多隐藏层的神经网络结构,能够更加抽象、更深层次地描述目标对象的特征。
深度学习一般可以分成有监督学习和无监督学习,分类的依据是数据是否含有标记。有监督学习过程中会找出训练数据的特征与标记之间的映射关系,并且通过标记不断纠正学习过程中的偏差,不断提高学习的预测率。有监督学习主要有卷积神经网络(CNN)、循环神经网络(RNN)和深度堆叠网络(DSN)。无监督学习的训练数据没有标记,常用的算法有受限玻尔兹曼机(RBM)、深度置信网络(DBN)等。
卷积神经网络(Convolutional Neural Network,CNN)是深度学习的重要组成部分,也是图像识别领域中应用较为广泛的模型之一,CNN模型的优点主要在于避免了对图像处理前期过程中大量的特征提取工作,简化了图像预处理的步骤。CNN模型是以图像的局部关联性和特征重复性为假设条件,即假设图像某一点的像素一般与其相邻像素的关联性较大,与其他像素的关联性较小,避免了全连接所必需的大量参数,这就是CNN的局部连接特性。
循环神经网络(Recurrent Neural Network,RNN)是针对序列数据问题而设计的,RNN在网络模型中引入了定性循环的概念,信号在两个神经元之间传递之后并不会立刻消失。与卷积神经网络不同的是,循环神经网络中隐藏层神经元的输入不仅包含了上一层神经元的输出,也包含了前一时刻该隐藏层神经元的输出。RNN是具有记忆功能的网络模型,适合处理序列数据,因为序列数据具有很强的关联性,前面的数据对后面的数据有很大的影响[3]。
生成式对抗网络(Generative Adversarial Network,GAN)是由Ian Goodfellow等人于2014年提出的一种无监督模型,GAN在对抗过程中估计并生成模型[4]。GAN打破了传统生成算法的模式,采用博弈方式来优化两个模型,即生成模型G和判别模型D。生成模型G捕捉真实样本数据的分布,并生成新的数据样本。判别模型D是一个二分类器,估计一个输入样本来自训练样本的概率。与传统的生成算法相比,GAN只用到反向传播,与之前的马尔可夫链模式相比效率更高。而且,GAN的损失函数与传统的均方误差相比更加严谨,因此GAN在图像处理和计算机视觉领域取得了广泛的应用。
深度学习具有特征提取能力强、实时性快、识别精度高的优点。目前,深度学习已经广泛应用于图像识别领域的各个方面。
人脸识别技术是根据人脸的特征信息完成身份识别的一种生物智能识别技术。随着深度学习技术的快速发展,基于深度学习的人脸识别技术已成为学者们研究的热点[5]。基于深度学习的人脸识别技术是由多层非线性感知器构成的学习模型,通过大规模的样本图像训练得到识别模型,不需要进行人工特征提取,在样本的训练过程中自主的逐层学习多层信息,识别准确率极高。
随着人脸识别技术的日益成熟,人脸表情识别成为近年来人脸识别领域研究的热点。表情是人类内心世界的外在流露,也是人机交互过程中的关键信息。人脸表情识别可以广泛应用于智能驾驶、医疗护理、客户分析等领域,不仅在学术研究领域具有重要的学术价值,在工业界也具有至关重要的应用价值。
医学图像识别的主要目标是从海量的医学图像中高效、准确的提取出有用的病理信息,为医学研究、临床诊断以及疾病治疗提供坚实的基础。目前,卷积神经网络已成为医学图像识别的首选算法,卷积神经网络以卷积算法、池化算法为基础,逐步提取目标图像中的病理信息,将提取到的图像特征集合成高阶特征,从而完成医学图像的识别与诊断[6]。
在学习大量的样本图像后,深度学习算法获取的特征信息完全有可能超过医生的实践经验,可以站在专家的高度做出高效的判断,既减轻了医生的负担,又提高了诊疗的效率与准确性,对现代医学的发展具有重要的意义。
随着遥感图像分辨率的日益增大,传统的识别算法已无法满足遥感图像的识别要求,因为传统算法对人工特征提取的依赖性较高。深度学习技术具有强大的学习能力,可以自动组合低级特征、自动的提取高级特征,还可以采用深层结构的模型完成高分辨率遥感图像的识别与分类,而且能够充分利用遥感图像的空间结构信息。遥感图像与深度学习技术相结合能够有效地提取遥感图像的有用特征,在数据降维方面的表现尤其突出[7]。许多学者把深度学习应用于遥感图像识别领域中,在识别建筑、道路、植被、林地、水利等地物时取得了较好的效果。
近年来,深度学习技术的应用范围日益广泛,已成为图像识别领域的主流应用技术之一。但是,深度学习模型仍具有待完善的问题,比如训练数据的优化问题,这是因为深度学习对训练数据具有很强的依赖性。因此在以后的研究中要考虑如何优化训练数据,进一步提高识别准确率。