叶建丞
(福建农林大学 机电工程学院 福建福州 350000)
随着计算机技术高速发展,各种应用计算机的智能化技术层次不穷。然而图像识别技术是运用最广泛的技术之一[1]。由于图像所能给出信息比文字多,所以对图像识别技术进行综合概括和优化是大势所需。在此前提上就要必须对图像识别技术定义、图像处理、所用数据集等进行了解,以及对其中应用的识别技术如统计模式识别、神经网络模式识别、非线性降维等进行掌握。图像识别技术所能使用的领域十分广泛如机器视觉、监控系统、医学领域等。并且随着5G技术的盛行,可以进行智能化、高速化技术的交叉[2],进而优化图像识别技术。
图像识别技术早在20世纪60年代开始进行研究[3],随着计算机设备发展迅速,计算机处理信息能力变得越来越快。因此图像识别技术取得了很大的突破性进展。从最早的数字识别、文字识别发展到现如今的物体识别、精细识别、多维度识别等,识别技术从原来的模式识别与格式塔心理学家所提出的原型匹配识别[4]到现今统计模式识别、神经网络模式识别、非线性降维等高超识别方法。无一不体现智能化图像识别进步迅速。到目前为止,数据资源越来越丰富,各种算法层次不穷,例如SAR图像目标识别算法[5]、CNN和FCN[6]等算法,由此计算机图像识别不管在识别方法上还是应用领域上都呈现出新的变化趋势。在数据信息采集上,由于大规模图像数据集的发展如Flickr1024[7]、Places[8]、SUN[9],促进了图像更精确分类。
图像识别是利用计算机对输入进来的图像进行预处理、细化分析和理解,以识别各种不同模式的目标和对像的技术,更好的使人获取到有用信息。图像识别时要经过预处理、特征提取、匹配分类。其中预处理过程使用到了二值化的方法[10],把图像进行细化,提高清晰度。除了二值化外,还可以结合神经网络作为预处理技术[11],将特征从高维空间提取到低维的空间进行了减维,达到更好识别的效果。特征提取是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域[12]。特征的好坏对泛化性能有至关重要的影响。匹配分类则就是运用了大规模的数据集进行系统化归类。在这3个方面中使用计算机图像识别技术可以确保图像质量和实际结果,显示图像信息内容,通过提取特征来集成图像信息内容并对其特征进行分类。
数据集是由各种资料、数据结合在一起所形成的整体,其中的数据资料可以是图像特征、属性特征、统计数据等[13]。以下我们介绍下其中图像识别技术利用广泛的3种数据集。
Flickr1024数据集是一个大型的视觉数据库,通常被利用在图像识别技术中。该数据库包含了多达1024对的高质量清晰图,涵盖了各种各样的场景视角,其数据集可以帮助处理图像识别中对各个特征的分类。
Places数据集包含了多达1000万场景的储存库,该数据集是结合了场景语言分类的方法进行标记。其具有高覆盖率和多样本性的典型特点。智能化图像识别技术提供了一个大的场景数据库,对未来的场景识别有促进作用[14]。
SUN数据集是一个含括了899个类别和130519张图像的数据库,由此通常使用员会用采集好了的类别结合特殊的算法来实现场景的识别和建立新的界限的作用。
随着计算机的发展,各种智能化技术更新快速,智能化图像识别技术也不例外。其中更新较为显著的是图像识别中的识别方法。以下三种是现阶段使用最多也是最广泛的高新技术,本节将一一介绍。
统计模式识别方法就是用给定的有限数量样本集,在已知研究对象统计模型或已知判别函数类条件下根据一定的准则通过学习算法把d维特征空间划分为c个区域,每一个区域与每一类别相对应。假如分类的样本条件密度可知,那么就可以根据贝叶斯决策理论来进行对样本归类[16]。
非线性降维识别是线性降维识别技术一次优化升级,由于线性识别技术在过去的生活中被人们找出了一些缺点如:在复杂的图像识别的时候计算量也随之增多,导致识别时候花费大量的时间和空间特性。所以线性降维识别无法在大范围使用。而对于非线性降维识别技术来说,它能在不改变图像属性、特征的前提下把高维进行降维。并且其识别的精度高识别的速度快。例如在一些运用在图像维度高识别的系统,如人脸识别系统、指纹识别系统等,利用了非线性识别可以使系统的工作效率变快、成果变得更好[17]。
神经网络是借助了人类的神经系统,把计算机进行改造模拟人神经系统的一个技术。该识别技术具有很强的学习能力和识别能力,由此能完成图像的分类和识别[18]。并且神经网络模式识别类型多,分为深度神经网络识别、卷积神经网络识别、BP神经网络识别等。
3.3.1 深度神经网络识别
深度神经网络被认为是一种智能特征提取模块,在图像识别中的特征提取时具有很大的灵活性。深度神经网络的典型特点是它具有多重隐藏层,可以捕获数据复杂的线性表示。在深度神经网络中提出一种将高维图像投影到低维的空间中,对智能化图像识别技术来说具有较大用处[19]。
3.3.2 卷积神经网络识别
卷积神经网络识别是前馈神经网络,由于它具有可以响应覆盖范围内的周围单元的功能,且对图像处理、识别有出众的表现。该识别技术Hubel和Wiesel在研究猫脑皮层[20]中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经网络(Convolutional Neural Networks-简称CNN)[21]。该技术避免了图像识别中复杂的预处理,可以直接输入图像减少误差。是目前图像识别技术中使用最广泛的技术之一。
3.3.3 BP神经网络识别
BP(back propagation)神经网络是由Rumelhart和McClelland为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络[22]。
对于BP神经网络识别来说,算法十分的重要,它是一种按误差反向传播的多层前馈网络。它在人脸识别系统中广泛运用[23]。
计算机智能化图像识别技术由上述的部分结合起来,技术变得越来越成熟,所用的地方很多,例如上述讲到的人脸识别其中运用的核心技术就是图像识别技术。当然,在机器视觉领域中运用该技术进行3D图像的识别,可以提高机器识别场景的能力,为智能机器人打下坚实的基础。还有在医学领域,计算机图像识别在进行CT等类似检查时都需要采用图像识别。通过图像识别医生能更好的了解病人体内的情况,使得更好的提出治疗方案。还有农业发展、安防系统、交通运输等领域也能见到图像识别技术的身影[24]。
5G时代已然到达,5G下的人工智能技术将迎来进一步的优化[25],智能化图像识别技术也不例外。由于计算机智能化图像识别的过程中会受到数据信息输出输入速度慢的影响,以及在处理图像特征信息时会遇到信息量大导致时长变长等不足之处。因此,提出把5G技术与计算机、数据集相结合。能提高算法的计算速率,达到优化计算机识别技术的目的,
智能化图像识别技术是现今运用广技术先进的技术之一,它已经融入到我们的生活当中。但是时代不断革新,技术不断更新,为了保证该技术能走在前沿端,就应该与时俱进更上新时代新技术的步伐,推进智能技术的优化升级。这对我们国家、生活的发展将会起到促进的作用。