摘要:图像识别技术是人工智能实现的关键技术。文章以图像识别技术及人工智能的概念为切入点,简单介绍了图像识别技术的原理及类型,论述了图像识别技术的应用过程,并对图像识别技术在人工智能中的应用进行了进一步探究,希望为图像识别技术在人工智能领域应用优势的发挥提供一些参考。
关键词:图像识别技术;人工智能;SVM
一、引言
近几年,计算机技术飞速发展,人工智能成为炙手可热的新兴产业。图像识别技术是当前人工智能中的先导技术,在图像视频处理方面可以取得接近甚至超越人类水平的效果。通过在人工智能中应用图像识别技术,可以降低目标识别工作的不确定性,为人工智能产业发展提供充足支持。因此,探究图像识别技术在人工智能中的应用具有非常重要的现实意义。
二、图像识别技术及人工智能概述
(一)图像识别技术
图像识别技术(image recognition)主要本质上是通过图像采集终端传感器获取图像数据文件,在数据预先处理过程中实现特征量类别划分与预置特征标注,最终识别图像特征的过程[1]。在长时间发展过程中,图像识别技术完成了从文字识别到数字图像识别、再到物体识别的转变,可以借助计算机技术进行高精度识别,解决人类无法有效识别的问题。
(二)人工智能
人工智能(Artificial Intelligence)是与自然智能相对的概念,展示载体是机器。人工智能特指模仿人类、与人类思维相近或相关的认知功能机器[2]。当前,人工智能在语言识别与合成、自然语言翻译、图像识别方面具有显著进展,如2022年,新发布的OPPO Find X5系列手机ColorOS 12.1系统内预置应用程序DeWiCam可以通过检查无线摄像头固定(或用戶触发的流量模式)实时判断隐藏的针孔摄像头。
三、图像识别技术的原理及类型
(一)原理
图像识别技术的原理与人类识别物体的原理类似,主要是经过分类提取物体重要特征,排除多余信息干扰后识别图像。以神经网络图像识别为例,其需要先训练大量被打上标签的图片样本,并对样本进行类别划分。进而将未打标签的图片输入神经网络内,开始预训练。在预训练过程中,经神经元先后提取简单形状(边缘部分)、复杂结构、抽象概念,获得区分不同图像的标准后输出最相似的结果。
(二)类型
从图像识别技术运行过程来看,可以将图像识别技术划分为基于神经网络的图像识别技术、基于非线性降维的图像识别技术。其中基于神经网络的图像识别技术是将传统图像识别方式与神经网络算法融合后形成的人工模拟动物神经网络方式,以遗传算法结合BP神经网络最为常见,可以应用于智能汽车监控等;基于非线性降维的图像识别技术是更高维度的识别技术,可以随图像进行线性降维(线性奇异分析、主成分分析等),进而求解投影图像的数据集合,促使数据集合低维最优。
四、图像识别技术的过程分析
图像识别技术的过程包括以下几个环节:
如图1所示,图像识别技术包括图像输入、预处理、特征提取、分类、匹配几个环节[3]。其中图像输入主要是采集图像并将其输入计算机系统内;预处理又包括图像灰度化、图像增强、图像分割、二值化、细化等几个部分,其中图像灰度化主要是剔除原始彩色图像颜色信息,降低计算量;图像增强主要是消除图像质量缺陷,促使图像结构与原有结构一致;图像分割主要是分离图像区、背景,规避无效区域干扰特征提取速度;二值化特指利用二值图像代替灰度图像;细化则是利用线宽为一个像素的点线图像代替以往不均匀二值图像;特征提取即利用数值标识图像仅有特征,规避虚假特征;图像分类则是在不同类别图像库内存入图像,降低后续计算复杂度与匹配耗时;图像匹配主要是比对原模板图像与前期输入测试图像特征相似性。
五、图像识别技术在人工智能中的应用
(一)图像获取
图像识别技术在人工智能中应用的首个环节是获取相关图像。常用的图像采集方法是在视频监控平台接入若干监测点位,在监测点位布置摄像头,经摄像头采集图像数据。除固定监测点位摄像头采集图像数据外,还可利用无人机/直升机航拍方式,经无人直升机、多旋翼无人机、固定翼无人机挂载的拍摄仓,对重点位置区域进行多视角抓拍采像,可选择的无人机型号为EDM-150G、DM-150、CW-300、CW-100。
此外,为解决图像样本过少导致地过拟合问题,可以对原始图像进行仿射变换或镜像变换,促使图像样本数量达到要求。即应用弹性变换算法,面向数字字符的云图像识别样本,为样本图像字符扩充提供依据。在具体操作时,首先需要面向图像内的每一个像素点产生2个范围在[-1,1]之间的随机数,标注像素点的x方向、y方向移动距离;其次,生成一个以0为均值,以σ为标准差的高斯核k-nn,与随机数做卷积并作用于以往图像;最后,以k-nn、σ为变量进行测试,将以往图像像素点扩充100倍,获得适宜的扭曲图像。
(二)预处理
在获取相关图像后,若直接借助全局图像进行特征提取,算法运行耗时较长,且提取特征会分布于图像多个区域,可提取的字符特征较少,字符区分难度较大。因此,应进行图像的灰度化、增强与二值化、细化、分割处理[4]。
1.图像灰度化
因原始RGB图像每一个像素值涵盖了红色-绿色-蓝色三个通道,根据三个通道的数据结构,可知其RGB分量在0~255(黑色~白色)范围内。在图像灰度化处理时,可以根据不同比例,对RGB三种颜色进行加权平均处理,满足灰度值设定要求。加权比例受人眼部察觉颜色敏感度的直接影响,红色加权比例为0.11,蓝色加权比例为0.30,绿色加权比例为0.59。
2.图像增强
为突出目标图像的有效特征,应以图像内有价值信息、低价值或无价值信息区分为着手点,进行图像增强处理。在图像采集过程中,因场景条件、特殊光照等因素影响,图像效果较差,应着重调整图像质量,扩大目标图像有价值信息区域。如假定灰度图像f(x, y)的灰度集中分布在[a,b]区间内,a、b分别为最低灰阶、最高灰阶。此时,可以将图像的灰度范围提升到[c,d]区间内,完成灰度的变换,变换后灰度图像f'(x, y)的变换函数如下:
(1)
根据式(1),可以完成灰度图像的变换,促使图像对比度上升或下降。在式(1)直线斜率小于1时,对灰度图像f(x, y)进行压缩处理,变换后灰度图像f'(x, y)对比度小于原灰度图像f(x, y);在式(1)直线斜率大于1时,对灰度图像f(x, y)进行拉伸处理,变换后灰度图像f'(x, y)对比度大于原灰度图像f(x, y)。通过合理变换,可以有选择地突出目标灰度区间,减弱非必要灰度部分,完成图像质量的优化。
3.图像二值化
在图像二值化是一种基于阈值的图像分割方法,可以通过选择存在差异的阈值,分割图像内目标区域、非必要背景区域。具体处理时,可以设定一个阈值T,将超过T的像素点灰度值、与T相等或小于T的像素点灰度值分别设定为255、0,完成图像二值化处理。
4.图像细化
为顺利提取图像骨架,应以图像细小部分连通为重点,对图像进行细化处理。图像细化本质上是一种逐次去除边界的方法,需要依据连通性不变的规律缩小原则,选定一组结构元素,在结构内循环至全部结果恒定。即在航拍图初始地址、高度与宽度已知的情况下,开辟一块内存缓存区进行初始化。在当前像素为白时跳过,在当前像素为黑时定义为一个结构元素,计算对应结构元素内各位置数值。进而将模板中心覆盖到待判断像素上,在模板图像所覆盖位置像素为白时归零,在模板图像所覆盖位置像素不为白时归1。逐次判定模板图像像素点是否满足周围黑像素大于1小于6、0变1次数为1、归零后0变1次数不为1的条件,若满足,则将结构元素对应的模板图像像素点删除,若无法满足则进行后续模板像素点的判断,循环执行至无可删除模板图像像素点。
5.图像分割
在人工智能中,常见的图像分割方法为基于连通域的目标分割,即寻找图像内具有相同像素值的区域并进行标记。在具有相同像素值的区域寻找时,可以利用两遍扫描法,首次遍历每个像素,完成上方、左侧像素检查;其次,将对应像素的标签分配给当前像素;最后,由图像左上角线性移动到右下角,并在检查当前像素标签的同时连接区域的多个标签,完成图像目标分割。
(三)特征提取
特征提取優劣对图像识别效果具有决定性作用,特征提取的过程本质上是一个降维的过程,即在选定特征点后,在特征点所在的区域内,将低层次的高维原始图像像素矩阵抽象为高层次的与图像识别目标关联的低维特征向量。常见的图像特征提取为纹理密度、纹理方向或HSV色彩。其中HSV色彩主要是借助色相(Hue)、饱和度(Saturation)、明度(Value)对图像进行描述,搭建标示图像色彩属性、颜色纯度与亮度的空间。在空间内,可以经直方图水平轴将饱和度或明度通道取值范围等分为若干间隔,以纵轴象征特定取值间隔的像素个数。在颜色特征提取之后,为避免光照调节对特征识别鲁棒性造成干扰,可以利用边缘检测算子Canny、方向梯度直方图,进行纹理密度与纹理方向特征的提取。在Canny算子中,图像纹理密度特征指标为一幅图像内边缘像素数量与全部像素数量的比值;方向梯度直方图本质上是求解像素点之间梯度变化方向。在方向梯度直方图中,图像可以被划分为若干单元格,每一个单元格可视为一个8维的向量,在特征点所在的区域内,经若干单元格大小的区块滑动扫描图像,统计像素点方向划分到8个方向的梯度变化值,最终实现图像纹理梯度方向分布差异程度的刻画。一般方向梯度直方图差异为方向梯度直方图中刻度对应取值与总刻度数量的比值。
(四)分类
在图像特征提取后,可以借助SVM(Support Vector Machine,支持向量机),输入确定的强相关特征,输出图像类别,完成图像类别的智能划分。基于SVM的图像分类本质上是一对多策略的实施,可以将分类器划分为若干子分类器,将样本图像划分为类别a、b,若航拍图被分类为a,则继续被输入其中一个或多个子分类器,以进一步确定图像类别;若航拍图被分类为b,则继续被输入另外的子分类器,以进一步确定图像类别。以河流冰情航拍图为例,可以将分类器划分为3个子分类器,将样本类别划分为明流和冰塞、流凌和冰盖,若航拍图被分类为明流和冰塞,则继续输入到子分类器1-2,以进一步确认航拍图是明流或冰塞;若航拍图被分类为流凌和冰盖,则继续输入到子分类器1-3,以进一步确认航拍图是流凌或冰盖。汇总全部分类数据后,可以获得图像分类结果。
(五)匹配
在完成图像类别划分之后,应对待处理图像与样本图像进行配准。一般无人机采集的航拍影像携带地理信息标签,包括存储于飞行记录内俯仰角、偏航角、横滚角等姿态数据以及分辨率、三维坐标、焦距。为确保上述地理信息标签与样本参数完全相符,可以空间位置特征向量为基础,借助Similarity Search(相似性搜索)算法,进行航拍图像-样本图像的初步匹配。即以特征向量为匹配依据,将样本图像叠加到航拍图像中。鉴于特征向量内元素为浮点数,可以采用欧式距离进行向量间距离计算,在计算距离低于前期设置阈值时,即判定对应的航拍图与样本图像特征点成功匹配。
初步匹配后,航拍图像与样本图像仍然存在部分无法对齐的区域,为提高两者吻合度,可以图像配准为依据,综合考虑数据噪声、成像畸变、传感器精度等因素,在同一个坐标系内进行不同空间尺度、不同时间下的图像匹配。在精准匹配时,可以将航拍图像与样本图像视为若干传感器采集的跨模态数据,利用基于强度的图像配准方法,进行图像配准。即以互信息(有价值信息度量,随机变量内涵盖的另一个随机变量信息量)为依据,表征航拍图像与样本图像之间相似性,互信息可表示为:
(2)
式(2)中I(R,B)为航拍图与样本图像之间的互信息指标;r为航拍图像素强度;b为样本图像像素强度;PRB(r,b)为航拍图与样本图像像素强度联合概率分布;PR(r)为航拍图像素强度边缘分布;PB(b)为样本图像像素强度边缘分布[8]。在互信息确定后,利用遗传算法进行求解,获得最大的互信息。遗传算法的编码方式为实数编码,适应度函数为互信息指标,种群大小为500,随机产生初始种群,经轮盘赌法选择种群个体并对个体进行自适应交叉、突变。进而选择优化互信息指标概率最大的个体作为下一种群变异基础,循环开展互信息指标评价-选取-交叉突变环节,直到获得最大迭代次数的终止条件,实现图像的高程度匹配。
六、结束语
综上所述,图像识别技术是人工智能领域至关重要的一项技术,可以借助计算机取得近似于人类识别甚至超越人类识别的效果。在图像识别技术应用过程中,需要经过图像输入、预处理、特征提取、分类、匹配几个环节。通过合理操作各环节,可以获得最接近原图的结果,为人工智能交互提供支持。
作者单位:李敏 漯河食品职业学院
参 考 文 献
[1]陈逸,张闻中,华守彤,龚孜诣.基于图像识别的皮带运输机故障自动诊断方法[J].制造业自动化,2022(03):205-207.
[2]李观发.人工智能背景下图像识别技术浅析[J].数码世界,2019(06):128-128.
[3]秦放,曾维佳,罗佳伟,徐鹏.基于深度学习的多模态融合图像识别研究[J].信息技术,2022(04):29-34.
[4]白旭,宋祉明,李成刚.人工智能图像识别技术在电力系统中的应用[J].中国新技术新产品,2020(17):14-15.