高 小 芳
(泉州信息工程学院,福建 泉州 362000)
在网络海量信息中会存在一些有价值的信息,所以需要对这些信息进行挖掘,以便后续分析与利用,这就是数据挖掘。但是在数据挖掘方法应用过程中发现,传统方法不能精准、快速地获取图像中的有效信息,所以导致图像信息获取难度加大[1]。尤其是图像中包含的信息众多,很多重要信息被掩藏在干扰信息当中,因此挖掘较为困难。在此背景下,如何实现对海量多媒体图像信息的快速检索是该领域研究的重点课题。
图像检索,简单地说就是根据图像特征从海量多媒体图像中寻找到与之匹配的图像。关于图像检索问题的研究很多学者在其著作中都进行了分析和探讨,总结起来大致分为以下3类:第一类是根据图像内容进行检索,主要是利用颜色、形状、纹理等这些信息构建特征向量,最后根据特征相似度量实现图像检索;第二类基于颜色特征的图像检索,主要是根据图像的颜色特征将其与网络图像相似度进行比较,获得最终的检索结果,并将前m个图像作为检索结果;第三类为基于深度特征的图像检索。这种方法利用卷积神经网络对图像进行一层一层卷积、池化,得到一组特征向量,然后与对应的索引库进行近似最近邻查找,实现图像检索。
以上图像检索方法都是通过对比图像单一特征来进行图像匹配检索,图像检索精确率不高,因此本文以第三类图像检索方法为基础,对其进行改进,提出一种基于改进深度学习的海量多媒体图像信息快速检索方法。
图像与文字等其他数据形式不同,一幅图像中包含了多种特征,若是只通过一种特征进行图像检索,检索精度不高,经常出现漏检或者错检等问题[2]。为此,本文在对原有的深度学习进行深入剖析后,提取图像特征并对提取出来的特征进行融合,通过利用多种特征进行图像检索以提高图像检索的精度。基于改进深度学习的多媒体图像信息快速检索方法框架如下图1所示。
图1 基于改进深度学习的图像检索方法原理框架
在进行图像检索前,需要有一个预处理过程,以提高图像质量,便于更高层次的处理[3]。本研究中的图像预处理包括图像去噪和图像增强两部分。下面进行具体分析。
1)图像去噪
图像去噪是指去除或者降低图像中的干扰信息。目前常用的方法主要有均值滤波法和中值滤波法两种[4]。前者主要对像素均值进行计算,并利用该结果来替换原始像素,以此完成图像去噪处理。以3*3窗口的均值滤波为例(图2)。
图2 3*3滤波窗口
其计算公式如下:
(1)
式中,P(x,y)为中点P的滤波值。其余5*5,9*9,...,(2n+1)*(2n+1)滤波窗口的计算与矩形窗口的相同[5]。
后者中值滤波法与均值滤波法的操作大致相同,只是不再是计算均值,而是计算滤波模板领域内所有像素的中值,以中值代替模板内中心点原始像素值[6]。计算
(2)
式中,q(x,y)为该模板内中点P的滤波值。{x(i,j),(i,j)∈I}表示图像灰度值,S代表滤波窗口。
上述两种去噪方法针对的噪声类型不同,前者针对高斯噪声,后者针对椒盐噪声。为了能够同时去除这两种噪声,通过引入局部阈值将噪声类型分开,以此实现利用不同去噪方法去除噪声[7]。
设x(i,j)为图像(i,j)点处的像素值,则中值滤波处理后输入为q(x,y)。定义l(i,j)=|x(i,j)-q(i,j)|, 即x(i,j)和q(i,j)的绝对差值。假设y1(i,j)和y2(i,j)为所取领域中和x(i,j)最接近的两个点,令
a=|y1(i,j)-x(i,j)|
(3)
b=|y2(i,j)-x(i,j)|
(4)
(5)
根据以上分析,去噪方法的选择规则如下:
(6)
式中,T1和T2为设定的局部阈值[8]。
2)图像增强
图像增强是指增强图像清晰度,以凸显图像特征,丰富信息量。本文主要是通过直方图均衡化来调整图像灰度分布不均的问题,从而让图像的高低灰度都容易分辨出来[9]。直方图均衡化具体流程如下:
步骤1:确定原始多媒体图像。
步骤2:多媒体图像灰度化处理。
步骤3:计算灰度图像中所有像素的灰度级,记为rk,k=0,1,…,L-1,其中,L为灰度级。
步骤4:计算所有像素的灰度级的像素数,记为nk。
步骤5:计算原始多媒体图像直方图。计算公式如下:
(7)
式中,Q(rk)表示像素总数中灰度级为rk的像素数;n为图像中所有像素的总数。
步骤6:根据上述步骤5计算结果,计算累积直方图。计算公式如下:
(8)
步骤7:按照下述公式(9)取整。
(9)
步骤10:重新显示图像[10]。
基于上述预处理好的多媒体图像,在本文利用深度学习中卷积神经网络进行多媒体图像特征提取[11]。
卷积神经网络是深度学习方法中的一种,该网络在卷积层所用的权重和偏置的参数较少,且具有平移不变性,因此将其用于多媒体图像特征提取中,以期提升特征提取精度,为后续的多媒体图像信息快速检索奠定坚实的基础。
卷积神经网络结构如图3所示[12]。
图3 卷积神经网络结构
1)卷积层
首先输入图像到卷积神经网络当中,然后使图像进入卷积层,卷积层中包括多个卷积核,利用这些卷积核对图像的特征进行提取[13]。卷积层操作如下:
(10)
式中,xi(r)和yj(r)分别是第i个输入数据和第j个输入数据,kij(r)是第i个输入数据和第j个输入数据之间的卷积核,*表示卷积。bj(r)是第j个输出结果的偏差,f(·)表示激活函数,r表示共享权重的局部区域。
2)池化层
池化层在卷积神经网络中的作用是减少图像中无价值的冗余信息,以提高计算效率,同时可以有效避免卷积神经网络发生过度拟合的问题[14]。简而言之,就是使得提取出来的特征更为精简化。
3)全连接层
全连接层在卷积神经网络中的作用将是卷积、池化得到的图像特征向量平铺成1个一维的向量,然后对特征进行重新拟合,将局部的特征编码为全局的特征向量。
经过卷积层、池化层和全连接层之后,特征重新得到分类组合。最后送入到softmax分类器,在遵循一定的分类规则情况下,得到与特征匹配图像类型,完成检索。在这里对最后一步分类检索不进行具体分析[15]。
传统卷积神经网络提取出来的特征普遍存在细节信息缺陷。为此,本章节通过多层特征图融合的方法来进行弥补,即设计一种多层多尺度的卷积神经网络。在该网络中通过多层多尺度卷积层来提取一幅图像中不同的图像特征,如纹理、颜色、形状等,然后对这些不同维度的特征进行归一化和白化处理,使得这些特征具有融合在一起的条件,然后再进入合并层。在合并层中对不同特征进行融合,最后通过求和池化层转换成固定尺寸的特征图谱。
本文主要利用改进卷积神经网络提取到多媒体图像特征,进入到最后一层,softmax层,进行类别的分类检索。在这一层中主要以相似度作为分类规则,将提取的图像特征与特征库中的特征进行对比,计算二者之间的相似度,相似度值越大,二者之间越相似,就越可能是所需要的图像信息检索结果。
设A、B代表两张图像,其中,A=(a1,a2,…,an)T,B=(b1,b2,…,bn)T。A、B两张图像之间的距离d(A,B)计算如下:
1)欧式距离
(11)
2)直方图相交
(12)
3)余弦距离
(13)
式中,ai和bi分别表示A和B的特征向量的第i个维度,wi表示各维度的权重。
在此基础上,利用相似度度量值对检索结果进行排序,获取数据库中图像所蕴含的信息,并将其作为多媒体图像信息快速检索结果。
现今网络购物已经代替了传统的购物方式,是目前广受欢迎的新型购物形式,人们通过购物App来寻找自己所需要的商品,不仅方便快捷,商品种类和价格也极具优势。然而与此同时,购物网站上用来展示商品的图像数量庞大,消费者往往需要大量的时间去筛选和比较,因此如何快速从海量的图像中筛选出所需要商品信息成为一大难题。在本次仿真实验中,将所研究的基于改进深度学习的海量多媒体图像信息快速检索方法应用到商品搜索当中,进行仿真实验分析。
仿真实验分析的实验环境见表1。在网络购物中,服饰类商品是种类最多的,也是人们最常搜索的,因此本次仿真实验中就取服饰类商品图像建立实验样本集,见表2。
表1 实验环境
表2 实验样本集
表3为改进后的卷积神经网络参数设置情况。
表3 卷积神经网络参数
评价检索方法最直接的方式是统计其检索精度和检索速度,若是可以在最短的时间内完成最为准确的图像信息检索,就认为该检索方法的检索性能较高。
1)平均精度均值
本实验中以平均精度均值(MAP)作为检索精度的验证指标,其计算公式如下:
(14)
式中,M是样本集中图像的数量,APi是第i次检索结果的平均精确度。
2)平均运行时间
本实验中以平均运行时间(AvgTime)作为检索速度验证指标,其计算公式如下:
(15)
式中,tm,k表示检索第m个图像的k个相关图像的时间成本。
相同仿真实验条件下,利用不同的检索方法对同一样本集进行检索。检索结果见表4。
表4 检索性能统计结果
分析表4中的数据可知,所研究方法应用下,图像检索MAP值更大,AvgTime值更小,由此证明所研究方法能在更短的时间内准确完成图像信息检索,检索性能较好。
综上所述,互联网技术发展带来了大数据的数量剧增,其中图像信息占据了其中很大一部分,因此如何从海量的图像信息中快速寻找到所需要的图像成为一大难点。为此,本文提出一种基于改进深度学习的海量多媒体图像信息快速检索方法,通过完善图像特征提取来提高图像检索精度,最后将研究方法应用到网络购物搜索中,证明了该方法的检索性能。然而,仿真实验分析中仅使用了几万张图像作为实验数据集,而在实际情况中一个购物平台上存在百万级甚至更多的图像,因此所研究的方法还需要升级和改进,以满足更多图像信息检索的需要。