基于金字塔梯度方向图像特征的检索模型设计

2014-08-29 17:58白宗文周美丽白茹
现代电子技术 2014年15期
关键词:电子商务

白宗文+周美丽+白茹

摘 要: 随着互联网的普及和发展,电子商务网站数量急剧增长,迫切需要一个平台对在线销售商品进行标注以方便用户进行搜索。通过提取类别图像和测试图像的金字塔梯度方向直方图(PHOG)全部特征,然后计算两者之间的距离,测试图像与类别图像距离比较近的就属于同一类图像。利用Matlab语言开发出了能够实现这一检索分类模型。实验证明这一模型灵活性好,准确性高。

关键词: 电子商务; 图像检索; 混淆矩阵; 金字塔梯度方向直方图

中图分类号: TN911.7?34; TP391 文献标识码: A 文章编号: 1004?373X(2014)15?0065?03

Design of image retrieval model based on image features

in pyramid histogram of oriented gradient

BAI Zong?wen, ZHOU Mei?li, BAI Ru

(Yanan University, Yanan 716000, China)

Abstract: With the development and popularization of Internet, and rapid increase of e?commerce web sites, sales of commodity on line needs a platform for the annotation urgently to facilitate users to search in e?commerce site. The distance between the testing image and category image is calculated according to the entire features extracted in category image and testing image PHOG. If the distance between the testing image and category image is in the range, they belong to the same class. The model that could fulfil the image retrieval classification was developed with Matlab language. Experiment results show that the model has high flexibility and accuracy.

Keywords: e?commerce; image retrieval; confusion matrix; PHOG

0 引 言

随着网络信息技术的发展,网上资讯、网上销售、网上购物等已成为一种潮流,来自各个领域的信息以图片、图表、动画和视频为形式的信息发布量日益庞大。在许多应用领域中如数字图书馆、天气预报、医疗图像管理、犯罪预防、宇宙探测、交通检测等,图像信息每天都以惊人的速度填充着或形成更加庞大的图像信息库。人们在工作、生活中越来越多地接触到大量的各种各样的图像信息,可以说网络的普及和发展对人们的生活、对社会各个领域均产生了巨大影响,特别是Web的兴起,网络上传输的信息更是以指数级速度增长。但出现在Web上公共资源等图像信息都是无序、无索引的,在这样的环境下寻找感兴趣的资料是非常耗时的。因此就需要有一个对信息进行分类、检索系统平台来快捷地实现搜索目的[1]。

本文研究实现了根据图像特征完成对在线商品的自动分类,以方便人们对商品图片信息的检索,尤其可以推广到电子商务领域。众所周知,电子商务网站的数量正在急剧增长,电子商务已经逐渐进入了一个全新的时代,以一批国内外知名的电子商务网站为代表,如Amazon、ebay、淘宝等越来越受到大众的认可和好评,只是目前这些商务平台的基本信息检索系统已基本成熟,但是还不是很完善,本文主要采用的是提取PHOG特征即商品局部特征相似的方法,主要评价标准是通过计算商品相似度距离来实现分类[2]。

1 算法原理

对于静止图像分类检索主要根据图像特征如颜色(Color)、纹理(Texture)、形状(Shape)和特征空间等[3],其中基于颜色、纹理、形状的分类方法应用已经很广泛。而特征空间的分类检索方法多应用于对遥感图像、纹理图像进行分类,基于特征空间的分类方法是将原图像经过K?L变换或小波变换等把图像用特征空间表示,然后在图像特征空间中提取图像的高层特征对图像进行分类。应用特征空间的分类方法可降低数据维数,降低计算复杂性,但其分类效果与特征提取的方式有很大关系。

Anna Bosch提出了图像的金字塔方向梯度直方图表示方式(图像PHOG特征表示)[4],其具体步骤如下:先提取图像的边缘轮廓,再将图像轮廓进一步分层,每一层将上一层的各块比例按宽和高等分成更小的分块,提取这些分块轮廓点的梯度方向直方图, 然后按权值合并,这样就形成一个大金字塔梯度方向直方图作为图像的形状特征。近年来提取图像的PHOG 特征在图像分类、检索等领域应用得非常广泛[5] 。

本文以Matlab语言为基础根据图像PHOG特征即塔式梯度方向直方图进行分类。为了进一步描述这种方法原理,图1将一幅图像逐级分割细化,一般是按横纵坐标均分两段,如图1第一行,上一级对图像的每一分块在下一级分割中就被分成4 块。计算每一级各块所含边缘点对应的梯度方向直方图,然后汇总这些梯度方向直方图就得到图像最终的PHOG 形状描述特征。设图像共被分割成[L]级, 第[l]级每个轴被平均分成[2l]段, 从而得到[4l]个图像块, 每块的梯度方向直方图有[K]个区间,所以PHOG 特征共有[Kl∈L4l] 维[5]。图像的PHOG金字塔形状的空间描述如图1所示。

每个描述符包含在了每个分区域的图像水平分辨率的一个方向上的梯度直方图。这两个PHOG形象描述的距离反映了某种程度上图像的形状和相对应的空间布局的相似性[6]。从图1 中可以看出随着分割层数的增加,梯度方向直方图对图像形状的刻画也越来越局部化和精细化。

混淆矩阵是图像分类经常使用的一种衡量算法性能的标准方法[7],图2是对混淆算法的详细说明,横排表示测试图片的实际类别,竖排表示测试图片的预测类别,而从左往右的中心对称线则表示分类正确的数目,通过混淆矩阵可以直观地看出结果的准确性。本文用Matlab编程语言,实现了对于图像PHOG特征提取的快速分类,并且还进行多次测试,通过扩大测试类别,改变[L]值的大小来验证算法的准确性,并对结果做混淆矩阵分析,利用混淆矩阵的直观性很好地验证了该算法的准确性[8]。

2 仿真实验

通过Matlab设计M文件,所需要的M文件主要有两大类:一是循环提取文件夹里的图片的PHOG特征;二是循环计算测试集里的每张图片与训练集图片的PHOG特征间的距离。取[L=1,]对两类图片进行测试:在图库中选取了两大类图片共计40张,第一类是20张项链,第二类是20张球,取10张项链和10张球作为测试集C,其余10张项链和球作为训练集A与B,如图3所示。

图2 混淆矩阵

图3 训练集图片示意图

接下来通过M程序分别求A,B,C中每张图片的PHOG特征并存于a,b,c中,然后将c中的每张图片的PHOG特征与a和b中每张图片的PHOG特征求距离,这样就得到了两个1×200的距离值,而所得1×200每个数据表示的是距离值,第一行表示C中的图片PHOG特征到A中图片的距离;第二行表示C中的图片PHOG特征到B中图片的距离;而第一列的前10个数表示C中第一张图片到A中图片的距离;11~20表示到C中第二张图片到A中图片的距离,依次类推,就可以根据数据对测试图片进行分类并做混淆矩阵。互相比较距离值,距离较小的一类就是测试图片所属类,根据结果做混淆矩阵如图4所示。

图4 两类图片的混淆矩阵

从图4可以直观看出共17张分类正确,3张分类错误,准确率为85%。

3 结 论

由上述实验仿真可以得出对于无噪声或小噪声图像通过提取测试图片的PHOG特征,进而计算测试集与训练集图片的PHOG特征求距离,距离最近的一类就是测试图片的所属类或最相似类。这一技术可被推广到电子商务中,具有一定的实用价值。

参考文献

[1] 章毓晋.图像工程(上册):图像处理与分析[M].北京:清华大学出版社,1999.

[2] 章毓晋.基于内容的视觉信息检索[M].北京:科学出版社,2003.

[3] 李建生.图像元数据特征提取及其在检索中的应用[D].南京:南京师范大学,2006.

[4] 李向阳,庄越挺,潘云鹤.基于内容的图像检索技术与系统[J].计算机研究与发展,2001,38(3):344?353.

[5] 袁杰,魏宝刚,王李冬.一种综合PHOG形状和小波金字塔能量分布特征的图像检索方法[J].电子学报,2011,39(9):2114?2119.

[6] 肖冶江.基于色彩的图像检索系统研究及实现[D].南宁:广西大学,2007.

[7] 贾世杰,孔祥维,付海燕,等.基于互补特征和类描述的商品图像自动分类[J].电子与信息学报,2010(10):2294?2300.

[8] 吴小季.基于SVM图像分类方法的研究[D].南京:南京信息工程大学,2011.

每个描述符包含在了每个分区域的图像水平分辨率的一个方向上的梯度直方图。这两个PHOG形象描述的距离反映了某种程度上图像的形状和相对应的空间布局的相似性[6]。从图1 中可以看出随着分割层数的增加,梯度方向直方图对图像形状的刻画也越来越局部化和精细化。

混淆矩阵是图像分类经常使用的一种衡量算法性能的标准方法[7],图2是对混淆算法的详细说明,横排表示测试图片的实际类别,竖排表示测试图片的预测类别,而从左往右的中心对称线则表示分类正确的数目,通过混淆矩阵可以直观地看出结果的准确性。本文用Matlab编程语言,实现了对于图像PHOG特征提取的快速分类,并且还进行多次测试,通过扩大测试类别,改变[L]值的大小来验证算法的准确性,并对结果做混淆矩阵分析,利用混淆矩阵的直观性很好地验证了该算法的准确性[8]。

2 仿真实验

通过Matlab设计M文件,所需要的M文件主要有两大类:一是循环提取文件夹里的图片的PHOG特征;二是循环计算测试集里的每张图片与训练集图片的PHOG特征间的距离。取[L=1,]对两类图片进行测试:在图库中选取了两大类图片共计40张,第一类是20张项链,第二类是20张球,取10张项链和10张球作为测试集C,其余10张项链和球作为训练集A与B,如图3所示。

图2 混淆矩阵

图3 训练集图片示意图

接下来通过M程序分别求A,B,C中每张图片的PHOG特征并存于a,b,c中,然后将c中的每张图片的PHOG特征与a和b中每张图片的PHOG特征求距离,这样就得到了两个1×200的距离值,而所得1×200每个数据表示的是距离值,第一行表示C中的图片PHOG特征到A中图片的距离;第二行表示C中的图片PHOG特征到B中图片的距离;而第一列的前10个数表示C中第一张图片到A中图片的距离;11~20表示到C中第二张图片到A中图片的距离,依次类推,就可以根据数据对测试图片进行分类并做混淆矩阵。互相比较距离值,距离较小的一类就是测试图片所属类,根据结果做混淆矩阵如图4所示。

图4 两类图片的混淆矩阵

从图4可以直观看出共17张分类正确,3张分类错误,准确率为85%。

3 结 论

由上述实验仿真可以得出对于无噪声或小噪声图像通过提取测试图片的PHOG特征,进而计算测试集与训练集图片的PHOG特征求距离,距离最近的一类就是测试图片的所属类或最相似类。这一技术可被推广到电子商务中,具有一定的实用价值。

参考文献

[1] 章毓晋.图像工程(上册):图像处理与分析[M].北京:清华大学出版社,1999.

[2] 章毓晋.基于内容的视觉信息检索[M].北京:科学出版社,2003.

[3] 李建生.图像元数据特征提取及其在检索中的应用[D].南京:南京师范大学,2006.

[4] 李向阳,庄越挺,潘云鹤.基于内容的图像检索技术与系统[J].计算机研究与发展,2001,38(3):344?353.

[5] 袁杰,魏宝刚,王李冬.一种综合PHOG形状和小波金字塔能量分布特征的图像检索方法[J].电子学报,2011,39(9):2114?2119.

[6] 肖冶江.基于色彩的图像检索系统研究及实现[D].南宁:广西大学,2007.

[7] 贾世杰,孔祥维,付海燕,等.基于互补特征和类描述的商品图像自动分类[J].电子与信息学报,2010(10):2294?2300.

[8] 吴小季.基于SVM图像分类方法的研究[D].南京:南京信息工程大学,2011.

每个描述符包含在了每个分区域的图像水平分辨率的一个方向上的梯度直方图。这两个PHOG形象描述的距离反映了某种程度上图像的形状和相对应的空间布局的相似性[6]。从图1 中可以看出随着分割层数的增加,梯度方向直方图对图像形状的刻画也越来越局部化和精细化。

混淆矩阵是图像分类经常使用的一种衡量算法性能的标准方法[7],图2是对混淆算法的详细说明,横排表示测试图片的实际类别,竖排表示测试图片的预测类别,而从左往右的中心对称线则表示分类正确的数目,通过混淆矩阵可以直观地看出结果的准确性。本文用Matlab编程语言,实现了对于图像PHOG特征提取的快速分类,并且还进行多次测试,通过扩大测试类别,改变[L]值的大小来验证算法的准确性,并对结果做混淆矩阵分析,利用混淆矩阵的直观性很好地验证了该算法的准确性[8]。

2 仿真实验

通过Matlab设计M文件,所需要的M文件主要有两大类:一是循环提取文件夹里的图片的PHOG特征;二是循环计算测试集里的每张图片与训练集图片的PHOG特征间的距离。取[L=1,]对两类图片进行测试:在图库中选取了两大类图片共计40张,第一类是20张项链,第二类是20张球,取10张项链和10张球作为测试集C,其余10张项链和球作为训练集A与B,如图3所示。

图2 混淆矩阵

图3 训练集图片示意图

接下来通过M程序分别求A,B,C中每张图片的PHOG特征并存于a,b,c中,然后将c中的每张图片的PHOG特征与a和b中每张图片的PHOG特征求距离,这样就得到了两个1×200的距离值,而所得1×200每个数据表示的是距离值,第一行表示C中的图片PHOG特征到A中图片的距离;第二行表示C中的图片PHOG特征到B中图片的距离;而第一列的前10个数表示C中第一张图片到A中图片的距离;11~20表示到C中第二张图片到A中图片的距离,依次类推,就可以根据数据对测试图片进行分类并做混淆矩阵。互相比较距离值,距离较小的一类就是测试图片所属类,根据结果做混淆矩阵如图4所示。

图4 两类图片的混淆矩阵

从图4可以直观看出共17张分类正确,3张分类错误,准确率为85%。

3 结 论

由上述实验仿真可以得出对于无噪声或小噪声图像通过提取测试图片的PHOG特征,进而计算测试集与训练集图片的PHOG特征求距离,距离最近的一类就是测试图片的所属类或最相似类。这一技术可被推广到电子商务中,具有一定的实用价值。

参考文献

[1] 章毓晋.图像工程(上册):图像处理与分析[M].北京:清华大学出版社,1999.

[2] 章毓晋.基于内容的视觉信息检索[M].北京:科学出版社,2003.

[3] 李建生.图像元数据特征提取及其在检索中的应用[D].南京:南京师范大学,2006.

[4] 李向阳,庄越挺,潘云鹤.基于内容的图像检索技术与系统[J].计算机研究与发展,2001,38(3):344?353.

[5] 袁杰,魏宝刚,王李冬.一种综合PHOG形状和小波金字塔能量分布特征的图像检索方法[J].电子学报,2011,39(9):2114?2119.

[6] 肖冶江.基于色彩的图像检索系统研究及实现[D].南宁:广西大学,2007.

[7] 贾世杰,孔祥维,付海燕,等.基于互补特征和类描述的商品图像自动分类[J].电子与信息学报,2010(10):2294?2300.

[8] 吴小季.基于SVM图像分类方法的研究[D].南京:南京信息工程大学,2011.

猜你喜欢
电子商务
2025年我国农村电子商务交易额达到2.8万亿元
《电子商务法》如何助力直销
浅析中小企业电子商务服务外包
电子商务实践能力的提升探析
电子商务
电子商务模式创新的相关研究
关于加快制定电子商务法的议案
跨境电子商务中的跨文化思考
基于AS仿真的电子商务交易系统研究
电子商务人的核心能力