甄泽冰,池 静,张欣欣,王亚凤
(河北工程大学 信息与电气工程学院,河北 邯郸 056000)
基于多特征融合技术的商品图像分类
甄泽冰,池 静,张欣欣,王亚凤
(河北工程大学 信息与电气工程学院,河北 邯郸 056000)
针对网上商品图像的特点,提出了一种多特征融合的分类方法,针对颜色和商品图案风格两方面对图像进行分类。首先对商品图像进行分割,再提取特征,颜色特征选择提取颜色直方图特征和颜色矩特征;提取PHOG和SIFT特征来描述图案风格。然后采用基于决策的加权融合方法将两种特征结合起来进行分类,最后在数据集上进行实验,与仅用单一特征分类和使用普通多特征拼接方法作比较,使用提出的融合特征的方法进行分类,准确率较高,并且其准确率有8%~10%的提升。实验结果表明提出的方法是一种有效的商品图像分类方法。
图像分类;多特征融合;商品图像
互联网的不断进步促进了电子商务的快速发展,在线购物也受到了更多人的青睐,而这将引发图像数据呈几何级数的增长。目前商品图像分类方法除了人工手动分类外,主要采用基于文本的商品图像分类方法,也就是通过商家上传的图像描述的文本进行分类,而商家会添加大量描述文本,其关键字纷繁复杂,并且准确性有待提高[1]。如果系统能够帮助商家将上传的商品图像按照颜色和款式分类,则会节省人力的消耗,并提高商品标注信息的准确性。商品图像的颜色和款式与图像的内容特征息息相关,因此,如何通过图像的内容特征来完成对在线商品的分类是电子商务智能化的迫切要求[2]。
图像的内容特征描述了图像内容和图像的自身属性信息。经常运用到的图像内容特征一般为底层视觉特征,如颜色、纹理、形状等。由于同一类物体在图像中的表示形式多样化,同一场景的不同图像的显著特征也存在差异,因而基于单一特征的图像分类通常不能令人满意。组合多种图像特征有助于提高分类的准确度[3]。对于多特征融合的问题,Wang[4]等人采用方向梯度直方图(HOG)与局部二值模式(LBP)结合进行部分遮挡处理的人体检测;Gehler[5]等运用了多核学习(MKL)的方法评估多类目标分类中不同特征的综合性能;翟艳东[6]等以不同的特征向量作为SVM的输入对图像进行比较,研究不同的图像特征对图像分类的影响,利用多级分类的思想对图像进行分类。
多特征融合技术虽然已有效地应用在很多专业领域,但在电子商务中的应用还是一个较新的研究方向。综合在线商品图像的特征和应用多特征进行图像分类的优势,本文首先分割图像,然后对图像进行颜色和图案风格两方面的分类,并运用一种基于决策的加权融合方法,将颜色直方图和颜色矩特征融合起来进行颜色的分类,将塔式梯度直方图(PHOG)和局部特征描述子SIFT融合起来进行图案风格的分类。
商家上传的商品图像除了重点突出的商品外,大多都有复杂背景干扰,所以需要对图像中商品所在区域进行分割,然后再进行下一步的特征提取。这里采用显著区域检测算法[7],检测显著性区域后,进行图像分割。首先对图像进行迭代二值化过滤,去除噪声点后,提取图像中的最大连通区域,得到一个初始范围,再将该连通区域的最小外接矩形作为初始待选前景点。大部分在线商品图像是由模特展出,所以还需要在该矩形中进行肤色区域检测。最后,根据超像素块的平均位置和颜色,计算平均位置在该矩形内的每个超像素块与该矩形中心的平均距离d1和与肤色区域的平均距离d2,从d1+d2与最小的非肤色区域超像素块中选取待选前景点,最后利用Grabcut[8]方法进一步分割提取。
2.1 颜色特征
对于商品图像,需要关注全局的颜色特征。颜色直方图(Color Histogram,CH)是应用最广泛的全局颜色统计特征,本文采用HSV空间下的颜色直方图。HSV的3个分量H,S,V分别为色彩(Hue)、饱和度(Saturation)和亮度(Value),与RGB相比能更好地反映人眼对颜色的感知能力。HSV颜色直方图的生成步骤采用非均匀量化分块颜色直方图算法[9],将HSV中H分为8块,S和V分别分为3块,然后统计8×3×3=72维的HSV颜色直方图,进行归一化后,形成颜色特征向量。
颜色矩(Color Moments,CM)常用的有颜色矩中的一阶矩(Mean,均值)、二阶矩(Viarance,方差)和三阶矩(Skewness,偏度)来构成图像的特征向量。在各个通道提取颜色矩特征前,将显著区域分割后图像的最小外接矩形划分为n×n的互相独立的子区域,计算第i个子图的H、S、V通道的一阶矩,利用一阶矩再计算出二阶矩和三阶矩,最后构成一个n×n×3×3维的特征向量。本文取n=5,在分割分辨率310×310的商品图像时效果较好。
2.2 分层梯度方向直方图(PHOG)
2.3 尺度不变特征变换(SIFT)
运用SIFT(Scale Invariant Feature Transform)算法[11]进行特征提取具有缩放,旋转不变性,并且当视角及亮度转换时也能表现出很好的稳定性。
获得SIFT描述符分为两步:关键点探测和特征提取。第一步,用高斯积分(Difference of Gaussian,DoG)来探测关键点,这个关键点就是局部极值(最大值或最小值)。第二步,在每一个关键点周围选取8×8的邻域窗口,此邻域窗格将会进一步被分割成16个4×4的子窗格。在每一个子窗格中,计算它们的方向并形成有8个区间的梯度直方图,最后得出1个128(4×4×8)维的向量,用来描述这个关键点。
在图像分类时,如果只利用单一的特征进行分类,那么每幅图像的显著特征就不能被很好的利用,而组合多种特征对图像分类算法的性能是有所提高的。
3.1 权值的计算方法
每个特征在自己的类中,通过距离类中心的距离来确定该样本在这个特征分类中的可靠度。首先需要定义一个类中心矩,类中心矩公式为
(1)
式中:n和N为样本个数:m为每个样本所含有的向量个数:p为样本的特征向量。
确定类中心矩后,要确定的为每个样本距离中心矩的距离,也就是类间距,类间距的定义为
(2)
本文定义了一个样本特征在该类中的可靠度,也就是该样本属于该类的可能性大小。本文的可靠度为该类的类间距和类中心矩差的绝对值与类中心矩的比值,即
(3)
式中:w在0~1的范围内,数值越趋近于1,该样本属于该类的可能性越大,反之则越小。因而,可把此可靠度作为融合特征的权值w。
3.2 分类算法流程
1)对训练样本图像进行图像分割,然后提取全局特征:HSV颜色直方图和颜色矩(CM);然后提取局部特征PHOG和SIFT;再分别用支持向量机SVM训练,得到4种不同的SVM分类器,分别为Sh,Sc,Sp,Ss,其中的Sh和Sc用于颜色的分类,Sp和Ss用于图案风格的分类。
3)根据本文的权值计算方法分别计算出每一特征的权值依次为wh,wc,wp,ws。
4)将步骤2)中Ph,Pc,Pp,Ps与对应的权重相乘并求和,最后结果中最大值所对应的类别即为分类结果。
4.1 数据集
本文中直接选取了购物网站上的商品图像,包括上衣、裙装等,图像平均分辨率约为310×310。由于人工标注需要的人力有限,文中只选择了6种颜色进行标注,分别为黑、白、红、黄、蓝、其他;5种典型的图案风格,分别为碎花、格子、条纹、印花、无花纹。其中每种颜色及图案风格的图片分别为100幅,形成一个图片库,实验中选取70%作为训练集,30%作为测试集。示例图像如图1所示(原图为彩图)。
图1 图片库示例图像
4.2 实验结果及对比
本文利用SVM算法进行分类。核函数选择RBF,其中惩罚因子C=32,核参量γ=0.125。采用本文多特征融合方法对颜色和图案风格进行分类,并与多特征拼接方法分类作对比,分类结果如图2和图3所示。图中x轴代表图像的类别,y轴代表对各类图像分类的准确率。从图2中可以看出,对于黑色、红色、黄色类的图像,HSV颜色直方图的分类效果较好,而对蓝色、白色和其他类图像,颜色矩的效果较好。由图3所示的结果可以看出,对于碎花和无花纹类的图像,PHOG的分类效果好,而对格子、条纹、印花类的图像分类效果,SIFT的表现较好。HSV颜色直方图和颜色矩的总体平均分类准确率分别为78.0%,80.1%;PHOF和SIFT的总体平均分类准确率为77.4%,77.3%。
从结果图中可以看出,利用多特征分类每一类的分类准确率都比利用单一特征的最大分类准确率要高,图2中普通多特征拼接方法和本文多特征融合方法的平均分类准确率分别为82.4%,90.5%,图3中为80.2%,88.1%。可以看出,运用本文方法比普通多特征拼接的方法平均准确率高出约8%,而比运用单一特征最高的平均分类准确率也高出约 10%~11%。
图2 单一特征与多特征融合方法对颜色的分类准确率和平均分类准确率
图3 单一特征与多特征融合方法对图案风格的分类准确率和平均分类准确率
本文提出了一种多特征融合的方法,并采用此方法对商品图像进行分类,与仅利用单一特征分类和普通多特征拼接的融合方法分类进行了对比实验,并且在本文数据集上进行实验,验证了本文方法的有效性,并且该方法具有更高的分类准确率。对于多特征融合也可采用多核学习的融合方式,如果将多核学习过程设计和决策级融合结合在一起,分类精度应该会有更大的提高。
[1] 孙林,吴相林,罗松涛,等.基于人体检测的网络商品图像分类算法[J].微计算机信息,2010,26(10):15-17.
[2] 贾世杰.基于内容的商品图像分类方法研究[D].大连:大连理工大学,2013.
[3] FERNANDO B,FROMONT E,MUSELET D,et al. Discriminative feature fusion for image classification[C]//Proc. IEEE Conference on Computer Vision and Pattern Recognition(CVPR). [S.l.]:IEEE Press,2012:3434-3441.
[4] WANG X,HAN T X,YAN S. An HOG-LBP human detector with partial occlusion handling[C]//Proc. 2009 IEEE 12th International Conference on Computer Vision. Kyoto,Japan:IEEE Press,2009:32-39.
[5] GEHLER P,NOWOZIN S. On feature combination for multiclass object classification[C]//Proc. 2009 IEEE 12th International Conference on Computer Vison. [S.l.]:IEEE Press,2009:221-225.
[6] 翟艳东,于明,王岩,等.一种图像多级分类方法[J].电视技术,2013,37(19):32-35.
[7] PERAZZI F,KRAHENBUHL P,PRITCH Y,et al. Saliency filters:contrast based filtering for salient region detection[C]//Proc. the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington,DC,USA:IEEE Computer Society,2012:733-740.
[8] ROTHER C,KOLMOGOROV V,BLAKE A. Grabcut:Interactive foreground extraction using iterated graph cuts[J].ACM Trans. Graphics,2004(23):309-314.
[9] 姜兰池,沈国强,张国煊.基于HSV分块颜色直方图的图像检索算法[J].机电工程,2009,26(11):54-57.
[10] ZISSERMAN B,MUNOZ X. Representing shape with a spatial pyramid kernel[C]//Proc. the 6th ACM International Conference on Image and Video Retrieval (CVIR 07). [S.l.]: ACM,2007:401-408.
[11] WANG Zhiyong,LU Bin,CHI Zheru,et al. Leaf image classification with shape context and SIFT descriptors[C]//Proc. International Conference on Digital Image Computing:Techniques and Applications. Noosa,QLD:IEEE Press,2011:650-654.
甄泽冰(1990— ),女,硕士生,主研计算机科学与技术;
池 静(1973— ),硕士生导师,主要研究方向为计算机科学与技术;
张欣欣(1989— ),女,硕士生,主研计算机科学与技术;
王亚凤(1989— ),女,硕士生,主研计算机科学与技术。
责任编辑:任健男
Product Image Classification Based on Fusion of Multiple Features
ZHEN Zebing, CHI Jing, ZHANG Xinxin, WANG Yafeng
(SchoolofInformationScienceandElectricalEngineering,HebeiUniversityofEngineering,HebeiHandan056000,China)
According to the characteristics of online product images, a new approach of using multiple features is proposed. The image is classified through two aspects, the color and the product design style. Commodity image segmentation is firstly presented. And then features are extracted from the images. Color histogram and color moments are utilizing to describe color feature. PHOG and SIFT are using to describe pattern styles. Then weighted fusion method based on decision is applied to combine two kinds of features. The proposed method is evaluated on a product image dataset. Compared with using single feature method and the multi-feature splicing method, the classification accuracy of using proposed method is higher and the accuracy is improved by 8% to 10%. Comprehensive experimental results indicate that the proposed approach is effective and suitable for product image classification.
image classification; multi-feature fusion; product image
TP391.4
A
10.16280/j.videoe.2015.18.023
2015-03-26
【本文献信息】甄泽冰,池静,张欣欣,等.基于多特征融合技术的商品图像分类[J].电视技术,2015,39(18).