史培元,邓廷权
SHIPeiyuan,DENG Tingquan
哈尔滨工程大学 理学院,哈尔滨 150001
College of Science,Harbin Engineering University,Harbin 150001,China
随着数字图像数量的极速增长,基于文本的图像检索技术因其描述图像内容的不客观性以及人工标注的不可实现性而逐步被淘汰。于此同时,CBIR成为了最有价值的研究课题之一。CBIR常用的方法是提取图像的特征并进行匹配。自然图像本身的复杂性使得特征提取变得非常困难。因此,适当地对图像进行合理的分解,将图像看做多个属性统一的部分,在各部分分别提取特征,可以降低特征提取的难度。
基于颜色的图像检索最常用的是颜色直方图的方法。Konstantinidis等提出了一种基于模糊颜色直方图的方法[1],Afsari等提出了一种基于直觉模糊集的颜色直方图方法[2]。然而颜色直方图只考虑像素的统计信息,丢失了像素的结构信息,影响了检索效果。本文将图像按颜色分解成保持结构的多个部分,保持了像素的结构信息,避免了图像颜色的复杂性和不同颜色间的相互影响。图像匹配时,只需对比不同图像对应部分的结构特征,简化了图像检索的复杂性。实验表明,此方法能取得较好的检索效果。
HSV空间由色相(Hue,下文统一用h表示)、饱和度(Saturation,下文统一用s表示)、亮度(Value,下文统一用v表示)三个分量组成,其中 h∈[0°,360°],s∈[0,1],v∈[0,1]。在HSV空间中有两个著名的“不表达”特性,即当s或v较低时,h不表达;当v较低时,h、s都不表达[3]。当h表达时,颜色称为“彩色”,否则称为“非彩色”。
人类学、语言学、神经学等学科中已经发现,人类对颜色存在一个固有分类,颜色被分为粉、红、棕、橙、黄、绿、蓝、紫、黑、灰、白这11个类别[4]。其中,黑、白、灰为非彩色,其他为彩色。在HSV中,粉色与棕色是红色在不同饱和度和亮度的影响下表现出来的。任意颜色在一定的饱和度与亮度的影响下都可能表现出黑色、白色、灰色。因此本文将红、橙、黄、绿、蓝、紫六种色相称为“基本色相”。以往的研究已经建立了色相区间与基本色相的映射[5],如表1所示。
表1 色相区间与基本色相映射表(360°=0°)
Phan和Androutsos通过对多名志愿者测试发现,当h固定时,sv平面存在一条彩色与非彩色的分界线[5]。然而,由于非彩色到彩色是一个渐变的过程,sv平面上存在一个模糊区域,在这一区域,很难分辨出颜色是彩色还是非彩色,因此这条界线很难确定。用两条曲线将彩色、非彩色以及它们之间的模糊区域区分开更为合理。本文通过大量测试的平均结果得到以上三个区域之间的界线,如图1所示。左侧曲线方程为双曲线(v-0.07)(s-0.03)=0.01的右半支,右侧曲线方程为双曲线(v-0.12)(s-0.12)=0.06的右半支。在左侧曲线的左边,颜色被认为是非彩色。在右侧曲线的右边,颜色被认为是彩色。两条曲线之间的颜色具有模糊性。
图1 sv平面彩色、非彩色、模糊区域分界线
根据三个区域的界线,本文定义了彩色模糊集与非彩色模糊集。HSV空间下,彩色模糊集C͂是定义在[0,1]×[0,1]上的模糊子集,其隶属函数为:
其中,dl、dr分别是点(s,v)到左、右两条曲线的距离。非彩色模糊集 A͂是定义在[0,1]×[0,1]上的模糊子集,其隶属函数为:
HSV空间中,饱和度、亮度都是[0,1]上的值,按照视觉规律,本文分别定义饱和度以及亮度的低、中、高三个模糊集。令 L͂S,M͂S,H͂S分别表示低等,中等、高等饱和度的模糊集;L͂V,M͂V,H͂V分别表示低等、中等、高等亮度的模糊集。它们都是定义在[0,1]上的模糊子,用如图2所示的梯形模糊数表示。
图2 低、中、高梯形模糊数
在HSV空间中,当s处于低水平时,h不能够得到表达,颜色呈现非彩色,随着v等级由高到低颜色呈现白、灰、黑三种颜色。当v处于低水平时,h、s都得不到表达,颜色呈现黑色。其他情况下,h、s、v三个分量均得到一定程度的表达,表现出与h所属的基本色相对应的淡彩色、亮彩色、暗彩色、深彩色,分别用hColor1、hColor2、hColor3、hColor4表示。因此可得到如表2所示的颜色推理规则表。
表2 颜色推理规则表
在此规则下,h固定时,s、v取不同的等级可以表现出七类不同的颜色。由于在图像检索中,不要求对颜色的精准识别,只要求在视觉上具有一致性即可,因此,同一类颜色在本文中不加以区分。
根据颜色的彩色-非彩色属性和颜色推理规则,当h固定时,可定义一组颜色的模糊集,包括 W͂hite、G͂ray、B͂lack、hC͂olor1、hC͂olor2、hC͂olor3、hC͂olor4 七种颜色的模糊集,当h属于不同的基本色相时它们的意义不同,并且它们都是定义在[0,1]×[0,1]上的模糊子集,隶属函数如下。
其中T(·)表示T范数,本文使用取小T范数[6]。
对于给定像素 p0=(h0,s0,v0),根据 h0与表1可判断出p0的基本色相。将s0、v0代入式(3),根据最大隶属度原则,判断出 p0的颜色。
根据第2章的颜色识别方法,对图像的每个像素进行识别。本文对图像做一种分层处理,每一层只包含图像中具有相同颜色的像素。图像被分为多少层由其像素的颜色数量决定[7]。称每一层内像素的总体为一个“单色区域”,如图3所示。
图3 单色区域示例
单色区域像素的色相、饱和度、亮度在语义上具有一致性。另外,单色区域的像素保持了它们在图像中的结构信息。本文的特征提取是在单色区域上进行的,因此,不必考虑像素本身的信息,只需考虑像素的结构信息。在图像比较的过程中,也只需比较两幅图像对应的单色区域的特征。
单色区域面积,反映了单色区域在图像中的重要程度。单色区域面积即为单色区域像素的总数,记为S。当S<δ时,认为该单色区域上的像素数量太少,对图像的内容影响不大,因此此时,删除该单色区域。本文取δ=wh/20,w、h分别为图像的宽和高。
单色区域像素的分散度反映了这一颜色在原图像上的分布情况[8]。通常,区域分散度用区域周长的平方与面积的比值表示。如果单色区域中像素 p的八邻域未填满,则认为此像素是这个单色区域的边界点。记单色区域边界点的总数为N,则单色区域的分散度χ为:
单色区域质心表现了各单色区域在图像中的位置,也表现出了各单色区域在图像中的整体结构信息。考虑到图像库中具有相同内容的图像可能规格不同,因此有必要把图像的规格考虑在内,令w表示图像的宽度,h表示图像的高度,均以像素为单位,单色区域的质心c为:
其中n为单色区域的像素数量,xi、yi分别为第i个像素的横、纵坐标。
至此,对于每个单色区域都可以得到一个特征向量Fξ,表示具有颜色ξ的单色区域的特征向量:
其中的Sξ表示单色区域面积,χξ表示单色区域分散度,cξ表示单色区域质心坐标。
单色区域是图像具有相同颜色的部分。不同图像比较时,只需比较图像间对应单色区域的特征。设图像A和图颜色集。
两幅图像中,具有颜色ξ的单色区域面积相对差异为:
单色区域分散度相对差异为:
质心距离为:
其中d(·)表示两点间的欧式距离。
当两幅图像中具有颜色ξ的单色区域都不存在时,∆Sξ,∆χξ以及dξ都为0,表明两个单色区域不存在差异。颜色ξ对应的单色区域只在一幅图像中存在时,∆Sξ=1、∆χξ=1以及dξ= 2,表明两个单色区域各个特征之间的差异最大。
本文定义两幅图像的距离为:
其中,α、β表示加权因子,其中β=1-α,表示面积与散度的重要程度。当两幅图像对应单色区域面积、分散度、质心距离差异越大,单色区域间的差异就越大,各单色区域差异之和被定义为图像之间的距离。由dAB的定义知,dAB具有旋转不变性。
本文实验图像来自Corel 10000图像库。选取不同的α,β值,依前文定义的图像间距离,进行图像检索实验。
图4 雪山图像的检索结果
图4 与图5为一个检索示例的前30幅图像,其中第一幅图像为查询图像。图6为本文提出方法在不同参数下的平均召回率-精度曲线。表3是本文方法与两种颜色直方图方法在查出相同数量的相关图像时精度的比较。可以看出,查出前60%的相关图像时,本文方法精度明显优于其他两种方法。
图5 马图像的检索结果
图6 不同参数下的平均召回率-精度曲线
经过大量实验验证,本文提出的颜色识别方法在HSV空间下能够较好地对颜色进行分类。根据此方法对图像进行分解从而形成单色区域,在图像比较时,只考虑对应单色区域的差异,避免了多种颜色的相互影响,减小了特征提取的难度,应用到CBIR中取得了非常好的效果。另外,提取单色区域的有效特征是一个值得继续探讨的问题。
表3 与颜色直方图方法的比较(参数α=0.7,β=0.3)
[1]Konstantinidis K,Gasteratos A,Andreadis I.Image retrieval based on fuzzy color histogram processing[J].Optics Communications,2005,248:375-386.
[2]Afsari F,Eslami E.Color image retrieval using intuitionistic fuzzy sets[C]//2010 6th Iranian Conference on Machine Vision and Image Processing,IsfahanIran,2010:96-102.
[3]Martínez J C,Medina J M.Retrieving images in fuzzy object relational databases using dominant color descriptors[J].Fuzzy Sets and Systems,2007,158:312-324.
[4]Venetsanopoulos A N,Androutsos D.Efficient indexing and retrieval of colour image data using a vector-based approach[D].Toronto,Ont.,Canada:University of Toronto,1999.
[5]Phan R,Androutsos D.Content-based retrieval of logo and trademarks in unconstrained color image databases using color edge gradient cooccurrence histograms[J].Computer Vision and Image Understanding,2010,114:66-84.
[6]胡宝清.模糊理论基础[M].武昌:武汉大学出版社,2010:466-469.
[7]齐文斌,毛秉毅.主色调颜色特征的图像检索与分类[J].计算机工程与应用,2011,47(24):191-192.
[8]黄春木,周利莉.密度分布特征及其在二值图像检索中的应用[J].中国图象图形学报,2008,13(2):307-311.