用直方图面积法进行图像相似度计算

2019-01-07 01:04
测绘通报 2018年12期
关键词:信息熵重合直方图

朱 爽

(北京工业职业技术学院,北京 100042)

颜色作为目标的一个重要特征,常常和目标的身份有密切的关系[1-3],利用颜色信息进行图像检索也成了一个必然选择[4-5]。利用图像的颜色检索是指给定一个查询图像,需要从图像库找到与之颜色分布类似的图像,即当两幅图像的相似程度大于设定阈值,则认为两幅图像为同一类图像。

颜色直方图图像检索方法是一种重要的基于颜色特征图像检索方法[6-8],具有特征提取和相似度计算简便,并且随图像尺度、旋转变化不敏感的特点[9-10]。目前,已经许多学者在这一方面进行了研究。John Zachary[11]提出采用信息熵描述图像的颜色特征,将图像的颜色直方图特征由多维降到一维,这有效地克服直方图维数过高问题。但该方法在进行图像检索时没有考虑熵的数学特性(主要是对称性问题),即某一矢量熵函数的取值只与该矢量的概率分布有关,矢量中各分量的次序任意改变时,熵值不变。孙君顶等针对信息熵方法进行了改进[12],在一定程度上克服了熵的对称性造成图像误检索的不足。窦建军等对2种颜色空间(RGB和HSV)和4种直方图距离共8种图像检索方法进行了比较[1,13]。金莲芳等利用结构量化直方图的图像检索对传统的直方图方法进行了改进[14]。

目前的研究中,基于直方图的图像检索的相似度以图像之间的距离进行表达,导致图像相似度的定义较为混乱。本文从颜色直方图图像检索的本质出发,提出直方图之间灰阶概率的重合面积为图像之间的相似度,更加明确了相似度的含义,并将该方法应用到遥感影像检索中,选择出相似度较高的遥感影像,并与基于信息熵的图像检索方法进行比较,本文方法表现出明显的稳健性。

1 基于信息熵的图像检索方法

John Zachary基于信息熵进行图像检索的过程中,是以图像的灰度值直方图作为概率密度函数构建信息熵。假设vi表示被量化的第i种颜色在整幅图像中所占的百分比,即像元颜色灰度值取值为i占整个图像像元个数的比例,则整个图像定义的信息熵为

(1)

式(1)表明,基于图像灰度值构建的信息熵由于灰度出现概率相关,实现图像灰度直方图特征由二维降维到一个标量进行表达。计算出图像信息熵Ev后,进一步利用dl-norm距离定量计算图像的相似度

Dl-norm(P,Q)=|EP-EQ|

(2)

式中,P和Q表示两个图像的灰度直方图;EP、EQ分别为两个图像对应的信息熵。可见,Dl-norm越低,两幅图像越相似,否则相差越大。

通过式(1)可以发现,信息熵Ev具有对称性、非负性、确定性、扩展性、可加性及极值性等[15]。但是不可避免地带来一个问题,即基于式(1)计算的信息熵对只与灰度值出现的概率相关,而对灰度值的大小没有任何反映,这会导致即使两幅图像地物不同,但只要图像上相对应的灰度值概率相同,计算结果就认为两幅图像比较相近的结论,从而出现严重的偏差。试举一例,对于两幅遥感影像,一幅影像上是30%的林地和70%裸地,另一幅影像上也是这两种地物但比例相反,如果通过式(1)计算信息熵相同,式(2)计算出来的结果则比较接近,会得出这是两幅比较相近图像的结论。但这两幅影像上的地物景观明显不同,显然这种方法会带来很大的偏差。可见,在进行图像检索的时候,不但要考虑图像本身的信息熵,还要考虑各种地物的灰度值,这才能够得到一种有效的图像检索方法。

2 直方图面积图像检索方法

从图像直方图上来看,两幅图像是否相似,取决于图像之间灰阶的重合程度。可见,图像检索的本质可以通过图像直方图之间灰阶的重合面积刻画出来,即两个直方图重合的面积越大,两个图像的相似度越大。同时,考虑到图像的大小直接影响直方图的面积,因此为了消除图像大小的影响,直方图的纵轴以图像中灰阶出现的频率来代替图像的灰阶个数总和。如图1(a)中的直方图表示方式转化为图1(b)的形式,各个灰阶出现的概率之和为1。

两个图像的概率直方图的面积之和都为1,当两个图像的概率直方图完全不重合时,两个直方图重合面积是0,则两幅图像完全不相似;当两个图像的概率直方图完全重合时,两个直方图的重合面积为1,则两幅图像完全相同。可见,概率直方图的重合面积可以有效地刻画两幅图像的灰度相似程度。如图2所示,S为两幅图像的重合面积,S1和S2分别为两个图像未重合的面积,可见S的大小直接反映出了两幅图像之间的相似程度。

为了方便于计算,两个灰度概率直方图的相似度S定义如下

(3)

(4)

3 基于面积法的图像相似度计算

3.1 图像检索流程

基于面积相似度方法进行图像检索,整个技术流程主要包括3个步骤(如图3所示):

图3 技术流程

首先,针对一幅TM遥感影像进行分区,划分检索图像集,用于定义目标图像集合,被检索图像集作为要选择的集合,通过计算检索、被检索图像之间的相似度,确定检索图像的类别归属。

其次,利用概率直方图重合面积法进行图像检索,主要是计算图像直方图、概率直方图和计算概率直方图的面积,最后计算检索图像与被检索图像之间的相似度,确定类型的归属。

最后,为验证本文所提面积相似度法的适用性,将本文方法与传统的信息熵方法进行对比分析,验证本文方法的适用性。

3.2 数据准备

本文中选用TM多光谱影像作为测试数据检验该方法的适用性,影像的获取日期为2006年4月7日,位于河南,轨道号为124/37,无云质量较好,分辨率为30 m,包含7个波段(蓝光:0.45~0.52 μm;绿光:0.52~0.60 μm;红光:0.62~0.69 μm;近红外:0.76~0.90 μm;中红外1.55~1.75 μm;热红外:10.40~12.50 μm,不参与运算;远红外:2.08~3.35 μm)。在遥感影像上切割出图像尺寸大小100像元×100像元的5组遥感影像,每组6幅图像,共30个分块影像,分割基本原则为能够覆盖每组影像,地物丰富,同时每组内地物的景观特征相似。表1为每组图像的景观特征的基本介绍,图像RGB波段组合分别为7、4、3波段。本文中针对每一组选择3个作为检索图像,剩余2个为被检索图像。

3.3 图像相似度的计算

利用IDL8.5编程实现面积法和信息熵两种方法进行图像相似度计算,计算结果见表2、表3。

表1 试验图像的说明

表2 基于直方图面积法的图像相似度

表3 基于信息熵法的图像相似度

表2表明,对角线上表达的同类地物间的相似度高于0.7以上,明显高于其它地物之间的相似度。举例来看,山体-山体之间的相似度为0.79,最低的是山体-水体相似度为0.08,其他两种情况山体-城镇、山体-冬小麦的相似度也在0.3~0.4之间,可见本文方法能够非常准确地搜索到相近的图像。对于信息熵法(见表3),由于该方法通过距离进行表达,两个图像越相似,则取值越小,因此对角线上的值都偏小,说明该方法具有一定的适用性。但是,仔细分析,在某些类型检索上,其优势不够明显。比如,对于水体-小麦搜索的时候,水体/小麦-水体/小麦的相似度为0.54,比城镇-水体/小麦相似度0.80没有低太多,说明二者的区分度表达不够高,而直方图面积法优势明显。

3.4 图像相似度的计算

从表2、表3看出两种方法都可有效地刻画出地物之间的相似度,从数值比较来看,基于直方图面积法计算出的相似度比基于信息熵的方法更能有效地区分同类、不同类的图像。例如,表2中同类地物之间的相似度都高于0.7,且其他图像之间的相似度与这个值差别比较大,而基于信息熵方法计算同类地物的相似度距离都低于非同类地物之间的距离,但有时候计算出的同类地物相似度距离要大于非同类地物相似度的距离。如水体-水体相似度距离为0.83,城镇-山体的相似度距离为0.79,同一类地物水体-水体的相似度要低于不同地物之间的相似度,可见利用信息熵计算的相似度无法形成一个统一标准计算图像之间的相似程度,然而利用直方图面积法能够有效区分开相似/非相似的图像。

从表2、表3中可以明确地看出,通过基于直方图面积法计算出的相似度比基于信息熵计算出的相似度更能准确反映两类地物之间的相似度。例如,比较水体与水体-小麦二者的相似度,直方图面积法的相似度取值为0.37,信息熵方法的相似度距离为4.12。直观上看,水体-小麦图像中有一部分地物为水体,水体与水体-小麦两组图像的相似度较高,但通过信息熵方法计算出的相似度距离为4.12,其相似度相对于其他两组不相关图像(城镇与小麦相似度距离为1.46,山体与小麦的相似度距离为1.03)的相似度明显偏低。图4中是从地物水体-小麦、水体、城镇中选择出的一组图像,绘制7、4、3波段的灰度直方图。

从图4可以看出,水体-小麦图像有2个灰度波峰,其中有一个灰度波峰的图像与水体图像的单波峰相重合,水体-小麦与城镇的差别比较大,几乎没有灰度重合,可见这两类图像之间的相似性比较小。从基于信息熵方法计算的结果来看,城镇与水体-小麦之间相似度要(相似度距离为0.80)高于水体与水体-小麦之间的相似度(相似度距离为4.12),从图4可以看出这个结果是不合理的;通过基于直方图面积法计算出的城镇与小麦的相似度(0.18)比水体与水体-小麦的相似度(0.37)要低,这个结果更为合理。究其原因,从图4可以看出,城镇在各个波段表现为平缓的单波峰,对于水体-小麦的不同波段有2个波峰,波峰的宽度和高度与城镇比较相近,由于熵的对称性,基于信息熵计算出的二者相似度比较高,这造成了图像的误检索。

图4 三种地物的灰度直方图

4 结 语

本文提出了一种基于灰度直方图面积法的图像检索方法,并用多波段的遥感影像作为数据源进行试验,验证检索合理性。试验结果证明,文中提出的方法比以往的基于信息熵的图像检索算法具有更强的稳健性,更能准确地反映图像之间的相似程度,避免了信息熵的图像检索方法由于对称性的不足导致的图像相似度出现偏差。

本文在研究过程中,重点在于计算图像之间的灰度相似性,没有考虑图像颜色的空间分布信息,如何将空间信息与直方图面积法相结合进行图像检索是本文进一步的研究方向,同时在实际的图像检索系统中,仅仅利用颜色特征是不够的,需要再结合图像的纹理、形状等特征,进一步提高检索性能。

猜你喜欢
信息熵重合直方图
符合差分隐私的流数据统计直方图发布
基于信息熵可信度的测试点选择方法研究
基于FPGA的直方图均衡图像增强算法设计及实现
用直方图控制画面影调
基于信息熵赋权法优化哮喘方醇提工艺
电力系统单回线自适应重合闸的研究
一种基于信息熵的雷达动态自适应选择跟踪方法
中考频数分布直方图题型展示
泊松分布信息熵的性质和数值计算
浅析重合闸