基于区域对比信息混合编码的图像显著性检测方法

2021-04-15 03:48余超杰朱玉全
计算机应用与软件 2021年4期
关键词:显著性卷积编码

余超杰 朱玉全

(江苏大学计算机科学与通信工程学院 江苏 镇江 212013)

0 引 言

图像显著性检测是为了检测到图像中独特的并且能够吸引人们视觉注意力的对象区域。该区域的独特性主要表现在与图像中其他区域的差异性以及对象区域本身所表现出来的语义信息特征。由于图像显著性检测致力于对视觉注意力集中部分的检测,这一专题在计算机视觉领域一直以来都有着广泛的关注和深入的研究。视觉显著性检测在各个方面都有着广泛的应用,如图像的尺寸变换、语义图像标记[1]、语义分割[2]、行人再识别、农作物的异常检测等,并且都取得了不错的成效。此外有很多论文工作都在对显著性检测这一议题进行研究。Li等[3]通过注意力机制关注全局背景信息来进行显著性检测。Luo等[4]采用全卷积神经网络对图像显著区域进行检测。文献[5]采用了迭代和协作的方式集成了自上而下和自下而上的显著性推断方法。Lee等[6]采用混合特征的方法。EGNet边缘信息和显著物体信息之间的互补性来进行图像显著性检测[7]。尽管显著性检测研究已经取得了不错的成果,然而,传统方法在处理语义对象显著性方面能力不足,一些经典的深度学习方法在检测图像显著区域时导致的边界模糊的问题依然存在。由于图像的内部属性分类是未知的,显著性检测依然存在着许多挑战。本文提出一种基于图像区域对比信息和图像语义信息混合编码的显著性检测方法,直接对图像中的每一个区域进行特征编码,通过计算待检测区域与图像其他区域之间的差异程度并结合图像的语义信息来表示该区域在图像中的显著程度。在区域特征的表示中包含了图像的颜色信息、纹理信息和区域的空间分布信息。本文方法的独特之处在于同时结合了基于对比检测机制的区域对比信息编码和基于语义信息的图像卷积编码,通过卷积神经网络来对图像进行显著性评估,这样一来可以同时保证本文方法对象显著性的检测能力以及显著区域边缘细节的处理能力。

本文的主要贡献如下:

1) 提出一种精确描述图像显著区域的特征编码。计算图像中每一个区域与其他区域的差异程度来生成区域对比信息映射图,通过对区域对比信息映射图编码来整合各个通道之间的特征信息。结合区域特征对比信息编码以及图像语义信息编码来进行图像显著区域检测。

2) 融合区域对比信息编码和图像语义信息编码得到新特征编码对图像进行显著区域检测。新的混合特征考虑到了显著区域在图像中的独特性以及图像的像素内容。检测结果在主流的公开数据集上都取得了很好的表现。

实验表明本文方法在数据集ECSSD[8]、DUT-OMRON[9]、HKU-IS[10]上的综合表现要优于其他算法。

1 相关工作

图像显著性检测作为计算机视觉研究热点,已经有好多相关算法被提出来。传统的检测方法大多是直接利用视觉机制采取手工特征来检测图像显著区域,或者利用手工特征结合不同的框架来检测图像显著区域。近几年随着深度神经网络在计算机视觉中的成功应用,利用卷积神经网络提取图像的高级特征进行显著性检测成了发展的主流。基于卷积神经网络的检测算法实现了相对先进的性能,并且明显优于仅采用手工制作功能的方法。

这些年的显著性检测的研究中,涌现了各种不同的方法来进行图像的显著性检测。其中SF[11]基于对比的显著性检测算法,利用图像中的感知元素的唯一性和空间分布进行评估来进行显著性估计。FES[12]基于中心环绕的显著性检测方法,利用贝叶斯框架下的局部特征对比度来进行显著性估计。HS[13]从不同的规模出发提出了一种分析图像多层线索的显著性检测方法,通过分层模型生成最终的显著图。MR[14]通过基于图流形状的排序对图像元素与前景线索或者背景线索的相似性进行排序。根据他们与给定种子或者查询的相关性来定义图像的显著性。LEGS[15]通过两个深度神经网络分别学习局部区域特征确定每个像素的显著值以及学习全局特征预测每个对象区域的显著性值,并将两者加权相加得到最终的显著图。MC[16]利用图像图模型上的马尔可夫随机链进行显著性检测,同时考虑了突出物体与背景的外观发散和空间分布。MCDL[17]将图像的全局信息和局部信息集成到多语境深度学习框架中来进行图像的显著性检测。ELD[6]则认为高级特征有利于评估图像中的物体,低级特征可以辅助高级特征来提高显著区域检测的精确性。Zeng等[18]提出了一个统一的框架来训练具有多种弱监督来源的显著性检测模型。Hou等[19]通过向HED体系结构中的跳过层结构引入短连接,提出了一种用于显著性检测的新方法。

2 算法设计

本文结合了区域级别的区域对比信息编码以及像素级别的图像语义信息编码,通过卷积神经网络进行图像的显著区域检测。在本文的检测方法中,通过计算待检测区域与其他区域之间的差异性的区域对比信息映射图,并对其进行卷积编码,然后结合原始图像的语义编码特征图得到混合编码特征图。通过卷积神经网络计算得到待检测区域的显著值并映射成最终的显著图。网络结构如图1所示。

图1 本文方法网络结构

采用1×1的卷积核编码图像中每个区域的距离对比信息以及区域所属图像的语义信息,并将其合并成同时包含区域对比信息以及图像语义信息的混合特征编码,然后通过卷积神经网络对该区域进行显著度评估,最后映射得到图像的显著图。

本文方法的整个结构分为两部分,首先是混合特征编码生成部分,其中包括图像区域的对比特征信息映射图的生成过程以及不同信息特征的融合部分,然后通过卷积神经网络来评估该区域的显著程度。

2.1 对比特征信息映射图的生成

在对比特征信息映射图的构建过程中,首先采用迭代聚类算法对图像进行区域划分,根据图像信息将具有高相似图像信息的像素点划归到同一图像区域,而对于低相似图像信息的像素点则划分到不同的区域。通过迭代聚类算法生成的超像素紧凑整齐,有准确的边界,使得划分的图像区域内包含丰富的图像信息,能够更加准确地对图像区域进行特征描述。与此同时,对图像不同区域的准确分割又可以避免由于同一区域中包含不同特征的图像信息所造成的检测偏差,能够更精确地计算出不同图像区域之间的差异性。将图像划分成不同的区域后,计算图像中各个区域的对比特征信息,并生成与原图尺寸相同的对比特征信息映射图。

图像划分成不同的区域后,计算每一个区域的低级特征向量。在描述区域的表示中本文采用了图像的颜色特征、纹理特征、区域的空间分布状态来描述区域的特征。文中分别采用RGB颜色空间、LAB颜色空间、HSV颜色空间中的颜色均值以及颜色直方图来作为区域的颜色特征描述,采用局部二值模式编码直方图来作为纹理特征描述。考虑到图像区域所处的相互位置也影响着区域之间的差异,因此在区域的特征描述中加入了区域的位置特征。在图像的每个区域中选取具有代表性的坐标点作为该区域的空间信息描述。坐标点信息表示如下:

(1)

式中:s表示待检测区域的面积。

通过计算每个区域的特征向量与其他区域特征向量之间的距离来作为该区域在图像中的显著程度描述。在计算区域之间特征向量距离时有如下定义:

(2)

式中:H=(hi)且Kj=(ki),i=1,2,…,B,B为图像区域划分个数;H表示待检测区域的特征向量;Kj表示图像中第j个区域的特征向量;sk是第k分量的标准差。D(H,Kj)表示待检测区域与图像中第j个区域之间的特征向量距离。根据得到的待检测区域同图像其他区域特征向量之间的距离结果进行对应区域映射,得到与图像尺寸相同的区域对比信息映射图。具体映射方式如图2所示。

图2 具体映射方式

以待检测区域H为例,计算区域H与图像中其他各个区域Kj(j=1,2,…,B)的特征距离向量D(F(H),F(Kj)),其中F(H)表示区域H的特征向量,并将计算结果映射到Kj所在图像中的位置,得到待检测区域H的对比信息映射图。使得区域对比信息映射图跟该区域所在图像尺寸一致,保证了区域的对比信息跟图像语义信息相对应。将得到的对比信息映射图进行卷积编码。与其他的对比信息计算方式相比,本文中计算区域对比信息映射图的方式能够保证计算待检测区域与图像差异时的准确性,并且保证了图像中待检测区域的对比信息和图像语义信息之间的对应关系。此外,区域对比信息映射图的构建保证了作为卷积神经网络输入数据时的矩形形状要求。

2.2 混合特征的构建

在区域对比信息映射图中,采用了颜色、纹理、空间分布等多种不同的底层手工特征作为区域的特征描述,因此对区域对比信息映射图先进行编码来整合不同的底层特征,使得不同类型的特征作为一个信息整体来表示待检测区域。

本文在融合区域对比信息和图像像素信息的过程中并不是简单地将两者直接线性结合,而是首先整合区域对比信息特征图中各个通道所包含的不同手工低层特征编码,使得每个通道下的不同低层手工特征作为一个整体的区域对比特征描述,同时对图像中的像素信息进行编码。然后将两者融合得到新的用于图像显著性检测的混合编码。在网络的实现中,采用1×1的卷积核对区域对比信息映射图进行卷积处理,以此来实现不同底层手工特征之间跨通道的信息交互以及将不同通道的低层手工特征整合成一个整体的特征表示,在区域特征对比信息和图像原始信息保持相同的特征图尺寸下,使得不同的低层手工特征作为一个区域对比信息的整体与图像原始信息特征融合。

融合得到的新的特征编码中包含了区域对比特征信息和图像语义信息,新融合的混合特征编码能够通过待检测区域在原始图像中语义信息的独特程度来描述图像区域的显著性。此外还结合了待检测区域与图像其他区域的差异性来使得待检测区域的显著程度更加精确。将融合得到的混合特征编码作为卷积神经网络的输入来检测图像区域的显著程度。在网络实现中采用DPN[20]网络来检测区域的显著值,在网络的最后将区域显著值映射到[0,255],并将检测到的显著值映射到区域所在图像位置,得到最终的显著图。

3 实验及结果分析

3.1 数据集

本文采用了三种显著性检测通用数据集来评估所提出方法的效果:

(1) ECSSD数据集,包括了1 000幅具有语义信息的图像,并且具有结构相对复杂的自然内容图像。

(2) DUT-OMRON数据集,具有5 168个高质量图像,其中包含了具有一个或者多个显著对象的图像并且图像具有复杂的背景。

(3) HKU-IS数据集,包含4 447个具有多部不同空间分布的显著对象,并且显著对象与背景的对比度相对较低。

在本文方法的实验中采用了MSRA10K数据集来进行模型的训练。图像随机分出1 000幅作为测试集,剩下的9 000幅作为训练集。

3.2 评价指标

本文采用了三个主要的指标来评价所提出方法的效果,其中包括PR(Precision,Recall)曲线、F-measure和平均绝对误差(MAE)。首先通过PR曲线来评估本文方法的检测效果。使用0~255的连续值将检测到的显著图转换成[0~255]不等同的灰度等级,然后计算0~255不同阈值下对应的PR值来绘制该数据集上的PR曲线。PR值计算方式如下:

(3)

(4)

式中:smap表示预测的显著图;GT表示图像显著区域标签。

其次,采用不同数据中F-measure的平均值来评估本文显著性检测方法。F-measure计算如下:

(5)

式中:β2设置为0.3以强调精度而不是召回率。

此外,我们还计算了显著性检测图中的平均绝对误差,以此来评估那些非显著区域检测的准确程度。平均绝对误差定义为显著图映射S的平均估计与每个像素的显著标签G的距离。MAE评估检测度如下:

(6)

式中:W表示显著图估计的宽;H表示显著图的高。

3.3 实验结果

为了验证本文算法的检测效果,选取了一些经典的显著性检测方法和基于深度学习的显著性检测方法与本文方法在三个数据集上进行了比较。在图3中展示了本文方法与其他方法在不同场景下的检测结果的直观比较。从第一列和第三列中可以看出,本文算法在突出显著对象主体方面要比其他算法更强,从第二列则可以看出本文方法能够很好地抑制杂乱的背景噪点。第三列也表现了本文方法在检测精确的显著区域边界上有着很好的表现。如图4、图5、图6所示,分别在三个数据上的PR曲线显示本文方法相较于其他算法的PR曲线有更大的包络线面积,说明了本文方法在检测结果的准确率和召回率上有最优的综合表现。此外表1表明本文算法的检测结果在三个数据集上的F-measure值要明显高于其他算法,表2中显示本文算法检测结果的MAE值要明显低于其他对比算法,客观准确地说明了本文算法的实验结果在准确率、召回率和检测非显著区域的准确程度方面都要优于其他算法。因此,本文算法无论是直观视觉下的比较,还是客观评价指标下的得分都比其他算法表现出了更好的效果。

图3 基于直观视觉的实验结果对比

图4 不同的对比方法在ECSSD数据集上的ROC曲线图

图5 不同的对比方法在DUT-OMRON数据集上的ROC曲线图

图6 不同的对比方法在HKU-IS数据集上的ROC曲线图

表1 不同的方法在三个数据集上的F-measure结果

表2 不同的方法在三个个数据集的MAE值结果

4 结 语

本文提出一种基于图像区域对比信息混合编码的显著性检测方法,结合了图像区域之间的对比信息和图像的语义信息来进行图像显著区域检测。通过构建区域对比信息映射图来保证基于视觉对比度机制的检测能力,同时融合图像的语义信息编码,保持着检测对象显著性的能力。此外通过对图像区域的精确划分来保证对显著区域精细边界的检测能力。多项评估表明本文方法在数据集ECSSD、DUT-OMRON、HKU-IS上比其他一些算法有更好的表现。

猜你喜欢
显著性卷积编码
基于全卷积神经网络的猪背膘厚快速准确测定
HEVC对偶编码单元划分优化算法
住院病案首页ICD编码质量在DRG付费中的应用
基于图像处理与卷积神经网络的零件识别
一种结合多尺度特征融合与像素损失加权的显著性目标检测方法
视频序列中视觉显著性图像区域自动提取仿真
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
欧盟法院判决明确欧盟商标通过使用获得显著性的地域认定标准
商标显著性的司法判断(一)