杨 雪,范 勇,高 琳,邱运春
(西南科技大学计算机科学与技术学院,四川绵阳621010)
基于纹理基元块识别与合并的图像语义分割
杨 雪,范 勇,高 琳,邱运春
(西南科技大学计算机科学与技术学院,四川绵阳621010)
针对当前像素级别的图像语义分割算法难以利用全局形状特征,导致分割对象轮廓模糊,造成错误识别的问题,提出一种区域级别的基于纹理基元块识别与合并的图像语义分割算法。该算法采用纹理基元等特征,考虑到相邻像素点间的相互关系,保留物体间的棱角和边缘信息,分割出轮廓清晰的对象。在MSRC图片库上进行实验,结果表明,该算法能对多种语义对象进行分割和识别,具有运行速度快、识别率高和分割效果好等优点。
纹理基元;特征字典;k-d树最近邻搜索;k-means算法;识别;合并;语义分割
图像语义分割是基于内容的图像压缩、图像检索[1]等多媒体应用领域中的关键技术[2-3],把图像分割和图像的识别与理解结合起来,对输入图像进行语义分割的研究非常活跃,也是当前国内外图像处理领域的研究前沿。但是当图像中同时存在多类不同形状和大小的对象时,如何有效地获取不同语义对象之间的边缘信息,依然是个具有挑战性的问题[1]。
图像语义分割是指将图像分割成具有一定语义含义的分割块,并对每个分割块进行相应的语义标识。一种紧凑的形貌特征表示能够提高分割与识别的性能,为此,纹理基元(texton)常常被用于对象的特征表达[4],并被证明在物体分类中是有效的[5]。纹理基元这个术语是文献[6]首先提出的,是人类视觉感官描述的最小单元,有点类似于音色中的音位。
目前,像素级别的图像语义分割算法[7],一般是基于纹理基元映射图进行像素点特征向量的学习和预测,由于通过预测每个像素点特征向量的语义类别来对图像进行分割,从而使得标识出的物体轮廓特征丢失得比较明显。为此,本文提出一种新的纹理基元映射方法,得到基于区域级别的纹理基元块映射图,通过对纹理基元块的识别与合并完成图像的语义分割。
本文的语义分割基本思路是,训练部分采用支持向量机(Support Vector Machine,SVM)学习对象的颜色特征模型;测试部分对待测图片集的每个像素提取17维纹理基元特征向量,再利用本文提出的方法构建待测图片的纹理基元块映射图,最后采用SVM分类器识别各个纹理基元块,标记并合并相邻同类的分割块,完成图像的语义分割和对象识别。本文算法流程如图1所示。
图1 算法流程
图像的特征总是融合在图像的颜色、纹理、布局和未知的上下文信息中,一个完整全面的图像特征往往需要图像多个方面的信息来共同描述,因此,在图像特征提取中不能仅考虑单个方面的信息。对图像某方面的信息来说,通常单个像素点所包含的信息会受到相邻点的影响,在提取像素点单方面信息时,需要结合图像的上下文信息。本文用到的纹理基元特征是由高斯、高斯-拉普拉斯、高斯偏导组成的一组滤波器产生的17维向量[7],将分别涵盖图像的颜色、纹理和上下文各方面的信息。
下面将描述本文的滤波过程:
其中,6σ取不大于其值的整数。
Gaussians滤波器由式(1)计算所得。滤波时y方向的卷积结果作为x方向的输入,x方向的卷积结果作为高斯滤波器的滤波结果。
LoG(Laplacian of Gaussians)滤波器由式(3)和式(1)计算所得,分别用filterA和filterB表示。由filterA的y方向卷积结果作为filterB的x方向输入,再由filterA的x方向卷积结果作为filterB为y方向的输入,将这2个卷积结果相加,作为LoG滤波器的滤波结果。
DoG(Derivative of Gaussian)滤波器由式(2)和式(1)计算所得,同样分别用filterA和filterB来表示。由filterA的y方向卷积结果作为filterB的x方向输入,得到第一个DoG滤波器的滤波结果。再交换filterA和filterB,重复上述卷积过程,将结果作为相同σ下的第2个DoG滤波器的滤波结果。
3个高斯滤波器(σ分别取0.7,1.4和2.8)分别与输入图像Lab颜色空间的3个颜色通道相卷积,这样就得到了9个滤波器响应图像。
4个LoG滤波器(σ分别取0.7,1.4,2.8和5.6)则仅仅与输入图像的Lab颜色空间的L通道进行卷积,由此得到了4个滤波器响应图像。
4个DoG滤波器分为x轴方向的和y轴方向的2组(平滑尺度σ分别取1.4和2.8),每组有2个滤波器。另外,这4个DoG滤波器也仅与输入图像的Lab颜色空间的L通道进行卷积,最后得到了4个滤波器响应图像。
经由上述3种滤波器的作用之后,输入图像的每个像素有一个17维的滤波器响应数据,即是一个17维的纹理基元特征向量。
本文算法的核心在于如何利用像素点的17维纹理基元特征向量通过k-means算法和k-d树最近邻搜索算法构建纹理基元块的映射分割图。
以所有测试图像的每个像素点的17维纹理基元特征向量作为k-means算法的数据样本输入x。以最终输出的k′个聚类中心创建特征字典,并建立k-d树[8],对测试集中的每个像素点进行最近邻搜索,即将所有像素点分成了k′类。至此,每张测试图片完成了初始分割,得到了对应的纹理基元块映射图。
针对K-means算法只能在已知分类数k的情况下进行聚类的问题,本文提出以较大的k值作为初始聚类中心个数,在更新聚类中心μ时,舍弃无样本点的中心,以此来自动减小k值。
由于k-means算法对初始聚类中心比较敏
感[9],因此本文提出轮次聚类方法。具体的操作是以聚类结果中的聚类中心μ′再次作为k-means算法的数据样本输入x′,以中心个数k′为再一轮的初始聚类中心个数,进行第二轮聚类。重复该步骤,直到第n轮聚类或中心个数k′小于阈值θ。
算法的具体步骤如下:
(1)数据样本输入是{x(1),x(2),…,x(m)},x(i)∈所有测试图片像素点的17维纹理基元特征向量集。
(2)随机选取k个聚类中心点为μ1,μ2,…,μk。
(3)重复以下1)~3)过程直到收敛:
1)计算每个点x(i)到聚类中心μj的距离,并聚类到离该点最近的聚类中去:
2)调整聚类中心的个数k:
若αj≤1,则舍弃聚类中心j,k′=k-1。
3)计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心。
(4)以{x′(1),x′(2),…,x′(m)},x′(i)∈{μ1,μ2,…,μk}为数据样本输入,重复步骤(2)、步骤(3)。
(5)重复步骤(4),直至第n轮聚类或中心个数k′小于阈值θ。
上一节利用纹理基元特征向量构造了测试图片的纹理基元块映射图,在识别每个块之前需要先训练对象的特征模型。
在训练部分,本文采用基于HSV空间的20色非均匀颜色量化算法[10]提取颜色特征。针对每种对象类别,利用人工标识图计算原图对象区域的20维颜色直方图,与对应的类别标注共同构成数据集。本文采用支持向量机(Support Vector Machine, SVM)训练该数据集,产生颜色特征模型。
在测试部分,也采用文献[10]的算法提取每个纹理基元块的颜色特征,结合颜色特征模型采用SVM预测算法对纹理基元块进行语义预测和标识,最后同类标识且相邻的块被合并为一类,从而得到最终的语义分割图片。
本文使用了MSRC(Microsoft Research Center)图片库进行语义的学习和训练。MSRC由剑桥大学计算机视觉科研小组提供,是图像语义分割研究中常用的典型数据库,其中包含建筑物、草地、树、牛、羊等对象。每种对象由若干张原图和人工标识图对应组成,如图2所示,不同颜色代表不同的对象类别,黑色表示空类,在训练和测试过程中忽略黑色标识的区域。
图2 原图和人工标识图
在实验中,将该图片库随机分成训练集和测试集,各集占总图片数的比例分别为40%和60%。最后,算法的分割效果和评估则都以人工标识图为目标和参照。
6.1 本文实验结果
通过大量实验得出轮次n的经验值为4或5,阈值θ可以稍大于待测图像中的对象类别数,一般可设置在5~20之间。下面以图2为例来说明本文的语义分割过程。从图3可以看到每一轮聚类后构建的纹理基元块映射图,用k表示某一轮的初始聚类中心数,k′表示该轮聚类结束后的中心数,则: (a)k=400,k′=385;(b)k=385,k′=47;(c)k=47,k′=33;(d)k=33,k′=9。
图3 轮次聚类的中间过程示例
在图3的纹理基元块映射图中,每种颜色代表一个字典索引,不表示任何类别含义。由于k′个聚类中心是由所有测试图片的像素点共同计算出的,在单独一张纹理基元块映射图中,不一定包含k′种分割块。可以看出,k′值越大,纹理基元块就越小越多,当经过n轮聚类后k′达到合适值时,就可以将图片大致分割成所希望的分割结果,并且基本能体现出对象的轮廓和形状。如图4中的最后一张图所示,水的部分已经被完整地分割出来了,牛和草地则分别被分割成一些大大小小的块。下一步便是如何识别这些块的类别,图4展示了特征模型的获取以及纹理基元块利用特征模型进行识别与合并,得到最终的语义分割图的过程。
图4 块识别与合并过程
6.2 对比实验结果
本文将与同样使用该图片库进行实验的系统TextonBoost作对比,TextonBoos系统是一个在像素点级别对图像语义进行训练和预测的系统,存在标识语义物体边缘模糊、对象粘连和一定的误识别等缺点。下面,从定性和定量2个方面对TextonBoost系统和本文算法的实验结果进行比较分析。
首先,从定性角度来验证本文提出的基于纹理基元块识别与合并的方法能够分割出轮廓清晰的物体,并正确识别出对象的类别。图5是实验结果对比图,每组图片的第1列是原图,第2列是人工标识图,第3列是TextonBoost系统的结果图,第4列是本文算法的结果图。
图5 对比实验结果
从图5可以看出,本文提出的算法能较准确地分割和识别对象。因为滤波器组全面提取了图像的纹理颜色特征,并在提取过程中充分考虑到了每个像素点与相邻像素点的相互关系,很好地保留了对物体间的明确区分有着重要作用的棱角和边缘信息,所以能较好地分割出对象与对象之间的界限。通过对比可以明显地发现,TextonBoost系统标识出的物体明显丢失了轮廓特征,且在类别分割方面,把第1组图中的鸟误识别成了水和草地,把第3组图片中的所有区域都识别成了书,而第4组中则漏识别了左边的小牛,在第8组图片中将水的部分误识别成了天空,同样存在部分误识别的还有第5组和第9组,而本文算法能很准确地标识出各个对象的类别,并且对象的边缘很明晰,不存在粘连问题。
本文从分割精度、识别率以及耗时3个方面来做量化对比。
为了客观地比较,以人工标识图的分割区域为基准来对比算法的分割精度F[11],F=2PR/(P+R)。其中,P表示算法分割区域与人工分割对象共有像素点数占人工分割对象总像素数的百分比;R表示算法分割区域与人工分割对象共有像素点数占算法分割区域总像素数的百分比,只有P与R同时取得较大值时,才能获得较高的精度[12]。图6为TextonBoost系统和本文算法对图5中图像的精度比较结果。需要指出的是,此处F值是针对图像中的主要对象计算的,依次为鸟、羊、书、牛、猫、路、鸟、牛、自行车、板凳。可以看出,本文算法的F值明显较高。
图6 图5中分割结果的精度对比
本文采用文献[13]提出的识别率计算方法作为评价标准,即正确识别样本与总样本之商,结果如图7所示。相比较TextonBoost系统,本文算法对于图7中的前10类物体都取得了更高的识别率。其中,牛和羊2类物体的准确率提高最为显著,分别提高了33.2%和39.9%,而飞机类的识别率降低了23.2%,这是因为SVM训练时选择的是颜色特征,牛羊与草地等的颜色特征相差较大,而图片集中的飞机颜色偏白,与天空颜色接近所致,增强特征描述可以改善该问题。
图7 识别率对比
TextonBoost系统和本文算法在相同的训练集和测试集下的耗时对比如表1所示。
表1 运行时间的比较s
本文提出一种基于纹理基元块识别与合并的语义分割算法,在计算纹理基元块时改进k_means算法,给出轮次聚类方法,使其能自适应地减少聚类中心数量。算法利用纹理基元特征将图片中的对象预分割成了由若干块组成的轮廓明显的区域,再根据颜色特征模型识别块类型并合并相同类型的块,最终得到语义分割结果图。在MSRC图片库上的实验表明,本文提出的算法速度快,能有效准确地分割识别出图片中的对象,且具有很好的边缘轮廓效果。此外,由于纹理基元块是根据特征模型进行识别的,下一步工作将融合提取多种对象特征,增强特征模型,以扩展本文算法的适用范围。
[1]Johnson M A,Hall H.Semantic Segmentation and Image Search[EB/OL].(2010-11-04).http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.169.536.
[2]Acharyya M,Kundu M K.Image Segmentation Using Wavelet Packet Frames and Neuro-fuzzy Tools[J].International Journal of Computational Cognition,2007, 5(4):27-43.
[3]Wang Song,Kubota T,Siskind J,et al.Salient Closed Boundary Extraction with Ratio Contour[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(4):546-561.
[4]Malik J,Belongie S,Leung T,et al.Contour and Texture Analysis for Image Segmentation[J].International Journal of Computer Vision Computer Vision,2001, 43(1):7-27.
[5]Varma M,ZissermanA.AStatisticalApproachto TextureClassificationfromSingleImages[J].InternationalJournalofComputerVision,2005, 62(1/2):61-81.
[6]Julesz B.Textons,the Elements of Texture Perception, and Their Interactions[J].Nature,1981,290(5802): 91-97.
[7]Shotton J,Winn J,Rother C,et al.TextonBoost:Joint Appearance,Shape and Context Modeling for Multiclass Object Recognition and Segmentation[C]//Proceedings of European Conference on Computer Vision.[S.l.]: IEEE Press,2006:1-15.
[8]王 碧,霍红卫.基于KD树的多维数据分布方法[J].计算机工程,2003,29(3):105-107.
[9]袁 方,周志勇.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(5):224-227.
[10]邱兆文,张田文.一种新的图像颜色特征提取方法[J].哈尔滨工业大学学报,2004,36(12): 1699-1701.
[11]Sharon A,MeiravG,RonenB,etal.Image Segmentation by Probabilistic Bottom-up Aggregation andCueIntegration[C]//ProceedingsofIEEE ConferenceonComputerVisionandPattern Recognition.Washington D.C.,USA:IEEE Computer Society,2007:1-8.
[12]刘战杰,马儒宁,邹国平,等.一种新的基于区域生长的彩色图像分割算法[J].山东大学学报:理学版, 2010,45(7):76-80.
[13]Shtton J,Winn J,Rother C,et al.Textonboost for Image Understanding:MulticlassObjectRecognitionand Segmentation by Jointly Modeling Texture,Layout,and Context[J].International Journal of Computer Vision, 2009,81(1):2-23.
编辑 顾逸斐
Image Semantic Segmentation Based on Texture Element Block Recognition and Merging
YANG Xue,FAN Yong,GAO Lin,QIU Yunchun
(College of Computer Science&Technology,Southwest University of Science&Technology,Mianyang 621010,China)
Aiming at the problem that the current image semantic segmentation algorithm at pixel level is difficult to use global shape features,leading the fuzzy contour of object and some wrong recognitions.This paper presents a new regional level image semantic segmentation algorithm based on texture element block recognition and merging.This algorithm uses the texture element feature to segment objects with a clear outline,which fully considers the relationship between adjacent pixels and keeps corners and edge information between objects.Experiments conducted on the MSRC database show that this method can segment and recognize a variety of semantic.Besides,it has the advantages of high efficiency,high recognition rate and good segmentation effect.
texture element;feature dictionary;k-d tree nearest neighbor search;k-means algorithm;recognition; merging;semantic segmentaion
杨 雪,范 勇,高 琳,等.基于纹理基元块识别与合并的图像语义分割[J].计算机工程, 2015,41(3):253-257.
英文引用格式:Yang Xue,Fan Yong,Gao Lin,et al.Image Semantic Segmentation Based on Texture Element Block Recognition and Merging[J].Computer Engineering,2015,41(3):253-257.
1000-3428(2015)03-0253-05
:A
:TP391.41
10.3969/j.issn.1000-3428.2015.03.047
四川省教育厅科技基金资助项目(12zd1005);西南科技大学网络融合实验室开放基金资助项目(12zxwk09)。
杨 雪(1989-),女,硕士研究生,主研方向:计算机视觉;范 勇,教授、博士;高 琳,讲师、博士;邱运春,硕士研究生。
2014-04-16
:2014-05-08E-mail:766134800@qq.com