毕学慧,刘华明,倪扬眉,李怀敏
(阜阳师范学院 计算机与信息工程学院,安徽 阜阳 236037)
基于SVM的多特征唐卡头饰分类
毕学慧,刘华明,倪扬眉,李怀敏
(阜阳师范学院 计算机与信息工程学院,安徽 阜阳 236037)
为了能够适应寺院、图书馆、文化馆、唐卡数字化保护研究机构等用户精确检索的需要,对唐卡头饰进行分类,从而实现语义标注、语义检索,提高唐卡检索的精准度。针对已有的唐卡头饰分类方法具有分割困难或交互繁琐等缺点,不利于实际应用,因此本文提出了基于SVM的多特征唐卡头饰分类方法。首先利用小波分割方法、FFT分割方法对头饰进行分割,获取头饰轮廓信息,分别提取Hu不变矩、傅里叶不变矩、Zernike矩和频率谱形状特征;其次合并这两类形状特征,得到合并形状特征,与头饰的颜色特征联合成多特征;最后SVM训练后分类。与其它方法相比,本文提出的分类方法具有分割效果好且交互简单等优点,可以达到对头饰分类实际应用的要求。
SVM;多特征组合;标注;头饰分类;唐卡
唐卡(又名唐嘎、唐喀)是藏区独特的艺术绘画,装裱后悬挂供奉的宗教卷轴画,题材内容涉及历史、医学、政治、文化和社会生活等多方面。唐卡被誉为中国民族绘画艺术的珍品,被称为藏族的“百科全书”,是民间艺术中弥足珍贵的非物质文化遗产。近年来对唐卡数字化保护越来越受到重视,面对数量较大的唐卡库,用户经常需要检索唐卡,全面准确检索到用户要求的图像是亟待解决的一个问题[1]。传统的基于内容的检索大多是根据图像的底层特征,常常会检索到内容相差较大的图像,语义检索是近年来提出的,利用底层特征建立高层语义,可以进一步提高图像检索的精确度。含有人物类题材的唐卡在唐卡库中占有一定的比重,人物类头饰大概可以分为三类(发髻、僧帽、头冠),因此可以对人物类唐卡的头饰进行分类,实现图像的语义自动标注和语义检索。已提出的唐卡头饰标注方法,毕[2]等人提出了分层次分类,首先判断是否为头冠,不是头冠则判定是否为发髻和僧帽,但是对分割具有较高的要求,应用性不强;钱[3]等人提出了最小二乘法拟合头饰轮廓线,分割对分类结果影响较大;张[4]是根据头饰欧拉数判定是否为头冠,如若不是,然后根据颜色特征判定是否为发髻和僧帽。但僧帽的识别率仅达到80.15%,究其原因是僧帽和发髻颜色特征受背景色干扰,并且发髻和僧帽的颜色有时变化较大;王[5]将典型轮廓点转换到频域空间,进而提取特征,在处理过程中,因典型轮廓点的提取,受干扰点的影响,导致分类失败,并不能很好地应用于图像分类中。
本文从分割和特征提取两方面进行实施改进,利用小波模分割和FFT分割方法分割头饰信息,以获取图像的形状特征,进而提取Hu不变矩、傅里叶不变矩、Zernike矩和频率谱形状特征,并对这两种分割下的形状特征合并,将合并后的形状特征与头饰的颜色特征联合成多特征,再经SVM分类器训练后分类。与其它分类方法的结果进行对比,验证了本文分割方法的优越性,弥补了单一分割方法分割不足的缺点。另外,在分割过程中无需用户参与就可以达到头饰自动分类的要求,可以很好地应用于头饰特征语义自动标注和语义检索。
1.1数据预处理
唐卡在采集过程中,因图像的大小、分辨率存在一定差别,因此需要对唐卡图像进行尺寸统一化处理。图1、2、3中的第一排为采集到的唐卡头饰图像,通过处理把头饰区域铺满整个图像,后期提取的特征将更有利于分类,图1、2、3中的第二排为处理后的图像。
图1 发髻图像
图2 僧帽图像
图3 头冠图像
1.2头饰轮廓分析
唐卡头饰最显著的特征是轮廓,图4所示了三类头饰的典型特征。通过分析发现,发髻和僧帽的轮廓具有一定的规律可循,而头冠的轮廓比较复杂,形状不固定,一般比较复杂。文献[2,4,5]中提出的方法,是根据一定的特征先判断是否为头冠,如果不是则判定是否为发髻或僧帽。然而头饰轮廓提取并非易事,常常受到复杂背景区域颜色、纹理或边界点的影响,使得分割方法结果并不理想,但从整体的轮廓上,可以区分头饰的类别。
图4 头饰典型轮廓
1.3颜色特征分析
分析颜色特征发现头饰颜色存在一定的规律,发髻头发的颜色一般为黑灰色,颜色主要分布在90以内的区域。僧帽的颜色不存在黑色,而背景颜色可能是黑色,颜色在90以内的分布较少,头冠的颜色波动范围较大,在90以内的颜色分布较低。通过这些信息可以对头饰颜色特征进行提取。图5(a)-5(c)分别为发髻、僧帽和头冠,在以图像的中心为原点,半径为R的局部区域内,提取直方图特征,R的大小影响直方图的分布,当R=10时,直方图如图5(d)-5(f)所示。
图5 三类典型头饰局部直方图
头饰最典型的特征是轮廓,因此提取头饰轮廓特征非常重要的。而提取头饰轮廓特征必先分割获取图像的边缘信息。
获取图像的边缘信息时,因背景因素的干扰可能造成边缘信息获取不准确,例如边缘信息丢失或边缘细节过多,为能够有效获取边缘,本文采用傅里叶高通滤波方法和小波法,可以有效地表示头饰边缘,而且关键边缘信息不丢失。
二维傅里叶变换在图像处理中有很多应用,本文采用二维傅里叶变换得到傅里叶频谱图,对傅里叶频谱图高通滤波,从而能够过滤图像的平滑区域,保留图像的边缘信息。图6演示了边缘提取过程,其中预处理是确定图像大小,获得填充参数,生成滤波器函数。分割处理主要是确定阈值,提取滤波后图像的边缘。如图7所示是利用傅里叶高通滤波方法分割头饰得到的边缘信息,可以看出头饰的关键轮廓信息可以很好地保留下来。
图6 傅里叶高通滤波边缘提取
图7 傅里叶高通滤波分割图
2.2小波模极大值边缘提取
与傅里叶描述符相比,将小波变换引入到形状描述领域能通过较少的点数以较高精度描述边缘信息[6]。
公式(1)表明小波变换系数对于边缘检测突变点的敏感性,小波变换Wf(s,u)的模值的极大值对应的点就是边缘检测点,随着尺度的增加,边缘信号变的比较稳定[7]。
本文对头饰图像利用小波模极大值提取边缘信息,进一步保证边缘信息的完整性。图8(a)、8 (b)、8(c)为图5(a)、5(b)、5(c)的小波模极大值的分割结果图,从中可以看出头饰的关键轮廓信息完整地保留了下来。
图8 小波模极大值分割图
图像尺寸统一后,利用中心点坐标为圆心,在局部区域统计图像的颜色特征,局部区域一般采用半径为R的圆,半径的大小与图像的尺寸存在一定的比例关系,图5所示为选取局部区域及对应的直方图特征。为了更好地提取颜色特征,把颜色值划分为三个区域,如公式(2)所示。
设N为颜色个数,NA、NB、NC为区域A、B、C内颜色的个数;NS为不同颜色的数目,NSA、NSB、NSC为A、B、C区域内不同颜色的数目。对颜色特征的提取主要有7个,用Color表示,则
因唐卡头饰的分辨率大小、脸部转向、头部偏向、头饰的细节变化不同等原因,在提取形状特征时必须考虑头饰轮廓的旋转、平移及缩放的不变性。Hu 1962年证明了Hu的7阶距具有旋转,缩放和平移不变性,广泛应用于轮廓的特征提取,后来刘进[8]提出的12个Hu不变距,丰富了Hu不变距的特征表现,另外三类头饰图像的偏心率也具有各自特点,偏心率的提取参考文献[9],本文提取这13个Hu特征。
Teague等以复域Zernike多项式为基,提出了具有旋转、正交不变性的Zernike距[10-11],Zernike矩一般把Zernike矩的模作为特征来描述物体形状。很小的Zernike矩特征向量可以很好地表示目标对象的形状特征,低阶矩特征向量描述的是目标的整体形状,高阶矩特征向量描述的是目标的细节。唐卡头饰分类主要是依据头饰的整体轮廓,因此本文提取7个低阶Zernike距特征[12]表示头饰的轮廓特征。
傅里叶形状描述符是一种应用广泛的性质描述符,其基本思想是用物体边界的傅里叶变换作为其形状描述[2]。傅里叶描述子是物体形状曲线的傅里叶变换系数,它是物体边界曲线信号的频域分析的结果。根据傅里叶变换的性质,傅里叶描述子与形状的尺度、方向和曲线的起始点位置有关。因此本文采用具有旋转、平移和尺度不变性的归一化傅里叶描述子,具有旋转、平移和尺度不变性[13]。同样低阶傅立叶描述子描述整体的形状,高阶傅立叶描述子刻画目标的细节,因此本文采用前6个靠前的傅里叶描述子表示头饰整体形状特征。
王维兰[4]提出了频率谱的方法实现头饰分类,根据分割得到的头饰外轮廓坐标点通过傅里叶变换,计算相应的频率谱|F(u)|,进而对频率谱序列计算变化量FSC及均值FSC_AVG,关于频率谱的计算参考文献[4]。本文提取频率谱变化量和均值两个特征,使其能够提高分类准确率。
SVM是广泛应用于模式识别中基于结构风险最小原理的统计学习方法,在小样本数据集中,与其它分类方法相比,SVM分类具有一定的优势,一般比另两种分类器的分类效果好。考虑唐卡头饰数据库属于小样本数据,本文采用SVM作为头饰分类器实现分类。
模式识别的关键问题之一是特征提取,而形状特征选择与图像分割联系较紧密,分割结果对特征提取的精度产生一定的影响,从而最终影响分类的结果。在尝试了一些分割方法之后,利用多种分割方法,分别进行特征提取,然后合并这些特征,可以进一步提高分类的效率。本文采用FFT分割方法和小波模最大值分割方法,针对各自分割结果,提取形状特征,然后融合这些特征。图9所示为头饰分类的流程。
图9 头饰分类的流程图
分类过程如下:
步骤1选取头饰区域;
步骤2提取头饰区域的7个颜色特征;
步骤3通过FFT分割方法和小波模最大值分割方法,得到各自分割结果;
步骤4对步骤3得到的两种分割图像分别提取13个Hu不变矩特征,7个Zernike矩特征,6个傅里叶形状描述符特征,2个频率谱变化量FSC和频率谱变化量均值FSC_AVG特征,共计有28个特征;
步骤5取步骤4得到的两种分割结果的形状特征的最大值,加上步骤2获取的7个颜色特征共计35个特征,作为SVM分类器的特征,选择一部分作为训练集,剩余进行验证。
本文采用的图像库有180幅发髻,150幅僧帽,200幅头冠,这些头饰的大小和分辨率不尽相同,实验数据更具一般性。为了能够更好地验证本文的分类方法,经过100次实验,每次随机抽取图像库中的370幅图像作为SVM训练样本,另外160幅图像作为验证样本。为能够使实验结果更加趋于稳定,对100次实验结果取均值。
采用FFT分割和小波模分割方法,对提取的形状特征利用分类器分类,得到SVM头饰分类结果,分类准确率如表1所示。
若对提取的形状和颜色两种特征利用分类器分类,分类准确率如表2所示。通过表1、表2可知,SVM分类准确率在利用形状和颜色特征后,分类准确率得到相应的提高。为进一步提高分类准确率,这里合并这两种分割结果提取的形状特征(采用两种分割方法获得形状特征,取它们的均值、最大值、最小值),并与颜色特征综合考虑。对综合特征利用三类分类器分类,分类准确率如表3所示。
表1 利用形状特征分类准确率
表2 利用形状特征+颜色特征分类准确率
表3利用综合特征分类准确率
均值89.4 86.4 89.7分类方法分割方法两种特征均值两种特征最小值两种特征最大值SVM分类%发髻93.1 90.1 91.9僧帽86.1 85.4 87头冠89 83.6 90.2
在表3中,对比分析分类准确率的均值可以看出,利用两种特征的最大值可以很好地保持SVM较高的分类效率。利用SVM对发髻、僧帽、头冠进行分类,准确率分别为91.9,87,90.2,完全可以达到实际应用的目的。
表4 与其他分类方法比较%
表4所示了不同分类方法的对比结果。从表4可以看出,本文方法的分类效果优于文献[3,5]。虽然本文方法的准确率没有文献[4]高,但文献[4]的准确率是建立在对头饰的精确分割上,如果分割不精确直接会影响分类准确率,不利于实际应用。本文的方法比其他方法简便,在用户选取头饰区后,分割和分类自动完成,无需用户人机交互,更具有实际的应用价值。
头饰分类在唐卡语义标注和语义检索中具有重要的应用价值,以前的研究工作因分割问题,限制了头饰分类的应用。本文采用了两种分割方法并分别提取形状特征,然后进行融合,加上颜色特征,采用SVM分类器达到预期分类的效果,满足了实际的应用。另外,寻求其它头饰特征、利用其它分类器或组合更多分类器来提高分类准确率是本文进一步研究的问题。
[1] 王维兰,唐仕喜,钱建军,等.基于内容的唐卡图像数据库检索系统[J].湛江师范学院学报,2008,29 (3):91-95.
[2] 毕学慧,刘华明,王维兰.基于头饰特征的唐卡标注和检索[J].计算机科学,2014,41(2):312-316.
[3]Qian J J,Wang W L.Main feature extraction and expressionfor religious portrait Thangka image[C]//The 9th InternationalConference for Young Computer Scientists,2008:803-807.
[4] 张艳磊,王维兰.基于头饰特征的肖像类唐卡图像自动标注[J].西北民族大学学报(自然科学版),2014,35 (2):16-20.
[5] 王维兰,钱建军,杨旦春,等.基于频率谱变化量的唐卡图像特征提取与表示[J].计算机工程与应用,2011,47(22):183-187.
[6] 章毓晋.基于内容的视觉信息检索[M].北京:科学出版社,2003:123-124.
[7] 张静,杨卫平,吴友平.小波变换模极大值在遥感影像边缘特征提取中的应用[J].工程勘察,2008(9):45-48.
[8] 刘进,张天序.图像不变距的推广[J].计算机学报,2004,27(5):668-674.
[9] 姜文卿.一种基于组合特征的商标图像检索算法研究[J].计算机与现代化,2009,1(10):82-85.
[10]Teague M R.Image analysis via the general theory of moments[J].Journal of the Optical Society of America,1980,70:920-930.
[11]Abdallah S M,Nebot E M,Rye D C.Object recognition and orientation via Zernike moment[J]Lecture Notes in Computer Science,1997,1351:386-393.
[12]高光勇,蒋国平.基于特征域和Zernike矩的多倍零水印版权认证方案[J].南京邮电大学学报(自然科学版),2012,32(6):63-68.
[13]王涛,刘文印,孙家广,等.傅立叶描述子识别物体的形状[J].计算机研究与发展,2002,39(12):1714-1719.
Classification of Thangka headdress based on multi-feature and SVM
BI Xue-hui,LIU Hua-ming,NI Yang-mei,LI Huai-min
(School of Computer and Information Engineering,Fuyang Normal University,Fuyang Anhui 236037,China)
In order to meet the precise retrieval needs of temples,libraries,cultural centers,and research institutions for the digitized protection of Thangka,the classification of headdress can be used in semantic annotation,semantic retrieval to improve the precision of Thangka retrieval.The past methods in classifying headdress,which is unfavorable for practical application,have some shortcomings such as segmentation difficulties or interaction trivia,therefore,the paper proposed the classification algorithm based on SVM and multiple features.Firstly,obtain the headdress contour using wavelet and FFT segmentation algorithm,and extract the Hu invariant moment,Fourier invariant moment and Zernike moment and frequency spectrum shape characteristics respectively;secondly,get shape feature by combining the two kinds of contour features,and it unites color features to generate the multiple features;Finally,train SVM and test classification.Compared with other classification methods,the proposed method by the paper has good segmentation effect and simple interactions,which can meet the requirements of headdress classification in the practical application.
SVM;multi-feature combination;label;headdress classification;Thangka
TP391
A
1004-4329(2016)02-055-06
10.14096/j.cnki.cn34-1069/n/1004-4329(2016)02-055-06
2015-10-10
国家自然科学基金项目(60875006);安徽省教育厅自然科学基金项目(2015KJ012);安徽省质量工程项目(2013zy167);阜阳师范学院质量工程项目(2013ZYSD05);阜阳师范学院校级项目(2015FSKJ08)资助。
毕学慧(1982-),女,讲师,研究方向:计算机应用。