基于层次形状特征提取模型的图像分类①

2016-12-05 07:47张盛博
高技术通讯 2016年1期
关键词:条形曲率特征提取

张盛博 刘 娜 霍 宏 方 涛



基于层次形状特征提取模型的图像分类①

张盛博②刘 娜 霍 宏 方 涛③

(上海交通大学自动化系控制与信息处理教育部重点实验室 上海 200240)

研究了基于层次形状特征提取的图像分类。针对从初级视觉皮层(V1)提取的条形特征对目标形状的描述不充分,提出了一种层次模型(V1-V2-V4),以进一步提取角形、曲率特征。模型中V1层的条形特征提取采用Gabor模拟;V2层结合了抑制噪声的3D高斯差分(DOG),并使用滤波方向相差90度的Gabor滤波器组提取多尺度角形特征;V4层通过曲率域计算来描述目标轮廓的形变程度,并最终提取融合曲率与梯度方向的直方图特征。该模型的优势在于,通过角形以及曲率计算的层次表达,可有效增强目标形状的关键特征点(如角点位置)的提取,并且结合曲率与梯度的直方图描述,也可有效弥补单一曲率或梯度特征局部描述不足的问题。在MNIST手写数字与21类遥感影像上的实验表明,曲率与梯度的融合特征的运用可获得98.94%的数字识别精度,同时在遥感影像分类中也可获得较好的分类效果。

腹侧通路, 形状特征, 曲率, 层次性, 图像分类

0 引 言

图像分类是利用计算机视觉技术,根据目标在图像信息中所反映出的特征,把不同类别的目标识别、区分开来的图像处理方法。人的视觉系统可以快速、准确地处理大量视觉信息,相比于传统的计算机视觉方法,可以更好地完成目标识别任务。视觉系统对目标形状的信息处理是从视网膜开始,经过侧膝体(LGN)、V1、V2、V4、IT等层次的过程[1]。受初级视觉皮层V1启发,余鹏等[2]提出了一种前馈深度层次模型。该模型利用稀疏连接模拟感受野特性,结合方向图实现对目标的抽象表示。文献[3]基于V1简单细胞特性与极大化稀疏原理,提出了快速收敛的独立成分分析(independent component analysis, ICA)模型,该模型较传统的ICA模型收敛速度更快,但是受噪声影响较大。最具代表性的模型是Poggio等[4]提出的分层最大化(HMAX)模型。该模型的简单细胞层执行“线性和”操作,复杂细胞层执行“最大化”操作,从而实现位置、尺度等的不变性。该模型与V1实现了较好对应,而对更高级皮层的模拟比较粗糙。以上模型主要停留在V1,忽略了较高级皮层神经机制对目标表达的重要作用[5]。近年来,涌现出了许多结合高级皮层进行模拟的层次模型:Kavukcuoglu等[6]在ICA基础上,把非线性变换引入稀疏编码模型,模拟V1复杂细胞特性,但是在特征提取部分需要执行迭代算法,计算量较大;Yang等[7]基于尺度不变特征变换(SIFT)特征提出了一种监督的稀疏编码模型,该模型通过max pooling操作实现对V1复杂细胞不变性的模拟,但此模型使用的基于反投影的随机优化算法计算速度较慢,并且max pooling操作会丢失较多信息;Kim等[8]提出了一种模拟V1、V4的形状编码方法,该方法结合视觉区域检测和形状编码提取目标单一尺度下的曲率方向特征并初步应用在目标识别中,但是此模型忽略了V2区对角形特征提取的重要作用[9];Tschechne等[10]受神经元间存在反馈连接的启发,提出了对表面和目标边界编码的循环计算网络模型,此模型增加了对V2区模拟并应用于目标边界提取。

形状特征是用于描述目标的基本特征,常见的有基于轮廓和基于区域的形状描述[11]。其中,基于轮廓的描述应用更为广泛,原因在于视觉系统通常是基于轮廓区分形状。此外,曲率作为判别形状间相似性的重要轮廓特征[12],可在视皮层中的V4区进行感知[5]。但是,基于轮廓的形状描述也存在一些限制,比如轮廓受噪声影响较大,并且目标轮廓常常难以提取。不同于基于轮廓或区域的描述方法,层次性的形状描述可以逐层地过滤掉不匹配的图像特征[11]。基于此,本文提出了一种层次形状特征提取模型(V1-V2-V4)以弥补V1条形特征对形状描述的不充分。该模型与上述文献的模型不同:首先是结合噪声抑制与V2角形特征,通过增强角形特征点如角点位置的提取,进而将其应用于目标与场景分类中;其次是对V4层引入曲率计算以描述目标轮廓的形变程度,并对V4输出提取融合曲率及梯度方向的直方图特征以弥补单一特征对目标或场景分类的不足。

1 模型框架

模型共三层,分别为V1层、V2层、V4层,层与层之间采用前馈连接,如图1所示。

图1 层次形状特征提取模型

对每个图像子块,V1层使用Gabor滤波器组在5尺度8方向下提取两组条形特征,每组条形特征的滤波方向相差90度。V2层在每个尺度下对V1输出的两组条形特征进行组合,实现对角形特征的提取。V4层计算不同方向下V2输出的曲率与方向导数。特征提取阶段则是累积每个尺度的不同方向下V4输出的曲率与方向导数的最大值作为目标的曲率特征与梯度特征,简称为“曲率+梯度”特征。

图2为各层输出效果图。

图2 各层输出效果图

1.1 V1层

使用Gabor函数模拟V1层简单细胞对条形刺激的响应作用[13]。二维Gabor函数的表达式为

(1)

(2)

其中尺度参数σ1决定V1层简单细胞感受野的大小,角度参数θ模拟神经元的最优响应方向。参数r决定神经元感受野形状,参数φ决定偶数的奇偶性,1/λ表示余弦因子频率设输入图像为f(x,y),则模拟简单细胞响应结果为

Rλ,σ1,θ,φ(x,y)=(f×gλ,σ1,θ,φ)(x,y)

(3)

使用Gabor能量算子模拟复杂细胞的响应结果:

(4)

使用Nθ个不同方向θi下的Gabor能量的向量和来模拟V1层输出,将多个方向合并为1个主方向:

(5)

1.2 V2层

模型V2层的目的是在获得条形特征的基础上提取角形[9]特征,进而有效增强目标在关键特征点(如角点)位置处的特征描述。

(6)

(7)

(8)

参数α1控制抑制强度的大小。

其次,采用最优响应角度相差π/2的Rθi(x,y,s)模拟V2层对角形特征的响应(图3):

RV2=Rθi·Rθi+π/2

(9)

图3 V2层角形特征提取

其中,Rθi与Rθi+π/2分别表示V1层不同方向下的条形特征。将对应像素点的灰度值相乘,则结果只保留θi与(θi+π/2)方向组合的条形特征,即角形特征RV2。根据图2可以看出,V2输出后四角位置处亮度相对更高,角形部分得到加强。

此外,由于单一尺度下会造成目标尺度信息的缺失,因此,与文献[10]不同的是,本文将单一尺度下的角形特征提取扩展到多尺度,该扩展方式有助于增强目标尺度变化的稳健性。

1.3 V4层

V4层的目的是在获得目标条形、角形特征基础上提取曲率[5]方向特征。采用构建方向域与曲率域的方法[8]模拟V4。

曲率的计算方式如下:首先借助梯度向量的能量方向构建方向域:

(10)

其中Ix、Iy表示对RV2(i, j)分别求x、y方向偏导。则推导近似曲率(ksel)如图4所示:

(11)

通过添加梯度幅值(Mfwd, Mbwd)修正上述方程,得到在(i, j)处曲率域表达式:

CF(i, j)=(1-cos(ksel(i, j)))·Mfwd·Mbwd

(12)

方向导数的计算方式如下:

RV2(i, j)在点(x, y)处沿方向l=(cosθ,sinθ)的方向导数为

( 13 )

图4 135°方向的曲率信息近似计算

1.4 特征提取

图5给出了特征提取的示意图:计算每个点在四个方向下的曲率/梯度幅值,累积最大值。

2 实验及分析

为验证本文模型的有效性,实验采用两种类型的数据集(MNIST手写数字识别[15]和21类遥感影像分类[16])。实验环境如下:CPU:Intel Xeon E5-2630 2.40GHz;内存:64.0GB;系统类型:64位Windows 7企业版;开发平台:MATLAB R2013a。

2.1 MNIST手写数字识别

MNIST共10类(28×28像素),如图6所示。其中训练样本共60000幅,测试样本共10000幅。

图6 MNIST数据集样图

实验中,首先将每幅图像分割成2×2个子块,使用最近邻插值算法,将每个图像子块大小缩放为16像素×16像素。设定式(1)中γ=0.3,λ=8,σ1∈{0.6,1.7,2.8,3.9,5.0},式(2)中θ∈{0,π/8,2π/8,3π/8,4π/8,5π/8,6π/8,7π/8},式(5)中Nθ=8,式(7)中α1=1。

使用1.4节的方式提取特征,每个亚子块提取8方向16维的“曲率+梯度”特征,则每个子块提取16×(4×4)=256维特征。共5个尺度、2×2个子块,每幅图像提取的特征维数为256×5×(2×2)=5120维。最终采用支持向量机(SVM)进行训练与测试。表1给出了本文方法识别精度的混淆矩阵,表2示出了本文模型与其它基于生物视觉启发方法的识别精度,表3给出了方向数分别为4和8时单独的层次性梯度、曲率特征及“曲率+梯度”特征的识别精度。

表1 MNIST数字识别混淆矩阵

表2 不同方法在MNIST上的精度

表3 两种方向下不同特征的精度

表1给出了10个测试集的识别情况,表中行代表各个类别(0~9),列代表预测结果。对角线上的表示正确分类的样本数,非对角线表示错分样本。总体上看,实验取得了理想的识别精度。具体而言,“0”、 “1”等类别识别效果相对更好,“0”只有5个样本分错,“1”只有3个样本分错。因为这些类别在形状上区分度较高,可以更准确地使用形状特征进行描述;而“9”的识别效果相对较差,共有23个样本分错。其中有5个样本分成了“4”,有6个样本分成了“7”,因为在形状上“9”与“4”、“7”等类别具有相似性,因此用形状特征区分其差别具有一定难度。

根据表2,本文模型比HMAX改进模型识别精度高2.44%,因为HMAX在提取条形特征后缺少对更复杂形状特征的描述,因而建立的特征词典不够完备;比ICA直方图方法高0.22%,因为ICA方法容易受噪声影响;与IPSD方法精度相差0.06%,因为IPSD在ICA的特征提取等部分进行了有效优化;SIFT稀疏编码精度最高,因为SIFT特征本身实现了较好的局部不变性,可以有效区分目标的形状特征。

表3验证了本文模型在方向拓展、特征融合上的有效性。4方向拓展为8方向后,梯度特征识别精度提高了2.34%,曲率特征精度提高了3.2%,“曲率+梯度”特征提高了1.47%。特征融合后,4方向下“曲率+梯度”特征分别比单独的梯度特征、单独的曲率特征识别精度高12.67%、18.55%;8方向下高11.8%、16.82%。

2.2 21类遥感影像分类

21类遥感影像共21类,每类包含100幅图像(256像素×256像素)。数据集包含了较为复杂的地物结构,类间具有形状上的相似性,并且图像的空间结构关系较为复杂,存在尺度、旋转变化等因素影响,如图7所示。

图7 21类遥感影像部分样图

实验中,模型参数设置与2.1部分大致相同,区别在于:此处在 3个尺度下(σ1∈{0.6,1.8,3})使用滑动窗口的方式提取特征,每个尺度下的滤波结果对应的滑动窗口数与滑动步长分别选取为32/8,36/10,40/18,则每幅图像滑动的窗口数为29×29+23×23+13×13=1539。对每个窗口分为4×4的亚子块,每个亚子块提取4方向的8维曲率梯度特征,则每个窗口提取8×(4×4)=128维特征,则对每幅图像提取128×1539=196992维特征。

此外,使用vlfeat[18]工具箱提供的VLAD encoding方法对特征进行聚集产生更为紧凑的全局描述子,并采用SVM分类器进行训练与测试。实验中,每类随机选取50幅图像作为训练样本,其余50幅作为测试样本,重复10次进行交叉验证,最后将10次分类结果求均值。

表4比较了其它基于直方图特征的提取方法在21类遥感影像数据集上的分类结果。其中SCK主要应用了SIFT、空间共生核(Co-occurrence Kernel)方法,SPCK在SCK方法基础上增加了空间金字塔共生核方法,BOVW+SCK是在SCK方法基础上增加了词包(bag of visual words,BOVW),SPMK主要应用了SIFT和空间金字塔匹配核方法。本文模型比SPCK方法高4.87%,比SPMK方法高2.72%,比SCK方法高2.49%,比BOVW+SCK方法高0.3%。

表4 不同方法在21类遥感影像上的精度

此外,由于该数据集中目标具有较为复杂的背景与噪声信息,适合验证层次模型中每层的有效性。因此,我们分别比较了无V1、V2层(即直接提取曲率特征)、无V2层的“曲率+梯度”特征、单独的层次性曲率特征、梯度特征与层次性的“曲率+梯度”特征的分类结果,如图8所示。结果表明,4种层次性特征分类结果均明显高于直接提取的曲率特征,平均差距最高达到25%左右,表明层次性形状特征对于处理具有复杂背景与噪声信息的目标更加有效。相比于无V2层“曲率+梯度”特征,添加V2层后可以将分类精度提高1%左右,表明在条形特征基础上引入多尺度角形特征更为有效。同时“曲率+梯度”特征分类精度比单独的曲率特征高16%左右,比单独的梯度特征高3%左右,再次验证了特征融合的有效性。

图8 层次性特征有效性验证

3 结 论

本文建立了一种层次模型(V1-V2-V4),用于提取目标的条形、角形、曲率特征。其中V2层结合了3D-DOG抑制图像噪声,使用滤波方向相差90度的条形特征提取多尺度角形特征;V4通过曲率域提取目标轮廓形变程度较大的部分,最终提取融合曲率与梯度方向的直方图特征。实验表明,相比于条形特征,引入的角形、曲率特征可以更充分地描述目标形状,层次性的形状特征在目标识别上可以取得更好效果;曲率与梯度的融合特征可以有效弥补单一曲率或梯度特征局部描述的不足,并且特征方向的拓展可以进一步提高目标识别效果。未来的工作将继续研究更高级皮层(如IT)对形状编码的机制,完善模型的层次结构,进一步提取目标更为完善的形状特征。

[ 1] Rousselet G A, Thorpe S J, Fabre-Thorpe M. How parallel is visual processing in the ventral pathway. Trends in Cognitive Sciences, 2004, 8(8): 363-370

[ 2] 余鹏, 万里红, 霍宏等. 基于层次特征映射模型的目标识别. 高技术通讯, 2014, 24(4): 414-419

[ 3] Hyvärinen A. Fast and robust fixed-point algorithms for independent component analysis. Neural Networks, IEEE Transactions on, 1999, 10(3): 626-634

[ 4] Riesenhuber M, Poggio T. Hierarchical models of object recognition in cortex. Nature Neuroscience, 1999, 2(11): 1019-1025

[ 5] Connor C E, Brincat S L, Pasupathy A. Transformation of shape information in the ventral pathway. Current Opinion in Neurobiology, 2007, 17(2): 140-147

[ 6] Kavukcuoglu K, Ranzato M A, Fergus R, et al. Learning invariant features through topographic filter maps. In: Proceedings of the International Conference on Computer Vision and Pattern Recognition (CVPR), Miami, America, 2009. 1605-1612

[ 7] Yang J, Yu K, Huang T. Supervised translation-invariant sparse coding. In: Proceedings of the International Conference on Computer Vision and Pattern Recognition (CVPR), San Francisco, America, 2010. 3517-3524

[ 8] Kim S, Kwon S, Kweon I S. A perceptual visual feature extraction method achieved by imitating V1 and V4 of the human visual system. Cognitive Computation, 2013, 5(4): 610-628

[ 9] Boynton G M, Hegdé J. Visual cortex: The continuing puzzle of area V2. Current Biology, 2004, 14(13): R523-R524

[10] Tschechne S, Neumann H. Hierarchical representation of shapes in visual cortex——from localized features to figural shape segregation. Frontiers in Computational Neuroscience, 2014, 8: 93

[11] Zhang D, Lu G. Review of shape representation and description techniques. Pattern Recognition, 2004, 37(1): 1-19

[12] Yang M, Kpalma K, Ronsin J. A survey of shape feature extraction techniques. Pattern Recognition, 2008, 41(1): 43-90

[13] Park J G, Kim K J. Design of a visual perception model with edge-adaptive Gabor filter and support vector machine for traffic sign detection. Expert Systems with Applications, 2013, 40(9): 3679-3687

[14] Deng S, Liu N, Huo H, et al. Contour detection based on multi-scale spatial inhibition and contextual modulation. In: Proceedings of the IEEE 2015 Seventh International Conference on Advanced Computational Intelligence (ICACI), Wuyi, China, 2015. 372-377

[15] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86(11): 2278-2324

[16] Yang Y, Newsam S. Bag-of-visual-words and spatial extensions for land-use classification. In: Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems (ACM GIS), San Jose, USA, 2010. 270-279

[17] Borji A, Hamidi M, Mahmoudi F. Robust handwritten character recognition with features inspired by visual ventral stream. Neural Processing Letters, 2008, 28(2): 97-111

[18] Vedaldi A, Fulkerson B. VLFeat: An open and portable library of computer vision algorithms. In: Proceedings of the International Conference on Multimedia, Firenze, Italy, 2010. 1469-1472

[19] Yang Y, Newsam S. Spatial pyramid co-occurrence for image classification. In: Proceedings of the International Conference on Computer Vision (ICCV), Barcelona, Spain, 2011. 1465-1472

[20] Lazebnik S, Schmid C, Ponce J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In: Proceedings of the International Conference on Computer Vision and Pattern Recognition (CVPR), New York, America, 2006. 2169-2178

Image classification based on a hierarchical shape feature extraction model

Zhang Shengbo, Liu Na, Huo Hong, Fang Tao

(Key Laboratory of System Control and Information Processing, Ministry of Education, Department of Automation, Shanghai Jiao Tong University, Shanghai 200240)

The image classification based on hierarchical shape feature extraction was studied. Considering that the bar features extracted from the primary visual cortex of V1 can not sufficiently represent the shape of an object, a new hierarchical model of V1-V2-V4 was presented to further extract the features of angle and curvature. Under the model, the Gabor function is adopted to simulate V1 to extract the bar features, the noisy inhibition using 3D-DOG (difference of Gaussian) combined with a group of Gabor filters with the filtering direction difference of 90°, is introduced to extract the multi-scale angle features in V2, and in V4, the deformation of the shape of an object is described through the computation of the curvature field, to finally extract the histogram features fusing the curvature and gradient orientation. The advantage of the proposed model is that the hierarchical representation based on the computation of angle and curvature helps to extract the key points of object shape such as the corners. Moreover, the use of fusion features also remedies the inadequacy of the object description only using curvature or gradient feature. The experiments on MNIST handwritten digits and 21 remote sensing images demonstrated that the use of the features fusing curvature and gradient orientation achieved the digit recognition accuracy of 98.94%, and obtained the better result in classification of remote sensing images.

ventral pathway, shape feature, curvature, hierarchy, image classification

① 973计划(2012CB719903),国家自然科学基金委创新研究群体(X198144),国家自然科学基金青年科学基金(41101386)和国家自然科学基金(41071256)资助项目。

�,E-mail: tfang@sjtu.edu.cn(

2015-10-28)

10.3772/j.issn.1002-0470.2016.01.011

② 男,1990年生,硕士;研究方向:计算机视觉,数字图像处理;E-mail:sheng_bo_cool@163.com

猜你喜欢
条形曲率特征提取
大曲率沉管安装关键技术研究
一类双曲平均曲率流的对称与整体解
带平均曲率算子的离散混合边值问题凸解的存在性
各式各样的复式条形统计图
条形铁皮自动折边机构设计
半正迷向曲率的四维Shrinking Gradient Ricci Solitons
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
某沿海电厂全封闭条形煤场和圆形煤场的技术和经济性比较