融合底层和中层字典特征的行人重识别

2016-10-26 05:21王丽

中国光学 2016年5期

王　丽

(吉林省送变电工程公司工程技术部, 吉林长春 130033)

融合底层和中层字典特征的行人重识别

王丽

(吉林省送变电工程公司工程技术部, 吉林长春 130033)

针对当前行人重识别方法采用单一底层特征识别率较低的问题，提出一种融合底层和中层特征的识别方法，由粗到精对人体目标进行匹配识别。首先提取目标的颜色直方图和纹理直方图进行粗分类；然后将人体目标分为头部、躯干和腿部3个部分。忽略包含信息量较少的头部，对躯干和腿部，提出一种中层图像块字典提取方法，并对照该字典生成中层特征，进行精确分类。底层特征结合中层特征使算法既具有较好的区分度，又具有良好的泛化能力。实验结果表明本文算法在VIPeR数据库上的nAUC比已有方法提高6.3%，对遮挡和背景粘连的鲁棒性更好。

行人重识别；颜色直方图；纹理特征；中层特征；聚类

1　引　言

行人重识别是指给定一张行人图片，从不同位置、时间和视场下拍摄的海量行人数据库中，搜索同一行人的过程，可用于犯罪嫌疑人搜索、视频监控、多目标跟踪等领域[1]。行人重识别由于提出时间较短，目前尚不具备完整的理论和统一的框架，面临着诸多问题，例如：由于成像距离较远，传统的人脸和步态识别技术难以应用；同一行人图片受视角、光照、姿态、遮挡、背景变化等影响差异较大，单特征难以获得较好的区分效果；不同行人衣着可能非常相似等。

近年来，学者们提出了众多行人重识别算法。2007年，Wang等人[2]将行人进行分割，提取不同区域的Log-RGB梯度直方图和颜色空间关系进行识别；2010年，Farenzena等人[3]根据对称性将人体前景划分为头部、躯干、腿部3个部分，并提取各部分的HSV颜色直方图、最大稳定颜色区域特征和高重复结构特征加权进行识别；2011年，Cheng等人[4]使用图形算法定位人体的头、胸、腰、腿4个区域位置，并提取颜色直方图和最大稳定颜色区域特征；2012年，Kostinger等人[5]将HSV颜色直方图、RGB颜色直方图和图像块LBP特征进行组合，并使用PCA降维得到最后的特征；同年，Ma等人[6]提取图像的亮度和梯度信息并使用Fisher向量编码；2013年，Zheng等人[7]将图像进行水平分块，随后提取每个小块的HSV、RGB、YCbCr颜色直方图和Schimidt、Gabor纹理特征进行识别。

现有算法都是通过利用不同的底层特征(例如SIFT[8]、SURF[9]、LBP[10]、Garbor特征[11]、局部纹理[12]等)，达到识别行人的目的。底层特征构造的难点在于不同图片中行人的表征随视角、光照、遮挡、行人姿态等发生很大变化，很难设计出对所有图片均适用的特征，而稳健的组合特征往往计算复杂度较高，在大数据库中搜索效率较低。因此，现有算法往往难以适应不同的数据库，识别效果也很难进一步提升。

考虑到构造底层特征的局限性，本文提出一种将底层特征与中层特征相结合的行人重识别方法。该方法提取人体的空间颜色直方图、SIFT直方图作为底层特征，建立粗略的外观模型进行初步筛选，再通过训练，提取不同部位的具有良好区分性和泛化能力的中层特征，用于精确分类。将两个分类器级联融合，能提高算法对于视角、遮挡和光照的稳健性。实验证明本文算法能获得更高的匹配率。

2　底层特征提取

行人重识别中，常用的底层特征包括颜色特征和纹理特征。由于其信息互补，考虑将二者进行融合。

2.1颜色空间特征

颜色特征由于能够体现目标区域的整体统计信息，对形状变化稳健性较好而被行人重识别算法广泛采用。但是，传统算法采用的颜色直方图忽略了颜色的空间分布，分辨能力较差。因此本文使用二阶空间直方图以保留颜色特征的空间信息[13]。

图像I的二阶空间直方图表示为：

(1)

式中，B为量化级数，nb为图像的量化直方图，μb和εb分别为均值矢量和协方差矩阵，计算公式为：

(2)

(3)

(4)

(5)

式中，N是图像总像素个数；δkb标识像素k是否落在量化级数b内；xk是像素二维坐标。

两个空间直方图(SA，SB)的相似性可以计算如下：

(6)

式中，ρn(nb,A,nb,B)为两个直方图的Bhattacharyya距离，Ψb称为空间-相似性，计算公式为：

(7)

2.2纹理特征

不同行人衣着有可能相似，仅仅依靠颜色特征易造成误匹配，因此需要提取能够描述局部细节的纹理特征进行精确区分。由于SIFT特征在目标发生旋转、缩放、仿射变换时具有良好的不变性，本文考虑采用SIFT提取目标的纹理特征，步骤如下：

(1)对匹配目标和待识别目标分别在H、S、V通道上提取SIFT特征；

(2)对于匹配目标每个通道的SIFT特征进行K-means聚类，生成kH、kS、kV个聚类中心，构成视觉词典；

(3)将所有待识别目标的SIFT特征映射到对应关键词上，统计每个关键词出现的次数，归一化生成kH+kS+kV维的纹理直方图HT。

两个纹理直方图HTA和HTB用Bhattacharyya距离衡量相似度:

(8)

式中，HT(i)表示HT的第i个分量。

3　中层特征

中层特征提取方法是近年来提出的一种目标描述方法，已被用于场景分类、运动识别[14-15]等领域。为使提取的特征具备视角不变性，同时考虑到人体各个部位的区分，本文提出一种新的中层特征提取方法。

3.1图像块筛选

为了区分人体的不同部位，将行人图像按水平方向分成头部、躯干和腿部，三部分的高度分别占人体总高度的16%、29%和55%，如图1所示。从图中可以看出，用这种简单的方式能够较为准确地将行人身体部位划分出来。由于传感器分辨率限制，头部不包含足够有效的信息，将其忽略。

图1　行人不同部位划分 Fig.1　Segmentation of different body parts

下面讨论如何提取躯干部分的图像块，腿部的图像块同理可得。

(9)

(10)

实验中取Nr=0.5 V，Cmin=0.5，Cmax=0.8。这样从一个摄像机中筛选出来的图像块在另一个摄像机中出现的概率既不会太大也不会太小，既有一定的泛化能力，又有一定的区分性。

3.2图像块聚类

3.3生成中层特征向量

(11)

式中，bi、lj分别为对应躯干、腿部中层特征关键词出现的频次。将fmid进行归一化，得:

(12)

中层特征之间的相似性可由欧氏距离计算。

4　特征组合

首先使用空间颜色直方图和纹理直方图对行人目标进行粗识别，随后使用中层特征对其进行精确分类，最后将识别结果融合，目标Ai和Bj之间的相似性为:

(13)

式中，ρcolor、ρtexture、ρmid分别为两个目标的空间颜色混合高斯模型、纹理直方图、中层特征的相似性，ω1、ω2、ω3是特征权重，ω1+ω2+ω3=1。实验中取ω1=ω2=0.3，ω3=0.4。

5　实　验

为验证算法有效性，采用VIPeR和ETHZ两类数据库进行实验。采用累计匹配特性曲线[8](CMC，Cumulative Matching Curve)来评价重识别算法的性能，CMC曲线下的归一化累计面积nAUC(normalized Area Under CMC)能描绘CMC曲线的整体走势和性能。

5.1VIPeR数据库实验结果

VIPeR中包含不同场景下的632对行人图片，图片大小都被归整为48 pixel×128 pixel。对比算法选择目前效果较好的SDALF[3]、ELF[17]和SCEAF[18]算法，采用与ELF算法相同的五轮二折验证法，即总共进行5次实验，每次将632对目标随机均分，并在测试时交换匹配图像和待识别图像，一共得到10组识别结果，最后取其平均值作为最终的评判依据，统计得到的识别结果如图2所示。

图2　VIPeR图库上匹配结果 Fig.2　Matching result in VIPeR database

从图2可以看出，本文算法相比SDALF、ELF和SCEAF具有更高的匹配率。图2中第1列表示第1匹配率CMC(1)，SDALF、ELF和SCEAF分别为21.8%、19.4%、24.6%，而本文算法达到37.8%，这是因为本文算法融合了底层颜色特征、底层纹理特征和中层特征，由粗到精地进行分类，包含了目标图像的更多信息。而SDALF算法使用了HSV颜色直方图、最大稳定颜色区域和高重复结构，ELF使用一组简单特征组合构建分类模型，SCEAF融合结构信息和多个纹理特征，这3种算法本质上都使用的是局部特征，泛化能力不强。随着排名等级的增加，4种算法的识别率均呈上升趋势，本文算法始终高于其余3种算法。统计算法的rank-1、rank-10、rank-20、rank-30(即在待搜索目标库中相似度为前1、10、20和30的目标中找到正确目标的概率)和nAUC，如表1所示，也证明了图2趋势的正确性。在VIPeR数据库中，算法的nAUC高达91.7%，远高于其余3种算法。

表1　算法排名等级和nAUC对比

5.2ETHZ数据库实验结果

ETHZ为多帧数据库，各帧之间存在较严重的光照和遮挡，但是姿态变化较小，更接近于实际应用中的相机连续曝光情况。

对比算法采用SDALF与PLS[13]。比较待识别目标为1帧，而候选目标分别为2、5、10帧的结果，如图3所示。

图3　ETHZ数据库上多帧匹配结果 Fig.3　Multi-frame matching rate in ETHZ database

比较图3(a)、3(b)、3(c)内部的3条曲线，当候选目标分别为2、5、10帧时，本文算法识别率均优于其余3种算法，并且曲线趋势与单帧数据库相同。通过图3(a)、3(b)、3(c)之间横向对比，随着候选目标的增加，PLS算法的识别率无变化，SDALF算法在候选目标5帧时识别率最高，在10帧的识别率反而低于5帧，而本文算法的识别率随着候选目标的增加而提升较大。这是因为本文算法融合了不同尺度下的特征，具有较好的稳定性。因此，本文算法不仅适用于单帧目标图像库，更适用于多帧图像库。

6　结　论

考虑到底层特征的构造难度和局限性较大，难以满足行人重识别的需求，本文提出了融合底层特征和中层特征的行人重识别方法。首先引入空间颜色直方图，对目标的颜色空间信息建模，并提取目标的SIFT纹理特征进行粗识别。随后提出一种区分不同人体部位图像块的中层特征训练和提取方法。融合上述底层特征和中层特征，对行人图像进行识别。实验表明本文算法在单帧和多帧数据库中均能取得良好的识别性能，低位匹配率远高于现有算法，具有较好的应用前景。下一步工作将研究如何更加精确地划分人体不同部位，以及将中层特征与距离度量算法相结合，使其具有更好的区分度。

[1]GONG S,CRISTANI M,YAN S,etal..PersonRe-identification[M]. London:Springer,2014.

[2]WANG X,DORETTO G,SEBASTIAN T B,etal.. Shape and appearance context modeling[J].IEEE,2007,1(1):1-8.

[3]ARENZENA M,BAZZANI L,PERINA A,etal.. Person re-identification by symmetry-driven accumulation of local features[C]. IEEE Conference on Computer Vision and Pattern Recognition,San Francisco,USA,2010:2360-2367.

[4]CHENG D,CRISTANI M,STOPPA M,etal.. Custom pictorial structures for re-identification[C]. British Machine Vision Conference,Dundee,UK,2011:749-760.

[5]KOSTINGER M,HIRZER M,WOHLHART P,etal.. Large scale metric learning from equivalence constraints[C]. IEEE Conference on Computer Vision and Pattern Recognition,IEEE,2012:2288-2295.

[6]MA B,SU Y,JURIE F. Local descriptors encoded by fisher vectors for person re-identification[C]. European Conference on Computer Vision,Florence,Italy,2012:413-422.

[7]ZHENG W,GONG S,XIANG T. Re-identification by Relative Distance Comparison[J].IEEE,2013,35(3):653-668.

[8]王睿,朱正丹.融合全局-颜色信息的尺度不变特征变换[J].光学精密工程,2015,23(1): 295-301.

WANG R,ZHU ZH D. SIFT matching with color invariant characteristics and global context[J].Opt.PrecisionEng.,2015,23(1):295-301.(in Chinese)

[9]王飞宇,邸男,贾平.结合尺度空间FAST角点检测器和SURF描绘器的图像特征[J].液晶与显示,2014,29(4):598-604.

WANG F Y,DI N,JIA P. Image features using scale-space FAST corner detector and SURF descriptor[J].ChineseJ.LiquidCrystalsandDisplays,2014,29(4)：598-604.(in Chinese)

[10]王晓华,孙小姣.联合Gabor降维特征与奇异值特征的人脸识别[J].光学精密工程,2015,23(10):553-558.

WANG X H,SUN X J. Face recognition based on Gabor reduction dimensionality features and singular value decomposition features[J].Opt.PrecisionEng.,2015,23(10):553-558.(in Chinese)

[11]邓丹,吴谨,朱磊，等.基于纹理抑制和连续分布估计的显著性目标检测方法[J].液晶与显示，2015，30(1):120-125.

DENG D,WU J,ZHU L,etal. Significant target detection method based on texture inhibition and continuous distribution estimation[J].ChineseJ.LiquidCrystalsandDisplays,2015，30(1):120-125.(in Chinese)

[12]BIRCHFIELD S T,RANGARAJAN S. Spatiograms versus histograms for region-based tracking[J].IEEE，2005(2):1158-1163.

[13]SINGH S,GUPTA A,EFROS A A. Unsupervised discovery of mid-level discriminative patches[C]. European Conference on Computer Vision,Florence,Italy,2012:73-86.

[14]JAIN A,GUPTA A,RODRIGUEZ M,etal.. Representing videos using mid-level discriminative patches[C]. IEEE Conference on Computer Vision and Pattern Recognition,IEEE,2013:571-2578.

[15]陈莹,朱明,刘剑，等.高斯混合模型自适应微光图像增强[J].液晶与显示,2015,30(2):300-309.

CHEN Y,ZHU M,LIU J,etal.. Automatic low light level image enhancement using Gaussian mixture modeling[J].ChineseJ.LiquidCrystalsandDisplays,2015,30(2):300-309.(in Chinese)

[16]GRAY D,TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features[C]. European Conference on Computer Vision,Florence,Marseille,Italy,2008:262-275.

[17]HU Y,LIAO S,LEI Z,etal.. Exploring structural information and fusing multiple features for person re-identification[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Portland,USA,2013:794-799.

[18]SCHWARTZ W,DAVIS L. Learning discriminative appearance based models using partial least squares[C]. Computer Graphics and Image Processing,Rio de Janeiro,Brazil,2009:322-329.

Pedestrian re-identification based on fusing low-level and mid-level features

WANG Li

(Engineering and Technology Department,Jilin Transmission and TransformationEngineeringCompany,Changchun130033,China)*Correspondingauthor,E-mail:44417020@qq.com

Aiming at the problem of low recognition rate in the existing pedestrian re-identification algorithm using single low-level feature, a new method by fusing low-level and mid-level features is proposed, which identifies person in a coarse to fine strategy. First, the pedestrian is recognized roughly by color and texture features. Then, the human body is divided into three parts, including head, main body and leg. Head is ignored for its few useful information. A mid-level dictionary method is proposed and the dictionary is trained using patches from main body and leg, and then mid-level feature is computed for fine recognition. Fusing mid-level and low-level features can be not only discriminative but also representative. The experimental results indicate that the proposed method can increase nAUC by 6.3% compared with the existing methods, which is more robust to occlusion and background adhesion.

pedestrian re-identification;color histogram;texture features;mid-level features;clustering

2016-04-05；

2016-05-26

2095-1531(2016)05-0540-07

TP394.1

Adoi:10.3788/CO.20160905.0540