蔡晓东 杨超 王丽娟 甘凯今
摘要:
找到能减小类内距离、增大类间距离的特征表示方法是行人识别的一个挑战。提出一种基于行人验证和识别相融合的深度网络模型来解決这一问题。首先,识别监督学习网络模型增加不同个人的类间间距,验证监督学习网络模型减少同一个行人的类内间距;然后,将行人验证和识别的深度网络融合,提取到更有分辨能力的行人特征向量;最后,采用了联合贝叶斯的行人比对方法,通过监督学习排名的方式,提高行人比对的准确率。实验结果表明,所提方法在VIPeR库上同其他深度网络相比有较高的识别准确率,融合网络与单独的识别和验证网络相比有更高的收敛速度和识别准确率。
关键词:
行人识别;深度验证网络;深度识别网络;验证和识别相融合;联合贝叶斯
中图分类号:
TP391.41
文献标志码:A
Abstract:
It is a challenge for person identification to find an appropriate person feature representation method which can reduce intrapersonal variations and enlarge interpersonal differences. A deep network for person identification based on joint identificationverification was proposed to solve this problem. First, the deep network model for identification was used to enlarge the interpersonal differences of different people while the verification model was used for reducing the intrapersonal distance of the same person. Second, the discriminative feature vectors were extracted by sharing parameters and jointing deep networks of identification and verification. At last,the joint Bayesian algorithm was adopted to calculate the similarity of two persons, which improved the accuracy of pedestrian alignment. Experimental results prove that the proposed method has higher pedestrian recognition accuracy compared with some other stateofart methods on VIPeR database; meanwhile, the joint identificationverification deep network has higher convergence speed and recognition accuracy than those of separated deep networks.
英文关键词Key words:
person identification; deep verification network; deep identification network; joint identificationverification; joint Bayesian
0引言
跨场景行人识别是一个极具有挑战性的问题。行人从一个摄像头穿到另一个摄像头姿态变化,因摄像机参数、角度、分辨率不同以及不同场景下光照不一致等问题,导致同一个行人被误判为不同行人,特别是在不受约束的室外场景,其误判率更高。因此,减少同一个行人的类内间距,增大不同行人的类间间距是行人识别的一个重要研究方向。
近年来对这一问题的研究主要集中在特征相似性度量方法上面,采用监督式的特征相似性排名方式增大不同行人的类间距离,减小同一个行人的类内距离,以达到提高排名准确率的目的。如文献[1]提出基于概率相对距离比较(Probabilistic Relative Distance Comparison, PRDC)的行人再识别方法,通过监督学习的方式来度量特征向量的相似性排名,达到增大特征向量的类间间离、减小类内距离的目的。
行人识别主要从特征提取和特征相似性度量方法提高行人识别的准确率。然而,有很多方法采用纯手工设计特征描述子的方式[2-5],当一个行人在不同摄像机下表观差异很大时,其识别效果不佳。以卷积神经网络(Convolutional Neural Network, CNN)为首的深度特征提取方法在计算机视觉领域表现出很大潜力,包括图片分类[6]、物体检测[7]、人脸识别[8-9]和姿态识别[10]等。
然而,基于深度学习的行人识别还有很多问题需要解决。文献[11]提出一种改进的深度学习行人再识别框架(Improved Deep Learning Architecture, IDLA),该方法输入一对行人,先分别经过卷积、池化层,后经过提出的交叉输入邻域差值层,达到减小同一个行人差异、增大不同行人的差异的目的。受到“Siamese”深度神经网络[12]的启发,文献[13]提出了基于比对的深度行人再识别方法(Deep Metric Learning, DML),该框架输入行人对信号,通过比对深度学习框架提取行人的颜色和纹理特征。在此基础之上,文献[14]提出基于比对分块的深度行人识别方法(Improved Deep Metric Learning, Improved DML),在DML方法的基础之上提出了一个连接函数和一个损失函数,并重新设计了深度比对框架。Improved DML将行人分割成48×48尺寸大小的3个子块,然后采用深度网络分别提取特征,最后通过比对层比较行人对的特征向量相似性。文献[8]提出基于识别和验证信号融合的人脸识别方法,将验证信号和识别信号融合能够增大不同人脸的类间距离,减少同一人脸的类内距离。在传统深度行人识别的基础之上,为了找到能减小类内距离、增大类间距离的特征表示方法,本文提出一种基于行人验证和识别相融合的深度网络模型。
提取特征之后,大多数选用简单的距离度量方法来度量特征的相似程度,如l1范数[2]、l2范数[15]或者是Bhattacharyya距离[16]等。在不受约束的室外监控环境中可能会导致行人的外观特征发生明显的变化,上述方法在这时不能很好地计算行人的相似性,导致识别率下降。文献[9]提出基于联合贝叶斯的人脸比对方法,通过监督学习方式判断两张人脸是否是同一张人脸,提高了人脸比对的准确率。本文改进了该方法并将其运用于验证和识别信号相融合的深度行人识别网络的特征相似性排名上,以达到提高行人排名准确率的目的。本文后续章节详细介绍基于深度验证与识别相融合的行人识别网络和基于深度特征融合联合贝叶斯的行人特征比对方法。
1验证和识别相融合深度行人识别网络
为了提取到高鲁棒性的行人外观特征描述子,在DeepID2[8]提出的基于验证和识别相融合的人脸识别方法的基础之上,对传统基于行人识别的CNN模型[13-14]进行改进,提出基于验证和识别相融合的深度行人识别网络。与传统的深度行人识别网络模型相比,本文提出的深度行人识别网络通过共享卷积核参数的方式将串行识别网络和并行验证网络相融合。串行识别网络主要对不同行人进行分类学习,引导融合网络增大不同行人的类间间距特征表示;并行验证网络通过比对两张图片是否是同一个行人,引导融合网络减小同一个行人的类内距离特征表示。下面详细描述本文所提出的基于验证和识别相融合的深度行人识别网络,其结构如图1所示。
1.1CNN模型的基本层
本文提出的基于验证和识别相融合的深度行人识别网络模型主要包括6种基本层,分别是:卷积层、池化层、全连接层、特征连接cosine层、cost函数层以及Softmax层。卷积层与池化层(抽样层)多次交替出现,得到一个“双尖塔”的效果,其思想是模仿动物视觉系统的视网膜感受神经[17],下面对各层的基本原理作简要介绍。
卷积层对图像作卷积运算,并使用神经元激活函数计算卷积后的输出。卷积操作可以表示为:
yj=f(bj+∑iki, jxi)(1)
其中:xi为第i层输入图像,yj为第j层输出图像,ki, j是连接第i层输入图像与第j层输出图像的卷积核,bj是第j层输出图像的偏置,是卷积运算符, f(x)是神经元激活函数。本文使用非线性函数(Rectified Linear Unit, ReLu)作为激活函数,即f(x)=max(0,x),该函数可加快深度网络的收敛速度。式(1)中的卷积核ki, j与偏置bj是卷积网络的训练参数,通过大量的迭代训练得到较优的取值。
池化层该层对卷积层的输出作下采样,其目的是减小特征图尺寸的大小,增强特征提取对旋转和形变的鲁棒性。常用的池化方法有平均池化与最大池化,其中最大池化如式(2)所示:
pij,k=max0≤n 其中:pij,k为池化层的第i层输出图在(j,k)位置的值,l为池化的步长,m为池化尺寸。目前,最大池化在许多应用中表现出良好的性能,本文采用了最大池化。 全连接层该层是一个单层神经网络,上一层的任何一个神经元节点都与下一层的所有神经元节点连接。全连接层的参数由节点权重矩阵W、偏置b以及激活函数f构成,如式(3)所示: y=f(W·x+b)(3) 其中:x、y分别为输入、输出数据, f是激活函数。 cosine层验证深度网络特征向量的连接层,采用余弦值来计算k维特征向量的相似度程度。对于给定两个向量的m和n,它们的夹角为θ,向量m和n的相似性得分由式(4)计算得到: similarity=cos θ=m·n‖m‖‖n‖(4) cost函数层采用二项式偏差损失函数,如式(5)所示,通过与标签比较,计算行人图片经过验证网络后的损失值。 Jdev=∑i, jW⊙ln(exp(-α(S-β)⊙M)+1)(5) 其中:⊙表示矩阵点乘;i, j表示第i幅图和第j幅图;S=[Si, j]n×n表示行人對的相似矩阵,且Si, j=cosine(vi,vj);W=[Wi, j]n×n为权值矩阵,在训练时设置,正样本对的Wi, j=1/n1,负样本对的Wi, j=1/n2;M=[Mi, j]n×n为监督学习标签,Mi, j=1正样本对,Mi, j=-1为负样本对;α、 β是超参数,在训练的时设置。 Softmax loss layer层该层是一个分类器,如表达式(6)所示,分类结果与标签进行比较然后计算行人图片通过识别网络的损失值。 yi=exp(xi)∑nj=1exp(xj)(6) 其中:xi为Softmax层第i个节点的值,yi为第i个输出值,n为Softmax层节点的个数。 1.2验证和识别相融合的行人识别网络 基于验证和识别相融合的深度行人识别网络包括并行验证网络和串行识别网络两个分支,它们通过共享卷积核和全 连接层的参数来引导融合网络学习。验证网络输入一对行人图片,通过Slice层将两个行人分割,然后分别输入CNN1和CNN2特征提取网络,CNN1和CNN2的结构完全相同。单个CNN特征提取网络结构如图2所示,由卷积层和池化层交替组合而成。串行识别深度网络输入识别信号后,用CNN3提取深度行人特征,CNN3与并行验证深度网络的CNN结构完全相同。最后,通过共享3个CNN的卷积滤波器的权重和偏置使串行识别和并行验证深度网络相融合,也即图1中的C&P Layer。将提取到的二维深度特征采用全连接层平铺成一维数据。并行验证网络通过图1中的FC Layer,然后采用cosine层连接2特征向量,并计算是否是同一个行人,最后,通过cost函数层计算损失函数,同时采用随机梯度下降(Stochastic Gradient Descent, SDG)引导深度融合网络辨别行人。串行识别深度网络经过FC Layer,然后采用Softmax loss layer层,将不同行人进行分类并将分类结果与标签比对,采用SDG引导深度融合网络区分不同行人。
CNN特征提取结构由卷积(convolutional)层和池化(pooling)层组合而成,用于提取行人高层特征,其结构如图2所示。前3层卷积和池化层交替出现,在第4层没有采用池化层,因图片经过第4层卷积层之后尺寸很小,再采用池化层数据损失过多,不利于全连接层学习。
FC Layer层C&P Layer层提取到高层行人特征,全连接层将二维的特征平铺数据成一维向量,FC Layer由3个图3 所示的全连接结构组成,其中并行验证网络有2个图中的全连接结构,串行识别有1个。图3中全连接结构的第1层和第2层分别有3096和1024个神经元,也即图1中的fci(i=1,2,3)层,并行验证和识别网络参数一样,且全部共享神经元的权重和偏置。图1中的fc_ j(j=a,b,c)层,也即全连接结构的第3层并行验证和识别网络有所不同,并行验证网络中神经元个数n=500,仅并行网络内部的2分支共享神经元权重和偏置;串行识别深度网络中神经元个数n=400,该层没有与并行验证网络共享神经元的权重和偏置,其中n=400表示400个不同行人样本。
2联合贝叶斯深度特征相似性度量方法
深度网络提取到固定维数特征描述子,为了更加准确地度量特征向量的相似距离,文献[8]通过提取高维LBP(Local Binary Pattern)特征和联合贝叶斯相结合,来提高了人脸比对排名的准确率。本文将深度特征和联合贝叶斯相结合,提高行人比对排名的准确率。已知特征向量x1,x2,直接将(x1,x2)联合建立2维模型。基于联合贝叶斯的深度特征相似性度量主要分为两个部分:通过大量样本的特征向量学习联合贝叶斯相似度量的参数A、G矩阵,通过学习的参数计算特征向量的相似性得分。
基于行人的联合贝叶斯相似性模型基本思想为每个行人可以表达为式(7)的形式:基于行人的联合贝叶斯相似性模型的基本思想如式(7),每个行人差异都可以表达为式(7)的形式:
x=μ+ε(7)
其中: μ表示行人区分特征,也就是人与人之间的差异;ε表示同一个行人自身的变换量(姿态、光照、角度等);x为去均值后的行人。 μ、ε服从高斯分布N(0,Sμ)、N(0,Sε),Sμ,Sε为待求的协方差矩阵,通过大量样本的深度特征向量学习得到,学习过程如下:
在Market1501库中随机抽取1000个行人通过融合网络提取其深度特征向量,每个行人有n=30张图片,表示为xni=[v1,v2,…,v500],i∈[1,1000]。
1)计算所有行人特征的均值向量。
2)所有行人特征减去均值作为下面的行人特征,达到样本特征0均值的目的。
3)用每个行人的特征计算该特征均值。
4)所有行人特征减去对应行人特征向量均值,将每个人特征拆分成上文所述的两部分μ、ε。
5)用最大期望(Expectation Maximization, EM)算法求解Sμ,Sε。
6)如果Sμ,Sε收敛,退出训练并求解矩阵A和G;否则重复步骤5)。
3实验结果与分析
实验平台的配置为Intel i3四核3.4GHz处理器、12GB内存、GTX980Ti显卡以及Ubuntu 14.04操作系统,并使用基于C++编程语言的Caffe工具包。
在训练过程中,本文从CUHK01和CUHK03库随机挑选1850个行人组合成行人对,构成验证网络的正负样本。每个行人选取4张图片,包括2个场景、2个姿态。行人样本经过镜像、旋转操作,每个行人扩展成16张图片,随机组合正负样本。同一个行人作正样本,标签为1;不同行人作为负样本,标签为-1。本文串行识别网络输入的识别信号是从小区监控视频里面取得。在小区的多个监控摄像头中挑选出400个行人,每个行人有48张图片,包括了2个以上摄像头监控场景,每個行人有多个角度(正面到背面)。最后把所有的行人图片都缩放到60×160像素大小。
本文将CUHK01没有训练的200个行人用于测试融合网络的性能。融合网络与任意单独网络收敛的耗时比对如表1所示。从表1中可以知道,融合深度行人网络比任意单网络有更高的收敛速度。实验过程中发现识别网络需要设置较大的学习率,验证网络需要较小的学习率。融合网络需要共用一个学习率,为了防止识别网络过拟合,先将学习率调低,该学习率介于串行识别网络和验证比对网络的学习率之间。验证网络有较快学习速度,同时引导识别网络收敛,迭代到6000次左右的时候,将融合网络的学习率增大10倍,加快融合网络收敛。当然,融合网络迭代1次比单网络要耗时,但是验证网络和识别网络相互调整,整体上能加快融合网络的收敛。
为了评估本文所提方法的有效性,从VIPeR库中随机抽出316个行人用于深度融合网络的寻优,剩下316个行人用于和现有的基于深度行人识别网络相比对,本文所提出行人深度网络在VIPeR数据集上与最新的DML、Improved DML和IDLA方法相比(除top30外)有较高的识别准确率,如表2所示,本文方法在top20之后和现有的行人识别方法的准确率优势越来越小,在top30的时候和现有方法有相同的识别准确率,是因为VIPeR数据集的复杂性;现有方法在top20之后的排名准确率已经很高,很难提高top20之后的排名准确率,top1到top20排名准确率还有很大的提升空间。
4结语
本文提出的基于验证和识别相融合的深度行人识别网络,能有效提取行人特征,深度融合网络与深度验证和深度识别网络相比在识别准确率和收敛速度上有明显的优势。基于深度特征融合联合贝叶斯的行人比对方法比基于深度特征的cos行人比对方法有较高的识别准确率。同时,本文方法在VIPeR数据集上同其他现有深度行人识别方法相比(除top30外)有较高的识别准确率。
參考文献:
[1]
ZHENG W S, GONG S, XIANG T. Person reidentification by probabilistic relative distance comparison [C]// CVPR 11: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2011: 649-656.
[2]
SATTA R, FUMERA G, ROLI F, et al. A multiple component matching framework for person reidentification [C]// MAINO G, FORESTI G L. Image Analysis and Processing—ICIAP 2011, LNCS 6979. Berlin: Springer, 2011: 140-149.
[3]
LIU C, GONG S, CHEN C L, et al. Person reidentification: what features are important? [C]// ECCV 12: Proceedings of the 12th International Conference on Computer Vision. Berlin: Springer, 2012: 391-401.
[4]
SCHGERL P, SORSCHAG R, BAILER W, et al. Object redetection using SIFT and MPEG7 color descriptors [C]// MCAM 2007: Proceedings of the 2007 International Workshop Multimedia Content Analysis and Mining, LNCS 4577. Berlin: Springer, 2007: 305-314.
[5]
WANG X, DORETTO G, SEBASTIAN T, et al. Shape and appearance context modeling [C]// ICCV 2007: Proceedings of the 2007 IEEE 11th International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2007: 1-8.
[6]
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Advances in Neural Information Processing Systems, 2012, 25(2): 1-9.
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [EB/OL]. [20151027]. https://datajobs.com/datasciencerepo/ImageNetNeuralNet%5bHintonetal%5d.pdf.
[7]
GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 580-587.
[8]
SUN Y, WANG X, TANG X. Deep learning face representation by joint identificationverification [J]. Advances in Neural Information Processing Systems, 2014, 27: 1988-1996.
SUN Y, WANG X, TANG X. Deep learning face representation by joint identificationverification [EB/OL]. [20160103]. http://www.ee.cuhk.edu.hk/~xgwang/papers/sunWTarxiv14.pdf.
[9]
CHEN D, CAO X, WANG L, et al. Bayesian face revisited: a joint formulation [M]// FITZGIBBON A, LAZEBNIK S, PERONA P, et al. Computer Vision—ECCV 2012, LNCS 7574. Berlin: Springer, 2012: 566-579.
[10]
TOSHEV A, SZEGEDY C. DeepPose: human pose estimation via deep neural networks [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 1653-1660.
[11]
AHMED E, JONES M, MARKS T K. An improved deep learning architecture for person reidentification [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3908-3916.
[12]
BROMLEY J, BENTZ J W, BOTTOU L, et al. Signature verification using a "siamese" time delay neural network [C]// NIPS 1994: 1994 Conference on Neural Information Processing Systems, 1994:737-744.
BROMLEY J, BENTZ J W, BOTTOU L, et al. Signature verification using a "siamese" time delay neural network [EB/OL]. [20151116]. http://papers.nips.cc/paper/769signatureverificationusinga.pdf.
[13]
YI D, LEI Z, LIAO S, et al. Deep metric learning for person reidentification [C]// ICPR 14: Proceedings of the 2014 22nd International Conference on Pattern Recognition. Washington, DC: IEEE, 2014:2666-2672.
YI D, LEI Z, LIAO S, et al. Deep metric learning for person reidentification [C]// ICPR 14: Proceedings of the 2014 22nd International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 34-39.
[14]
YI DONG, LEI ZHEN, LIAO SHENGCAI. Deep Metric Learning for Practical Person Re-Identification[J]. Eprint Arxiv, 2014:34-39.
YI D, LEI Z, LI S Z, et al. Deep metric learning for practical person reidentification [J]. Computer Science, 2014:34-39.
YI D, LEI Z, LI S Z, et al. Deep metric learning for practical person reidentification [EB/OL]. [20151123]. http://xueshu.baidu.com/s?wd=paperuri%3A%2869b67efb26b657d43e6d3bbf4e2a05d4%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fde.arxiv.org%2Fpdf%2F1407.4979&ie=utf8&sc_us=8632976325773889661.
[15]
HU W, HU M, ZHOU X, et al. Principal axisbased correspondence between multiple cameras for people tracking [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2006, 28(4): 663-671.
[16]
GRAY D, TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features [C]// ECCV 08: Proceedings of the 2008 10th European Conference on Computer Vision. Berlin: Springer, 2008: 262-275.
[17]
KE Y, SUKTHANKAR R. PCASIFT: a more distinctive representation for local image descriptors [C]// CVPR 2004: Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition. 2004:506-513.
KE Y, SUKTHANKAR R. PCASIFT: a more distinctive representation for local image descriptors [EB/OL]. [20151116]. http://wwwcgi.cs.cmu.edu/afs/cs.cmu.edu/user/rahuls/www/pub/irptr0315rahuls.pdf.