基于多尺度帧率的视频行人再识别方法

2018-11-01 03:04刘一敏蒋建国齐美彬
电脑知识与技术 2018年19期
关键词:深度学习

刘一敏 蒋建国 齐美彬

摘要:伴随着安防监控领域科学技术的发展和国家对安防监控领域的重视,我国已经成了世界上最安全的国家之一。无重叠视域行人再识别旨在解决通过不同视域的摄像机来识别匹配相同行人,研究对行政机关和司法机关维护社会公共安全具有重大的意义。基于深度学习的行人再识别因数据集偏小而依赖于样本数量,设计了一种基于多尺度帧率的视频行人再识别方法,通过自适应可分离卷积插帧技术生成帧间信息,增加了目标样本和运动间的细节变化特征;并且在训练中对输入进行了帧率尺度变化,提高了时-空注意力网络对行人步伐大小、周期快慢的鲁棒性。实验结果表明,提出的方法在一定程度上可以提高公开数据集的识别率,在PRID2011和iLIDS-VID数据集上进行实验,RANK1分别达到了79%和64%。

关键词:行人再识别;深度学习;插帧算法

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)19-0196-04

Abstract:With the development of science and technology in the field of security monitoring and the emphasis on national security in government policy, China has become one of the safest countries in the world. The non-overlapped view person re-identification aims to solve the problem of identifying and matching the same pedestrian through cameras in different visual fields, and it is of great significance to study the public secuity for administrative agencies and judicial organs. The pedestrian re-recognition based on deep learning relies on the number of samples because of the small dataset. A multi-scale frame rate video pedestrian recognition method is designed to generate inter-frame information through adaptive separable convolutional interpolation frame technology. The characteristics of the changes between the target sample and the movement and the frame rate scale change of the input during training, Improve the ASTPN network's robustness to the size of the pace and the speed of the cycle. Experimental results show that the proposed method can improve the recognition rate of public datasets to a certain extent. Experiments were conducted on PRID2011 and iLIDS-VID datasets. RANK1 reached 78% and 64% respectively.

Keyword:Person re-identification;Deep Learning;Video Frame Interpolation

行人再识别任务是指在无重叠多视域摄像机下识别和匹配相同行人的任務。任务场景广泛应用在街头、商场、车站等人员密集的场所,预防突发情况的发生,对维护社会稳定、保障公民利益有着重大的意义。但是在实际应用场景中,不同视域下摄像机捕捉到的行人,由于存在摄像机属性、场景光照、行人姿态和角度的差异,干扰目标的外观特征的正常表示,使得行人再识别的研究依旧面临着很大的挑战。深度学习方法在计算机视觉领域上的成功,也带动了行人再识别课题的发展,一些基于深度学习的行人再识别方法也相继提出。文献[1]提出用孪生网络(Siamese Network)来解决行人再识别的任务,孪生网络结构是一个双流网络,利用监督信息和对比损失函数来训练和识别相同行人对。文献[2]通过对行人图像进行分割,对各分割区域利用LSTM顺序的提取特征的时空关系,来提高目标深度特征的区分性。文献[3]提出在卷积神经网络(Convolutional Neural Network,CNN)的每个卷积层后加入一个门选通函数,用来获得目标的有效细节。文献[4]用CNN提取目标特征,并将视频序列送入到循环卷积网络(Recurrent Neural Network,RNN)中,学习到行人运动时间序列上的特征,最后将其整合,作为行人视频的特征表达信息。文献[5]与[4]结构类似,采用了加了门控的RNN,并且设计了新的损失函数,提高了模型的收敛效率。

训练样本匮乏是行人再识别领域遇到的重要问题之一。较小的数据集让依赖于数据规模的来描述高维特征的深度方法来说,容易造成模型泛化能力降低,影响高维特征的正确表达,降低识别率。因此一些基于样本增加的行人再识别方法被提出,文献[7]将生成对抗网络应用于行人再识别方向,通过生成对抗网络生成符合行人特征分布的图像,提高了匹配效果。文献[8]在生成对抗网络中加入了条件信息,可以生成带监督信息的行人图片。但是生成对抗网络生成的图片成像质量较低,会使网络无法获取到正确的外观特征,一定程度上影响了网络的识别。因此本文提出了多尺度帧率的视频行人再识别方法,增加帧与帧之间的强监督样本,并利用多尺度的帧率对网络进行训练,使网络适应不同行人步伐变化,提高网络泛化能力。在PRID2011和iLIDS-VID视频数据集上进行实验,行人匹配效率得到了提升。

本文余下的章节安排如下。第一节介绍多尺度帧率的视频行人再識别方法;第二节介绍本文方法在视频数据集上的实验;第三节总结全文和展望。

1 基于多尺度帧率的视频行人再识别

1.1 自适应可分离卷积插帧算法

视频帧插值是计算机视觉和视频处理领域的一个重要的研究方向,根据视频中前一帧图像[I1]和后一帧图像[I2],来预算和估计中间帧[I]的生成。早前,传统的帧插值方法[9-11]主要是利用光流算法,通过视频生成前一帧和后一帧之间的光流信息,用来插入由光流信息的引导的中间帧的过程,但是生成图像的好坏往往依赖于光流的质量。与基于光流的方法不同,Meyer等人[12]开发了一种基于相位的插帧值方法,利用单个像素相移中的运动情况修改生成中间帧图像,算法用来生成中间帧图像相较于基于光流的方法取得了清晰的结果,但是当视频具有较大时间的变化时,算法会无法保留视频中的高频细节。Niklaus等人[13]采用CNN构成Encoder-Decoder框架,最终训练出两个41×41的卷积内核,通过移位卷积生成中间帧的多个像素,但处理1080p的视频时,内存消耗高达26GB。

Simon Niklaus等人[14]基于文献[13]结构的基础上,设计可分离的一维卷积内核来近似二维卷积内核来改进算法,减少了内存的消耗,算法结构如图1所示。

如图所示,输入前一帧[I1]和后一帧[I2],经过特征提取模块和上采样模块,得到特征输出。其中,特征提取模块由6个由卷积层和平均池化层组成的单元所构成,上采样模块使用双线性插值方法。特征输出扩展分到4个子网络。训练过程中,每个子网络可以分别学习4个1维卷积核,最后将4个1维卷积分别与输入图像[I1]、[I2]相卷叠加得到最后的中间帧[I]。算法表示为式(1)。

将插帧算法生成的图片和生成对抗网络生成的图片比较,如图3所示,自适应可分离卷积插帧算法生成的画面更加清晰,边缘过度也更加自然。

1.2 基于多尺度帧率的视频行人再识别

文献[6]提出了添加注意力的时空网络(ASTPN)的行人再识别结构,结构如图4所示。

网络结构采用Siamese Network的框架,通过CNN来提取行人视频帧与帧图像上的特征,再将每帧的图像特征通过空间金字塔池化层(Spatial Pyramid Pooling Layer,SPP)。之后得到的多尺度空间特征信息作为图像表示特征通过RNN提取视频帧时间信息。最后,由RNN产生的所有时间特征通过注意力时间池化层(Attentive Temporal Pooling Layer,ATP)汇集来组合形成序列级表示,并通过欧式距离进行度量。在SPP中,由于有多个尺度的空间块来生成多个尺度的空间表示,因此可以使提取到的特征包含了行人位置信息和多尺度空间信息,能够关注到区域中有价值的信息。在ATP中,查询集(Probe)和行人图像集(Gallery)的输入通过CNN,SPP和RNN分别输出矩阵P和G,网络中引用参数矩阵U来计算时间维度中的注意力矩阵A,表示为公式5。最后分别通过列/行方式的最大池化操作和Softmax函数,分别获得具有对时间序列注意的向量[vp]和[vg],[vp]表示Probe的特征向量,[vg]表示Gallery的特征向量。最后将[vp]和[vg]进行距离上的度量,实验取得了很好的算法效果。

[A=tanh(PUGT)] (5)

在基于视频的行人再识别研究中,由于相较于基于图像的行人再识别中常用的行人目标的外观特征之外,行人行走的步伐大小、周期、姿态也可作为行人的重要特征,让网络进行有效的区分。如图5所示,ID 1中所拍摄到的行人行走周期较快,步伐较小;而ID 2中的行人周期较慢,步伐较大。因此在ASTPN的输入中,我们将按单一帧率的输入改成多尺度帧率的输入。在添加帧间图片的数据集中分别选取1x,2x,3x的行人视频序列作为ASTPN网络的输入,分别表示为图6中的序列1,序列2和序列3。

1.3 本文算法的具体步骤

步骤1.输入视频行人再识别的数据集,利用自适应可分离卷积插帧算法对数据集进行预处理,生成视频帧与帧之间的中间帧,扩大数据集的大小。

步骤2.利用步骤1扩充的行人再识别数据集,将数据集输入不同尺度的帧率视频,利用ASTPN网络训练测试,获取实验结果。

2 实验测试与结果

本节介绍了行人再识别研究中算法性能评估方法和实验中使用的视频行人再识别数据集,并且通过本文算法在PRID2011和iLIDS-VID上实验,并与已有的行人再识别算法实验性能进行了比较。文中的实验通过Torch和TensorFlow框架实现,硬件采用搭载i5-4590(3.30GHz)和NVIDIA GTX-980TI(4GB)的台式电脑。

2.1 测试数据和算法性能的评测准则

实验在PRID2011和iLIDS-VID行人视频数据集上进行实验验证,采用累积匹配特征曲线(CMC)[17]来评价行人再识别算法的性能,CMC曲线指的是在给定的查询集和行人图像集中,找到在行人图像库相似度排序前n个图像中指定行人的概率。训练和测试如文献[6]所述,行人视频数据集将分为训练集和测试集。当网络训练时,训练集中的Probe和Gallery将会选取16帧图像输入进网络模型;而在测试集中摄像机1将作为Probe,摄像机2将作为Gallery。实验中,算法重复验证10次,取平均值作为实验结果。

2.2 实验在不同数据集上的实验结果

2.2.1 PRID2011数据集

PRID2011行人视频数据集[15]总共包含了24541张图片,分别由两台不同视域的摄像机捕捉了总计934个行人,其中有385个行人视频序列来自Cam A,有749个行人视频序列来自Cam B,每个行人序列的长度在5到675个图像帧不等,图片像素尺寸为128×64。

表1給出了本文方法针对PRID2011数据集相对于其他算法CMC的对比,可以看出本文改进方法相较于ASTPN和其他基于视频的行人再识别方法来说,有效的提升CMC中Rank1的识别率,对Rank5的识别率也有一定提升。对比ASTPN算法,加入了更多样本和多尺度的帧率会让Rank1提升了2%。

2.2.2 iLIDS-VID数据集

iLIDS-VID数据集[16]包含了42495张图片,包含了300个不同的行人的600个图像视频序列,其中每个行人视频序列的长度在23到192个图像帧之间。相较于PRID2011数据集,iLIDS-VID数据集中场景和遮挡等问题更加复杂,给研究人员带来了很大的挑战。

表2可知,本文方法对iLIDS-VID数据集在CMC上同样有所提高,将Rank1提高到64%。相较于ASTPN提高2%,Rank5也提升了2%。

3 结论

目前,行人再识别的优化目标主要是提取对行人更具鉴别力的鲁棒特征和设计网络模型以提高分类能力。本文提出多尺度帧率的视频行人再识别方法,方法首先利用自适应可分离卷积插帧算法对视频序列插图像帧,插入的图像增加了行人的姿势信息和步态信息,扩大了行人再识别视频数据集。同时,输入不同尺度帧率的视频序列使网络对行人行走周期、步伐大小的变化具有更好的鲁棒性,提高了网络的泛化性。方法在数据集上进行试验取得了较好的实验结果。针对目前行人再识别数据集中的遮挡干扰行人目标有效特征的表达,准备利用生成对抗网络来进行图像去遮挡任务,用来提高算法识别率。

参考文献:

[1] Yi D, Lei Z, Liao S, et al. Deep Metric Learning for Person Re-identification[C]// International Conference on Pattern Recognition. IEEE, 2014:34-39.

[2] Varior R R, Shuai B, Lu J, et al. A Siamese Long Short-Term Memory Architecture for Human Re-identification[C]// European Conference on Computer Vision. Springer, Cham, 2016:135-153.

[3] Varior R R, Haloi M, Wang G. Gated Siamese Convolutional Neural Network Architecture for Human Re-identification[C]// European Conference on Computer Vision. Springer, Cham, 2016:791-808.

[4] Mclaughlin N, Rincon J M D, Miller P. Recurrent Convolutional Network for Video-Based Person Re-identification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016:1325-1334.

[5] Wu L, Shen C, Hengel A V D. Deep Recurrent Convolutional Networks for Video-based Person Re-identification: An End-to-End Approach[J]. 2016.

[6] Xu S, Cheng Y, Gu K, et al. Jointly Attentive Spatial-Temporal Pooling Networks for Video-Based Person Re-identification[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2017:4743-4752.

[7] Zheng Z, Zheng L, Yang Y. Unlabeled samples generated by gan improve the person re-identification baseline in vitro[J]. arXiv preprint arXiv:1701.07717, 2017.

[8] Zhong Z, Zheng L, Zheng Z, et al. Camera Style Adaptation for Person Re-identification[J]. arXiv preprint arXiv:1711.10295, 2017.

[9] S. Baker, D. Scharstein, J. P. Lewis, S. Roth, M. J. Black, and R. Szeliski. A database and evaluation methodology for optical flow. International Journal of Computer Vision, 92(1):1– 31, 2011. 1, 2, 5, 6

[10] L. Xu, J. Jia, and Y. Matsushita. Motion detail preserving optical flow estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(9):1744–1757, 2012. 5

[11] Z. Yu, H. Li, Z. Wang, Z. Hu, and C. W. Chen. Multi-level video frame interpolation: Exploiting the interaction among different levels. IEEE Trans. Circuits Syst. Video Techn., 23(7):1235–1248, 2013. 2

[12] S. Meyer, O. Wang, H. Zimmer, M. Grosse, and A. SorkineHornung. Phase-based frame interpolation for video. In IEEE Conference on Computer Vision and Pattern Recognition, pages 1410–1418, 2015. 2, 5

[13] Niklaus S, Mai L, Liu F. Video Frame Interpolation via Adaptive Convolution[J]. 2017:261-270.

[14] Niklaus S, Long M, Liu F. Video Frame Interpolation via Adaptive Separable Convolution[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2017:261-270.

[15] Hirzer M, Beleznai C, Roth P M, et al. Person re-identification by descriptive and discriminative classification[C]// Scandinavian Conference on Image Analysis. Springer-Verlag, 2011:91-102.

[16] Wang T,Gong S,Zhu X, et al.Person Re-Identification by Discriminative Selection in Video Ranking[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2016,38(12):2501-2514.

[17] Gray D, Brennan S, Tao H. Evaluating appearance models for recognition, reacquisition, and tracking[C].Proc. IEEE International Workshop on Performance Evaluation for Tracking and Surveillance (PETS),2007:1-7.

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
构建“单元整合、主题牵引”诗歌鉴赏“深度学习”课堂的策略