商 磊, 张 宇, 李 平
( 浙江大学 控制科学与工程学院, 浙江 杭州 310027 )
基于密集光流的步态识别
商 磊, 张 宇*, 李 平
( 浙江大学 控制科学与工程学院, 浙江 杭州 310027 )
作为一种生物特征,步态在视频监控、行为分析等领域具有很大的应用前景.提取步态特征的关键在于对步态在时间、空间两个维度上的变化模式进行描述.基于密集光流提出了一种步态特征提取算法,通过密集光流表征每帧图像人体区域各部位的运动强度和方向,综合一个步态周期内所有单帧特征作为步态周期的特征.利用主成分分析、线性判别分析对步态特征进行降维处理,用支持向量机进行分类,验证提取特征的分类性能.实验结果表明,所提算法采用光流特征,提供了丰富的动态信息,可以很好地描述步态在时间维度上的变化,在与现有步态特征描述算法的对比中,体现出了良好的识别性能.
步态识别;背景减除;密集光流;降维
随着视频监控技术和设备的成熟,视频监控网络在安全领域已经有了大规模的应用,随之也产生了大量的视频数据.用人工方式对视频进行分析会带来巨大的任务量,长时间进行视频分析会造成识别效率和准确率的降低,视频监控领域对智能化视频监控的需要也越来越迫切.
现有的智能化视频监控系统多是对目标进行行为分析,通过判断目标行为是否属于预设的违法犯罪行为来报警.但是由于多种违法犯罪行为和普通行为之间普遍存在的类内多样性和类间相似性[1],监控系统识别效率会受到影响.现有视频监控网络对公安机关的辅助作用更多地体现在案发后对案件侦破提供线索,也就是在视频监控网络中对嫌疑目标进行追踪.该应用背景可以被抽象成为一个多摄像头目标跟踪问题.
现有的多摄像头跟踪算法,多使用传统的图像学特征,如颜色直方图[2],以及SIFT、LBP、HOG等描述灰度纹理的特征描述子[3-4].这些特征仅仅对目标区域进行静态描述,且在实际应用中会不稳定,当目标存在伪装时会很容易失效.因此,在安全领域,一些基于生物学特征的方法得到了关注,也有了大量的研究成果,比如虹膜、指纹识别等.
然而上述的图像学特征以及虹膜和指纹等生物学特征都是静态的特征,除了这些静态特征,人体目标在运动的过程中还蕴含着丰富的动态信息,基于这些动作特征同样可以对人体目标进行识别和分类.对动作特征的相关研究表明,可以利用步态信息来对目标进行识别[5-6].步态描述了目标行走时所具有的一些动作上的特征,相较于指纹、虹膜等特征,步态特征具有更明显的优势:一是无须接触和干扰,不需要被测试者配合,不具有侵犯性;二是其信息可以在相对较远的距离获得.基于这些优点,步态识别在门禁系统、安全监控、人机交互、医疗诊断等领域具有广泛的应用前景和经济价值.
对步态识别的研究可以分为基于模型的方法和无模型的方法.基于模型的方法通过建立人体运动模型,从视频序列中判断关键帧目标的姿态,通过分析参数来进行步态识别.Lee等[7]用7个椭圆拟合人体各部位,提取椭圆参数以及人体结构参数共29个参数作为步态特征.Yam等[8]将腿建模为耦合钟摆模型,对大腿和小腿的摆动进行分析,在频域对步态进行分析.基于模型的方法都涉及对身体部位的估计,一旦身体部位的估计出现偏差就会影响后续的分析.基于无模型的方法通常是对人体轮廓进行分析,以人体轮廓形状的变化模式来分析步态.Foster等[9]采用区域度量的方法将各种掩膜图像与人体形状信息进行叠加产生用于识别的特征.Collins等[10]基于关键帧分析实现对序列的匹配.Sarkar等[11]利用提取的二元人体轮廓区域的相似性度量作为特征.Kusakunniran等[12]利用步态能量图(GEI)的方法实现了对步态特征的分类.Lam等[13]通过计算人体二值化轮廓区域的变化情况,用GFI特征表达步态.Makihara等[14]对人体轮廓区域进行离散傅里叶变换在频域对步态特征进行表达(FG特征).这些无模型方法所使用的特征都是基于轮廓或轮廓的变化情况,没有提取人体区域在步态周期每个时刻的动态信息,因而损失了人体区域内丰富的信息.
为了更好地表达步态的动态信息,本文提出一种基于密集光流的步态特征描述算法,用每个时刻人体轮廓区域上各个像素点的光流特征来表征这一时刻步态所具有的动态信息.再对一个步态周期内各个时刻的特征进行综合表征,最终在中国科学院自动化研究所CASIA Gait Database B[15]上进行实验验证,并与现有的GFI、FG等特征进行对比.
基于密集光流的步态特征提取流程如图1所示.
1.1 前景区域提取
从视频序列中准确地提取出人体区域是后续特征提取和识别的基础.监控摄像头在大多数情况下的背景是恒定的,但存在着缓慢的变化,如光照变化、室外环境下风吹树叶的变化等,直接背景差分会引入大量的噪声.因此考虑采用混合高斯模型对背景进行建模来抑制这些干扰,为后续特征的提取和识别提供一个良好的目标区域.
混合高斯背景模型用M个高斯模型来表征图像中各个像素点的特征,在获得新的一帧图像后,取其每一个像素点的像素值与相对应的M个高斯背景模型进行匹配来判断该点是否为背景点.若被判定为背景则对原有的M个高斯背景模型进行更新.本文根据文献[16]的方法对视频进行背景建模,通过对比每一帧图像得到各个帧的目标区域.
图1 基于密集光流的步态特征提取流程
提取到粗糙的人体区域后,用中值滤波去除零星存在的噪声.当人体区域和背景颜色比较接近,同时纹理特征也比较相似时,如图2(c)中目标的颈部,无论是采用基于颜色的方法还是基于纹理的方法均无法消除这种情况带来的干扰.为了消除这种干扰,用合适的模板对图像进行闭运算,使头部和身体能够连接起来,提供完整的人体区域,用提取出的人体区域与原始视频进行与运算,可以得到彩色的人体区域.
1.2 单帧光流特征
步态的变化模式是进行识别的关键信息,所以把提取出的人体区域原始彩色图保持长宽比不变统一缩放到同一高度,并在水平方向上对齐重心后放进W×H的模板区域内形成一个步态帧,这种处理方式同时也减少了计算光流的时间.在两个相邻步态帧之间计算光流,得到t时刻目标区域的光流信息.光流信息可以分为稀疏光流和密集光流,稀疏光流只计算相应特征点的光流信息,为了获取稳定的光流来表征人体各区域的动态信息,本文采用文献[17]的方法计算密集光流.光流信息表征了目标区域上t时刻各个像素点的运动情况.设图像左上角为图像坐标系原点,水平方向为x轴,竖直方向为y轴,原始光流信息包含了每个像素点在x方向和y方向上的光流分量u、v,用δ代表光流强度,θ代表光流方向,通过式(1)、(2)计算出光流的强度和方向,通过式(3)、(4)对光流信息进行归一化.归一化之后的光流信息即作为表征t时刻步态动态信息的特征,每个像素点都有两个分量fδ和fθ,步态区域内W×H个像素点的光流信息构成了单帧步态光流图.
(a) 背景差分 (b) 混合高斯背景建模
图2 前景区域分割
Fig.2 Foreground region segmentation
(1)
(2)
(3)
(4)
采用Munsell颜色系统来实现步态光流图的可视化,用不同颜色表示不同的运动方向,颜色的深浅表示运动的快慢.图3 展示了一个步态周期中各个时刻的步态光流图.
1.3 步态特征表示
一个步态周期内所有单帧特征共同构成了目标的步态特征,对一个步态周期的所有单帧步态
图3 一个步态周期中各个时刻的步态光流图
光流图进行平均可以得到光流能量图,每个像素点的值为对应像素点在一个步态周期内光流信息的平均值.由于步态光流图同时包括了光流强度和方向,可以构造出3种光流能量图,Fδ、Fθ以及Fδ+θ,对应的维数分别为W×H、W×H和2×W×H,构造方法如式(5)~(7)所示:
(5)
(6)
(7)
式中:N为一个步态周期中单帧步态光流图的个数;fδi(x,y)为第i个单帧步态光流图每个像素点光流强度的值;fθi(x,y)为第i个单帧步态光流图每个像素点光流方向的值.
为了比较能量图和频域方法的识别效果,同时用离散傅里叶变换的方法计算出fδi(x,y)在频域上的特征FGF.
(8)
(9)
其中DFTF(x,y,k)是对单帧步态光流图进行离散傅里叶变换,取离散傅里叶变换的幅值分量作为描述步态的特征,k=0对应直流分量,选取k=1,2,3作为步态光流的频域特征.
本文将在实验部分对比分析4种光流特征对于步态识别的影响.
1.4 用于比较的其他步态特征
为了将本文提出的步态特征和现有用于步态识别的GFI特征[13]、FG特征[14]做比较,本小节简要介绍一下GFI和FG特征.
(1)GFI特征
Ft(x,y)=(ut(x,y),vt(x,y))=
OpticalFlow(St(x,y),St+1(x,y))
(10)
(11)
(12)
(13)
其中St(x,y)是人体区域t时刻的二值化轮廓,对相邻两帧二值化轮廓进行光流计算得到Ft(x,y),表示轮廓变化的情况.然后进行二值化,B[Ft(x,y)] 就是二值化后的特征,同样用能量图的方法对一个周期内的步态进行描述得到GFI(x,y).
(2)FG特征
(14)
(15)
其中DFT(x,y,k)是对轮廓序列进行离散傅里叶变换,取k=1,2,3构成步态的频域特征.
1.5 特征降维
由前述方法得到的步态特征向量维数都很高,对于本文所使用的80×80模板,对应的特征向量维数分别高达6 400、12 800和19 200.对高维度特征向量进行学习将带来庞大的计算量,采用主成分分析方法(principal component analysis,PCA)可以对高维特征进行降维处理.用于训练的总样本数为Mt,G(i)代表训练样本集中第i个样本(i=1,2,…,Mt),每个样本都是一个特征向量,由式(16)计算训练样本的平均值μ,由式(17)减去均值.
(16)
(17)
令
(18)
(19)
求解协方差矩阵Σ的特征值和特征向量可以得到转换矩阵,但是计算量比较大,可以采用奇异值分解的方法求解.
(20)
S为奇异值矩阵.U和V分别是左奇异向量和右奇异向量组成的矩阵.非负奇异值按顺序排列在S的对角线上,较大的奇异值对应的特征向量对训练模式有较大的影响,取前K个最大的奇异值所对应的右奇异向量,构成特征变换矩阵(v1v2… vK).
每个样本x(i)都可以通过式(21)被投影到特征子空间内的一点P(i):
P(i)=(v1v2… vK)Tx(i)
(21)
P(i)只保留了K维关键特征,减少了样本维数.用式(22)表示特征向量经过压缩之后的性能,通过设置阈值即可决定K的取值,Sii为奇异值矩阵S对角线上的元素,可以看出主成分数量越多,降维带来的误差率(error rate,Re)也就越小.
(22)
其中n为降维前原始特征的维数.
PCA方法是一种无监督的分类方法,把原始特征投影到各样本间差别最大的方向上,在降维的过程中会损失数据的可分特征,所以用PCA降维后的数据进行分类效果不理想.线性判别分析(linear discrimination analysis,LDA)是一种有监督的降维方法,用LDA降维可以最大化类间方差和类内方差的比值,从而使降维后的数据具有良好的可分性.
(23)
(24)
(25)
式中:m为样本总体均值向量,Sb为样本类间离散度矩阵,Sw为样本类内离散度矩阵,C为总的类别数,Ci为属于第i类样本的个数.
通过式(26)使特征映射到新的空间中去,为了使降维后的特征具有最大的可分性,需找到合适的w使式(27)取最大值.
y=wTx
(26)
(27)
本文首先利用PCA降维,再用LDA使经过PCA降维后的特征投影到具有最好分类性质的特征子空间,形成具有良好分类性能的特征.
1.6 分类器
采用支持向量机(SVM)作为分类器.因为SVM是二分类器,用SVM实现多类别分类通常有两种方法.(1)一对多法(one versus rest,简称1-v-r SVMs),在训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,这样就构造出了C个SVM,分类时将样本归为具有最大分类函数值的那一类.(2)一对一法(one versus one,简称1-v-1 SVMs),其做法是在任意两类样本之间设计一个SVM,这样共需设计C(C-1)/2个SVM,对一个未知样本进行预测时,对分类结果进行投票,把样本归为得票最多的那类.本文采用1-v-1 SVMs方法进行学习与分类.
2.1 实验设计
本文实验在中国科学院自动化研究所CASIA Gait Database B[15]上进行,CASIA Gait Database B是一个大型的步态数据库,包含124个人在0°到180°共11个视角下3类状态(带包两个、穿外套两个、正常状态6个)的步态视频.选取每个人90°视角下,正常状态的前4个视频作为训练样本库,另外两个作为测试样本库,首先提取每个视频序列中的步态特征信息,每一个视频序列都会包含3~5个步态周期,每一个步态周期形成的光流能量图都作为样本参与训练或是测试.
选择正确分类率(correct classification rate,Rcc)和召回率(recall rate,Rr)作为评价指标.评价指标的定义为
(28)
(29)
式中:Ti表示被识别为i类的目标中真实类别为i类的测试样本的数量;Fi表示被识别为i类但真实类别不是i类的测试样本的数量;Rcc是对所有C类目标正确分类率的平均,表示分类的正确率;NCi表示真实类别是i类的样本数量;Rr表示C类目标中每类测试样本被正确识别出的概率的平均.
2.2 实验结果及分析
分别取综合光流信息Fδ+θ、光流强度分量Fδ、方向分量Fθ以及频域特征FGF作为特征进行训练和识别.设置PCA的误差率Re分别为0.01 和0.05,由式(22)确定保留多少主成分K.TPCA、Ttrain分别表示PCA降维和SVM训练所用的时间.
从表1、2呈现的识别结果看,综合了光流强度和方向的Fδ+θ特征有较好的识别效果,单独应用光流各个分量时,强度分量Fδ比方向分量Fθ的识别效果更好,实验结果说明在步态光流能量图中光流的强度分量能够提供更具辨别力的特征.对比能量图法和频域方法可以看出,频域特征并没有能量图法的识别效果好,这是因为频域的分析方法把图像序列中所有帧的对应点在时间维度的变化情况当作一个信号来进行分析,对步态帧质量要求较高,当人体区域的完整性和人体区域的对齐不能很好地保证时会引入噪声,从而对识别造成干扰,用能量图的方法反而可以抑制噪声,提供鲁棒的特征表述.
表1 PCA识别结果(Re=0.01)
表2 PCA识别结果(Re=0.05)
Fδ+θ降维过程使用LDA后,特征的可分性能得到了提升.从表3可以看出,应用LDA后识别率有大幅度提升.当适当降低PCA提取的特征维数,亦即Re较高时,LDA训练的时间更短,同时分类性能也更好.
表3 PCA+LDA识别结果
2.3 与现有算法的对比
从表4可以看出,本文提出的步态特征的识别效果比GFI特征和FG特征均有提高.GFI特征是计算相邻两帧二值化轮廓图像的光流信息,并且把特征进行二值化来表达步态,只能区分有运动和无运动区域,而本文提出的算法则是对原始图像计算光流,能够提供人体区域内所有像素点的运动情况,且综合了光流强度和方向信息,使识别率得到大幅提升.FG特征是对二值化轮廓序列进行傅里叶变换得到的步态在频域上的特征,从表4可以看出,同样考虑频域分析的FG特征比本文提出的FGF特征略差,这是因为FG只考虑了二值化的轮廓信息.
表4 算法对比
本文提出了一种基于密集光流的步态特征提取算法,对比现有基于轮廓的步态特征,能够提供每个时刻步态图像所具有的丰富的动态信息,用动态信息来表达步态在时间维度上的变化.通过综合光流强度和方向信息,能够提高识别率,对光流各个分量进行比较,得出光流强度分量,也就是人体区域运动的幅值强度,能够提供比运动方向更具辨别力的特征.实验结果表明利用光流能量图可以达到较好的分类效果.
基于本文所提出的步态特征提取与识别框架,对各部分所用算法进行深入研究和改进,还可以进一步提高识别效率.比如研究更可靠的光流计算方法.由于基于光流的步态识别的基础就是光流信息,现有的光流算法对大尺度运动和非刚体运动的光流计算存在不足,因此研究更鲁棒的光流计算方法可以为步态光流特征的准确描述提供帮助,进而提高步态识别率.本文所采用的特征是把整个光流能量图作为高维特征向量进行处理,再通过PCA、LDA方法进行降维.可以参照传统图像学的一些方法,人为构造光流能量图中的低维有效特征,比如采用直方图描述光流能量图的统计特征,或提取稳定特征点及其描述子作为光流能量图的特征.
[1] 孙倩茹,王文敏,刘 宏. 视频序列的人体运动描述方法综述[J]. 智能系统学报, 2013, 8(3):189-198.
SUN Qian-ru, WANG Wen-min, LIU Hong. Study of human action representation in video sequences [J]. CAAI Transactions on Intelligent Systems, 2013, 8(3):189-198. (in Chinese)
[2] Park U, Jain A K, Kitahara I,etal. ViSE:Visual search engine using multiple networked cameras [C]// Proceedings - 18th International Conference on Pattern Recognition, ICPR 2006. Piscataway:IEEE, 2006:1204-1207.
[3] WANG Xiao-gang, Doretto G, Sebastian T,etal. Shape and appearance context modeling [C] // 2007 IEEE 11th International Conference on Computer Vision, ICCV. Piscataway:IEEE, 2007:4409019.
[4] Hamdoun O, Moutarde F, Stanciulescu B,etal. Person re-identification in multi-camera system by signature based on interest point descriptors collected on short video sequences [C] // 2008 2nd ACM/IEEE International Conference on Distributed Smart Cameras, ICDSC 2008. Piscataway:IEEE Computer Society, 2008:4635689.
[5] Murray M P, Drought A B, Kory R C. Walking patterns of normal men [J]. Journal of Bone and Joint Surgery, 1964, A2(46):335-360.
[6] Murray M P. Gait as a total pattern of movement:including a bibliography on gait [J]. American Journal of Physical Medicine & Rehabilitation, 1967, 46(1):290-333.
[7] Lee L, Grimson W E L. Gait analysis for recognition and classification [C] // Proceedings - 5th IEEE International Conference on Automatic Face Gesture Recognition, FGR 2002. Piscataway:IEEE Computer Society, 2002:155-162.
[8] Yam C Y, Nixon M S, Carter J N. Automated person recognition by walking and running via model-based approaches [J]. Pattern Recognition, 2004, 37(5):1057-1072.
[9] Foster J P, Nixon M S, Prügel-Bennett A. Automatic gait recognition using area-based metrics [J]. Pattern Recognition Letters, 2003, 24(14):2489-2497.
[10] Collins R T, Gross R, Shi J. Silhouette-based human identification from body shape and gait [C] // Proceedings - 5th IEEE International Conference on Automatic Face Gesture Recognition, FGR 2002. Piscataway:IEEE Computer Society, 2002:366-371.
[11] Sarkar S, Phillips P J, Liu Z,etal. The humanID gait challenge problem:data sets, performance, and analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(2):162-177.
[12] Kusakunniran W, Wu Q, Li H,etal. Automatic gait recognition using weighted binary pattern on video [C] // 6th IEEE International Conference on Advanced Video and Signal Based Surveillance, AVSS 2009. Piscataway:IEEE Computer Society, 2009:49-54.
[13] Lam T H W, Cheung K H, Liu J N K. Gait flow image:A silhouette-based gait representation for human identification [J]. Pattern Recognition, 2011, 44(4):973-987.
[14] Makihara Y, Sagawa R, Mukaigawa Y,etal. Gait recognition using a view transformation model in the frequency domain [C] // Computer Vision-ECCV 2006, 9th European Conference on Computer Vision, Proceedings. Graz:Springer Verlag, 2006:151-163.
[15] Center for Biometrics and Security Research, Institute of Automation, Chinese Academy of Sciences. CASIA Gait Database B [DB/OL]. [2015-03-30]. http://www.sinobiometrics.com.
[16] Zivkovic Z. Improved adaptive Gaussian mixture model for background subtraction [C] // Proceedings of the 17th International Conference on Pattern Recognition, ICPR 2004. Piscataway:IEEE, 2004:28-31.
[17] Farnebäck G. Two-frame motion estimation based on polynomial expansion [C] // Image Analysis. Berlin:Springer Berlin Heidelberg, 2003:363-370.
Dense optical flow-based gait recognition
SHANG Lei, ZHANG Yu*, LI Ping
( College of Control Science and Engineering, Zhejiang University, Hangzhou 310027, China )
As a biological feature, gait has great application prospect in many fields, such as video surveillance, behavior analysis and so on. The key point of extracting gait feature is to describe the change pattern of gait both in spatial and temporal dimensions. The proposed gait feature extracting algorithm is based on dense optical flow. Dense optical flow can offer the intensity and orientation of human motion of each point in the subject region, which is the feature of a single frame. Synthesizing the features of each frame in one gait cycle can obtain the feature of a gait cycle. The dimension of gait feature is reduced by principal component analysis (PCA) and linear discrimination analysis (LDA). Then, the subjects are classified by support vector machine (SVM) to verify the classification ability of the extracted feature. The experimental results show that the proposed algorithm uses the optical flow feature to offer rich dynamic information, which can describe gait′s change in temporal dimension well, and is proved to have a better recognition performance compared with the other gait representations.
gait recognition; background subtraction; dense optical flow; dimensionality reduction
1000-8608(2016)02-0214-07
2015-10-30;
2016-01-11.
国家自然科学基金青年基金资助项目(61005085);中央高校基本科研业务费专项资金资助项目(2012QNA4024).
商 磊(1991-),男,硕士生,E-mail:shanglei@zju.edu.cn;张 宇*(1980-),男,博士,讲师,E-mail:zhangyu80@zju.edu.cn;李 平(1954-),男,博士,教授.
TP391.4
A
10.7511/dllgxb201602016