基于LSTM的监控视频中步态识别方法研究

2020-07-04 13:22朗宇博
关键词:步态卷积神经网络

李 珊, 孙 鹏, 朗宇博

(中国刑事警察学院声像资料检验技术系, 辽宁沈阳 110854)

0 引言

在公安视频侦查工作中,对监控视频中犯罪嫌疑人的锁定与追踪是主要任务[1],人脸识别技术的广泛应用大大降低了侦查人员的工作量,提高了工作效率。然而,现实监控条件复杂多变,在光线条件不足,监控角度不佳,嫌疑人进行面部伪装或遮挡等条件下,监控视频往往不能提供满足人脸识别条件的图像。此时,人脸识别技术使用受限,单靠侦查人员人为观察监控视频,筛查效率大大降低,使得侦查工作陷入困境。步态识别这一生物特征识别技术以其可远距离识别[2-3]、隐蔽性强、受视频光线及拍摄角度影响较小、犯罪嫌疑人较难伪装等优势[4],是监控视频中人脸识别技术的必要补充,在公安视频侦查领域具有广阔应用前景。步态识别领域技术发展也为步态识别技术投入公安实际应用,加快各类案件侦破速度奠定了基础。

步态能够用于身份识别是有其科学依据的,英国学者马克·尼克松[4]的研究显示:人们在肌肉的力量、肌腱和骨骼长度、骨骼密度、视觉的灵敏程度、协调能力、经历、体重、重心、肌肉或骨骼受损的程度、生理条件以及个人走路的“风格”上都存在细微差异,导致人的步态各不相同。20世纪90年代,美国学者Niyogi[5]首次提出了步态识别的概念,为人类对步态的研究打开了大门。采用了基于计算机视觉的步态识别方法,通过对时空图像的简单模式分析来评估参数,从而实现简单跟踪个体目标。近些年,Darrell等[6]开发了一种动态时间规整(DTW)算法结合基于范例的方法,该方法可以使用多项式计算解决两个非线性序列与变化的最佳匹配。Efros等[7]提出了基于视觉的动作识别,使用k-最近邻方法使用时空运动描述符对序列进行分类。Yamato等[8]在最近的研究工作中,将顺序方法中的状态模型应用于更有效的深度学习模型中。Montes等[9]展示了使用CNN进行空间特征提取的应用,该方法能够应用于当今的高分辨率输入视频。

视频中步态识别是一门分析处理目标人物行走的图像序列的技术,一般分为视频图像预处理、步态特征提取和步态分类识别3个阶段。视频图像预处理阶段实现视频中目标人物检测与提取,传统方法有光流法、背景减除法和帧差法,现在也有利用神经网络的方法来进行处理[10],目前大多数步态数据库已经完成该阶段的工作。对不同个体实现步态特征提取是步态识别技术的关键,直接影响步态识别正确率。步态特征可分为基于模型的特征和基于非模型的特征。基于模型的特征是利用人体建模的方式赋予计算机人体结构的概念,较基于非模型的算法复杂,但精度高,抗干扰强。通过步态分类识别可实现利用提取到的步态特征对视频中人物进行分类识别的目的,传统算法有决策树分类器、支持向量机、BP神经网络等,而如今利用深度学习算法进行步态识别已成为主流。

CNN被认为适用于图像分类,也一直被用于步态识别中[5-6]。步态能量图(Gait Energy Image, GEI)中既包含静态图形特征,也包含时间相关的人体运动细节特征,常常作为步态特征输入。CNN进行GEI分类时未考虑到时间关联,而LSTM内部的循环结构决定了其进行分类时考虑到时间相关性。实验基于OU-ISIR Treadmill dataset B数据库[11]提取GEI作为步态特征,设计基于LSTM的分类模型进行步态识别,取得了从识别率和神经网络训练时间两个方面都优于CNN的识别效果。

1 基于LSTM模型的步态识别

1.1 步态特征的提取

提取步态特征前,需要先对监控视频图像序列进行预处理操作,得到只含行人前景的二值图像。由于实验基于OU-ISIR Treadmill dataset B数据库,该数据库提供经预处理后的步态二值图像,因此不涉及预处理过程。

选取GEI作为步态特征。GEI采用简单的加权平均方法将一个周期的步态二值图像合成为一幅图像,在减少数据量的同时保留了步态的轮廓、频率和相位等显著特征作为步态识别常用的特征[12]。由于GEI的计算是在一个单独的步态周期内进行,所以接下来从步态周期的分割和GEI的计算两个方面分别进行阐述。

1.1.1 步态周期分割

图1 步态周期分割依据图

步态周期的分割常常以人体轮廓长宽比、人体头顶或人体质心高度等的周期性变化作为依据。本文利用与镜头成90°行走过程中,人体步长/身高的周期性变化来进行步态周期的分割。

如图1所示,人体步长/身高随时间序列呈现周期性变化,并以此作为步态周期的分割依据。峰值点代表步长最大阶段,低谷点代表左右脚近乎重合阶段。根据步态周期的概念,可以将连续3个峰值点或低谷点之间的部分分割为一个步态周期。

1.1.2 步态能量图的计算

分割出一个步态周期,假设其内含有N张步态二值图像,如图2所示。t代表周期图像序列数,Bt(x,y)代表图像序列数为t时的步态二值图像,该周期内步态能量图G(x,y)计算公式如公式(1),步态能量图式样如图3所示。

(1)

图2 一个周期内步态序列

图3 步态能量图式样

1.2 神经网络模型

1.2.1 CNN,RNN和LSTM

卷积神经网络(Convolution Neural Networks,CNN)[13-14]是一类包含卷积或相关计算且具有深度结构的前馈神经网络,适用于处理图像识别问题。卷积神经网络具有输入层、隐含层、输出层。输入层可以直接处理多维数据(语音数据、灰度图像、彩色图像、视频等),但其输入特征需要进行标准化处理。隐含层结构如图4所示,包含卷积层、池化层和全连接层。卷积层实现对输入进行特征提取,池化层实现特征选择与信息过滤,全连接层实现特征的联接,一个卷积层后面常常跟着一个池化层。输出层常常需要根据不同的实际问题,设计不同的输出。

图4 CNN隐含层结构

循环神经网络(Recurrent Neural Network,RNN),相对于一般神经网络加入了循环结构,引入了时间关系,是一类适用于处理序列数据的神经网络[15]。标准循环神经网络结构如图5所示,其中包含在t时刻附近对RNN模型的整体性描述与按照时间序列展开的描述。

图5 标准循环神经网络结构

图5中,x是输入,h是隐层单元,o为隐层单元输出,L为损失函数,y为训练集的标签。U、V、W是权值,同一类型的权连接权值相同。

前向传播中,最终输出标签y与输入x之间的关系,可由公式(2)~(4)得出:

h(t)=φ(Ux(t)+Wh(t-1)+b)

(2)

o(t)=Vh(t)+C

(3)

y(t)=σ(o(t))

(4)

公式(2)中φ为激活函数,一般为tanh函数,b为偏置量。公式(3)中C为偏置量。公式(4)中σ多为softmax函数。由公式(2)可见,t时刻隐层单元h(t)既与t时刻的输入x(t)相关,又与上一隐层单元h(t-1)相关,使得隐层单元输出o和最终输出标签y均与输入x之间是时间相关的函数。

LSTM[16]是一种特殊的循环神经网络RNN,也具有如图5所示的重复神经网络模块的链式结构,但是在重复模块上相对于标准RNN有所改进。在标准RNN 中,从隐层单元的输入到输出这个重复的模块只有一个非常简单的结构,例如一个 tanh层。而LSTM重复的模块拥有一个不同的更加复杂的结构,如图6所示。LSTM重复模块中从输入到输出,包含输入门、遗忘门和输出门,来控制信息的选择性通过;加入不断受输入输出影响的细胞状态,来保证每一个隐层单元的输出甚至可以受到距此刻输入很远的先前输入的影响。

图6 LSTM重复模块结构

整体而言,相对于标准RNN,LSTM引入3个门以及细胞状态。标准RNN只有输出在随时间流动,某时刻的输出与上一时刻的输出相关,这代表着短期记忆。而LSTM除了输出在随时间流动,细胞状态c也在随时间流动,细胞状态c就代表着长期记忆。所以LSTM改善了标准RNN记忆时间短的缺点,更适用于处理长期记忆、远距离依赖的问题。

1.2.2 基于LSTM的步态识别模型

实验构建基于LSTM的步态识别模型如图7所示,输入为GEI,经过LSTM层和输出处理层之后,最终直接得到与该步态特征相似度最高的行人编号结果。由于在该行走方向下,步态能量图各纵列像素值实际具有时间序列联系。所以如输入层所示,将GEI上各纵列像素值按照排列顺序作为时间序列输入,经LSTM处理后输出提取到的与输入序列等长的特征序列,经全连接层处理后与输入序列等长的特征序列变为与输出类别数等长的特征序列,经激励函数softmax层处理后得到各个类别相似度概率的概率序列,最后连接分类层直接输出GEI最终的分类类别结果。该模型实现从输入GEI到输出分类类别的全过程,达到步态识别的目的。

图7 基于LSTM的步态识别模型

2 实验及结果分析

2.1 实验设计

本文实验环境是MATLAB 2018a,采用数据来自于日本大阪大学OU-ISIR Treadmill dataset B步态数据库。从数据库中随机选取25名实验对象,在与摄像头成90°视角条件下,总共包含32种服装组合的视频,作为实验所需步态视频数据,图像大小为128×88。提取步态序列的步态能量图作为步态特征。每名实验对象选取24段步态视频,每段步态视频中根据步态周期提取5幅步态能量图,即每名实验对象具有120幅步态能量图。对实验数据进行乱序之后,将其中4/5作为训练集,1/5作为测试集,分别放入设计好的CNN网络和LSTM模型中进行分类。

CNN隐含层采用如图4所示的结构,初始学习率(initialLearnRate)设为1×10-4,卷积核大小(filterSize)设置为5, 卷积核个数(numFilters)设置为20,最大池化层的卷积核大小设置为2,步幅设置为2,根据实际分类类别数设置合适的最大迭代次数(maxepochs)。LSTM模型中LSTM隐含层数量(numHiddenUnits)设置为100,小批量处理尺寸(miniBatchSize)设置为27,根据实际分类类别数设置合适的最大迭代次数。

2.2 实验结果

分类结果分别从分类正确率和神经网络训练时间两个方面进行比较研究。多次实验后,CNN与LSTM步态识别正确率对比图如图8所示,CNN与LSTM步态识别训练时间对比图如图9所示。

图8 CNN与LSTM步态识别正确率对比图

图9 CNN与LSTM步态识别训练时间对比图

分析图8可知,在现有实验规模下, LSTM进行步态能量图作为步态特征的步态识别分类时,正确率都高于CNN,且受分类人数变化的影响也相对较小,准确率相对稳定。分析图9可知,LSTM进行步态能量图作为步态特征的步态识别分类时,网络训练时间都低于CNN,即神经网络训练相对较快,且训练时间长短较CNN稳定。综合两图结果可知,LSTM相对于传统CNN用于步态识别能够实现更快更准确地分类。

3 结语

本文将LSTM用于步态识别领域,通过在OU-ISIR Treadmill dataset B数据库上进行实验,取得了良好地实验结果。并同时与CNN进行对比,从识别正确率和网络训练时间两个方面,验证了LSTM应用于步态识别具有良好的前景。由于实际场景的复杂性导致行人前景提取相对困难,现实监控摄像头与行人相对位置时刻发生变化,视频相对于图片数据量更大等缺点,步态识别技术目前难以直接应用于公安实践。但是,由于在犯罪嫌疑人进行面部遮挡、伪装及夜间复杂光线下行动时,人脸识别技术应用的受限性恰好可以被步态识别技术所补充,所以对步态识别技术的研究具有重大意义。未来的研究重点是在实际监控视频下,如何将改进的LSTM与多视角步态识别相结合,得到能取得良好结果的步态识别模型,并使之尽可能接近应用于公安实践。

猜你喜欢
步态卷积神经网络
基于步态参数分析的老年跌倒人群步态特征研究
基于递归模糊神经网络的风电平滑控制策略
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于神经网络的中小学生情感分析
基于面部和步态识别的儿童走失寻回系统
步态识人
基于傅里叶域卷积表示的目标跟踪算法