李 珊, 孙 鹏,2, 樊 舒, 魏丹妮
(1.中国刑事警察学院声像资料检验技术系, 辽宁沈阳 110854; 2.江西省经济犯罪侦查与防控技术协同创新中心, 江西南昌 330103; 3.沈阳市公安局于洪分局视频侦查大队, 辽宁沈阳 110141)
随着监控设备在我国的普及,视频侦查技术广泛应用于公共安全领域。视频侦查技术中用到最多的是对监控视频中的犯罪嫌疑人进行身份识别和确认,而这项任务目前都是靠侦查人员人为观察,受侦查人员主观意识影响大,易漏判误判,工作量大,破案效率低。所以,对监控视频中身份识别的研究变得愈发重要。人脸识别技术目前已经被用到公安视频侦查工作中进行辅助侦查,在一定程度上降低了刑侦人员的工作量。但是人脸识别技术在实际应用中,其识别率受到视频监控距离、视频监控分辨率、视频光线条件以及嫌疑人面部伪装等的影响,具有很大局限性。特别是嫌疑人面部遮挡等特殊情况下,人脸识别技术几乎不能实现辅助侦查作用。此时,步态识别以其远距离非接触识别、对监控设备要求低、数据易采集、受光线的影响较小、嫌疑人长时间伪装困难等优点,被认为在监控视频中人物身份识别领域具有广阔应用前景[1]。在视频侦查技术领域,具体可应用于协助公安部门对犯罪嫌疑人进行身份认证、保密或公共场所识别人员身份、敏感场所远距离实时监控识别、重点嫌疑对象的远距离监控等方面[2]。
步态识别技术是一门关于分析处理人行走的图像序列的技术[3],一般可以分为视频图像预处理、步态特征提取和步态分类识别3个阶段。视频图像预处理阶段主要目的是从采集到的视频序列中提取出包含步态信息的人体二值轮廓图,其步骤主要有背景建模、目标检测和形态学处理,其主要方法有光流法、背景减除法和帧差法,现在也有利用神经网络的方法来进行预处理[4]。特征提取阶段是步态识别技术的关键阶段,目前主要提取的特征按照是否以人体作为模型可分为基于模型的方法和非基于模型的方法、按照动静特征可分为体现动作过程的动态特征和主要体现形态特征的静态特征、按照提取特征数据的方式可分为视频流数据、传感器数据以及标记点数据等。识别算法上,目前主要运用的有决策树分类器、支持向量机、神经网络分类等算法,当然步态识别系统的展示情况多种多样,依照实际研究目的而定。
本文在进行大量的文献调研和实验验证的基础上,提出了一种新的较为简单的视频中步态识别方法,即基于人体关键点的步态识别。将视频中头顶- 质心距离、足右- 质心距离、足左- 质心距离分别与人体高度的比值以及人体形态长宽比作为特征,利用BP神经网络进行分类。
常用的视频中步态分割的方法有帧差法、背景减除法和光流法,其性能对比如表1所示。
表1 步态分割方法对比
目前,常用的步态数据库有CMU Mobo数据库、USF数据库、CASIA数据库以及日本大阪大学的 ISIR数据库[5]。选择采用中科院自动化研究所CASIA DatasetB中的视频图像作为原始数据,如图1所示,视频图像采集的帧频是20帧/秒,其中包含124名实验对象,每名实验对象在11个视角下行走,每个视角下录有10段视频(其中6段正常录制,2段穿大衣录制,2段背包录制)。从中随机选择20名实验对象在与镜头视角为90°下的10段不同状态下的步态视频图像序列作为实验的步态数据,省去了图像预处理阶段的基本图像处理操作。
图1 CASIA DatasetB步态图像
步态特征提取是步态识别的关键性步骤,直接影响最后的分类识别正确率的高低。所以,目前国内外很多研究是在原有步态特征上进行改进或者提取出新的步态特征,来实现对步态识别系统的改进。
1.2.1 单帧图像中嫌疑人步态特征f提取
本文提取的单帧图像中嫌疑人步态特征f是被检测人质心- 头顶距离与被检测人身高比a、质心- 足右距离与被检测人身高比b、质心- 足左距离与被检测人身高比c,人体形态长宽比d,即f=[a,b,c,d]。特征f在单帧图像中的具体显示如图2所示。
图2 图像步态特征
(x,y)表示图像中人体像素点的坐标,质心点坐标为(Xo,Yo),头顶点坐标为(Xh,Yh),足左关键点坐标为(XL,YL),足右关键点坐标为(Xr,Yr),设人体所占像素点总数为N。
① 质心点的计算
质心点的计算根据人体所占总像素点x方向的平均值和y方向的平均值来获得,公式如下:
(1)
(2)
② 足左右关键点的计算
首先,根据人体结构以及行走基本情况,将从下至上人体身高1/5部分定义为正常行走情况下,足部的活动范围。如图3所示:
图3 检测足左、足右关键点的部分
将足部活动范围内最左点和最右点分别作为足左、足右关键点。
③ 两点间距离的计算
计算两点间的距离公式,以计算质心(Xo,Yo)到足右关键点(Xr,Yr)的距离dro为例,公式如下:
(3)
1.2.2 视频中嫌疑人步态特征F提取
单帧图像中嫌疑人步态特征属于静态特征,而步态特征需要反映在行走过程中的动态特征,所以我们要提取的实际上是视频序列的特征。通过对数据库中图像序列的评估以及对需要的数据量进行评估之后,在CASIA Dataset B确定一段视频中提取15张图像序列作为特征提取的子视频。所以对犯罪嫌疑人的步态特征提取如图4所示:
图4 视频中嫌疑人步态特征提取
图4中,将CASIA Dataset B中任一实验对象当作犯罪嫌疑人,每名实验对象有10段步态视频,每段步态视频分成40段子视频,每段步态子视频包含15帧步态图像,每帧提取f=[a,b,c,d],最后子视频步态特征F用F=[f1,f2,…f15]共包含60个数据的一维向量表示。
目前,在步态识别方面还没有统一的计算匹配度,即识别率的标准。在步态识别分类阶段,常用到的分类方法有最近邻分类器法、决策树算法、支持向量机、神经网络等。步态识别中,步态特征的提取是关键,这将直接影响到后续识别率的高低,实际上分类器的选取影响是远小于步态特征选取的影响。但是,选择合适的分类器,设置合适的分类器参数对识别率的高低也是有一定影响的。本研究选取的分类识别方法是BP神经网络方法。
1.3.1 BP神经网络
BP(back propagation)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络。它通过信号的前向传播和误差的反向传播,不断调节相应层之间的权重和偏置,最终达到良好的分类效果。
1.3.2 BP神经网络参数设置
设置BP神经网络含有1个隐含层,该隐含层节点数为20。设置第i层的传递函数为tansig函数;训练函数为trainlm函数;权值/阈值学习函数为learngdm函数;性能函数为mse函数。由于BP神经网络的参数设置没有相应的理论指导,而本研究实验的分类类别数从2到20类不等,所以为了得到较好的分类结果,每次分类适当地对学习率、训练次数、训练误差、允许的失败次数等相应参数进行调整,以求达到比较好的分类效果。
本研究实验环境是MATLAB 2016a,采用数据来自于中科院步态数据库CASIA中的Dataset B。从数据库中随机选取20名实验对象,在与摄像头成90°视角条件下,每名实验对象包含10段不同状态下的视频,每段视频时间在30~60 s之间,作为实验所需步态视频数据。用一个1*60的简单向量F来表示一段视频的步态特征,大大简化了图片轮廓信息的提取。每名实验对象有400个1*60的特征向量,需指出这里面包含了该实验对象正常行走、背包行走和穿大衣行走3种状态,将特征向量乱序,然后抽取100个向量作为测试集,其他全作为训练集输入BP神经网络进行训练。从分2类开始,不断增加分类数至20类,根据分类类别数的变化不断调整BP神经网络的参数设置,以求得到比较高的识别率。
图5 特征随时间变化趋势
从数据库中随机选取2名实验对象,将其中一名实验对象4种步态特征绘制随时间变化的曲线,如图5所示,可以看出这些特征随时间变化具有一定的周期性,其中长宽比d这一特征变化最为平缓,对步态周期的分割具有一定的参考意义。对同一实验对象在正常行走、背包行走、穿大衣行走视频中的特征进行曲线绘制,如图6所示,可以看出同一实验对象的特征的变化,不会随着人物外在打扮的变化而有较大的差别,说明选取的特征具有一定的鲁棒性,受监控视频中实验对象的不同外在状态影响较小;对2名不同实验对象的特征进行对比曲线绘制,如图7所示,可以看出不同实验对象在特征随时间的变化曲线上面的数值大小以及变化抖动趋势上具有较大的差异,所以证明选取的特征具有区分不同人行走步态的区分能力。
从2~20名实验对象分别进行分类识别,结果如表2所示,识别结果证明,此次步态识别系统的设计达到了一定的识别率,成功实现了通过监控视频中的步态对人物进行识别。
图6 同一实验对象不同状态下特征对比
图7 不同实验对象背包状态下特征对比
表2 分类识别结果
在视频监控侦查方面,相对于人脸识别系统的不足,利用步态进行身份识别是一种很有应用前景的方法,对于当前公安实践工作很有意义。本文提出了一种基于特征点间距离比值作为步态特征的步态识别方法,取得了较好的步态识别效果。但是此步态识别方法在公安视频侦查应用中仍然存在很多局限之处,在本文的基础上,还可以朝着多视角步态融合,引入深度学习方法进行步态特征的提取与分类,尝试将步态识别方法与其他身份识别方法相结合,通过多数据融合,以达到更高的准确率与识别率。