韩骏浩,赵怀勋
(武警工程大学信息工程系,陕西西安 710086)
人体行为识别是计算机视觉研究中的热点与难点,视频监控中人体行为识别是计算机视觉和智能信息处理相融合的一个重要研究方向。行为识别主要包括运动人体检测、目标跟踪、人体特征提取和动作识别分类等过程。人体行为检测是人体行为识别过程的重要阶段,是目标跟踪和行为识别等后续工作的基础[1]。运动人体跟踪是人体行为识别过程的关键环节,其主要任务是对目标检测阶段获得的运动目标进行定位跟踪,确定目标的空间位置、运动速度以及运动轨迹等信息,为进一步工作奠定基础。
本文在对人体检测与目标跟踪的研究基础上,提出一种鲁棒性好、完整性强、准确率高的人体行为检测与跟踪算法。该算法由背景消减法与帧差法相结合的人体检测算法和基于直方图与区域的Kalman跟踪算法组成。提出的检测算法具有较好的完整性与较小的计算量,目标跟踪算法的稳定性好、准确率高。实验结果表明,改进的算法可以在智能视频监控系统的人体检测与跟踪过程中得到有效运用。
人体行为检测又称为人体目标提取,是根据运动目标的几何特性和统计特性,提取出视频图像中变化的像素点区域,达到人体运动目标和背景图像相分割的目的。
背景消减法又称为背景差分法[2],该算法假定可以获得理想的背景图像,为序列图像建模,将当前帧图像与背景模型进行差分运算,获取运动目标。该方法的优点是可以较容易地得到目标描述,但缺点是计算量较大,一般需要结合其他方法来进行目标检测。背景消减法的流程如图1所示。
图1 背景消减法流程图
当前帧减去背景图像由式(1)表示
式中,Di(x,y)为帧差图像,fi(x,y)为当前帧,Bi(x,y)为背景图像。用式(2)对差分图像Di进行形态学滤波和二值化处理,得到运动区域
式中,T表示二值化设定的阈值。
帧差法[3]是对连续两帧视频序列图像作差分运算,设置合适的阈值对差分图像执行阈值化操作,分离出前景像素区域和背景像素区域,从而判断目标所在的区域。
帧差法简单易实现,计算量较小,能较好地适应环境变化。但该算法阈值的选择限制了它的使用,无法满足检测目标的完整性。尽管帧差法无法提取出完整的目标区域,但简单易行、计算量小等优点使其得到了广泛应用。帧差法流程图如图2所示。
图2 帧差法流程图
定义第k帧图像与第k-1帧图像间的差Di为
当Dk(x,y)=0,表示对于前一帧没有变化的区域;Dk(x,y)≠0,表示场景中变化的区域,并用来提取运动目标轮廓。但要对图像进行二值化处理抑制噪声后提取目标的轮廓,二值化处理的公式为
式中,T表示二值化设定的阈值。
设(x,y)为像素点,当 Dk(x,y)>T时,其为目标像素点,否则为背景像素点。
背景消减法能较容易的得到目标描述,但计算量较大,一般要结合其他方法进行目标检测;帧差法简单易实现,计算量较小,能较好地适应环境变化,因此,可将两者结合。
本文的检测方法是将背景初始化与背景更新分离,假设摄像头固定且拍摄到的图像所处场景并不复杂,用帧差法提取背景。训练阶段,学习一段视频帧来提取视频序列的背景特征,建立一个数学模型提取视频序列背景,用帧间差分法提取出背景,再用背景减除法提取出前景。
该算法中运用帧差法提取背景的具体步骤为:
(1)对视频中的每帧图像进行灰度化处理,并且建立(背景掩膜)和(背景模板)两个跟视频图像一样大小的模板,初始化为0。N为计数器计算背景掩膜为0的个数,初始化为0。
(2)设像素点坐标为(x,y),f(x,y,t)为其在时间上的灰度值。D(x,y,ti)是将当前帧与前一帧做差分得到的差值图像。
式中,T为设定的阈值;背景掩膜上的灰度值BT(x,y,ti)在T≤1的情况下的值为1。
(3)差分时,连续的两帧图像之间会出现纹理相似的前景重叠部分,可能被误判为背景,且帧间差分后会得到一个内部有黑色空洞的连通区域。采用形态学上的算法对此空洞进行填充,得到完整区域。
(4)对模板进行扫描,若 BT(x,y,ti)=1,背景模板上的灰度值 B(x,y,ti)=0,令当前帧灰度值 f(x,y,ti)赋值给 B(x,y,ti);当 BT(x,y,ti)=0,计数器 N 加1。若输出帧数大于设定的阈值,则背景建立结束,进入背景更新阶段。
(5)若N小于设定的阈值,表示初始背景建立完成,获取下一帧图像后进入背景更新阶段。否则,N清零,将当前帧的灰度值赋给图像模板,继续获取下一帧图像,让下一帧图像的像素值减去图像模板的像素值,继续背景建模。背景建好后,背景模板存储的就是背景的像素值。
帧差法提取背景后,运用背景消减法提取前景。将当前帧减去用帧差法提取的背景图像得到差分图像,其式为
利用式(7)对差分图像D(x,y,ti)进行形态学滤波和二值化处理,得到运动区域
式中,T为二值化所设定的阈值。
背景消减法与帧差法结合后,算法简单,实时性好,效率高,能很好地提取背景和前景。
运动目标跟踪是提取视频序列中每帧图像中的目标位置,在跟踪过程中,目标的外观、运动参数等信息也同步更新。目标跟踪的方法影响跟踪结果的稳定性和精确,常用的运动目标跟踪方法[4-7]有基于模型的跟踪方法、基于轮廓的跟踪方法、基于区域的跟踪方法、基于特征的跟踪方法。
基于直方图与区域的Kalman跟踪算法中运动目标用团块矩形框表示,Kalman跟踪目标模型为该矩形框坐标和直方图灰度值。计算相邻帧间目标团块的重叠区域面积,其依据为运动目标在相邻帧间位移小。当重叠区域大于一定的目标团块面积且直方图密度分布相似时,两运动目标相同,最终实现目标跟踪,并在每帧图像中更新Kalman滤波跟踪目标模型。
Kalman滤波跟踪算法[8]由预测系统下一刻状态值与利用下一刻实际状态值修正预测值组成。系统状态值预测存在误差,通过实际状态值反馈修正,使误差范围得到限制。为运动目标建立Kalman预测模型,预测下一时刻位置。
在离散控制过程的系统中,利用线性随机微分方程描述其状态
系统测量方程为
式中,X(k)表示k时的系统状态;X(k-1)为k-1时刻系统状态;时的系统控制量为U(k-1);A与B系统参数;Z(k-1)为k时刻系统测量值;H表示测量参数;W(k)为状态噪声;V(k)为测量噪声,并设Q与R为独立的高斯白噪声,为协方差。Kalman滤波跟踪依据k-1时刻修正过的状态向量预测值,预测时刻状态向量1),计算k时刻实际测量值Z(k),依据与Z(k)预测误差比较反馈修正值预测,得到k时刻最佳状态估计值具体预测与修正流程为:
(2)状态预测
误差协方差预测
(3)Kalman增益
状态修正
误差协方差修正
该算法的具体方法为:
(1)在人体行为检测的基础上,当目标团块在第T帧中首次出现,标记位置,计算团块归一化直方图,建立 Kalman 目标模型。H{min(x,y),max(x,y)}为目标团块的归一化直方图,记录目标团块的位置用目标矩形框 R{min(x,y),max(x,y)}表示。
(2)记录第T+1帧团块位置,计算团块归一化直方图。
(3)比较第T帧目标Obj1团块位置与第T+1帧团块Blob1位置,当对应的最小外界矩形框R{min(x,y),max(x,y)}区域重叠,且面积大于阈值K1,归一化直方图相似度,规定 Blob1为Obj1。在多个团块情况,取直方图相似度最大的团块为Obj1,更新目标的Kalman模型。
(4)第T帧的Obj1、Obj2等多个目标与第T+1帧团块Blob1的区域重叠面积大于K1时,目标融合。团块记为 Obj1,2,…,更新目标的 Kalman 模型。
(5)当第T帧与第T+1帧团块Blob1没有目标区域重叠时,Blob1为第一次出现,标记为新目标,建立目标的Kalman跟踪模型。
(6)第T帧的Obj1与第 T+1帧团块Blob1,Blob2重叠时,Obj1的Kalman跟踪预测位置分别与Blob1,Blob2比较,如果Blob1与Obj1的Kalman预测模型的重叠面积和直方图匹配,则 Blob1为 Obj1,Blob2为Obj1分裂后的新目标,对新目标建立Kalman模型。
(7)当第 T 帧融合态目标 Obj1,2,…,m和 T+1 帧团块,Blob1,Blob2,…,Blobn对应,让第 T 帧更新的目标Obji的Kalman滤波预测目标位置的团块Blobj与融合前的目标Obji进行直方图匹配。
该算法跟踪效果好,实时性强,可以为人体行为分析奠定良好的基础。
实验采用MIT行人样本集[9],以及自拍的测试视频样本。实验的硬件条件为Intel Core Duo i7-2.3 GHz,4 GB DDR3的计算机,软件条件为Windows 7,Visual C++6.0,OpenCV 1.0 和 Matlab R2008b。
(1)人体行为检测算法性能检测。实验检测所提出的背景消减法与帧差法相结合的人体检测算法的性能。衡量人体行为检测的性能指标[10]有SDR(成功率,Success Detection Rate)和 FDR(误检率,False Detection Rate)两种。SDR定义如式(15),SDR定义如式(16)
为证明改进检测算法的准确性,通过对比其它几种检测算法来衡量。衡量标准为计算每种方法的误检率和成功率,并对其进行对比分析。本文用于对比的算法有帧差法、背景消减法和本文的改进算法,几种检测方法的比较如表1所示。
表1 人体行为检测算法测试结果
从表1中可以看出,在几种人体行为检测方法中,基于背景消减法与帧差法相结合的人体检测算法成功率较高、误检率较低。
(2)运动目标跟踪算法性能检测。实验检测所改进的基于直方图与区域的Kalman跟踪算法的性能。为了验证跟踪算法的准确性和鲁棒性,实验对比了基于Kalman滤波的人体跟踪算法、基于区域面积的跟踪算法和改进的基于直方图与区域的Kalman跟踪算法3种人体跟踪方法,统计每一帧视频图像的结果,如表2所示。
表2 运动目标跟踪算法测试结果
从表2中可以看出,基于直方图与区域的Kalman跟踪算法的稳定性和准确性得到提高,可以实时准确地跟踪人体目标。
为了验证跟踪算法在运动人体快速移动时的有效性,实验采用500帧大小为240×320像素的图像,对比实验结果如图3所示。
图3 实验对比结果
实验结果表明,改进算法与人体的实际运动轨迹拟合程度好,受移动速度影响小,具有较好的跟踪效果。
提出了一种改进的人体行为检测与跟踪算法,对人体行为检测方法与运动目标跟踪方法进行了研究,运用基于背景消减法与帧差法相结合的人体检测算法来检测运动人体,运用基于直方图与区域的Kalman跟踪算法来跟踪运动目标。仿真实验表明,检测算法准确率高、实时性好、鲁棒性高,跟踪算法能实时准确地跟踪人体目标,具有较好的实用价值。今后的研究方向是选择更为高效准确的人体行为检测与跟踪算法,以达到更好的检测跟踪效果。
[1]谷军霞,丁晓青,王生进.行为分析算法综述[J].中国图像图形学报,2009,14(3):377 -387.
[2]MITTAL A R,PARAGIOS N.Motion - based background subtraction using adaptive kernel density estimation[C].Proceeding of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2004:302 -309.
[3]ANDERSON C,BURT P,VANDER W G.Change detection and tracking using pyramid transform techniques[C].Proceedings of SPIE -Intelligent Robots and Computer Vision,1985:300-305.
[4]李英杰,尹怡欣,邓飞.一种有效的行为识别视频特征[J].计算机应用,2011,31(2):406 -419.
[5]HU Weiming,TAN Tieniu,WANG Ling,et al.A survey on visual surveillance of object motion and behaviors[J].IEEE Transactions on Systems,Man,and Cybeme—Part C,2004,34(3):334-352.
[6]OSAMA M,NIKOLAOSPP.A novel method for tracking and counting pedestrians in real-time using a single camera[J].IEEE Transactions on Vehicolar Technology,2001,50(5):1267-1278.
[7]WILLIAM L,DUNN J.Kenneth shultis,monte carlo methods for design and analysis of radiation detectors[J].Journal of Computational and Graphical Tatistics,2009,78(10):852-858.
[8]许辰铭.视频图像中的运动目标检测与跟踪[D].南京:南京邮电大学,2012.
[9]GONG D,MEDIONI G.Dynamic manifold warping for view invariant action recognition[C].Barcelona,Spain:Proceedings of IEEE International Conference on Computer Vision,2011:571-578.
[10]LIANGZhiwei,MA Xudong.Robust tracking of moving sound source using scaled unscented particle filter[J].Applied A-coustics,2008,69(8):673 -680.