孙爱娟,顾国华,钱惟贤,俞晓东,周玉蛟
(南京理工大学,江苏 南京 210094)
基于立体视觉的人体头部目标识别研究
孙爱娟,顾国华,钱惟贤,俞晓东,周玉蛟
(南京理工大学,江苏 南京 210094)
将立体视觉运用于人体头部目标检测,设计了一种基于图像深度信息处理的人体头部识别系统。系统采用Xtion摄像机采集场景的深度图像,并对其进行特征分析,根据深度图像的特点以及头部的特征确定头部目标区域。再对目标区域采用Mean Shift算法进行聚类处理,得到清晰的图像边缘。最后通过基于动态阈值的一维熵函数分割法实现头部的分割识别。该系统可快速锁定目标区域,减少了算法的计算量,大大提高了系统的识别速度。此外,采集深度图像的Xtion摄像机悬挂在目标场景的正上方,因而较好地解决了目前人体目标检测受遮挡的问题。经实验论证,该系统有较高的识别精度。
立体视觉;深度信息;目标检测;Xtion摄像机
人体运动分析是计算机视觉领域[1]备受关注的研究课题,其关键在于从图像序列中检测、跟踪目标个体,进而分析目标的运动特性。该技术在智能监控领域有着较为广阔的应用前景,如公共车站、商场、景点等公共场所的客流量统计,能够为管理者提供更有效的运行管理机制,提高资源的利用率,为实现智能化办公提供保障。
人体目标检测是人体运动分析的基础,同时也是至关重要的部分。基于图像处理的目标检测是一项较新的技术,近年来,也取得了较大的进展。由Haritaoglu等人[2]提出的W4(即Who,When,Where,What)系统,可以进行多个人体目标的检测与跟踪。CMU提出的VASM[3]是一个跟踪人体和运动目标的发展系统。Kang和Lee[4]提出了可以解决多人遮挡问题的人体目标检测与跟踪系统。总的来说,目前多数研究都属于单目视频图像处理,即对单个摄像机采集到的视频图像进行处理的过程。
视频图像中人体目标检测常用的方法有相邻帧差法[5]、光流法[6-7]、背景减法[8-11]等。
相邻帧差法是指对视频图像序列中相邻的两帧图像作差分计算,并将获得的结果和预先设定的阈值比较,从而判断是否为运动目标。相邻帧差法算法简单易实现,但是当摄像机获取连续两帧图像的时间间隔较短或当运动目标变化较慢时,相邻两帧图像重叠部分较多,而重叠部分较难被检测,容易造成目标检测的不完整。此外,当光照有明显变化时,连续两帧图像之间存在的灰度的差异也会造成目标检测的误差,影响结果的精度。光流法是根据运动目标的光流特性结合目标的几何特点来实现目标检测。因为光流法体现的是运动目标和背景之间的相对运动,因此,即使在复杂背景和摄像机移动的情况下,光流法也可以较为准确地检测运动目标。但是光流法算法过程复杂,计算量较大,很难实现实时检测。背景减法则是将每帧图像与当前背景模型做差分计算以得到运动目标,缺点在于当背景模型不能及时更新时,将对检测结果造成直接的影响。上述这些方法都是基于二维图像处理的目标检测。综上可知,该类算法对视频图像的要求比较高,容易受到光照变化以及光照产生的阴影的影响,通用性较差,很难实现较高精度的实时监测。
为了解决基于二维图像处理的目标检测存在的问题,很多学者做了多方面的改进。其中,基于梯度方向直方图的人体识别方法从俯视的场景图像中提取头部的灰度信息作为检测目标的特征[12],该类方法较好地解决了遮挡的问题,精度较高,但是提取目标特征的过程中需要大量的样本训练,因而计算量较大,影响系统的识别速度。而对图像的深度信息进行研究处理的方法也得到了很多学者的关注。利用深度信息进行头部检测的方法采用头部轮廓的面积以及圆形特征作为约束条件进行识别与筛选,较好地解决了光照对系统的影响[13]。该类算法简单,能满足实时的要求,但是精度较低。
本文利用可以直接获得目标场景深度信息体感传感器(以下简称Xtion传感器),采用自顶向下的拍摄方式获得目标场景深度图像。即使在人流拥挤的情况下,头部和头部之间还有一定的空隙,可以有效避免人流的遮挡、重叠等现象。在此基础上,本文提出了一种基于深度图像处理的人体头部识别的方法,首先利用深度信息快速找到疑似头部目标,减少搜索范围,提高识别速度,再采用Mean Shift算法对图像进行预处理,最后通过基于动态阈值的一维熵函数分割法实现头部的分割与识别。
1.1 三维深度图像的采集
三维深度图像是指用像素灰度值来表示场景中的每个像素点到传感器距离的图像。本文采用华硕公司的Xtion传感器直接获得三维深度图像。
Xtion传感器获取深度信息使用的是主动获取方式。利用PrimeSense公司提出的三维测量技术,即Light Coding(光编码)技术来获取图像的深度信息。Light Coding[14]技术,顾名思义,就是用光线给测量空间进行编码,再经感应器读取编码后的光线,最后通过解码计算生成场景的深度图像。Xtion传感器采用的是连续的近红外光。图1为Xtion摄像机拍摄到的场景的彩色图像,图2是其对应的原始深度图像。
图1 彩色图像
图2 原始深度图像
1.2 三维深度图像特征分析
原始三维深度图像中像素灰度值的大小表示物体表面与传感器的距离,距离越近,像素灰度值越小,反之,灰度值越大。根据得到的原始三维深度图像的灰度值信息结合像素灰度值与距离的转换关系式,即可知道场景图像中的每一个像素点到传感器之间的距离
H=α×G
(1)
式中:H表示空间某点和传感器摄像窗口的距离,其取值范围为300 为了更直观地显示原始深度图像中的灰度值和深度信息的对应关系,对原始三维深度图像进行处理。首先对得到的原始深度图像取反并求三维直方图,为了更直观地显示深度信息,利用伪彩色算法对三维直方图进行处理,得到图3,其中,x和y坐标分别表示三维深度图像的宽与高,即像素点在三维深度图中的位置坐标信息z,坐标表示该像素点的深度信息。分析三维直方图可以知道,像素信息大量地堆积于头部。且头肩存在一定的高度差异,所以头肩的深度信息会存在一个突变值,即使在人员拥挤的情形下,头部和头部之间也会存在空隙。此外,头部面积满足一定的约束条件,并且是闭合的类圆连通域。 图3 三维直方图 根据上述这些头部特征,设置约束条件,将满足上述特征的像素点合并到一个区域,作为一个疑似目标快处理,将其余的区域作为背景处理。 本系统实验条件为摄像机架设高度为2.5 m,摄像机之间的距离为0.8 m。在本实验的视场条件下,头部总像元的宽高比w/h的范围是[0.65,1.5]。其中,w表示头部总像元的宽度,h表示头部总像元的高度。再以头部最高点为起点,根据式(1),假设头顶到肩部的最长距离为h,那么可以得到灰度的突变值g=h/α。根据以上约束条件,可得到如图4所示的目标区域。图4a中,左侧伪目标区域由于不满足头部的宽高比、头部的类圆性以及与邻近的头部目标之间不存在有效的间隙,所以排除目标的可能性。最后确定的场景图像中的头部目标如图4b所示。 图4 场景图像中目标区域 2.1 基于MeanShift[15-16]算法的图像预处理 在给定的d维空间Rd中有n个样本点xi(i=1,2,…,n),那么x点处的Mean Shift向量定义为 (2) 式中:Sh为由所有满足式(3)的y点的集合构成的半径为h的高维球区域 Sh(x)={y:(y-x)T(y-x)≤h2} (3) 式中:k表示在n个样本点组成的xi中,有k个点落入Sh区域中。 式(2)中,(xi-x)是样本点xi相对于点x的偏移量,Mh(x) 是k个落在区域Sh中的样本点相对于点x的偏移量的均值。其中,样本点xi是通过概率密度函数f(x)采样得到。因为概率密度梯度都是指向密度增大的方向,所以区域Sh的内的样本点大部分落在沿着概率密度梯度增大的方向。因此,对应的Mean Shift向量Mh(x)也指向概率密度梯度增大的方向。 下面首先计算点x的概率密度。对落在以x为圆心,h为半径的球内的点xi定义2个规则:1)x与xi像素点的颜色越相近,概率密度越高;2)x与xi像素点的距离越近,概率密度越高。 定义总的概率密度为以上两个规则中概率密度的乘积,用式(4)表示 (4) 根据上述概率密度的计算方法以及Mean Shift算法的原理,实验采用如下的步骤对图像进行处理。本实验处理的是二维的图像,所以维度参数d为2。 首先根据式(4)计算每一个目标区域图像的概率密度函数,得到khs,hr;在每一个疑似目标区域中,任选一点x作为圆心,其中x从概率密度函数khs,hr采集得到。以h为半径做一个圆。此时所有落在圆内的点和x会产生一个向量,以x为起点,以所有落在圆内的点为终点,将这些向量相加,得到一个Mean Shift向量,接着再以Mean Shift向量的终点为圆心,重复以上计算,Mean Shift向量可以收敛到概率密度最大的地方。 最后得到的效果图如图5所示。图像得到有效的聚类处理。 图5 Mean Shift聚类处理效果图 2.2 基于动态阈值的一维熵函数分割法 对Mean Shift算法预处理后的图像,采用一维最大熵阈值分割法来分割头部和非头部区域。根据得到的三维直方图,以图像中像素局部最高点的集合以及像素差值小于设定值的邻域一起作为目标图像块。对每一个图像块采用假设以灰度级t作为阈值分割头部和非头部区域。邻域中像素值高于t的像素点构成头部区域,像素值低于t的像素点构成非头部区域。那么,非头部和头部区域的熵分别为HB和Ho (5) (6) φ=Ho+HB (7) 本实验在MATLAB仿真实验平台上进行。为了更清晰地显示,图6为二值化之后的实验结果。 图6 二值化的头部识别结果 3.1 精度比较 基于头部轮廓特征和面积进行头部识别的方法中[13],为了防止遮挡问题,将类圆形也设定为目标。根据实验效果,在无遮挡的情况下,该类算法很容易将深度图像中的人体肩部等类圆图像误判为头部,因此,精度不高。图7a为该类算法得到的效果图。与原始彩色图进行对比,可以发现,算法在画面上方和左下方都出现了误判,如图7b所示。 图7 对比算法效果图 3.2 速度比较 为了验证本文系统的实时性,将该方法与基于俯视图像灰度信息处理的方法[12]进行对比,统计了两种方法处理每帧图像所需要的时间,并随机抽取20个样本(编号1~20)数据进行比较,数据如表1所示。将其用MATLAB进行统计得到直观的效果对比图,如图8所示。本文算法处理图像的速度为18.5帧/秒(f/s),视频流畅且处理速度快。 表1 算法速度对比样本数据 样本编号每帧处理时间/s本文文献[12]样本编号每帧处理时间/s本文文献[12]10067007220030004130069007440054006150071007660062006870031003480070007490048005610002000311100720081120054006113005100631400750082150038004516007400821700540061180070008119004300522000380042 图8 算法速度对比图 目标识别是目标检测与跟踪系统中的重要技术。本文提出了基于图像深度信息处理的人体头部目标识别系统。由于该系统只对深度图像进行分析处理,因而较好地解决了目前目标检测较容易受到光照影响的问题。经实验论证,该算法识别精度能达95%以上,且速度较快,能较好地应用于实时监测系统。 [1] 马颂德,张正友. 计算机视觉[M].北京:科学出版社,1998. [2] HARITAOGLU I,HARWOOD D,DAVIS L S.W4:Who?When?Where?What?A real time system for detecting and tracking people[C]//Proc. 3rd Int’l Conference on Face and Gesture Recognition. Nara,Japan:Springer,1998:222-227. [3] COLLINS R T,LIPTION A L,KANADE T,et al. A system for video surveillance and monitoring[R].Pittsburgh,USA:Robotics Institute,2000. [4] KANG S,HWANG B W,LEE S W. Multiple people tracking based on temporal color feature[J].International Journal of Pattern Recognition and Artificial Intelligence,2003,17(6):931-949. [5] ZHU Man,SUN Shuifa,HAN Shuheng,et al. Comparison of moving object detection algorithms[M].[S.l.]:World Automation Congress(WAC),2012. [6] FRADI H,DUGELAY J. Robust foreground segmentation using improved Gaussian Mixture Model and optical flow[EB/OL].[2015-03-20].http://www.researchgate.net/publication/261054309_Robust_foreground_segmentation_using_improved_Gaussian_Mixture_Model_and_optical_flow. [7] YIN Jianqin,HAN Yanbin,HOU Wendi,et al. Detection of the mobile object with camouflage color under dynamic background based on optical flow[J].Procedia Engineering,2011(15):2201-2205. [8] ZHANG Ruolin,DING Jian. Object tracking and detecting based on adaptive background subtraction[J]. Procedia Engineering,2012(29):1351-1355. [9] YANG Jingjing,DAI Yaping. A modified method of vehicle extraction based on background subtraction[C]//Proc. 2012 IEEE International Conference on Fuzzy Systems(FUZZ-IEEE),2012.Brisbane,QLD,New Zealand:IEEE Press,2012:1-5. [10] XIE Yong. Improved Gaussian Mixture Model in video motion detection[J].Journal of Multimedia,2013,8(5):527-533. [11] 白晓方,杨卫,陈佩珩. 一种改进的运动目标检测与跟踪方法[J].电视技术,2014,38(1):180-182. [12] 唐春晖. 一种基于梯度方向直方图的俯视行人的检测方法[J].模式识别与人工智能,2015,28(1):19-26. [13] 郭秀杰,叶俊勇. 利用深度信息进行头部检测的方法[J].烟台大学学报,2015,28(1):38-41. [14] 许丽. 动态场景的三维信息获取相关技术研究[D].上海:上海大学,2009. [15] 韩彩夏,王晓宇. 基于Mean-shift算法与模糊熵的图像平滑[J].计算机应用,2009,29(1):64-67. [16] 朱胜利. Mean Shift及相关算法在视频跟踪中的研究[D].杭州:浙江大学,2006. Research on Human Head Detection Based on Stereo Vision SUN Aijuan, GU Guohua,QIAN Weixian,YU Xiaodong,ZHOU Yujiao (NanjingUniversityofScienceandTechnology,Nanjing210094,China) In this paper, the stereo vision is used in human head detection by the system based on depth image processing. Firstly, the characteristics of the depth image collected by camera of Xtion are analyzed by the system. Then head target area is determined according to the depth of the image characteristics and the characteristics of the head. For the determined area, Mean Shift clustering algorithm is used to get a clear image edge. Finally, head split is realized by using One-dimensional entropy function based on dynamic threshold. Through rapid target, the computational algorithm can be reduced and the speed can be greatly improved. Moreover, the issues that the accuracy of current target detection method is easily affected by obstacle can be solved by the system. It is demonstrated by experiment that the system has high recognition accuracy. stereo vision;distance information;target detection;camera of Xtion 国家自然科学基金项目(61271332) TN929.11 A 10.16280/j.videoe.2015.17.028 2015-05-03 【本文献信息】孙爱娟,顾国华,钱惟贤,等.基于立体视觉的人体头部目标识别研究[J].电视技术,2015,39(17). 孙爱娟(1990— ),女,硕士生,主要研究方向为目标识别与跟踪等; 顾国华(1966— ),研究员,博士生导师,主要研究方向为目标检测与识别及红外成像等。 责任编辑:任健男2 头部目标分割
3 算法比较
4 总结