常发亮,李江宝
(山东大学控制科学与工程学院,济南250061)
在由多个摄像机构成的视频监控网络系统中,当目标从一个摄像机的视野进入另一个摄像机的视野时,如何正确地调度多个摄像机以实现目标的准确跟踪与交接,是当前目标跟踪领域研究的热点和难点,许多学者进行了这方面的研究。Bellotto等[1]实现了一个基于静态和PTZ摄像机相结合的智能监控系统,从其实验结果看,该系统很好的利用了静态摄像机和PTZ摄像机的组合性能。Chen等[2]提出一种在没有公共视野区域的多摄像机网络中进行目标连续跟踪的自适应学习方法,该方法利用目标的时空信息和表观信息进行目标特征的学习,相比于传统的基于目标特征块的学习方法只能实现短时跟踪而言,该方法可达到对目标的长时间跟踪,并且考虑到了目标交接时的光照变化带来的影响等,该方法是基于静态摄像机的。Kettnaker等[3]则针对多摄像机监控中目标交接路径的确定问题,提出了一种贝叶斯模型,采用最优化的方法获得目标路径的最大后验概率解作为进行目标交接时的依据。Ser-Nam等[4]提出一种基于图像的云台摄像机转动位置定位方法,首先为每个摄像机确定一个基点,然后在跟踪目标的过程中根据多个摄像机之间相对于基点的几何变换来计算云台的转动位置。Slawomir等[5]采用一种基于目标空间分布相关性的方法实现跟踪目标的重定位,目标的分块特征采用HOG算法获得。基于几何拓扑关系的方法,因为其模型简单并且可采用离线统计学习或者人工方式建立拓扑模型,所以吸引了不少研究者的注意[6-8]。文献[9]从有无公共视野区的角度对近年来拓扑关系估计方法进行了总结比较,对多个摄像机视频中同一目标的运动路径进行统计,在建立摄像机拓扑模型的同时也建立了目标的运动路径概率图模型。
这些方法大多是基于静态摄像机建立的拓扑模型,所以只需要判断目标是否到达摄像机视野中的固定的交接位置即可判断是否需要进行交接。在多PTZ摄像机主动目标跟踪时,云台、镜头方向等随跟踪目标发生变化,这给交接判断带来了困难。笔者对多摄像机下的接力摄像机调度策略和在线特征学习进行了研究,提出了一种复杂大场景下基于拓扑模型和特征学习的多摄像机调度和目标接力跟踪策略[10]。
要采用目标背景估计的方法确定交接时刻和位置需要首先建立每个摄像机视野的空间场景地图,在地图中标记出感兴趣区域(Rmap),感兴趣区域可以是多个摄像机之间的公共交接区,也可是摄像机的视野极限区域。
设PTZ摄像机有3个自由度:云台水平转动角α,β竖直俯仰角,镜头伸缩倍数k,某一时刻该摄像机的镜头位置可以表示为p(α,β,k)。
假设在位置p(α,β,k)处摄像机成像画面中提取的场景特征为fp,这样就可用画面中的场景特征来表示该位置,即:
对PTZ摄像机在活动范围内的所有画面都进行场景特征提取就可以建立该摄像机的活动视野空间场景地图
其中αm和αM表示给定绝对0位置时α的最小和最大活动角,对β和k类似。
基于式(2)可通过大量的场景特征建立该摄像机的视野空间场景地图。
如果将摄像机之间的公共视野区以及视野极限区域标记为感兴趣位置proi(x,y,z),则可将这些位置用在该位置的画面场景特征表示:
其中n为感兴趣位置的个数。
在跟踪过程中,实时采集目标背景的特征fcur到场景地图中去匹配,从而估计目标当前所处的位置。如果当前背景特征fcur与某个感兴趣位置的特征匹配(fcur≈),则可判断目标当前位于第k个感兴趣位置处,可根据该位置的相关标记信息执行相应的动作,如果将该位置设置为目标交接的触发位置,就开始目标交接的接力摄像机的调度。
图1为标记出ROI的监控场景图。图2为跟踪目标过程中的匹配实验结果,图2右下角的数字给出了匹配良好的特征个数Nmatch与ROI中的总的特征个数 Nroi的比率 Pmatch=Nmatch/Nroi。图2(a)119帧时开始进行场景的估计,从Pmatch的数值看出,此时匹配特征的个数很少,说明目标所处的场景不是在ROI中;162帧(图2(b))时从图中标出的方框可见已经有部分Rcur进入ROI中,此时Pmatch=0.203;201帧(图2(c))时可见大部分的 Rcur已经进入 ROI,此时有 Pmatch=0.448; 228帧(图2(d))时,匹配率达到最大Pmatch= 0.621,此时Rcur已经完全进入ROI中。
当匹配率超过40%,进入ROI的目标背景已经有大约82%。如果对匹配率设置一个阈值Tmatch就可判断目标是否进入ROI,当Pmatch>Tmatch时认为目标需要执行交接。
图1 标记出ROI的监控场景图Fig.1 Mark ROImonitoring scene graph
图2 跟踪过程中目标背景估计的图像序列Fig.2 The target background estimation image sequence in the tracking process
对于固定在建筑物上的PTZ摄像机,虽然其镜头可上下左右运动以及变倍伸缩,但是其云台是固定的,也就是空间几何位置是不变的,将摄像机和场景中目标可能运动路径的极远点(即摄像机视野外的点)抽象为拓扑图节点,则对整个监控场景进行拓扑抽象建模后可获得其拓扑图连接,如图3所示。
图3 监控场景的拓扑图Fig.3 M onitoring topology m ap of the scene
模型中有公共视野区的两个摄像机节点是邻接的,没有公共视野区的摄像机之间通过极远点节点连接,超出监控网络的极远点只与其对应的摄像机节点连接。
为利用跟踪目标的空间位置、运动特征等,将每个节点的邻接节点相对于本节点的空间方向作为连接线方向,则拓扑模型变为一个有向拓扑连接图。图4所示为实验环境的拓扑模型。图4中N0~N3为摄像机节点,N4~N13为视野极远节点,图4中同时标出了邻接节点相对于每个节点的方向。
图4 实验环境的拓扑模型Fig.4 Topology model of the experimental environment
利用PTZ摄像机的预置位功能,将摄像机对应邻接节点的位置设置为预置位。假设在摄像机节点Ninit跟踪目标的过程中通过背景估计判断目标在其Dinit方向的感兴趣位置,需要进行接力摄像机调度判断。多摄像机调度算法描述如下:
1)初始化,Ni=Ninit,Da=Dinit调度摄像机计数c=0,调度摄像机节点数组为Sc,对应的预置位数组为Pc;
2)获取Ni节点在Da方向的邻接节点:
3)判断Ns:
如果Ns≤m-1,则跳到4);
如果m-1<Ns<n-1,则跳到5);
如果Ns=n,则c=0,Sc=Nn,跳到6);
4)c=1,调度摄像机Sc=Ns,预置位数组Pc=Ds=CD(Ns,Ni),跳到6);
5)令,Ni=Ns,
循环a=1:8
如果a<m:
循环结束;
如果c=0,Sc=Nn;
6)输出调度摄像机节点数组Sc和对应的预置位数组Pc,算法结束。
调度算法结束后,判断计数c:如果为0,说明目标超出监控场景范围,跟踪结束;如果不为0,则将调度摄像机数组Sc中的每台摄像机移动到对应的预置位Pc,完成接力摄像机的调度,然后在接力摄像机中进行目标的搜索定位以及跟踪。其中Ni为拓扑节点(i=0,1,…,m-1,…,n),n为点个数,m为摄像机个数而且,1<m<n,N0~Nm-1为摄像机节点,Nm~Nn-1为非摄像机节点,Nn为无穷远点,表示超出监控范围时算法给出的节点。
Da为邻接方向(a=1,2,…,8,对应8个方向)。
Pk为预置位(k=1,2,…,8,对应摄像机节点的8个邻接方向)。
Ns=CN(Ni,Da)为寻找节点在Da方向的邻接节点的算子,返回其Da方向的邻接节点Ns。
Ds=CD(Ni,Nt)为确定Nt节点在Ni的那个方向上的算子,返回Nt相对于Ni的邻接方向Ds。
由于多个摄像机之间的成像差异,即使采用SURF算法提取了目标的局部不变特征,目标在不同摄像机之间的SURF特征仍然可能是会变化的,为增加SURF特征的稳定性,在跟踪目标的过程中,对每一帧提取的SURF特征进行匹配筛选学习,保留稳定性好的特征,删除不稳定的特征。目标跟踪过程中的特征学习更新算法如下:
4)增加特征集Ssurf中的每个特征的处理计数++;
5)特征集更新:对Ssurf中的每个surf特征,如果>Tp(TP为处理计数阈值),并且匹配稳定性sk=/<T,则说明该特征不够稳定,从Ssurf删除该特征;
6)完成特征学习和更新。
为验证算法的有效性,该系统采用了较简单的结构,实验所用的场景以及生成的拓扑结构如图5所示。
图5 两台平行摄像机的实验场景示意图Fig.5 The experimental scene schematic diagram of two parallel cameras
实验所用的两台摄像机为不同型号,所处位置的光照条件差异也比较大,其中C1是在树荫下,可看出光线要比较暗,C2是在比较开阔处,光照比较亮,这样就导致了两台摄像机采集的图像有明显的差异。两台摄像机之间有一定的公共视野区域,根据先验的视觉估计给出一块感兴趣区域ROI作为交接区域,并建立该区域的特征模型,然后在跟踪目标的过程中不断对目标背景的进行估计,即与交接ROI区域模型进行匹配比较直至匹配率超过阈值,从而判断出目标处于交接区域,需要进行交接。
图6是交接过程中的几帧SURF特征匹配实验结果图像。图6中左侧是C1摄像机图像,右侧是C2摄像机图像,绿线标记出了目标同一时刻在两个摄像机中的SURF匹配对。216帧(图6(a))时,由目标背景估计模块确定目标进入了交接区域,开始执行目标交接,因为光照、尺度等原因,检测到的该帧图像中的SURF特征点比较少,而且从图中特征匹配对来看,有一些匹配是错误的,这从237帧(图6(b))中也可以看出来,到245帧(图6(c))时在C2摄像机中锁定跟踪目标,交接完成。从图中可见虽然目标在两个摄像机图像中的尺度、光照条件发生了变化,但是仍然还有一些良好的匹配点,也有一些是误匹配的,误匹配的是一些不稳定的特征。
图6 单人两台平行摄像机下的交接Fig.6 Single two parallel cameras handover
笔者针对多摄像机目标主动跟踪的交接调度问题进行了研究,提出一种采用背景估计确定目标的交接时刻和位置的方法,同时采用基于多摄像机拓扑模型和特征学习的接力摄像机调度算法快速准确的判断接力摄像机用于目标交接。实验结果表明这两种方法的结合可快速确定交接时刻以及准确判断调度接力摄像机,完成多摄像机跟踪时的目标交接。
[1]Bellotto N,sommerlade E,Benfold B.A distributed camera system formulti-resolution surveillance[C]//Third ACM/IEEE International Conference on Distributed Smart Cameras.2009:1-8.
[2]Chen Kuan-wen,Lai Chi-chuan,Hung Yi-Ping,at el.An adaptive learningmethod for target tracking across Multiple Cameras[J].IEEE Conference on Computer Vision and Pattern Recognition,2008,41(3):1-8.
[3]Kettnaker V,Zabih R.Bayesian multi-camera surveillance[C]//Proceedings 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.1999:253-259.
[4]Ser-Nam lim,Ahmed Elgammal,Larry SDavis.Imagebased pan-tilt camera control in a multi-camera surveillance environment[J].International Conference on Multimedia and Expo,2003,1(3):1-8.
[5]Slawomir Bak,Etienne Corveem,Francois Bremond. Monique Thonnat.Person re-identification using spatial covariance regions of human body parts[J].Seventh IEEE International Conference on Advanced Video and Signal Based Surveillance,2010,2010(11):435-440.
[6]Wang X,Ma K T,Ng G,et al.Trajectory Analysis and semantic region modeling using a nonparametric bayesianmodel[C]//IEEE Conference on Computer Vision and Pattern Recognition,2008:1-8.
[7]Makris D,Ellis T,Black J.Bridging the gaps between cameras[J].IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2004,2(3): 205-210.
[8]翁菲,刘允才.多场景视频监控中的人物连续跟踪[J].微型电脑应用,2010,26(6):33-35.
Weng Fei,Liu Yun-cai.Human tracking in multi-scene video surveillance[J].Microcomputer Applications,2010,26(6):33-35.
[9]Richard J Radke.A survey of distributed computer vision algorithms[J].Computer and Information Science,2010(9):1-21.
[10]Rublee Ethan,Rabaud Vincent,Konolige Kurt,et al. ORB-an efficient alternative to SIFT or SURF[J].International Conference on Computer Vision,2011,95 (1):2564-2571.