张 俊,任延珍
(1.湖北警官学院 信息技术系,湖北 武汉430034;2.武汉大学 计算机学院,湖北 武汉430072)
基于学习的视频行为分析技术的特点和应用
张 俊1,任延珍2
(1.湖北警官学院 信息技术系,湖北 武汉430034;2.武汉大学 计算机学院,湖北 武汉430072)
视频行为分析(VBA,Video Behavioral Analytics)是智能视频监控(IVS,Intelligent Video Surveillance)技术领域近几年来倍受关注的发展方向。基于学习的视频行为分析系统从摄像头或视频录像中接受输入,自动学习场景中出现的正常行为和动作,并在发现异常行为时用实时警报通知安全人员,它结合了计算机视觉和人工智能技术,在公安工作中具有广泛的应用前景。
智能视频监控;视频行为分析;应用
当前,随着“畅通工程”、“平安城市”等警务信息化工程的加速建设和深入应用,公安机关等社会管理部门建立了庞大的视频监控网络。例如,武汉市2011年底投入使用,由25万个摄像头构成的“天网”城市视频监控工程。这些视频监控系统在治安管理、交通管控、侦查破案等公安工作中发挥着越来越大的作用,受到各级部门的高度重视。然而,越来越大的监控系统和越来越多的摄像机也给监控人员带来沉重的工作压力,很多时候他们无法及时发现异常、获取情报、采取措施。
智能视频监控(Intelligent Video Surveillance),或称为视频行为分析(VideoBehavioral Analytics)是近几年来应运而生的一种新技术,它综合应用了计算机视觉和人工智能的最新研究成果,可以对视频场景内的相关运动目标(人或物体)进行检测、分类及轨迹追踪,并根据制定的分析(触发)规则,由系统自动分析、判断运动目标的行为信息,并将信息输出到相应的系统响应平台。根据监控对异常行为的感知方法,视频行为分析技术可以分为基于规则和基于学习两大类。前者的技术和应用较为成熟。后者的研究和应用方兴未艾,正吸引越来越多的重视,并必将成为未来视频监控技术的主要发展方向。
传统的视频监控系统提供的是没有经过任何分析的视频裸数据,不能实现监控系统应有的实时、主动监督的作用,在安全性和实用性方面达不到人们的期望。主要表现在:第一,人类自身生理弱点导致监控人员无法长时间集中注意力工作而产生漏报和误报。漏报是指发生了安全威胁,但没有被系统或人员发现;误报是指安全活动被误认为是威胁而产生错误的报警。第二,响应时间长,监控人员无法及时发现控制场景内的异常情况,导致监控失效。这两种问题都会降低用户对视频监控系统的信任度。
视频行为分析技术利用计算机视觉和图像处理等技术对视频信号进行处理、分析和理解,并根据预定义的规则发出相应的控制信号。比如自动识别不同的物体,发现监控画面中的异常情况,并以最快的速度和最佳的方式发出警报和提供有用信息,从而更加高效地协助监控人员获取准确信息和处理突发事件;或者过滤掉监控人员不关心的信息,仅仅提供有用的关键信息,从而提高视频监控系统智能化和自动化水平。这种监控系统在特殊区域的接近控制、流量统计与阻塞分析、异常检测与报警、特殊身份识别与多摄像头的协同监控等方面具有极高的应用价值。
视频行为分析监控系统能有效解决传统的视频监控系统存在的监控效率低下和工作量大等问题,自从推出以来逐步成熟和实用,大大提高了视频监控的效率和效能。
基于规则的视频行为分析技术需要事先设定某种判定特征或者规则,即由人教会软件如何去识别异常,只有符合指定特征或者规则的异常行为才会引发报警响应。规则可以是边界、轨迹、时间窗口等,特征可以是物品状态、人脸或步态特点等。根据设定规则的不同,基于规则的视频分析技术可以衍生出许多不同的运用模式,例如运动目标的轨迹检测和追踪、周界警戒及入侵检测、物品状态检测、绊线检测等。
基于学习的视频行为分析技术一般利用无监督的机器学习算法,模拟人脑的观察过程来发现异常,具有感知记忆、场景关联、动作学习等性能。整个过程无需人的干预和设定,因而具有更高的智能性。
基于学习的视频行为分析技术综合感知机器学习和计算机视觉,利用对人类大脑学习和记忆过程研究的成果并将此过程应用到视觉数据的分析,实时、自动识别监控摄像机视野内的异常行为,使得安全人员能够更高效和快速地监视海量的视频信息。基于学习的视频行为分析技术的优势在于能精确地分类目标,例如人、车辆、动物等,以及高效地辨识和跟踪场景内的大量移动目标。这种技术就像人类对新环境的反应,行为分析通过眼睛(视频摄像头)观察场景,用大脑(机器学习软件)学习场景内正常行为,然后对异常行为产生响应,特别适用于人群聚集场合。
视频行为分析系统主要由管理单元、视频分析单元、智能分析单元、触发判定单元及响应单元等部分构成,完成观察、分类和报告摄像机记录事件的完整过程。在基于学习的视频行为分析中,视频分析和机器学习是两个最核心的部分,下面对这两个关键部分进行介绍。
这个单元包括预处理、背景去除、目标跟踪和目标描述四个部分,见图1。
预处理完成将连续编码的视频信号转换为视频帧的工作,要从标准的MPEG-4或H.264信号中解码出帧信号,或者直接使用模拟信号,这取决于系统的设置。
背景去除是从复杂的图像中提取目标,即从连续的视频帧中分离出不变的像素(代表背景),专注于变化的像素(代表前景移动的物体),除了要克服噪声和细微变化像素的影响,还必须考虑的关键因素是视觉场景改变(FOVC)的情况。摄像机的动作(推进、拉远或摇动)会产生视场变化,这种改变可以通过对背景的观察得到。光线的变化会产生突发照明改变(SILC),导致背景移除和跟踪算法混乱而立即跟踪所有的物体。不管何种原因产生视觉场景改变,FOVC处理器都会感觉到这些变化,发出系统告警,停止背景去除运算,等待场景稳定后,从先前观察的背景库中识别新的背景,如果匹配,则加载场景记忆继续处理,如果没有匹配的,就开始新的学习过程。
跟踪过程就是关联多个视频帧之间的相同目标,以理解目标如何在场景中移动,收集其位置、速度和加速度。为了跟踪多个目标,还利用目标缓存器建立跟踪目标列表。传统的基于规则的方法利用预定义的库来区分目标,而基于学习的方法首先利用宏分类的方法测量目标的多个属性,例如外观比例、亮度、颜色等,然后这些描述信息连同目标列表一起编码,送到下一步作进一步的分析。
图1 视频分析单元的工作流程
视频分析单元只负责观察场景内除了背景的所有事物,而不管它是什么、移动还是静止。所以它观察到树枝摇摆、灌木移动,观察到汽车、人、兔子或鸟,然后记录这些目标的动作,并描述其属性。
这个单元通过建立记忆和假设概念来模拟人脑。它能够自动学习,类似于反映人脑形成记忆和认知关联的方式。这些假设概念使得所观察的行为模式能够形成、存储和衰退,并经过一段时间后“遗忘”,这种模式不断优化而成为结构,以解释系统的观察结果。假设概念随着时间而成熟,系统能从观察中学习、记忆行动模式,适应环境、视场和设备的改变,不需要人的干预。
图2 机器学习单元的工作流程
机器学习单元分为语义表达、建立模型、识别循环、算法处理、记忆五个阶段,见图2
第一个阶段是语义表达。语义表达将计算机视觉观察到的跟踪目标和目标描述转换成描述场景的语言流,然后输出到识别循环。很多机器学习技术基于符号和文本,而不是视觉数据,所以必须将视觉数据转换为机器学习算法能理解的语言。这个过程分三步完成,第一步是段空间划分,它将场景划分为区域,以理解目标在哪里、如何移动和通过场景的路径;第二步是基本事件检测,是一种压缩观察数据的方法,即把事件的描述信息用连接语法压缩成描述序列;第三步是形式语言学习,建立目标的形式语言向量序列,以描述目标的轨迹信息。这三步的信息连同原始的跟踪目标信息一起被编码为语法符号流,送入识别循环,然后生成机器学习建立的不同模型的基础。
目标描述的数据经过类型聚合后,动态地形成目标类型,这是一个无监督学习、动态发现目标类型的技术。基于规则的系统需要事先建立一套特征库进行匹配,而基于学习的系统并没有关于人或物是什么样子之类的先验知识。类型聚合能将具有相似形状的目标归类,这意味着经过一段时间的观察后,系统能理解任何类型的生物或非生物目标应该长什么样,各自行为有什么不同等。
第二个阶段是建立位置和动作模型。依靠自适应共振神经网络(ART),系统可以知道目标出现在场景的位置和速度等信息。此模型是基于空间和时间的,例如在特定位置的特定时间段内是否有目标出现。
第三个阶段是识别循环,它在更高抽象层建立更复杂和丰富的模型。识别循环包括工作空间和代码库,模仿人脑神经和认知过程,加工输入的语法符号流,然后输出到学习算法。
第四个阶段是各种不同的学习算法的处理。包括再一次使用ART网络和支持向量机(SVM)等,从而建立目标的行为模型和轨迹模型。这一阶段从更高更精确的层面理解目标,发现异常的行为。
第五个阶段是记忆。现阶段模拟了人脑记忆的三个阶段:感知关联记忆、情节记忆和长期记忆,并依靠这些记忆模型领会识别循环输出的符号流,并在更抽象的层面上理解场景。感知关联记忆中引入了假设概念的元件,这是一些相互链接的列表类型的数据模块,建立在一段时间内学习引擎的描述数据上。如果相同的数据模式重复出现,特定的假设概念就被标记为“兴奋的”,并拟用来构建抽象模型而进入情节记忆。也就是说,通过定期的观察,得到增强的假设概念用来构建更高的用来解释场景的抽象层,而没有得到增强的假设概念在一段时间后会衰退并消失。用同样的方法再将场景模型从情节记忆过渡到长期记忆,用来学习场景中目标之间的相互关系,建立交互模型。长期记忆用来描述目标的活动,而假设概念不仅描述目标的类型和活动,还描述目标之间的相互关系,例如人沿着路边行走和汽车在道路上行驶的不同。当人停下靠近道路上的一辆汽车并与之交互,那么对长期记忆中的假设概念就是异常,因为在长期记忆中没有关于这两个目标互动行为的描述。
依靠建立的4个模型:位置和动作模型、行为模型、轨迹模型和交互模型,系统就能在接下来的响应阶段决定哪些行为是异常的。
基于学习的视频行为分析技术具有广泛的应用前景,下面列举若干应用场景。
机场、港口、车站等人群流动场所。基于学习的视频行为分析技术特别适合对异常行为,例如故意遗留可疑物品、人群的突然聚集和散开等进行实时报警。系统不仅收集场景内重要目标的大小、颜色、形状、亮度、反光度、单个或群体的一部分出现等信息,还跟踪、观察单目标或群目标,进而分辨出展现某种行为的目标类型。如果加上人脸识别技术,还能自动锁定、跟踪场景内的特定人员并报警。
政府机关、军事重地、金融等限制性场所。基于学习的视频行为分析技术不仅能识别人,还能通过识别目标的颜色、饱和度和色调,区分制服和车辆,特别适合于安保人员和特定车辆经常出入的限制性场合。
商场、广场、商业街道等人群聚集场所。基于学习的视频行为分析技术能根据每个摄像头独特的视觉场景来自动辨识和分类目标,也就是目标分类规则是针对每个摄像头自适应的。更精确的目标辨识加上描述性的架构,使得系统能够学习人群运动模式,包括涌动方向、速度和聚集程度,从而对场景内异常的群体运动模式和拥挤情况进行报警。
视频行为分析技术在实践中逐步得到广泛应用,但在实施时还有一些复杂问题需要考虑。一是误报和漏报,这是所有监控系统重要的考量指标,误报率和漏报率不可能同时降低,要根据实际需要侧重选择;二是对画面质量的要求比较高,主要是每秒帧数和像素;三是对场所的选择和安装有一定的要求,比如摄像机的安装、调整和辅助照明设备;四是视频行为分析技术与其他手段联合使用的整合,例如被动红外传感器(PIR)、地面震动传感器等传统直线(或点式)传感器等。
总之,视频行为分析技术是视频监控发展的必然趋势,随着方法的不断成熟和计算能力的提高,必将得到愈来愈广泛的应用。
[1][EB/OL].http://www.policereview.com/sites/default/files/ppr/iss ues/ppr_fe b_mar11.pdf.
[2][EB/OL].http://www.brslabs.com/files/pdf/AISight_2%201_Fina l.pdf.
[3]视频行为分析技术[EB/OL].http://www.firscom.cn/case_43_58.html.
[4]刘安安.感知,思维,行为:层次化的视频内容分析技术研究[D].天津:天津大学,2010.
[5]张一.智能视频监控中的目标识别与异常行为建模与分析[D].上海:上海交通大学,2010.
[6]王立.步态识别及其在智能视频监控中的应用[J].淮北煤炭师范学院学报(自然科学版),2010(3):51-54.
[7]黄永鑫.基于视觉的运动人体行为分析技术研究[J].黑龙江科技信息,2010(27):27-29.
[8]姜丽芬,郑陶然.安全监控系统中的运动检测和运动方向的判定[J].天津师范大学学报(自然科学版),2004(2):45-49.
[9]刁一平.理性与务实——点评智能视频分析行业发展现状[J].智能建筑与城市信息,2010(9):44-46.
[10]徐杨,吴成东,陈东岳.基于视频图像的交通事件自动检测算法综述[J].计算机应用研究,2011(4):23-27.
[11]张俊芳.智能视频监控技术在监狱中的应用[J].价值工程,2010(35):33-35.
[12]25万只“智慧之眼”守护大武汉[EB/OL].http://ctdsb.cnhubei.com/html/ctdsb/20111229/ctdsb1608090.html,2011-12-19.
TP309
A
1673―2391(2012)05―0175―03
2012—01—10
张俊,男,湖北应城人,湖北警官学院信息技术系;任延珍,女,陕西西安人,武汉大学计算机学院。
本研究得到2011年湖北公安中心工作理论研究课题支持。
【责任编校:李 烽】