浦世亮
浅析视频数据挖掘技术在监控系统中的应用
浦世亮
近年来,随着视频监控系统的大量普及安装,监控系统所获取并存储的视频数据容量正以惊人的速度增长。从理想角度看,这些视频包含了现实世界中的大量信息,应该为我们的管理及安保工作带来巨大的价值。但是从现实角度看,依靠人工处理包含数以万计的视频数据集,并从中获取信息,是非常困难、甚至是不可能的。也因此,监控系统所获取并存储的绝大部分视频数据成了存储在硬盘中无人使用的数据,使我们陷入了一个数据爆炸却信息匮乏的困境。
视频数据之所以无法成为我们能够直接使用的信息,是因为两者之间存在着“语义鸿沟”,即计算机所理解的低层次图像特征与人类所理解的高层次语义信息之间的差异。举例来说,人类在观看一段监控视频时,可以迅速结合先验知识判断出视频中奔跑的行人、交谈的人群、甚至行人之间的相互关系及情绪等更加细节的信息,而计算机只能获取图像色块、区域纹理或者运动方向等图像特征。
数据挖掘技术正是一座架在“语义鸿沟”之上的桥梁,使我们能够从无法直接理解的图像特征信息中获取到能够应用的语义信息。但是现阶段视频数据的挖掘在数据挖掘技术领域还是一个难题,与文本数据不同,视频数据是非规则的且信息量非常庞大的数据格式,它不具备文本数据那样的语法及段落等规则;另外,视频中包含的信息量相当庞大,对于视频数据的特征融合及信息提取具有较高的难度。所以总体来看,视频数据挖掘技术目前还处于初级阶段,但是有部分技术已经到了较成熟的规模化应用阶段,例如车牌识别技术、视频入侵检测技术等。
如何从海量视频数据中提取到我们所能应用的信息,甚至是经过归纳总结的知识,无疑是监控系统各个行业用户都迫切需要解决的问题。但是视频包含了非常庞大的信息量,不同行业客户对于视频信息的提取及使用方式有很大的差异性。这就要求监控技术的供应商能够针对不同行业客户的需求提供不同的视频数据挖掘解决方案。举例来说,公安行业用户在日常治安管理工作中需要从视频中及时的获取治安异常事件的信息,例如斗殴事件或者群聚性事件,从而可以及时进行处理;在进行刑侦工作时要对大量视频进行目标查找,需要从视频中获取目标的身份信息,例如人员身份信息及车辆牌照信息等。而高速公路行业用户需要在收费处获取车辆牌照信息,在道路监控视频中获取异常事件信息,例如拥堵事件、停车等,还需要提取例如车流量、平均车速等统计类信息以实现管理优化。还有一些视频信息是各行业用户都需要的,例如视频质量信息,即从视频数据中获取的当前视频设备运行状态是否正常的信息量,这对于各行业监控系统的运行维护都有着重要实用价值。
根据实际应用需求及应用方式的不同,可以将视频中挖掘的信息分为五类,分别是:事件语义信息、目标身份信息、目标图像特征信息、视频统计信息及视频质量信息。事件语义信息是指从视频中获取的可用语言描述的事件信息,例如有人闯入区域、有人奔跑、发生群聚性事件等,这类信息主要以报警的方式实时呈现给用户,用户可以根据这类信息实时对异常事件进行判断并进行处理。目标身份信息主要是指人员身份及车辆牌照信息,用户以报警的方式或者检索的方式使用这类信息,例如车辆黑名单报警或者嫌疑人照片检索。目标图像特征信息是指可描述的目标图像特征,例如红色轿车、穿黑白条纹衣服的人员等,用户在刑侦工作中可以利用这类信息在海量视频数据中对目标进行快速定位。视频统计信息是指从视频中获取的长时间统计数据,例如商场的客流量、交通要道的车流量等,用户可以利用这类信息进行管理工作的优化。视频质量信息是指对视频质量进行诊断获取的对视频质量异常进行描述的信息,例如视频被遮挡、视频失焦、视频偏色等,用户可以利用这类信息进行监控系统的运行维护。
视频数据挖掘技术的实现方式可分为前端设备实现方式和后端设备实现方式两种。前端设备实现方式是指在各种前端监控设备中集成智能视频分析技术,以实现视频信息的实时挖掘;后端设备实现方式是指利用后端服务器集群,对前端监控设备采集的视频信息进行数据挖掘。一般而言,前端设备实现方式的优点是可以对视频数据进行实时分析,并具有根据视频分析算法的需要对前端设备进行成像控制的能力,对于信息实时性或者视频成像特性有特定要求的数据挖掘技术更适合用前端设备实现方式。图1是视频数据挖掘技术前端实现方式的拓扑图,视频数据挖掘技术可以根据需要在DVS、DVR、IP摄像机及网络球机等多种前端设备中集成。视频数据挖掘技术的后端实现方式的优点在于可以利用服务器集群提供更强大的处理能力,并可同时对多路视频数据进行处理实现多路视频数据之间的信息融合。图2是视频数据挖掘技术后端实现方式的拓扑图,视频数据挖掘技术在后端服务器集群中实现。云计算平台由于具有高度的灵活性及扩展性,是视频数据挖掘技术后端实现方式优秀的承载平台,随着云计算技术的发展及成熟,或许在不远的将来,云计算平台将在视频数据挖掘技术中有大量应用。
不同的视频数据挖掘技术根据其应用及技术特点需要采用不同的实现方式。有的信息对于实时性及处理能力的要求不高,用两种方式都可以实现数据挖掘,例如视频质量信息及统计类的信息。而有些信息的应用对于实时性有较高的要求,或者在数据挖掘的过程中需要对成像设备进行控制,这类数据挖掘技术就适用于前端设备实现方式,例如,事件语义信息的提取,这类信息一般以报警的方式呈现给用户,用户需要及时的获取这类信息以做出应对,这类信息的挖掘技术就适合用前端设备实现。又例如,车牌信息的提取及人脸图像的检测,一般需要对成像设备进行实时的控制,例如摄像机的曝光时间、摄像机增益值等,以获取高清晰度的图像并保证所获取信息的精确度,因此这类数据挖掘技术在前端摄像机中实现具有较大的优势。
有一些数据的挖掘过程中需要系统提供很强的计算能力支撑,或者需要对多路视频数据进行信息融合,这类数据挖掘技术就适用于后端实现方式。例如公安部门在刑侦工作中需要用到的目标特征信息——在刑侦过程中,需要在较短的时间内完成对海量视频数据中具有一定特征的目标进行检索。在这类应用中,需要系统在短时间内完成对海量视频数据中的目标特征进行提取及检索,因此利用服务器集群的后端实现方式就可以提供高密度计算能力的支撑。又例如,对人员身份信息的检索,用户需要输入目标人员的人脸图片在海量视频数据中对该目标人员进行检索。在这类应用中需要对海量视频数据进行人脸检测并建立人脸特征库,并在人脸特征库中检索出特征相似的目标,由于涉及多路视频数据的信息融合建立人脸特征库,因此需要应用后端实现方式。
视频数据挖掘的目的是建立底层视频数据到高层语义信息之间的映射关系,由于这种映射关系比较复杂,一般采用多层次的信息提取及映射技术来最终实现数据挖掘过程,其信息提取的层次模型可以由图3表示。在视频数据挖掘过程中,从底层的视频数据中首先提取低层图像特征信息,包括图像纹理、图像色块、运动矢量、图像边缘、灰度直方图等信息,这类信息无法为我们所直接理解,它们是提取元语义信息的基础。然后利用目标检测、目标跟踪、特征比对等手段从图像特征中提取元语义信息,包括运动目标、运动目标轨迹、车牌图片、人脸图片等,这类信息已经可以为我们所理解,但是离最终应用还有距离。最后将元语义信息融合为高层的语义级描述信息,例如融合运动目标轨迹信息及用户设计的禁区信息所生成的描述内容为“发现有人闯入禁区”的语义级报警信息,再例如融合目标行人目标检测信息及运动轨迹信息可以生成客流量统计报表……随着提取信息的层次越高,其包含的信息量逐步减少,其信息的抽象程度越高,也更接近我们所能应用及理解的范畴。
不同行业对于视频信息的需求及应用方式是截然不同的,因此很难开发出一套通用的视频数据挖掘技术去适用于各个行业。在现有的技术发展水平下,比较合理的做法是根据各行业的需求开发专用的视频数据挖掘系统。以下笔者将着重介绍异常事件报警应用及客流量统计应用。
监控系统的主要用途之一是为了在监控场景中发生各类异常事件时,用户可以及时发现这类事件并进行处理,但是在缺少视频数据挖掘技术时,监控系统很难发挥应有的效能。视频数据挖掘技术可以从视频中获取描述运动目标的各种元语义信息,并结合用户事先设定的规则生成报警事件描述性语义信息,并及时通知用户,使用户能够及时对这类事件做出反应。这类视频数据挖掘技术已经发展到一定的成熟度,并在机场、铁路、监狱、油田、住宅小区等监控领域有了较多的应用,但是这类技术具有比较强的场景依赖性,在比较复杂多变的场景下其应用效果还需要进一步提升。
监控视频中包含了大量统计类信息,这类信息对管理优化及决策辅助有宝贵的应用价值,例如连锁店的客流量、保有量及客户购买率等信息对于连锁行业客户非常重要,现阶段要获取这类信息一般只能靠人工方式统计,成本非常昂贵。视频数据挖掘技术可以通过安装在连锁店门口的摄像机获取进出店门的人员视频,并从视频中获取进出人员及人员运动轨迹等元语义信息,并最终根据用户设定的需求生成各类统计报表。目前,由于技术限制,从视频中挖掘的统计信息虽无法保证百分之百精确,但是其胜处在于获取的数据量庞大且成本低廉。
监控视频数据是埋藏了大量有用信息的“宝库”,由于巨大的“语义鸿沟”存在,我们一直以来对这座宝库可望不可及,借助数据挖掘技术这座“桥梁”我们有望跨越这条鸿沟。然而由于视频数据包含的信息非常庞大且各行业对于信息的需求不同,不同的视频数据挖掘技术的成熟度有所不同,有些已经可以成熟应用,而有些还处于起步阶段,需要监控技术供应商及集成商付出长期的努力来完善该类技术。
作者为杭州海康威视数字技术股份有限公司项目总监