近年来,随着视频监控网络化、高清化的逐步实现,视频监控系统的大量普及安装,监控系统所获取并存储的视频数据信号的容量正以很快的速度增长。从理想角度看,在这些视频信号中,包括了现实世界中的大量的信息,应该可以为我们的管理及安保工作带来巨大的价值。但是从现实的角度来看,在大型的监控系统中,依靠人工处理包含数以万计的视频数据集,并从中获取信息,是非常困难、甚至是不可能的。也因此,绝大部分监控系统所获取并存储的视频数据,成了存储在硬盘中无人使用的数据。
由于计算机和人两者之间存在着比较深的“语义鸿沟”,计算机所理解的低层次图像特征,与人类所理解的高层次语义信息,它们之间存在差异,视频监控数据也无法成为我们能够直接使用的信息。举例来说,我们在观看一段监控视频时,可以结合先验知识,判断出视频中奔跑的行人、交谈的人群、甚至行人之间的相互关系,以及情绪等更加细节的信息,计算机却不能这样,它只能获取图像色块、区域纹理或者运动方向等图像特征。
数据挖掘技术可以使我们能够从无法直接理解的图像特征信息中,获取到能够应用的语义信息,是一座架在“语义鸿沟”之上的桥梁,但是现阶段,在数据挖掘技术领域,视频数据的挖掘还是一个难题,视频数据是非规则的,且信息量非常庞大的一种数据格式,与文本数据不同,它并不具备文本数据那样的语法及段落等规则;总体来看,视频数据挖掘技术目前还处于初级阶段,但是有部分技术,例如车牌识别技术、视频入侵检测技术等已经到了较成熟的规模化应用阶段。另外,由于视频信号中包含的信息量很大,对于视频数据特征的融合和信息的提取都具有很高的难度。
在监控系统各个行业用户,迫切需要解决的问题是如何在海量视频数据中,提取出我们所能够应用到的信息,甚至是经过归纳总结的知识。但是由于视频监控中包含的信息量非常的庞大,不同行业客户,对于视频信息的提取的信息,及使用方式有存在着很大的差异。这样,要求针对不同行业客户的需求,监控技术的供应商能够提供不同的视频数据挖掘的解决方案。例如公安行业用户,在进行刑侦工作时要对大量视频进行目标查找,需要从视频中获取目标的身份信息,例如人员身份信息及车辆牌照信息等,它们在日常治安管理工作中,需要及时获取治安异常事件的信息,例如斗殴事件或者群聚性事件,及时从视频监控中获取这些信息,从而可以及时的处理;而高速公路行业用户,需要在收费处获取车辆的牌照信息,在道路监控视频中获取异常事件信息,例如拥堵事件、停车等,还需要提取例如车流量、平均车速等统计类信息以实现管理优化。视频质量信息,这些视频信息是各行业用户都需要的,例如,从视频数据中,获取的当前视频设备运行状态是否正常,对于各行业监控系统的运行维护,这些都有着很重要的作用。
在视频中挖掘的信息分为五类,分别是:目标身份信息、事件语义信息、视频统计信息及视频质量信息,目标图像特征信息、这是根据实际应用需求及应用方式的不同来分的。从视频中获取的可用语言描述的事件信息是事件语义信息,如有人奔跑、闯入区域、发生群聚性事件等,这类信息主要需要以报警的方式实时传递给用户,用户可以根据这类信息,实时对异常事件进行判断,并进行及时的处理。可描述的目标图像特征是目标图像特征信息,例如红色轿车、穿黑白条纹衣服的人员等,用户以报警的方式或者检索的方式使用这类信息称为目标身份信息,人员身份及车辆牌照信息,例如车辆黑名单报警或者嫌疑人照片检索。为了对目标进行快速定位用户,在刑侦工作中,可以利用这类信息在海量视频数据中进行检索。对视频质量进行诊断获取的对视频质量异常进行描述的信息称为视频质量信息,例如视频被遮挡、视频失焦、视频偏色等,用户可以利用这类信息进行监控系统的运行维护。从视频中获取的长时间统计数据称为视频统计信息,例如商场的客流量、交通要道的车流量等,用户可以利用这类信息进行管理工作的优化。
视频数据挖掘技术的实现方式可分为前端设备实现方式和后端设备实现方式两种。前端设备实现方式是指在各种前端监控设备中集成智能视频分析技术,以实现视频信息的实时挖掘;后端设备实现方式是指利用后端服务器集群,对前端监控设备采集的视频信息进行数据挖掘。一般而言,前端设备实现方式的优点是可以对视频数据进行实时分析,并具有根据视频分析算法的需要对前端设备进行成像控制的能力,对于信息实时性或者视频成像特性有特定要求的数据挖掘技术更适合用前端设备实现方式。视频数据挖掘技术可以根据需要,在IP摄像机、NVS、NVR和网络球机等多种前端设备中集成。
在后端,视频数据挖掘技术的实现在于可以利用服务器集群提供更强大的处理能力,并可实现多路视频数据之间的信息融合,同时对多路视频数据进行处理。视频数据挖掘技术在后端服务器集群中实现,由于具有高度的灵活性及扩展性的云计算平台,后端实现方式优秀的承载平台,随着云计算技术的发展及成熟,或许在不远的将来云计算平台将在视频数据挖掘技术中发挥着很重要的作用。
根据其应用及技术特点,不同的视频数据挖掘技术需要采用不同的实现方式。有些信息在数据挖掘的过程中需要对成像设备进行控制,或者信息的应用对于实时性有较高的要求,这类数据挖掘技术就适用于前端设备来实现,例如,事件语义信息的提取,用户需要及时的获取这类信息以做出应对,这类信息一般以报警的方式呈现给用户的挖掘技术就适合用前端设备实现。又例如,有些数据挖掘技术在前端摄像机中实现具有较大的优势,如车牌信息的提取及人脸图像的检测,为了获取高清晰度的图像,一般需要对成像设备进行实时的控制,例如摄像机的曝光时间、摄像机增益值等,以并保证所获取信息的精确度。而对于视频质量信息和统计类的信息,这些信息对于实时性和处理能力的要求并不高,用两种前端和后端两种方式都可以实现。
有时,在一些数据的挖掘的过程中,需要对多路视频数据进行信息融合,这需要提供很强的计算能力支撑系统,这类数据挖掘技术就适用于后端实现方式。例如公安部门在刑侦工作中,需要完成对海量视频数据中,具有一定特征的目标进行检索,并且需要在较短的时间内完成,而利用服务器集群的后端实现方式,就可以提供高密度计算能力的支撑。
视频数据挖掘的目的是建立底层视频数据到高层语义信息之间的映射关系,由于这种映射关系比较复杂,一般采用多层次的信息提取及映射技术来最终实现数据挖掘过程。在视频数据挖掘过程中,从底层的视频数据中首先提取低层图像特征信息,包括图像纹理、图像色块、运动矢量、图像边缘、灰度直方图等信息,这类信息无法为我们所直接理解,它们是提取元语义信息的基础。然后利用目标检测、目标跟踪、特征比对等手段从图像特征中提取元语义信息,包括运动目标、运动目标轨迹、车牌图片、人脸图片等,这类信息已经可以为我们所理解,但是离最终应用还有距离。最后将元语义信息融合为高层的语义级描述信息,例如融合运动目标轨迹信息及用户设计的禁区信息所生成的描述内容为“发现有人闯入禁区”的语义级报警信息,再例如融合目标行人目标检测信息及运动轨迹信息可以生成客流量统计报表等,随着提取信息的层次越高,其包含的信息量逐步减少,其信息的抽象程度越高,也更接近我们所能应用及理解的范畴。
不同行业对于视频信息的需求及应用方式是截然不同的,因此很难开发出一套通用的视频数据挖掘技术去适用于各个行业。因此,在现有的技术发展水平下,根据各行业的需求,开发专用的视频数据挖掘系统是比较合理的做法。视频数据挖掘技术可以从视频中获取描述运动目标的各种元语义信息,并结合用户事先设定的规则生成报警事件描述性语义信息,并及时通知用户,使用户能够及时对这类事件做出反应。这类视频数据挖掘技术已经发展到一定的成熟度,并在机场、铁路、监狱、油田、住宅小区等监控领域有了较多的应用,但是这类技术具有比较强的场景依赖性,在比较复杂多变的场景下其应用效果还需要进一步提升。目前,由于技术上的限制,从视频中挖掘的统计信息虽无法保证百分之百精确,它的优势在于成本低廉且获取的数据量庞大。监控视频中包含了大量统计类信息,这类信息对管理优化及决策辅助有宝贵的应用价值,例如对于连锁行业客户,连锁店的客流量、保有量及客户购买率等信息非常重要,而现阶段,要获取这一类的信息,一般只能靠成本非常昂贵的人工方式来统计,利用视频数据挖掘技术,我们可以通过安装在连锁店门口的摄像机,来获取进出店门的人员视频,并从视频中获取进出人员,人员运动轨迹等信息,并最终根据用户设定的需求来生成各类统计报表。