王垚,叶光明
(1.武汉邮电科学研究院湖北武汉430074;2.武汉烽火众智数字技术责任有限公司湖北武汉430074)
视频摘要系统的研究与实现
王垚1,叶光明2
(1.武汉邮电科学研究院湖北武汉430074;2.武汉烽火众智数字技术责任有限公司湖北武汉430074)
基于安防领域需要快速检索监控视频中嫌疑人信息需求。本文设计了一种视频摘要系统,深入分析了该系统的设计目标和组成模型。在具体实现方面,该系统通过结合目标形状特征和运动特性来对目标进行分类,并依据目标的运动轨迹提取视频关键帧的方法合成视频摘要。系统完成后通过导入监控视频文件生成摘要验证测试,该视频摘要系统能在69.44%压缩比的前提下达到零误报率。实验结果,该视频摘要系统压缩比高,识别误差小,能极大提高检索视频中信息的效率。
视频检索;视频摘要;视频内容分析;摘要生成
视频监控已经成为现代安防、公共安全不可缺少的技术手段。但是,通常一个案件涉及的视频录像长达几十甚至上百小时数,需要十几人甚至是几十人花费大量的时间进行人工检索,导致案件的侦办错过侦破的黄金时间。此外,很多重要的线索或活动对象,在监控画面中仅仅出现十几秒甚至数秒,而这样的信息,散落在数十小时的视频中,人工查看视频时,极易遗漏这些转瞬即逝的重要信息。据IMF研究实验表明,在连续观察12分钟的视频图像时,观察者会错过45%的场景,而在连续观察22分钟后会错过95%的场景,从而忽略了许多重要细节。这使得视频录像和视频监控系统的真正有效使用率大为降低。即使有足够的人力和时间,通过人工查看原始视频的方式来捕捉转瞬即逝的线索,也存在遗漏重要线索的可能[1]。
传统视频线索的查找,犹如大海捞针,面临巨大的挑战。针对海量视频录像调阅慢、分析难等问题,急需采用智能化的手段,快速处理和检索海量视频,提高视频监控录像分析水平和工作效率,使人能在注意力最集中的数分钟内,高效的浏览视频所携带的主要信息,有效的捕捉线索和对象。
视频快速摘要检索算法是通过对原始视频中的运动目标进行分析,提取运动目标和背景图片,然后对各个目标的运动轨迹及特征进行分析,并将它们按照时间轴最优化分布的原则,重新排列目标在时间轴的位置,根据新生成的视频轴位置和各场景挑选出来的背景图像,重新合成新的视频图像即摘要视频,生成的摘要视频中的目标与原视频中的帧数据对应,同时可以根据目标相关特征(如人、车、物,大小,速度,颜色)等进行快速检索,实现目标的快速检索和定位[2]。
本文通过设计一种基于视频检索技术的视频摘要系统,能够解决在传统视频监控里的海量查询慢、相关搜索困难等问题。实现快速定位特定时间段的相关可疑目标,重现录像的时间段场景,降低办案人员后期录像取证的工作量。
基于视频检索的视频摘要系统采用C/S架构,具有如下特点:
1)视频摘要分析支持平台视频数据及主流的视频格式(AVX、AVI等格式)的录像文件,分析过程中显示进度等功能。
2)在浏览视频片段过程中,用户可快进、快退,统一设定所有移动物体的速度,以便方便快捷的找到感兴趣目标。视频剪辑也可作为一个原始视频流的索引。在任意时间,双击摘要视频中的对象便可回溯原始录像。
3)可以将摘要视频中所有时间全部标识出来,更加直观的查看事件。
4)把每个事件都加上时间标记,使用户可以直观的看到每个事件首次出现在视频的时间。
5)能够实现快放、慢放播放摘要视频的进度并调节播放显示的事件密度,可以调大和调小,便于更加有效的提取有效的事件。
6)能够实现对单个摘要处理后的文件,进行单独或者统一的事件的特征搜索,输入事件的颜色、尺寸、运动方向等信息,返回搜索结果。
该系统结构图如图1所示,用户将指定的摘要分析任务,通过中心管理单元下发给摘要分析单元,摘要分析单元进行视频摘要分析,分析完毕后,调用存储单元进行存储。视频摘要分析完毕后,用户可以通过中心管理单元向媒体单元请求摘要视频,媒体单元通过摘要合成单元获取摘要视频数据。用户可以根据特征来检索运动目标,并定位到运动目标出现的原始视频。用户可以根据快照来检索感兴趣的目标,并定位到运动目标出现的原始视频。
图1 系统总体结构图
智能视频分析技术源自计算机视觉与人工智能的研究,它是智能视频应用系统的核心功能。智能视频分析算法涉及到图像处理的多个技术领域,而其中最核心的是目标检测分类和目标跟踪两个模块。算法实施流程图及设计方案如图2所示。
1)目标分类算法
在视频摘要系统中,目标分类用来对视频场景中的运动目标进行分类标记,将目标分为人、车、物等3类。目标分类技术是视频摘要系统中的重要组成步骤,是行为理解与分析得重要依据。对视频摘要中检测到的运动目标进行分类,能够为工作人员进行可疑行为搜索查看减少工作量,同时大大提高了工作效率。目标分类工作是建立在目标检测和跟踪的基础之上的。目标提取的效果直接影响到目标分类的好坏。常用的分类方法包括:通过目标的形状来对目标进行分类的方法和通过目标的运动信息来对目标进行分类的方法[3]。
基于形状信息的分类指场景中的运动目标经过目标检测后,将运动目标从背景中分离出来,对独立的运动目标的形状特征进行分类。而基于运动特性的分类,简单来说,就是利用运动目标的速度、光流、周期性等运动信息进行分类。但基于运动特性的分类方法首先要很好地实现对运动目标的跟踪。其次在某些运动信息的使用上具有局限性,比如使用光流特征来进行分类的方法的计算量大,难以实现实时性的要求。
综合两种方法的优缺点以及视频摘要系统对于目标分类的实时性、准确性的要求,本文系统使用基于目标形状特征和运动特性相结合的方法来进行目标分类。采用运动目标的长宽比、离散度、梯度方向直方图等特征作为目标的描述子来进行分类,并实时更新每一个目标的特征以及分类结果来将目标的形状特征和运动特征结合起来对目标进行分类。
2)视频摘要系统中,目标跟踪技术就是确定在视频摘要系统中提取出的同一目标在不同视频帧序列时所处的位置。目标跟踪技术是视频摘要系统中的不可或缺的技术之一。要实现对摘要视频中的运动目标可以溯源到原始视频中其出现直至消失的位置就必须在进行视频摘要时对提取到的运动目标进行跟踪。常用的视频跟踪的方法包括:基于模型的跟踪、基于目标特征的跟踪[4]。
基于模型的跟踪是通过匹配目标模型来跟踪目标,该模型不仅能够表示出目标的区域信息,而且还能表达目标的立体构造、运动特性等。而在实际应用中,目标的精确模型的获得确实非常困难的,并且跟踪过程及其复杂,耗时无法满足实时性要求[5]。基于目标特征的跟踪:通过特征提取和特征匹配两个步骤,匹配目标的全局特征(如面积、周长)也有局部特征(如点、线)来对目标轨迹进行持续跟进。由于视频摘要系统中对于实时性、目标跟踪连续性、正确性有较高的要求,本文系统采取基于目标特征的跟踪方法。在提取到每一帧图像中的运动目标以后,再提取运动目标的特征,对帧间提取到的目标采用特征匹配的方法进行匹配,从而达到跟踪的目的。
图2 系统算法流程图
系统界面如图3、4所示分为5个部分。
图3 系统界面图
图4 系统界面图
1)摘要列表窗口
主要功能包括添加需要分析的摘要视频、删除添加的记录以及摘要的信息;开始分析摘要、停止分析摘要;开始播放摘要视频、停止播放摘要视频、设置播放基准时间等功能[6]。
2)摘要视频播放窗口
主要功能包括:显示摘要视频、显示摘要目标的运动框、出现时间;慢放、快放、暂停播放摘要视频;选择是否显示目标出现时间,以及目标框。
3)原始视频播放窗口
显示原始视频;快放、慢放、暂停播放原始视频;抓拍、下载录像到本地。
4)特征检索窗口
根据特征进行检索原始视频。
5)摘要快照窗口
显示摘要视频中的快照。并可以根据特征进行检索。
在网络视频监控平台建设深入开展的背景下,现有视频监控网络存在着缺乏深度应用的模式、监控网的智慧化程度不高、系统建设的投入产出比低等突出问题。如何用新技术改造现有的视频监控网络,使之能更好地适应物联网时代视频监控智慧化、情报化的应用需求已迫在眉睫。视频监控的应用瓶颈是视频信息如何高效提取,如何同其他信息系统进行标准数据交换、互联互通及语义互操作。解决这一问题的核心技术即是通过视频摘要检索技术来解决此问题。通过视频快速检索系统形成对海量数据深度挖掘,形成新一代的视频监控系统智慧化、语义化、情报化的语义视频监控系统。
视频快速摘要检索系统采用先进的图像处理技术,以视频摘要检索为解决方案,实现以机器自动处理为主的视频信息处理和分析视频快速摘要检索系统,快速提取监控录像中视频信息,并存储于中心数据库中。存储于数据库中的视频信息可以通过技术手段转化为安防、公检法工作可用的情报;实现监控网络之间、终端之间、职位之间的信息共享和主动互操作,实现主动监控、自动联网分析等网络功能;全方位拓展视频在安全工作中的应用模式,大幅度提高技术的易用性,实现以业务为中心的随时随地的灵活、简单、多样的视频按需服务应用。
[1]张铭铭.视频监控系统中图像增强技术的研究[D].济南大学,2009.
[2]王娟,蒋兴浩,孙锬锋.视频摘要技术综述[J].中国图像图形学报,2008,29(2):457_459.
[3]刘桂清.视频摘要技术的研究与实现[D].长沙:国防科技大学,2004.
[4]Wo1f W.Key Frame Se1ection by Motion Ana1ysis[C]//IEEE IntConf Acoust,Speech,and Signa1 Proc,1996.
[5]吴凌琳,杨磊,吴晓雨,等.视频摘要系统的技术研究与实现[J].中国传媒大学学报:自然科学版,2013,1(9):44_52.
[6]Gray Bradski,Adrian Kaeb1er.Learning OpenCV:Computer Vision with the OpenCV Library[M].O'Rei11y Media,2008.
Research and lmPlementatlon of Vldeo summarlzatlon technology
WANG Yao1,YE Guang_ming2
(1.Wuhan Research Institute of Posts and Telecommunications,Wuhan 430074,China;2.Wuhan FiberHome Digital Technology Co.,Ltd,Wuhan 430074,China)
Based on the demand of rapid retrieva1 of the suspect's information in survei11ance Video.A video abstracting system is designed in this paper.The system design goa1s and component mode1 are a1so deep1y ana1yzed.In terms of concrete imp1ementation,the system c1assify the targets by the shape and movement characteristic,and the video abstract is synthesized through the method of extracting video key frames based on the trajectory of the target.The abstract verification test is generated by importing survei11ance video fi1es after the system competed.This video abstracting system can achieve zero fa1se positive rate in the context of a compression ratio of 69.44%.The experiment resu1ts show that the video abstracting system has high
video retrieva1j video summarizationj video content ana1ysis;abstraction generation
TN919.8
A
1674_6236(2016)10_0184_03
2015_06_08稿件编号:201506078
王垚(1992—),女,湖北武汉人,硕士研究生。研究方向:通信与信息系统、图像模式识别。
compression ratio and 1itt1e identification error,can great1y improve the efficiency of retrieving video information.