基于内容的海量监控视频的多层次检索系统

2014-09-18 00:16:22郑海波韩小萱史云静朱秀昌
电视技术 2014年19期
关键词:关键帧直方图人脸

郑海波,韩小萱,史云静,李 洁,朱秀昌

(南京邮电大学江苏省图像处理与图像通信重点实验室,江苏南京210003)

随着多媒体技术的高速发展以及人们安全意识的提高,越来越多的场合安装了监控设备。监控视频的数量与日俱增,如何有效地从海量的监控视频中检索出感兴趣的视频或片段,成为当今国内外研究的热点[1-5]。传统的视频检索(video retrieval),是根据视频的时间地点查找,然后人工寻找所需要的视频片段。然而很多情况下,视频的时间和地点是未知的,如果想要从海量的监控视频中查找到所需要的视频,就会花费大量的人力和物力。基于内容的视频检索(Content-Based Video Retrieval,CBVR)技术,可以有效地解决这一问题。因此,基于内容的视频检索更加符合人们的需求,研究监控视频库的系统结构和检索技术具有十分重要的意义。

目前的基于内容的视频检索系统主要是利用视频处理技术,通过对视频内容进行分析处理,将视频分割成不同的场景和片段这两个层次,然后提取出视频片段中的纹理、颜色、形状、运行等全局特征,最后通过特征的匹配来实现视频的检索。这方面比较有代表性的系统是 Fischlar系统[6]和 IBM 公司的 Multimedia Search and Retrieval System[7]。而日常生活中的监控视频与普通视频相比,有如下特点:1)监控视频的背景变化缓慢。因为一般监控摄像头都是固定在某一特定的场合,其录制的监控视频都是在某一特定场合下的视频;2)监控视频有较大的冗余。监控视频中经常会出现较长的“静止”画面;3)监控视频中最感兴趣的信息一般是行人、车辆等。因此,针对监控视频的这些特性,使用类似于Fischlar系统等系统,会产生建立索引的计算量太大,检索效率低以及不能有效检索所需要的感兴趣信息(行人、车辆等)等问题。

本文提出了一种基于内容的监控视频检索系统的构建方法。根据监控视频的场景变化缓慢的特点,使用关键帧提取技术[8-9]来生成视频摘要,通过精简的关键帧图像来反映监控视频的主要信息。人们通常对监控视频中的行人、人脸以及车辆等信息更感兴趣,因此利用机器学习方法对这些感兴趣区域进行识别,然后提取出关键帧图像中的车辆图像、行人甚至人脸图像。将生成的这些图像信息及监控视频之间建立关系映射,并存储在关系型数据库中。然后利用开源的CBIR(Content-Based Image Retrieval)工具 Lucene Image Retrieval[10-12]构建基于内容的图像检索系统。首先分别将生成的关键帧图像、车辆图像、行人图像和人脸图像建立基于颜色、纹理、边缘等特征的索引,形成多层次的信息数据库。然后根据用户输入的待检测图像,检索出相同或者相似的目标图像,再根据关系型数据库中保存的目标图像与监控视频的对应关系找到对应的监控视频。最终完成了根据图像内容检索目标监控视频的目的。因此,本文提出的基于内容的海量监控视频的多层次检索系统主要包含关键帧提取子系统、车辆检测子系统、行人检测子系统、人脸识别子系统、视频数据库管理子系统、基于内容的图像检索子系统、数据库管理子系统、Web应用和用户交互界面等模块。实验表明,该系统能够高效准确地检索出所需监控的视频。该系统采用Java Web开发技术,B/S(Browser/Server)系统架构,具有很强的实用性、可移植性及可扩展性。

1 相关技术

1.1 关键帧提取

视频摘要技术主要分为两大类,即关键帧(Key Frames)技术和缩略视频(Video Skim)或浓缩视频(Video Synopsis)技术[13]。结合监控视频的特点,本文使用的是关键帧技术。常见的关键帧算法有:帧差法(Frame Difference),近似平均法(Approximate Median),混合高斯法(Mixture of Gaussian)。本文选取效果较好的混合高斯法。在用混合高斯模型法获得关键帧时,首先建立混合高斯模板[14-15],通过计算新建像素模板与已知模板的相符程度判断某一像素属于前景还是背景。学习速率的选择对背景图像的准确性有一定的影响,更新速度过慢会延长背景建立的时间;更新速度过快又可能将短暂停留的前景目标误当作背景。

1.2 行人检测和车辆检测

基于高斯混合模型,获得了能够体现视频内容的关键帧集合。由于同一场景下占有视频帧较大比例的背景图像变化不明显,直接用关键帧进行检索的准确率大大降低,这就要求对检索范围进一步缩小。在监控视频中,行人和车辆是主要关注的目标,因此采用HOG(Histograms of Oriented Gradients)[16]的方法来检测行人与车辆。HOG训练样本时分为两大部分,包括特征提取和训练方法,流程图如图1所示。特征提取的流程包括:色彩的伽马归一化,梯度的计算,构建以cell为单位的利用梯度幅值作为加权方案的方向直方图,将多个cell单元的方向直方图组合为更大的区间块block并对block内的直方图向量进行标准化,最后合并检测窗口内的block直方图向量。训练方法采用的是支持向量机(Support Vector Machine,SVM)[17]中简单的线性SVM训练得到检测行人和车辆的相关系数,使用SVM进行目标检测的流程如图1所示。

图1 HoG样本训练与SVM目标检测流程图

1.3 人脸检测

对于检索到的行人图像,对其进行人脸检测,以提高检索的效率。本文中人脸检测采用的是Viola P等人提出的级联 Adaboost方法[18],利用积分图法来加快Haar矩形特征的计算,利用多个最佳弱分类器训练到强分类器。在检测人脸时使用级联的方法来加快检测速度达到实时检测的要求。图2是人脸检测中分类器训练的流程图和人脸检测的流程图。

图2 级联分类器的训练与人脸检测流程图

1.4 CBVR框架LIRe

LIRe是使用Java编程语言开发的一个可扩展的开源CBIR库[11]。其中,Lucene是Apache软件基金会项目组下的一个开源的全文检索引擎包,它使用Java开发,开发人员很容易对其扩展,以定制自己的检索引擎。LIRe就是在Lucene的基础上,结合图像的颜色、边缘、纹理及局部特征,构建CBIR引擎包。LIRe使用的主要图像特大致可以分为如下几类:

1)颜色,如颜色布局(Color Layout)、可变长颜色(Scalable Color)、自动颜色关联图(Auto Color Correlogram)、联合直方图、RGB颜色直方图、Opponent颜色直方图等。

2)边缘,如边缘直方图(Edge Histogram),分层梯度方向直方图(Pyramid Histogram of Oriented Gradients),颜色和边缘的方向性描述符(Color and Edge Directivity Descriptor,CEDD),模糊颜色和纹理直方图(Fuzzy Color and Texture Histogram,FCTH)等。

3)纹理,如 Tamura Texture Features(粗糙度、对比度、方向度等心理学上的纹理特征)、Gabor纹理特征等。

4)局部特征,如尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)等。

LIRe检索图像分为2个步骤:1)索引文件的生成,即特征库;2)根据用户输入的图像,从特征库中查询出相同或相似的图像。图3是LIRe对一幅图像生成索引的流程示意图。从图中可以看出,LIRe首先提取图像的颜色、纹理等特征,然后用对应的直方图数组来表示图像。最后,按照Lucene的索引格式,将特征数据写入到索引文件,形成“特征库”。另外,索引文件中还保存了图像的其他信息,如图像的名称、图像所在路径等。

图3 LIRe对一幅图像生成索引文件的示意图

LIRe检索图像的过程示意图如图4所示,检索图像需要经过如下步骤:

1)对用户输入的图像进行特征提取,生成相应的特征向量A;

2)逐个读取“特征库”中的特征向量B;

3)计算输入图像的特征向量A与向量B之间的“距离”;

4)按照“距离”的数值,从小到大排序。距离越小,说明两者图像越相近。

图4 LIRe检索图像的过程示意图

不同特征类型的特征向量之间的距离衡量标准是不同的,比如,对于边缘特征,使用l1范数,即设U,V分别代表2幅图像的边缘特征向量,它们之间的距离d表示为

式中:L为向量的长度。而且对于特征,比如颜色特征,使用l2范数距离,即

而CEDD特征则使用Tanimoto系数,然后将Tonimoto系数转化为距离。Tanimoto系数的定义为

特征之间的距离d与Tanimoto系数之间的转化关系为

总之,通过计算特征之间距离,寻找出最相似的图像,由于之前特征库中保存了图像的名称、路径等信息,这样就能够找到与之相类似的原图像,进而完成了“以图搜图”的全过程。

1.5 Java Web开发框架

本系统使用 Java Web开发技术,系统前端使用JavaScript、Html和Jquery技术,系统后端采用 Struts2+Spring+Hibernate三大主流开源框架开发。结合LIRe完成基于内容的图像检索子系统。同时,用Web的方式管理视频库、图像库和特征库。同时为该系统设计了用户管理模块。普通用户可以通过上传图像,从多个层次检索所需视频。系统管理员拥有普通用户的权限之外,还可以管理视频库、图像库和特征库,控制索引文件的分布和存储。整个系统具有图像上传、图像特征选取、监控视频播放等功能。用户只需要使用浏览器就可以使用该系统,充分体现了B/S架构的优点。

2 系统设计

2.1 多层次信息数据库设计

多层次信息数据库的结构图如图5所示。首先,通过关键帧提取子系统提取出监控视频中的关键帧图像,这些关键帧图像能够反映监控视频的主要内容,在一定程度上去除了监控视频的冗余信息。其次,使用行人检测子系统和车辆检测子系统对关键帧图像当中的行人和车辆进行提取,同时,对于行人图像,再使用人脸识别子系统提取出行人中的人脸图像,进一步提取出了监控视频中最感兴趣的部分。最后,使用LIRe索引生成模块对生成的图像分别建立含有图像特征的特征库,即Lucene的索引文件,以备检索。另外,为了能够根据检索出的图像查找到该图像所在的视频,将视频与图像的关系保存在关系型数据库中。因此,最终得到的多层次信息数据库包括视频库、关键帧图像库、行人图像库、车辆图像图、人脸图像库以及它们之间的关系数据库和特征库。

图5 多层次信息数据库的结构图

2.2 检索框架设计

系统采用B/S架构,使用Java Web开发技术,将系统的各个模块整合成一个多层次的检索系统。图6是系统的检索框架图,用户可以从监控视频的场景图、行人图像、车辆图像或者人脸图像4个角度对监控视频进行检索。

图6 系统的检索框架图

检索过程如下:

1)用户使用浏览器,登录系统的Web页面,从本地选择1幅图像(场景、行人、车辆或人脸),同时需要选择检索时所需要的图像特征;

2)浏览器将图像上传到Web服务器后台;

3)服务器后台调用LIRe检索模块,根据用户选择的特征,对图像进行特征提取,生成特征向量;

4)LIRe模块读取特征库,将特征库中的特征向量与待检测图像的特征进行对比,选择最相近的多幅图像,根据相识度排序,生成图像集;

5)根据关系数据库中图像与视频之间的对应关系,检索到与该图像对应的视频;

6)后台程序将检索结果和检索时间等信息反馈到前端,供用户浏览观看。

3 检索实验

整个海量监控视频检索系统部署在4台Sugon天阔I420r-G型流媒体服务器和2台Sugon海量存储服务器上,系统总存储容量为24 Tbyte,操作系统版本为Ubuntu Server 12.04LTS,JDK 版本为 OpenJDK6,Web 容器为Tomact6,系统使用的关系型数据库为MySQL数据库。监控视频素材为选自公司内部监控视频、交通路口监控视频以及室内监控视频等,数据量为15 Gbyte。系统主要分为检索模块、索引管理模块和系统管理模块,用户在第一次进行检索之前,需要使用索引管理模块生成对应的特征库。

图7~图9表示了一个检索实例,其中图7为用户选择CEDD特征作为检索特征的检索入口页面。图8为用户上传的待检索图像。图9为检索结果的页面。从检索结果的页面中可以看到,用户能够检索出与之相同或相似的行人图像,并根据检索结果与原图像之间的“距离”依次排序。最右边一列为检索结果图像所属的监控视频,用户可以对视频进行浏览和播放。同理,用户也可以上传车辆图像、人脸图像或者场景图像对监控视频进行检索,同样能够得到相应的监控视频。

图7 检索界面(截图)

图10是系统在当前配置下,不同特征下的平均检索时间,横坐标是图像特征,纵坐标是检索所需要的平均时间。从图中可以看出,在系统在当前实验环境下,能够实时地检索出所需要的视频。

图10 不同特征下系统检索需要的平均时间

4 结束语

针对海量监控视频,本文提出了基于内容的多层次检索方案。依次从监控视频中提取有效的关键帧图像、行人图像、车辆图像以及人脸图像等多层次信息,然后利用基于内容的图像检索技术,建立完善的特征库和关系型数据库,同时结合Web开发技术,形成一套完整的监控视频的检索系统。系统采用B/S架构,使其具有很强的实用性和可扩展性,并且支持海量监控视频的检索。从实验结果可以看出,该系统具有较好的实时性,并能够较准确地检索出相应的监控视频。今后的研究工作主要是:进一步提高检索的实时性和准确性,同时提高整个系统的健壮性和稳定性。

:

[1] PATEL B V,DEORANKAR A V,MESHRAM B B.Content based video retrieval using entropy,edge detection,black and white color features[C]//Proc.2010 2nd International Conference on Computer Engineering and Technology(ICCET).[S.l.]:IEEE Press,2010:272-276.

[2] JONES S,SHAO L.Content-based retrieval of human actions from realistic video databases[J].Information Sciences,2013(236):56-65.

[3] KEKRE H B,THEPADE S D,GUPTA S.Content based video retrieval in transformed domain using fractional coefficients[J].International Journal of Image Processing(IJIP),2013,7(3):237-247.

[4] LEE F,KOTANI K,CHEN Q,et al.Fast search for MPEG video clips from large video database using combined histogram features[C]//Proc.the World Congress on Engineering.London:[s.n.],2010:637-640.

[5]徐忠强.电视新闻节目基于内容的视频检索技术及实现[J].电视技术,2008,32(1):72-74.

[6] O'CONNOR N E,MARLOW S,MURPHY N,et al.Fischlar:an on-line system for indexing and browsing broadcast television content[EB/OL].[2013-12-20].http://www.lw20.com/2011050311769609.html.

[7] CAMPBELL M,HAUBOLD A,LIU M,et al.IBM research TRECVID-2007 video retrieval system[EB/OL].[2013-12-20].http://www.doc88.com/p-478420540695.html.

[8] BAYONA A,SANMIGUEL J C,MARTINEZ J M.Stationary foreground detection using background subtraction and temporal difference in video surveillance[C]//Proc.2010 17th IEEE International Conference on Image Processing(ICIP).[S.l.]:IEEE Press,2010:4657-4660.

[9] KOMAGAL E,VINODHINI A,SRINIVASAN A,et al.Real time background subtraction techniques for detection of moving objects in video surveillance system[C]//Proc.2012 International Conference on Computing,Communication and Applications(ICCCA).[S.l.]:IEEE Press,2012:1-5.

[10] LUX M,CHATZICHRISTOFIS S A.Lire:lucene image retrieval:an extensible java CBIR library[C]//Proc.the 16th ACM International Conference on Multimedia.Vancouver:[s.n.],2008:1085-1088.

[11] LUX M.Content based image retrieval with lire[C]//Proc.the 19th ACM International Conference on Multimedia.[S.l.]:ACM,2011:735-738.

[12] KOGLER M,LUX M.Robust image retrieval using bag of visual words with fuzzy codebooks and fuzzy assignment[C]//Proc.the 12th International Conference on Knowledge Management and Knowledge Tech-nologies.[S.l.]:ACM,2012:34-37.

[13] TRUONG B T,VENKATESH S.Video abstraction:a systematic review and classification[J].ACM Transactions on Multimedia Computing,Communications,and Applications(TOMCCAP),2007,3(1):3.

[14] ZIVKOVIC Z.Improved adaptive Gaussian mixture model for background subtraction[C]//Proc.the 17th International Conference on Pattern Recognition,2004.[S.l.]:IEEE Press,2004:28-31.

[15] ZIVKOVIC Z,HEIHDEN F.Efficient adaptive density estimation per image pixel for the task of background subtraction[J].Pattern Recognition Letters,2006,27(7):773-780.

[16] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//Proc.IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005.[S.l.]:IEEE Press,2005:886-893.

[17] CHANG C C,LIN C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology(TIST),2011,2(3):27.

[18] VIOLA P,JONES M.Rapid object detection using a boosted cascade of simple features[C]//Proc.the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2001.[S.l.]:IEEE Press,2011:511-518.

猜你喜欢
关键帧直方图人脸
统计频率分布直方图的备考全攻略
高中数理化(2024年1期)2024-03-02 17:52:40
符合差分隐私的流数据统计直方图发布
有特点的人脸
用直方图控制画面影调
三国漫——人脸解锁
动漫星空(2018年9期)2018-10-26 01:17:14
基于改进关键帧选择的RGB-D SLAM算法
基于相关系数的道路监控视频关键帧提取算法
基于聚散熵及运动目标检测的监控视频关键帧提取
基于直方图平移和互补嵌入的可逆水印方案
计算机工程(2015年8期)2015-07-03 12:20:21
马面部与人脸相似度惊人