曾文献,李 伟,郭兆坤
(河北经贸大学,河北 石家庄 050061)
视频数据挖掘技术综述
曾文献,李 伟,郭兆坤
(河北经贸大学,河北 石家庄 050061)
视频数据挖掘技术旨在挖掘出视频数据中隐藏的、有价值的信息,来实现对视频的充分利用。通过对国内外视频数据挖掘的研究与分析,对视频数据挖掘技术进行了概述,详细阐述了基于特征和基于内容的视频挖掘技术,最后总结了视频数据挖掘系统所面临的挑战以及对全景视频挖掘的展望。
视频挖掘; 基于特征视频挖掘; 基于内容视频挖掘
随着科技的进步,人们现在越来越容易获取和存储各种视频,如何对视频进行处理,获取视频中蕴含的、有价值的信息,以实现对视频数据的充分利用,已引起广大数据挖掘研究者的兴趣。视频是一组连续的图像并常伴有音频、文字等信息,对视频来说,往往具有图像特征、音频特征、文本特征和物理特征等,图像特征包括颜色、纹理、形状和运动特征等,音频特征包括音色特征、音质特征等,文本特征包括字幕、简介等,物理特征包括视频大小、格式等,根据视频所具有的特征可以对视频进行挖掘,从而发现视频中隐藏的知识和模式。视频种类的不同,其所表达的内容也不同,如新闻视频主要对时事进行播报,电影视频以表达故事情节和人物发展为主,监控视频主要表达同一场景不同时刻的变化情况。根据视频所表达的内容信息可以对视频进行挖掘,挖掘出视频中所潜在的内容信息用于视频索引、视频摘要、视频浏览的建立等。近年来已有不少国内外研究工作者对视频数据挖掘进行研究,并相继的提出了视频结构挖掘、视频运动挖掘、视频关联规则挖掘等相关技术和方法。本文在对国内外视频挖掘技术研究和总结的基础上,将视频挖掘归纳为基于特征的视频挖掘和基于内容的视频挖掘,并给出基于特征和基于内容的视频挖掘的挖掘框架及相应的挖掘技术和方法。随着VR技术的不断发展,全景视频逐渐渗入到生活中,文章最后对全景视频数据挖掘进行了展望并对全景视频挖掘所面临的相应技术难点进行了简要总结。
根据对国内外视频挖掘技术的研究和总结,归纳视频挖掘就是根据原始视频数据所具有的特征或所表达的内容,从视频中提取出视频具有的特征、结构和所表达的内容等信息,基于提取的数据采用相关数据挖掘方法挖掘出视频中事件趋势、构造模式等隐藏的、有价值的信息并解释,呈现给用户[1-12]。
从上述视频挖掘的概念可以得出视频挖掘一般由数据准备、数据挖掘、结果解释和表示三部分组成,视频数据挖掘流程如图1所示。
图1 视频数据挖掘流程图
(1) 数据准备部分分为数据选择和数据预处理,数据选择为知识发现的目标搜集和选择有关的数据,缩小处理范围,提高数据挖掘质量。数据预处理针对不同类型的视频及不同的挖掘用途其视频处理方法也不尽相同,通常分为视频建模、视频结构化和特征提取三类。
视频数据建模是建立一个适当的数据模型来表示视频基本的内容、特点和应用场合,供后续数据挖掘部分对其数据模型中内容进行有效挖掘。Petkovic,Jonker提出一种基于内容检索的四层数据模型[13],分别为原始数据层、特征层、对象层和事件层;Zhu等人提出了一种获取视频结构和语义的视频数据模型,自动将高层语义和低层特征进行映射[14]。
视频结构化是将复杂的、非结构化的视频数据分割成一系列的镜头并为每个镜头提取一个关键帧。镜头是由视频帧通过镜头分割技术得到的结构挖掘输入单元[15,16],对其采用聚类、分类等相关方法可将视频再分割成场景和视频结构单元,将原始视频分成视频帧、镜头、场景和视频四层结构单元。付畅俭提出自适应双直方图两次判别镜头分割算法,利用双阈值两次比较来判断镜头帧[17];付畅俭根据视频镜头序列合并与分割提出两种场景构造方法[17],一是基于镜头多特征聚类场景构造,二是基于竞争力的视频场景构造;雷夏提出剧烈运动容忍的镜头边界检测算法[18],引入过滤机制,通过当前帧与候选镜头门限数帧的二次帧差比较,来分离突击镜头和非突变镜头;
特征提取是指从视频帧中提取出颜色、纹理、运动对象和运动特征等特征,除提取视频图像特征外还可以提取视频中音频特征、文本特征及其他特征形成多特征数据集。Choudhary等人提出了一个从视频帧或高层有意义的语义概念中提取对象类低层特征的框架,如提取对象的位置、对象的大小及对象的颜色直方图等特征[19];Fu等人提取了视频帧的颜色直方图、域颜色、边缘颜色和纹理,并将提取的特征保存到XML文档中,被后续的挖掘过程所使用[20]。
(2)数据挖掘是采用与视频相关的数据挖掘方法对处理所得的视频数据进行挖掘,常见的数据挖掘方法有聚类、分类、关联规则、趋势分析等。
(3)根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具呈现给决策者。
视频挖掘实际上是对视频特征及视频内容的挖掘,而可用于挖掘的特征是多方面的,如颜色、纹理、形状、运动特征、目标行为特征等图像特征,除此之外还有音频特征、字幕特征、音色特征等等,采用不同的特征对视频进行挖掘获得不同的视频知识;对于不同内容的视频,其可挖掘的视频内容信息大致分为视频内容结构、视频内容主题和视频内容事件三方面,根据挖掘对象的不同将视频挖掘技术归纳为基于特征的视频挖掘和基于内容的视频挖掘,基于特征视频挖掘主要是对视频中的相关特征进行挖掘得出用户感兴趣的知识,而基于内容视频挖掘主要是对视频中所表达的相关内容信息进行挖掘得出用户感兴趣的知识。由于特征是视频或图像的最低层信息,是信息获取的基础,因此在基于内容视频挖掘过程中会用到视频的特征信息来获取视频内容并对视频相关内容进行挖掘。
2.1 基于特征的视频挖掘
视频特征由图像特征、字幕特征、音频特征、音色特征、语音特征和其他特征组成,基于特征的视频挖掘可归纳为基于图像特征进行挖掘和基于多特征组合进行挖掘,基于特征的视频挖掘框图如图2所示。
2.1.1 基于单特征视频挖掘
基于图像特征进行挖掘使用较为广泛,常用于对视频进行分类挖掘、视频运动挖掘、视频结构挖掘等,图像特征主要从视频帧中提取颜色、纹理、边缘和运动对象等特征,视频分类挖掘根据不同视频类型及不同分类目的可提取视频帧中颜色特征、纹理特征、形状特征和主对象特征等,对形成特征集采用SVM、决策树算法、动态贝叶斯网络等数据分类方法即可对视频进行分类,可用于比赛视频中长镜头、短镜头及特写镜头的分类[21],车辆监控中车辆类型的分类[22]等;视频运动挖掘是提取摄像机的运动和视频序列中的运动,将视频的运动特征以数据序列的形式表示出来,采用视频摘要、聚类和异常检测等方法对提取数据进行挖掘, 挖掘出视频中的运动模式供用户进行分析和评估,可用于对监控视频运动对象的异常行为检测和体育赛事运动员行为习惯的挖掘等;视频结构挖掘是根据视频在形成过程中拍摄、剪辑、制作等定性特征及视频帧特征,利用镜头分割、关键帧提取及场景构造等结构化方法挖掘出视频的结构层次,更利于视频索引及视频摘要的建立。
图2 基于特征的视频挖掘框图
基于单特征视频挖掘多为基于图像运动特征挖掘,近年相关研究如下:Wu等人检测视频图像中运动对象全局运动和目标轨迹进行挖掘,用于视频检索[23];谢浩亮将输入的视频切分成图片,运用BUFD算法进行背景建模并将当前帧图像与背景模型进行对比,完成运动对象的检测和分割,最后提取运行对象的相关特征进而描绘运动对象整体运动量[24];马超等人提出一种利用频繁出现的特定局部特征空间布局对视频中运动目标进行挖掘的方法,首先对视频帧预处理分割出运动目标,然后提取运动目标的精简描述子,最后由描述子空间布局构建运动目标描述以形成事物[25];冯向玲将模糊概念格与MPEG-7标准的运动活动性描述子相结合,利用MPEG-7标准中运动活动性描述子对视频运动特征的多角度刻画,然后利用模糊概念格生成运动特征关联规则,实现视频运动特征的快速挖掘[26];冯向玲将模糊概念格与灰度共生矩阵相结合,通过灰度共生矩阵计算得到14个纹理特征向量,实现对视频纹理特征的多角度描述,再利用模糊概念格生成视频纹理特征关联规则,从而进一步根据纹理特征关联规则有效的对视频纹理特征挖掘[26]。
2.1.2 基于多特征视频挖掘
基于多特征组合进行挖掘是近几年兴起的研究方向,基于多特征视频挖掘主要提取视频中图像帧、音频和文本相关特征,将提取的多种特征形成多特征数据集,采用相关数据挖掘方法对视频挖掘,多用于视频分类、视频识别和视频检测等方面,对视频中图像特征、音频特征及文本特征进行提取形成数据集再对形成的多特征处理以得出用于数据挖掘的数据集,根据应用不同可采用分类算法对视频分类,其分类效果经实验证明要优于基于图像特征的分类[27]、采用识别算法对视频中对象进行识别和采用异常检测方法对视频中运动对象进行行为检测和异常行为检测,种种研究表明基于多特征的视频挖掘效果要优于单单基于图像特征的挖掘效果,虽然精度提高了但其复杂度及处理时间也大大增加了,如何进行快速有效的基于多特征视频挖掘是未来的研究热点之一。
近年基于多特征视频挖掘研究较少,相关研究如下:陈芬等人通过实验证明将视频图像特征和文本特征相结合,取颜色和纹理特征的均值和标准差与文本特征结合能够取得较好的视频分类结果[27];丁欣对用户的视频浏览行为、观看行为和打分行为以及视频的部分属性作参考,对数据进行聚类划分,实现基于多特征向量混合挖掘的个性化视频推荐系统[28]。
2.2 基于内容的视频挖掘
视频内容主要为视频帧中故事、情节、人物信息和音频、字幕中包含的对视频内容的语音和文字的介绍、讲解等,由于视频低层特征与高层语义信息之间存在的“语义鸿沟”,导致对视频中内容信息的挖掘成为视频挖掘中一难点,基于内容的视频挖掘技术流程大体为对输入原始视频进行预处理,提取视频中图像、文本、音频等相关低层特征形成特征数据集,根据挖掘目的不同可选择是否进行基本层次结构化处理,然后对预处理后所得数据进行视频内容挖掘并将所得结果及模式信息解释、呈现给用户,基于内容的视频挖掘流程如图3所示。基于内容的视频挖掘可归纳为对内容结构、内容主题及内容事件三方面进行挖掘。
图3 基于内容的视频挖掘框图
2.2.1 视频内容结构挖掘
视频内容结构挖掘是在视频基本层次结构的基础上,根据视频中镜头、场景的语义相似性,采用自动分析和相关挖掘方法,挖掘出视频基本层次结构中镜头、场景及整个视频的构造模式,获得通用的构造规则,并对获得的构造模式和规则进行建模和描述。视频基本层次结构间的构造模式常用关联规则方法对各层次单元的频繁构造模式进行关联性挖掘,近年广大研究者在传统关联规则算法基础上增加时间序列、关联概念等信息对视频结构关联规则进行挖掘,如付畅俭在传统关联规则挖掘中增加考虑项数、事务次序及事务概念等信息对视频结构中关联规则进行挖掘[29];Vijayakumar等人提出基于时间加权概念的视频关联挖掘,能够利用时间加权概念发现视频序列间显著的关联关系,通过改变关联模型可以获取视频集关联的权重,并将该算法应用到实际的数据集并给出实验结果[30];李国辉等人提出利用时基窗来计算支持度并对视频关联规则的评价进行了完善,时基窗就是视频序列中长度为T+L的窗口,其中T为设定的最大时基距离阈值,L为关联集的项数,时基支持度是根据某个关联集出现的次数来计算其支持度[31]。
2.2.2 视频内容主题挖掘
视频内容主题挖掘是从大量的视频物理特征、所提取的视频图像特征、获取的视频文本特征以及伴随的音频特征等高维视频特征中进行降维分析挖掘出潜在的视频语义主题信息,以便对视频进行有效的分类、检索等。提取的高维多特征数据集通常采用主成分分析、独立成分分析和费舍尔线性判别式等常用数据降维方法对其进行降维,再对降维后数据利用潜在语义索引方法、潜在犹利克雷分配建模或概率模型建模等方法即可获得潜在的内容主题信息,近年对于视频多模态的语义模型建立已有不少进展,如Smolensky提出Harmoniums模型可以从获得数据中发掘潜在的主题信息[32];徐新文提出了基于多翼Harmoniums的新闻视频语义主题模型对语义主题进行挖掘,分别对图像、文本和语音进行建模,采用模型参数估计方法获取潜在语义主题[33]。
2.2.3 视频内容事件挖掘
视频内容事件挖掘是在视频内容结构模型的基础上,根据获取的视频结构单元、构造模式及构造规则等信息采用多概念融合、事件推理、事件探测和事件关联等方法,挖掘出视频中的事件,便于对视频进行相关内容查找和有效管理。付畅俭通过对镜头建立广义多概念判别随机场来抽取若干事件相关概念并构造和训练各事件的HMM模型来推理出视频中的事件[29];徐新文采用Single-pass方法对样本进行初始聚类,然后根据回溯探测和在线探测机理对增量K均值算法进行改进实现对新闻事件探测[33];徐新文基于扩展的Apriori性质的剪枝策略并设计、创建多维索引术对新闻事件多维频繁模式挖掘;张承德利用视频片段相似性及文本相似性对视频事件进行多模态融合挖掘[33];栾悉道等人对新闻视频挖掘技术进行研究,将挖掘过程分为低层挖掘和高层挖掘两个层次,低层挖掘主要对新闻视频的内容和结构进行挖掘,高层挖掘采用数据挖掘方法对低层挖掘所得内容进行挖掘[34]。
随着全景视频的兴起,未来的视频挖掘技术会趋于对全景视频进行挖掘,目前视频挖掘的总体框架依然适用于全景视频挖掘,由于全景视频具有全方位视角,其所隐藏的知识和模式相比于普通视频更丰富,相应的挖掘技术会比普通视频挖掘更复杂,例如提取颜色、纹理、形状等底层视频帧特征,由于全景视频帧具有全方位立体视角,导致全景视频帧每个方向的图像互相之间存在一定的关联性,提取哪个方向的底层特征及底层特征的选取标准需进一步研究。随着视频数据挖掘技术系统的不断成熟,全景视频挖掘技术会渐渐被广大研究者提取,而目前形成实用的视频数据挖掘系统还存在着许多的挑战和难点,总结主要难点如下:
(1)如何有效的提取视频底层特征:视频底层特征是视频数据挖掘的基础,直接关系到后续对视频数据挖掘结果,由于视频种类繁多及其每种视频复杂性高,故如何有效的提取出视频底层特征成为了视频数据挖掘的难点。
(2)如何确定准确的评价规则:视频挖掘系统中每一个环节都会产生挖掘所得数据,如何确定准确的评价规则来筛选出有效的、有价值的数据,剔除无用的、冗余的数据是视频挖掘系统中的难点。
(3)如何可视化呈现挖掘结果:挖掘出视频中所隐藏的、有价值的数据后,如何对其进行表示和解释从而可视化的呈现给用户,供用户理解并辅助用户决策是一难点。
(4)如何评估视频挖掘系统的性能:视频挖掘系统是否具有实用性,往往需要一个评估标准对其进行评估,针对于环节复杂的视频挖掘系统而言如何评估其是否具有实用性和可靠性是一难点。
[1] Aloimonos Y.DIMACS Workshop on Video Mining November 4-6,2002[J].Dimacs.rutgers.edu.
[2] Radhakrishan R,Xiong Z,Divakaran A,et al.Generation of sports highlights using a combination of supervised & unsupervised learning in audio domain[C]//Joint Conference of the Fourth International Conference on Information,Communications and Signal Processing,2003 and Fourth Pacific Rim Conference on Multimedia.IEEE,2003:935-939 vol.2.
[3] Divakaran A,Peker K A,Radhakrishnan R.Video mining using combinations of unsupervised and supervised learning techniques[C]//DBLP,2004:235-243.
[4] Goh K S,Miyahara K,Radhakrishnan R,et al.Audio-visual event detection based on mining of semantic audio-visual labels[J].2004,5307:292-299.
[5] Goh K S,Miyahara K,Radhakrishnan R,et al.Audio-visual event detection based on mining of semantic audio-visual labels[J].SPIE,2004,5307:292-299.
[6] Latecki L J,Wildt D D.Automatic Recognition of Unpredictable Events in Videos[J].Pattern Recognition,2002,2:889-892.
[7] Oh J H.Video Data Mining[J].Data Warehousing & Mining Concepts Methodologies Tools & Applications,2005,1(3):153-172.
[8] Divakaan A,Peker K,Chang S,Radhakrishnan R,Xie L (2004) VideoMining: pattern discovery versus pattern recognition.In: Proceedings IEEE international conference on image processing (ICIP’2004).Mitsubishi Electric Research Laboratories
[9] R Kaur,S Aggarwal.Review on Video Mining[J].IJCST,2014.2(3).
[10] 代科学,付畅俭,武德峰,等.视频挖掘:概念、技术与应用[J].计算机应用研究,2006,23(1):1-4.
[11] 冀中,苏育挺,安欣.视频数据挖掘——框架、方法及趋势[J].计算机工程,2007,33(18):81-83.
[12] 李晶.视频数据挖掘技术研究[J].今日湖北:理论版,2007(4):170-171.
[13] Petkovic M,Jonker W (2001) Content-based retrieval of spatiotemporal video events.In: Proceedings of multimedia computing and information management track of IRMA international conference
[14] Zhu X,Wu X,Elmagarmid A,Feng Z,Wu L (2005) Video data mining:semantic indexing and event detection from the association perspective.IEEE Trans Knowl Data Eng 17(5):1-14
[15] Tao D,Tao D,Xu D,et al.Semantic Mining Technologies for Multimedia Databases[C]/Information Science Reference-Imprint of:IGI Publishing,2009.
[16] Naphide H R,Huang T S.A probabilistic framework for semantic video indexing,filtering,and retrieval[J].IEEE Transactions on Multimedia,2001,3(1):141-151.
[17] 付畅俭.基于内容的视频结构挖掘方法研究[D].国防科学技术大学,2008.
[18] 雷夏.基于特征的视频挖掘技术研究与应用[D].大连理工大学,2007.
[19] Fu C-J,Li G-H,Dai K-X (2005) A framework for video structure mining.In: Proceedings of the fourth international conference on machine learning and cybernetics,vol 3,1524-1528
[20] Choudhary A,Chaudhury S,Basnerjee S (2008) A framework for analysis of surveillance videos.In:Proceedings of sixth Indian conference on computer vision,graphics & image processing,344-350
[21] 陈芬,苏新宁.视频主对象特征抽取与分类挖掘研究[J].现代图书情报技术,2013(10):31-35.
[22] Kafai M,Bhanu B.Dynamic Bayesian Networks for Vehicle Classification in Video[J].IEEE Transactions on Industrial Informatics,2012,8(1):100-109.
[23] Wu C,He Y,Zhao L,Zhong Y (2002) Motion feature extraction scheme for content-based video retrieval,storage and retrieval for media databases.Proc SPIE 4676:296-305.
[24] 谢浩亮.基于运动特征的监控视频挖掘关键技术研究[D].石家庄经济学院,2011.
[25] 马超,沈微.基于特定局部特征布局的视频运动目标挖掘[J].计算机工程,2013,39(6):236-238.
[26] 冯向玲.基于模糊概念格的视频特征挖掘算法研究[D].西安电子科技大学,2012.
[27] 陈芬,赖茂生.多特征视频分类挖掘实验研究[J].现代图书情报技术,2012,28(5):76-80.
[28] 丁欣.基于多特征向量混合挖掘的个性化视频推荐系统的研究与实现[D].北京邮电大学,2013.
[29] 付畅俭.基于内容的视频结构挖掘方法研究[D].国防科学技术大学,2008.
[30] V.Vijayakumar and R.Nedunchezhian,“Mining Video Association Rules Based on Weighted Temporal Concepts” IJCSI International Journal of Computer Science Issues,Vol.9,Issue 4,No 2,July 2012.
[31] 李国辉,付畅俭,徐新文,等.NBA视频中关联规则挖掘[C]//和谐人机环境联合学术会议.2008.
[32] Smolensky P.Information processing in dynamical systems: foundations of harmony theory[M]//Parallel distributed processing: explorations in the microstructure of cognition,vol.1.MIT Press,1986:194-281.
[33] 徐新文.基于内容的新闻视频挖掘方法研究[D].国防科学技术大学,2009.
[34] 栾悉道,谢毓湘,韩智广,等.新闻视频挖掘技术研究[J].计算机科学,2007,34(2):1-6.
[35] 代科学,武德峰,付畅俭,等.视频挖掘技术综述[J].中国图象图形学报,2006,11(4):451-457.
[36] 代科学,李强,李国辉.视频挖掘研究进展[J].计算机科学,2010,37(10):11-15.
[37] Vijayakumar V,Nedunchezhian R.A study on video data mining[J].International Journal of Multimedia Information Retrieval,2012,1(3):153-172.
[38] Yuan J.Image and video data mining[C]// Northwestern University,2009.
[39] Quack T,Ferrari V,Gool L V.Video Mining with Frequent Itemset Configurations[J].Lecture Notes in Computer Science,2006,4071:360-369.
[40] 杨西平,宁亚宁.视频结构挖掘的一种改进算法[J].医学信息,2007,20(11):1901-1904.
Review of video mining technology
ZENG Wen-xian,LI Wei,GUO Zhao-kun
(HebeiUniversityofEconomicsandBusiness,ShijiazhuangHebei050061,China)
The purpose of video data mining is to dig out the hidden and valuable information in video data,and to make full use of video.Through the research and analysis of video data mining at home and abroad,the video data mining technology are summarized,elaborated based on the features and video data mining technology based on the content,finally summarizes the video data mining system challenges and prospects for panoramic video mining.
Video mining; Feature based video mining; Content based video mining
2017-01-05
曾文献(1971-),男,陕西旬阳人,教授,主要从事计算机软件技术,高速数据采集研究.
1001-9383(2017)01-0001-07
TP311.13
A