视频语义结构化提取与标注的方法

2014-10-17 17:49苏晨涵
电脑知识与技术 2014年26期

苏晨涵

摘要:视频本身具有一定的层次结构,不同层次会产生不同粒度的语义,而且不同粒度的语义之间会形成一定的层次结构。因此,视频语义提取和标注强调语义的结构化。为此,首先,以镜头为单位提取其语义,并组成镜头语义序列。随后,带有简单时序关系的镜头语义序列经过结构化支持向量机的分析将产生结构化的视频语义;最好,将连续且内容相关的镜头作为一个场景,以视频场景为基本单位利用决策树算法C4.5根据镜头的语义信息及镜头之间的结构信息完成场景语义的推理。

关键词:视频语义; 语义提取; 语义标注; 结构化关系; 结构化支持向量机

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)26-6178-03

Abstract:Video has a hierarchical structure which means that different semantic with different granularity emerge among different hierarchies. Hence, it is important to extract and annotate video semantic structurally. The method adopted in this paper is divided into three phrases. First, it extracts semantic from each shot and combines into a semantic sequence. Second, with simple time series information, Struct-SVM is employed to generate structural video semantics. Finally, after combining sequential and contented-associated shots into a scene, it employs C4.5 to reduce scene semantic with structural video semantics.

Key words:video semantic; semantic extraction; semantic annotation; structural context; Struct-SVM

视频数据所蕴含的语义信息量远远高于包括文本数据、音频数据、图像数据在内的其它媒体数据,而且视频语义彼此依赖形成复杂的结构关系[1-3]。随着视频检索技术的发展,低粒度的、无层次的视频语义标注模型与技术已经满足不了用户与检索技术的需求。例如用户在检索足球视频时输入的关键词往往不是“裁判”、“足球”等单个镜头中低粒度的对象语义,而是“进球”、“犯规”、“任意球”等由视频场景表达的高粒度的事件语义。为了更好地存储视频的语义内容并利用其进行视频检索,研究人员构建了许多结构化的视频语义模型。结构化的视频语义模型不仅含有从不同层次中提取的语义,语义间的关系信息也是模型中的重要内容[3]。与之相对应的,传统的低粒度的视频语义标注方法也就满足不了视频语义模型对标注内容的要求,这就势必要求我们找到一种方法能够全局地分析视频的内部结构,然后充分利用结构关系信息提取视频中不同粒度的语义并进行标注。

视频语义的结构化提取与标注从不同层次提取视频语义,并能够将语义间结构化关系作为标注内容。结构化的视频语义丰富了视频语义标注的内容,为进一步管理、检索视频提供良好的基础。但是视频语义的内部结构复杂,视频中的“结构歧义”给正确提取结构化关系造成了很大的困难。所以结构化的视频语义提取与标注是一项很有意义的研究工作。

1 视频语义结构化提取与标注框架

本文建立的视频语义的结构化提取与标注方法分为三个阶段:首先,以镜头为单位提取镜头内的语义;然后,半监督地利用镜头语义及时序信息对镜头之间结构化的上下文关系进行分析,利用结构化信息以场景为单位提取场景语义;最后,将镜头语义、场景语义及语义间的结构化关系作为标注内容对视频进行结构化的语义标注。因此,该方法的实现具有一个三层结构的框架,其框架结构和方法的流程如图1所示。

2 视频语义结构化提取与标注实现过程

2.1 视频预处理

视频预处理主要工作为:首先,对视频进行镜头分割;然后,选择镜头中的某一帧作为关键帧代表镜头。

由于大部分视频帧的默认颜色空间是RGB颜色空间,所以首先要将颜色空间转换为跟接近人类对视觉相似性感知的HSI颜色空间。在HIS空间计算像素的颜色变化更加简单直观,有助于提高边界检测的准确率和特征的提取。然后在HIS空间中采用基于块的镜头分割方法,将将视频帧分成n个块并对相邻帧的对应块进行比较,镜头边界检测后取镜头内的某一帧作为关键帧代表镜头。一般可以选择镜头中间一帧作为关键帧。

2.2 镜头语义序列提取

镜头语义序列是分析镜头之间依赖关系的基本单位,正确提取镜头内的语义信息,然后形成具有时间约束的语义序列是本文提出方法的重要基础。提取镜头语义序列的主要工作为:1.提取镜头内特定的语义,组成语义集W;2.从W选择一个语义wi为关键语义代表该镜头;3.根据镜头的时序关系将每个镜头的关键语义组合成镜头关键语义序列Seq。

2.2.1 镜头语义提取

关键帧中的语义对象可以分为前景对象和背景对象。在进行语义检测时首先要对关键帧的前景对象进行检测并分离前景对象和背景对象,然后根据对象的不同使用相对应的语义分析方法。前景检测算法利用连续的若干帧像素点的变化来检测前景与背景。对于摄像头视角固定的视频可以使用减背景法将前景与背景分离,例如监控视频;对于摄像头视角转动的视频通常使用光流法进行前景检测,例如体育竞技类视频。足球视频在拍摄的过程中摄像头跟踪足球、运动员等目标物,所以使用光流法对其进行前景与背景的分割。将关键帧的前景与背景分开后,然后分别对不同对象使用不同的方法提取特征。计算颜色特征后再使用Canny算子进行纹理特征的提取。Canny算是目前公认最好的边缘检测算子,提取图像边缘后以5。为范围进行划分形成一个36维的边缘直方图C,同样对得到的边缘直方图进行归一化处理,获得36维的纹理特征向量后与颜色特征一起组成72维的特征向量。

获取特征向量后使用支持向量机SVM对标注后语义的训练样本的72维特征向量进行学习,然后将训练后的SVM对样本进行分类,分类结果作为镜头的背景语义wb[∈]W。

与背景对象的语义相同,前景对象也需要提取其颜色和问题特征组成72维的特征向量。但是除了颜色和纹理特征之外形状特征也是前景对象的重要特征。常用的形状特征有面积Ar、周长Pe、长宽比LW、周长面积比AP等。为了克服图像缩放造成的干扰本文选择具有抗干扰形状特征LW、AP及归一化后的Ar。Ar归一化的方法同上。这样加上颜色和纹理特征就组成了75维的特征向量,同样使用SVM对样本进行学习与分类,分类结果就是该镜头含有的前景语义wf[∈]W。

2.2.2 镜头语义序列

2.4 场景语义推理

场景语义推理是场景语义标注框架的第三层,该阶段的主要工作是对视频的场景分割,然后再利用决策树算法C4.5[8]对场景的语义进行推理。

视频的场景是由连续的而且内容相关的镜头组成,根据labelled-Seq中关系信息可以很容易地得到关键语义之间的依赖关系,关键语义间的依赖关系就是镜头之间的依赖关系。根据镜头的依赖关系就能够将视频分割为若干场景。

视频的场景是由连续的而且内容相关的镜头组成,根据labelled-Seq中关系信息可以很容易地得到关键语义之间的依赖关系,关键语义间的依赖关系就是镜头之间的依赖关系。根据镜头的依赖关系就能够将视频分割为若干场景。

将视频分为若干场景后就能够以场景为单位进行场景语义分析了。利用C4.5算法进行场景语义推理时,首先将场景内各个镜头的语义集W中的语义作为决策属性。但是如果仅仅只利用场景内的镜头语义做为决策属性是不够的,还需要利用3.2.3中获取的镜头间的结构化关系信息,所以将每个语义的关系也作为C4.5的决策属性。

3 结论

本文针对视频结构化语义的提取与标注问题,建立了三层的结构化视频语义提取与标注框架,逐层推理语义,提取了不同粒度的语义及语义之间的结构化关系。第一层,根据镜头关键帧的视觉特征提取低粒度的镜头语义;第二层,通过分析不同镜头语义的上下文关系获取镜头之间的结构化关系;第三层,利用各个镜头的语义信息及镜头的结构化关系信息进行高粒度的场景语义推理。一方面弥补了传统只能以镜头为单位标注语义,不能对视频进行多粒度的语义标注的缺陷,另一方面,还能对视频镜头语义之间彼此依赖的关系信息进行分析并应用于场景语义的推理。

参考文献:

[1] Cheng Y, Xu D, Content-based semantic associative video model [C]. 2002 6th International Conference on Signal Processing: IEEE, 2002:727-730.

[2]Yong C, De X U. Hierarchical semantic associative video model [C]. Proceedings of the 2003 International Conference on Neural Networks and Signal Processing: IEEE, 2003:1217-1220.

[3] Unel G, Donderler M E, Ulusoy O, et al. An efficient query optimization strategy for spatio-temporal queries in video databases [J]. Journal of Systems and Software, 2004, 73(1):113-131.

[4] Carneiro G, Chan A B, Moreno P J, et al. Supervised learning of semantic classes for image annotation and retrieval [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(3):394-410.

[5] Hu W, Xie N, Li L, Zeng X, et al. A survey on visual content-based video indexing and retrieval [J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2011, 41(6):797-819.

[6] Jiang H, Zhang M. Tennis video shot classification based on support vector machine [C]. 2011 IEEE International Conference on Computer Science and Automation Engineering (CSAE): IEEE, 2011:757-761.

[7] Yuan X, Lai W, Mei T, et al. Automatic video genre categorization using hierarchical SVM[C]. 2006 IEEE International Conference on Image Processing: IEEE, 2006:2905-2908.

[8] Yuan Y, Song Q B, Shen J Y. Automatic video classification using decision tree method [C]. 2002 International Conference on Machine Learning and Cybernetics: IEEE, 2002:1153-1157.