杨洋
摘 要:随着网络技术的发展,越来越多的人选择在互联网上观看各类视频信息。在如此庞大的视频信息库面前,如何精准地搜索到用户需要的视频信息成为科研人员关注的课题。目前流行的视频检索系统中,时常会出现检索出来的内容与用户需求不相符的现象。针对用户与机器的这种“语义鸿沟”现象,综合国内外研究成果,阐述了基于语义的视频检索发展现状,介绍了几种基于语义的视频检索技术,对语义视频检索的发展前景作了展望。
关键词:语义;视频检索;关键帧;语义鸿沟
DOIDOI:10.11907/rjdk.1511295
中图分类号:TP302
文献标识码:A 文章编号文章编号:16727800(2015)012003102
0 引言
在大数据技术逐渐成熟的宏观环境下,如何合理有效地存储和搜索视频信息成为时下学术界的研究热点之一。当前用户对搜索引擎的体验是:在搜索中需要一定的技巧,否则很难得到一个满意的结果。比如,搜索“天空中翱翔的鸟”,得到的可能是视频检索系统通过切分语句匹配标签得到的搜索结果,可能呈现出来的并不是语义中表达的一只在天空中翱翔的鸟儿,很有可能是一部动漫或者一首歌曲,这种搜索结果势必产生一些歧义。造成这种现象的原因是现有的视频检索技术大多没有基于语义,即人和计算机对于一句话的理解存在着差异,也就是所谓的“语义鸿沟”。解决这种“语义鸿沟”的办法是依靠相关的语义视频检索技术。
基于语义的视频检索技术,研究的主要内容是如何获得视频的高层语义信息,如何高效率以及高精确度地对其语义信息进行检索[1]。这种方法的关键是将人脑所想的内容中的高层语义提取出来,即对视频内容加以分析和理解,使计算机能够检索到人的思维所表达的正确语义。
1 研究现状
1.1 视频检索系统例证
由IBM公司开发研制的QBIC系统,是基于视频内容检索的一个典型系统。
由美国哥伦比亚大学开发的Visual Seek,是基于图像的空间信息原理进行检索;Video Q视频检索系统基于用户的视觉特征和时空关系原理检索。
由荷兰阿姆斯特丹大学研发的MediaMill ForkBrowser,是基于用户提供的多维数据集的检索模式。
由美国的麻省理工大学媒体研究室开发的PhotoBook系统,是基于相似性图像的检索。
1.2 现有语义概念提取算法
对于语义概念的提取,目前较流行的有两种算法,即基于规则的标注方法和基于机器学习的标注方法,下面对这两种方法作出解释说明:①基于规则的标注方法即根据一定的规则来检索出视频中出现的一些语义概念。这个规则就如同一个已经设置好了的门限值,可以是视频检索规则,也可以是某一专业学科规则;②基于机器学习的标注方法:由于上文中提到人类思维和电脑理解之间存在着“语义鸿沟”,从而导致电脑有时会检索不出人们想要的结果。针对这个问题,提出机器学习算法,即计算机通过神经网络等技术进行机器学习,降低“语义鸿沟”的几率,使机器能够更好地理解语义概念。
1.3 国内外研究现状
目前,国外视频检索技术领先于国内。经过多年努力,国内在视频检索技术上有了一定的建树。例如,清华大学独自研发了TV-FI视频节目管理系统,国防科技大学也研发了New Video CAR和MIRC这两个新闻节目浏览检索系统。
2 实现方式
2.1 镜头边界检测技术
镜头是构成视频的最基本结构之一,基于语义的视频检索可以通过镜头的边界检测来实现。镜头检测主要通过像素域和压缩域实现。
2.1.1 基于像素域的镜头检测方法
基于像素域的镜头检测方法主要有基于像素比较方法[2]、基于直方图方法、基于运动方法、基于轮廓方法,下面介绍基于像素比较方法。
计算两帧之间的灰度差,见式(1):
fd=f1(x,y)-f2(x,y)(1)
式(1)中,f1(x,y)和f2(x,y)代表帧1和帧2像素的灰度值,总帧的表达式如下:
Fd=1M*N∑x∑xfd(2)
将式(2)所得结果与设定的阈值比较,如果大于相应的阈值则不是同一个镜头,否则就是同一个镜头。
2.1.2 基于压缩域的镜头检测方法
基于压缩域的镜头检测方法主要有基于DCT系数的分割方法、基于宏块类型的方法、基于运动矢量的方法。
2.2 关键帧提取技术
当检索视频时,往往会有被切割的视频中的关键帧画面,这种提取是为了方便人们检索和浏览。现有的关键帧提取技术主要有以下几种方法[3]:基于镜头的方法、基于平均的方法、基于运动分析的方法、基于聚类的方法、基于图论的方法。
基于镜头的方法[4],其主要思想是将一个视频中的首帧或中间帧或尾帧作为关键帧。因为在一个镜头中,相邻的帧之间的变化较少,因此相邻的帧放在一起检索意义不大,这与前文中基于像素域的镜头检测方法思想大不相同。这种方法将视频中较有特征的、有辨识度的图像帧作为关键帧进行检索。但是,这种方法有局限性:若对于一个内容变化较大的视频,首尾帧和中间帧并不能完全表达出整个视频的内容,可能造成检索不完整。
2.3 基于语义特征的检索技术
语言学认为,语言就是一些符号,本来没有任何意义,是人类赋予了这些符号意义才能传递信息。语义也有它的特征,即语义特征,例如“狗”这个字,它的语义特征就有“是一种动物,食肉,发出‘汪汪的叫声”。语义的特征分为低层和高层。低层语义是指某一字词的显著特征,如颜色、纹理、形状等。高层语义是通过机器学习,解决人类语义与机器理解的线性映射关系。
低层语义提取方法中,现有技术主要从低层视觉的颜色特征、纹理特征、形状特征和局部特征这些方向来展开研究。高层特征提取技术的基本流程如图1所示。
图1 高层特征提取技术基本流程
3 基于语义的视频检索技术发展方向
随着互联网和大数据技术的迅猛发展,各类视频资源如雨后春笋般大量涌现,再加上人们对信息精准度的不懈追求,能让视频检索更快捷、更精准的基于语义的视频检索方式必然受到人们的重视,拥有广阔的应用前景。虽然基于语义的视频检索技术已经有了一定的技术基础,但离这一理论的实现还有一定的距离。笔者综合各研究成果,对基于语义的视频检索技术作出展望:①基于数据挖掘技术,对语义做更深层次的提取,即扩大视频语义的种类。因为在现有检索系统中,常常有搜索内容与标签内容不相符的现象出现;②对语义的各类特征进行提取,如视觉特征、声音特征、文本特征、运动特征、行为特征等。例如利用声音特征检测枪声,利用奔跑、投掷等运动特征检测“运动”语义,利用汪汪叫、看家等行为特征检测到狗等。这些特征的有效利用,可以提高视频检索的速度和精度;③用户反馈技术。用户在搜索视频时可能会遇到各种各样的问题,这时可以将这些问题实时反馈给系统。即用户通过对视频检索结果的反馈,系统会随时根据反馈对检索出来的视频作相应的调整,以尽快准确地检索到用户需求的视频。
4 结语
随着互联网的迅速发展,视频资源成为人们学习、娱乐的必备品之一。现有的视频检索技术不能完全满足人们对于视频的需求,人们会遇到搜索到的视频与自己所需视频不一致的情况,即“语义鸿沟”。基于语义的视频检索技术面临的最大的困难就是如何跨过人与电脑思维之中的“语义鸿沟”。科研人员会不断研究视频检索技术,以满足人们对视频检索速度与精度的追求。
参考文献参考文献:
[1] 周志伟.支持语义的视频检索技术研究[D].合肥:中国科学技术大学,2011.
[2] 刘淑荣.基于语义的视频检索关键技术研究[D].北京:华北电力大学,2013.
[3] 张海燕.基于语义的视频检索技术研究[D].长沙:中南大学,2013.
[4] 任利平.视频中关键帧提取技术的研究[D].兰州:兰州大学,2011.
(责任编辑:杜能钢)