刘龙涛
摘 要: 随着立体视频资源数量的不断增加,立体视频资源的存储和获取不断多样化,为了便于立体视频资源的高效管理及利用,对立体视频的镜头、场景、关键帧三个方面进行研究,建立立体视频存储入库模型,对立体视觉资源进行存储入库,实现对立体视频资源的高效管理及利用,缓解立体视频资源匮乏的状态。
关键词: 立体视频资源 镜头 场景 关键帧
1.引言
随着多媒体技术的快速发展,立体视频逐渐融入人们的日常生活中,应用领域不断扩大,已经广泛应用于军事、医疗、虚拟现实、教育科研等领域,尤其是教育领域的应用不断增加,同时产生大量立体视频资源。常见的立体视频以双目立体视频为主,通常采用双路分离、左右合成、上下合成等格式表示,并通过红蓝或者偏光等形式显示和观看。随着立体视频资源的增多,立体视频资源存储入库成为亟待解决的问题。本文主要解决双目立体视频的存储入库。
2.立体视频的本质特征
立体视频帧的本质特征是视频帧本身所蕴含的特征信息,包括视频帧的颜色特征、纹理特征、形状特征、视差特征、深度特征,等等。
颜色特征是数字图像领域中应用最广的特征之一,提取图像的颜色特征分为三步:选取颜色空间、颜色区间量化、相似性计算。颜色空间是一种通过特殊规则加以说明的颜色集合体,数字图像上几乎任何一种颜色都能在颜色空间找到对应的点,常用的颜色空间:RGB颜色空间,HSV颜色空间,YUV颜色空间。纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征,是物体表面特性,例如高山、小桥、石头、衣服等都有各自的纹理特征。纹理特征包含物体表面结构组织排列的重要信息及其与周围环境的联系。形状特征是指一个物体的外部轮廓,与颜色特征和纹理特征相比,形状特征在描述立体视频内容时更具有语义含义。形状特征首先需要对图像分割,把对象提取出来,再用各种方法进行匹配测量。对于形状特征的描述方法有:边界特征法、傅里叶形状描述法、集合参数法、最小生成树等[1]。
与2D视频相比,立体视频增加了视差和深度特征。立体电影的制作就是利用了双目视差的原理。在拍摄时,使用两台摄像机相距几厘米同时进行拍摄。放映时,把两个影像同时放映在屏幕上,观众戴上立体眼镜使左右两眼的像落在视网膜上的非对应点,并产生一定的差异,从而产生立体视觉。
双目视差是指两眼注视外界物体时,两个视网膜上视像之间的差异。距离和深度知觉,主要依赖双目视差,它是形成立体视觉的最重要的依据。人的双眼结构相同,双眼间的距离大约是6.5cm,当人们观看三维物体时,物体投射在左右眼睛上的像并不完全落在视网膜上的对应区域,左眼看物体的左边多一些,右眼看物体的右边多一些,三维物体在双眼视网膜上的像就存在差异,称为双目视[2]。深度信息反映了所拍摄物体到相机的距离,获得深度信息的方式有两种;第一种是通过拍摄仪器直接获得,但通过这种方式获得的深度信息往往分辨率低,并且需要很大的计算复杂度,对硬件设备要求很高,一般情况下难以达到实时拍摄的需求。第二种深度信息的获取是靠几何学知识,利用已知参数的摄像机拍摄出的双目视频,利用立体匹配计算出视差后,反推视频对象的深度信息[2]。随着立体匹配技术的不断完善,现在已形成许多各具特色的匹配算法。已有算法根据匹配准则的不同,大致可以分为两大类:一类是局部匹配算法;另一类是全局匹配算法。全局匹配算法与局部匹配算法相比,匹配准确性较高,可以获得较高精度的稠密视差图,但是往往计算量大、耗时比较长、不易于硬件实现,无法应用于实时系统。总之,两类立体匹配算法各有优缺点,适用于不同的情况和空间场景[3]。
3.建立立体视频存储入库模型
视频结构一般分为视频、场景、镜头、视频帧四个层次[4]。本文主要对立体视频资源的镜头、场景、关键帧三个方面进行研究,建立立体视频资源存储入库模型。
3.1立体视频镜头分解存储入库
镜头是由时间上连续的帧构成,同一个镜头内的内容具有一致性。通过判断连续帧之间的差异确定镜头的边界。根据镜头边界的不同,可分镜头的突变和镜头的渐变。镜头突变是指一个镜头内容的变化发生在单个视频帧上。镜头渐变是指相邻的两个镜头的变换是逐渐完成的,在镜头切换的时候加入编辑特效,达到视觉上平滑过渡的效果。根据编辑特效的不同,镜头的渐变可以分为淡入(fade in)、淡出(fade out )、溶解(dissolve)、擦拭(wipe)等不同类型。淡入是指画面亮度不断增强;淡出是指画面亮度慢慢变暗最终消失;溶解是指镜头的帧逐渐变淡退出;擦拭是指后一个镜头的画面慢慢代替前面的一个镜头的画面。
目前立体视频镜头分割算法大多是基于2D视频的,立体视频镜头分割算法还不成熟,2D视频的镜头边界检测算法主要分为两大类:基于像素域的方法和基于压缩域的方法。像素域中镜头边界检测方法主要利用时空域中的颜色、纹理、形状等特征进行检测。像素域中的算法主要有像素比较法,基于直方图的方法,块匹配法,基于边缘的方法。由于现在大多数视频序列以压缩格式存储,对这些压缩形式的视频流直接进行边界检测,节省大量解压缩时间。目前压缩域中的主要有基于DCT系数的方法,基于小波变化的方法,时空分析法。
虽然2D视频的镜头分割算法能完成立体视频资源存储入库的预处理工作,但是运用2D视频镜头分割算法处理双目立体视频时,检测结果往往存在一定误差,并且不能很好地检测镜头渐变的完整边界变化,在2D视频的镜头分割算法的基础上,提取立体视频的深度特征,进行镜头边界检测,从而提高镜头边界的检测精度,实现对立体视频的镜头准的确分割。基于立体视频镜头分割算法,对立体视频资源存储入库。
3.2立体视频场景分解存储入库
场景是由连续镜头组成的视频片段,是表达一个完整情节的逻辑故事单元。
立体视频场景分割,以镜头作为研究对象,根据镜头的内容相关性和时间上的邻近性把相似的镜头划分到同一场景中,这样一段视频被分割成若干个有意义的逻辑故事单元。
目前立体视频场景分割算法大多是基于2D视频的,立体视频场景分割算法还不成熟。大体上通过提取镜头的视觉特征,把内容相关时间相近的镜头聚类成一个场景,或者综合视觉信息和听觉信息划分场景[5]。
与传统的2D视频场景分割不同,立体视频利用立体视频镜头分割算法的结果,结合立体视频颜色特征、纹理等本质特征,通过镜头聚类,检测场景边界,利用立体视频的深度特征,实现对场景的准确分割,基于立体视频场景分割算法,对立体视频资源存储入库。
3.3立体视频关键帧分解存储入库
帧是立体视频的基本组成单位,立体视频的每一帧都可以看成空间上独立、时间上相关的静止图像。空间上独立体现在立体视频的每一帧都可以进行分析处理,时间上相关体现在时间轴上相邻的帧一般会有内容上的相似性。
由于立体视频中,帧的数量巨大,可以用关键帧描述镜头和场景。这样既充分描述了视频内容,又减少了冗余信息。关键帧就是能描述立体视频内容主要的帧。根据立体视频结构的复杂程度,关键帧可以由一帧或者多个帧组成。
目前立体视频关键帧提取算法主要是:基于镜头边界提取关键帧,基于运动分析提取关键帧,基于图像信息提取关键帧,基于镜头活动性提取关键帧,基于聚类的方法提起关键帧。
Zhang,Wu[6]等人依据帧间的显著变化来为2D视频选择多个关键帧,首先把镜头的第一帧作为关键帧,然后计算前一个关键帧与剩余帧之差,如果差值大于某一阈值,则再选取一个关键帧。与2D视频不同,立体视频依据帧间的显著变化,再加上立体视频的深度信息构建相邻帧差,实现对关键帧的准确提取,基于立体视频关键帧提取算法,对立体视频资源存储入库。
4.结语
在2D视频的镜头分割算法上基础上,增加立体视频的深度特征,得出立体视频镜头分割算法,进而研究出立体视频场景分割算法和关键帧提取算法,从镜头、场景、关键帧三个方面实现对立体视频资源高效的管理及利用。对立体视频资源存储入库的同时,增加了立体视频素材,缓解了立体视频资源匮乏的现状。
参考文献:
[1]印勇,侯海珍.基于直方图帧差的自适应镜头分割算法[J].计算机工程与应用,2010,09:186-189.
[2]王波.双目视差的立体视觉及其在技术课程教育中的应用[D].浙江工业大学,2012.
[3]杨志荣.双目视觉立体匹配方法和遮挡问题研究[D].燕山大学,2010.
[4]Yong Rui,Huang,T.S,Mehrotra, S, “Exploring video structure beyond the shots,”in Multimedia Computing and Systems,1998. Proceedings. IEEE International Conference on,vol,no, pp.237-240,28 Jun-1 Jul 1998.
[5]王旭军.视频场景分割方法研究[D].重庆大学,2010.
[6]Zhang Z,Wu J, Zhong D,et al. An Integrated System for Content based Video Retrieval and Browsing [J].Pattern Recognition,1997,30(4):643.
国家科技支撑计划资助项目(2012BAH37F02)。