金康俊,柴雄力,邵枫
宁波大学信息科学与工程学院, 宁波 315211
3D视频包含视频场景的深度信息,在对视频场景表征上具有真实感和立体感,得到了广泛应用,各种3D显示设备也进入了人们的日常生活。由于不同显示设备的屏幕尺寸(宽高比)往往不一致,因此能够智能适配具有不同长宽比的显示设备的重定向(retargeting)技术(Luo等,2015)具有重要的研究意义。
为了更好地适配具有不同长宽比的显示设备,相继提出了各种重定向技术,包括裁剪(cropping)(Chen等,2018;Chen,2016)、细缝裁剪(seam carving,SC)(Avidan 和Shamir,2007;Mansfield等,2010)和网格形变(warping)(Guo等,2009;Zhang等,2009)等方法。这些方法以及相应的改进方法已广泛应用于2D视频重定向和3D图像重定向。
与3D图像重定向不同,3D视频重定向需要考虑帧与帧之间的时间一致性问题。若不考虑帧间的一致性,网格的非均匀形变会导致重定向视频出现抖动和闪烁等问题。与2D视频重定向相比,3D视频比2D视频多一个维度, 所以在3D视频重定向过程中需要引入深度方向上的信息,同时需要考虑因深度信息的引入造成的观看者视觉疲劳以及不适等问题。
目前3D视频重定向的研究工作较少,常见的做法是直接对左、右视频序列分别应用传统图像重定向方法。例如,均匀缩放(uniform scaling, US)、细缝裁剪、裁剪、网格形变以及这些方法组合而成的多操作算子,采用上述方法分别对左、右视频帧进行处理可能会造成深度信息错误或者无法保持时间一致性等问题。为了克服上述问题, Li等人(2018a)在此基础上进一步考虑了3D视频的深度信息以及帧间时间一致性问题,并取得了不错的重定向结果,但该方法只对视频的深度进行保持,并未考虑过大的深度范围可能导致观看者产生视觉疲劳以及不舒适等问题。
本文提出一种基于时空联合视差优化的立体视频重定向方法,如图1所示。首先采用光流法对立体视频的每一帧进行视差估计,生成视差图;然后根据人眼辐辏调节的特性,将角视差范围调整到舒适视差范围[-1°, 1°]内(Urvoy等,2013);再将网格顶点的视差转换为感知深度,将网格顶点上的视差根据一定规则重映射到舒适区[-1°, 1°]内,从而得到原视频的重映射视差。随后利用立体显著性检测法,检测得到视频帧中的显著目标(Wang等,2017);最后利用网格形变法,保持显著网格并调整非显著网格使得重定向图像的失真最小。另外,对视频帧进行网格形变的同时,本文设计了时间一致性保持能量项,将视频的每一帧进行串联,使得重定向视频的每一帧在时间上都保持一致,解决了重定向视频中的抖动和闪烁等问题。总之,本文方法不仅能够确保重定向视频的深度在人眼感知深度的舒适性范围内,而且兼顾了在深度方向上的时间一致性。
图1 本文立体视频重定向框架Fig.1 The proposed stereoscopic video retargeting framework
Rubinstein等人(2010)将内容感知的重定向方法分为离散方法和连续方法两大类。离散方法是通过不断迭代,插入或移除一系列像素点来改变图像的尺寸。细缝裁剪是典型的离散方法。连续方法通常通过对图像的各个区域进行非均匀形变,达到对立体图像进行重定向的目的。网格形变法是最典型的一种连续方法,也是一种典型的立体图像重定向方法,通过移除左、右图像的细缝来实现立体图像重定向(Basha等,2013;Utsugi等,2010)。与离散方法不同的是,连续方法通过优化能量方程建立源图像和重定向图像之间的最佳映射关系,能根据内容的重要性程度将形变分布到非显著性区域,也可应用于立体图像重定向领域,分别建立左、右图像的优化能量方程,进而实现立体图像重定向(Lee等,2012;Chang等,2011;Li等,2015)。
相比于图像重定向,由于视频重定向引入了时间维度上的信息,对每帧视频进行重定向时需要考虑前后帧时间上的连续性,所以视频重定向更具挑战性。在重定向过程中需要保持前后帧的时间一致性,否则会出现严重抖动。根据时间窗口的长度可将视频重定向方法分为局部方法和全局方法(Li等,2014)。局部方法(Wolf等,2007;Yan等,2013)是使用一个局部的时间窗口作为约束条件,对相邻视频帧进行时间一致性约束。该时间窗口只对相邻帧进行约束,得到的是局部的时间一致性。局部方法的优势在于每次需要处理的帧较少,计算效率高。但是对于目标运动时间窗口较长的视频,局部方法的准确性会有所下降。全局方法(Rubinstein等,2008;Yen等,2011;Wang等,2009)则是利用整个视频的时间信息,利用运动估计算法将整个视频帧网格间的运动相关性提取出来,根据网格间的相关性对整个视频序列进行重定向(Yen等,2011;Wang等,2009)。由于拥有更长的时间窗口,所以全局方法具有更优的时间一致性。
相比于2D视频重定向,3D视频重定向引入了深度信息,对视频进行重定向时还需要考虑左、右图像的一致性,并保持左、右图像的深度信息,所以又是一个新的挑战。目前3D视频重定向的研究工作较少,已有方法未考虑对重定向视频进行视差舒适化调整,从而很难提升用户的视觉体验。Kopf等人(2014)将立体视频作为两个独立的2D视频进行重定向。Lin等人(2016)提出了一种联合裁剪和网格形变的重定向方法来处理立体视频。林文崇等人(2016)用seam-carving的方法计算每一帧视频的细缝对,从而保持重定向结果的时空一致性。Li等人(2018b)着重考虑立体视频重定向中的感知深度保持,通过网格形变实现重定向。而本文方法是从视差调整的角度提升重定向立体视频的视觉质量。
在视频尺寸适配前,首先需要建立每一帧视频的网格分布,然后运用网格形变法对视频进行尺寸适配调整。由于本文方法需要保持视频帧中较为显著的区域,使得显著区域的失真达到最少,所以需要提取视频的显著信息,以判断每个网格的重要性。本文方法在保持重要网格的同时,对非重要网格进行形变,使得最终得到的适配视频能够最大程度地保持显著信息。视频重定向与图像重定向最大的区别在于视频重定向需要考虑时间一致性,所以在显著信息生成的过程中也要考虑时间一致性。本文方法在生成显著图的过程中考虑了运动信息,将运动显著目标更好地提取出来,进而更好地保持运动目标。
(1)
立体视频重定向通过丢失部分信息来调整视频的尺寸。为了减少重要信息的丢失,需要检测视频中重要的信息。本文采用Wang等人(2017)提出的立体图像显著计算方法,显著计算结果如图2所示。根据显著信息赋予不同网格相应的权重,然后使用网格形变对原始立体视频进行重定向。另外,本文从提升用户视觉舒适度的角度设计能量项,使得重定向视频具有更好的观看舒适度。本文构建3种能量项:1)视频质量能量项。通过视频质量能量项对重定向立体视频中的显著对象进行保持,将形变分散至非显著区域,提升立体视频重定向的效果。2)视频时域保持能量项。由于立体视频帧普遍存在差异性,显著性会随时间不断变化,从而导致网格形变的不连续性。空间时域保持能量项能够解决视频前后帧之间因显著区域不连续造成的视频时域不一致问题,从而保证重定向视频在时域上的一致性。由于重定向立体视频通常面临感知深度突变问题,而这种突变会造成观看者的视觉不舒适。为了缓解感知深度突变问题,还设计了深度时域保持能量项。最后,将空间时域保持能量项和深度时域保持能量项相结合,形成时域保持能量项。3)视差调整能量项。用于重建重定向视频的视差,使重定向视频的视差对应的角视差落在[-1°, 1°]区间内(Urvoy等,2013),从而减少观看者的视觉疲劳,提供更舒适的观看体验。
图2 显著计算Fig.2 Saliency estimation ((a) original frame;(b) saliency map)
2.2.1 视频质量保持能量项
(2)
(3)
式中,ak和bk分别表示第k个网格在相似性变换中的旋转因子和缩放因子,tx,k和ty,k分别表示第k个网格在相似性变换中的平移参数。联立式(2)(3),得到其矩阵形式为
(4)
(5)
为了得到式(4)的最优解,本文利用最小二乘法求解CkPk=dk,进而可得
(6)
根据式(2)(4)(6),得到最终视频质量保持能量项的矩阵形式,具体为
(7)
2.2.2 时域一致性保持能量项
视频重定向与图像重定向最大的不同在于视频重定向需要考虑在时间维度上的稳定性。若未考虑时间一致性保持,视频重定向相当于对一系列图像集合进行处理,这样重定向视频在时域上可能发生突变,导致观看视频时有抖动感觉,引起视觉不舒适。为了减少视频抖动,本文引入时间一致性保持能量项。具体地,在重定向过程中加入时间维度上的约束,将前后帧进行串联,使视频在时域上变得更加稳定。时间一致性能量项定义为
(8)
根据人眼调节机理,过大的深度变化会引起人眼观看的不舒适感。经过调整后的视差图可能出现帧与帧之间视差严重跳变的情况,为了减少因视差突变引起的人眼不适感,需要将感知深度的变化控制在一定范围内,从而减缓深度感在时域上的变化。本文将原始视频的感知深度变化量作为重定向视频的约束条件,使重定向视频的深度变化与原始视频保持一致,从而减少视差突变。视频感知深度时域保持能量项定义为
(9)
本文在时间一致性保持能量项中不仅考虑了视频帧在形状变化上的时域保持,也考虑了3D视频特有的深度感知上的时间一致性问题。前者解决了重定向视频抖动闪烁等问题,后者避免重定向视频深度感上的抖动。因此,最终的时间一致性能量项定义为
ET=EST+EZT
(10)
2.2.3 视差调整能量项
视觉辐辏调节冲突是影响人眼视觉舒适性的一个非常关键的指标(Terzi和Hansard,2016),视觉辐辏调节不当会严重影响视觉舒适性。观看3D电影比观看2D电影更容易产生头晕和疲劳,主要是因为视差并未在人眼观看的舒适区域内。Urvoy等人(2013)认为当角视差范围在[-1°, 1°]内时,人眼观看立体视频的感觉更为舒适。
令舒适深度感知范围为[CVZmin,CVZmax],然后通过深度调整使重定向立体视频的视差落在[CVZmin,CVZmax]范围内,以减少因视觉辐辏调节不当造成的视觉不舒适感。空域的视觉舒适深度感知范围定义为
(11)
式中,e表示双目之间的距离。由于3D视频的差异性,不同的视频会有不同的视差范围,这一范围经常会超过人眼的舒适性范围,本文设计一个能量项将重定向3D视频的人眼感知深度范围调整至舒适范围内。首先,搜寻整个视频内所有帧的感知深度,并判断每一帧的深度范围是否超过人眼感知深度的舒适范围,设计能量项使该深度始终维持在舒适范围内。重建的舒适性感知深度定义为
f(Zi)=K(Zi-Zmin)+CVZmin
(12)
式中,Zi表示第i个网格顶点的感知深度,Zmin表示该帧网格顶点上最小的感知深度,CVZmin表示舒适区间的最低感知深度。视差舒适度调整能量项定义为
(13)
将形状保持、时间一致性保持以及视觉舒适度保持3个能量项相结合得到整体能量项,并通过优化这个整体能量项来进行网格形变。整体网格形变能量项定义为
Etotal=αESD+βET+γEVC
(14)
式中,Etotal表示整体的待优化能量项,α、β和γ分别控制视频质量保持、视频时域保持以及视频感知深度舒适度保持能量项的权重。本文将这3个权重分别设置为α= 1,β= 5,γ= 5。
(15)
(16)
(17)
式中,n表示网格的下边界,m表示网格的右边界。
采用基于网格形变的方法对立体视频进行重定向,同时考虑视觉舒适性问题,对视频的时域一致性进行保持,对视差范围进行重映射,并对视差跳变进行控制,使重定向视频在深度感知舒适性上得到有效提升,减轻观看3D视频的视觉疲劳感及不适感。为了测试重定向算法的性能,分别在3D动画和现实3D视频上进行实验,测试序列如图3所示。视频#1—#4为MOBTLE·3DTV数据库中的4个3D动画视频,视频#1背景较为复杂,目标在垂直方向上运动;视频#2背景相对复杂,目标在水平方向运动;视频#3和视频#4的背景较为简单,视频#3的目标在深度方向和垂直方向均有明显运动,视频#4的目标在深度方向运动。视频#5和视频#6为IVY(Image and Video Systems Laboratory)实验室立体视频数据库(Jung等,2012)中的2个现实场景立体视频,视频#5背景较为复杂,人物在深度方向上运动;视频#6背景简单,但包含多个显著目标。
图3 本文选取的6组测试序列Fig.3 The six test videos in experiment
选取4组动画场景和2组真实场景的视频序列进行分析。立体视频测试序列的选择考虑如下几个方面:1)测试序列涵盖真实场景和动画场景,用来测试并分析本文方法的普适性;2)选择不同深度范围的视频序列,其中,具有小视差范围的序列用来分析本文方法的视差保持效果,具有大视差范围的序列用来分析本文的视觉舒适度保持效果;3)选择拥有十分明显的显著目标的序列和拥有不太明显的显著目标的序列,用以分析影响形状保持的因素。实验中,设置瞳距de=65 mm,显示屏的宽度W=750 mm,显示屏的水平分辨率R=1 920像素,观众到显示屏的距离Ls=800 mm。在水平方向上取0.6、0.7和0.8共3个缩放系数。
选取图3所示的6个测试序列进行实验,实验结果如图4所示,对应的缩放系数分别为0.6、0.7和0.8。视频#1和视频#2均为背景复杂的动画序列,两图中的显著目标兔子的形状保持较好,无明显失真。比较重定向后的视差图与原始视差图可以看出,视频#1视差图变化较为明显,这是由于本文方法需要将视差调整至人眼舒适范围内。视频#3和视频#4为背景较为简单的动画序列,对比原始视频帧和重定向视频帧可以看出,显著目标形状保持良好,无明显失真。由于视频#3和视频#4两个序列的视差较小,所以重定向序列的视差图和原始序列的视差图较为相似。视频#5为现实场景且背景较为复杂,对比重定向前后图像中显著目标荡秋千的人,形状保持良好,秋千的杆子也无扭曲的现象。对比重定向前后的视差图可以看出,视差保持较为良好。视频#6为现实场景背景简单的多显著目标的序列,对比重定向前后的图像可以看出,多个显著目标的形状保持均良好,无明显失真。对比重定向前后的视差图可以感受到视差保持以及视差调整。综合6个视频序列的结果,表明本文方法具有良好的视差保持效果、视差优化效果以及形状保持效果,且具有一定的普适性。
对重定向前后视频帧中的运动趋势进行对比。首先利用光流法计算得出视频帧的运动矢量,然后用每帧的运动矢量表示相应帧中运动物体的运动趋势,重定向视频帧的运动物体的矢量如图5所示。可以看出:1)重定向视频帧的矢量与原始视频帧的矢量基本相同,说明本文方法得到的重定向视频的时间一致性保持良好。2)重定向视频中并无闪烁抖动等现象出现,说明本文方法的时间一致性保持能量项效果显著。
利用光流法对视频进行矢量计算,根据所得的矢量结果求出对应目标物体的运动轨迹,并对重定向前后视频中目标物体的运动轨迹进行比较,结果如图6所示。由于本文对视频的水平宽度进行了调整,调整系数为0.6,所以图6(a)中重定向视频水平方向上轨迹的坐标值为与原始视频的值0.6倍的关系。从图6可以看出,重定向前后视频中目标在水平方向的轨迹基本一致。图6(b)为视频中目标物体在垂直方向上的运动轨迹。可以看出,重定向前后视频中目标在垂直方向轨迹的吻合度也很高。从图6的轨迹变化上可以看到,本文方法得到的重定向视频中目标并未出现位置上的跳变等情况。因此,本文方法的时域保持性能良好,重定向后视频中目标的轨迹能够与原始视频基本一致,并且未出现抖动闪烁等现象。
图4 立体视频各尺寸重定向结果及对应视差图Fig.4 The results of stereoscopic video retargeting in 0.6, 0.7, 0.8 scales and their disparity maps((a) original video frames; (b) the results of video retargeting; (c) original disparity maps; (d) the disparity maps after video retargeting)
图5 连续4帧原始视频与重定向视频矢量图对比Fig.5 Comparison of motion vectors for the original and retargeted videos((a)original videos motion vectors;(b)retargeted videos motion vectors)
选取了两种较为经典的3D视频重定向方法作为对比方法,分别是简单方便的均匀缩放(uniform scaling,US)和经典的基于细缝裁剪(seam carving, SC)的3D视频重定向方法(林文崇 等,2016)。实验结果如图7所示。由于均匀缩放对整幅图像采用相同的缩放比例,所以图像中的显著目标会受到一定挤压。从图7可以看出,均匀缩放得到的视频帧中的目标均因受到挤压而产生形变。细缝裁剪方法在显著信息容易提取的视频中表现较为良好,如视频#6,背景为黑色,显著目标十分明确,细缝裁剪方法能够取得较好效果。但是,在一些显著信息难以提取的情况下,由于一些显著目标的提取无法达到较为精准的程度,会导致显著目标产生形变和扭曲,所以该方法在多数情况下效果不佳。相比之下,本文方法具备更强的鲁棒性,能够在计算机自动提取的显著图的指导下得到显著目标形状保持良好的重定向视频帧,具有较好的形状保持性能。
本文方法联合时空对立体视频的视差进行优化,保证了视差的时域稳定性、空域保持性及人眼舒适性,如图8所示。图8中视差图颜色的深浅代表视差的大小,越深视差越大。从图8可以看出,均匀缩放方法得到的重定向后视频帧的视差保持不变,但是显著物体形状发生扭曲,其并未对过大的视差进行调整。在细缝裁剪方法得到的重定向后视频帧中,由于显著物体形状保持较差,所以视差保持也很差,容易造成强烈的视觉不舒适。而本文提出的方法从时、空两个角度对视差进行调整,不仅对视差进行大致的保持,还将视差调整至人眼观看最为舒适的范围内。
图6 重定向前后目标水平和垂直方向运动轨迹Fig.6 The trajectories of motion object before and after retargeting in x-direction and y-direction ((a)horizontal direction;(b)vertical direction)
图7 本文方法与均匀缩放(US)和细缝裁剪(SC)方法在0.6、0.7和0.8水平缩放比例下的重定向结果对比Fig.7 Comparison of results of retargeting with 0.6, 0.7, 0.8 scales among US, SC and our method ((a) original video frames; (b) US; (c) SC; (d) ours)
图8 本文方法与均匀缩放(US)和细缝裁剪(SC)方法在0.6、0.7和0.8水平缩放比例下的重定向视差对比Fig.8 Comparison of disparity maps after retargeting with 0.6, 0.7, 0.8 scales among US, SC and our method ((a) original disparity maps; (b) US; (c) SC; (d) ours)
为了证明本文所提能量项的有效性,进行了消融性实验,分为3种情况:1)去除显著信息对视频进行重定向;2)去除视差调整能量项对视频进行重定向;3)去除时域保持能量项对视频进行重定向。实验结果如图9所示。可以看出:1)去除显著信息时,产生了与均匀缩放类似的结果,显著目标未得到保持,与非显著目标区域拥有相同的压缩率;2)去除视差调整能量项时,过大的视差会引起视觉不舒适;3)时域保持能量项对比结果通过互联网获得(网址:https://pan.baidu.com/s/13qV-NsEg7jkZm HDqwjqIpw)。去除时域保持能量项后,视频中存在明显的抖动现象。实验结果表明,本文方法中各个能量项均为有效能量项。
采用两种客观评价方法评估重定向视频的质量,分别是平面方法和立体方法。平面方法是基于宽高比相似度(aspect ratio similarity,ARS)的重定向图像质量评价方法(Zhang等,2016)。使用该方法对水平方向缩放比例为0.6的重定向视频进行逐帧评价,得到的平均质量分值介于0.982 5 0.952 3,总体表现较为良好。最大质量值与最小质量值之间差异较小,说明重定向算法在内容损失控制和形变控制等方面具有较强的稳定性,因此,本文方法具有较强的失真控制水平以及失真控制稳定性。立体方法是基于网格形变和信息损失(grid deformation and information loss,GDIL)的立体图像重定向评价方法(Fu等,2020)。使用该方法得到的质量评价结果如表1所示,本文方法的质量分值介于43.17 54.13。可以看出,1)对于ARS,均匀缩放方法生成的重定向视频的客观分值稳定在0.887 6 0.875 9。细缝裁剪方法生成的重定向视频的客观分值浮动较大,对背景简单的场景能够得到较高的客观分值,介于0.969 1 0.748 0。本文方法对应的客观分值介于0.982 5 0.952 3,说明具有较高的鲁棒性和较强的形状保持性能。另外,对于序列#1—#5,本文方法的质量分值均高于对比方法的客观分值。对于视频序列#6,细缝裁剪方法得到的重定向视频的客观分值略高于本文方法,这是由于视频#6背景为黑色且只有两个显著目标,对于这种情况,细缝裁剪展现出算法的优越性,但得分也仅略高于本文方法。综上所述,本文方法具有较好的形状保持性能和较强的鲁棒性。2)对于GDIL指标,均匀缩放方法的客观分值介于39.32 41.96,明显低于本文方法。细缝裁剪方法的客观分值介于28.49 61.84,得分差距大,说明该方法鲁棒性过差。对于背景简单的视频序列,如视频序列#3和#6,细缝裁剪方法的客观分值较高,超过本文方法,说明细缝裁剪方法只适用于背景简单和显著目标单一的视频,不具有普适性。本文方法的客观分值介于43.17 54.13,能够适应背景复杂和显著目标不明显的视频序列,如视频序列#1、#2和#5,本文方法的稳定性较高。
图9 消融性实验去除显著信息及去除视差调整能量项的重定向结果对比Fig.9 The results of stereoscopic video retargeting without saliency information or disparity constraints((a) original video frames; (b) the results of video retargeting without saliency information; (c) our method; (d) original disparity maps;(e) the disparity maps of retargeting video without disparity constraints; (f) the disparity maps of ours)
表1 均匀缩放(US)、细缝裁剪(SC)与本文方法的ARS和GDIL客观评价得分Table 1 The ARS and GDIL score of US, SC and our method in objective assessment
在配置为Intel Core i5-9400F、2.90 GHz以及8 GB内存的设备上分别对480 P、720 P以及1 080 P的视频进行测试,测试结果如表2所示。可以看出,与细缝裁剪方法相比,本文方法的时间复杂度较低。与均匀缩放方法相比,本文方法在时间复杂度上的优势不大,这是因为均匀缩放只是进行了简单的缩放并不涉及优化,因此该方法时间复杂度最低。综上所述,本文方法在时间复杂度上具有一定优势。
表2 均匀缩放(US)、细缝裁剪(SC)和本文方法每帧的时间复杂度Table 2 The time complexity of US, SC and our method per frame /s
虽然本文方法的性能较好,但仍存在一些局限性,主要表现在:1)当场景十分复杂时,本文方法需要非常准确的显著图才能获得高质量的重定向效果,即本文方法受视差估计和显著性检测精度等因素影响较大;2)当帧与帧之间场景跳变很大时,会出现时间一致性无法保持问题;3)由于本文方法利用左视频序列和视差图构建右视频序列,当视差过大、显著目标超出右图的显示范围时,右图显著目标会出现形状失真。
本文提出了基于时空联合的视差优化方法,对视频视差进行重映射,使其处于一个舒适范围内,并结合视差的时域保持,使得到的重定向视频既满足观看舒适性又不会产生时域上的视差突变。同时,提出一种基于网格形变的立体视频重定向方法,根据视频的显著性信息建立网格形变方程,然后对立体视频的尺寸进行调整。实验结果表明,与均匀缩放和细缝裁剪的视频重定向方法相比,本文方法具有更好的形状保持性能、时域保持性能以及视差优化性能,优化得到的重定向3D视频的感知深度具有时间稳定性及视觉舒适性。在接下来的工作中,将结合裁剪方法与本文网格形变方法进行立体视频重定向工作,从而进一步减少显著目标的失真。