陈晨,杨宇,徐品
(中国传媒大学 信息工程学院,北京 100024)
近年来,3D电视产业发展迅速,3D电视节目的数量却远远不能满足观众的需求,其原因之一就是3D电视节目的质量不能得到良好的控制,质量劣质的3D视频会令观众产生不适感。
关于双目立体视觉舒适度的研究有很多,ITU国际电信联盟制定了针对立体视频图像质量的测试操作规范《ITU-R BT.1438》[1];加拿大CRC实验室的Tam研究了立体视频编码和传输环节所产生的失真问题[2];Stelmach等人研究发现左右眼图像的视点质量差异会影响立体图像的质量感知[3];Pieter J. H. Seuntiens指出立体深度感过大也会导致图像的不舒适性[4];在国内,杨蕾、劳丽娟等人研究了亮度、色度、对比度、分辨率以及图像边缘信息对图像质量的影响[5-6]。在众多研究中,视差是影响双目立体舒适度的关键因素。在我国,国家广电总局也在研究和指定相关标准,2011年11月发布了《3D电视技术指导意见》,对视觉安全准则和质量控制做出了规定,而对视差计算与视差管理的要求是其重要的组成部分。
本文设计的检测系统是以广电总局《指导意见》为原则,自动检测与提取双目立体图像中的视差信息,并用鲜明的颜色标注不符合规定的视差所处的画面位置,提醒制作人员这个部分的3D图像可能会造成人眼不适。
人眼能感知深度,主要原因是人类左右眼的视轴存在间距。当人类观察物体时,左右眼接收到的图像非常相似,但在水平位置上稍有不同,大脑正是通过综合左右眼图像中的这种不同(即水平视差[7]),而感知到相应画面的深度,从而产生立体感。同理,人们通过3D监视器观看3D节目时,立体眼镜或自立体显示技术可以将来自左右不同位置摄像机的图像分别送至人的左右眼,这样左右视图中的水平视差可令观察者感受到3D画面中不同物体的深度(即感知深度[8])。
图1 感知深度示意图
图2 立体图像感知深度与人眼观看舒适度关系图
如图1所示[9],IL和IR分别是左眼和右眼看到同源像点在屏幕上的水平位置,V是这两点经人脑融合后的成像位置,它距屏幕的距离即感知深度。当水平视差为零,即左右像点重合时,人眼视线会聚于屏幕上,该像点给人的感觉是紧贴在屏幕上的。当水平视差为正值,人眼视线会聚于屏幕后方,即观看者感觉V点位于屏幕后方。当水平视差为负值,人眼视线汇聚于屏幕前方,则观看者感觉V点位于屏幕前方。正视差和负视差的感知深度可分别由公式(1)和公式(2)得出。式中e为人双眼瞳距,p为水平视差的绝对值,d为观看者到屏幕的距离,g为感知深度。
(1)
(2)
人感知到的图像深度与人眼舒适度关系如图2所示[9]。对于屏幕附近的立体图像,观众感觉舒适,而随着立体图像距离屏幕越来越远,舒适度逐渐降低。水平视差的大小可以直接影响感知深度的大小。《3D电视技术指导意见》提出了视差安全指标,要求正负视差在一定的安全范围内,其中正视差小于50mm,负视差小于150mm。并且为了保证长时间观看的舒适度,大部分时间内的画面主体内容视差角小于1度,正负视差的绝对值小于高清电视机屏幕宽度的3%,约58个像素。
为了保证3D电视节目的舒适度,节目制作人员需要对3D节目信号中的水平视差进行检测和控制。本系统主要负责对水平视差进行检测,将不合理部分予以标注,以便制作人员做进一步调整。系统结构如下:
系统首先逐帧读取左右眼图像,并采用双边滤波去除图像中可能产生错误匹配的噪声,然后使用SGBM立体匹配算法对去噪后的左右眼图像进行立体匹配,求出视差图。最后对每一帧视差图进行分析,将视差范围超过3%的不合格部分采用不同的警告颜色标记,超出3%-4.5%的部分使用蓝色标记,超出4.5%-6%的部分使用绿色标记,超出6%的部分使用红色标记,这些标记叠加到原左眼图像上,可令制作人员快速找出3D视频中视差不合理的位置。系统主要流程如图3所示。
图3 系统流程
图像上的噪声会令立体图像匹配部分发生误匹配,从而导致视差图中有过多错误的视差值出现,进而令后续色彩标记发生错误。因此在图像匹配前需要对左右视频进行去噪处理。双边滤波[10]是一种非线性滤波算法,它对像素的空域关系和灰度相似性进行了折中处理,因此在取得良好去噪效果的同时还能保留了图像边缘信息。双边滤波表达式如下:
(3)
其中wD(p,q)是衡量像素p和q在几何近邻关系的权函数,距离中心像素p越近的邻域点对wD(p,q)的值贡献越大,因此能达到平滑去噪的效果。wR(p,q)是衡量像素间灰度值相似程度的权函数,与中心像素灰度值越接近的邻域点对wR(p,q)的值贡献越大,因此在图像边界处时权值很小,这样边界一边的灰度只会对另一边的灰度分布造成较小的影响,从而有效保留边界。通常取
(4)
(5)
其中
(6)
(7)
在立体匹配前用双边滤波对左右眼图像进行去噪能有效减少图像噪声对立体配的影响,增强匹配效果。
为了提取3D视频左右眼图像的视差,需要根据匹配准则并利用匹配算法对左右眼图像进行匹配。匹配效果直接决定了深度信息的准确性,因此匹配准则及算法的研究和选取尤为重要。
3.2.1 SAD匹配准则
匹配准则用于衡量两个像素块的相似程度,直接关系到运动估计的精确性,本文采用绝对误差和(SAD)准则[11]。
-I1(i+m,j+n)|
(8)
(8)式中(i,j)为位移矢量,I1、I2分别为参考图像和当前图像的灰度值,M*N为匹配快的大小,若在某个点(i0,j0)处的SAD(i0,j0)值最小,则该点为最佳匹配点。
3.2.2 SGBM立体匹配算法
SGBM算法是一种基于半全局信息和互相关信息的立体匹配算法[12]。SGBM采用像素精度并沿像素各个方向进行快速近似,保证计算精度的同时减少计算量。
匹配计算的思想是选定基准图像灰度图Ibp中的一个像素点p,在假设相关图像的灰度图Imq中寻找匹配点q,q满足(9)式,根据外极性约束条件[13],点p在经过线性移动距离d后即为匹配图像中的q点,而d就是立体视频中的视差值。
q=ebm(p,d)
(9)
在SGBM中基于图像互相关信息进行立体匹配。对于匹配良好的左右眼图像,可以通过其中一幅较为准确地图像预测出另一幅,因此两幅图像联合熵较小,互相关信息较大。MII1I2为两幅图像的互相关信息,HI为图像的熵,HI1I2为图像的联合熵。
MII1I2=HI2+HI2-HI1I2
(10)
MII1I2=∑miI1I2(I1p,I2p)
(11)
CMI(p,d)=-mib,f(Im)(Ibp,Imq)
(12)
像素精度计算量大,而且由于噪声等原因,很容易产生错误匹配。因此需要添加一个支持相邻视差平滑过渡改变的限制条件,根据视差图D通过一个能量公式E(D)来进行定义,立体匹配过程即为寻找视差图像D使得E(D)值最小的过程。
E(D)=∑pC(p,Dp)+∑q∈NpP1T[|Dp-Dq|=1]
+∑q∈NpP2T[|Dp-Dq|>1]
(13)
图4 全方向聚合计算
但是全局最小能量函数值对于许多不连续的部分是找不到的,因此对于像素p可以通过求其各个方向的最小值来找到对应像素q及视差d,如图4所示。用L’r表示通过方向r进行的匹配路径,则像素p经过视差d匹配的函数L’r(p,d)表示为:
L′r(p,d)=CMI(p,d)+min(L′r(p-r,d),L′r(p-r,d-1),+P1,L′r(p-r,d+1)+P1,minL′r(p-r,i)+P2)
(14)
所有方向的计算聚合Lr是各个值的累加,方向的数量至少是8个方向,为了能够提供更好的全局的覆盖面,方向数量应当是16个,S的上限值定义为S≤16(Cmax+p2)。
S(p,d)=∑rLr(p,d)
(15)
对基准图像中每一个像素p寻找使它的聚合计算值 S(p,d)最小的距离d,这些d的组合即为视差图。
图5(a)、5(b)分别是3D视频中左视频和右视频,通过本系统进行处理后,如5(c)所示,整个图像中颜色标记很多,尤其是红色区域面积过大,这表示本视频的大部分内容严重超出安全视差规定。图6(a)和6(b)是经过视差调整的3D视频左右视图,该视频的绝大部分区域视差处于安全范围内,不会引起观众的不适感。这两路视图经本系统检测,输出图像如图6(c)所示,主体内容仅有较少部分被标记了绿色和蓝色,说明主体内容的视差可满足人对舒适度的要求,画面左侧虽仍有若干红色标记,但由于此处并非观众注意焦点,所以也不会让观众产生不适感。
(a)右眼原图像 (b)左眼原图像 (c)原图像视差分析图图5 原图像测试结果
(a)调整后的右眼图像 (b)调整后的左眼图像 (c)调整后图像的视差分析图图6 调整图像后测试结果
通过本系统可以对3D电视节目的水平视差进行分析,经过测试能够有效地找出其中可能造成不适的部分,为节目制作人员提高节目舒适度提供参考。随着人们对3D节目质量要求的提高,这类监测系统将在3D节目制作系统中扮演越来越重要的角色。
[1]Subjective assessment of stereoscopic television pictures,ITU,Recommendation BT 1438[S],2000.
[2]Tam W J,Speranza F,Yano S,et al. Stereoscopic 3D-TV:visual comfort[J]. IEEE Transactions on Broadcasting,2011,57(2):335-346.
[3]Stelmach L B,Tam W J,Meegan D V,et al. Human perception of mismatched stereoscopic 3D inputs[C].Image Processing,IEEE International Conference on Proceedings,2000,1:5-8.
[4]Seuntiens P J H.Visual experience of 3D TV[D].Eindhoven:Eindhoven University,2006.
[5]宋晓炜,杨蕾,王勇. 一种基于HVS色度不敏感性的立体图像处理方法[J]. 中原工学院学报,2008,(06).
[6]劳丽娟. 静止立体图像的理论分析与实验研究[D]. 天津:天津大学,2008.
[7]Veron H,Southard D A,Leger J R,Conway J L. 3D displays for battle management[R]. RADC-TR-90-46 Final Technical Report,1990.
[8]Jones G,Lee D,Holliman N,Ezra D. Controlling perceived depth in stereoscopic images[J]. Stereoscopic Displays and Virtual Reality Systems VIII,Proceedings of SPIE 4297A,2001.
[9]杨宇,郭远航,沈萦华. 3D 电视节目的防眩晕拍摄技术研究[J]. 电视技术,2011,35(8):54-57.
[10]许冠军. 数字图像去噪算法研究 [D]. 杭州:浙江大学,2006.
[11]向友君,雷娜,余卫宇.运动估计算法匹配准则研究[J].计算机科学,2009,(09):278-280.
[12]Hirschmuller H. Stereo processing by semiglobal matching and mutual information[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(2):328-341.
[13]Marr D.Vision:A computational investigation into the human representation and processing of visual information[M].WH San Francisco:Freeman and Company,1982.