成于庆,姜秀华
(中国传媒大学 信息工程学院,北京 100024)
立体电视(Stereoscopic Television)又称三维电视(Three Dimension Television,3DTV),是数字电视和新媒体领域的一大热点。与现行电视相比,主要区别在于现行电视只传送一个平面的信息,而立体电视还传送物体的深度信息。立体电视在一个平面内使人们可直接看到三维立体图,画中事物既可以凸出于画面之外,也可以深藏其中,给人身临其境的感觉,有很高的艺术欣赏价值。立体电视视频的质量直接影响着立体电视技术的发展。目前关于立体电视视频质量评价缺乏科学体系和行业统一的测定标准,国内外很多学者已经开始关注研究。笔者基于目前各方提出的测定标准,从立体电视技术链的角度,归纳出可能影响立体电视视频质量的各个因素,以及对视频质量的具体影响表现。
人的视觉特性和电视的电光转换成像原理是立体电视的2个最基本的依据,2个稍有差别的图像进入相距6~7 cm的双眼后,由于双目视差的存在,在大脑中综合成有立体感的图像。引起这种立体感觉的效应叫做“视觉位移”。两眼同时观察一个物体时,物体上每一点对两只眼睛都有一个张角。物体离双眼越近,其上每一点对双眼的张角越大,视差位移也越大。
对于平面图像序列,由于进入眼睛的是一幅幅角度完全相同的图像,所以视觉和大脑无法提取画面上物体真实意义上的空间立体感,不能体现其三维关系。而立体图像与平面图像有着本质的区别,平面图像反映了物体上下、左右二维关系。人们看到的一些平面图也有立体感,这主要是运用光影、虚实、明暗对比来体现的,而真正的立体画是模拟人眼看世界的原理,利用光学折射制作出来,它可以使眼睛感观上看到物体的上下、左右、前后三维关系,是真正视觉意义上的立体画。
Julesz曾经就利用随机点图证明双眼视差可以同任何视觉经验无关[1]。后人据此建立了基于双眼视差的立体视频质量客观评价的模型。
从立体电视技术链的角度分析,一个完整的立体电视系统主要由采集制作、发端压缩编码、信号传输、收端硬件解码和立体显示这5大环节组成[2],如图1所示。最后观众通过佩戴立体眼镜或者裸眼方式看到立体视频。每个环节都可能造成视频质量不同程度的损伤,影响最后的立体效果。
立体视频质量的好坏很大程度上取决于前端立体视频信号源的质量。首先考虑立体视频内容的获取途径。总的来说,途径可分为3大类:立体拍摄、立体动画制作以及2D转3D视频方法,如图2所示。
立体拍摄方法有多种:
1)使用三维扫描仪刻画出相机到场景中每一个物体像素点的物理距离,深度信息刻画非常精确。但是其价格昂贵,扫描时间长,只能扫描静态物体,不能进行动态场地的三维扫描,扫描场景区域有限,因此不具备普适性。
2)使用深度相机,同样也能获取场景中的三维信息,但是因为深度相机较多地采用红外线方式进行深度测量,如果发射出去的射线经过了若干个面的反射,比如反射到墙上,墙反射到地上,地又反射到桌子上,然后反射回接收器,深度计算就会产生比较大的偏差,因此精度比较低,产生的立体画面质量比较差。
3)使用多相机拍摄系统。双目采集通过2个摄像头模拟人的双眼,方便得到场景跟人眼匹配的立体信息。但是缺点在于:首先2个摄像镜头不可调整,其次只有2个视点,用户无法选择新的视点观看场景,即缺乏交互功能。多目采集正好弥补了这些缺点,但摄像机数量多,携带不便,数据量非常大,压缩起来困难。清华大学建立了一个环形的光场采集系统,在笼子里铺上一圈摄像机,配不同的光照,采集过程中实现变光照,然后多相机多角度采集。当然,这个系统摄像机数量多,数据量也非常大,而且采集过程中光照不停变化,分析数据特性比较困难。Ijsselsteijn等人专门研究了拍摄机器参数变化对立体图像质量的影响,对3D电视系统数据采集的摄像机参数优化有指导意义[3]。用多相机模拟系统代替人眼拍摄立体视频存在2个问题。首先,人眼具有快速的视线聚合距离调整功能,模拟系统附加自动控制装置模拟这些人眼的细微运动比较困难。其次,多台摄像机的曝光、镜头缩放和聚焦控制必须做到同步,否则会存在stonekey,crosstalk等扭曲效应[4]。图3为立体拍摄设备实物举例。
计算机制作生成三维动画的软件非常多,如3ds Max,Maya等。这方面对立体视频源质量不在讨论范围内。
目前通过2D转3D技术获得的立体视频质量普遍不高。2D转3D方式首先使用普通摄像机拍摄立体环境,通过光线透过镜头在CCD成像面上得到二维图像,通过二维信息换算或者反算回原有的三维信息,在视觉上是一种求解过程,但未知变量个数远远大于所能建立起来的方程数,因此解非常多。正因如此,最终恢复出来的三维场景的结果只能是一个近似结果,不可能还原成真实的三维场景。此外,还有一个问题,因为变量个数很多,方程个数同样很多,整个求解复杂度非常高,导致立体效果较差。
立体电视的拍摄制作都是在保持左眼信号与右眼信号分离与独立的情况下进行的,不进行混合与码流压缩,保持2个信号的高质量,一旦完成制作,就要根据应用考虑下一步的处理。
现行电视只传送一个平面的信息,而立体视频还需传送深度信息,立体视频要拍摄左右眼2路视频。这种逼真感的直接代价就是2倍甚至更多于普通视频的数据量,这给立体视频的传输和存储带来困难,所以必须借助于高效的编码技术压缩数据量。
目前立体视频压缩编码方法主要有基于视差估计的编码、多视点视频编码和三维网格编码3种技术[5]。基于视差估计的编码是寻找各视点图像间的空域相关性,但重建的目标图像块效应比较严重。多视点视频由放置于不同位置的摄像机对同一场景同步拍摄获取的多个视频序列构成,用户观看时可改变视点或视角。同一个场景内多个视点的画面之间存在很高的相关性,编码时通过消除空间冗余和时间冗余压缩数据量,但由于不同视频有其基于内容的特殊性,压缩方式不一定适用于所有内容的立体视频。三维网格用于描述三维场景、人脸部表情和身体动作的变化,通过三维建模软件和三维扫描获取三维网格模型,数据量巨大,一般通过量化法向、纹理坐标、颜色、顶点轨迹等属性达到压缩的目的,而量化造成了视频质量不可避免的下降[6]。
Stelmach等人研究了立体视频编码技术与主观感知质量间的关系。通过研究左右2视点在不同压缩率和不同空间分辨力对立体图像质量的影响时发现,立体图像质量主要取决于质量较高的图像视点,这意味着只要保持主观质量较好的那个视点码率不变,适当降低另一个视点图像的编码码率,不会影响立体图像的主观质量[7]。
在研的编码方法还包括多描述编码(Multiple Description Coding)、信道自适应编码(Channel Adaptive Coding)以及多视点视频编码(Multiple Visual Coding),不断减小编码环节对源视频造成的损伤。
立体信号的传输离不开目前的电视传输手段——有线传输、卫星传输、地面传输以及新兴的互联网传输(IPTV)。3D电视数据量巨大,传输带宽加大,而且数据之间还有非常紧密的联系,传统传输技术面临挑战。
目前国际上立体电视主要是基于卫星传输的立体电视业务。为了让已安装机顶盒的用户解码立体信号,基于卫星传输的立体电视业务传输的是空间交错的SBS(Side-by-Side)的半高清立体信号,需戴眼镜观看。SBS方式将每帧图像一分为二,显然这种方式以牺牲水平分解力为代价。与SBS相对应的是up/down方式,减半垂直分解力,即每帧图像在垂直方向上像素减半,减半的左右眼图像合并成新的一帧,其码流与SBS方式相当,都造成清晰度下降。
新兴的基于互联网的立体视频点播传输系统框架如图4所示。在整个框架中,立体视频点播服务端可以和多个客户端相连,负责立体视频数据的RTP封装、发送,RTSP命令的响应等,客户端利用RTSP协议点播立体视频节目,实现节目的播放、暂停、停止、随机访问等操作。网络服务端利用网页的方式发布节目,客户端利用浏览器了解节目的相关信息并进行点播。传输对视频质量造成的影响主要包括以下4点:
1)音视频同步。当声音与显示的视频图像不匹配时,称为音视频失同步,通常由于视频链路传送端和接收端之间的时钟差异导致。如果通过IP网络传输立体视频信号,由于IP网络与生俱来就是异步的,只能通过确保充足的网络带宽和不存在处理瓶颈(如路由器过载等会导致分组次序错乱)加以解决。
2)丢包。丢包是IP视频传输系统经常发生的差错之一,原因包括IP报头破坏、链路过载、数量不足或网络设备故障等。IP系统只能最大限度地降低丢包率,但对于偶尔发生的丢包现象很难避免。
3)分组抖动。当组成视频数据流的分组无法以一种平滑连续的方式到达时,就会产生分组抖动。对于时效性要求不高的数据,例如Web网页,抖动无影响,但是对于实时的视音频数据流而言,抖动的危害性很大。
4)误码。当用户接收的信号与最初发出的数据不同时,就出现了误码。不同的传输介质(无线、光纤、同轴电缆、双绞线等)导致误码出现的原因各不相同。一些差错仅会影响到一个像素,无害;而多数差错会影响到一连串的视频帧,非常严重。由于误码趋向于随机分布,没有太好的方法预测。目前纠正误码的主要方法有差错重传、前向纠错等。但差错重传会导致延时,前向纠错会消耗额外带宽,实际使用时还需综合考虑[8]。
3D显示是3D电视技术链中的最后一环,也是最影响终端用户的一环。要显示3D内容,就要表示出每个点的深度或距离信息。3D显示技术直接影响立体视频清晰度、视场、深度、亮度、色度、对比度等各方面。
实现3D成像的方法有多种,设备上可分为液晶显示器、等离子显示器、投影仪以及新出现的手机等移动设备;技术上可分为眼镜式3D和裸眼式3D技术2大类。表1分别对2大类立体显示技术对立体视频质量的影响进行了比较。
从表1中可看出,不同的显示技术直接导致不同的立体显示效果。虽然3种眼镜式3D技术最终都将发展为更高一级的裸眼3D技术,但偏光式和主动快门式3D显示技术成像效果好、技术成熟,是目前3D显示的较好选择。
人类的立体视觉一般由心理立体视觉与生理立体视觉两部分组成[9]。心理立体视觉是人通过观察事物形成的一种立体视觉经验和视觉记忆,可以帮助人们观看平面图像时感觉到一定的深度信息。生理立体视觉是由人眼的晶状体调节、双眼会聚和双眼视差等因素构成的立体视觉,其中双眼视差是人眼最强烈的生理立体视觉因素。但据统计,约有4%~6%的人由于先天或后天的原因,存在视差立体感视盲,看任何物体都是平面,没有空间距离感和深浅度。进一步估计,一般来说双眼视力相差度数在250°以上,就可能成为“立体视觉异常”。这类人观看立体电视时,立体感必然也会大打折扣[10]。此外,每个人由于个体的差异,双眼视差有所不同,所看立体景深有出入,而拍摄摄像机的视差是固定的,这也会导致部分人观看立体视频时立体效果有所降低,或出现双眼疲倦、身体不适感。
表1 立体显示技术对立体视频质量的影响
影响立体视频质量的原因是多方面的,随着技术的进步,研究人员正在不断采取新的方法,提高立体视频质量。
在编解码方面,中国具备自主知识产权的第二代信源编码标准AVS2定义了关于立体视频编解码的标准,支持深度编码、场景编码等新的立体视频表示方法,并介入ISO/IEC MPEG的高效视频编码(HVC)的制定;国际上,蓝光光盘协会制定的蓝光3D标准采用了基于多视角视频编码(MVC)的3D视频编码技术,该技术是基于ITU H.264的AVC视频编码技术上的拓展,相比2D内容,蓝光3D标准使用的MPEG-4-MVC技术对左右眼画面的数据进行压缩后数据增量大约为50%,能够实现与现有2D蓝光播放机的全高清1 080p高分辨力的后向兼容性。
在传输方面,HDMI高清晰度多媒体接口协议标准在HDMI 1.4的基础上,专门为3D立体影像传输进行升级,改进的1.4a版规范和对应的兼容性测试标准(CTS)也已发布,通过改进的HDMI接口可以在一根传输电缆内传送无压缩的音频信号及高分辨力的立体视频信号。
在显示方面,近日美国CES2011消费类电子展上出现了不少新型显示器。Cinema 3D电视采用FPR(Film Patterned Retarder)技术,很好解决了主动快门式立体电视图像模糊及闪烁问题。3D Light Boost技术采用液晶板表面薄型的薄膜,使3D影像的清晰度达到最大化。Cinema 3D电视同时配备Local Diming、微型像素控制以及支持减少运动模糊的“Tru Motion 400 Hz”功能,极大提高了立体电视的显示效果,液晶显示器的响应时间也得到缩减,这样不但可使3D图像更加清晰,还能减少鬼影现象,避免观众视觉疲劳[11]。多款新型主动快门式3D眼镜重量越来越轻。其中一款用户可以定做有度数的镜片,方便了近视眼患者;另一款采用全新镜架边缘设计,镜架连接于LCD镜片上沿,为观众提供更大的画面观看范围。
可以预见,随着立体视频技术的不断进步,立体视频质量将不断提高,立体电视将成为今后一种新型主流的娱乐形式。
[1]JULESZ B.Binocular depth perception of computer-generated patterns[J].Bell System Technical Journal,1960,39(5):1125-1162.
[2]李小兰.立体电视编码传输技术及业务实现[J].电视技术,2010,34(11):4-9.
[3]IJSSELSTEIJN W,DE RIDDER H,VLIEGEN J.Subjective evaluation of stereoscopic images:effects of camera parameters and display duration[J].IEEE Trans.Circuits and Systems for Video Technology,2000,10(2):225-233.
[4]WOODS A,DOCHERTY T,KOCH R.Image distortions in stereoscopic video systems[EB/OL].[2010-12-21].http://www.andrewwoods3d.com/spie93pa.html.
[5]沈萦华,吕朝辉.3DTV中的编码技术综述[J].电视技术,2009,33(11):28-30.
[6]DEERING M.Geometry compression[EB/OL].[2010-12-21].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.2.8941&rep=rep1&type=pdf.
[7]STELMACH L B,TAM W J.Stereoscopic image coding:effect of disparate image-quality in left-and right eye views[J].Signal Processing:Image Communication,1998,14:111-117.
[8]辛普森,格林菲尔.IPTV与网络视频:拓展广播电视的应用范围[M].郎为民,集巧,译.北京:机械工业出版社,2008.
[9]侯春萍.平面图像立体化技术的研究[D].天津:天津大学,1998.
[10]孙延禄.3D影像显示方法丛谈[J].现代电影技术,2010(1):49-53.
[11]美国2011电子消费展CES2011专题报告[EB/OL].[2010-12-21].http://www.pconline.com.cn/zt/ces2011/datafamily/datafamilynews/1101/2314065.html.