郑文钦
前言
会议沟通是人们在日常工作中每天都可能会进行的事情,有效率的沟通往往能够事半功倍。面对面的沟通当然是最有效率的,可以快速互动交换信息,可以听到声音,看到肢体语言及面部表情,从而判断虚实。然而,要做到面对面会议交谈在某些情况下并不容易,尤其是异地的会议,也许要通过汽车、火车甚至飞机等交通工具,到达后还有进一步协调会议时间。显然,这样的会议成本是十分高昂的。
所幸随着科技的进步,网络频宽倍数增加,半导体制程进入数十纳米级,IC的发展速度飞快,内容压缩技术的成熟及储存媒介价格的大幅下行,让人们可以天涯咫尺,花极小的代价,让双方在不同地理区域,很容易地做面对面开会沟通。这就是视讯会议系统所带来的便利性,随时都可做会议沟通,让我们做事的效率大大提升。
远程会议如果少了视讯,无法看到对方的表情以及实体物的当场演示,都会减弱信息传达的效果。相反,如果能看到与会者的表情,听得到原音重现,则可以达到如亲临现场般的沟通效果。这就是视讯会议的功效。
据来自IDC的数据表明,从2013年开始,视讯会议云服务市场已呈现加速发展的态势。IDC预测中国视讯会议市场2013-2018年将保持6.5%的年复合增长率,2018年市场规模将达到4.9亿美元。
另外,由于智能型手机的普及化让摄像机技术及产业已成今日的显学,统计分析资料显示,一场视讯会议总的信息量中,数据和声音的信息量分别约5%,其余90%都是视讯的信息量。因此可以说,视讯会议应用中,优质的视讯是系统性能的关键。
这其中,摄像机更是视讯会议系统中决定画质的一大关键周边元件,画质好坏决定了人们对一套视讯会议系统优劣最直接的评价。因此,选择适当的摄像机可以发挥出视讯会议系统最大的作用。
视讯会议系统简介
视讯会议系统组成包括:1.至少一个摄像机;2.数个麦克风;3.会议主机;4.显示银幕;5.计算机。其系统架构如图1。
摄像机讯号通过HDMI或SDI端口传输到视讯会议主机(codec),经由视讯压缩(H.264)以减少频宽,再透过网际网络传到远端的视讯会议主机,经由解压缩把画面还原呈现在远端会议室的显示端,供与会者观看。两端的视讯会议主机需执行同时压缩现场视讯及解压缩远端视讯的任务。
视讯会议主机需接收摄像机的原始视讯(无压缩),不接收IP已压缩的资料。因视讯会议主机需要把视讯及声音一起整合压缩处理,另外需实时依网络频宽做压缩比率的调整,以保持视讯顺畅。
视讯会议系统使用情境
视讯会议系统在于提供分离两地的团体,透过会议系统经由网际网络或特定专线做语音、视讯及资料交换。双方必须注视显示端上的人脸表情做实时交谈。这是一个被严格要求的及时互动系统,画面过多延迟会影响对谈的顺畅,同时画面的顺畅性及画质清晰也是会议成功与否的因素。视频会议的使用场景如图2。
一般的会议室安装一个摄像机,时而看全景,时而将焦距调近至放大发言者。切换时,摄像机云台需迅速旋转,以获取发言者影像,反应速度快则让会议进行随心所欲。另外要求放大或云台旋转时画面要依然维持清晰不失焦,否则会影响与会者的会议体验,甚至带来生理不适。
摄像机的功能模块及工作原理
摄像机的外观及内部功能模块如图3和图4所示。其内含关键元件包括:1.镜头;2.感光器(sensor);3.影像处理器(ISP);4.信号传输界面;5.控制云台;6.微电脑控制单元(MCU)。其工作原理如下:
信号传输流程如下:
镜头,负责收集光线并距焦于传感器上,镜头则由微电脑控制单元控制镜头马达来达成聚焦及放大,影像处理器负责把Bayer格式图形的RGRG、GBGB(感知器上的原始信号)转成RGB 8:8:8 24Bit/5并送到传输界面转换成SDI或HDMI信号与显示器或会议系统主机连结。如图5所示。
影像处理器:是摄像机的核心器件,执行摄像机的自动对焦(AF),自动亮度平衡(AE)及白平衡(AWB),通称3A动作,从取像画面所萃取出来的特征值,提供微电脑控制单元去控制镜头的对焦及光圈变动,完成3A。
微电脑控制单元:同时也接受外界(视讯会议主机)通讯命令,以控制云台转动及摄像机的运作模式。
摄像机关键元件及其关键参数
镜头:决定80%取像质量。以下是镜头几个重要参数:
焦距决定摄像机的视角(需与Sensor搭配计算的数字):以SONY IMX236 1/2.8”为参考,焦距与视角关系见下表。
变焦或定焦:变焦镜头在设计上非常复杂,因此价格数倍于定焦。变焦提供我们对远距离物体做拉近放大做特写用途的方便性。
几何畸变:业界常规以2.5%当做标准,镜头几何失真大于2.5%,即可以明显察觉。畸变越小设计越复杂,镜头成本也就越高。
光圈:决定进光量。在一般室内教室或办公室200-400流明环境,光圈值F1.6-F2.0可以提供不错的进光量。
镜头参数与设计关系:大光圈、小畸变、高变焦倍率、短焦距,都是让镜头复杂化成本变高的参数。
影像传感器:决定影像色彩质量及信噪比性能。
光学尺寸:感知测光学区块尺寸(D)必须小于镜头光学尺寸(L)否则会有暗角出现。目前在视讯会议系统,主流传感器尺寸是1/2.7”-1/3.2”。尺寸越大越好。如图6所示。
画索尺寸:尺寸(P)越大感光度越好,暗部噪点越小。一般数字3.0um-2.2um。
画索个数:决定分辨率,目前主流数字1,920×1,080全高清或1,280×720高清。
影像处理器(ISP:Image Signal Processor)。执行以下功能:
3A:自动对焦(AF)、自动亮度平衡(AE)及白平衡(AWB)的通称。ISP从画面信息萃取出特征信息,供微电脑控制器控制镜头对焦,画面亮度调节及修正光源对画面色温的影响。
色彩还原:将传感器Bayer格式图像的RGRG、GBGB格式转化成RGB 8:8:8格式,并依传感器的频谱做色彩转换以达色彩传真的效果。如图7、图8所示。
噪声抑制:由于感知器本身就具有热噪声、雪花噪声及坏点。噪声在暗部则相对明显。除了散热需要考量外,还需要靠电子方式以抑制噪声。方法有2D及3D降噪方式,一般而言3D的效果较佳。
输出界面:
USB3.0:直接与计算机连结的应用,USB是最简洁的界面,是软件视讯会议的最佳搭档。
HDMI:适合距离30m以内的信号传输。
SDI:适合用于超过30m-150m长距离的连接,但系统上需要在远端增加一个SDI接收器。
云台:负责带动摄像机做水平及垂直转向。内部结构是由两个马达透过传动结构(齿轮及皮带)带动摄像机。探讨如何挑选适当的视讯会议摄像机
当你要选择一个视讯会议摄像机时,以下可以作为评估的参考,其中分规格书评价及实机操作评价。
规格书评价:
镜头视角:若你的摄像机与最近一排的人距离(D)1.5米,那63度视角(θ)是足够的。若小于1.5米,视角则需要70度。如图9所示。
变焦倍率:若想要对一个人特写(约1.0×0.6平方米的框框),镜头与人距离5米需要5×变焦,10米则需要10×变焦镜头。
分辨率:全高清(1080p)点数是高清(720p)的2.25倍,全高清是目前的主流。
每秒张数:60P可以得到顺畅的画面,这跟电视的每秒张数一致,看起来较自然。
传感器尺寸:大于1/3”可以得到较好的感光度。
镜头光圈:数字越小越好,小于1.8都是好的选择。
3D降噪:有此功能可以让画面干净稳定不噪动。
输出界面:DVI适用配线不超过30米,若有3G-SDI可以适用于长于100米的场景。
实机操作评估:
清晰度:拍摄看报纸或文档来分辨清晰度。这与镜头解像力的选择、ISP的性能及厂家画质调制能力有关。
色彩正确或饱和:尝试看人的肤色是红润或忠于原色。这跟感知器选用、ISP的性能及厂家调色能力有关。正确与饱和不可兼得,但厂家会提供菜单供使用者选择。
对焦正确性及速度:让摄像机切换对焦近距离物体或远端物体,即可得知其性能。这部分是厂家能力差异最大的项目之一。这跟ISP所能提供的信息及各家算法能力有关,是摄像机的关键技术。困难点在于画面的内容千变万化,当在暗画面及较单调的画面是挑战。
变焦跟随(Zoom Tracing):变焦过程中画面是否一直保持清晰。这部分也是厂家能力差异大的项目之一,跟ISP所能提供的信息、镜头质量优劣及摄像机厂家算法能力有关。
画面的延迟:于摄像机前挥动您的手,同时看显示器可以察觉两者的时间差。一般延迟在1-2帧是优质的设计,其关键在于ISP的架构设计。
画像讯噪比:观看黑色物体表面的浮动噪点多寡,传感器像素大小是占80%信噪比的性能,但还跟镜头的光圈大小有关系。ISP仅能做数码降噪功能,其3D降噪可以维持清晰度及大幅消减噪点。
画面的几何畸变:观看门或窗的线条是否扭曲。该性能完全归于镜头的因素,2.5%是业界的常规。镜头畸变端赖镜头设计的复杂度,随变焦倍率或广视角会让小畸变更困难。
云台移动画面顺畅性:以遥控器转动云台看画面的流畅性,尤其是在低速下,云台机构及传动设计,马达驱动需避免引起共振及马达的走走停停。
云台转动噪音:以遥控器转动云台听其声音大小。会议需要安静的环境,云台转动的噪音是被嫌恶的,该项指标跟厂家传动机构设计及马达控制方式有关。