宋克凡
哈尔滨师范大学附属中学,黑龙江哈尔滨 150080
全息视频会议研究
宋克凡
哈尔滨师范大学附属中学,黑龙江哈尔滨 150080
目的:不同于现有3D视频和3D模拟会议室,通过实现3D虚拟对面视频通话,该方法增加通过互联网远程联系的对象之间交流的亲密性以及视频清晰度。方法:结合增强现实头戴设备及3D远程拍摄装置。结果:可实现虚拟3D视频会议。
全息投影;3D视频会议;增强现实
现实生活中,人们之间交流的最主要且最重要的方式为语音通话。人们可以依此直观快速的表达观点传递信息。然而视频通话先已因互联网设备的普及而助手可得,却迟迟未成为主流通讯方式,不仅仅因为所需数据流量较多(大多数固定生活地点覆盖wifi),因为通话者周围环境可能涉及隐私,亦或是视频通话时所传递的信息并不比语音通话所传递的显著增多,且最主要的是与通话是手机贴近耳朵不同,远程视频通话无法给使用者显示出距离感,大多数人们通过手机大小的平面屏幕观看一个活动幅度较小的动态头像。而人类之间交流很主要的一个元素即为领地意识,通过个体之间的距离,或是身体的倾向,可以潜移默化的影响人们之间关系的疏密。而普通视频通话拉近距离时仅能在一个距离使用者任意距离的小屏幕上看到一个被扭曲的面孔,更无法实现握手甚至拥抱等等的肢体交流。因此在一些人们之间关系需要强烈紧密交织的场景,譬如商业谈判或是朋友聚会,爱人之间的约会,都需要正式的,线下的接触与交流,只为获得更多直观的细节。
大量实验证明3D的交流可以更加全面完整的模拟人们日常的人际交往,因此可以使聊天者获得更高的使用满意度。基于此,实现全真模拟先下交流的工具急需研发。
2.1 3D拍摄方法
人类视觉系统主要通过两种方式实现3D识别,其一为物体或视角的移动,此方式为大多数共有,甚至部分动物仅能识别运动的物体进而感知深度。但依赖这种方式仅能获取大致的位置信息,并且物体的大小很难有直观的判断。并且人们在视频通话当中身体的移动幅度不大,同时缺乏其他运动物体以相对比较,因此在2D屏幕之下视频时,人们很难将这些信息完美的在大脑中还原成立体影像,影响通话的真实性。另一种3D识别方式即为双目视觉,通过两只眼睛在不同角度获取图像,人类的大脑可以通过比对这两组图像之间的差异直接感知深度,利用三角法确定物体相对自身的大小,且可以获取更加丰富的信息以合成3D模型。
然而因目前3D扫描技术扔很难实现实时的对动态对象的扫描。多个摄像机同步实时建模的运算量过大,普通的个人计算设备只能靠大幅度降低清晰度和帧数以实现,无法增强原有2D视频的用户体验。虽然可以使用单一摄像机利用运动识别3D的原理进行扫描建模以减少数据总量,但依靠运动速度建模也远远达不到实现帧数正常的视频通话。如若本系统仅利用立体摄像机而非多摄像头的3D扫描仪,同于观看实时的3D电影,因此可以巧妙的避免计算机的巨大运算量,而利用人脑合成最终的3D影像。
仅使用两个摄像头,一左一右平行放置,距离接近正常人瞳距的平均值,而摄像头视角也应接近人类视角水平120°,垂直60°以保证图像始终在视野范围之内。应实现可以将左眼正常做看到的周围环境完全覆盖掉,而显示此录像设备的左侧摄像机画面,而右眼所应看到的画面也可被相应的摄像机所取代,相当于将两只眼睛远程移动到了摄像机的位置,因此可以看到真切的图像。
2.2 3D显示方法
显示端虽然可以使用任何3D显示器,但大多都有较为严重的缺点。裸眼3D:立体效果不佳,像素密度大多不是很高,且观看者不可以大幅度的左右移动,也对观看距离有所限制,以上特点是使用者位置过于固定,很有可能阻碍通常交流的正常进行。普通偏振3D显示器以及互补色式3D(anaglyphic 3D):不仅需要佩戴透光率较低的眼镜,而且所看到对象的大小需要依赖屏幕的大小而决定,还原1:1比例的人所需的屏幕大小因现有3D屏幕大多非透明,只能使用大于对象大小的屏幕实现立体效果融入到周围环境,不然透过一个较小的屏幕观看将挡住周围大部分环境信息以实现3D面对面通话效果,而且摄像机的摆放位置也较为尴尬,只能放置在不被屏幕遮挡的视线之内,而放置于屏幕与观看者之间不仅会挡住用户观看屏幕的视线,而且会使拍摄距离比显示距离近,此时对方如果需要还原同样大小的对象,则需要使用更广阔的屏幕来放大人物以拉近距离,况且在多人通话时需要更多块屏幕以同时显示所有人物,成本以及便携性都将限制这种方式的实施。全息投影:大多数技术对颜色还原的并不真实,而且至今只有亚利桑那州大学的研究人员实现了实时录制以及显示,但帧数仅为0.5,即每两秒钟显示一张静态图像,技术过于不成熟无法量产以及投入实际应用。虚拟现实头戴设备:虽可以完美显示对方3D环境,或是显示对方融入己方周围环境之后的影像,但因需要佩戴较为笨重且不透明的眼镜,致使对方无法看到佩戴着的双眼以及脸部大部分细节,严重阻碍了视频是的良好体验以及人们之间面对面交流的直观性和流畅性。考虑到以上几点问题,本系统使用增强现实眼镜以在显示任意大小3D效果的同时透明镜片保证了面部表情的有效识别。所述增强显示眼镜为Moverio BT-200或Holo lens类装配可以完全覆盖双眼视角的透明显示屏。
2.3 3D通话的模式
基于以上设备:双目视觉摄像头,增强现实眼镜,可以直接实现3D通话,仅需要将左右眼镜片分别显示两个摄像机所拍摄下的画面即可。但是这种方式有重大的问题:对方的背景与自身的背景将会有重合:两种解决方式:将对方画面通过云计算等方式从单一的角度建立片面的,部分的3D模型,再分析出人物的位置与画面显示其3D的画面,但这种方式虽然较3D扫面节省部分资源,但所需的成本依然很高,且画面不清晰。而可以利用intel 的realsense 技术,调用其SDK中通过双摄像头拍摄去背景的功能,再将两个均被去掉背景的画面分别显示到镜片之上,即可完美的实现远程与单一的某一个或多个3D人物对话。
同时也可以利用增强显示眼镜内置陀螺仪检测头部运动,以此将对方的画面虚拟的固定在生活环境之中的某一个特定的位置,当头部并未直视那个方向是对方的画面即可隐出。用此方式可以实现在一个空无一人的圆桌上依次显示出每一个对话者的虚拟的全息图像,从而达到模拟线下对话的目的。
2.4 立体声音
为达到更好的模拟效果,可以在摄像头端配置双麦克风,用以录制立体音效并通过耳机用以识别人物位置,或在转动头部时产生左右耳时间差模拟出声源的相反移动,以产生对话人物没有随头戴设备的移动变动位置的效果。
而因为耳机本身即为两个输出源,覆盖在双耳表面以达到生成任何方位声响的功能。
2.5 使用方式
通过利用realsense 去背景程序远程视频聊天API,以及增强现实显示设备显示视频(含音频)API以及三轴陀螺仪的调用接口,即可实现全息多人3D视频通话。
此系统暂时实现了仅可以看到对方正面的三体成像,不过可以依靠三轴陀螺仪传递的头部转动信息水平的切换头戴设备中显示的联系人,且可以使对方的影响虚拟的固定在一个位置,虽然在电脑中并未形成对话者的3D模型,但是想要拉近对方的影像可以简便的依靠单纯的放大缩小画面。因在放大对方画面的时候录制对方的双目视觉摄像机之间的距离也相应改变,并不会出现缩小三维成像(HYPO STEREO),或放大三维成像(HYPER STEREO)因瞳距与事物之间比例失调而形成的成像失真。
上述系统与理想的全息会议还是有一定的出入,人物的虚拟影像在现实中的位置应该是固定的,不随另一个观察者的移动而改变。虽然此系统可以通过陀螺仪和加速器调试实现令对方坐在自己环境中的凳子之上,但在大致前后移动的过程之中,人物的距离感仅可以通过放大缩小来实现,而在做围绕椅子运动的方向上,对方只能继续显示正脸的画面,并使这个画面一直以椅子的竖直方向为轴,面对观看者旋转。这种体验并不能够完全达到理想的模拟效果。但是可以使用无人机等设备作为平台,搭载双目视觉摄像机,远程接受对方的移动信息,并同步的做出模拟。因此可以在人脑的高度做出与观看者头部同一的运动轨迹,因此即可达到几近完美的模拟线下交流体验,未来甚至可以佩戴虚拟现实触感手套或服装以实现与同伴握手拥抱等真切的肢体动作。届时,当此系统大量渗透到公司个人的日常工作生活之中的时候,人们便没有什么理由交通,那时我们不仅仅可以远程的传送文件和资料,还可以通过互联网瞬时传送一个真实的人到任何地方。
[1]Fahle,M (1987).”Wozu zwei Augen? [Why two eyes?]”.Naturwissenschaften 74:383–385. Bibcode:1987NW.....74..383F. doi:10.1007/BF00405466.
[2]Rolland,Jannick; Baillott,Yohan; Goon,Alexei.A Survey of Tracking Technology for Virtual Environments,Center for Research and Education in Optics and Lasers,University of Central Florida.
[3]US Pat. 4295153,retrieved Jan 17,2011 (anaglyphic 3D).
[4]http://www.intel.com/content/www/us/en/ architecture-and-technology/realsense-overview.html (realsense ).
[5]GB patent 394325,Alan Dower Blumlein,”Improvements in and relating to Soundtransmission,Sound-recording and Sound-reproducing Systems.”,issued 1933-06-14,assigned to Alan Dower Blumlein and Musical Industries,Limited
[6]Stereo Realist Manual.
TP3
A
1674-6708(2015)142-0117-02