AR世界的召唤

2016-02-27 01:57黄耀鹏
中国汽车界 2016年8期
关键词:手势眼镜计算机

□本刊记者 黄耀鹏

AR世界的召唤

□本刊记者 黄耀鹏

AR技术两大元素——延伸和交互,决定了它未来在汽车应用中能走多远。但现在,AR还需要继续坐冷板凳,直到新的计算平台的诞生。

大多数新上市的车都配备了倒车影像和雷达。当你挂上倒挡的时候,舱内屏幕上显示出车后影像。同时,影像也用黄色虚线标示出预测的轮轨迹。这两条虚线就是AR(Augmented Reality增强现实)技术。视频拼接的“全景影像”也算AR技术,但仍显粗糙。车载装备中的AR不但少得可怜,还很初级。貌似毫无进展的状况已经持续了几年时间,导致业界对AR在汽车上的应用缺乏信心。

过去两年,AR在和VR(Virtual Reality虚拟现实)技术的争斗中一直处于下风。谷歌眼镜的“探索者”项目被取消后,AR技术一直缺乏重量级的产品。谷歌眼镜不但没有解决技术问题(电池续航、感官体验糟糕、应用匮乏),还惹上一堆伦理麻烦(“眼镜混蛋”的绰号打击太大了)。谷歌不是第一次砍项目,他们对“止损”体会深刻,但这不是AR的错。

被VR压制的AR

虽然AR和VR都致力于用计算机产生某种虚拟影像,借助特定设备让用户感知,但是它们之间存在着严肃的区别。

VR的核心价值在于“沉浸”。在完全虚拟的空间中创造虚拟场景,追求逼真的视觉效果和互动性。而AR的核心在于“混合”。在真实的场景中构建虚拟元素,目的是让人类获得现实扩展能力,“看到”原本看不到的东西。

到目前为止,VR的核心技术是CG动画和“追踪”。后者包括三自由度的方向矢量和六自由度的位置参数(3维角运动、3维线运动)。而AR的核心技术则是计算机视觉和物体识别(特别重要的是生物识别)、区域识别。

语音识别和手势识别技术,处于AR和VR交叠的模糊地带。有意思的是,主机厂和零部件供应商,都对后两者青睐有加。最新的量产车和几乎所有的概念车型,都加上了这两种技术。计算机对语音的识别度已经上升到90%以上,而汉语普通话的识别率则高达95%以上,在大语种中独占鳌头。手势识别则发展得磕磕绊绊,主机厂商只好严格限制手势的种类和使用空间范围。

只要识别错误率没有压低到万分之一以下,制造商都不敢让用户通过这两种技术触及车辆安全有关的指令。这导致了语音识别和手势识别只能完成在车里打打酱油、播放段音乐、接个电话等小任务。

现阶段,精明的制造商们普遍回避在汽车上安装真正的AR设备。他们在概念车上的尝试,迟迟没有回报。显然,AR技术的发展尚不支持大规模商业应用。

AR和VR两者对计算机的挑战不尽相同。VR的构造过程,颇像设计一款游戏。事实上,VR技术正是借助游戏推广而风生水起。VR概念在半个世纪前就提出来,当然那时除了在电影和小说里演绎一番,并无真正实现手段。

自上世纪90年代以降,全视角的虚拟画面就不再是难题,3D游戏引擎轻松实现。画面的精美和颗粒度才是游戏公司追求的。戴着VR头盔比早期端坐在屏幕前,看上去更有“科技感”,但两者皆属VR。

和几乎所有的民用科技一样,它脱胎于军事发明。“虚拟现实之父” 托马斯·弗内斯三世(Thomas A.Furness III),从1966年为美国空军飞行员开发了驾驶模拟设备。诞生于1986年的训练头盔“The SuperCockpit”达到当时的技术巅峰:3D地图、红外和雷达图像、头部位置跟踪、手势控制和语音控制、眼动追踪技术。VR时代开始了。

而历史短得多的AR则面临更严肃的任务:采用虚拟现实对现实进行扩展,则需要研发新型的计算平台。

失败的产品计划

AR的计算量是个技术巨坑。虚拟要素与现实世界的叠加,比完全的虚拟环境更具挑战性。

简而言之,就是要在对的位置显示对的内容。依靠计算机视觉算法、深度传感器、GPS等,计算机看懂了你所看到的环境,并提取关键像素点,将三维图像转化为二维数字点阵,但必须符合人类的视觉——透视原理。

谷歌眼镜基于光学反射,混合了投影和反射式望远镜原理,实现了“3米外”的小画面,但叠加算法经常出错失焦,导致用户头晕。

微软正在探讨光栅衍射技术(分割画面后多次反射),而英伟达(nvidia)则试图实现“光场技术”——就是计算得到不同景深图像,用投射方式,使虚拟画面与真实环境在视觉上看起来一致。这和昆虫的复眼成像原理近似。但该技术目前只具备“演示”能力。诚如所见,AR需要变态的计算量。

计算机重建场景、识别场景信息,并在合适的位置表达出预先设定的虚拟元素。如果还要支持交互,那么对运算量和运算结果还有更高的要求。如果AR要达到完全沉浸的效果,其运算量更加庞大。

而随身AR设备的尺寸和电池容量又要求轻薄。我们需要低功耗、计算能力更强的新平台。当前无论ARM架构,还是Inter M架构,都很难胜任。

如果硬要上马怎么办?将渲染的视场角度控制得很小,减少计算量。所以现阶段只能减少支持的场景大小——这也是诸如戴着谷歌眼镜可怜的家伙们,需要盯着斜上方一个模糊光点的原因。微软HoloLens设备的视场角也好不到哪里去。

和谷歌眼镜一样,微软大肆吹嘘的HoloLens,同样容易引起头晕恶心的问题。客户视觉系统和身体感知存在巨大矛盾的时候,就能体会到类似晕船晕车的感觉。

虽然谷歌投资的Magic Leap公司高管,曾嘲笑VR是“过时的技术”,但AR尚无像样的产品,岂不更糟糕。

谷歌眼镜项目尚未终结的时候,美国多个州立法将其在驾驶中禁用。至少有些立法者认为,现阶段的AR技术在帮助驾驶者,尚不及引诱其分心的负面作用。

当你在操纵重达1.5吨的金属盒子、每秒移动20米,你却被“3米外”跳出的即时消息所吸引,或者需要盯着某物体拍照。谷歌有关“AR眼镜有助于驾驶”的言论被大多数试戴者否定。

不过,宝马联合高通开发过一款AR眼镜,供MINI驾驶使用。HUD的平视显示功能,被迁移到眼镜上。附送离车导航和送人上车功能,聊胜于无,此后没有下文。

幻想与现实

而影视作品当然秒得现实连渣都不剩。《碟中谍4》中宝马i8的智慧前风挡,就是典型的AR显示器。像在《少数派报告》里一样,演员用非接触式的手势,就可以操纵。前方路面即将出现的行人和障碍物,并对危险进行预判,对威胁大小排序。这可能代表了AR的未来,尽管我们暂时做不到。

AR不但需要延伸人的感官,还要延伸人的大脑。交互式汽车玻璃已经被发明,它实际上是一块透明触摸屏。不但可以记录一路上的风景,还可以定位你想定位的目的地。不过,显然驾驶员不可能直接操作。

以前曾有过透明A柱、透明C柱的概念,以电子影像覆盖通常的驾驶着盲区,并将所有相邻车道的状况集中投射在面前(驾驶者需要区分景物的真实坐标)。而这种想法发展到极致,就是“透明汽车”。

用全息摄像头将车外景象投射到特定位置,司机看向后方(不是真的朝后看)位置,感官上,汽车后座和后备厢等遮挡视线的实体都变成透明。人们好像浮空驾驶一样。当前的传感器技术已经能支撑这一构想,但计算单元仍然无法低成本地可靠运转。

AR技术两大元素——延伸和交互,决定了它未来在汽车应用中能走多远。即便无人驾驶平台,乘客们也不想被小小的窗口限制视野。但现在,AR还需要继续坐冷板凳,直到新的计算平台的诞生。

猜你喜欢
手势眼镜计算机
眼镜布不是用来擦眼镜的
基于计算机自然语言处理的机器翻译技术应用与简介
计算机多媒体技术应用初探
挑战!神秘手势
中国计算机报2019年48、49期合刊
中国古代的“计算机”
胜利的手势
从天而降的眼镜
神奇的眼镜
认手势说数字