□文/毛文涛

2016-04-15 03:35
机器人产业 2016年2期
关键词:虚拟世界手势苹果



□文/毛文涛

说到未来,大家脑海中都是科幻片,天上飞的地上跑的,到处都是人工智能,显示无处不在,交互无所不能。在那个完美得无欲无求的世界里,好像除了担心一下机器人起义,或者外星人入侵,也没什么别的好担心的了。

但当我们今天在看VR/AR时,却充满了悲观和疑惑。头盔太重,计算资源不足,充电2小时只能维持VR体验五分钟。我们所想象的未来,到底怎么实现?这条路的确长,我们都会走弯路,但方向正确很重要。

毛文涛 uSens中国研发中心技术总监、首席研究员,计算机视觉及机器学习专家

人的基本需求:自然表达 智能理解

初看“表达”和“理解”这两个词很抽象,回顾一下人类发展史,几千年来,人们在做什么?本质上就是在摸索建立人与自然环境之间的关系,并逐渐形成了一种自然的沟通方式。比如,大自然呈现的一切,刮风、下雨、雾霾都叫做表达,人去了解自然世界,会多穿衣、撑雨伞、戴口罩这就叫做理解,能与自然沟通。而这已经无法满足人的需求与欲望,人们在了解和改造客观世界的同时,又创造了一个庞大的虚拟世界,来释放我们的想象力。于是,我们需要寻找一个 “人-客观世界-虚拟世界”三者间的表达和理解的方式。举例来说,人使用键盘鼠标给电脑命令是一种表达,而电脑找到命令对应的显示内容是虚拟世界对人类的理解;再或者物联网,它就是使用各种传感器来实现虚拟世界和客观世界的表达和理解。

自然的表达

我们可以从身边的一些东西说起,比如从一开始的打印机到现在每人一部的智能手机,我们都在尝试着更直接、更自然、更舒服的表达方式。方向键能实现鼠标的功能,鼠标也能实现触摸屏的功能,那为什么我们还需要这样不断进步呢?那就是所谓的自然地表达,人类一直不停追求自然、舒服的使用方式。

那么哪些表达式是自然的呢?笔者认为它和我们的成长有关,人类一直进化到今天,很多常用的方式已经在我们心中不可更改的成为一种本能反应。比如说我们习惯用身体移动来表达位置信息,用头部旋转来选择视野范围,用说话、面部表情来进行交流沟通,用动作手势去直接进行交互等等。

智能的理解

对于计算机来说,对人类的理解也不再只是明白那几个命令行的意思,它能利用现在的高科技去理解我们这些自然的表达。现在计算机具备超越人的人脸识别技术、实时语音识别技术等,而这些都是计算机对人类更自然更高阶的表达方式的一种理解。

在VR与AR中如何实现自然的表达和智能的理解是我们一直探索的问题。重新打造出“自然交互”的感受,需要考虑多维度的问题。

光有旋转还不够,位移检测很必要

我们可以回忆一下大家玩CS的经历。这个游戏是第一人称的射击游戏,它的一大突出特点就是沉浸感很强,因为是第一人称。所以玩家玩得格外投入,每过一个转角,玩家都可能下意识地把身体往边上动一动,好像就可以看到墙背后的那个人一样;如果前面有一堵矮墙,玩家就会忍不住抬起脖子。这是非常有意思的行为,因为在紧张的时候,在沉浸感很强的时候,玩家使用的是“人的本能”,而不是鼠标键盘,这就是人的自然表达。

所以当Oculus推出的时候很受大家追捧,因为它能读懂我们的自然表达,它知道我们在转动头部的时候,是希望看到不同方位的内容,这就是它最吸引人的地方。但是当我们对VR开始进一步研究的时候,我们发现这还不够。不光是旋转我们还需要位移,所以不管是外接了一个摄像头,或者是用雷达定位,或者用SLAM对场景进行建模定位等基于视觉的一些方式,我们都希望VR能更进一步的理解人类移动这个更自然的表达。这虽然只是一个很简单的表达,却需要我们做大量的研究,不过这小小的进步也会让我们有飞跃般的体验。人用最直观的身体来代替鼠标和方向键,我们才会有VR主题公园中各种炫酷的体验,我们可以是真的戴上装备就在这个世界跑了。

露个脑袋去窥视 身体双手去哪了

再进一步来说,例如我们跑到敌人背后,想挥舞小刀的时候,该怎么办?我们就希望电脑能明白我们的动作,此时我们做什么就是另外一个自然的表达,不然就会像现在大多数的VR体验一样,感觉自己是透过一个小洞,一直只能窥视着那个虚拟世界,我们感觉不到交互,只感觉我们像漂浮在空中,一直在看那个世界,只有真正理解了我们的动作,我们才能真正地和这个虚拟世界交互。

所以计算机需要理解我们的动作,而人的动作有两种,包括身体的和双手的。说到身体的人体姿态估计,微软的确算是一个很好的例子, xbox kinect的意义在于把很多家庭带入到用身体打游戏的时代,这虽然只是一个小小的改进,它只是理解了玩家身体的一个表达,却让我们的体验截然不同,把我们带到一个更高阶的体验模式。所以我们就希望在说身体表达的时候,我们能够更多地被理解。身体的表达除了身体的移动以外,还有一种就是手势。其实人大多数跟外界的交互都是用手,对手势的理解,才是我们能进一步将AR/VR达到下一个体验阶段的目标,现在包括uSens在内的各大厂商都在努力做这件事情,就是希望把大家带到下一个阶段的虚拟世界去体验。

虚拟现实+人工智能=真正的未来

当然,刚才说过我们不光需要追求人和虚拟世界之间的相互沟通,更多的是建立人、客观世界和虚拟世界这三者之间的表达和理解。在这个过程当中,我们的电脑需要感知周边的客观世界,比如沙发、茶几、墙等等,他们其实就是一种环境的表达。我们看似很简单的东西,其实需要大量的研究才能去理解它是什么。这个时候我们就需要对这些场景进行建模,让我们知道周边是什么样的。例如在VR中,我们也不希望在玩游戏的时候撞到家里的各种东西,或者例如在AR中,假如有一个虚拟的茶杯,我们的认知是它应该放在面前的桌上,而不是漂浮在空中。

这还不够,我们未来的游戏很可能会加入很多的人工智能技术,想象一下,如果我们能识别我们身边的物体,随时动态地将这些物体添加到我们的游戏或者应用中,变成虚拟世界中的一个道具,这样对游戏或者应用的设计来说,提出了更高的挑战,将会有更大的想象空间。这不单单是在虚拟世界,这是在更高一个层次去重新设计我们的用户体验,想想还是挺让人激动的。

我们再来想想更让人激动的事儿。现在语音交互已经不是一个新鲜事了,除了语音的交互,电脑跟人类的沟通,了解你的表情等,当我们加入更多的人工智能到VR里面的时候,它会是个什么样的表达呢?举个简单的例子,我们现在游戏里的NPC,就像一个复读机一样,每次对你说的只是“ 前面的村庄着火了,去拿10瓶水”,你再点一下,还是重复说“前面的村庄着火了,去拿10瓶水”,这样就是个纯粹的摆设。如果在VR里面,我们不能被这样传统的NPC打破沉浸感。

那我们如何去设计VR里面的人工智能呢?首先我们要更高层次的理解。例如以后的NPC将是这样的,你没看他的时候,他说:“嘿,看看我。”NPC不光了解玩家头的状态,还能了解玩家的游戏历史,包括玩家是如何去玩这个游戏,喜欢什么样的道具,喜欢什么样的任务等等,不是虚拟的两个坐玩家旁边的毫无意义的人,而它可以和玩家聊天,陪玩家一起玩游戏等,VR和AR提供了个更大的平台,我们把更多的人工智能技术融入其中,这就是VR中的人工智能。

如何实现客观世界、虚拟世界和人三者融为一体

至今,我们仍无法让未来到来。笔者认为,这是因为技术层面上有一些门槛还没有跨过去,其中主要有两个问题,一是移动,二是交互。

先来看移动VR的潜力。资本市场一向都是产业发展的风向标和催化剂。继 2015 年 VR领域投资大热之后,2016年这种态势仍旧在延续。但是区别在于,一线的投资机构在选择投资的公司上,显得更加谨慎, 投资的方向也出现了新的趋势。旧金山的一家专注于投资虚拟现实和增强现实的风投公司 Presence Capital的创始人Amitt Mahajan 最近发表了一篇文章,认为“移动VR将会是虚拟现实中应用最广的一种形式”。硅谷创业公司uSens凌感近期将完成由复星(昆仲)领投、达晨创投等多家VC跟投的数千万美元A轮融资,投资方全部为一线主流投资机构,额度巨大。先不谈技术,从资本推动产业的角度看,移动VR的潜力开始初步显现,而且后续爆发力更强,就像智能手机以及移动互联网的发展一样。

再来看VR和AR场景内的交互。更自然、更便捷的双手操作和表达无疑是人与自然世界最终的交互方式,它将改变人在新的混合世界(虚拟世界和现实世界)的认知。而当成熟易用的手势跟踪成为VR/AR标配的时候,VR/ AR才会成为一个整体被普通用户所接受。

复杂非直接的交互方式(鼠标,键盘)会拉开不同时代的人之间的差距,而自然直接的交互方式(触摸屏上手的触碰,放缩等)则会拉近时代间的距离。因此当完善的手势作为产品推向大众市场的时候,它不需要用户去学习,将交互变成“无形”,并且它将VR所具备的“真实体验”不受破坏的甚至加倍的传达给用户,这将会让用户能更快地接受和使用。而这也成为了促进VR产业化、规模化的契机。

不仅如此,AR技术的成熟,将和VR进行融合。VR的世界是给人类一个完整的虚拟世界,而AR则是更进一步的将真实世界和虚拟世界完美的融合,搭建一个人、物理世界和虚拟世界三位一体的生存空间。所以AR/VR带来的不仅是手机对人类的意义,它甚至会带来如交通工具般划时代的意义。而另一方面,由于VR/ AR需要从计算能力、传输能力、集成化能力、传感器能力到人工智能全方面的产业链支持,所以会极大地推动各产业的发展:芯片运算能力的大幅度提升,高度的集成化微型化,5G、6G网络的推广,物联网,计算机视觉,人工智能,大数据等领域的飞速发展。由此产生的规模效应会带给目前各领域一个快速发展的时机。

我们一直希望能够实现客观世界、虚拟世界和人三者融为一体,我们把这种体验称为“SuperReality(超级现实)”,打通这三者沟通壁垒,建构一个能够互相之间自然的表达和智能的理解的平台。我们只是在这个方向上迈出了一小步,正在尝试和摸索中。

uSens凌感的愿景是基于现实,超越现实,通过将科技与艺术相结合,成为一个VR/AR界里面的印象派。目前,uSens凌感研发了融合AR+VR+六自由度头部追踪+26自由度手势追踪的移动端头显设备,这也是uSens凌感2016年的产品方向。这条路很长,uSens凌感作为先期实践者将与开发者一同努力,去构建“人、客观世界、虚拟世界”三者间自然的交互平台。

为开发者提供新的想象力

首先,在VR/AR中的自由切换,将使我们不再局限于虚拟内容,而是可以和身边的物体进行交互,来开发游戏或者各种应用。uSens凌感看到了VR /AR之间的切换的确给人带来很多不同的体验。

其次, 就是三维自然手势交互,它包括:最基础的第一层次——静态手势,它能实现的是一些很简单的动作手势,但体验不够自然。假如你要拿起一个苹果,并不是在苹果旁边摆一个抓取的姿势,说:“嘿,我已经放了2秒了,你该上来了。”这是不科学的,因为这不是人类的正常交互,而应从你去触碰到苹果的那一瞬间,苹果在慢慢地被你拿起。第二层是动态手势的识别,它不光支持静态手势的动作,它还可能会有一个时间序列来进行手势识别,比如说手的挥动、手的点击等。例如,uSens凌感开发的Pi Ui可以通过手势在主界面中进行菜单的滑动、翻页、选择等。这种算法已经能给人相当好的感受,让人觉得很自然,感到自己已经能用手去操作了。

但是这还不够,最后一个层次就是自然手势跟踪,这就是不再拘泥于某一个静态手势,或者某一个短时间的动态手势了。它是从头到尾时刻都在跟踪用户的各种复杂动作,提取手的所有关节点,并且持续理解这些动作的含义,每一时刻都知道用户在做什么,和人的自然交互是一样的。

为什么一定需要这样的手势呢?如果只是跟踪了手的位置,随后按个按钮就可以完成了,为什么uSens凌感的研究人员需要大费周章的去制作那么多的关节点呢?我们可以先来分析下人在做动作的时候如何感受“真实”。

大家闭上眼睛,想象面前有一个苹果,然后假想自己去抓起这个苹果,读者是不是能感受到自己已经拿起了苹果呢?大家会觉得很神奇,的确我们在用手去抓苹果的时候,我们仿佛真的感受到了苹果的存在。所以说人感受动作的真实主要是分为两部分:动作本身和外界反馈。而这个动作本身需要符合我们人的经验知识和认知。

我们再做一个实验,还是闭上眼睛,想象面前有一个苹果,但是这次只允许握着拳,不允许张开手,然后去拿起苹果,这时候读者能感受到那个苹果随着你的拳头一起起来吗?很难吧,这就是因为它违背了我们人的认知,违背我们长期以来的本能反应。所以我们一定要做符合认知的动作,这是感受到真实的第一步,然后基于此,再加上声音的反馈、交互的反馈,比如“苹果起来了”,还有力的反馈等,人就能真正地体验到真实了。这就是为什么我们要花精力去做自然手势的跟踪。

但是可能还有一个疑问,这有必要吗?我们现在的游戏没有它不是好好的吗?笔者认为不是手势没用,不是我们不需要,而是在自然手势交互方面缺乏太多的想象力,没有真正的技术去支持。

想象一下,游戏中添加了很多丰富的动作,将能够提升很多游戏的交互维度带来新的体验。举个例子,有款很有名的VR游戏叫“猜拳岛”,玩家可以在其中玩“石头、剪子、布”来进行攻击,这就打破了简单的点击移动操作的框架。

再比如,在解谜游戏中,加入了自然手势,我们可以轻轻触碰、抓取、翻开道具,甚至我们可以手拧螺丝刀,可以任意在道具中翻箱倒柜,这将给玩家带来深刻体验。笔者从小就喜欢《七龙珠》这部漫画,在第一次接触VR的时候就幻想着有一天笔者能亲手发出一个冲击波试试,通过不同手势来控制能量的大小,这将非常炫酷。

所以自然的手势跟踪是真正的AR/VR所必须的,我们需要能准确快速的识别复杂动作,并且作为SDK提供给开发者。目前uSens凌感正在不断优化,已经可以实现很多复杂动作的识别。

猜你喜欢
虚拟世界手势苹果
设计让您在喜爱的虚拟世界中自由奔跑
挑战!神秘手势
学会止步,亦是一种智慧
胜利的手势
收获苹果
拥抱虚拟 珍惜现实
拿苹果
立足现实世界 正视虚拟世界
会说话的苹果
认手势说数字