徐雨晨
什么是人因工程?通俗的说,人因工程其实就是我们做设计,把人知道的以及不知道的,用做工程的思路,精准、全面、量化地研究透徹,然后应用到设计中。
人机互动是虚拟的认知交流,所以人因工程研究人的感知规律来优化信息传递,比如根据人类可以明显区分的最小音量差——5分贝,来设计手机音量键的音量大小。
在过去,人因工程奠定了将人的特征以及规律进行研究并应用到设计的基础,那么到了AI时代,人因工程又有哪些新的延伸呢?
首先,AI时代的人因工程让机器越来越像人,可以通过人类的语言、表情等方式进行交流,甚至被赋予人的外形,人类不需要适应机器,而是让机器适应人。其次,机器越来越懂人,不仅懂语言,更懂文化、动机等等。当机器越来越像人的时候,人机关系也会发生变化,人们过去对机器是冷冰冰的,现在会将越来越多对人的情感、需求和预期投射到机器上,机器带给人的体验变得更加复杂。所以在这样的情况下,AI时代的人因工程不仅关乎人的能力、行为、限制和特点,也关乎人的文化和心理,是真正以人类为中心的系统工程。
具体该怎么做呢?对于人来说,语音对话是最自然、最高效的交流方式,因此,语音交互是AI时代新型交互的一个开端。但整个行业对于如何去设计一个好的语音交互系统还有很多疑问,因此,定义语音交互的体验标准是我们工作的一个开始。
首先,梳理出五个语音交互节点:唤醒、响应、输入、理解和反馈。为了打造更好的体验,每个环节都有很多问题需要被研究和定义。比如好的唤醒词是什么,用户发出指令后多久响应是好的,如何引导客户比较自然的进行输入等等。我们系统的梳理了每个环节下的体验要点,并且在这个框架下进行逐一的实验,以确定最优的机器参数和反馈水平。
在完成了大部分语音交互节点之后,我们开始思考,如何在这个基础上让人机交互更加类似人,更加让人感觉到它是一个智能体而不仅是机器。心理学有一个经典研究结论:人和人的第一印象中大概55%的信息来自外观。所以,研究一个智能体,首先关注它的外观应该怎么样。围绕外观可以研究的问题有很多,经常被争论的是:智能机器是否应该像人?应该多大程度的拟人化?不同部位是否应该是不同的?
首先,我们将拟人度按面部拟人和身体拟人进行拆解。根据不同的拟人度分析得到不同的结果,比如脸部造型中两个眼睛是关键部位,对于是否增加嘴巴要谨慎,全身拟人方面手是关键部位等等。
除了对前沿的拟人度的探讨,我们还对外观进行了基于现状考虑的研究项目。比如对市面上现有的约60款智能音箱进行了梳理,在此基础上对家居环境下的外观偏好进行研究。与预期有些不一样的是,虽然是智能产品,但当智能产品融入家居环境时,人们更希望它能够很好的融入家庭环境,所以选色上,白色、银色、灰色以及跟家具搭配的皮革、木质材质成为首选。
探讨了智能体的外观之后,让交流更加立体是我们的下一个主题。在语音交互体验持续优化的基础上,让人和机器交流得更加自然是人机交互发展的下一个趋势,也就是自然交互。
所谓自然交互,是参照人的信息输入、输出通道来进行交互的一种方式。人类的信息输入包括视、听、触、味、嗅,而输出则通过语音、肢体、文字等等。在信息接受方面,视觉和听觉基本上能够满足90%以上的信息需求,所以机器在自然交互的信息输出方面,最主要的就是处理视觉和听觉信息的配合关系,而在这个问题上,车载环境是一个非常典型的场景。
而在输入方面,语音加肢体,尤其是手势,是人类最自然、最有效的信息传递方式,虽然生活中人们会经常使用到手势,但如何将手势转化为机器语言还有很多空缺,为此我们研究了手势和语音配合作为输入方式的最优方案。
想像一下,如果机器真的可以拥有人类所有的感知觉通道,那么机器可以做的事情将远远超乎人类想象。不管是语音交互还是自然交互,完善的都是机器的感知通道,触碰的是人的感知觉,而我们认为情感交互将是一个飞跃,它将触碰人的内心。
所谓的情感交互,其实就是让机器能够类似人一样去感知观察、理解和表达情绪。举个例子,当人觉得很悲伤想要听歌的时候,具有情感能力的机器人不是随机播放热度很高、点击量很高的歌曲,而是播放一些比较温暖的音乐,甚至说上一两句温暖的话。所以,当机器进化到情感交互这一步的时候,它将不仅能够听话,还能懂事,这是人机关系的进一步深入。
而在情绪应对方面,我们研究高情商的人是如何应对悲伤、愤怒等负面情绪的,研究心理咨询师如何应对痛哭流涕的来访者,研究陌生人和好朋友在表达关心时的区别,从中提取好的应对策略并赋予机器。比如,当人感到很悲伤痛苦的时候,机器不要轻易的去说“我能理解你的感受”,因为作为一个机器真的很难理解,所以这会显得是一句空话。好的应对策略应该是柔和的灯光、舒缓的音乐、甚至是能够让人放松的气味,千万不要用语言抢占用户的注意力。而为了验证这些应对策略,我们在实验中通过VR模拟场景、诱发用户情绪,然后让AI去平复他们。
在此也分享一下在研究方法上的一些心得。第一,由于研究领域越来越前沿,需要在研究中不断创造交互体验和场景,比如通过AR、VR技术构建场景。第二,关注的体验更加多元及立体,需要越来越多引入生理测量,脑电、机电、心电都是比较成熟的体系。第三,人脸、声纹、语气等识别技术帮助我们获得大量隐藏在行为背后的数据,比如用户的情绪、需求、动机等。