王琬琳
人机交互技术是研究系统和用户间交互关系的技术,系统不仅只是计算机界面和程序软件,也可以是各种各样的机械、设备。[1]如今,随着人工智能的高速发展,人机交互技术开始和人工智能技术进行深度结合,并且人机交互从原始的图形界面交互逐步向语音交互、手势识别、脑机接口等方向拓展。尽管这些交互方式的运用使人们的生活更加便捷,但上述的每一种交互方式都存在着不可忽视的缺点。因此,当科学技术进一步提升后,探索更加人性化与智能化的人机交互方式成为人机交互发展的新主题。
人机交互的起点是文字界面(TUI)交互。计算机最早只存在于实验室,主机庞大,售价极高,使用计算机的也都是经过专业培养的专家。文字界面是计算机系统最初的样子,它由成千上万条命令行组成。这些命令行就是人机对话的第一步,用户通过输入命令行来完成与计算机的交流。但它的缺点十分明显,首先,交互步骤冗长烦琐,想与计算机交流需要输入复杂的命令,用户在此过程中极易产生疲惫感;其次,学习成本高,除了少数经过专业学习的计算机专家外,大部分的普通人根本无法顺畅地输入和读懂这些命令行。为了降低学习成本、简化交互流程,让大多数人也能顺畅地使用计算机,人机交互迎来了它的第一次革命——图形界面(GUI)交互。随后,人机交互相继进入手势识别、语音交互、脑机接口阶段。
1973 年, 在 施 乐 研 究 中 心(Xerox Palo Alto Research Center)诞生的第一个图形界面,为之后图形界面交互的发展指明了方向。当时施乐研究中心的研究员提出“桌面比喻”和“纸张范本”的概念,将电脑想象成一个桌面,各种功能程序就是桌面上的工具,程序文档则是一张张摸不着的电子纸张。[2]自此图形界面交互开始走入非计算机技术背景用户的工作生活中,它通过运用实际物品转化为虚拟物品的概念,帮助用户把抽象的计算机程序具象化,使计算机操作更加符合人们在物理世界中的心智模型。比如,当我们想把多个文档归为一类时,我们就把它们全部拖动到一个文件夹里;当我们想把某一个文件删除时,我们可以把文件拖动至回收站,就好像我们在物理世界里将垃圾丢进垃圾桶一样。在施乐图形界面研究的启发下,比尔·盖茨推出了Windows 操作系统,并获得巨大成功。
手势识别是一种融合先进感知技术与计算机模式识别技术的新型人机自然交互技术,[3]计算机通过识别人类手势,让用户在无需直接接触设备的情况下,就可以使用简单的手势与设备进行交互。手势识别是人机交互的第二次革命,人们开始尝试脱离传统的键盘、鼠标和触屏,探索并搭建人机交流的其他桥梁。最初的手势交互是利用定位在手部和肘部的设备,来检测手部运动的轨迹,进而达到交互的效果。[4]这种依靠外部设备进行交互的方法虽然准确性高,但在很大程度上阻碍了人们手势活动的自然表达,因此基于计算机视觉的手势识别和交互技术应运而生。在此基础上,人的姿态、步态、行为、面部表情识别技术也开始高速发展,由此,人机交互的设计理念开始从以“系统为核心”转变为“以用户为核心”。
语音交互是人机交互发展中的又一革命性交互方式。最早的语音交互是交互式语音应答(Interaction Voice Response)系统,用户通过电话拨号的方式与之进行交互,它无法回答用户的问题,只能向用户播报提前录制好的声音,比如语音信箱、传真提示、拨号提示等。但这种交互式语音应答系统应用范围窄、交互效率低且交互模式生硬呆板,并无法解决用户生活中的很多实际问题。
由于交互式语音应答系统的诸多弊端,且无法解决用户的很多实际问题,于是像Siri、Google、小爱同学这类集成了视觉和语音交互的移动端APP,以及Amazon Echo、小度这类纯语音交互的智能产品诞生了。这些结合AI 技术的语音交互产品一经问世就广受好评,产品的诞生和成功不仅证明了语音交互的价值,更加速了语音交互技术的发展。
随着AI 技术的提升,语音识别和语义理解技术也逐步成熟完善,语音交互类人化成为可能。交互形式也从一问一答的机械对话进阶至更为流畅的多轮对话,甚至还能识别多国语言和地区方言,这使得语音交互在灵活度和体验感上产生了质的飞跃。
脑 机 接 口(Brain-Computer Interface,BCI),是涉及神经科学、认知科学、计算机科学、控制及信息科学技术、医学等多学科,多领域的人机接口方式,是在大脑与外部环境之间建立的神经信息交流与控制通道。单向脑机接口允许大脑和计算机或接受脑之间单向传输信号,双向脑机接口允许大脑和外部设备间进行信号的双向交换。[5]脑机接口技术可以准确、快速地采集、识别出人脑在各种思想活动下的脑信号,并利用这些信号来控制外部设备。[6]
专家最初关注和研究脑机接口的目的,是为了恢复损伤的听觉、视觉和肢体运动能力。研究员尝试通过手术,用侵入式的人工BCI 装置替换掉原有功能受损的神经或感觉器官,人工耳蜗、人工视网膜、智能假肢等都在此背景下产生,并成功帮助人们实现了感觉功能恢复和运动功能恢复的目标。侵入式BCI 装置的成功,使人们开始关注起半侵入式和非侵入式BCI装置的研究,BCI 装置也不再局限于医学领域的应用。
不需要做任何额外的动作,只需要想一想信息就能动输入,身边的物品就能移动到想象的地方,智能的假肢使用起来不仅和真实的肢体无异,甚至还能产生触觉反馈。这些无数科幻电影中都出现过的情节,和曾经看似疯狂的想象,都已通过脑机接口技术成为现实,尽管现在脑机接口技术还不成熟,但它的出现无不是在告诉我们,未来已来。
就目前来看,人机交互已经取得了巨大进展,但主流的人机交互方式还是以图形界面交互为主,语音交互为辅。尽管手势识别、脑机接口在应用层面已经有了很大的进步,但由于技术应用范围、设备品类、社会法规和伦理道德等问题,发展受限。而位于主流的图形界面交互和语音交互也都有着无法忽视的短板。
图形界面交互是人们接受度最高、使用率最高、使用时间最长的交互方式,但它依然存在一些不可忽视的缺陷:一,过度依赖人的视觉系统和设备的电子屏幕,如今智能设备的一大特点就是可视化,不论是产品自身搭载屏幕还是连接智能手机,都是在进行产品的数据可视化,过量的屏幕和数据可视化导致信息过载;二,交互方式单一,容易产生疲惫感,绝大多数图形界面交互是通过鼠标点击、键盘输入和触控的方式来完成交互操作,触控看似是解放了鼠标和键盘,但其在本质上,和鼠标点击没有任何区别,单一的重复操作会给用户带来疲惫感;三,对视力、肢体(主要是手部)有损伤的人来说操作困难,由于其对电子屏幕的依赖性和交互方式的单一,用户不论是输入信息还是读取信息都易受到屏幕尺寸的影响;四,在AR 或VR 等沉浸式虚拟环境中应用性差,特别是当用户与用户在沉浸式虚拟环境中交流时,以虚拟键盘为主的文字输入会降低用户的体验感。
语音交互作为同时解放人类手眼的信息交互方式,一经问世就广受好评,从搭载语音交互的智能音箱在市场上的火热情况,就能反映出人们对于更加类人、智能化和自然式交互方式的渴望。语音交互的优势在于交互方式趋近自然、用户学习成本低、可应用范围广,但语音交互也存在无法忽视的缺点:一,线性的输入方式,让它无法持续输入和输出较多内容;二,信息识别易受环境影响,当用户处于比较嘈杂的环境时识别受阻,且无法区分出不同用户的声音,容易导致识别出错。
手势识别能使用户在不佩戴任何额外设备的情况下,和系统进行自然的交互,它和语音交互被视为驾驶情境下的最佳交互组合,在沉浸式虚拟空间场景中,更是拥有巨大的用户价值,但其一直无法成为主流交互方式有以下几个原因:一,人的双手在没有外物支撑的情况下,很难长时间停留在空中;二,人类在长期自然社交中产生的习惯,让大多数用户无法在室外、办公、多人同居的家庭环境等公共场合中大量使用手势交互;三,缺少触觉反馈体验,用户在使用手机触屏时能清楚地感知手指碰到了屏幕,但在手势识别中,无法触碰的虚拟键盘会导致用户缺少触觉情感体验,从而降低用户体验。
尽管脑机接口已经在感知恢复、运动恢复、感觉扩增、机器人替身等方面取得了不错进展并得到了广泛的使用,但由于脑机接口设备的低普及率和用户接受度的未知,我们距离脑机接口真正走入大众的日常生活还有一段不短的距离。
从人机交互的发展历史、现状和不足来看,没有哪一种人机交互方式是完美的,也没有哪一种人机交互方式是无用的。未来人机交互发展真正需要关注的问题也不再是某一种新颖具体的单一交互方式的实现,而是在以用户为核心的理念上,多种交互方式相结合,智能产品智能物联后形成多模态交互网络,通过情景感知,让“机”主动服务于人。将多种交互方式相结合,每种交互方式都能在发挥长处的同时补足短板,现在由于过多电子屏幕、单一交互方式、重复信息推送等产生的低效率、高成本和信息过载的问题也将会得到解决。
所谓“模态(modality)”即是“感官”,多模态即多种感官融合。多模态交互,即通过视觉、听觉、触觉、嗅觉、动作行为、环境等多种方式进行人机交互,[7]充分模拟人与人之间的交互方式。情景感知具有实时性、自动化、个性化的特点,能自动获取用户情境的相关信息,根据获取的信息,经算法推理分析出用户需求,适时给用户提供个性化服务。[8]
基于物联网的多模态交互网络能够充分整合利用现有的多种交互方式,在感知用户情景的同时,用类人的自然交互方式主动适应用户需求,从而让众多来源不一的智能产品像一个人或者一台机器一样为用户服务。在十几年前,由于设备计算速度慢、互联网技术不发达、民众持有设备量少(主要是电脑和智能手机)等原因,物联网被认为是一个伪命题。但在十几年后AI 技术和互联网技术迅猛发展的今天,智能产品已经进入千家万户,万物智联即将成为可能。
基于此,人机交互的未来发展趋势将具有以下几个特点:
1. 整体性,多个智能设备共同形成智能设备生态系统,像一台设备一样为用户服务。处于物联网的多模态交互网络下的智能设备将不再各自为政,各设备间共享信息,无需进行重复的信息计算和信息推送,类似于当一个用户的微信账号同时在多个设备上登录时,一条消息推送重复提示多次的情况将不再发生。这不仅是多设备化身为不同零件集成单设备的统一性,还是服务流程的统一性。基于物联网的多模态交互网络的整体性提高了人机交互的资源利用率、工作效率和系统安全性。
2. 可感知性,可感知用户情景,最小化用户输入,主动适应用户需求。情景感知是一种通过传感器获取关于用户所处环境的相关信息,从而进一步了解用户行为动机的技术。它是用户体验设计中的一个重要方向——主动服务设计。[9]智能设备可以根据对用户的情景感知,进行自适应改变,从而做出最合理的交互决策和信息推送。情景感知可以把外界游离的用户、情境环境、系统状态有效地集成在一起。[10]完整的智能设备生态系统主动感知用户生活情景,并根据生活情景自动做出判断,例如,当用户启动汽车时,与物联网多模态交互网络相连的车载系统,可以根据用户预先制定好的出行计划或日常生活习惯,自动显示出目的地导航。通过主动的情景感知来预测用户意图,从而使用户输入最小化。
3. 去屏幕化或超屏幕化,将“屏幕”融于环境。好的交互应该是自然且无形的,最好的用户界面就是没有界面。过去,设计者和研究员们反复强调要“将看不见的数据和服务可视化”,这导致很多设计者对于可视化产生了盲从心理,忽视了产品本身的角色定位,甚至连智能灯泡和智能热水器都配备了可交互的电子屏幕和专属APP,但这些屏幕不仅没有提高用户的效率,反而产生了大量的重复操作。与此相反,AirPods 蓝牙耳机去掉了几乎所有的屏幕操作环节,将用户放取耳机的行为与手机蓝牙的自动断连相关联,看似细微的修改,实则重新定义了行业标准。这无疑是在说明去屏幕化、超屏幕化、将屏幕“融于”环境的设计思维正在逐步兴起。
文字界面交互打通了人类与计算机沟通的桥梁,图形界面交互让计算机成为普通人也能使用的日常工具,手势识别让人们脱离了输入工具的束缚,语音交互同时解放了双手和眼睛,脑机接口使不可能成为可能。
未来人机交互将延续现有交互的特点,在此之上结合AI 技术,将多种不同的交互方式相结合,在物联网的基础上,实现万物智联,让数量众多但各自为政的智能产品在智联的方式下,形成多模态交互网络,通过情景感知主动地与用户进行交互。
注释:
[1]张文艺.基于ROS 的人机语音交互系统设计与实现[D].西安电子科技大学,2017.
[2] DT. High Speed Cooling Test [M]. Engineering Standard. 2016.
[3][4]赵小川,赵继鹏,范炳远,郝丽丽.手势识别技术研究综述与应用展望[A].中国高科技产业化研究会智能信息处理产业化分会、中国高科技产业化研究会信号处理专家委员会.第十一届全国信号和智能信息处理与应用学术会议专刊[C].中国高科技产业化研究会智能信息处理产业化分会、中国高科技产业化研究会信号处理专家委员会:中国高科技产业化研究会,2017:4.
[5]颜士州.意念成真[J].科学24 小时,2017(1):20-22.
[6][7]李珏,薛澄岐,彭宁玥.基于脑机接口的界面设计风格沟通方法研究[J].设计,2017(19):56-57.
[8][10]姚瑶,王战红.基于物联网的情景感知计算研究与应用[J].河南机电高等专科学校学报,2015,23(4):16-19+22.
[9]文怡.2019 世界机器人大会:人工智能为生活带来新生态[J].今日科技,2019(8):55-60.