NUI新发展

2019-11-12 05:54王希

科技创新与应用 2019年29期

摘要：以语音交互的基本原理为基础，通过分析其关键问题，从用户体验层面对人工智能操作时代的交互设计模式创新进行探寻，对AI技术驱动下的智能语音交互设计框架创新进行推导。其研究对推动语音交互技术进步和整个人工智能产业的前行具有重要意义。

关键词：语音交互;多维交互;AI智能

中图分类号：TP391 文献识别码：A 文章编号：2095-2945（2019）29-0035-02

Abstract： Based on the basic principle of voice interaction， through the analysis of its key problems， this paper explores the innovation of interaction design pattern in the era of artificial intelligence operation from the level of user experience. The innovation of intelligent voice interaction design framework driven by AI technology is deduced. Its research is of great significance to promote the progress of voice interaction technology and the progress of the whole artificial intelligence industry.

Keywords： voice interaction; multidimensional interaction; AI technology

导语

在长达70年的人机交互发展史中，从基于代码的命令行界面到基于鼠标键盘的图形用户界面到基于触摸屏的无形用户界面，人机交互介质和方式随着技术革新发生变化。无形用户界面（NUI）需要用户以最自然的交流方式与机器互动，这离不开利用人类本能的感觉通道进行信息传递和交流互动。在人类的听觉、视觉、触觉、嗅觉、味觉5个通道中，视觉通道占据最主要位置，听觉通道其次，而在信息传递中听觉语言的综合利用率远高于视觉符号，所以，更趋近人类本能的交互方式——语音交互受到广泛关注。谷歌（Google Home）、亚马逊（echo）天猫精灵、小爱音箱等智能语音产品呈现井喷式增长，智能语音产品的需求也越来越旺盛，不仅改变了人类的生活方式，在智慧医疗、智慧农业、智能制造领域的应用正蓄势待发。

1 语音交互基础

自上世纪90年代，语音交互经历了第一个非特定人的语音识别系统的诞生到IVR互动式语音应答系统的规模应用再到AI时代的智能语音识别的过程。进入AI时代后，人工智能技术赋能机器感知能力、认知能力和语言表达能力。具象地说，就是机器能听、能辨、能说，用户与机器的互动如同与老友般自然地交流，这将人机交互带入新的阶段。

这种最自然的人机交互方式显现出以下优点：（1）输入速度提升。语音输入速度远快于手写或打字速度;（2）降低输入学习成本。有的用户不会使用输入法、有的用户提笔忘字，但绝大部分用户都会说话，说话是每个人的天性;（3）简化操作方式。语音唤醒和语音输入的组合使用，让用户的使用场景更简洁。如果你正在开车，你只需要对着机器说话即可完成操作任务;（4）提高机器情感特征。机器可以通过编程调节语音、语速、音调等模仿人的说话时的真实情景，语音比文字更容易让用户体会情感。

也具有相对局限性：（1）环境要求高。语音输入对周围环境声音要求较高，在公众场合或嘈杂环境中会降低语音输入的准确度，同时，在公众场合使用语音输入还容易泄露隐私;（2）用户适应程度低。习惯了键盘输入，改为语音输入，加之目前的机器识别技术还并未完善，导致用户内心抵触语音输入，同时，打字也能为一部分用户带来心理愉悦感。

2 语音交互过程及关键问题

语音交互的过程是机器接受用户的语音信号，将其转化为计算机语言并对其进行语义认知解析，再唤醒对应领域的内容、信息等功能，经过人声合成，最后反馈给用户。

在此过程中，面临两大关键问题：（1）机器对用户意图的理解;（2）机器对用户的反馈提升。具体来说，就是语音识别技术将用户的语音转化为文本信号，通过技术分析理解用户需求，但用户语言与用户语义之间存在复杂关联，用户语义高度依赖会话语境，这使得计算机单纯分析词汇和语法无法准确识别用户语义，从而降低语音交互的智能体验感，如图1所示。同时，机器对用户的正确反馈，决定用户的交互体验，正确反馈不仅依赖语音识别技术的进步，还来源于机器的反馈交互，但对话式交互中生硬的语音反馈会削弱机器的“人性”，使用户心理产生距离感。

3 语音交互设计框架

语音交互设计是一项交叉技术，需要设计师了解用户的语言本质和机器的语言逻辑，在用户参与设计的前提下，不断完善语音交互的输入——处理——输出的交互设计流程。语音交互是交互设计的一种重要方式，同样需要遵循交互设计的常用步骤。需要设计者在以人为中心（用户参与为向导）的前提下，对交互产品进行初步设计构想，并在不断的程序开发和实际评估过程中完善交互流程。

智能产品的语音交互设计离不开“以用户为中心”的思维，由上文提到的其两大关键问题，在设计过程中应着重增加用户参与性研究。

智能语音交互方式与屏幕交互方式相比较，具体有如下特征：从产品导向转变为过程导向;从屏内交互转变为屏外交互;从实体体验转变为虚拟体验;从机器逻辑转变为用户逻辑;从用户行为设计转变为机器行为设计;从识别用户行为转变为理解用户意图;从用户与设计师合作行动式的情景预演方法转变为用户与设计师与语言学者共创探索式的语境预演方法;从设计师参与式转变为设计师决策式。[1]語音交互设计框架如图2所示。

4 语音交互的任务

对应语音交互的关键问题及设计框架，智能语音交互的任务分为两个关键部分，即分析用户意图、设计机器反馈。语音交互阶段任务如图3所示。

分析用户意图：语音识别技术将用户的语音转化为计算机能够识别的文本代码，计算机通过语法特征分析词句关系，理解用户意图。但是，在实际的对话世界中，用户需求和用户语言之间存在复杂的情景关联。比如，用户询问，“今天天气如何？”有些用户关注点可能是是否会下雨;有些用户关注点则可能是是否要防晒;有些用户想要知道温度如何。这是一种高度依赖语境和用户语音习惯的语义通道，无法从单纯分析字词和语法而获得用户需求，无法完全依靠计算机的机器学习能力而获得，此时，需要语音交互设计师的辅助工作。

设计机器反馈：用户对机器输入语音后，如何得知机器理解了自己的完整意图呢？这取决于用户是否得到了合理的机器反馈。合理的机器反馈来源于：（1）正确理解用户意图;（2）以用户易于接受的方式反馈，即需要具备“人格化”特征。

5 结束语

语音交互设计是一个双向系统研究模式，包含用户输入和机器输出的双层交互系统，而这两者都依赖于计算机的计算能力。所以，语音交互设计对设计师提出了更高的技术层面的要求和语言基础知识的挑战。[2]传统的交互设计需要用户付出学习时间，而语音交互则需要计算机顺应用户逻辑。我们都知道，交互设计是物理逻辑和行为逻辑间的沟通桥梁，语音交互也不例外，但需求更迫切，要求更高，其设计方法的研究还有待进一步开展。

参考文献：

[1]王希.信息产品设计中的视觉品牌基因塑造策略[J].科技创新与应用，2019（15）：27-28.

[2]罗仕鉴.服务设计驱动下的模式创新[J].包装工程，2015（06）：1-4.

[3]鲁晓波.信息设计中的交互设计方法[J].科技导报，2007（13）：18-21.

科技创新与应用2019年29期

科技创新与应用的其它文章: GA118系列遗传分析仪数据采集软件的设计和实现; 基于虚拟仪器和MCSA技术的电机转子断条故障诊断的研究; 昆山园林植物废弃物资源化利用的思路与实践; 基于FPGA的激光触控系统的研究; 大疆公司专利概况及分析; 一种基于遗传算法优化BP神经网络的电网故障诊断方法