华南理工大学广州学院机器人工程学院 胡尚源 徐 婧 廖育涛 董文杰 徐 坤
随着社会的发展和技术的创新,越来越多的交互技术运用到了日常生活里。本文将多一款机器人的功能做阐述。首先介绍其语音交互的原理,并介绍其实现在线语音交互的代码模块,以及仿真效果。其次介绍其界面交互的原理及流程,然后介绍这款机器人的外观设计,最后对机器人的总体功能进行总结并作未来交互技术发展的展望。
随着社会的发展和技术的创新,越来越多的交互技术运用到了日常生活里。大到国家军事,小到养老及孩童教育,交互技术通过各种各样的方式得到了运用。在我们生活中运用最为广泛的就是交互机器人。交互机器人是指通过一些人机交互技术与人类指令端进行交互的终端机器人,其交互形式多种多样:通过输入语音来获得人们想要的答案的语音交互;通过网页查找或者文字对话的界面交互;以及类似手机点击触控的触控交互。此外还有基于传统的硬件设备的交互、基于动作识别的交互和基于眼动追踪的交互。
我们通过网上查阅相关文献,参考市面上成熟的语音交互系统来做此主题。此多功能交互系统研究门槛低,成本低,如果批量生产的话利润较高,我们对本产品的定位为以语音交互和界面交互为核心,为通过不同外形的制作,可作为学校迎新机器人,儿童语音交互玩具,资料查阅器等。
其中语音交互和界面交互技术的应用更为普遍,本文介绍的这款机器人将这两种技术结合在一起,并运用到校园迎新的特定场景中去。
语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程(如图1所示)。
用户输入语音由设备的麦克风接收,然后用ASR对语音进行分析,得到对应的文字或拼音信息。将其以文本的形式做NLP处理,即自然语言处理。将用户的语言转换成为机器能够理解的语言,并提取关键词(即用户意图)接着通过编写的代码调用出与关键词最为匹配的回答,这些回答在之前就已经编写好,即语音库。最后将调取出来的回答文本合成为语音并输出。
在在线语音交互的程序编写中,需要调用到网上现有的语音库,现今网络上都有许许多多公司都提供免费的在线语音库,如科大讯飞、百度、图灵机器人等。在这些语音库的免费开放程度以及代码实现的难易度上,这款机器人就选择了图灵机器人的在线语音库,以下就介绍基于python语言来调用在线图灵语音库。
首先是用input_recofd中的record()函数,录入用户说的一句话,并且保存成.wav文件;其次用recognition_speech中的voice2text()函数,它可以将.wav的音频文件识别成文字,也就是语音识别,这样就可以把用户想要问的问题转换成文字;然后用request库的post()函数和json模块来获取图灵机器人网址以及参数,以及用户的问题;之后就是获取图灵机器人的回复,把得到的答案返回给jsrobot1,再把中文的答案,用compound_speech中的text2voice()函数合成语音;最后再调用output_redio中的speak()函数将合成的语音给播放出来,一个流程下来就完成了在线语音交互。
图1 语音处理流程图
图2 语音交互在指令窗口端运行
图3 网页界面
在在线语音交互这一块,目前的功能可以实现一些问题的解答,它的回答方式是以语音的形式回答,除此之外还可以实现跳转到网页、可以打开某个文件。
语音交互是通过人与电脑的交流互动,可以更快捷的帮助我们解决一些事,比如有什么问题,可能传统的方法是查寻百度来搜索答案,而语音交互可以实现人类把问题以语音的方法告诉接收设备,通过一系列的语言处理得到答案,此机器人的仿结果如图2所示。
界面交互原理及实现效果:
界面交互在我们生活中可以说是最常用的交互技术,网页、手机APP、工业操作面板,以及各式各样的投影搭载界面的互动游戏都可以归属于界面式的交互。本机器人作为一款迎新机器人,拥有界面交互功能可事半功倍。新生可点击机器人头上的平板来选择自己想了解的信息,如了解学校内各学院的情况,某些社团的简介即招新信息等。以下将对此款机器人的交互技术及实现效果进行介绍。
出于对代码简洁性以及实现的简易性的考虑,界面的交互采用了网页的形式,首先使用ps进行界面设计,在界面的顶端加入了水墨的元素,搭配着我校的徽标。之后用HTML5与CSS进行编程设计网页链接的布局。效果展现如图3所示。
在未来,多功能交互技术将会越来越频繁地出现在各种数字产品中,此机器人可塑性很强,用户可以根据自身的需求通过交互界面选择自己想要了解的内容。多功能交互应用于许多场景之中,如幼儿早教、迎宾介绍、场景向导等等。在本交互机器人制作的流程及情况,方便日后做参考性研究。