基于语音和手势的智能机器人交互研究

2019-08-23 10:41田怀谷孔令云龚元霞徐教礼
数字通信世界 2019年7期
关键词:手势指令语音

田怀谷,孔令云,龚元霞,徐教礼,戴 浩

(西京学院理学院,西安 710123)

1 人机交互模型

在大多数的情况下,语音控制机器人是方便的。但不可避免的是,有些事情不能用言语来表达,而此时,一个直观的手势可以让机器人知道用户的意图。因此,将语音和手势相结合,可以使人机交互更加方便和准确。

在此人机交互模型中,当用户发出语音命令,通过Microsoft Speech SDK 获取命令并转换为文本。采用最大熵模型对文本进行处理,从而让机器人理解用户的意图。与此同时机器人确定是否有手势指示在讲话中,如果语音中包含了某些手势指令,那么用户的手势就会被手部追踪控制器(厉动)所捕获并进行处理,处理后的数据将被视为用户意图的一部分。在此过程中如果语音指令是一个完整的命令,则语音指令将单独控制机器人。否则即将手势指令和语音指令相结合,为机器人控制提供完整的指令。人机交互模型的实现过程如图1所示。

图1 人机交互模型的实现过程

2 语音识别

2.1 控制指令库

在文献的基础上,通过对多个控制指令库的分析以及引入的四个属性变量( 、 、 、 ),设计了机器人控制命令。四个属性变量表示机器人操作方向的关键字,即上、下、前、后、左或右,这四个属性变量的定义使指令更加系统化,提高机器人的性能。例如,如果运算符发送的“向上10mm”指令,它将被转换为属性变量[上,移动,10,mm]等。在这种情况下,用户的语音可以组合成大量特定的可执行机器人命令。由于控制指令库的存在,机器人的执行效率会更高。

2.2 文本分析

最大熵的概念最早由杰恩提出,并首次应用于语音的处理中。目前,最大熵模型在语音的处理任务中得到了广泛的应用。作为一种判别模型,最大熵模型的优点是它可以将多个特征融合在一个模型中,并将这些特征建模并后验,另外,最大熵模型的分布是指数分布便于计算。最大熵模型的核心思想是在预测随机变量的概率分布时,在满足所有已知条件的情况下,不对未知条件作任何假设。此时,概率分布的信息熵是最大的,这就使各种可能性和预测的风险相吻合。

通过最大熵模型,可以识别用户语音,转换成文本并提取文本中包含的交互指令。然后将文本转换为机器人控制指令,以控制机器人的运动。

3 手势识别

手部追踪控制器(厉动)可以检测和跟踪类似手指的手指和工具。厉动软件分析了设备可见范围内的对象,如果对象存在于当前帧中,则查询函数将返回对象的引用。如果对象不存在,则查询函数将返回一个特殊的无效对象。通过手势识别算法,可以从测量数据中得到加速度和方位。

在本研究中,手势是对语音的补充,主要用于指示方向。每个手指有三个关节,每两个关节的位置用区间卡尔曼滤波估计,以提高机器人界面的精度,与标准卡尔曼滤波[7]相比,可以用统计参数和不准确的动力学来处理这种情况。估计的数据将被视为用户意图的一部分。

4 手势与语音的结合

手势与语音的人机交互包括两部分:语音和手势。机器人将首先分析Microsoft Speech SDK 转换的四个属性变量。如果机器人得到某一动作的方位和距离的具体描述,机器人就会知道语音指令可以在没有手势辅助的情况下单独工作。相反,如果四个属性变量不包含方位和距离的属性,则手部追踪控制器将捕获用户的手势。对手势进行分析,利用区间卡尔曼滤波估计,作为对语音的补充估计的数据被视为用户意图的一部分。用语音来处理人与机器人之间的交流是非常方便和直接的,而手势通常是在很难用言语来表达的情况下使用的。根据语音和手势的结合,易于构造四个属性变量,使人机交互变得更加自然和高效。

5 结论

本文综合考虑了前人研究的优缺点,提出了一种改进的人机交互方法。智能机器人的运动是由用户的语音和手势共同控制的。事实上,在现实环境中,机器人面临着更复杂的任务和指令,语音与手势交互的关键技术以及其他交互方式相结合等方面有许多问题亟待解决。

总之,智能机器人交互技术经过近几年的飞速发展,证明其具有很大的潜在市场,也是网络时代最为方便的一种交流工具。基于语音和手势的智能机器人必将在未来发挥重要作用,在家庭、教学、服务等领域获得广泛应用。

猜你喜欢
手势指令语音
《单一形状固定循环指令G90车外圆仿真》教案设计
挑战!神秘手势
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
V字手势的由来
对方正在输入……
胜利的手势
中断与跳转操作对指令串的影响
一种基于滑窗的余度指令判别算法