一种面向智能家居设备控制的多模态人机智能交互方法

2021-07-27 09:59邵帮丽朱寅朱润潘晨曦王坚奚雪峰杨颢
林业工程学报 2021年4期
关键词:手势指令模态

邵帮丽,朱寅,朱润,潘晨曦,王坚,奚雪峰*,杨颢,2

(1. 苏州科技大学电子与信息工程学院,江苏 苏州 215009; 2. 苏州市虚拟现实智能交互及应用技术重点实验室,江苏 苏州 215009; 3. 昆山市公安局,江苏 昆山 215300)

随着物联网的发展,嵌入式设备在人们的日常家居生活中得到了广泛应用,人机交互技术为用户带来高质量的生活体验。现有智能家居人机交互主要借助遥控器或者手机进行红外遥控,通过按键或者触屏进行操作;还有依托语音助手[1]控制家居设备,实现非接触式控制。然而,上述两种主要控制方式都存在局限性。红外遥控需要借助第三方移动设备,增加了故障载体;语音助手的控制方式,同样依赖第三方移动设备,并且虽然融入了语音控制的便捷性,但仍存在输入数据来源单一、准确率不高等问题。考虑到目前存在的人机交互方式都是间接控制且存在上述问题,本研究提出一种多模态融合[2]的方法应用于家居设备中空调的日常控制。通过语音识别将语音指令转换为文字指令加以理解,并辅于设定的手势调节,不借助其他设备,仅依赖于用户语音及手势特征。

本研究基于多模态融合现有的方法以及相关基础理论,分析并探讨多模态人机交互方法,并将其应用于家居生活中空调控制系统的构建。

1 相关理论基础

现有的多模态融合方法可分为模型无关的方法和基于模型的方法。模型无关的方法依据融合的阶段可以分为早期融合,即基于特征的融合,在提取特征后立即集成特征[3];晚期融合,即决策级融合方法,在每种模式输出结果后才执行集成,主要采用如最大值融合、平均值融合、贝叶斯规则融合以及集成学习等规则来综合不同模型输出的结果[4];混合融合结合早期融合和单模态预测其输出,综合两者的优点,但也带来了结构复杂和训练的困难[5]。而利用模型解决融合的方法有核方法、图模型方法、神经网络模型方法等[6-7]。结合视觉和语言的多模式智能应用目前颇受关注的有生成图片字幕、文字到图片的生成[8-10]、视觉问答[11]、视觉推理等[12]。

智能家居的发展创造出舒适便捷、高效节能的家居生活环境,在物联网技术的支持下从窗帘、电视等家电设备的自动控制,到智能插座、智能门锁等智能单品的出现,再到场景化家居以及安全节能、家居安防,智能家居解决方案越发成熟、完善。近期工作有将视觉与语音的多模态应用于智能机器人[13],语言模型选用的最大熵模型,手势识别部分选用手势追踪控制器,但速度与精度还有提升的空间;有基于Android手机手势和语音的系统[14],分别依赖方向传感器通过角度来判别方向,以及讯飞语记语音识别器来进行语音识别,由于方向传感器局限于方向,不能捕捉手势的细节动作;此外有应用于智能助老助残系统[15],依赖于第三方语音识别芯片和体感控制器,以此来控制履带车及机械手。

手势识别在人机交互方面的应用主要是智能穿戴设备[16]以及车载场景[17],当驾驶员集中注意力于路面情况时,一些日常操作如接挂电话、调节音量、播放暂停音乐等可以通过手势控制,从而避免视线被转移造成的危险。手势识别常规方法是通过手的肤色、形状[18]、像素值、运动等视觉特征的组合来检测手部动作,然后进行手势跟踪提供手或手指外观位置的帧间坐标,从而产生手部运动的轨迹以便进行后续识别[19]。

语音识别在智能家居中的应用以智能音箱为主,在同一局域网内,智能音箱可以控制多个智能设备。语音识别本质是统计模式识别,依赖于声学模型和语言模型两个模型,前者是文字和拼音的对应转换,而后者是字词在整个句子中出现的概率[20]。

2 多模态人机智能交互方法

本研究所提及的交互方法主要包含3个部分:第1部分首先通过采集数据并进行预处理得到标准化输入,然后分别使用CNN模型和ResNet模型进行手势训练;第2部分依次使用LSTM+CTC声学模型、N-gram语言模型对语料库进行训练;第3部分,当镜头出现控制手势时,手势模型作出识别,提示语音输入后,语音模型作出识别,此时通过余弦相似度的计算,将语音识别结果映射到手势标签,投票法按权重对3种结果计算,得到最终控制指令(图1)。

图1 模块分析图

2.1 方法和原理

2.1.1 基于机器视觉的手势识别分析

实验中采用罗技B525摄像头进行图像信息的采集。首先自定义手势,在手势识别中主要捕获4种静态手势用于模拟家居场景——使用空调的不同操作,分别定义如下:单手做“OK”的姿势,如图2a所示,代表用户想要打开空调的操作;单手做“V”的姿势,如图2b所示,代表用户想要提高空调温度的操作;单手握拳,如图2c所示,代表用户想要降低空调温度的操作;五指并拢伸出,如图2d所示,代表用户想要关闭空调的操作;额外定义一种“nothing”,即不符合以上4种手势的干扰图片。

图2 采样手势

数据预处理的流程见图3,首先进行高斯滤波去噪,高斯滤波对噪声可以起到很好的削弱功效,然后操作肤色分割[21],即对图像中人体皮肤所在像素区域进行筛选检测分离,之后对选中的图像进行二值化处理,接着对肤色分割残留的点进行形态学处理,先腐蚀后膨胀,最后采用肤色提取轮廓的方法得到标准化输入。

图3 手势图片预处理流程

肤色分割的方法是基于HSV颜色空间的肤色分割,用建立颜色空间的方式来把手势完整地分割出来。HSV[22]颜色空间是依照颜色的直观特性而创建的,用色调、饱和度、明度来描述颜色。该模式首先获取手势框图,将其转换到HSV空间(图4);然后获取图片每个像素点的HSV值,即将1个二维矩阵拆成3个二维矩阵;最后根据肤色范围定义H、S、V值的遮罩,设置判断条件,不在肤色范围内把遮罩设为黑色即可。肤色分割后的效果在图5处呈现,将握拳手势放置于捕捉窗口中间,ROI窗口显示处理后得到的手势。

图4 HSV模型

图5 Mask模式

从图4 HSV模型中可以看出,当不断增加白色时,参数V会保持不变而参数S会不断减小,因此当光线充足时,此模式非常有效。

2.1.2 基于机器视觉的手势识别建模

本系统手势识别部分使用的CNN模型见图6,由输入层、卷积层、池化层、dropout层、flatten层、全连接层、输出层构成。两层dropout层用于缓解过拟合,一层flatten层用于连接卷积层和全连接层。

图6 CNN网络模型示意图

数据集是手动录制的,每种手势,包括nothing,录制了803张图片,采用6种数据增强方式扩充数据集:添加椒盐、高斯噪声,降低、提高图片亮度,以随机角度旋转以及翻转。最终数据集包括28 105张手势的图片,每种手势5 621张,按6∶2∶2的比例来划分训练集、验证集、测试集。用该CNN模型训练了15轮,模型训练结果从图7可以看出,训练精度与测试精度趋势相同,收敛时差距较小,其间通过dropout正则化来减少过拟合现象。

图7 模型实验结果

ResNet深度残差网络,是为解决网络层的增加导致训练集准确率下降的问题而被引入的。综合考虑数据集规模以及训练时间,本研究选择ResNet50进行手势的训练,调用Keras内部封装好的模型,共50层,调整输入大小为200×200。由于网络层数较深,训练数据复杂度较小,因此训练轮数可以适当缩减,表1是训练10轮的情况。测试集上的精度最终达到94.51%。

表1 ResNet50模型训练情况

2.1.3 基于声学与语言模型的语音识别分析

语音识别采用清华大学THCHS30中文语音数据集作为训练数据集。THCHS30内含了1万余条中文语音文件,总时长超过30 h,采样频率为16 kHz,采样大小为16 bits,是完全免费的。原创录音于2000—2001年由朱晓燕教授的项目小组完成,起初设计目的是作为863数据库的补充,尽量提高中文语音的覆盖率。

2.1.4 基于声学与语言模型的语音识别建模

声学模型选用LSTM+CTC模型。LSTM(long short-term memory,长短期记忆网络)是一种时间循环神经网络,其核心目的就是解决一般RNN(循环神经网络)存在的长期依赖问题,已被人们所熟知。CTC算法全称是连接时序分类算法,是一种基于神经网络的时序分类算法[23]。它可以在输入输出序列长度比不定的情况下完成音频文本的映射。

语言模型选用了N-Gram模型,本质上是一种概率图模型。核心目标就是得出文本中某个具体句子存在的概率。语言模型的作用就是把字词解码成句子,把每一个拼音对应到多个汉字,每个汉字一次只读一个拼音,这样把拼音和汉字彼此之间的对应关系从左到右连在一起,就有了如图8所示的有向图。其中,y1,y2,…,yn是输入的拼音;w11、w12、w13是y1的候选汉字;w21、w22是y2对应的候选汉字。以此类推,计算每一步的概率。通过设置阈值将概率过低的路径过滤掉,每走一步就对阈值进行一次幂运算。依次迭代,最终得到比较理想的映射。关于语音识别模型的训练,由于数据集太大,在云端用GPU训练,可选用平台FloydHub(网址:https://www.floydhub.com/)。

图8 拼音转汉字的网格图

当前模型在验证集上的汉语拼音准确率为81.74%,错误率为18.26%。最终,对预设的4条指令,每条进行了100次的语音识别操作,结果见表2。其中基本识别是指将“关闭空调”指令识别为“关低空调”,虽然没有达到准确识别,但对空调的操作关键词比较敏感。本模型基本可以完成对这4条指令的识别,在提高温度和降低温度两指令上的准确度有待提高。基本识别情况中多数由“温”字识别错误导致,其错误识别为“翁”的概率为74.23%,后续可以选取更契合的语料库进行训练。

表2 语音识别测试结果

2.1.5 融合手势与语音识别的多模态人机智能交互

融合模块中使用的预测类别方法是集成学习算法的一种,即投票法。使用投票法来创建强监督模型的方法即整合每一种弱监督模型的预测,然后通过投票去预测分类。这些弱监督分类器训练的数据集并不相同,彼此之间互不相关。本次实验基于该方法,完成预测手势识别和语音识别多个分类器结果加权投票,得到最终结果。

实验过程中,除了上面所提及的基于HSV颜色空间的肤色分割模式,还增加了基于阈值自适应的肤色分割模式。两者呈现的效果较为不同。图9中呈现的是握拳手势在阈值自适应模式下的预测结果可视化以及关闭指令在另一种模式下的识别结果。图10是两种模式下nothing指令识别效果,分别是阈值自适应模式下3根手指对应的预测标签、基于HSV颜色空间的肤色分割模式下4根手指对应的预测标签。阈值自适应计算公式为:

图10 两种模式下nothing指令

(1)

式中:Gavg为整幅图的平均灰度级;u[i]为零阶矩;v[i]为一阶矩,可根据直方图计算得到;f[i]是最大类间方差,该方差的灰度值便是自适应阈值。

2.2 试验结果与分析

在得到语音识别所形成的文本结果后,将文本结果映射为标签类型。具体而言,首先将文本结果转化为词向量,接着与手势标签所对应的文本词向量进行余弦相似度的计算,最终将计算结果作为语音识别结果到手势标签的映射,参与加权投票。由于本研究的多模态包含手势和语音两种单模态,并且多模态兼容单模态方式,单模态工作时会有二次验证,因此投票权重在多模态工作下发挥重要作用。设置权重如下:初始情况两种模态权重各占一半;ResNet-50所得到的手势识别结果设置权重为0.3,CNN所得到的手势识别结果设置权重为0.2,而将语音识别的结果权重设置为0.5,系统实验结果如表3所示。

表3 融合模块测试结果

从表3中可以看出,对于语音识别结果来说,正确结果中有182次能做到完整识别出指令并准确识别,还有57次输出能识别出指令的含义,但是个别字映射错误,并不影响整体结果,比如录入指令为“降低温度”,而识别出“降地温度”等。对于最终结果来说,有225次能输出正确的指令结果,64次识别出手势结果与语音结果不一致,在投票法的使用下,模态融合指令结果都与实际情况相吻合。测试结果表明,整体系统的准确率高于单独的手势识别和语音识别的准确率。

图11中手势识别预测的是指令“调高温度”,语音识别结果不一致,结果显示两次预测不一致,在投票法原则下正确识别的结果对错误结果进行一定程度的纠正,融合两模态的结果,最终结果为手势识别的结果。图12中手势预测为“降低温度”,是正确指令;语音识别结果是“占低”,尽管语音识别不能准确识别语音指令,但对指令中的词有一定的敏感度。

图11 预测不一致的场景案例

图12 预测一致的场景案例

图13呈现出来的是手势与语音互补工作。当环境比较嘈杂时会影响语音识别效果,此时可采取手势识别调控;当光线比较昏暗时,手势识别会受影响,此时可以采用语音识别调控。多模态的融合充分利用了人的肢体灵活性以及手势等姿态,也因此弥补了环境复杂的情况下识别准确率不高的情况,体现了人机交互的友好性。

图13 家居适用场景

2.3 实验分析

实验结果表明,当手势识别结果无误的时候,即便语音识别结果模糊,依旧可以通过系统的判断,得出正确结果;反之类似。因此可以实现在一种模态失效的情况下,仍然保持家居设备能正常使用,体现出了多模态信息融合的宗旨,提高了整体系统的鲁棒性。同时,多模态的交互方式可以兼容单模态的存在,若当前只能识别到一种模态,为提高指令准确率,系统会提示二次操作,进行确认。当然,笔者所提出的方法还有很大改进空间,例如,当前手势指令覆盖的范围较小,后期可适当增加设定的手势。此外,目前的语料库与当前使用情景贴合度不够高;后续的实验操作,可考虑自己录制符合使用情景的语料库。此外,模态融合的方法也可以调整为基于模型的神经网络模型等方法。

3 结 论

智能家居的发展得益于技术的成熟,从智能插座、智能门锁等到自动开关衣柜,人机交互的自然程度越来越高。本研究提出并构建了一个多模态的人机自然交互方法,并将其应用于家居生活中空调控制系统构建。用户可以通过本系统,采用手势和语音两种方式来对空调下达指令。利用深度学习技术,把包括语音指令控制、语义理解等的自然语音信号和机器视觉组合到一起,极大提高了智能家居系统中人机交互的自然程度,并且一定程度上增强了用户体验度,缩小人机交互的局限性,提升交互的精确性、顺畅性和自然性。

猜你喜欢
手势指令模态
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
基于 Verilog HDL 的多周期 CPU 设计与实现
《单一形状固定循环指令G90车外圆仿真》教案设计
挑战!神秘手势
关于ARM+FPGA组建PLC高速指令控制器的研究
胜利的手势
MAC指令推动制冷剂行业发展
日版《午夜凶铃》多模态隐喻的认知研究