基于智能语音的智能家居系统设计

2019-07-25 01:44凌贤鹏李绽蕾刘昊张钐钐俞芸芸

物联网技术 2019年1期

凌贤鹏李绽蕾刘昊张钐钐俞芸芸

摘要：文中设计了一款智能家居系统，主要介绍了语音识别技术的相关基础原理以及流程。详细分析了一段语音信号从采集到预处理，提取特征值后与语音库中的声学模型比对得出识别结果的过程及隐马尔科夫的建模过程、算法流程，最后利用Arduino开发板搭建智能家居系统。

关键词：智能家居;语音识别;Arduino;隐马尔科夫模型;特征提取

中图分类号：TP39文献标识码：A文章编号：2095-1302（2019）01-00-02

0 引言

第一次工业时代后，生活方式大不同前，越来越多的机器设备开始代替手工作业，而在家居行业也出现了类似的机器人帮人们处理家居生活中的简单工作，不仅解放了人们的双手，又节省了大量时间。智能家居的发展与人机交互技术有着密不可分的关联，在长期探索中，语音识别技术脱颖而出。本文详细分析了语音识别过程，并设计了一套基于Arduino平台的智能家居系统实现对家居灯光、环境（温度和湿度）、光线、安防监督的语音化控制。

1 语音识别系统相关理论技术

语音识别的信号处理流程如图1所示。语音识别系统由语音前期预处理、语音信号特征参数提取、参考模型库建模、模式匹配以及语音后处理五个部分组成[1]。语音识别可分为如下四大阶段：

（1）第一个阶段先通过性能优良的语音采集设备采集语音信号，然后進行相关预加重、分帧、加窗、端点检测等预处理操作。

（2）第二阶段是声学模型训练阶段。提取语音库中已知语义的语音信号特征参数，将其作为模板存入参考模型库中。使用训练算法建立声学模型，而声学模型的训练过程也是建模过程，通过训练语音库的特征参数训练声学模型参数[2]，因此要设置合理的模型初始值。

（3）第三阶段是识别阶段，将输入语音的特征参数经过一定的识别算法与训练好的参考模型库中的特征参数进行相似度对比，匹配相似度概率最高的即为输入语音最终识别结果[3]。

（4）第四阶段是语音后处理阶段，确定当前哪个词语可以跟随上一个已经识别的词，排除不可能的单词，将最佳匹配结果语音信号进行语言建模，匹配出文本语义。

2 语音信号的时域处理

在对语音信号分析前，要先对语音信号进行预处理，包括端点检测、预加重、加窗和分帧等技术[4]。

预加重采用一个6 dB/倍频的一阶高通数字滤波器实现，其传递函数为H（z）=1-μz-1，加窗可以让一帧信号的幅度在两端平滑的衰减渐变到零，以避免短时语音段边缘的影响。但由于加窗削弱了语音边缘的信号，为了使相邻帧连续不中断，一般采用重叠分帧方法[5]。

端点检测技术的目的是检测出有效语音信号的起始点和终止点[6]，从而减少需要处理的数据量和运算量，同时还能降低噪声对语音识别系统的影响，一般采用双门限端点检测法。

3 语音信号的特征提取

语音信号提取的特征值应该准确、完全地包含语音信号的全部信息。同时提取能有效反映语音特性、减少语音信号中与识别无关的信息，减少识别数据量。本文分析了语音信号的三种特征参数，即线性预测系数（LPC）、线性预测倒谱系数（LPCC）、梅尔频率倒谱系数（MFCC）[7]。

3.1 线性预测系数（LPC）

线性预测的原理：语音信号S（n）的值可由过去若干时刻的采样值或其线性组合来逼近[8]。在逼近过程中，逼近值与原始值之间的差值称为预测误差，当预测误差达到最小时，即预测效果最接近，也是模型建立最完美的值。可以推得，线性预测系数ai的值达到了收敛。线性预测方法得到的参数可以很好地反映语音信号的频谱幅度。

3.2 线性预测倒谱系数（LPCC）

LPCC可以将语音模型中的声门激励信号与声道冲激响应信号进行分离，计算量小，实现相对简单，提高了特征参数的稳定性[9]。该值是对语音信号进行FFT后再取对数，求IFFT后得到的。

3.3 梅尔频率倒谱系数（MFCC）

Mel频率倒谱系数（MFCC）充分考虑了人耳听觉的感知特性后进行语音信号处理。MFCC具有更好的识别性能[10]，语音信号中的能量主要集中在低频部分，对人耳的听觉特性模拟地更好，而人耳对低频分量也更敏感。语音信号低频部分的一个参数淡化了易受环境噪声干扰的高频部分，提高了语音识别系统的抗噪声能力。

4 隐马尔科夫模型HMM

隐马尔科夫过程是一个双重随机过程：其一用于描述每帧语音信号的统计特性（可直接观测到）;其二用于描述每帧语音信号如何转变到写一个语音帧信号（隐含在观察序列中）。隐马尔可夫模型就像一个黑箱子，内部状态外部不可见，外界只能看到各个时刻的输出值[11]。可观测部分是人的语音，而隐含部分则是人组织语言的大脑激励信号。隐马尔可夫模型可用λ=（π，A，B）表示[12]。

本文详细分析了HMM模型三个基本问题的解决算法。假设已知可观察状态值序列O=（O1，O2，…，OT）（T是语音信号的帧数）和马尔科夫模型参数λ=（π，A，B），计算可观察序列的概率P（O|λ）时一般使用向前-向后算法[13]。

已知可观察状态值序列O=（O1，O2，…，OT）和模型λ=（π，A，B），计算最有可能生成该可观察序列的隐含状态序列，通常使用Viterbi算法[14]。

在已知可观察状态的序列O=（O1，O2，…，OT）的前提下，确定HMM的模型参数λ=（π，A，B），使得可观察序列的概率P（O|λ）最大，通常使用Baum-Welch算法[15]。

5 智能家居系统实现

结合Arduino开发平台实现智能家居模块的交互系统，对家居系统整体以及软硬件需求进行分析与总体设计，实现通过语音控制家居设备的目标。该系统具有灯光控制，光线以及温度湿度检测和危险气体警报功能。为了拥有更好的人机交互环境，本文系统还添加了语音播报功能。

调试并连接智能家居的软硬件系统，分别测试智能家居系统的语音识别率，以及相应的语音命令能否实现对应功能。在安静的环境下，系统功能能够全部实现，测试非特定人100次的语音识别率均在90%以上。在有噪声的环境下，系统功能均未实现，测试非特定人100次的语音识别率均在50%以下甚至更低。由实验结果可知，与安静环境对比，噪声环境下的语音识别效果大大降低，且长语音命令的识别率同之前一样低于安静环境下的语音识别率。

6 结语

本文主要对语音识别技术做了大致分析，比较了特征提取线性预测技术、线性预测倒谱系数以及梅尔频率倒谱系数之间的优缺点。详细分析了隐马尔科夫的建模过程以及相应算法，结合Arduino开发平台，对智能家居系统做出简单设计，实现了语音命令“开灯”“关灯”“温度湿度检测”“环境光线检测”等操作，同时还采用危险气体警报对家居安防进行布施。语音播报提供了良好的人机交互环境，通过智能家居各模块功能语音识别测试可知，提高语音识别率不仅需要安静的环境，还需要说标准的普通话。语音识别如何在有较大噪音的环境中进行准确识别是一道难关，也是未来科研人的努力方向。

参考文献

[1]许春冬，张震，战鸽，等.面向语音增强的约束序贯高斯混合模型噪声功率谱估计[J].声学学报，2017，42（5）：633-640.

[2]赵明明.语音识别系统中特征提取和声学建模的研究[D].重庆：重庆师范大学，2012.

[3]张志霞.语音识别中个人特征参数提取研究[D].太原：中北大学，2009.

[4]许春冬，战鸽，应冬文，等.基于隐马尔科夫模型的非监督噪声功率谱估计[J]. 数据采集与处理，2015，30（2）：359-364.

[5]李宝祥.语音关键词检索若干问题的研究[D].北京：北京邮电大学，2013.

[6]刘洋.基于神经网络的语音端点检测方法研究[D].大连：大连理工大学，2010.

[7]郭秋雨.小词汇量非特定人的孤立词语音识别系统研究[D].青岛：中国海洋大学，2010.

[8]张辉.基于线性预测和激励机制的在线语音传输实验系统[D].天津：南开大学，2008.

[9]许春冬，王晶，战鸽，等.基于功率谱包络动态分割的鲁棒语音端点检测[J]. 北京理工大學学报，2015，35（11）：1189-1193.

[10]陈卫东，王晓亚，解静.基于LPCC的多语种识别算法[J].无线电工程，2009，39（9）：16-18.

[11]孙颖华.高阶离散隐马尔科夫模型的严格定义及等价性质[D].镇江：江苏大学，2016.

[12]郭雷勇，李宇，林胜义，等.用于隐马尔科夫模型语音带宽扩展的激励分段扩展方法[J].计算机应用，2017，37（8）：2416-2420.

[13] XU L，KONG A L，LI H，et al.Generalizing I vector estimation for rapid speaker recognition[J].IEEE/ACM transactionson audio speech & language processing，2018，26（4）：749-759.

[14] FAN J L.Forward-backward algorithm[J].Springer international，2016，13（2）：97-116.

[15] VITERBI A J.Error bounds for convolute-onal codes and an asymptotically optim-um decoding algorithm[J].IEEE Trans.informat.theory，1967，13（2）：260-269.