霍彦明 姜峰 冯怡林 李争
摘 要: 随着科技的发展,以人机交互模型为基础的语音识别系统正逐步融入于人们的生活当中,但是追溯之前的研究,语音识别在降噪处理方面仍存在一些不足。为了设计一种对环境噪声适应性强,能够无偏差地进行智能人机交互的系统,提出一种使用特殊抗噪处理的麦克风和基于波束赋形技术与V290pub语音模块的新型降噪语音识别系统。利用新型数字信号处理IC"BU8332KV?M"的波束赋形技术结合V290pub内置的抗噪声滤波器来实现在语音识别过程中的降噪处理。以STC89C52单片机为主控MCU,针对家电设备的实际需求来完成最终系统设计。实验结果表明,在嘈杂环境下新型降噪语音识别系统对比传统语音识别系统有更高的语音识别精度,且具备拒绝错误识别的功能,适用于存在环境噪声干扰的各种语音系统中。
关键词: 降噪; 语音识别系统; 波束赋形技术; V290pub语音模块; 系统设计; 实验分析
中图分类号: TN912?34 文献标识码: A 文章编号: 1004?373X(2020)10?0046?05
Novel denoising speech recognition system based on beam forming technology and V290pub speech module
HUO Yanming, JIANG Feng, FENG Yilin, LI Zheng
(School of Electrical Engineering, Hebei University of Science and Technology, Shijiazhuang 050018, China)
Abstract: With the development of science and technology, the speech recognition system based on human?computer interaction model is gradually integrated into people′s lives. However, the speech recognition still has some shortcomings in noise reduction processing when looking back at pervious researches. In order to design a system that has strong adaptability to environmental noise and can carry out intelligent human?computer interaction without deviation, a microphone with special anti?noise processing and a novel denoising speech recognition system based on beam forming technology and V290pub speech module are proposed. The beam forming technology of the new digital signal processing IC "BU8332KV?M" is combined with the build?in anti?noise filter of V290pub to realize the reduction processing in the process of speech recognition. The STC89C52 MCU is used as the main control MCU to complete the final system design according to the actual needs of home appliances. The experimental results that the novel denoising speech recognition system has higher speech recognition accuracy than that of the traditional speech recognition system in noisy environment, and has the function of rejecting the error recognition, which is suitable for various speech systems working in environmental noise interference.
Keywords: noise reduction; speech recognition system; beam forming technology; V290pub speech module; system design; experimental analysis
0 引 言
近年來,将语音控制应用于生活的方方面面的研究热度持续升温,运用语音识别技术的设备具有更方便、快捷、灵活的优点[1]。语音交互智能系统不光要有相对稳定的识别性能,在不同的环境中也要能保持良好的工作状态。因此,能否很好地完成噪声环境中语音的正确识别就成为衡量一个语音识别系统质量高低的标准。所以在进行语音识别之前先对语音进行降噪处理就显得尤为重要,能够增强语音识别系统的稳定性并且提高正确识别率[2]。
本文对麦克风进行了特殊的抗噪处理,以数字信号处理IC"BU8332KV?M"作为进行语音识别之前的降噪处理核心芯片,利用两个无指向性的麦克风形成敏锐的指向性,即波束赋形技术来提高语音品质实现清晰语音[3]。选用V290pub语音模块替代常用的LD3320,因为V290pub本身也具备降噪功能,而这一点是LD3320所不具备的,并且在其他识别技术方面V290pub较LD3320也都有所提高。可以说BU8332KV?M与V290pub的结合是处理语音识别环境噪声的双保险。
1 波束赋形技术
波束赋形是一种使用传感器阵列定向发送和接收信号的信号处理技术。波束赋形技术通过调整相位阵列基本单元的参数,使得某些角度的信号获得相长干涉,而另一些角度的信号获得相消干涉,进而提高接收端的信噪比,有效抑制边缘干扰[4]。
本文所涉及的波束赋形技术利用的是由两个麦克风产生的相位差来降低目标方向以外的语音,降低环境噪声,提高目标声源的清晰度。波束赋形技术之所以能形成指向性是因为其将指向轴转向了声源的方向,进而有效降低了环境的噪声。通过优化处理,运行波束赋形功能时延迟时间可以控制在10 ms以内,并且最大限度地减小对其他电路的影响。使用两个无指向性的麦克风形成波束赋形技术的BU8332KV?M的工作原理图如图1所示。
通过实验检测,如图2所示,在环境噪声等级为65 dB SPL的环境下语音识别率从0%提高到了50%;在环境噪声等级为55 dB SPL的环境下语音识别率从10%提高到了90%;当语音识别率已经达到一定的水准之后想要继续提升是很困难的,但应用此芯片后在环境噪声等级为45 dB SPL的环境下语音识别率还能从80%提升到95%。由此可见,其对于噪声条件下的语音识别率提升作用显著。
2 V290pub语音识别模块
传统的语音识别系统为:拼音串+51单片机+LD3320,但这其中存在诸多缺陷,例如识别指令少、识别距离短、没有误识别功能以及特定人识别功能,其中最为严重的缺陷便是抗噪能力差,因此就需要在此传统系统的基础上做出改进,选择V290pub替代LD3320就是重要改进之一。V290pub使用了最新的语音识别芯片技术,内置降噪模块和识别打分模块(用于提供错误拒绝识别功能),V290pub不仅具备离线识别功能,而且还能通过Uart送出语音流,方便上传到云端服务器进行识别,从而实现在线识别,同时降低“误识别”与“误触发”两类错误。
V290pub较LD3320的升级:
1) 内部增加抗噪声滤波器,更灵敏
配合芯片内部的识别灵敏度寄存器和录音增益寄存器,可以在嘈杂现场工作,也可以在安静的环境中提供8 m的有效识别距离。使得原来需要提高音量才能让LD3320芯片有识别效果的情况,在完成芯片替换后说话者只需要以正常的音量就可以完成语音识别[5]。
2) 识别打分功能,防止误触发
V290Pub对每次的识别结果都进行了打分,最高为100分,这个分数可以理解为识别匹配的程度。当识别结果为90分时,说明比识别结果为60分时要发音更准确。用户可以使用这个分数来设定有效值区间,只有识别分数在有效值区间内的识别结果才能作为有效的识别结果,从而有效地避免了误触发。
3) “垃圾词语”吸收噪声
V290Pub支持通过串口修改命令词,方便随时修改识别列表并在识别列表中设计一些“垃圾词语”用来吸收噪声,有效地降低误识别率。“垃圾词语”是指比如某个应用场景中需要识别的关键词语是4条:“向前”“向后”“开门”“关门”。在把这4个关键词语设置好后可以再另外设置一些“垃圾词语”,比如“前门”“后门”“前后”“开关”等。只有识别结果是4个关键词语之内的才被认为识别有效,如果识别结果是“垃圾词语”,则说明是其他声音导致的误识别,识别模块不予响应。
4) 录音功能
V290Pub提供了录音功能,可以在执行VSR进行识别的同时,把现场的声音上传到云端服务器进行辅助识别。
5) 内部循环识别
一次识别初始化設置后V290pub语音模块会不停地进行内部VAD检测,并在声音停顿的地方给出一次识别结果。不需要每次都送入识别列表,以及把寄存器设置的一次最长识别时间的限制设置为无限长。
3 系统设计
3.1 系统硬件设计
系统由硬件和软件两部分构成,硬件部分又可分为语音处理部分与语音识别部分。考虑到系统组件对成本、体积以及集成度的要求,本系统采用的处理单元是STC89C52单片机及其外围电路。整个系统由语音输入模块(麦克风)、语音处理模块、语音识别模块、主控模块(单片机)、语音播报模块(喇叭)、控制模块(继电器)以及电源模块构成[6]。
3.1.1 语音处理部分
此部分主要由BU8332KV?M与V290pub内置的抗噪声滤波器组成,配合特殊化抗噪处理麦克风使用。抗噪麦克风的特殊之处在于其与硬件紧密地连接从而减少回声干扰,麦克风内部的声音采集元件不与硬体部分发生直接接触,而是通过能吸收声音能量的海绵孔将其包裹。BU8332KV?M为了提升语音品质,采用能形成敏锐指向性的波束赋形技术,使两个无指向性的麦克风形成指向性,并且通过噪声抑制功能降低指向轴方向上残留的固定噪声,此方法与只删除噪声的方法不同,可以进一步加强声源。V290pub内置的抗噪声滤波器更为灵敏,包含低通滤波器和二阶的陷波滤波器,低通滤波器主要为了过滤噪声,而采用陷波滤波器在特定的频率成分处增加相位超前来抵消低通滤波器的相位延迟,从而保证系统的稳定性。而且抗噪声滤波器以微小的体积集成在V290pub当中,不会对模块中其他电路产生负面影响。通过两步优化降噪处理,将完成降噪后的语音输入到V290pub的语音识别芯片中。语音处理系统原理框图如图3所示。
3.1.2 语音识别部分
该部分由V290pub、主控MCU及其外围电路组成,主要负责对接收到的语音信号进行识别并输出识别的结果。V290pub兼顾特定人与非特定人语音识别技术,它不需要外接任何辅助的FLASH和RAM,也不需要用户提前进行训练和录音,就能实现语音识别功能。可以根据实际场景需要,随时编辑和更新关键词语的内容,并且其关键词列表是可以动态编辑的。外接的E2PROM里可以放防止误识别的“垃圾词语”内容,用来帮助语音芯片降低错误识别率。同时,V290pub内置的识别打分模块对每次的识别结果都提供了一个分数,也能够有效降低错误识别率[7?8]。图4为语音识别系统原理框图。
3.2 系统电路设计
硬件平台的主控MCU选择的是STC89C52,根据芯片内部的逻辑结构,以及STC89C52的引脚功能,下面给出了STC89C52控制V290pub的电路连接图。图5所示为STC89C52的电路连接图,图6所示为V290pub的电路连接图。
图5、图6中,P0.0~P0.7连接的是V290pub的相关引脚,P3.6和P3.7主要是对V290pub进行读写处理,P1.6连接了E2PROM的串行时钟的输入(SCL),P1.7连接了E2PROM的串行数据的输入和输出(SDA)。LED是通过单片机的P1.5引脚进行控制的,根据改变引脚的高低电平来控制LED的亮灭。当一次识别结束后,引脚输出高电平,灯灭;下次识别结束后引脚输出低电平,灯亮。用这种交替的亮灭过程来提示语音识别过程的结束与否[9]。
根据STC89C52的引脚连接可对应V290pub的引脚连接。在系统的设计中,将“垃圾词语”存储在E2PROM里,图7所示为24C02的电路连接图。
3.3 系统软件设计
本系统的软件采用模块化进行编程,分别由主控制器程序、语音识别程序、语音播报程序等组成。系统启动后,程序初始化,开始循环检测,当检测到相关指令时,执行相关指令所对应的操作。假设外围设备为智能风扇,当使用者说出“打开智能风扇”时,系统控制风扇打开,同时语音播报回复“智能风扇已经打开”[10]。系统软件设计的主要程序流程图如图8所示。
4 实验分析
本文所设计的语音识别系统主要针对的是抗噪处理,为了更好地检测系统抗噪功能的实现和语音指令识别效果,实验采用普通家庭的家中客厅作为实验场地,以客厅的电视大约60 dB的音量播放电视剧为背景,测试过程中选择多个不同音色的人在此环境下分别进行传统语音识别系统与新型降噪语音识别系统的实验。观察非特定人群在兩种系统下的识别效果,每个语音指令测试50次,对每个语音指令的识别成功率进行统计。
表1、表2分别为传统语音识别系统与新型降噪语音识别系统的部分非特定人语音指令识别结果,表中数据表示实验50次的成功次数。
由表1、表2的对比可知,传统语音识别系统的非特定人语音指令正确识别率在37%左右,而本文所设计的新型降噪语音识别系统对于非特定人语音指令的识别准确率接近95%,误识别率减小到了5%左右。从目前的测试情况看,系统性能和功能相对稳定,控制效果较好,具备响应速度快、准确率高、实用性强的优点。
两种不同的语音识别系统下对多条语音指令处理后的波形如图9、图10所示。
5 结 语
将语音识别应用在嘈杂环境中的识别成功率问题一直是语音信号处理领域的研究热点和难点,本文针对现有语音识别系统抗噪能力不足的问题,提出采用特殊抗噪处理的MIC,采用BU8332KV?M信号处理IC结合V290pub语音识别模块实现良好的降噪处理,完成在嘈杂环境中的语音识别并最终达到语音控制终端设备的目的。文中给出了系统各模块的软硬件设计,硬件模块选型合理,程序功能设计完善,系统识别率高,稳定性好,方便集成。测试结果表明,本系统能实现嘈杂环境中的语音识别,识别成功率在95%左右,达到了良好的语音控制效果,可以替代传统的开关及遥控器。因此,拓宽语音识别技术的应用范围对改善人们的生活有着深远的意义。
参考文献
[1] 刘幺和,宋庭新.语音识别与控制应用技术[M].北京:科学出版社,2008.
[2] 王群,曾庆宁,谢先明,等.低信噪比环境下的语音识别方法研究[J].声学技术,2017,36(1):50?56.
[3] 潘丽杰,徐本亮,朱琪,等.基于双麦克风降噪技术的语音识别系统[J].现代电子技术,2016,39(2):137?139.
[4] 王力,何丙发,孙庆锋.一种阵列天线快速波束赋形方法[J].现代雷达,2016,38(8):70?74.
[5] YE Z M, MOHAMADIAN H. Application of modern control theory on performance analysis of generalized notch filters [C]// International Conference on Modern Circuits & Systems Technologies. Thessaloniki: IEEE, 2016: 17?21.
[6] 傅大梅,盛彬.语音识别无线开关控制装置的设计[J].现代电子技术,2017,40(14):33?35.
[7] MITTAL Y, TOSHNIWAL P, SHARMA S, et al. A voice?controlled multi?functional smart home automation system [C]// 2015 Annual IEEE India Conference. New Delh: IEEE, 2016: 31?35.
[8] 付蔚,唐鹏光,李倩.智能家居语音控制系统的设计[J].自动化仪表,2014,35(1):46?50.
[9] 涂朴.基于STC89C52的公交智能报站系统设计[J].现代电子技术,2015,38(9):104?105.
[10] 何侃,田亚清,李强,等.基于LD3320的语音识别智能垃圾桶设计[J].国外电子测量技术,2015,34(6):85?88.