周红锴
摘 要: 由于孤立词语音自动识别技术具有操作简便,方便日常生活的特点,因此该文设计基于单片机控制的孤立词语音自动识别系统。系统采用型号为SH86270主控单片机接收由SH69P848AM芯片控制的语音识别电路输出结果,通过A/D转换器得到离散数字语音信号,将孤立词语音信号转换为电信号,再经A/D转换器转换为数字信号后输入系统进行预处理。采用动态时间规整算法获取距离最短语音信息,得到孤立词语音识别结果。实验结果表明,该系统具有较好的声学相似性,可有效识别出测试的孤立词语音信号与标准信号的最小距离,识别率和滤除干扰率均很高,识别时间短,识别效果显著。
关键词: 孤立词语音识别; 系统设计; 电路设计; 语音信号获取; 信号转换; 信号预处理
中图分类号: TN876?34; TU855 文献标识码: A 文章编号: 1004?373X(2020)18?0064?03
Abstract: As the isolated?word speech recognition technology has the characteristics of easy for operation and convenient for daily life, an isolated?word speech recognition system based on SCM (single chip microcomputer) control is designed. In the system, the SH86270 SCM is used to receive the output results of speech recognition circuit controlled by SH69P848AM chip, the discrete digital speech signal is obtained by A/D converter, and the isolated?word speech signal is converted into the electrical signal and then is converted into digital signal by A/D converter for inputting into the system for preprocessing. The speech information with the shortest distance is obtained by means of the dynamic time warping algorithm to gain the results of the isolated?word speech recognition. The experimental results show that the system has better acoustic similarity, can effectively recognize the minimum distance between the tested isolated?word speech signal and the standard signal, has high recognition rate, high interference filtering rate, short recognition time, and remarkable recognition effect.
Keywords: isolatedword speech recognition; system design; circuit design; speech acquisition; signal conversion; signal preprocessing
0 引 言
语音识别功能正慢慢地走进人们的生活[1],语音识别技术中的孤立词语音识别技术已应用到多种领域当中,孤立词语音识别技术在智能建筑、车库开启等方面较为常见,比如密码锁的开启、电视语音换台、图书馆语音搜索图书、手机导航语音查找等[2],这些功能的广泛应用使孤立词语音识别技术更加贴近人们的生活,尤其对残疾人或是老年人的生活有很大帮助。但孤立词语音自动识别技术的算法相对繁琐,给研究人员带来了工作难度。因此,该文设计基于单片机控制的孤立词语音自动识别系统。该系统的主控单片机选择Sinowealth公司生产的SH86270型号单片机,同时选择该公司SH69P848AM型号的芯片完成语音识别过程,该芯片内部集成优化过的孤立词语音识别算法,可促进语音自动识别任务的高效完成。
1 孤立词语音自动识别系统设计
1.1 硬件电路设计
主控制器电路和语音识别电路共同构成硬件电路,采用SH86270主控单片机控制SH69P848AM芯片,SH69P848AM芯片控制语音识别电路,同时控制语音识别电路,输出结果也由SH86270主控单片机处理,该单片机利用总线进行监控[3]。
1.1.1 控制器电路
将SH86270主控单片机看成一个控制器,采用精简指令集计算机结构,在该结构内设置256 KB FLASH,SH86270主控单片机由于自身的高性能和低能耗在语音自动识别系统中具有很大的优势,且可将其看成是一种8位微处理器。
1.1.2 SH69P848AM语音识别电路
SH69P848AM芯片集成语音识别处理器、滤波电路、A/D转换器、声音输出接口等[4],将SH69P848AM芯片的迷你磁盘设置为高电平,SPIS为低电平,SDI,SDO等都是SPI总线的引脚,中断端口为INTB,发现识别结果与MP3数据不一致后,中断端口会发生中断[5]。此时,主控单片机接收到中断信号后处理该中断信号。
1) 滤波电路
滤波电路负责过滤掉语音输入时存在的噪声,当上截频为3 380 Hz、下截频为58 Hz时,传递到多单片机系统的数据错误率很低,单片机计算的繁杂程度被大幅度降低[6]。为了排除数字信号的干扰,后置滤波通常会通过巴特沃斯滤波电路,实现语音的准确回放[7]。
2) A/D和D/A转换
该系统以ADl674作为A/D转换芯片,D/A转换需要通过选择DA5651A作为电流输出性转换器,并外接一个转换电路,得到模拟电压的输出[8]。SH86270主控单片机存在一个P0口,将该P0口当成D/A转换器的数据传递口,P2.3口会接收到SH86270主控单片机发出的输入寄存选择信号CS,且当P2.3口输出低电平时,向SH86270主控单片机传达模拟转换命令,使该单片机完成模拟转换。
1.2 系统软件设计
1.2.1 孤立词语音识别的基本原理
语音信号被A/D转换器转换为数字信号,看成系统输入[9]。系统对其进行抗混叠滤波、分帧、加窗等预处理,预处理后开始端点检测、特征提取等,完成后开始训练和识别处理。训练过程中某语音单元会被多次重复[10],系统选择多个特征信号,组成标准信息库;语音信息全部录入到系统中,系统将提取的特征信息与标准信息库中的特征信息进行对比,选择最相似的语音信息即为识别结果。
1.2.2 语音识别算法
时间规整和距离测度计算相融合的动态时间规整算法(Dynamic Time Warping)即为DTW算法。标准信息匹配过程中,对弯折斜率存在一定限制,使外部的格點相应的帧匹配距离无需计算[11]。当对格点进行计算时,每一列格点的匹配计算只需要用到前一列的4个网格,对于产生的帧匹配距离矩阵以及累积距离矩阵均无需保留。以上算法可以降低DTW算法的繁杂程度,减少对存储空间的要求,使计算更加高效。当将动态弯折分为三部分时,分别设置为(1,[ma]),([ma]+1,[mb]),([mb]+1,P),式中:
假设[ma]和[mb]的取值均为相近的整数,因此获取Q和P相应长度的限制条件为:
当[ma]和[mb]的取值并不符合以上条件时,则可判定[ma]和[mb]取值的差距较大,动态弯折匹配无法实现。此时,x轴上的语音帧只需与y轴上[ymin,ymax]的语音帧相对比,则ymin和ymax为:
2 实验分析
2.1 孤立词语音识别结果
实验选取含有350个孤立词的小系统词表,采用文中系统对孤立词表进行语音识别,识别前需训练所有待识别的孤立词,设置参加训练人数为15人,未参加训练人数为12人,采用文中系统对孤立词语音信号进行识别。训练孤立词与未训练孤立词的部分语音识别结果如图1所示。
由图1可知,采用本文系统识别经过训练的孤立词语音信号时,识别率均超过95%,未经训练的孤立词语音信号的识别率最高仅为86.58%;采用文中系统识别多人训练的孤立词语音信号时,识别时间最高为0.57 s,但未经训练的信号识别时间最高达到0.78 s。显然,经过训练的孤立词样本不仅识别率高,且识别时间短。因此,该文系统可识别出经过训练的孤立词样本和未经过训练的孤立词样本,但针对于经过训练的孤立词样本,其语音识别效果更好。
在实际的孤立词语音识别过程中,针对未经训练的孤立词样本识别率低且用时多的问题,可通过增大样本数增加识别率,缩短识别时间。
2.2 孤立词识别效果
选取PC机录制的语音信号,且设定采样频率为7 600 kHz,量化存储为7 bit,语音信号为PCM格式且单声道。通常语音信号的平稳帧长为12~32 ms,为了降低计算的繁杂性,文中系统选用的帧长P和帧移Q的语音点分别为256和128。
指定一人读取数字“1~5”,将该语音录制下来,作为测试的孤立词语音信号,采用文中系统识别测试的孤立词语音信号与标准信号间的距离,如表1所示。
表1中,行为测试的孤立词语音信号,列为标准信号。由该表可知,测试的孤立词语音信号中的“1~5”与标准信号中的“1~5”中每一个对应的数字均存在最小距离,而且表格形成对角线方向的距离值最小,由此可知,该文系统具有较好的声学相似性,识别效果更为明显。
以上面的录制数字实验为依据,指定一人发出“开机”“关机”“东方卫视”“中央五套”“音量降低”5个孤立词的发音,将该组发音作为测试的孤立词语音信号,采用文中系统识别测试的孤立词语音信号与标准信号间的距离,如表2所示。
由表2可知,与录制数字孤立词语音识别实验一样,本文系统有效地识别了表格所形成对角线方向的距离值最小。因此文中系统的识别效果明显。
2.3 孤立词识别性能
为了验证文中系统在孤立词识别性能方面的优势,分别采用HMM非特定人孤立词语音识别系统、基于ZCPA和DHMM的孤立词语音识别系统,以及文中系统对上文实验中的5个孤立词的发音进行识别,比较3个系统的识别性能,如表3所示。
由表3可知,采用HMM非特定人孤立词语音识别系统、基于ZCPA和DHMM的孤立词语音识别系统以及文中系统识别实验中的5个孤立词时,文中系统无论在识别率、识别时间,还是滤除干扰率方面都表现出了良好的优势。
3 结 论
孤立词语音自动识别技术不仅使日常活动更为便捷,而且使生活设备更加现代化。该文系统通过单机片控制整个孤立词语音自动识别系统,结合语音信号预处理、端点检测、特征提取等技术,完成孤立词语音自动识别过程。结果表明,文中系统无论在孤立词的语音识别率、识别时间,还是滤除干扰率方面效果明显,因此文中设计系统具有广阔的发展前景。
参考文献
[1] 侯一民,李永平.基于卷积神经网络的孤立词语音识别[J].计算机工程与设计,2019,40(6):1751?1756.
[2] 许良凤,刘泳海,胡敏,等.语谱图改进完全局部二值模式的语音情感识别[J].电子测量与仪器学报,2018,32(5):25?32.
[3] 李璨,王让定,严迪群.基于卷积神经网络的翻录语音检测算法[J].计算机应用,2018,38(1):79?83.
[4] 李云红,梁思程,贾凯莉,等.一种改进的DNN?HMM的语音识别方法[J].应用声学,2019,38(3):371?377.
[5] 姜芃旭,傅洪亮,陶华伟,等.一种基于卷积神经网络特征表征的语音情感识别方法[J].电子器件,2019,42(4):998?1001.
[6] 刘明珠,李晓琴,陈洪恒.基于支持向量机的语音情感识别算法研究[J].哈尔滨理工大学学报,2019,24(4):118?126.
[7] 韩燕燕,程卫军.基于北斗系统的语音通信终端设计与实现[J].电视技术,2017,41(z4):167?171.
[8] 陈哲怀,郑文露,游永彬,等.標签同步解码算法及其在语音识别中的应用[J].计算机学报,2019,42(7):1511?1523.
[9] 张晓冰,杨启亮,邢建春,等.面向软件模糊自适应的语音式任务目标识别与结构化转换[J].计算机工程,2018,44(4):59?65.
[10] 潘玮,汪静莹,刘天俐,等.基于语音的抑郁症识别[J].科学通报,2018,63(20):2081?2092.
[11] 艾斯卡尔·肉孜,王东,李蓝天,等.说话人识别中的分数域语速归一化[J].清华大学学报(自然科学版),2018,58(4):337?341.