基于谱减法和特征补偿的农产品价格语音识别

2015-12-20 06:56许金普诸叶平
计算机工程与设计 2015年9期
关键词:识别率信噪比均值

许金普,诸叶平

(1.中国农业科学院 农业信息研究所,北京100081;2.青岛农业大学 动漫与传媒学院,山东 青岛266109)

0 引 言

当前农产品价格采集设备一般基于按键式手动操作[1,2],屏幕较小且按键繁琐,容易受到光线强弱、雨雪等恶劣天气等的限制;另外在需要占用双手进行其它劳作时,此类设备难以摆脱双手限制。利用语音识别技术,在传统的采集设备上增加基于语音接口的采集界面,可以有效解决上述问题[3,4]。

当前基于隐马尔科夫模型的语音识别系统,在相对安静环境下的可以达到较好的识别效果,但在噪声环境下识别结果会急剧下降[5-7]。在特征空间寻找稳健的语音特征是常用的抗噪声方法,倒谱均值归一化 (CMN)和倒谱方差归一化 (CVN)是比较经典的算法。CMN 通过将训练数据和测试数据中特性序列的倒谱均值减去,可以有效消除卷积噪声带来的影响,同时对加性噪声也有一定效果[8]。CVN 是对方差进行归一化,通常和CMN 同时使用,称为倒谱均值方差归一化 (CMVN),可以近似消除加性噪声带来的影响。当噪声不是很强时,特征规整方法能有效提高系统的识别率;当信噪比较低时,该方法对系统的识别率提高并不明显。因此有必要在前端预先进行语音增强处理。在信号空间进行语音增强,也称去噪,可以消除带噪语音中大部分的噪声,提高输入语音的信噪比,但语音增强会造成频谱失真和噪声残留,直接用于语音识别会造成训练数据与测试数据之间新的失配,因此也需要联合CMN 和CVN 进行补偿。

本文针对农产品价格采集环境的噪声情况,提出一种联合谱减算法和特征补偿的抗噪声方法[9],首先用谱减算法对带噪语音信号进行去噪处理,提高语音信号的信噪比,然后采用CMVN 方法对去噪带来的频谱失真和残留噪声进行一定的补偿,利用两种方法的结合可以提高系统的识别性能[10]。本文考虑到不同农产品价格采集作业场景,主要包括大型农产品批发市场、社区农贸市场、超市等。

1 算法原理

1.1 基本谱减算法 (SS)

谱减法基于一个简单的原理:假设噪声为加性噪声,通过从带噪语音谱中减去对噪声谱的估计,就可以得到纯净的信号谱。在不存在语音信号的期间,可以对噪声谱进行估计和更新。做出这种假设的前提是假设噪声是平稳的,或者是一种慢变的过程,这样噪声的频谱在每次更新之间不会有大的变化[11]。纯净语音信号的估计为

为了防止减法后出现负值,采用减去噪声谱的过估计,同时设置谱下限,目的是防止计算结果小于该值。其公式为

其中,α(α≥1)为过减因子,β(0<β<1)是谱下限参数。

1.2 多带 (multi band)谱减算法

一般来讲,噪声不会对语音的整个频谱都产生同等的影响,有些频率上的影响会比别的频率严重或减轻,这取决与噪声的频谱特性。语音频谱被划分为N 个互不重叠的子带,谱减法在每个子带独立进行。第i个子带的纯净语音信号谱的估计如下式[12]

式中:ωk=2πk/N(k =0,1,...,N-1)是 离 散 频 率,|(ωk)|2——噪声功率谱的估计 (在无语音段估计和更新),bi和ei——第i个频带上的起点和终点,αi——第i个子带的过减因子,δi——子带减法因子,可根据子带独立设置以满足对不同的噪声进行不同程度的抑制。(ωk)|——在预处理过程中经过平滑的第i个频带带噪语音谱。

减法过程产生的负值按带噪信号谱取下限

式中:谱下限参数β为一常数,子带过减因子αi是第i 个频率子带的SNR 的函数。

1.3 倒谱均值方差归一化 (CMVN)

CMN 是简单但非常有效的抗噪声算法,主要消除信道的卷积噪声。信道的噪声一般是卷积噪声,这种卷积噪声对应到倒谱域变成简单的相加[13]。倒谱均值归一化(CMN)定义为

式中:ot——含噪语音的倒谱,μ——倒谱均值,珔o——归一化后的倒谱。同时,CMN 方法对加性噪声也很有效,因为加性噪声的倒谱偏差也能被部分减去。由CMN 方法进一步扩展,对均值和方差两方面都进行特征规整,即倒谱均值方差归一化CMVN。其定义为

2 实验与分析

2.1 实验数据

本实验采用的数据集为自己录制的142种鲜活农产品价格信息短语,其形式为 “名称+价格”,如, “白菜五毛”,“猪肉十一块六”,“鲜虾二十三”,价格短语根据语法随机生成,并考虑了农产品价格的语言习惯和构词方式。数据集分为训练集和测试集两部分,且测试集中的说话人不包含在训练集中。录音采用近似标准的普通话,训练集选择北京市的2处农贸市场采集,每处20人,其中男性10人,女性10人,共计40人,且南方口音和北方口音的人选是随机的,忽略口音差别。每人朗读142 个农产品名称和随机生成的50个价格短语,共计7680 句话。测试集录制了3男3女每人50句话,共计300句,采用手机在相对安静的环境下录制作为纯净语音,然后再加入农产品价格采集环境下的噪声。本文选择的测试集说话人分布情况见表1。

表1 测试集说话人分布情况

噪声环境为大型农产品批发市场 (wholesale market)、社区农贸市场、超市 (生鲜果品区);最终得到信噪比分别为-5dB,0dB,5dB,10dB,15dB,20dB,25dB的带噪语音,每种不同信噪比的测试语音300 句,共计2100句。语音信号为单声道,16KHz采样,16bits。录音文件用Adobe Audition进行人工准确切分并标注。

2.2 参数配置

HMM 模型以上下文相关的三音子为建模单元,共建立声学模型426 个。采用5 状态自左向右的无跳转结构,其中第一个状态和最后一个状态为无输出状态,中间的3个状态为混合高斯概率密度分布表示的输出。另外增加了静音模型 “sil”和中间停顿模型 “sp”,二者的中间状态进行了绑定。提取的特征参数是39 维的MFCC 特征,包括13维的静态特征以及它们的一阶差分ΔMFCC 和二阶差分系数ΔΔMFCC。帧长取25.0ms,帧移为10.0ms。谱减法采用了基本谱减算法 (SS)以及多带谱减算法 (MB),CMVN 选择每句话为归一化单元。

3 结果分析

本实验首先建立基线系统并进行测试,然后分别单独使用CMVN 方法、基本谱减法 (SS)、多带谱减法 (MB)进行测试,最后谱减算法联合CMVN 进行测试。联合方法流程如图1所示。

图1 联合谱减算法与特征补偿的方法框架

图2为在大型农产品批发市场环境下各种谱减算法及其联合CMVN 后的词识别精准度曲线,表2为对应的详细数据。从图2可以看出,本文所采用的两种谱减算法 (SS,MBSS)在总体性能上都比基线系统有了较大程度的提高,特别是在较低信噪比 (0dB-10dB)的情况下识别精准度提高程度较大,如在SNR=0dB情况下,SS、MB 分别比基线系统提高了14.68%和9.74%,在SNR=5dB时,分别提高了24.66%,17.43%提升优势较为明显。但在较高信噪比 (大于15dB)优势不如低信噪比时明显,甚至在用纯净语音进行测试时 (图中30dB 实际代表录制的纯净语音clean),甚至出现性能下降的情况,原因是对纯净语音信号进行了谱减算法,相减后的语音信号比之前损失了部分语音信息。在信噪比过低情况下 (小于-5dB),各种算法均表现出较差的性能,这也是当前语音识别的瓶颈。一般来讲,实际农产品信息采集的工作环境处于极低和较高信噪比都是不现实的,往往其信噪比在0dB-20dB的范围,因此在特征提取前端采用去噪算法,可以有效地提升识别率。

图2 大型批发市场环境下的不同算法识别率曲线

当各种谱减算法联合CMVN 方法后,从图2可以看出其识别性能得到进一步的提升。总体上来看,联合后的识别精准度曲线位于所有曲线的最上端。首先看在低信噪比(0dB-10dB)的情况,联合补偿后的方法SS+CMVN、MBSS+CMVN 分别比单独使用去噪算法前识别率提升程度较大。当SNR=0dB时,分别提高了4.87%和8.75%,当SNR=5dB时,其提高程度分别2.81%和7.38%。而随着信噪比的增加,当SNR=10dB时,提高程度不再显著,从图上可以看出,此时曲线相对比较集中,性能优势不再明显。同样的情况也出现在信噪比太低的情况,如-5dB,即时联合失真补偿后其性能也没有得到明显提升。从图2还可以看出,从0dB到15dB联合后的抗噪算法其相对于基线系统的等效增益大约在5dB。

表2 大型农产品批发市场环境下的识别率/%

本文还在社区农贸市场噪声以及超市环境下的对上述算法进行了测试,其识别性能曲线分别如图3和图4所示。从图中可以看出,联合CMVN 后的各种谱减算法其性能占据一定的优势,特别是在低信噪比这种优势更为明显,均优于各种谱减算法单独使用时的性能。当信噪比较高时,联合前与联合后的算法性能差别不大。

图3 社区农贸市场环境下不同算法的识别率曲线

图4 超市环境下不同算法的识别率曲线

4 结束语

本文针对农产品价格采集设备缺少语音接口的情况,针对农产品价格采集的特殊工作环境,提出一种联合谱减算法和特征补偿的鲁棒性抗噪声算法,联合后的算法利用各自的特点互为补充,比现有的通用语音识别鲁棒性算法更适合于本业务环境。在农产品批发市场、社区农贸市场、超市等环境下的实验表明,该算法可以有效提高系统的识别率,特别是在较低信噪比(0dB-10dB)情况下非常有效。

[1]ZHAO Chunjiang,SHEN Changjun,XING Zhen,et al.Device and method for collecting agricultural product information[P].China:CN102122430A,2011-07-13 (in Chinese). [赵春江,申长军,邢振,等.农产品信息采集器及采集方法[P].中国:CN102122430A,2011-07-13.]

[2]XING Zhen,ZHENG Wengang,SHEN Changjun,et al.Device for colleceting agricultural product information [P].China:CN202035021U,2011-11-09 (in Chinese). [邢振,郑文刚,申 长 军, 等. 农 产 品 信 息 采 集 器 [P]. 中 国:CN202035021U,2011-11-09.]

[3]ZHAO JF,ZHU YP.A multi-confidence feature combination rejection method for robust speech recognition [C]//Proceedings International Conference on Transportation,Mechanical,and Electrical Engineering,2011:2556-2559.

[4]ZHAO JF,ZHU YP.Embedded speech recognition based on multiclass support vector machine[J].Key Engineering Materials,2011,467:1905-1910.

[5]NI Chongjia,LIU Wenju,XU Bo.Reseach on large vocabulary continuous speech recognition for mardrin Chinese [J].Journal of Chinese Information Processing,2009,23 (1):112-123 (in Chinese).[倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展 [J].中文信息学报,2009,23(1):112-123.]

[6]Anusuya MA,Katti SK.Front end analysis of speech recognition:A review [J].International Journal of Speech Technology,2011,14 (2):99-145.

[7]LEI Jianjun,YANG Zhen,LIU Gang,et al.Review of noise robust speech recogniton [J].Application of Computer Research,2009,26 (4):1210-1216 (in Chinese). [雷建军,杨震,刘刚,等.噪声鲁棒语音识别研究综述 [J].计算机应用研究,2009,26 (4):1210-1216.]

[8]Kai T,Suzuki M,Chijiiwa K,et al.Combination of SPLICE and feature normalization for noise robust speech recognition[C]//International workshop on Nonlinear Circuits,Communications and Signal Processing,2012.

[9]Loizou PC,Kim G.Reasons why current speech-enhancement algorithms do not improve speech intelligibility and suggested solutions[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19 (1):47-56.

[10]Nidhyananthan SS,Kumarir RSS,Prakash AA.A review on speech enhancement algorithms and why to combine with environment classification [J].International Journal of Modern Physics C,2014,25 (10).

[11]LEI Jianjun,YANG Zhen,LIU Gang,et al.Research on speech enhancement based on short-time spectrum estimation [J].Computer Engineering and Applications,2008,44 (32):6-9 (in Chinese).[雷建军,杨震,刘刚,等.基于短时谱估计的语音增强研究[J].计算机工程与应用,2008,44 (32):6-9.]

[12]Loizou PC,GAO Yi,XIAO Li,et al.Speech enhancement:Theory and practice[M].Chengdu:University of Electronic Science and Technology Press,2012:94-96 (in Chinese).[Loizou PC,高毅,肖莉,等.语音增强:理论与实践 [M].成都:电子科技大学出版社,2012:94-96.]

[13]LI Yinguo,PU Fu’an,ZHENG Fang.Statistical threshholding in robust ASR [J].Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition),2012,24 (2):127-132 (in Chinese).[李银国,蒲甫安,郑方.基于统计阈值的鲁棒性语音识别 (英文)[J].重庆邮电大学学报 (自然科学版),2012,24 (2):127-132.]

[14]PU Fu’an.Research on noise robust speech recognition [D].Chongqing:Chongqing University of Posts and Telecommunications,2012 (in Chinese).[蒲甫安.语音识别系统噪声鲁棒性算法研究 [D].重庆:重庆邮电大学,2012.]

猜你喜欢
识别率信噪比均值
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
基于类图像处理与向量化的大数据脚本攻击智能检测
基于深度学习的无人机数据链信噪比估计算法
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
高速公路机电日常维护中车牌识别率分析系统的应用
均值与方差在生活中的应用
保持信噪比的相位分解反褶积方法研究
关于均值有界变差函数的重要不等式