基于改进增益函数的电子耳蜗语音增强

2014-09-29 10:32孙宝印朱俊杰倪赛华顾济华
计算机工程 2014年8期
关键词:耳蜗信噪比增益

孙宝印,周 强,朱俊杰,倪赛华,陶 智,顾济华

(苏州大学物理科学与技术学院,江苏苏州 215006)

1 概述

我国大约有600万完全耳聋患者,其中包括300万聋儿,而且每年还有约3万多新生聋儿,聋人的康复是医学界关注的热点问题。电子耳蜗(Cochlear Implant,CI)是目前唯一能够使完全耳聋者恢复部分听力的医学手段,其主要原理是将声音信号转换成电信号,通过电极刺激聋人的听觉神经纤维,从而产生听觉。语音编码算法是CI的核心技术,目前安静环境下电子耳蜗语句识别率达到80%左右,但在实际噪声环境中,耳蜗使用者的听觉感知能力随着信噪比的降低而急剧下降[1],严重时甚至无法有效地接收到声音信息,通过改进语音编码算法提高噪声环境下的语音识别率对耳蜗患者来说具有重要意义。

对于噪声环境下的单麦克风系统,针对目前常用的编码型算法语音处理器,一种基于语音停顿检测和非线性谱减法的语音增强算法被应用在电子耳蜗中[2];同时另一种电子耳蜗子空间算法被提出[3],把带噪语音信号矢量投影到信号子空间和噪声子空间,通过消除噪声子空间分量并最大程度保留语音信号子空间分量来实现语音增强。以上2种算法都是CI前端预处理算法,语音句子识别率取得很大提高,但预处理算法会引入不必要的失真,而且计算复杂、耗电量大,与现有CI算法不兼容,不易针对单个用户特点对算法进行优化[4]。为此,集成在CI编码算法中的语音增强算法被广泛研究并应用。

在电子耳蜗子频带中,一种基于S型对数压缩函数的去噪算法被提出[5],在连续交替取样(Continuous Interleaved Sampling,CIS)算法基础上采用S型压缩函数抑制语音被掩蔽(噪声为主)的通道,同时最大程度保留语音未被掩蔽(目标语音为主)的通道,该算法的语音识别率取得显著提高。文献[6]提出基于信噪比感知增益函数的电子耳蜗降噪算法,在先进的组合编码(Advanced Combinational Encoding,ACE)算法基础上,先在子通道中进行噪声估计,求出信噪比,再计算与信噪比相关的增益函数,最后用带噪信号乘以增益函数作为输出信号实现去噪,得到了较好的语音增强效果,并具有很好的系统兼容特性,但此方法中增益函数的求取未考虑到人耳的听觉掩蔽效应,这会造成严重的语音失真,而在语音增强系统中,增益函数的选择直接决定着语音增强的效果。

本文运用基于约束方差的噪声功率谱估计法估计噪声,同时计算出更为准确的掩蔽阈值和先验信噪比,并在频带中运用掩蔽阈值和先验信噪比改善增益函数。

2 语音增强系统

2.1 噪声功率谱估计

噪声功率谱估计直接影响先验信噪比估计和人耳掩蔽阈值求取的准确性,进而影响增益函数,决定语音增强的最终效果。本文采用基于约束方差的实时噪声谱估计算法,对平滑参数进行修改,限制了短时平滑功率谱的方差,从而降低了最小值跟踪所造成的估计偏差,然后通过语音活性检测进行噪声功率谱的更新及估计,得出最终的噪声功率谱[7-8]。

设s(i)和n(i)分别表示纯净语音信号和加性噪声信号,且两者相互独立。利用快速傅里叶变换估计得到短时谱,则含噪语音的短时谱可表示为:

其中,S(k,l)和N(k,l)分别为纯净信号和噪声的短时谱;k为频点;l为帧序号。

利用一阶递归公式计算含噪语音平滑功率谱P(k,l),则有:

本文以最小统计噪声估计原理为基础,设计了3个平滑滤波器[9]。第1个平滑了滤波器通过约束平滑后的带噪语音功率谱的方差,使得噪声估计的方差被约束在一定值范围内,既保证了带噪语音功率谱最小值能及时追踪到噪声强度的变化,又提高了最小统计值的准确度;第2个平滑滤波器则根据得到的最小值,对信噪比进行估计,从而实现在低信噪比时平滑得多,而在高能量语音成分中几乎不进行平滑;为了让平滑谱可以快速地回到语音音节间隙的噪声水平,进行了第3次平滑。

其中,平滑系数αN设置为0.8。

2.2 改进的增益函数

人耳听觉掩蔽效应是人的听觉系统的一个重要特性,本文在电子耳蜗语音增强系统中结合听觉掩蔽阈值自适应调整增益函数,使得能量低于噪声掩蔽阈值且不可闻的残余噪声被保留,减少了语音失真。

本文采用与听觉掩蔽阈值与瞬时性噪比相关的感知增益函数,公式推导过程如下:

语音失真ES(k,l)表示为:

残留噪声ER(k,l)表示为:

其中,S(k,l)表示语音信号的频谱;D(k,l)为噪声信号的频谱。

为了推导出增益参数G(k,l),代价函数JP(k,l)根据语音失真和残留噪声的形式表述如下:

其中,每个临界带的拉格朗日乘数μ(k,l)可看作残留噪声的权重因子。联立 JP(k,l),ES(k,l),ER(k,l)3式,可得:

对应于增益函数G(k,l)将JP(k,l)进行偏微分,得到感知增益函数[10],公式表述如下:

连续帧内的随机谱峰值能引起音乐噪声,而在低能量语音区域中控制频谱变化可以有效阻止音乐噪声的产生。本文提出对上述中的感知增益函数进行调整,使其根据连续帧中的信噪比自适应变化,上式的感知增益函数以瞬时信噪比的形式可以改写为:

3 改进的电子耳蜗ACE语音增强算法

ACE编码方案是一种波形编码方案,应用于澳大利亚Nucleus24产品中,集中了传统的谱峰提取(Spectral PEAK,SPEAK)编码方案和CIS编码方案的优点,在保持较高刺激速率的同时提高了信号分解的频率分辨率,从而使得合成语音信号具有更好的音质[11]。首先语音信号经过预处理,提升高频成分,然后利用N最大为22个子带互补的带通滤波器对预加重后的信号进行滤波,分别提取每个通道内的信号包络。根据声音谱的变化选择M(M<N)个能量最大的频带作为刺激信号。每个频带与固定的电极相对应,按照非线性的方法将刺激电流调整到合适的动态范围内,最后用调制时间上交替的双相脉冲序列刺激电极附近的听觉神经纤维,从而诱发听觉。ACE编码算法原理如图1所示。

图1 电子耳蜗ACE算法原理示意图

本文在ACE基础上加以改进,在子频带中对带噪信号进行去噪,即结合帧内的人耳听觉掩蔽特性和帧间的先验信噪比变化值自适应调整增益函数,再采用此增益函数增强被加性噪声损坏的语音信号。为改善先验信噪比的估计,设计了随时频变化的3个平滑滤波器;并用先验信噪比估计调整增益函数,减少了连续帧的频谱变化,减少残留音乐噪声对于语音的影响。此外,人耳听觉掩蔽特性使得能量低于噪声掩蔽阈值且不可闻的残余噪声被保留,从而减少了语音失真,因此,在最大限度去除背景噪声消除的同时降低了语音失真。基于改进增益函数的电子耳蜗ACE语音增强算法原理如图2所示。

图2 基于改进增益函数的电子耳蜗语音增强原理

4 实验结果与分析

在实验仿真中,原始白噪声从标准噪声库Noisex92中选取,干净语音为标准语音库的女生“他去无锡市,我到黑龙江”,将噪声信号和干净语音信号进行混和,信噪比分别为5 dB,0,-5 dB(噪声与语音信号的采样率都是16 kHz,256点分帧,帧移128点),运用Matalab对语音进行仿真,选取10位正常听力者测试句子的字正确率,计算10个人的平均识别率。将本文算法与采用传统谱减法及传统增益函数的ACE算法进行比较,如图3所示。通过观察平均识别率能发现,相比基于基本谱减法的前端预处理算法和采用传统增益函数的电子耳蜗语音增强算法,本文算法的平均识别率分别平均提高53%和22%,特别是在低信噪比条件下提升较大,音乐噪声得到了明显的抑制,输出语音具有更好的清晰度和可辨识度,取得了较好的语音增强效果。

图3 4种算法的平均识别率

语谱图可以显示语音的频谱随时间变化的过程,其中包含了大量与语句特性有关的信息。图4(a)左中右均为原始语音语谱图,图4(b)从左至右为加-5 dB,0,5 dB白噪声语音语谱图,图4(c)从左至右为采用传统谱减法对加-5 dB,0,5 dB白噪声的带噪语音去噪后通过ACE算法的合成语谱图,图4(d)从左至右为采用基于传统增益函数的ACE算法对加-5 dB,0,5 dB白噪声的带噪语音处理后合成语谱图,图4(e)从左至右为对加-5 dB,0,5 dB白噪声的带噪语音采用本文算法得到的合成语谱图。可以看出,相对于其他2种算法,本文算法在各种噪音环境下达到很好的去噪效果,得出的语谱图极大地去除了音乐噪声,保留了更多的语音成分,与原始语音语谱图相似度更大,实现了较好的去噪性能,因而耳蜗使用者能取得更为清晰的听觉效果。

为衡量本文算法语音增强的效果,引入分段信噪比SegSNR和改进型巴克谱失真(Modified Bark Spectral Dis-tortion,MBSD)距离测度2种语音质量客观评价指标。分段信噪比rSegSNR与主观评价相关度较高,定义如下:

其中,M表示语音帧数;L是一帧语音长度;mL表示语音帧的开始点。由上式可知,分段信噪比的值越大说明算法增强的接近度越高,即性能越好。改进型巴克谱失真考虑了人耳对声音的感觉特性以及频域噪声掩蔽效应,它的评价结果与主观评价的拟合度更高。

图4 实验语谱

MBSD 测试值 rMBSD的计算公式为[12]:

其中,N为处理语音的总帧数;Lx(n,i)和Ly(n,i)分别为原始语音和失真语音第n帧信号的第i个临界带的响度值;M(n,i)为掩蔽效应,当第n帧信号的第i个临界带的失真可以被感知时,M(n,i)取1,否则M(n,i)取0。

表1为分别加-5 dB、0及5 dB White噪声情况下,基本谱减法的ACE前端预处理、基于传统增益函数的ACE语音增强以及本文提出的基于改进增益函数的语音增强3种算法处理后语音的客观评价参数值。

表1 不同信噪比情况下语音增强后的客观评价

从表1可以看出,本文算法的SegSNR值最大,说明它与纯净语音的接近度最高;而且本文算法的MBSD谱失真度最小,尤其在低信噪比下,这种优势更为明显,这说明了相比前2种增强算法,本文算法不仅在去除噪声效果上表现最佳,而且能有效地减少语音失真,验证了本文算法的有效性。

5 结束语

本文提出了基于改进增益函数的电子耳蜗语音增强算法,在电子耳蜗ACE算法的子频带中,采用基于约束方差的噪声功率谱估计方法准确估计先验信噪比,并结合人耳听觉掩蔽特性改进决定语音增强效果的增益函数,使得在减少背景噪声和残留噪声的同时降低了语音失真。相比其他电子耳蜗语音增强算法,该算法更适合电子耳蜗的实际工作环境,可有效提取有用语音信号成分,更好地抑制背景噪声,从而提高最终合成语音的清晰度和辨识度,进一步提高电子耳蜗系统的性能。

[1]黄雅婷,陶 智,顾济华,等.基于人耳掩蔽效应的电子耳蜗语音增强方法[J].计算机工程,2008,34(10):280-282.

[2]Yang Liping,Fu Qianjie.Spectral Subtraction-based Speech Enhancement for Cochlear Implant Patients in Background Noise[J].Journal of Acoustic Society of America,2005,117:1001-1004.

[3]Loizou P C,Lobo A,Hu Y.Subspace Algorithms for Noise Reduction in Cochlear Implants[J].Journal of Acoustic Society of America,2005,118:2791-2793.

[4]Loizou P.Speech Processing in Vocoder-centric Cochlear Implants[J].Advance in Oto-Rhino-Laryngology,2006,64:109-143.

[5]Hu Yi,Loizou P C,Li Ning,et al.Use of a Sigmoidalshaped Function for Noise Attenuation in Cochlear Implants[J].Journal of the Acoustical Society of America,2007,122:128-134.

[6]Dawson P W,Mauger S J,Hersbach A A.Clinical Evaluation of Signal-to-Noise Ratio Based Noise Reduction in Nucleus Coch lear-implant Recipients[J].Ear Hear,2011,32(3):382-390.

[7]Derakhshan N,Akbari A,Ayatollahi A.Noise Power Spectrum Estimation Using Constrained Variance Spectral Smoothing and Minima Tracking[J].Speech Communication,2009,51:1098-1113.

[8]周成燕,周 强,顾济华,等.基于约束方差的噪声谱估计算法[J].计算机工程与应用,2012,48(18):127-131.

[9]Martin R.Bias Compensation Methods for Minimum Statistics Noise Power Spectral Density Estimation[J].Signal Processing,2006,86(6):1215-1229.

[10]Hasan M K,Salahuddin S,Khan M R.A Modified a Priori SNR for Speech Enhancement Using Spectral Subtraction Rules[J].IEEE Signal Processing Letters,2004,11(4):450-453.

[11]Waldo N,Andreas B,Thomas L,et al.A Psychoacoustic“N of M”-type Speech Coding Strategy for Cochlear Implants[J].EURASIP Journal on Applied Signal Processing,2005,18:3004-3059.

[12]孙建新,邹 霞,曹铁勇,等.基于加权巴克谱失真的语音质量客观评价算法[J].数据采集与处理,2006,21(3):303-306.

猜你喜欢
耳蜗信噪比增益
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
耳蜗微音器电位临床操作要点
基于增益调度与光滑切换的倾转旋翼机最优控制
基于单片机的程控增益放大器设计
基于深度学习的无人机数据链信噪比估计算法
基于Multisim10和AD603的程控增益放大器仿真研究
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
DR内听道像及多层螺旋CT三维重建对人工耳蜗的效果评估
豚鼠耳蜗Hensen细胞脂滴的性质与分布
保持信噪比的相位分解反褶积方法研究