能量比检测与连续学习速率结合的改进双话处理算法

2012-03-18 08:10崔慧娟
电讯技术 2012年8期
关键词:频域延时远端

黄 瑛,唐 昆,崔慧娟

(清华大学 电子工程系 清华信息科学与技术国家实验室, 北京100084)

1 引 言

声回声抵消中一个重要的问题是回声路径较长,且易受近端语音的干扰。回声抵消多以自适应滤波器来模拟真实回声路径,通过残差信号来自适应调整滤波器的系数[1]。当近端存在语音时,将引起滤波器的发散。双话处理一直是回声抵消中的一个重要问题。Geigel 算法基于能量进行检测,该算法简单,但是随着路径的改变或者未知情况下,性能变差;H.Ye[2]提出了正交方法,该方法利用自适应滤波器在收敛状况下残差信号与远端输入信号正交的特点来检测滤波器收敛状况而不是检测双话,此算法运算量大,且固定门限的判决容易造成双话与路径变化之间的误判;Jacob Benesty[3-4]等利用参考信号与远端信号或残差信号的互相关系数。算法缺点是同样需要固定的门限,且需要进行矩阵运算,在回声路径较长的情况下更不利于实时实现。针对大多数回声抵消双话检测算法需要显式检测门限,误判或者漏判会导致收敛速度下降或者双话过程中滤波器发散的问题,本文基于多延时块频域自适应回声抵消器研究了一种可变学习速率算法,该算法不显示检测回声,而是采用一种可变的连续学习速率的调整方法。将速率建模成残留回声与输出信号能量的比重。由于输出信号残留回声能量的估计值比较困难,将残留回声建模成为一种难以估计的变化缓慢的泄露因子和一种容易估计快速的回声副本的能量。原有算法采用线性回归系数估计泄露因子,然而,随着近端语音能量增加,估计偏差增大,导致双话性能下降。本文引入了一种基于近端语音和远端语音能量比修正泄露因子的方法,即能量比显式检测与连续学习速率相结合。实验证明,本文算法改进了原算法的缺陷,双话跟踪效果更好,发散减小。

2 回声抵消的原理与多延时块频域(MDF)算法

回声主要分为两种:一是在电话网络中,由于用户端与交换局之间二、四线转换时阻抗不匹配产生的线路回声,也称电回声;二是伴随着免提电话,由于麦克风与扬声器之间的耦合产生的声回声。图1为声回声产生的原理框图。

图1 声回声产生原理图Fig.1 Diagram of acoustic echo production

为了避免回声的存在引起语音质量的下降,如何处理回声十分重要。通常通过自适应滤波器来模拟实际的回声路径,然后从回声信号中减去模拟的回声从而达到消除回声的目的。自适应滤波算法分为时域算法和频域算法两种[1]。在处理延时较长的声回声信号时,对滤波器阶数要求较高,为节省运算保证实时实现,通常采用频域自适应滤波算法。Soo J.-S.[5]提出了一种多延时块的频域自适应滤波算法,通过将滤波器分成多个延时块,该算法比整块频域滤波的FLMS 算法收敛速度更快,延时更小。计算线性卷积和相关通常采用重叠保留法和重叠相加法。以重叠保留50%为例,设N 是权值总数, M 是延迟块数,每块大小N/M ,每次输入一个延时块即N/M 个数据样点,并保留前一块的输入值,做FFT运算转换到频域,N′=2N/M 是FFT 算法的大小:

式中,j 是块标号。每帧只需要进行一次FFT 运算,通过块标号的移位保留前面M-1 个延时块的FFT[5]:

W(m ,j)为第m 个延时块的权值向量,即用来模拟回声路径滤波器的系数向量,频域乘积进行滤波得到估计的回声副本[5]为

将真实语音中去除回声副本所得残留回声的误差向量变换到频域,用来更新频域滤波器的系数[5]:

d(j)是远端信号经过实际回声路径后产生的回声,即期望向量,频域滤波器系数更新是基于最小均方误差准则,使得E(E(j)2)最小[5]:

3 MDF 的最优可变学习速率的形式

为避免近端语音或者噪声引起的滤波器发散,Jean-Marc Valin[6]提出了一种动态调整学习速率的算法,通过最小化系数的误调程度,求解得到最优学习速率表示为残留回声能量占输出信号能量的比重:

将该速率用于MDF 算法,得到第l 延时块的频点k处学习速率[6]为

残留回声的能量估计表示成了一个缓慢变化但是难以估计的量 η(l)和一个快速变化但是容易估计的

其中, η(l)是泄露因子, 近似回声返回增强损失ELRE 的倒数。为了使得学习速率对于双话情形能够给出快速的响应,通常采用瞬时估计

由于残留回声与回声副本相关度较高,而近端语音与回声副本不相关,因此以回声副本和输出信号的功率谱的线性回归来估计泄露因子[6]:

泄露因子可以表示成PY(k , l)、PE(k , l)的线性回归系数[6]:

相关值可以通过下列递归运算得到[6]:

其中:

β0是泄露系数的学习速率, σ2y(l)、 σ2e(l)分别是回声副本与输出信号的方差。β(l)可以防止估计值在没有回声的时候被调整。

4 改进的泄露因子估计算法

上文将残留回声建模成一个缓慢变化但是难以估计的量 η(l)和一个快速变化但是容易估计 σ2y(k , l)。假设的前提是近端语音与回声副本之间是独立的,而残留回声与回声副本能量之间却是高度相关的。因此在双话情况下,泄露因子 η(l)较小,学习速率较低,从而有效避免双话下的滤波器发散。然而在实际语音测试中我们发现,随着近端语音的增加,上述方法并不能精准地估计泄露因子。本文将一段语音经过回声路径以后,在回声中1 900~2 900帧(160 样点/帧)的范围,加入近端语音。近端语音与远端能量比分别为6 dB、0 dB、-3 dB、-6 dB。从图2 中可以看出,随着近端语音能量的增加,泄露因子越来越大,导致学习速率也随之提高,失调增大。如图3 所示,在近端语音比较高的时候,意味着残留回声随之增大,回声抵消性能下降。

图2 在不同近远端能量比下原算法的泄露因子Fig.2 Leakage of original algorithm with different near to far end energy ratio

图3 近远端能量比6 dB 情况下,回声抵消后残留回声输出图Fig.3 Residual echo with near to far end energy ratio at 6 dB

因此,在本文中,我们采用近端与远端信号短时能量比修正泄露因子,从而调整连续学习速率。首先估计近端语音和远端语音的本帧能量:

通过一阶平滑估计短时平均能量如下式,其中平滑因子λ∈(0,1):

利用两个短时平均能量修正泄露因子如下,当近端语音能量小于远端语音能量,采用原来的线性回归,当近端语音能量大于远端语音能量,利用两者的能量比以及修正因子α相结合,进行修正:

式中, α为修正因子, α∈(0,1)。该改进实际上是一种原可变学习速率与短时能量比显式检测的结合。当近端语音短时能量高于远端信号时,判决为近端语音存在,利用能量比与自适应因子衰减原学习速率,从而减小滤波器的发散。

5 测试结果

测试条件:本文基于800 阶160 延时块的MDF算法,采用本文修正的泄露因子估计法。回声路径采取G.168 中的mode1,冲激响应和频响特性如图4和图5 所示。通过引入延时使得延时约为70 ms。采用8 kHz采样、16 bit量化的标准语音库语音材料。在回声中加入近端语音,近端语音/远端语音能量比分别为6 dB、0 dB、-3 dB、-6 dB。

图4 回声路径的冲激响应Fig.4 Impu lse response of echo path

图5 回声路径的频响特性Fig.5 Frequency response of echo path

双话性能可以通过多种指标的测试结果来反映[7-8],本文主要从以下三方面对算法性能进行测试。

(1)泄露因子与残留回声波形

图6 是在不同近远端能量比下改进算法的泄露因子,图7 是6 dB 近远端能量比下改进前后残留回声比较。

图6 在不同近远端能量比下改进算法的泄露因子Fig.6 Leakage of proposed algorithm with different near to far end energy ratio

图7 6 dB 近远端能量比下, 改进前后残留回声比较Fig.7 Comparison of residual echo with near to far end energy ratio at 6dB

由图6 和图7 可知,采用改进的算法,泄露因子并不随着近端语音能量的增加而增加,只有少许偏差。在近端语音能量较高(如近/远端能量比6 dB)的双话情况下,残留回声的幅度相比原算法大大衰减。

(2)回声返回损失增加度(ERLE)

ERLE 表征经过回声抵消处理以后残留回声相对于原来回声衰减的分贝值。该数值越大,表明回声衰减程度越大。该参数的表达式如下:

实际测试中,将上式中语音能量的期望值采用短时绝对能量代替,以计算每0.01 ms时间长度的语音段的能量为例,对于8 kHz采样的语音来说,即连续80 个样点的能量比,具体计算公式如下:

表1 是不同近远端能量比下ERLE 的比较。

表1 不同近远端能量比下ERLE 比较Table 1 Comparison of ERLE with different near to far end energy ratio

从表1 可以看出,采用本文算法残留回声返回损失增强度有较大提高,其中近端语音与远端语音能量比6 dB和3 dB情况下,提高11 dB和5.8 dB。随着近端语音能量越高,改进效果越明显。

(3)平均意见得分

对双话情况下近端语音的主观听觉质量进行了测试,用以区分不同双话检测算法下近端语音的失真度量。采用ITU 标准P.862 软件测试平均意见得分(Mean Opinion Score,MOS),该软件通常用于语音编解码系统或者降噪系统的语音质量性能评估,在本文的实验中能够反映残留回声的能量大小。

表2 是不同近远端能量比下MOS 分比较。

表2 不同近远端能量比下MOS 分比较Table 2 Comparison of MOS with different near to far end energy ratio

从表2 可以看出,采用本文算法双话情况下近端语音MOS 分有较大提高,其中近端语音与远端语音能量比6 dB和3 dB情况下,提高0.449 和0.235。随着近端语音能量越高,改进效果越明显。

6 结束语

本文基于多延时块频域自适应回声抵消算法,采用改进的短时能量比显示检测与连续可变学习速率结合的方法来处理双话,解决了原可变速率中由于残留回声估计的泄露因子随着近端语音能量的增加偏差增大,引起残留回声增加的问题。实验证明,该算法能较大程度上修正原算法的问题,提高双话情况下的ERLE 和近端语音的MOS 分。在近远端能量比-6 ~6 dB范围内,两者分别提高0 ~11 dB和0.02 ~0.45 分。因此,在声回声抵消过程中,固定门限双话与连续可调学习速率两者结合起来,可以使得双话性能更好。

[1] Haykin S.自适应滤波器原理[M] .4 版.郑宝玉, 译.北京:电子工业出版社, 2006.

Haykin S.Adaptive Filter Theory[M] .4th ed.Translated by ZHENG Bao-yu.Beijing:Publishing House of Electronics Industry, 2006.(in Chinese)

[2] Ye H, Wu B X.A new doub le-talk detection algorithm based on the orthogonality theorem [ J] .IEEE Transactions on Communications, 1991, 39(11):1542-1545.

[3] Benesty J, Morgan D R, Cho J H.A new class of doubletalk detectors based on cross-correlation[ J] .IEEE Transactions on Speech and Audio Processing, 2000, 8(2):168-172.

[4] lqbal M A, Stokes J W, Grant S L.Normalized Double-Talk Detection Based on Microphone and AEC Error Cross-Correlation[C]//Proceedings of 2007 IEEE International Conference on Multimedia and Expo.Beijing:IEEE,2007:360-363.

[5] Soo J S, Pang K.Multidelay block frequency domain adap tive filter[ J] .IEEE Transactions on Acoustics, Speech and Signal Processing, 1990, 38(2):373-376.

[6] Valin Jean-Marc.On Ad justing the Learning Rate in Frequency Domain Echo Cancellation With Double-Talk [ J] .IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(3):1030-1034.

[ 7] Cho J H, Morgan D R, Benesty J.An objective technique for evaluating doubletalk detectors in acoustic echo cancellers[ J] .IEEE Transactions on Speech and Audio Processing,1999, 7(2):718-724.

[8] Ahgren P, Jakobsson A.A study of doub le-talk detection performance in the presence of acoustic echo path changes[ C]//Proceedings of 2005 Internatinal Conference on Acoustics, Speech and Signal Processing.Vienna, Austria:IEEE,2005:141-144.

猜你喜欢
频域延时远端
大型起重船在规则波中的频域响应分析
内侧楔骨远端倾斜与拇外翻关系的相关性
基于级联步进延时的顺序等效采样方法及实现
日光灯断电关闭及自动延时开关设计
频域稀疏毫米波人体安检成像处理和快速成像稀疏阵列设计
H形吻合在腹腔镜下远端胃癌根治术中的应用
基于改进Radon-Wigner变换的目标和拖曳式诱饵频域分离
Two-dimensional Eulerian-Lagrangian Modeling of Shocks on an Electronic Package Embedded in a Projectile with Ultra-high Acceleration
基于频域伸缩的改进DFT算法
胃小弯全切术治疗远端胃癌的随机对照研究