基于CELP编码的语音帧擦除掩蔽算法

2019-09-10 02:38:44王春柳朱欢
现代信息科技 2019年17期

王春柳 朱欢

摘  要:本文提出一种基于CELP解码端的直线拟合的基音推导方法用于基音估计,该方法在CELP解码端出现语音帧丢失时能够更好地恢复丢失帧中的自适应码书部分,同時,为了保证丢失帧后的正常激励信号与实际激励信号同步,文中采用对声门脉冲进行再同步来提高帧擦除掩蔽后的语音合成质量。将这两种方法在ITU-T G.729编码标准中进行尝试,结果表明,所建议方法能够比原始方案取得更好的恢复效果,对基于CELP模型的语音编码器帧擦除掩蔽都有很好的效果。

关键词:基音估计;帧擦除;帧擦除掩蔽;CELP

中图分类号:TN912.3     文献标识码:A 文章编号:2096-4706(2019)17-0055-04

Abstract:A novel pitch extrapolation based on straight line fitting in the decoder of CELP was proposed in this paper. This method can better recover the adaptive codebook part of the lost frame when the voice frame loss occurs at the CELP decoder. In addition,in order to ensure the synchronization of normal excitation signals and actual excitation signals after missing frames,a glottal pulse resynchronization method is used which improves the quality of speech synthesis after frame erasure concealment. We applied the two technologies to the ITU-T G.729 codec,the results show that the proposed method can achieve better recovery effect than the original scheme,and have good performance for frame erasure concealment of other speech codec based on CELP.

Keywords:pitch estimation;frame erasure;frame erasure concealment;CELP

0  引  言

随着计算机网络和通信技术的蓬勃发展,网络电话VoIP(Voice over Internet Protocol)相对于传统电话的低成本和多功能受到越来越多的关注[1]。然而,编码后的语音帧根据实时传输协议(RTP,Real-Time Transprot Protocol)和用户数据报协议(UDP,User Datagram Protocol)在打包传输的过程中并不能保证传输的可靠性,从而可能导致语音包的丢失。总丢包数可以是由网络拥塞所丢弃的,也可以是由接收方丢弃延迟到达的。当语音包不能按时到达接收端用于解码时,语音的质量就会下降,因此在对语音传输质量的研究主要集中在帧丢失隐藏系统(FLC,Frame Loss Concealment)的设计上。FLC系统的设计可以分为基于发送方和基于接收方两种不同的设计方案[2]。基于发送方的方案需要发送方的参与,主要基于前向纠错等冗余信息的传输,这是一种提高语音帧可靠性、减少恢复丢失帧所需时间的有效方法[3,4]。而基于接收方的方案仅限于接收方,该方案则试图从相邻帧中恢复丢失帧,恢复丢失帧的一种常见而简单的方法是插入一个替换帧,这个替换帧可以是一个静音帧或一个噪声帧[5],或上一个接收帧的重复,简单性和低延迟要求是该方法的一大优点,但不可避免的人为干扰以及该方法引入的自然语音和合成语音之间突然明显的过渡,使得语音的感知质量没有明显提高;恢复丢失帧的另一种方法是使用插值技术,利用相邻帧的参数生成丢失帧[6]的替换等。

本文主要考虑基于接收方的帧丢失隐蔽方法,此方法应用于ITU-T的8kB/s的G.729编码方案,G.729具有低延迟的特点,广泛应用于各种VoIP通信设备,是一种共轭结构的码激励线性预测(CS-CELP,Conjugate-Structure Code Excited Liner Predictive)编码器[7]。由于CELP编码器是根据其帧之间的相关性对其传输参数进行解码的,所以一帧信息的丢失不仅会影响当前帧,还会将恢复帧的错误繁衍到随后的正常帧。特别是浊音帧的丢失,其影响将会持续6帧左右,浊音帧的脉冲变化非常缓慢,虽然通过对擦除帧恢复的激励和没有发生帧丢失之前的激励是近似的,但差别可能在于周期脉冲的波形和周期脉冲的位置,特别是周期脉冲的位置将会严重影响合成语音的质量。

本文采用一种声门脉冲同步技术,能够快速同步激励信号,减少脉冲位置错位导致的合成语音质量下降。此外基音周期的估计对声门脉冲的同步起到关键作用,因此对基音周期采用新型线性预测来提高基音周期的准确性,将该算法与G.729标准方法进行性能比较,通过测试表明可以得到较高的语音质量。本文首先简要介绍G.729的帧擦除掩蔽算法,然后详细介绍声脉冲同步技术等方法,最后给出实验结果。

1  G.729的帧擦除掩蔽算法

G.729中的帧丢失隐藏技术是基于以前接收到的信息来重构丢失帧,不需要编码端提供冗余信息。一旦检测帧丢失,则重构丢失帧的合成滤波器,其参数使用最后帧的合成滤波器的线性预测LP(Linear Predictive)参量;自适应码书增量和固定码书增量分别建立在前一子帧的增益衰减基础之上;增益预测器存储器的衰减用接收好帧的固定码本的能量进行衰减来修正;丢失帧激励信号的产生取决于最后重构帧的分类:

如果最后的重构帧是周期性的,则现行帧同样考虑为周期性的,这样的情况下,激励信号只使用自适应码书部分,固定码书部分的贡献为零,基音延迟用前帧基音延迟的整数部分。為了避免过渡性的周期性,每移动一个子帧,延迟就增加1,但以143为边界。

如果最后的重构帧是非周期性的,则现行帧同样考虑为非周期性的,同时自适应码书的贡献为零。固定码书的贡献是无规则的选择码书指针和码书符号来产生的。无规则发生器采用函数式如下:

Seed=Seed*31821+13849

初始的Seed值为21845。固定码书的指针是从下一个无规数的13个最低有效位得到,固定码书的符号是从下一个无规数的4个最低有效位得到。

2  帧擦除掩蔽算法的改进

帧擦除隐藏技术的优劣在于对浊音帧恢复效果如何。自适应码书是表现浊音的最重要成分,而自适应码书是以基音周期为延迟,内插过去激励生成的,所以对于丢失帧,如果能有效地恢复基音周期,使其接近或等于未发生帧丢失时的值,则能大大提高丢失帧的合成效果,因此可以提高基音估计的准确性,来更好地恢复丢失帧中的自适应码书部分。

2.1  基音估计

当检测最后重构帧是周期信号时,原始帧擦除掩蔽算法中,前一基音信息被用于重新构建当前丢失帧。当前估测的基音精度可直接影响原始信号的相位对齐程度,并对当前丢失帧的重建质量以及丢失帧之后接收到的帧起到很关键的作用。如果使用若干过去基音周期而非仅仅复制前一基音周期,这将使得基音估计在合成语音效果方面有更好的表现[8]。本文采用一种基于直线拟合的基音推导方法用于基音估计。如文献[9]和[10]中所指出的,在帧边界处对编码的基音进行线性插值来表示基音周期并不影响语音的质量,该算法的主要优点是采用加权误差函数进行线性拟合。

由于编码器端没有多余比特数传输脉冲位置,所以丢失帧最后一个脉冲的位置P1并不确定,因此需要在解码端通过第一个正确帧的参数“估计”得到最大脉冲的位置。文献[11]提出了一种在解码端通过估计得到帧尾最大脉冲的正确位置的方法。其方法是:假设当前帧尾为丢失帧后的第一个正常帧,将更新的第一子帧自适应码书的存储器设为零,自适应码书、固定码书和对应的增益的解码不变,从而得到两个子帧的激励信号e0(n)。经验证,该激励信号的最大脉冲位置最接近正确的脉冲位置,通过在第二子帧基音周期范围内搜索可得到最大脉冲的位置P3,这样可达到丢失帧后的正常帧脉冲同步的效果,但在丢失帧和第一个正常帧的衔接处存在不连续现象,这是由于帧间的基音周期突变造成的,所以不能对丢失帧后的第一个正常帧的激励进行脉冲同步,但对其后的正常帧可实现脉冲同步。

3  测试结果

为了评估改进的CELP语音帧丢失掩蔽算法,本文实验采用ITU-T推出的PESQ(主观语音质量评估,Perceptual Evaluation of Speech Quality)软件对合成语音的质量进行评估。

表1为G.729原始编码器与根据本文方法修改后的编码器帧擦除掩蔽效果对比情况,可见本文提出的方法能够更好地恢复丢失帧。

图1对G.729中的帧擦除掩蔽技术在3%帧错误率下的语音性能进行了质量测试,可见,修正后编码器在帧擦除掩蔽性能方面有了很大的提高。

5  结  论

本文提出一种基于直线拟合的基音推导方法用于基音估计,同时采用对声门脉冲进行再同步技术来提高帧擦除掩蔽后的语音合成质量,该方法主要用于G.729编码器中,通过对不同帧擦除条件下的PESQ测量,与标准G.729编码器中的擦除掩蔽算法相比,本文提出的方法提高了语音质量,并取得良好的掩蔽效果。实验证明本文提出的方法对CELP模型的语音编码器中帧擦除掩蔽有很好的效果。

参考文献:

[1] Merazka F. Packet loss concealment by interpolation for speech over IP network services [C]//Signal Processing (CIWSP 2013),2013 Constantinides International Workshop on.IET,2013.

[2] Perkins C,Hodson O,Hardman V. A survey of packet loss recovery techniques for streaming audio [J].IEEE Network,2002,12(5):40-48.

[3] 徐昶,王平,王红霞.VoIP中的丢帧补偿策略研究的概况 [J].舰船电子工程,2005,25(5):100-102.

[4] Chua T K,Pheanis D C. Effects of Loss Characteristics on Loss-Recovery Techniques for VoIP [C]//International Conference on Systems & International Conference on International Conference on Networking,IEEE Computer Society,2006.

[5] Jayant N S,Christensen S W. Effect of Packet Losses in Waveform Coded Speech and Improvements Due to an Odd-Even Sample-Interpolation Procedure [J].IEEE Transactions on Communications,1981,29(2):101-109.

[6] Gueham T,Merazka A,Markovic G,et al. An enhanced insertion packet loss concealment method for voice over IP network  services [C]//2017 40th International Conference on Telecommunications and Signal Processing,2017:377-382.

[7] Internation Telecommunication Union. Coding of speech at 8kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP) [R/OL].(1999-09-15).https://www.itu.int/rec/T-REC-G.729-199611-S!AnnA/en.

[8] Lecomte J,Tomasek A,Markovic G,et al. Ehanced time domain packet loss concealment in switched speech/audio codec [C]//2015 IEEE International Conference on Acoustics,Speech and Signal Processing,2015:5922-5926.

[9] Kleijn W.B.,Ramachandran R.P.,Kroon P. Interpolation of the pitch-predictor parameters in analysisby-synthesis speech coders [C]//IEEE International Conference on Acoustic,Speech and Signal Processing (ICASSP),1994,2:42-54.

[10] Leong M,Kabal P.Smooth Speech Reconstruction Using Waveform Interpolation [C]//Speech Coding for Telecommunications,1993,Proceedings,IEEE Workshop on,1993:39-40.

[11] Chibani M,Lefebvre R,Gournay P. Resynchronization of the adaptive codebook in a constrained CELP codec after a frame erasure [C]//IEEE international Conference on Acoustics,Speech and Signal Processing,2006:13-16.

作者簡介:王春柳(1989.01-),女,汉族,安徽宿州人,助教,硕士研究生,研究方向:语音编码、DSP。