一种基于混合MELP /CELP 的4 kbit /s 声码器

2017-05-18 01:33舒勤军谢虹恩
关键词:浊音清晰度残差

李 强,舒勤军,谢虹恩,明 艳

(重庆邮电大学 信号与信息处理重庆市重点实验室,重庆 400065)

一种基于混合MELP /CELP 的4 kbit /s 声码器

李 强,舒勤军,谢虹恩,明 艳

(重庆邮电大学 信号与信息处理重庆市重点实验室,重庆 400065)

利用混合激励线性预测 (mixed excitation linear prediction,MELP )算法和码激励线性预测(code excitation linear prediction,CELP)算法的优点,提出了一种混合MELP/CELP语音编码模型。编码端对强浊音帧采用MELP编码,对弱浊音帧和清音帧进行CELP编码。MELP编码器采用相位对齐技术提取强浊音帧的相位参数,解决了合成语音与原始语音在时间上不同步的问题。对实现的4 kbit/s混合MELP/CELP声码器进行客观MOS(mean opinion score)值和主观DRT(diagnostic rhythm test)清晰度测试,结果表明,该声码器的合成语音具有较高的可懂度和清晰度。

低码率声码器;混合激励线性预测;码激励线性预测;相位对齐

0 引 言

混合激励线性预测(mixed excitation linear prediction,MELP)[1]算法在线性预测编码模型的基础上,采用非周期脉冲、混合激励、自适应谱增强、脉冲散布滤波器和残差谐波幅度等技术,有效地提高了语音编码器合成语音质量。由于MELP采用了语音参数编码方案,可实现0.6 kbit/s-2.4 kbit/s速率的声码器,主要应用在卫星通信、军事保密通信等频带资源有限的语音通信系统中。码激励线性预测(code excitation linear prediction,CELP)[2]以码本为激励源,采取合成分析(analysis-by-synthesis,ABS)搜索、感觉加权矢量量化和线性预测等技术,合成的语音具有质量高、抗噪性强等优点。基于CELP的声码器广泛应用在IP电话、蜂窝移动通信等领域。

由于MELP采用的是谐波编码结构模型,适合表现周期性较强的强浊音信号[3],对于清音、爆破音、过渡音等非周期或准周期语音信号来说,表现效果不佳。而CELP是一种混合编码模型,采用ABS和感知加权均方误差最小原则,在时域上对目标语音做波形匹配。由于需要引入固定码本来还原激励源,需使用较多的编码比特,因此适用4 kbit/s以上速率的编码器。在较低编码速率下,对周期信号的表现效果不如MELP,但是对非周期或准周期信号的表现效果较好[4]。

本文利用MELP和CELP算法各自的优点,实现了一种混合MELP/CELP的4 kbit/s声码器。编码端将输入语音帧分为强浊音帧、弱浊音帧和清音帧3种类型。对强浊音帧使用MELP编码模型,对弱浊音帧和清音帧采用CELP编码模型,并利用相位对齐技术解决了MELP在提取原始语音信号特征参数[5]时没有考虑相位,造成合成语音与原始语音在时间上不同步的问题。为了与CELP声码器编码帧长一致,把MELP的编码帧长由22.5 ms改为20 ms,重新构建了线谱对频率(line spectrum frequency,LSF)、傅氏级数幅度语音特征参数的矢量量化码本。混合MELP/CELP的4 kbit/s声码器用C语言进行了实现,经测试,本文实现的4 kbit/s声码器的合成语音具有较高的可懂度和清晰度。

1 混合MELP/CELP声码器编解码结构

图1为混合MELP/CELP语音编码流程框图。编码器输入的是8 kHz采样、16 bit均匀量化的语音信号,帧长为20 ms。对经过预处理后的语音帧进行线性预测分析,得到线性预测系数和残差信号,残差信号用于后续语音特征参数的提取。编码端以语音帧的浊音强度值的大小来判定帧的类型,如果是强浊音帧,进行MELP编码,若是弱浊音帧或清音帧则采用CELP编码。在进行MELP编码时,提取强浊音帧的相位参数以实现相位对齐[6]。语音特征参数量化编码后形成比特流,最后加上指示该帧是MELP编码还是CELP编码的1 bit模式判决位后打包输出。

图2是混合MELP/CELP语音解码流程框图。接收端对接收到的比特流进行解码,根据模式判决信息选择相应的MELP或CELP解码算法。将解码得到的参数生成MELP模型激励源或CELP模型激励源,通过线性预测合成滤波器后,重构出语音信号。将重构的语音信号进行后置滤波[7]得到最终的合成语音信号。

图1 混合MELP/CELP声码器编码流程图Fig.1 Block diagram of hybrid MELP/CELP speech coding

图2 混合MELP/CELP声码器解码流程图Fig.2 Block diagram of hybrid MELP/CELP speech decoding

2 相位对齐

CELP编码是以逼近原始语音波形为目的,在传输的信息中含有相位参数,因此合成的语音波形与原始语音波形在时间上是同步的。而MELP提取的原始语音特征参数中没有包含相位信息,导致了合成语音与原始语音在时间上不同步,表现出波形包络不一致。因此,混合MELP/CELP声码器不能简单地把解码后合成的语音信号进行叠接,否则在听觉上感觉会不自然,导致合成语音质量下降。为了解决相位对齐问题,MELP编码端需提取强浊音帧的相位参数。

2.1 相位参数的提取

本文采用相关法来提取强浊音帧的相位参数。参与相关运算的一个信号是欲编码的线性预测残差语音信号e(n);另一个是利用本帧提取的残差谐波谱幅度M(k)和基音周期Tp重建的激励残差信号e′(n),其计算公式为

(1)

由于e(n)和e′(n)信号长度可能不同,因此在做相关运算前需加窗截断。所加矩形窗的中心位于当前帧的最后一个样点,窗长取大于120的当前帧的基音周期值的最小整数倍值。将e′(n)在e(n)上滑动计算归一化相关系数,将相关系数的最大值以该帧的基音周期值为参数进行换算,其结果即为本帧的相位[8]。

2.2 立方相位内插

在标准MELP编码算法中,帧长为N的第l帧的语音特征参数是通过本帧语音特征参数Al与上一帧语音特征参数Al-1线性内插得到的,其内插公式为

n=0,1,…,N-1

(2)

但是,这种方法不能用于相位内插,因为相位θl-1和θl是以2π取模得到的,不是常规的线性关系。本文采用立方相位内插[9]来解决这个问题。设相位内插函数为三次多项式,为方便起见,将该基波相位写成时间变量t的连续函数,即

θ(t)=a3t3+a2t2+a1t+a0

(3)

由于相位的导数为角频率,将 (3) 式做微分运算后,得到如 (4) 式的基波角频率。

ω(t)=3a3t2+2a2t+a1

(4)

设第l帧信号的起始点时间为0,终点时间为语音帧的时长T,起始点的基波相位和角频率分别为θl-1和ωl-1,终点的基波相位和角频率分别为θl和ωl,这里的θl-1和ωl-1也是第l-1帧的终点的基波相位和角频率。通过(3)式和(4)式可内插出第l帧的中间点的相位和角频率,得到如(5)式所示的4个方程式。

(5)

由于末端相位θl是以2π取模得到的,所以必须加上2πM,这里的M是未知数。把(5)式写成如(6)式的矩阵形式后,通过解方程,可得到计算a0~a3的(7)式。

(6)

(7)

把a0~a3代入(3)式和(4)式,得到计算第l帧的非线性相位和时变频率。

为了确定M的值,需要找到相位变化最平坦的曲线区域,即是“最大程度平滑”。如果频率是常数且声道为平稳的,则实际相位是线性变化的,相位的一阶导数为常数,二阶导数为0。所以,找最平坦区域的过程就是选择合适的M,使得

(10)

为最小。经推导可以证明,使(10)式为最小的M值可表示为

(11)

(11)式中,INT表示取整。由于声码器处理的对象是离散时间语音信号,因此可将(8)式改写为(12)式的离散形式。

(12)式中:pl-1和pl分别是上一帧和当前帧的基音周期值。

MELP解码端加入相位信息后,脉冲激励信号的计算公式为

(13)

3 混合MELP/CELP声码器的实现

本文采用增强型变速率(enhanced variable rate codec,EVRC)[10]中的半速率算法来实现4 kbit/s的CELP声码器,而4 kbit/s的MELP声码器是在标准2.4 kbit/s 的MELP算法基础上实现的。为了与CELP编码器帧长一致,将MELP的帧长由22.5 ms调整为20 ms。在设计MELP帧结构时,除了考虑需要传送编码端的相位信息外,还重新划分了子带,增加了增益和残差谐波幅度的量化比特数,以提高声码器的合成语音质量。下面重点介绍4 kbit/s的MELP编解码器的实现。

3.1 预处理

对原始语音信号进行高通滤波和噪声抑制,以滤除50 Hz的工频干扰和其他噪声。

3.2 MELP声码器的实现

3.2.1 参数提取与量化

MELP声码器在编码端提取的参数有:LSF、基音周期、带通清/浊音强度、增益、残差谐波谱幅度和对齐相位。每帧量化编码输出80 bit。为了能更精确地表示语音信号的特征,除了LSF、残差谐波谱幅度和对齐相位每帧提取一次外,其他参数每子帧(10 ms)提取一次。相位参数的提取方法见2.2节,其他参数的提取方法与标准MELP一样。但是在子带划分和残差谐波谱幅度的量化上有所不同。

1)子带的划分。标准MELP编码器将一帧语音信号的频谱划分为5个固定子频带,对每个子频带进行清/浊音判决后,将判决结果传送给解码端。采用这种多带混合模型使得合成激励信号更加准确[11]。为了对激励信号进行更精细地划分,本文将原来的5个固定子频带扩展到7个。采用7个六阶的巴特沃斯带通滤波器把输入的语音信号分为如下7个子频带:0-500 Hz,500-1 000 Hz,1 000-1 500 Hz,1 500-2 000 Hz,2 000-2 500 Hz,2 500-3 000 Hz和3 000-4 000 Hz。第1子带的清浊音强度值用来判断当前帧的清/浊音状态,后6个子带的清浊音强度值用来确定各子带的清/浊音类型。

2)残差谐波幅度的量化。残差谐波幅度主要用于提升合成语音低频段的准确性,增加合成语音的自然度[12],对女声和带有背景噪声的语音质量也有一定程度的改善。为了进一步提高残差谐波幅度的精度,本文采用11 bit对其进行矢量量化。首先从大量的中英文语音中提取10维的残差谐波幅度值,然后采用LBG算法生成矢量量化码本。

3.2.2 帧结构的设计

语音帧的LSF和残差谐波幅度分别用25 bit和11 bit进行矢量量化。其中,LSF采用7666四级矢量量化:对齐相位则用6 bit进行标量量化;每子帧的基音周期、通带清/浊音判决和增益分别用7 bit,6 bit和6 bit进行标量量化。4 kbit/s的MELP声码器比特分配方案如表1所示。

表1 MELP声码器比特分配方案

3.2.3 参数插值

由于声码器的编码端只对强浊音帧采用MELP方式编码,因此解码端语音合成过程与标准MELP略有不同,即不用考虑清音帧的合成。解码端对强浊音帧的参数解码后,LSF和残差谐波谱幅度与标准MELP的插值方式一样,对齐相位则采用2.2节的三次插值方式。由于增益、基音周期和带通清浊判决每帧提取2次参数,且MELP解码端是按照基音周期长度进行语音合成的,因此,这些参数需根据合成语音信号的起始点进行参数插值,具体分为以下2种情况:

1)如果合成语音信号的起点小于80,则判断前一帧是否为MELP编码帧,若是,则对前一帧的第2个子帧的参数与当前帧的第1个子帧的参数进行线性插值;否则不进行线性插值,直接使用当前帧的第1子帧的参数;

2)若合成语音信号起点大于80,对当前帧的两子帧参数进行线性插值。

4 混合MELP/CELP声码器性能测试

4.1 客观MOS值测试

在相同条件下对FS-1016标准中的4.8 kbit/s CELP声码器、EVRC的4 kbit/s声码器和本文实现的4 kbit/s声码器采用符合ITU-T P.862标准的PESQ软件进行客观MOS(mean opinion score)值测试。测试对象为P.862标准中男女各8组语音。表2和表3分别是3种声码器合成语音的MOS值测试结果。

表2 男声MOS值比较

表3 女声MOS值比较

与FS-1016标准中的4.8 kbit/s声码器相比,本文声码器的男声和女声的平均MOS值都有一定提高。其中,女声的平均MOS值提高幅度较大。与EVRC中的4 kbit/s声码器相比,本文的声码器男声和女声的平均MOS值均有所降低,平均降了0.05和0.04。由于PESQ是通过比较编码前后语音信号之间的差异,得到编码过程中引入的失真,计算出一个类似人工听力评估测试的MOS分值。如果原始语音与合成语音波形差别较大,测试出来的MOS值较低。由于本文实现的4 kbit/s声码器对强浊音帧采用了参数编码方式,而EVRC对所有语音帧均采用波形编码和参数编码的混合方式,因此EVRC声码器的合成语音信号在时域波形上要更接近原始语音信号,4 kbit/s 的EVRC声码器合成语音的MOS值要略高于本文声码器。

4.2 DRT测试

判断韵字测试(diagnostic rhyme test,DRT)是反映语音清晰度或可懂度的一种主观测试方法,主要用于低码率语音编码器的质量评估。本文采用国家标准《GBT 13504—2008汉语清晰度诊断押韵测试(DRT)法》对声码器质量进行测试,测试语音选自《GBT 16532—1996通信设备清晰度DRT法评价语音材料库》,测试人员为5男5女在校大学生。表4是DRT的清晰度等级划分。

表4 DRT清晰度等级划分

表5是本文4 kbit/s声码器按汉语辅音的6个区别特征进行DRT测试的结果。女声和男声的浊音性和送气性得分在95以上,这2项的DRT清晰度等级为优,其他4个区别特征DRT清晰度等级为良好。男声和女声平均DRT得分为93.4,声码器清晰度等级为良好。

表5 本文声码器DRT测试得分

表6是4 kbit/s 的EVRC声码器DRT清晰度测试结果。女声的浊音性和紧密型,男声的浊音性、低层性和持续性的DRT清晰度得分略高于本文声码器,其他区别特征的DRT清晰度得分均低于本文声码器。

本文声码器女声平均DRT清晰度得分比4 kbit/s EVRC声码器高了2.3,男声略低了0.5,男声和女声平均DRT清晰度得分要高0.9。测试结果说明本文声码器合成语音的清晰度要略优于4 kbit/s EVRC声码器。

表6 EVRC声码器的 DRT测试得分

5 结 论

结合MELP和CELP算法的优点,本文提出并实现了一种编码速率为4 kbit/s的混合MELP/CELP声码器。通过PESQ客观MOS值测试,女声和男声的MOS值达到了3.2和3.4以上。采用主观DRT清晰度测试,女声和男声的平均DRT清晰度值分别达到了94.3和92.5,接近清晰度为优的等级。本文实现的4kbit/s声码器的合成语音清晰度高,可应用在公众通信、保密通信和卫星移动通信等语音通信系统中。

[1] MCCREE A, TRUONG K, GEORGE E, et al. A 2.4 kbits/s MELP coder candidate for the new US Federeal Standard[C]//Proc. of ICASSP. [s.l.]: IEEE, 1996: 200-203.

[2] TANDEL M, SHAH V, PATEL B. Implementation of CELP coder and to evaluate the performance in terms of bit rate, coding delay and quality of speech[C]//2011 3rd International Conference on Electronics Computer Technology (ICECT). Piscataway, N. J: IEEE Press, 2011: 86-89.

[3] MCCREE A, STACHURSKI J, UNNO T, et al. A 4 kbit/s hybrid MELP/CELP speech coding candidate for ITU standardization[C]//2002 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, N. J: IEEE Press, 2002: I-629-I-632.

[4] STACHURSKI J, MCCREE A, VISWANATHAN V, et al. Hybrid MELP/CELP coding at bit rates from 6.4 to 2.4 kbit/s[C]//2003 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, N. J: IEEE Press, 2003: II-153- II-156.

[5] STACHURSKI J, MCCREE A, VISWANATHAN V. High quality MELP coding at bit-rates around 4kbit/s[C]//1999 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, N. J: IEEE Press, 1999: 485-488.

[6] STACHURSKI J, MCCREE A. A 4 kbit/s hybrid MELP/CELP coder with alignment phase encoding and zero-phase equalization[C]//2000 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP).Piscataway,N.J:IEEE Press,2000:1379-1382.

[7] 马震. 混合激励 MVDR 语音编码技术研究[D]. 济南: 山东大学, 2005. MA Zhen, Research on the MVDR Speech Coding Technology [D].Jinan: Shandong University, 2005.

[8] 刘斌. HYBRID-MELP/CELP语音压缩编解码算法的研究[D].成都: 电子科技大学,2005. LIU Bin. Research on HYBRID-MELP/CELP Speech Compression Encoding and Decoding Algorithm [D]. Chengdu: University of Electronic Science and Technology of China, 2005.

[9] QUATIERI T F.离散时间语音信号处理:原理与应用[M].赵胜辉,译.北京:电子工业出版社,2004:347-350. QUATIERI T F. Discrete time speech signal processing: principle and application [M]. ZHAO Shenghui, Translate. Beijing: Publishing House of Electronics Industry, 2004:347-350.

[10] 王炳锡, 王洪. 变速率语音编码[M]. 西安: 西安电子科技大学出版社, 2004: 161-169. WANG Bingxi, WANG Hong. Variable rates speech coding [M]. Xi’an: Xi’an University of Electronic Science and Technology Press, 2004:161-169.

[11] WANG Dusheng, LI Lizhong, ZHANG Jiankang, et al. An Adaptive variable low bit rate multi-band excitation speech coder[C]//2007IEEE International Conference on Industrial Electronics and Applications (ICIEA). Piscataway, N.J: IEEE Press, 2007: 2244-2247.

[12] 计哲. 低速率语音编码算法研究[D]. 北京: 清华大学, 2011: 17-18. JI Zhe. Research on Low bit Rate Speech Coding Algorithm [D].Beijing: Tsinghua University, 2011:17-18.

(编辑:魏琴芳)

A 4 kbit/s vocoder based on hybrid MELP/CELP

LI Qiang, SHU Qinjun,XIE Hongen, MING Yan

(Chongqing Key Laboratory of Signal and Information Processing, Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R. China)

Taking advantages of mixed excitation linear prediction(MELP) algorithm and code excitation linear prediction(CELP) algorithm, a hybrid MELP/CELP algorithm model is proposed. At the encoder, strongly voiced frames are coded by MELP while weakly voiced frames and unvoiced frames are coded by CELP. In MELP vocoder, the phase alignment technology is adopted to deal with the synchronization issue of original speech and synthesized speech. Objective mean opinion score(MOS) test and subjective diagnostic rhythm test(DRT) on 4 kbit/s hybrid MELP vocoder results indicate that the proposed algorithm offers good performance on high frequency speech signal and the synthesized speech, which achieves high intelligibility and clarity.

low bit rate speech coding;mixed excitation linear prediction;code excitation linear prediction;phase alignment

10. 3979 /j. issn. 1673-825X. 2017. 02. 001

2015-06-24

2016-01-22 通讯作者:李 强 liqiang@cqupt.edu.cn

国家高技术研究发展计划(863计划)(2012AA01A508)

Foundation Item:The National 863 High Tech Research and Development Projects (2012AA01A508)

TN912.3

A

1673-825X(2017)02-0143-06

李 强(1968-),男,湖南人,副教授,主要研究方向为音视频信号处理。E-mail: liqiang@cqupt.edu.cn。

舒勤军(1989-),男,湖北荆州人,硕士研究生,主要研究方向为语音压缩编码及其DSP实现。E-mail:490005369@qq.com。

猜你喜欢
浊音清晰度残差
基于双向GRU与残差拟合的车辆跟驰建模
鲜明细腻,拥有更好的清晰度 Ascendo Immersive Audio CCRM-12 MKII/CCRM-6P/SMS-15
基于残差学习的自适应无人机目标跟踪算法
修身的效果,改善声像和定位的清晰度 意大利新一代架皇 BAS AS-S4/AS-B4避震脚钉
嘈杂语噪声下频段增益对汉语语言清晰度的影响
基于递归残差网络的图像超分辨率重建
日语半浊音的变化规律研究
清浊音分离抗噪的语音识别算法的研究
有关鼻浊音使用实态的研究
——以NHK新闻为中心
基于多尺度快速清晰度估计的多聚焦图像超分辨融合技术研究