基于幅度压缩滤波的清浊音分类及基音估计

2016-10-13 19:00:21徐静云赵晓群王缔罡
电子与信息学报 2016年3期
关键词:浊音基音高斯

徐静云①② 赵晓群*① 王 峤① 王缔罡①



基于幅度压缩滤波的清浊音分类及基音估计

徐静云①② 赵晓群*① 王 峤① 王缔罡①

①(同济大学电子与信息工程学院 上海 201804)②(湖州师范学院工学院 湖州 313000)

该文针对传统算法在实环境(不同噪声类型和信噪比)下容易发生清浊误判和基音估计错误问题,提出一种基于幅度压缩基音估计滤波(PEFAC)的清浊音分类及基音估计方法。首先,通过PEFAC削弱语音的低频噪声,提取出基音谐波;然后,采用基于对称平均幅度和函数的脉冲序列加权算法(SIM)确定谐波数目;最后,利用动态规划估计出基音,用基于3元素特征矢量的高斯混合模型对清浊音进行分类。仿真结果表明,在实环境下,所提方法能有效抑制清浊误判及基音估计错误现象的发生,性能优于传统方法。

语音信号处理;基音;幅度压缩基音估计滤波;对称平均幅度和函数;高斯混合模型;噪声语音

1 引言

基音作为语音信号处理的重要特征参数,是指人在发浊音时气流通过声门使声带张弛振荡的振动频率(或周期)。准确可靠的基音估计对语音信号的合成、编码和识别等都具有重要的意义。自20世纪60年代以来,人们从时域和频域出发提出了多种有效的基音估计方法[1,2]。时域方法利用连续基音的波形相似性来提取基音周期,主要有自相关函数法(AutoCorrelation Function, ACF)和平均幅度差函数法(Average Magnitude Difference Function, AMDF);频域方法则通过识别并定位谐波峰值点位置来提取基音频率,主要有频率直方图法和倒谱法。

由于通常人们得到的语音来源于实环境,在实环境下语音会受到不同噪声类型(高斯、汽车和多人说话噪声等)和信噪比(-20~20 dB)的噪声污染,语音的时域周期和频率谐波在不同程度上被扭曲了,从而常规的方法会变得不可靠甚至完全无效。在实环境下基音估计问题逐渐成为了研究的热点,人们为此提出了大量的方法。其中通过对语音多个声学信号特征进行整合来估计基音,是一个重要的研究思路。WAUTOC方法[8]利用语音帧的ACF与AMDF具有相同的周期特性,将ACF除以AMDF,使基音周期的峰值得到加强而噪声相对被抑制,算法性能优于单一的ACF和AMDF。文献[9]通过时域提取候选值后进行频域加权,再通过时间连续约束估计基音。HSAC-SIM方法[10]通过在DCT域进行非线性平滑后直接选择峰值最大点作为粗估基音谐波(粗估值),然后利用谐波正弦自相关(Harmonic Sinusoidal AutoCorrelation, HSAC)模型迭代修正得到精估基音谐波(精估值),在此基础上采用基于对称平均幅度和函数(Symmetric Average Magnitude Sum Function, SAMSF)的脉冲序列加权算法确定谐波数目,最后利用动态规划估计基音。文献[9,10]综合利用了语音当前帧和相邻帧的时域、频域或DCT域的声学特征来提取基音,有较好的基音估计性能。尤其是HSAC-SIM方法在实环境下基音检测性能优异,但仍存在以下问题:(1)在低信噪比或噪声频率区间包含幅值最大基音谐波的情况下,粗估值与真正的基音谐波(真实值)之间会存在很大偏差;(2)对于较纯净的语音,粗估值通过迭代能收敛到真实值。但是在低信噪比或噪声频率区间包含幅值最大基音谐波的情况下通常无法收敛到真实值,从而造成后继基音估计的错误;(3)浊音的SAMSF在基音谐波处峰值具有稳定特性,但是对于-5 dB及以下的浊音(尤其是弱浊音)的SAMSF在基音谐波处峰值会产生明显偏移,从而大大降低基音估计的准确性,上述不足导致该方法基音估计正确率不高,限制了其在实环境下的使用。

文献[11]利用相邻帧基音谐波相关而噪声不相关特点,通过计算相邻帧谐波累积和来降低噪声对基音估计的影响。PEFAC方法[12]采用PEFAC增强语音后提取3个基音候选值,然后通过动态规划确定基音。文献[11,12]利用语音基音和噪声固有特性,对语音进行增强,提高了低信噪比下的基音估计性能。尤其是PEFAC方法通过归一化能有效地去除窄带的噪声段(鼓掌噪声等),针对语音特点设计的匹配滤波器使语音输出信噪比最高,从而在有效削弱低频噪声的同时增强了基音谐波。但是PEFAC方法直接用经PEFAC处理后的对数频域幅值最大点作为概率最高的基音频率,但最大点对应频率通常不是基音频率,而是基频的某个谐波,在此基础上直接进行动态规划平滑,过于简单粗糙。

综合文献[10,12]的优点与不足,针对实环境本文提出一种清浊音分类及基音估计(PEF-SIM)方法。首先通过引入PEFAC在对数频域对语音进行增强,提取出基音谐波;然后,在得到处理后的时域波形的基础上,通过SIM方法确定谐波数目;最后利用动态规划估计出基音。实验结果表明,在实环境下,PEF-SIM方法基音估计性能优于HSAC- SIM和PEFAC方法,清浊音判决性能优于PEFAC和RAPT方法。

2 基于PEFAC的基音谐波提取

2.1 算法描述

对实环境下得到的带噪语音信号去直流、归一化和分帧处理后得到。设该噪声语音帧由纯净语音帧及噪声帧组成,表示为

匹配滤波器

(4)提取基音谐波: 在60~1250 Hz频率范围内,取按幅值从大到小排序,从前3个候选值中选择频率最大者作为基音谐波。

2.2 实验分析

实验用Keele基音检测参考语音库[15]。该语音库包含10个说话人,5男5女,分别颂读同一段英文,每条语音长度为30 s左右,所有语音为20 kHz采样,16 bit量化,并提供以帧长为512点、帧移为200点的所有浊音帧参考基音信息。文中的测试条件是针对8 kHz采样的输入语音,帧长200点、帧移80点来提取基音周期。因而对Keele库的语音文件降采样到8 kHz,同时浊音帧参考基音周期乘上0.4来作为最终的参考值。实验用噪声来源于RSG-10数据库[16],纯净语音加入噪声的计算标准使用ITU-TP.56[17]标准,PC机为联想E450C(CPU: i5-4210U,内存4G),软件平台为matlab2009a。

图1为基于HSAC-SIM的基音谐波提取。图2为PEFAC的基音谐波提取,发音为/a/的任意一帧浊音帧,基音频率为225 Hz,加入-19 dB汽车噪声。图2(a)为功率谱密度(单位:dB),可以看出汽车噪声淹盖了基音各次谐波;图2 (b)为对数频域功率谱密度(单位:dB);图2(c)为归一化后的功率谱密度(单位:dB),可以看出归一化后低频噪声明显被削弱;图2(d)为匹配滤波后的功率谱密度(单位:dB),与图2(b)和图2(c)相比,噪声基本被抑制,基音谐波峰值变得非常突出,可以准确地提取出基音谐波;图2(d)显示的是中前3个最大峰

图1 基于HSAC-SIM的基音谐波提取

由图1,图2可以看出:(1)在低信噪比下,HSAC-SIM方法粗估值与真实值有极大偏差,经过修正可以一定程度上减小偏差,但无法收敛于真实值;(2)经过PEFAC方法处理后低频噪声被有效抑制,基音谐波峰值非常突出,可以准确地提取出基音谐波。

为了定量比较HSAC-SIM和PEF-SIM方法的基音谐波提取性能,本文随机选取一组400帧浊音语音信号,分别加入不同信噪比(-20 dB, -10 dB, 0 dB, 10 dB和20 dB)和噪声类型(高斯噪声、多人说话噪声和汽车噪声),合成出15组每组400帧,用2种算法分别进行基音谐波提取,统计出2种方法的每组平均执行时间和平均总基频偏移度(Gross Pitch harmonic offset Degree, GPD)。

GPD定义为

图2 基于PEFAC的基音谐波提取

(6)

表1 2种方法性能定量比较

测试内容

PEF-SIM

HSAC-SIM

执行时间(s)

1.6

8.5

GPD

3.3

8.4(粗估)

6.7(精估)

3 基于SIM的谐波数目提取

3.1 SAMSF的定义与性质

语音信号的SAMSF定义为

此函数有如下性质(为的周期):

3.2 SAMSF性能分析

图3为,和语音帧的SAMSF性能比较,图3 (a)为强浊音帧加入-5 dB, -10 dB和-20 dB高斯噪声;(b)为强浊音帧加入-5 dB, -10 dB和-20 dB多人说话噪声;(c)为弱浊音帧加入-5 dB, -10 dB和-20 dB高斯噪声;(d)为弱浊音帧加入-5 dB, -10 dB和-20 dB多人说话噪声。图3可以看出,(1)在信噪比-5 dB下,,和在处具有明显的峰值特性,随着信噪比的下降,峰值特性开始恶化,其中弱浊音和多人说话噪声恶化尤其严重;(2)在不同信噪比和噪声类型下,比具有更稳定的峰值特性,尤其是对于弱浊音和多人说话噪声,与相比,明显改善了峰值特性。这是因为PEFAC算法通过归一化和匹配滤波,归一化能有效削弱窄带噪声(多人说话噪声频谱主要集中分布于60~300 Hz),匹配滤波能实现信噪比最高。由于SAMSF在处峰值越稳定,越有利于后继谐波数目的提取。实验结果表明,经过PEFAC增强后语音帧的在处峰值具有更优的稳定性。

3.3 提取谐波数目

4 清浊音判决

清浊音判决是基于语音帧的3元素特征矢量,该矢量包括3个参数[12]:

(1)归一化后的对数平均功率谱:

其中

图3 3种语音帧的 SAMSF性能比较

图4 清浊音的矢量空间分布

5

基音轮廓应该是连续较平滑的,由于噪声的干扰,文中检测到的基音仍然会产生一些波动,为了有效减少这些波动错误,本文使用动态规划算法从基音候选值中选择最优值,以实现在帧帧间具有最优的基音路径。在基音提取方案中,基音周期由提取的基音谐波和时域匹配方案选出一组候选基音,然后采用文献[10]动态规划算法确定基音。

6 实验与分析

6.1 清浊音判决

建立清音和浊音共2个高斯混合模型(Gaussian Mixture Models , GMMs)分类器,每个GMM均采用了6个单高斯模型(Single Gaussian Model, SGM)分量[12,19]。通过praat软件和keele库参考基音标注基础上进行人工校正,从keele库中选出清音和浊音各400帧纯净语音,每个SGM分量的训练语音为纯净语音加入指定信噪比(6个SGM分量对应6种SNR=-10 dB, 0 dB, 5 dB, 10 dB, 15 dB和20 dB)的高斯、多人说话和汽车噪声各400帧,共1200帧。

对每个分量的训练语音分别提取出3元素特征值,从而计算出每个SGM分量的均值和协方差矩阵。

为了测试本文提出的PEF-SIM清浊音判决方法, 实验对RAPT[20], PEFAC和PEF-SIM 3种方法进行清浊音判决性能测试。测试结果采用漏警率(浊音误判为清音),虚警率(清音误判为浊音)和总错误率[12]指标。表2列出了3,和。3种方法中,总错误率最小者的方法被加粗显示,表中最后一行显示的给定信噪比下,3种不同噪声类型下的平均漏警率和平均虚警率。

从表1可以看出,在SNR=20 dB下,3种方法总错误率都很小,数值也很接近。随着信噪比的减小,3种方法性能产生了分化:(1)RAPT对噪声类型敏感,在SNR=20 dB的拥有最低的,对于高斯和汽车噪声,总的也优于PEFAC和PEF-SIM方法,这是因为RAPT引入了有效的动态规划算法来进行清浊音判定,PEFAC和PEF- SIM方法则是通过阈值直接判定清浊音;随着信噪

表2 清浊音判决性能比较(%)

SNR

20 dB

10 dB

0 dB

-10 dB

-20 dB

P

高斯

噪声

PEF-SIM

4.38

4.21

5.12

4.21

9.52

4.20

24.45

1.91

51.24

4.87

PEFAC

5.95

4.78

7.68

5.50

11.94

4.47

26.45

1.84

51.40

4.89

RAPT

1.53

5.16

6.71

4.81

47.91

0.37

96.74

0

100

0

汽车

噪声

PEF-SIM

4.47

4.59

4.02

3.25

7.88

4.96

10.79

8.48

22.73

8.68

PEFAC

5.87

4.18

7.10

4.07

8.63

5.19

13.12

9.76

23.17

9.30

RAPT

1.54

7.43

4.14

6.54

22.94

4.23

63.01

5.32

95.66

4.21

多人说话噪声

PEF-SIM

4.65

5.80

6.07

12.69

13.83

38.16

19.23

55.46

30.16

64.18

PEFAC

6.91

9.10

11.93

17.93

17.24

38.75

23.74

61.33

33.53

67.07

RAPT

1.43

44.71

2.47

59.28

1.75

79.11

1.01

94.82

0.12

96.71

平均

PEF-SIM

4.50

4.87

5.07

6.72

10.41

15.77

18.16

21.95

34.71

25.91

PEFAC

6.24

6.02

8.90

9.17

12.60

16.14

21.10

24.31

36.03

27.09

RAPT

1.50

19.10

4.44

23.54

24.20

27.90

53.59

33.38

65.26

33.64

比的下降,RAPT性能急剧下降,在0 dB及以下,方法已经无效;(2)PEF-SIM和PEFAC方法对噪声类型不太敏感,总错误率小于RAPT方法, 在0 dB及以下方法还有效;(3)PEF-SIM方法总错误率最低,尤其在信噪比下0~-20 dB下总错误率明显小于PEFAC和RAPT方法。实验结果表明,方法在实环境下的清浊音判决性能优于RAPT和PEFAC方法。

6.2 基音检测

为了验证PEF-SIM方法的基音估计性能,实验用RAPT, PEFAC, HSAC-SIM和PEF-SIM 4种方法进行基音估计。检测结果与语音库中参考基音相对误差大于或等于1 ms(以基音周期计算)定义为基音粗差(Gross Pitch Error, GPE),以GPE作为指标比较各方法[1]。图5为4种方法在实环境下的检测结果(GPE),图5(a)高斯噪声;图5(b)汽车噪声;图5(c)多人说话噪声。从图中可以看出:(1)在SNR= 20 dB时,4种算法的GPE极小,性能均很好;(2)RAPT在SNR=0 dB及以下开始无效,这是因为RAPT方法仅仅依据时域波形特征来提取基音,对于0 dB及以下波形特征不足以提取出基音;(3)对于汽车噪声,PEF-SIM, HSAC-SIM和PEFAC方法GPE较接近,且优于高斯和多人说话噪声,这是因为汽车噪声不含有背景基音且能量主要集中在0~300 Hz,越接近0 Hz能量越大,3种方法均经过60 Hz去工频处理,很大程度上去除了汽车噪声干扰;对于高斯噪声,PEF-SIM, HSAC-SIM和PEFAC方法的GPE较接近;对于多人说话噪声,PEF-SIM明显优于HSAC-SIM和PEFAC方法,这是因为对于多人说话噪声的能量主要集中在0~ 300 Hz且含有背景基音谐波,HSAC-SIM在低频时易将背景基音误处理为真实基音(见图3(b3)),而PEFAC在削弱背景基音影响的同时,也一定程度上削弱了低频的真实基音,导致将大量的背景基音谐波误处理为真实基音。

实验结果表明,总体上,PEF-SIM在不同的噪声和噪声类型下,性能优于RAPT, HSAC-SIM和PEFAC方法。这与前面的理论分析是一致的,即PEF-SIM能有效削弱噪声,使基音谐波提取更为准确,同时能改善SAMSF在处峰值的稳定性。

6.3 算法复杂度

实验中选取180 s语音信号分别用4种算法进行基音估计,统计每秒长度语音的执行时间见表3。由表3可以看出,PEF-SIM, PEFAC 和RAPT的方法处理时间均小于0.5 s, HSAC-SIM高达1 s。PEF-SIM执行时间(算法复杂度)是HSAC-SIM的0.22(0.23/1.03),这是因为HSAC-SIM方法提取基音谐波时需要反复迭代,计算复杂度高。

表3 4种算法执行时间(s)

算法

PEF-SIM

PEFAC

RAPT

HSAC-SIM

时间(s)

0.23

0.20

0.46

1.03

7 结论

本文提出基于PEF-SIM的清浊音分类和基音估计方法。实验结果表明:(1)PEF-SIM方法在低信噪比下,提取的基音谐波与真实值偏差小于HSAC-SIM方法,算法复杂度也是HSAC-SIM方法的0.19;通过PEFAC的增强可以有效提高SAMSF的峰值稳定性,有利于谐波数目的提取。(2)在实环境下,从对数频率和时域中提取3个特征值,基于该3个特征矢量的高斯混合模型分类器能有效地区分清浊音,总错误率小于PEFAC和RAPT方法;PEF-SIM方法的GPE小于RAPT, PEFAC和HSAC-SIM方法,PEF-SIM方法对多人说话噪声改善尤为明显,算法复杂度与PEFAC和RAPT相近,是HSAC-SIM方法的0.22。

图5 4种方法在不同信噪比和噪声类型下的GPE(%)

[1] RABINER L, CHENG M, ROSENBERG A E,. A comparative performance study of several pitch detection algorithms[J].,, 1976, 24(5): 399-418.

[2] VEPREK P and SCORDILIS M S. Analysis, enhancement and evaluation of five pitch determination techniques[J]., 2002, 37(3): 249-270.

[3] HAN Kun and Wang DeliangNeural network based pitch tracking in very noisy speech[J]./,,, 2014, 22(12): 2158-2168.

[4] MOLINA E, TARDON L J, BARBANCHO A M,. SiPTH: Singing transcription based on hysteresis defined on the pitch-time curve[J]./,,, 2015, 23(2): 252-263.

[5] DUAN Zhiyao, HAN Jinyu, and PARDO B. Multi-pitch streaming of harmonic sound mixtures[J]./,,, 2014, 22(1): 138-150.

[6] CHEN Yujui, WEI Chengwen, CHIANG Yifan,. Neuromorphic pitch based noise reduction for monosyllable hearing aid system application[J].,2014, 61(2): 463-475.

[7] 王玥, 钱志鸿, 张营. 基于扩展谱相减的RCAF基音周期检测算法[J]. 电子与信息学报, 2009, 31(5): 1161-1165.

WANG Yue, QIAN Zhihong, and ZHANG Ying. RCAF pitch detection algorithm based on expanded spectral subtraction [J].&, 2009, 31(5): 1161-1165.

[8] SHIMAMURA T and KOBAYASHI H. Weighted autocorrelation for pitch extraction of noisy speech[J]., 2001, 9(7): 727-730.

[9] 徐敬德, 常亮, 崔慧娟, 等. 基于频域和时域结合的基音周期提取算法[J]. 清华大学学报, 2012, 52(3): 413-415.

XU Jingde, CHANG Liang, CUI Huijuan,. A pitch period detection algorithm using time and frequency analyses[J]., 2012, 52(3): 413-415.

[10] SHAHNAZ C, ZHU W P, and AHMAD M O. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time-domain matching scheme[J].,,, 2012, 20(1): 322-335.

[11] HUANG F and LEE T. Pitch estimation in noisy speech using accumulated peak spectrum and sparse estimation technique[J].,,, 2013, 21(1): 99-109.

[12] GONZALEZ S and BROOKES M. PEFACA pitch estimation algorithm robust to high levels of noise[J]., 2014, 22(2): 518-530.

[13] BYRNE D, DILLON H, TRAN K,. An international comparison of long term average speech spectra[J]., 1994, 96(4): 2108-2120.

[14] BROOKES M. VOICEBOX: A speech processing toolbox for MATLAB[OL]. http://www.ee.ic.ac.uk/hp/staff/dmb/ voicebox/voicebox.html. 2015.1.

[15] PLANTE F, MEYER G F, and AINSWORTH W A. A pitch extraction reference database[C]. 4th European Conference on Speech Communication and Technology, Madrid, 1995: 837-840.

[16] STEENEKEN H J and GEURTSEN F W. Description of the RSG-10 noise database[R]. Report IZF 1988-3 TNO, Soesterberg: Institute for Perception, 1988.

[17] International Telecommunication Union-TP.56. Objective measurement of active speech level[S]. Geneva, 1993.

[18] 张文耀, 许刚, 王裕国. 循环AMDF及其语音基音周期估计算法[J]. 电子学报, 2003, 31(6): 886-890.

ZHANG Wenyao, XU Gang, and WANG Yuguo. Circular AMDF and pitch estimation based on it[J]., 2003, 31(6): 886-890.

[19] 韩明, 刘教民, 孟军英, 等. 一种自适应调整的混合高斯背景建模和目标检测算法[J]. 电子与信息学报, 2014, 36(8): 2023-2027. doi: 10.3724/SP.J.1146.2013.01438.

HAN Ming, LIU Jiaomin, MENG Junying,. A modeling and target detection algorithm based on adaptive adjustmentfor mixture Gaussian background[J].&, 2014, 36(8): 2023-2027. doi: 10.3724/SP.J.1146.2013.01438.

[20] TALKIN D. Speech Coding and Synthesis[M]. Elsevier Science, 1995, Chapter.14: 495-518.

徐静云: 男,1980年生,博士生,研究方向为语音信号处理与语音编码.

赵晓群: 男,1962年生,博士生导师,研究方向为通信与信息理论.

王 峤: 女,1990年生,硕士生,研究方向为语音编码.

王缔罡: 男,1988年生,博士生,研究方向为通用压缩文件的容错译码.

Foundation Items: The National Natural Science Foundation of China (61271248),Huzhou City (2015YZ04)


Voiced Unvoiced Classification and Pitch Estimation Based on Amplitude Compression Filter

XU Jingyun①②ZHAO Xiaoqun①WANG Qiao①WANG Digang①

①(School of Electronics and Information, Tongji University, Shanghai 201804, China)②(School of Engineering, Huzhou University, Huzhou 313000, China)

A method of voiced/unvoiced classification and pitch estimation based on Pitch Estimation Filter with Amplitude Compression (PEFAC) is proposed in this paper. The method first attenuates strong noise components at the low frequencies based on PEFAC and extracts pitch harmonic from noisy speech in the log-frequency domain. Then, the harmonic number associated with the pitch harmonic is determined by Symmetric average magnitude sum function weighted Impulse-train Matching (SIM) scheme in time domain. A pitch tracking scheme using dynamic programming is applied to select the pitch candidates and a voiced speech probability is computed from the likelihood ratio of Gaussian Mixture Models (GMMs) classifiers based on 3-element feature vector. The simulated results show that the proposed method efficiently reduces voiced/unvoiced and pitch estimation error, and it is superior to some of the state-of-the–art method in the real environment.

Pitch Estimation Filter with Amplitude Compression (PEFAC); Symmetric average magnitude sum function; Gaussian Mixture Model (GMM); Noise speech

TN912.3

A

1009-5896(2016)03-0586-08

10.11999/JEIT150778

2015-06-29;改回日期:2015-12-02;网络出版:2016-02-03

赵晓群 zhao_xiaoqun@tongji.edu.cn

国家自然科学基金(61271248),湖州市自然科学基金(2015YZ04)

猜你喜欢
浊音基音高斯
小高斯的大发现
天才数学家——高斯
基于基音跟踪的语音增强研究
日语半浊音的变化规律研究
青年与社会(2019年4期)2019-03-29 12:03:32
清浊音分离抗噪的语音识别算法的研究
有关鼻浊音使用实态的研究
——以NHK新闻为中心
小说月刊(2017年14期)2017-12-06 12:37:01
有限域上高斯正规基的一个注记
乐理小知识
小演奏家(2014年11期)2014-12-17 01:18:52
一种改进的基音周期提取算法
日语与永州方言浊音相似点小议①