一种改进的基于高阶统计分析的语音激活检测算法*

2020-07-19 02:03孔德廷
通信技术 2020年7期
关键词:高阶高斯残差

孔德廷

(中国西南电子技术研究所,四川 成都 610036)

0 引言

语音激活检测(voice activity detection,VAD)算法[1]是指能够有效的区分语音信号和背景噪音信号,是语音信号处理中一个重要的研究领域,也是语音通信设备中的一个重要组成部分。语音激活检测算法旨在能够准确的将一段语音信号中语音激活区域标识出来,为后续的语音自动增益控制、变速率语音编码、语音识别等模块提供处理依据。语音激活检测算法在很多通信标准中都进行了描述,如ITU G729B[2]中采用的算法融合了能量差分、过零率和谱差分的检测方法。

传统的语音激活检测算法主要包括:基于短时能量[3]、过零率、周期测量、LPC 系数、倒谱特征[4]、谱熵和基于高阶统计量[5]等语音特征参数的方法。近来,一些学者还研究了综合上述方案中优点,综合多种判决规则,提高系统性能。目前的语音激活检测算法通常只适用于平稳的噪声环境,在低信噪比已经非平稳噪声环境中的效果并不理想。

今年来,由于高阶统计量能够有效的抑制高斯噪声,J.M.Gorrize 和J.Ramirez 提出利用语音输入信号的双频谱的三阶累积量进行语音激活检测[6-7],获得了较为健壮的语音判决准则。本文提出了一种健壮的语音检测算法,基于语音信号的高阶统计分析,本算法提出了几种新的属性量用于鉴别语音信号和背景噪音信号。

1 正弦语音分析模型

在语音信号分析过程中,正弦模型是最简单且经常应用最广的,通常也称为零相位谐波表示。该模型最大的优点在于它对于浊音和非浊音使用了相同的表达式,因此,一帧语音信号中的两种类型信号允许以软判决的方式进行区分。短时窗内的语音信号可以表示为:

式中n0表示短时语音起始时间,M表示正弦波个数,am表示相应正弦波幅度,ωm表示相应正弦波频率。对于语音信号,上述模型等效为一组谐波之和,即ωm=M·ω0,其中ω0为基频。

上式中相位分量ψm跟截止频率ωc和语音信号似然概率Pv相关,表示为:

上式中,如果正弦波分量的频率大于语音信号的截止频率,则该分量为噪音信号分量,其对应的相位分量ψm服从[-π,π]之间均匀分布。如果语音信号x(n)为纯净的无噪音语音信号,即语音信号似然概率Pv趋近于1,则所有正弦波分量的相位分量ψm为0。

相位分量θm表示为第m个正弦分量的系统相位分量,为了简化,通常假定该分量为0 或者随分量频率线性变化。

2 高阶统计分析语音激活算法

2.1 LPC 残差特性

基于LPC 预测模型,LPC 残差具有白化输入信号的特性,基于上述正弦语音信号模型,语音信号经过LPC 预测滤波器后,其残差具有如下特性:

(1)语音信号的残差:可以表征为一组具有相同幅度的正弦波分量信号之和,正弦波分量信号的频率与原输入信号相等。如果输入语音信号时平稳的,则所有正弦波分量信号谐相关;否则,可能不是谐相关的。

(2)非语音信号的残差:可以表征为一组具有随机相位的正弦波分量信号之和,可以等效为非高斯-白噪音处理。

(3)高斯噪音的残差:可以等效为高斯-白噪音处理。

2.2 高阶属性量

对于离散语音信号x(n),n取值0,±1,±2,…,则其k阶矩函数定义为:

其相应的二、三、四阶累积量可以表示为:

则二、三、四阶累积量在轴零点位置的取值分别表示为输入信号的方差(Variance)、偏度(Skewness)和峰度(Kurtosis),归一化后分别如下式所示:

上述中归一化的偏度γ3和峰度γ4可以用来作为判决当前语音信号的指示,当输入信号为语音信号时,γ3和γ4均大于0,;当输入信号为高斯噪音信号时,上述值小于等于0。然而,随着SNR 的降低,γ3和γ4作为语音判决指示的可靠性降低,引入偏峰比(SKR)作为另一判决量,其定义如下:

另外,为了估计当前输入信号的信噪比,分别对输入LPC 残差信号以及LPC 残差经过低通滤波器后的信号依据下述公式计算得到两个信噪比(TotalSNR、LpcLpSNR)估计值,下述公式中的SNR均为LpcLpSNR。

式中vg为噪声估计能量。

假定离散语音信号x(n)的频域表示为X(ω),则三阶累积量的垂直分量C3[τ]≡C3(0,τ)的频域可以表示为:

则依据上述LPC 残差特性,可以得到如下结果:

(1)x(n)平稳语音信号的残差:

X(ω) 在频域为正负轴各包含M个等幅度的脉冲,频率公式可表示为X(ω)=(a/2)ejkω,ω=±(ω0,2ω0,…,Mω0),式中k为一系统常数,a为每个谐波分量的幅度。依据频率卷积、点乘原理,可得到:

式中c=23/2/8,Es=m2[0]=M·(a2/2)为信号能量。

(2)x(n)高斯噪音信号的残差:

C3[τ]趋近于或者等于0。

同上述推导过程,可以得到LPC 残差的四阶累积量的垂直分量C4[τ]≡C4(0,τ,τ)在τ=0 时有如下结果:

(1)x(n)平稳语音信号的残差:

(2)x(n)高斯噪音信号的残差:

C4[τ]趋近于或者等于0。

假定一带噪语音信号x(n)=s(n)+g(n),其中s(n)和g(n)相互独立,则信号x(n)的能量等于语音信号s(n)的能量Es和噪音信号g(n)的能量En之和。假定噪音信号为高斯噪音,则依据上述结论,带噪语音信号的高阶统计量C3[0]和C4[0]与纯净语音信号s(n)的高阶统计量相等。表示如下,式中SNR 为带噪语音信号的信噪比:

高斯噪音信号的偏度(Skewness)和峰度(Kurtosis)仅在统计平均下为0,在实际有限长的语音信号处理中,该值通常不能满足上述假定。对于高斯噪音信号g(n),其k阶矩为:

根据文献[8],高斯噪音信号的三阶矩、四阶矩计算量的均值和方差为:

式中vg为噪音信号能力估计。根据中心极限定理[9],高斯噪音信号偏度、峰度的估计值可以表示为:

基于文献[10],对于一个给定语音信号为高斯噪音的概率估计值可以表示为:

LPC 预测误差定义为如下所示,该量表示为预测增益的取逆,通常当输入信号为语音信号时,该值通常较小。故该量用于判决当前信号为语音信号的附加条件。

一段语音信号分为两种状态:语音信号和噪音信号,基于上述统计属性量,两种状态之间的转移状态图如图1 所示。

图1 语音激活检测判决状态

3 仿真分析

文中提出的基于高阶统计的改进型语音激活检测算法相对于传统的高阶统计分析算法,提出了几种新的分析度量。本节将在不同的背景噪音及不同的输入信噪比下,仿真分析文中所提到的改进算法的检测性能。

仿真条件如下:带噪语音信号采样率为8KHz,噪音类型分别为高斯噪声(Gaussian Noise)、类高斯噪音(Gaussian Like Noise),每帧的有效样本点数为160,相邻两帧的重叠样本数为80,输入信号信噪比为-6 dB、0 dB、6 dB、12 dB。归一化偏度阈值Thskewness设置为0.15,归一化峰度阈值Thkurtosis设置为0.15,偏峰比阈值设置为1,噪音概率阈值ThPnoise设置为0.005,信噪比阈值ThSNR和ThTotalSNR分别设置为5 和10。

给出了本文算法在0dB 汽车发动机噪音(类高斯噪音)条件下,与G729 语音激活检测算法的检测结果对比图,图中的顺序依次为:原始语音信号、真实语音信号标志、基于G729 语音激活检测算法的语音激活标志、基于本文算法的语音激活标志。由图2 可知,本文算法相对于G729 语音激活检测算法在类高斯噪音环境下,具有更好的检测性能。

最后,给出在汽车背景噪音和街道背景噪音下不同信噪比时正确检测语音信号的概率(Ps)、正确检测噪音信号的概率(Pn)、以及误判概率(Pf)的对比分析表格。从表1 中可以看出本文算法在语音信号检测正确率以及误判概率等指标上都要优于基于G729 语音激活检测算法,特别在低信噪比条件下,准确识别概率性能的提升更加明显。

图2 汽车噪音条件下的语音激活检测性能对比

表1 本文算法与G729 中语音激活检测算法性能对比

4 结语

本文针对语音信号存在不同背景噪音条件下的语音激活区域检测问题,基于高阶统计理论,通过引入对语音信号LPC 残差域的高阶统计分析模型,提出了几种高阶统计属性量用于语音、噪音信号的判决标准,进而形成一种改进的基于高阶统计的语音检测算法。仿真结果表明,本算法能够有效的识别带噪语音信号中的语音激活区域,且在低信噪比条件下,相对于传统算法具有更好的识别性能。

猜你喜欢
高阶高斯残差
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
基于高阶LADRC的V/STOL飞机悬停/平移模式鲁棒协调解耦控制
数学王子高斯
天才数学家——高斯
高阶思维介入的高中英语阅读教学
高阶非线性惯性波模型的精确孤立波和周期波解
基于高阶奇异值分解的LPV鲁棒控制器设计