非平稳强噪声环境中的音频信号端点检测系统

2024-09-16 00:00:00郭凯丽王建英
现代电子技术 2024年10期
关键词:端点音频语音

摘" 要: 为提高音频信号端点识别能力,设计一种非平稳强噪声环境中的音频信号端点检测系统。构建音频信号端点检测硬件单元,利用预处理单元对音频信号进行预加重、分帧以及加窗处理后,端点检测单元在提取处理音频信号的MFCC倒谱距离特征、频带方差特征的基础上,依据动态阈值估计策略确定恰当阈值;通过双特征参数双门限法来实现对音频信号起止点的确定以及语音帧和非语音帧的分离;利用包络确定延时单元,防止噪声段被错误识别为语音段,避免出现拖尾太长问题。实验结果表明,所设计系统可实现非平稳强噪声环境音频信号端点检测,检测误差满足设定要求。

关键词: 非平稳噪声; 强噪声; 音频信号; 端点检测; MFCC特征; 频带方差; 动态阈值估计; 双门限法

中图分类号: TN919⁃34; TP311" " " " " " " " " "文献标识码: A" " " " " " " " " " " 文章编号: 1004⁃373X(2024)10⁃0018⁃05

Audio signal endpoint detection system in non⁃stationary strong noise environment

Abstract: In order to improve the ability of audio signal endpoint recognition, an audio signal endpoint detection system is designed in non⁃stationary and strong noise environments. A hardware unit for audio signal endpoint detection is constructed, and a preprocessing unit is used to perform pre emphasis, framing, and windowing processing on the audio signal. On the basis of extracting the MFCC cepstral distance feature and frequency band variance feature of the audio signal, the endpoint detection unit can determine the appropriate threshold based on the dynamic threshold estimation strategy. The dual feature parameter and dual threshold method is used to determine the start and end points of the audio signal and separate the speech and non speech frames. The envelope is used to determine the delay unit to prevent the noise segment from being incorrectly recognized as a speech segment and to avoid the problem of too long trailing. The experimental results show that the designed system can reailze the endpoint detection of audio signals in non⁃stationary strong noise environments, and the detection error can meet the set requirements.

Keywords: non⁃stationary noise; strong noise; audio signal; endpoint detection; MFCC features; frequency band variance; dynamic threshold estimation; dual threshold method

0" 引" 言

音频是一种包含声音信息的媒体形式,可以呈现语言、音乐和其他声音内容[1⁃2]。在实际生活中,无法保证音频信号采集环境绝对安静,因此,音频信号采集质量大打折扣,导致大量有效信号淹没在噪声中难以分辨[3]。音频信号端点检测的目的是剔除采样信号中的噪声段信息,实现音频起止点的分割[4]。高精度音频信号端点检测不仅可使音频识别难度、处理时长得到降低,而且能够实现音频中噪声以及无声信号的剔除,避免给音频的分析与处理带来不利影响[5]。

肖思等在多通道空间特征提取的基础上,采用双门限阈值法判断当前帧是否为语音帧,以实现其端点检测[6]。但是该方法的检测效果并不理想,这是因为仅通过这两个特征很难在非平稳强噪声环境下实现语音段的精准分辨。韩云霄等在此基础上进行改进,通过将音频信号的梅尔频谱倒数系数距离与短时能量、过零率特征相结合,提高了音频信号端点检测效果,但因该系统所用阈值不具有时变性,导致难以在非平稳强噪声环境下取得较好的端点检测效果[7]。

鉴于以上研究存在的不足,本文设计一种非平稳强噪声环境中的音频信号端点检测系统,改善端点检测效果,提高音频信号识别能力。实验结果表明,所设计系统可实现非平稳强噪声环境音频信号端点检测,检测误差满足设定要求。

1" 音频信号端点检测系统设计

1.1" 音频信号端点检测硬件单元设计

图1为音频信号端点检测系统硬件框架。

所设计系统共由三部分硬件单元构成,各部分具体功能如下。

1) 音频信号预处理单元。该单元可实现原始音频信号的预加重、分帧以及加窗处理,前者的作用是加强原始音频信号高频分量的辨识度,后者的作用是确保各帧音频信号的起止端具有较好的连续性。通过对音频信号作分帧处理,以获得相对平稳的近似音频信号,便于后续音频信号端点检测效果的提升。

2) 端点检测单元。该单元可实现音频信号MFCC倒谱距离特征以及频带方差特征的提取,在利用中值滤波对其进行平滑处理后,根据动态阈值修正策略,通过双门限法实现非平稳强噪声音频信号的端点检测。

3) 包络确定延时单元。该单元的作用是防止噪声段被错误识别为语音段,导致音频信号端点检测存在拖尾太长问题。

1.2" 多特征与动态阈值下的音频信号端点检测算法

1.2.1" 音频信号MFCC倒谱距离特征的提取

式中:[En,k]为第[n]帧音频信号第[k]条谱线能量值。

设定噪声帧时长为0.2 s,即12帧,计算功率谱均值,并将其视为噪声均值,公式为:

计算各帧功率谱值与噪声功率谱均值之差,实现音频信号的去噪,确定纯净语音功率谱值,计算公式为:

式中[a]、[b]均为固定常数。

利用Mel滤波器确定Mel子带能量,多个[Hmk](其中[1lt;mlt;M])三角形带通滤波器可构成一个Mel滤波器。对于第[n]帧音频信号,其[m]子带上的Mel子带能量通过下式确定:

计算[Sn,m]的对数后,再作离散余弦变换,即可确定MFCC系数,公式为:

计算[MFCCn,j]均值,将其视为音频信号噪声倒谱系数预估结果后,通过下式即可完成信号[xin]的MFCC倒谱距离特征提取:

式中:[p]表示总阶数;[j]表示第[j]阶。

1.2.2" 音频信号的频带方差特征提取

在提取音频信号MFCC倒谱距离特征时,采用离散傅里叶变换对其进行预处理,但该步骤会导致音频信号中的某些细节信息丢失或改变,从而降低了特征的准确性。

音频信号的频带方差特征可实现语音段、噪声段的有效辨识,因此,本文在提取音频信号MFCC倒谱距离特征的基础上,进一步提取音频信号的频带方差特征。

设定[Xi(n)=Xi1,Xi2,…,Xin],通过计算第[i]帧音频信号幅值的平均值[χi],可得其频带方差计算公式为:

通过[Di]可确定[Xin]对于各频带的改变程度,实现音频信号能量特征的刻画。

1.2.3" 音频信号端点检测流程

不同频带的方差值受到环境噪声、音频设备等因素的影响,导致不同频带之间的方差差异不明显,使得区分噪声和语音起始点难度较高。为此,本文采用双门限法实现音频信号端点检测,即在选择合适音频信号特征的基础上,依据动态阈值估计策略确定恰当阈值,通过双特征参数双门限法实现音频信号起止点的确定,以及语音帧与非语音帧的分离。

图2为基于多特征与动态阈值的音频信号端点检测流程。

端点检测流程

1) 对非平稳强噪声音频信号进行预加重、加窗、分帧处理,设定帧长为200 ms。

2) 处理后的音频信号作为谱减法的输入,以抑制强噪声对音频信号特征提取效果的影响,得到处理后的音频信号[xin];再采用功率倒谱分析方法获得MFCC倒谱距离[dMFCCi]特征。

3) 对噪声抑制后的音频信号进行离散傅里叶变换,得到25个子带,各子带包含4条谱线,获得各帧音频信号的子带方差计算结果[Di,1]。

4) 采用中值滤波算法分别对提取的[dMFCCi]、[Di,1]特征进行处理,以减少野点对音频信号端点检测效果的影响,提高特征的平滑度。

5) 动态阈值的修正。利用前导无话段音频时间[NIS]确定该段帧数后,确定该段音频的[dmi]、[Dm(i)]阈值分别为[dmth]和[Dmth],计算公式为:

式中:[t]表示音频时间,[t∈NIS];[dmi]、[Dm(i)]为对应特征处理结果。通过对阈值的调整,可以达到音频信号端点检测效果提升的目的。调整公式为:

式中[α]、[θ]为常数。

6) 通过两级判断实现音频信号端点检测。首先,根据[dmth]筛选出高阈值[T2],实现音频信号端点[11⁃13]的初次判断,大于[T2]的即为语音段;反之,退回步骤5)进行门限值[T1]、[T2]的修正。再将[dmth]作为依据完成[T1]的筛选后,沿相交点两侧进行扩大检索,确定[dmth]、[T1]相交之处,实现音频信号起止点的粗检测。然后,根据[Dmth]筛选出高门限值[T4],沿音频信号的粗检测起止点继续向两侧进行扩大检索,大于[T4]门限值的即为语音段;反之对[T3]、[T4]门限值进行修正,再次将[Dmth]作为依据完成[T3]的筛选后,继续沿先前确定的起止点向两侧进行扩大检索,确定[Dmth]、[T3]相交之处,实现音频信号起止点的最后确定。

2" 实验分析

以Intel 酷睿i5 8400为CPU,NVIDIA GTX 1060为GPU,在Linux操作系统下设计音频信号端点检测系统。以数据库存储的纯净音频信号为实验对象,将不同类型强干扰噪声加入到纯净音频信号中,构建包含0 dB、5 dB、15 dB、25 dB四种信噪比的音频信号样本数据集。设定采样频率、位数分别为8 kHz、16 bit,利用设计系统对样本数据集中的音频信号进行端点检测,分析其检测效果。

音频信号的不平稳性会对其端点检测效果产生不利影响,故本文对音频信号样本进行分帧等处理,确保音频信号连续不间断。设定各帧音频信号时长为20 ms,该信号由320个采样点构成,帧移为10 ms,大致包含160个采样点。以样本数据集中的bliesky1.wav音频信号为例,其播放时长为10 s,纯净以及5 dB强噪声下的bliesky1.wav音频信号波形如图3所示。

采用设计系统对该强噪声音频信号进行端点检测,将文献[6]系统、文献[7]系统作为对比系统,通过对比分析各系统的音频信号端点检测结果,验证设计系统的检测性能。各系统的检测结果如图4~图6所示,其中起始点用竖实线标记,终止点用竖虚线标记。

分析图4~图6可知:应用设计系统对5 dB信噪比下的强噪声音频信号进行端点检测,可完成音频信号起止点的检测;文献[6]系统存在语音段、噪声段误检问题;文献[7]系统未能成功检测出5.7~6.2 s区间的语音段信号,存在语音漏检问题。实验结果表明,本文方法具有音频信号端点检测性能,检测效果优于对比系统。

将不同类型噪声注入到bliesky1.wav纯净音频信号中,采用手工方式对音频信号端点进行标注,并将其作为端点标记实际值,若检测结果与实际标注结果误差在3帧以内,则认为检测结果正确。

通过对比分析不同系统检测结果与实际标记结果差异,验证本文系统的检测效果,实验结果如表1所示。

分析表1可知:对含有不同噪声的音频信号进行端点检测,设计系统获得的音频端点检测结果与实际手工标注结果误差在3帧之内,可达到实验设定要求,具有突出的检测效果;文献[6]系统和文献[7]系统的音频信号端点检测结果误差均高于允许值,前者检测的音频信号起止点均不够准确,存在语音段、噪声段错误检测问题,后者只在终止点处存在错误分割。综上可知,设计系统具有更优的音频信号端点检测性能,检测效果显著。

3" 结" 论

为提高音频信号端点识别能力,设计一种非平稳强噪声环境中的音频信号端点检测系统。构建音频信号端点检测硬件单元,利用预处理单元对音频信号进行预加重、分帧以及加窗处理后,端点检测单元在提取处理音频信号的MFCC倒谱距离特征、频带方差特征的基础上,依据动态阈值估计策略确定恰当阈值;通过双特征参数双门限法来实现对音频信号起止点的确定以及语音帧和非语音帧的分离;利用包络确定延时单元,防止噪声段被错误识别为语音段,避免出现拖尾太长问题。在构建的音频信号样本数据集上,通过对比实验分析所设计系统的音频信号端点检测效果,以验证该系统的实际应用效果。实验结果表明:所设计系统可实现音频信号端点检测并标记出起始位置,检测误差满足设定条件,检测效果较好。

参考文献

[1] 罗思洋,龙华,邵玉斌,等.噪声环境下多特征融合的语音端点检测方法[J].云南大学学报(自然科学版),2021,43(4):671⁃680.

[2] 俞景彦,赵晓群.噪声环境下应用于语音标注的端点检测算法研究[J].南京邮电大学学报(自然科学版),2021,41(1):25⁃33.

[3] 陈锡锻,张恪莱.一种低信噪比环境下的语音端点检测算法[J].电声技术,2023,47(4):66⁃68.

[4] 吴亚文,邵睿,李淼,等.基于改进EMD⁃TEO倒谱距离的生猪音频信号端点检测[J].中国农业大学学报,2021,26(4):104⁃116.

[5] 卜玉婷,曾庆宁,郑展恒.一种低信噪比环境下的语音端点检测算法[J].声学技术,2020,39(5):592⁃602.

[6] 肖思,龚杰,李宝清.低信噪比环境下的多通道语音端点检测算法[J].中国科学院大学学报,2023,40(5):687⁃693.

[7] 韩云霄,邵清,符玉襄,等.复杂噪声中基于MFCC距离的语音端点检测算法[J].计算机工程,2020,46(3):309⁃314.

[8] 马宇飞,陈骁,王荔,等.一种基于Gammatone滤波器组的语音识别噪声鲁棒特征[J].电声技术,2022,46(9):97⁃100.

[9] 罗勇江,杨腾飞,赵冬.色噪声下基于白化频谱重排鲁棒主成分分析的语音增强算法[J].电子与信息学报,2021,43(12):3671⁃3679.

[10] 张添添,王婧.基于At⁃LSTM模型的音/视频双流语音识别算法仿真[J].计算机仿真,2023,40(1):251⁃254.

[11] 蒋学仕.基于噪声估计的改进能量熵语音端点检测算法[J].电讯技术,2021,61(8):1026⁃1033.

[12] 朱敏.基于改进语音信号双门限法端点检测算法的研究[J].湖南文理学院学报(自然科学版),2023,35(3):48⁃53.

[13] 王中正,王鉴,韩焱,等.一种舰载低信噪比环境下的音频端点检测算法[J].兵器装备工程学报,2023,44(3):197⁃203.

[14] 林斌,胡国平,周豪,等.强干扰及非平稳噪声复合背景下相干信源的DOA估计方法[J].现代雷达,2022,44(5):72⁃78.

[15] 马世龙,徐雅南.一种非平稳噪声背景下的线谱相干检测方法[J].数字海洋与水下攻防,2021,4(3):188⁃194.

猜你喜欢
端点音频语音
非特征端点条件下PM函数的迭代根
不等式求解过程中端点的确定
魔力语音
基于MATLAB的语音信号处理
电子制作(2019年14期)2019-08-20 05:43:38
基于MQ3与MP3的价廉物美的酒驾语音提醒器
电子制作(2019年9期)2019-05-30 09:42:10
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
对方正在输入……
小说界(2018年5期)2018-11-26 12:43:42
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
参数型Marcinkiewicz积分算子及其交换子的加权端点估计
音频分析仪中低失真音频信号的发生方法
电子制作(2017年9期)2017-04-17 03:00:46