基于主成分的频谱迭代稀疏化语音增强方法

2024-06-29 00:53董娴邵玉斌杜庆治龙华马迪南
关键词:主成分分析

董娴 邵玉斌 杜庆治 龙华 马迪南

摘 要: 针对现有频谱稀疏化方法在复杂环境语音增强上性能不佳的问题,提出一种基于主成分分析的迭代频谱稀疏化方法. 首先,对输入信号的语谱图进行二维中值滤波处理,得到行分量频谱和列分量频谱;对包含语音主音的行分量频谱序列进行主成分分析(PCA),以去除噪声部分并保留主要语音结构;然后联合列分量频谱序列和缩放因子进行混合重构原信号,并采用动态缩放因子实现对列分量频谱噪声的有效控制. 在此基础上,利用稀疏化对噪声的抑制作用,对频谱进行多次稀疏化,以减弱噪声. 实验结果表明,该方法增强了不同类型噪声下语音的信噪比,包括White、Pink、Babble、Volvo 和Factory 等五种噪声,输入信噪比为15 dB,所提方法的信噪比分别提升了13. 89 dB,11. 97 dB,5. 65 dB,5. 26 dB 和4. 73 dB,该方法在其他信噪比下也能有效地抑制噪声和保留有效特征信息,并减少因背景噪声引起的语音失真.

关键词: 语音增强; 多维度频谱分析; 谱稀疏化; 主成分分析

中图分类号: TN912. 3 文献标志码: A DOI: 10. 19907/j. 0490-6756. 2024. 033007

1 引言

在自动语音识别(Automatic Speech Recognition,ASR)系统中,语音增强是一个必不可少的过程,语音信号处理在其中发挥着重要作用. 语音增强是指对被污染的语音信号进行处理,减少噪声的干扰,改善噪声环境下的语音质量,从而增强语音的可懂度和主观听觉质量[1]. 对于听觉受损的人群来说,语音增强技术旨在提升人工耳蜗在噪声环境中的语音清晰度,以解决困扰多数听障人群听不清的难题[2]. 为了提高语音识别系统在噪声环境下的性能,通常在时域或频域上进行处理,以抑制语音失真和引入的人工噪声. 谱减法[3]、基于统计模型的语音增强算法[4]和信号子空间算法[5]等等都是广泛使用的几种经典语音增强算法.

在语音增强算法中,基于短时谱估计的增强算法[6]因其效率高、计算简单且易于处理而被广泛使用,比如用含噪信号的频谱减去估计的噪声频谱来得到纯净的语音频谱的谱减法. 该方法易于实现的同时大大削弱了信号中的噪声,但是存在一个明显的缺点就是谱减法的有效性很大程度上依赖于准确的噪声估计,噪声的随机性增加了噪声估计的困难,大多数情况下当噪声估计的不够准确,就会引发“音乐噪声”和失真等问题. 有关统计模型的方法是将语音增强纳入基于最优准则的统计假设估计问题,比如维纳滤波[7]、最小均方误差方法和最大后验方法. 一般假设语音信号和噪声信号是统计独立的,且分别服从特定的分布,而统计模型的难点在于模型参数的鲁棒估计;信号子空间算法是一种基于语音信号子空间和噪声子空间正交假设的方法,然而在短时情况下从信号子空间中估计纯净语音信号是非常不精确的[8]. 最近提出的多项式矩阵特征值分解算法(PolynomialMatrix Eigenvalue Decomposition, PEVD)[9]不依赖于信号假设和噪声估计,在信号失真较小的情况下显著提高了可懂度和降噪效果,然而,该方法在非平稳噪声环境下无法适应声学场景的变化.基于迭代约束非负矩阵分解(Iterative ConstrainedNon-negative Matrix Factorization, ICNMF)[10]的语音增强方法解决了非平稳噪声环境下语音增强性能不佳的问题. 通过调整噪声和语音的基向量权重最小化维纳滤波器估计误差,显著提高语音的质量和可懂度,由于需要提供对语音和噪声样本必要统计的精确估计,算法运行时间较长且计算成本较大. 基于压缩感知矩阵的主列群正交化(Dominant Columns Group Orthogonalization ofthe Sensing Matrix, DCGOSM)[11]语音增强方法通过计算噪声和语音样本的列贡献,对感知矩阵中的语音主导列向量进行迭代加速信号重构大大减少语音恢复时间,有效避免噪声分量,从而在重构信号中降低了噪声.

本文针对复杂环境下语音信号的质量和清晰度容易受到噪声的污染,且难以从噪声中提取有用的语音信号等问题提出了一种提高语音质量的频谱稀疏化语音增强方法. 该方法首先对语音信号的语谱图进行二维中值滤波分析,获取包含语音主要结构的行分量频谱和列分量频谱,然后把基于主成分分析(Principal Component Analysis,PCA)的低秩近似应用于行分量频谱的连续谱分量. 稀疏化的目的在于强调频谱结构中的重要谱分量,例如包含来自元音的谐波结构和靠近共振峰区域的主要谐波,并去除频谱中不太突出的部分,使得背景噪声和一些更细微的谐波被衰减. 而清音的结构与噪声类似,在时频域中没有明显的差异,对清音的增强难度较大,因此本文仅对浊音部分采用稀疏化的方法进行增强处理. 实验结果表明,本文算法在多种噪声环境下的噪声消除性能优于其他语音增强方法的性能,并且不依赖于噪声的估计和原始语音的先验知识.

本文在第2 节将介绍语音信号多维频谱中值滤波分离行分量和列分量的原理、主成分分析,讨论频谱稀疏化对噪声的抑制作用以及在此基础上提出的多次迭代稀疏化方法的有效性;第3 节解释语音增强算法输出的语音质量以及噪声的评估方法;第4 节是对所提算法的实验总结以及仿真结果分析.

2 基于PCA 的频谱稀疏化方法

2. 1 多维度频谱分析

输入信号x ( t ) 经过采样并分帧后,由短时傅里叶变换

猜你喜欢
主成分分析
Categorizing Compiler Error Messages with Principal Component Analysis
关于AI上市公司发展水平评价
大学生创业自我效能感结构研究
塔里木河流域水资源承载力变化及其驱动力分析
我国上市商业银行信贷资产证券化效应实证研究
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
农村劳动力转移影响因素与转移数量的动态关系研究