武田甜, 李 静
(中北大学, 山西 太原 030051)
人类听觉系统可依据音频在两耳间的声级差、声音到达两耳的时间判断声音源位置和距离[1],例如视频观看、电话会议、汽车免提系统、音乐会和演唱会等,但是目前在声音传播和接收过程中[2],环境中会存在大量噪声,干扰声音的质量,因此通常会采用单声道音频抵消器进行噪声处理[3],但是该方式无法利用左右声道差还原真实空间化听觉感受。为提升听觉感受,降低噪声干扰,双声道音频回波抵消器被重点研究[4]。该抵消器能够提供更佳的听觉感受,并且能够提升远端说话人员的分辨率,还原真实空间化听觉感受。双声道音频回波抵消器是在单声道音频抵消器的基础上演变而来的,在应用时双声道系统中输入信号之间会发生较强的关联性,从而导致抵消器中的滤波收敛速度下降[5],甚至发生收敛路径失调以及混叠等现象。文献[6]为实现声音干扰抑制,采用深度学习构建声音回波抑制模型,该模型在应用过程中可完成干扰信号的抑制,但是对于远端人员说话的分辨率无法进行优化。文献[7]为保证回波信号的听觉质量,获取音频的频域先验信息后进行稀疏分解;构建频域先验稀疏矩阵后进行音频信号重构。该方法能够有效降低音频中的噪声干扰,但还是无法提升声音的空间化感受。
为提升双声道音频回波抵消器的应用效果,保证真实空间化听觉感受效果,提升声音质量,本文构建了噪声环境下的双声道音频回波抵消模型,并通过实验验证了该模型的有效性。测试结果表明:所设计模型可有效处理音频信号中的噪声信号,抵消后的音频信号信噪比均在3.5 dB 以上,音频信号的振幅误差均在0.2 V 以下,能够提升远端人员说话的分辨率,保证音频质量。
为实现双声道回波抵消,并避免发生收敛路径失调以及混叠等现象[8],基于子带分解设计双声道回波抵消结构,如图1 所示。
图1 基于子带分解的双声道回波抵消结构
所设计的双声道回波抵消结构在应用过程中,主要依据下采样的方式并结合子带自适应滤波器组设计消除音频混叠信号之间的干扰[9],极大程度地提升音频质量以及远端说话人员的分辨率,保证声音的空间化感受。
1.2.1 子带自适应滤波器组结构
考虑到噪声环境中的双声道音频回波信号在不同频率上具有变化特性,而利用子带分解可以将原始信号分解成多个子带,使得每个子带可以独立进行处理,以更好地抵消回波信号对主信号的影响,因此,在双声道音频回波抵消前,优先设计子带自适应滤波器组结构。基于子带分解的双声道回波抵消结构在应用过程中,子带自适应滤波器组是模型的重要部分,其能够保证音频回波抵消效果[10],对于消除音频混叠信号之间的干扰具有重要作用。因此,本文结合双声音频回波抵消需求设计子带自适应滤波器组,其结构如图2 所示。
图2 子带自适应滤波器组结构
子带自适应滤波器组可通过均匀或者非均匀两种方式将音频信号进行分解,使其形成若干个子频带信号,其可在子带域内完成原始音频回波信号的处理,同时依据人耳听觉特性的回波抵消方法实现音频信号处理,消除音频混叠;并且能够显著提升音频回波信号处理效率。
1.2.2 依据人耳听觉特性的回波抵消方法
利用子带自适应滤波器组对音频回波抵消时,需以人耳听觉特性为依据,结合噪声环境特性[11],采用依据人耳听觉特性的Bark 域子带回波抵消方法实现音频回波噪声处理,消除音频混叠。该方法整体分为两个部分,分别为噪声干扰阈值计算和回波抵消,详细内容如下所述。
1) 噪声干扰阈值计算
噪声是影响音频回波质量的主要因素[12],因此,为实现音频回波的有效处理,先进行噪声干扰阈值计算。依据频带频率范围完成音频信号临界频带划分,计算临界频带功率谱Pl(f),公式为:
式中:Re 表示变换幅值;Vl(f)表示音频信号变换结果;Im 表示变换能量。
计算各个临界频带内的信号能量Bl,公式为:
式中:f0和f1分别表示临界频带的下、上边界。
不同临界频带之间的音频信号也存在相互混叠情况,因此在完成Bl的计算后,文中引入扩散函数S进行扩散谱的计算。如果sij为S中的元素,其中i表示本地临界频段,j表示扩散频段,扩散谱C的计算公式为:
完成扩散谱C的计算后,确定噪声阈值。正常情况下音频回波信号存在两种阈值,即噪声混叠语音[13]和语音混叠噪声,文中主要是以语音混叠噪声为主,将语音中的噪声进行区分,以此降低双声道系统中输入信号之间较强的关联性。噪声阈值的计算公式为:
式中l′表示临界频段频率中值。
2) 回波抵消
完成噪声干扰阈值计算后,通过人耳听觉特性子带双声道回波抵消算法进行回波抵消处理。输入双声道信号x1和x2,通过子带自适应滤波器组进行处理后,抽取信号的下采样抽取因子s0~s3。
依据公式(4)计算噪声阈值,分别用ξ1l和ξ2l表示,依据阈值的计算结果对噪声进行独立分布白噪声的叠加[14],在此基础上进行各个子带的回波抵消,其抵消结果计算公式为:
子带自适应滤波器组在进行回波抵消过程中,其稳态收敛速度较慢,并且误差抑制能力也存在一定不足。此外,因噪声环境随时间发生变化,导致回波信号的特性发生对应的变化。通过优化子带自适应滤波器组的参数,可以及时适应回波信号的变化,以保持回波抵消效果的准确性和稳定性。本文为提升音频回波抵消效果,采用改进最小均方算法进行滤波器组优化,在优化过程中,引入步长补偿因子和反馈控制理念提升抵消效果。
在优化过程中,需要通过不断调整滤波器参数来逼近最优解,而合适的步长因子可以加快滤波器组收敛速度,使优化过程更快地达到最佳参数配置。为此,首先对迭代步长因子μ(n)进行更新,计算公式为:
依据上述公式完成优化后,进行归一化处理,获取子带自适应滤波器组参数优化结果w′,公式如下:
式中τ表示常数。
依据上述步骤完成子带自适应滤波器组参数优化,以此提升滤波器组的收敛速度和回波抵消效果。
为验证本文模型的应用效果,进行实验测试。
本文选择某企业语音会议音频作为测试对象,该音频的采集环境为正常会议室环境,该环境中存在其他人员声音以及空调声音,将这些声音作为噪声,根据图3的流程进行测试。
图3 实验测试流程
图3 中,采样过程中的音频采样频率为44 kHz,音频信号长度为40 000 B。子带自适应滤波器组的初始步长因子为0.01,迭代次数为100 次,滤波器阶数为32,环境中的噪声为20 dB。
为验证本文模型的信号噪声处理效果,采用本文模型对采集的音频信号进行滤波降噪处理,获取滤波降噪前后的音频信号结果,如图4 所示。
图4 滤波降噪前后音频处理结果
依据图4 测试结果可知:采集的原始信号中存在一定噪声信号,对于音频信号产生较大影响;采用本文模型进行处理后,音频信号中的噪声信号被有效处理,为音频回波抵消处理提供了可靠的音频信号基础。
为验证本文模型的音频回波抵消效果,文中采用信噪比ψRSN作为评价指标,获取回波抵消优化前后音频信号的信噪比结果,该值越大表示抵消效果越好。ψRSN的计算公式为:
式中:x(n)表示未知信号;x~(n)表示处理后信号。
依据上述公式计算本文模型在不同大小输入信噪比的情况下滤波器组的输出结果,如表1 所示。
表1 滤波器组的输出结果 dB
依据表1 测试结果可知:随着输入信号中信噪比的不断增加,本文模型进行回波抵消优化前,输出的ψRSN结果均在3.5 dB 以下;本文模型优化后,输出的ψRSN结果均在12.3 dB 以下,最小ψRSN结果为3.5 dB。本文模型优化后的回波抵消应用效果显著提升,能够更好地实现音频回波抵消处理,保证音频信号的真实空间化听觉感受效果,提升声音质量。
远端说话人员的分辨率是描述真实空间化听觉感受效果的重要标准,该分辨率可通过音频振幅进行描述,振幅的偏差越小,表示音频回波抵消效果越佳,真实空间化听觉感受效果越佳。因此,为进一步验证本文模型的应用效果,获取本文模型对不同大小音频信号进行回波抵消后的误差结果,如图5 所示,期望误差低于0.2 V。
图5 回波抵消后的误差结果
依据图5 测试结果可知:采用本文模型进行不同大小信噪比的人声音频回波抵消处理后,音频信号的振幅误差结果均在0.2 V 以下,其中最大误差仅为0.14 V。因此,本文模型具有较好的双声道音频回波抵消效果,可提升远端人员说话的分辨率,并且能够极大程度上避免信号混叠现象。
为提升接听者的听觉感受以及音频信号质量,本文提出一种噪声环境中的双声道音频回波抵消模型。该模型主要以子带自适应滤波器组为核心,并结合参数优化方法获取最佳的音频信号滤波效果,实现音频回波抵消处理。测试结果表明:本文模型具有较好的应用效果,能够有效处理音频信号中的噪声信号,保留有效的音频信号,更好地保证音频质量,提升真实空间化听觉感受效果。