姚 成,李京文
1.安徽财贸职业学院电子信息系,安徽合肥,230601;2.安徽职业技术学院信息工程系,安徽合肥,230051
由于只有在噪声环境下研究语音信号的盲分离才有实际的应用价值。研究有噪ICA问题,其中包括瞬时混合有噪ICA问题,其数学模型描述如下:
设x=[x1,x2,…,xN]T和s=[s1,s2,…,sN]T分别是观测信号向量和源信号向量,N是传感器个数,M是信源个数,要求M≤N[1],为了讨论简便起见,可令M=N瞬时混合情况下,n为噪声信号向量。
x=As+n
(1)
其中A是一N×N标量混合矩阵,ICA的目的是寻求分离矩阵W,使得
y=Wx
(2)
y为对信源s的估计,如图1所示。
图1 有噪瞬时混合盲源分离方框图
瞬时有噪混合模型是其他模型的基础,其算法研究对于其他模型有指导意义。实际环境中,由于延时和反射等原因,接收到源信号的混合更近似于卷积混合。卷积混合ICA问题数学模型描述如下:
(3)
(4)
(5)
H(p)是分离滤波器矩阵,W(q)是需要寻找的分离滤波器矩阵,将图1中的混合矩阵A和分离矩阵W用混合滤波器矩阵H(p)和分离滤波器矩阵W(q)取代,便得到卷积矩阵混合有噪盲源分离方框图,如图2所示。
图2 有噪卷积混合盲源分离方框图
在(1)式中,如果观测向量、源向量和混合矩阵H(p)为取复值时,上述ICA问题被称为复值ICA。例如,频域ICA问题就需要用到复值ICA算法。目前,已提出多种复值ICA算法,如基于高阶统计量(HOS)的复值Jade算法,基于极大非高斯性的峭度极大不动点算法、峭度梯度算法、负熵梯度算法,基于信息论的Infomax算法等,为了讨论方便,本文选用复值Jade算法、峭度极大不动点算法和Infomax算法来进行有噪分离效果比较。
由于实录的语音信号是源信号的混合信号,而源信号未知,很难定量衡量算法的分离性能,因此,比较算法的分离效果,往往是将纯净的语音信号通过己知的卷积混合信道混合起来,然后通过算法分离,再用有关的技术指标进行客观评估,对实录的语音信号进行主观评估,比对两者的结果,从而得出有实际意义的结论。
该算法天然具有抗高斯噪声的特性,这是因为高斯分布的随机信号没有高于二阶的累积量。
Oja提出了基于峭度的快速不动点算法:
步骤1:给定初始值W0=W(随机的),观测向量x;
步骤2:对x白化处理;
步骤3:计算y=Wx,η,g(y);
步骤4:计算ΔW=η(I-g(y)yT)W;
步骤5:计算W=W+ΔW
重复步骤3,4,5步直至收敛,求出W。
把源信号的估计分解为一个四项的和的形式[5]:
其中starget(t)是允许形变范围内对目标源信号的估计;einterf(t)是允许形变范围内对干扰源信号的估计,通常是指其他的独立源;enoise(t)是允许形变范围内对噪声信号的估计,该噪声不是由源信号自带的;eartif(t)是算法或其他因素产生的误差。
然后计算下列各项:
SDR是失真率,反映分离信号的声学质量;SIR是干扰比,反映其他的独立源对目标源的影响;SNR是信噪比,反映算法的抗噪声干扰的能力;SAR是人工比,反映算法或其他因素造成的误差。
注意,4种指标只有在源信号和噪声信号已知的情况下才能进行分解计算,分析噪声对算法的影响,首先比较SNR信噪比,然后比较SIR干扰比,最后参考SDR失真率、SAR人工比。
在不知道声源信号的情况下,可以采用主观评价,即根据语音信号的分离波形图和对语音质量的感觉来综合评价。
为了测量分离性能指标,实验中使用2个纯净音频信号进行混合,然后利用不同的算法进行分离,计算出SNR、SIR、SDR、SAR。混合矩阵为:
实验音频文件来自于NOIZEUS语音库(http://www.utdallas.edu/~loizou/speech/noizeus/),选择sp01.wav、sp19.wav音频信号。然后对两路信号分别加以0、5、10、15、20、25、30、35、40、45、50dB的军用汽车噪音(leopard.wav)和白噪音(white.wav),信号来源于Signal Processing Information Base(SPIB)的noiseX-92噪声库,利用Jade算法、峭度极大不动点算法、Infomax算法来进行盲分离,帧重叠的长度32、分帧长度64、FFT变换的系数长度64,如图3~图8所示。
图3 Jade算法
图4 峭度极大不动点算法
图5 Infomax算法
图6 Jade算法
图7 峭度极大不动点算法
图8 Infomax算法
从图中可以看出,当加入的是军用汽车噪声时,Jade算法有抑制噪音的作用;其他均没有,而且在信噪比为15时有一个峰值,以后趋于平衡。军用汽车噪声对Jade算法SIR的值影响不大,对峭度极大不动点算法SIR的值大于10 dB影响不大,对Infomax算法SIR的值大于10 dB影响不大。
当加入的是白噪声时,均无抑制作用。但是对Jade算法SIR的值影响不大,对峭度极大不动点算法SIR的值大于20 dB影响不大,对Infomax算法SIR的值大于10 dB影响不大,但是大于5 dB时SIR的值始终大于50。
对SDR、SAR的影响大于30 dB时趋于稳定。
实验表明,Jade算法抗干扰能力要强于另外两种算法。
为了测量分离性能指标,实验中使用2个纯净音频信号进行混合,利用不同的算法进行分离,然后计算出SNR、SIR、SDR、SAR。卷积混合模型[6]为:
h11(n)=[1.00,0.80,0.70,0.40,0.30,0.25,0.20,0.15]
h12(n)=[0.60,0.50,0.50,0.40,0.30,0.20,0.25,0.10]
h21(n)=[0.50,0.50,0.40,0.35,0.30,0.30,0.20,0.10]
h22(n)=[1.00,0.90,0.80,0.60,0.40,0.35,0.30,0.15]
实验音频文件来自于NOIZEUS语音库(http://www.utdallas.edu/~loizou/speech/noizeus/),选择sp01.wav、sp19.wav音频信号。然后对两路信号加以军用汽车(leopard.wav)和白噪音(white.wav)0、5、10、15、20、25、30、35、40、45、50 dB噪音信号,信号来源于Signal Processing Information Base (SPIB)的noiseX-92噪声库,利用Jade算法、峭度极大不动点算法、Infomax算法来进行盲分离,帧重叠的长度32,如图9~图14所示为军用汽车噪声干扰下的各项指标性能图,如图12~图14所示为白噪声干扰下的各项指标性能图。
图9 Jade算法
图10 峭度极大不动点算法
图11 Infomax算法
图12 Jade算法
图13 峭度极大不动点算法
图14 Infomax算法
从图中可以看出,当加入的是军用汽车噪声时,峭度极大不动点算法有抑制噪音的作用;其他均没有,而且在信噪比为40时有一个峰值,以后趋于平衡。军用汽车噪声对Jade算法SIR的值影响不大,对峭度极大不动点算法SIR的值大于20 dB影响不大,对Infomax算法SIR的值大于20 dB影响不大。
当加入的是白噪声时,均无抑制作用。但是对Jade算法SIR的值影响不大,对峭度极大不动点算法SIR的值大于20 dB影响不大,对Infomax算法SIR的值始终有影响,但是大于5 dB时SIR的值始终大于30。
混响房间内实录语音信号文件来自于http://cnl.salk.edu/~tewon/pubs.html,rss_mA.wav和rss_mB.wav,分别利用三种算法进行分离,通过波形图和对语音质量的感觉,基本和卷积混合信号盲分离测得的客观评价指标相一致,如图15~图32所示。
仿真实验表明,可以用卷积混合来测试分离效果,关键是混合模型的选择,其结果与混响房间内实录语音信号的盲分离效果比较接近。
基于高阶统计量(HOS)的复值Jade算法,对瞬时混合信号具有抗特定噪声(实验使用的是军用汽车噪声)的特性;基于极大非高斯性的峭度极大不动点算法,对卷积混合信号具有抗特定噪声的特性;三种算法均不具有抗白噪声的能力。
图15 Jade算法0 dB军用汽车噪音
图16 Jade算法5 dB军用汽车噪音
图17 Jade算法50 dB军用汽车噪音
图18 Jade算法0 dB白噪音
图19 Jade算法5 dB白噪音
图20 Jade算法50 dB白噪音
图21 峭度极大不动点0 dB军用汽车噪音
图22 峭度极大不动点5 dB军用汽车噪音
图23 峭度极大不动点50 dB军用汽车噪音
图24 峭度极大不动点0 dB白噪音
图25 峭度极大不动点5 dB白噪音
图26 峭度极大不动点50 dB白噪音
图27 Infomax 0 dB军用汽车噪音
图28 Infomax 5 dB军用汽车噪音
图29 Infomax 50 dB军用汽车噪音
图30 峭度极大不动点0 dB白噪音
图31 峭度极大不动点5 dB白噪音
图32 峭度极大不动点10 dB白噪音
对分离效果而言,三种算法都有分离混合信号的能力,即SIR较为理想,但是在卷积混合中的SDR、SAR值均不理想。
参考文献:
[1]Cao X R,Liu R W.General Approachto Blind SourceSeparation[J].IEEE Transactions on SignalProcessing,1996,44(3):562-570
[2]Cardoso J F.Blind beamforming for Non-Gaussian Signals[J].IEEE Proceedings F,1993,12(6):224-230
[3]Li H L,Adali T.A Class of Complex ICA Algorithms Based on the Kurtosis Cost Function[J].IEEE Transactions on Neural Networks,2008,19(3):408-420
[4]Bell A J,Sejnowski T J.An information maximization approach to blind separation and blind deconvolution[J].Neural Computation,1995,7(6):1129-1159
[5]C F′evotte,R Gribonval,E Vincent.“BSS EVAL toolbox user guide”,IRISA,Rennes,France,Tech Rep,1706,2005[EB/OL].[2012-01-20].Available:http://www.irisa.fr/metiss/bss_eval/
[6]Rahbar K,Reilly J.Blind source separation of convolved sources by joint approximate diagonalization of cross-spectral density matrices[J].IEEEP roceedings of International Conference on Acoustics,Speech,and Signal Processing(ICASSP'01),2001,5:2745-2748