平滑L0算法在语音压缩重构中的应用

2017-06-27 08:14薛海双孙林慧欧国振
计算机技术与发展 2017年6期
关键词:范数压缩比高斯

薛海双,孙林慧,欧国振

(南京邮电大学 通信与信息工程学院,江苏 南京 210003)

平滑L0算法在语音压缩重构中的应用

薛海双,孙林慧,欧国振

(南京邮电大学 通信与信息工程学院,江苏 南京 210003)

语音信号在频域和离散余弦变换域等都具有良好的稀疏特性,满足压缩感知的先验条件,因此可以基于压缩感知对语音信号进行处理。语音压缩感知主要包括三个方面:稀疏基、观测矩阵和重构算法。其中,重构算法直接影响着重构信号的质量,是最重要的一部分。传统的语音压缩感知常基于正交匹配追踪算法进行重构。正交匹配追踪算法要求已知信号稀疏度,增加了实现的难度。为了提高语音信号的重构质量、简化实现过程,提出了一种基于平滑L0算法的语音压缩重构模型。平滑L0算法是用平滑函数逼近L0范数,它不需要提前知道信号的稀疏度,具有计算量低、重构质量高等优点。此外,提出了一种新的平滑函数,并基于高斯函数和新的平滑函数来验证平滑L0算法在语音压缩重构中的优越性。实验结果表明,在相同的条件下,相比于正交匹配追踪算法,使用平滑L0算法对语音进行重构,不仅缩短了重构时间,而且大大提高了重构质量。

压缩感知;语音重构;重构算法;平滑L0算法;平滑函数;L0范数

1 概 述

传统上对语音信号进行处理都是基于奈奎斯特采样定理[1]:在发送端对信号进行采样,然后经过压缩、传输到达接收端后,再利用内插、平滑等方法恢复出原始信号。奈奎斯特采样定理要求采样频率必须大于信号最高频率的两倍,否则在接收端将不能很好地恢复原信号。近年来,压缩感知[2](Compressed Sensing,CS)理论在语音信号处理的各领域应用广泛,比如语音增强[3]和声源分离[4]等。不同于传统的奈奎斯特采样定理,CS理论跳出了传统采样的思维模式,不再要求采样率必须高于信号最高频率的两倍。压缩采样就是通过观测将满足稀疏特性的信号从高阶矩阵线性投影为低阶。在此过程中,采样和压缩同时进行,大大减少了采样的复杂度。最后,压缩感知理论还可以通过重构算法高质量地重构出原信号。

语音压缩感知理论主要包括三部分:选取稀疏基、设计观测矩阵和选择重构算法。其中,重构算法是压缩感知最重要的一部分,因为它直接影响着重构信号的质量。目前,重构算法[5-6]主要分为三类:基于0范数最小化的贪婪类算法,比如正交匹配追踪[7-8](Orthogonal Matching Pursuit,OMP)算法;基于1范数最小化的凸优化算法,比如基追踪[9](Basis Pursuit,BP)法;以及它们的组合算法。贪婪算法的主要思想是每次迭代时得到的不是精确解,而是选择迭代点的局部最优解逼近原始信号。贪婪算法计算简单、重构效果好,但大部分贪婪算法要求已知信号的稀疏度,在实际中难以满足。凸优化算法是把0范数的求解问题转换成1范数,从而解决0范数的NP难题。凸优化算法信号重构率高,所需的观测点少,但是,计算复杂度高,计算速度比较慢。

平滑L0[10-11](Smoothed L0,SL0)算法主要采用最速下降法和梯度投影原理。选取合适的平滑函数逼近0范数是SL0算法的关键问题。SL0算法的优势在于:重构前不需要提前知道信号的稀疏度,具有计算量小、匹配度高以及重构时间少[12]等优点。为此,提出了一种基于SL0的语音信号重构算法。该算法将0范数的问题直接转换为平滑函数的极值问题,降低了计算复杂度。此外,在平滑函数的选取上,采用了高斯函数,并提出了一种新的平滑函数。使用基于这两种平滑函数的SL0算法对语音信号进行重构。实验结果表明:基于两种平滑函数的SL0重构算法重构出的语音信号平均帧信噪比(Average Frame Signal-to-Noise Ratio,AFSNR)和平均意见得分(Mean Opinion Score,MOS)都要高于传统OMP算法。这说明了只要选取合适的平滑函数,基于SL0算法的语音信号重构质量要高于传统OMP算法。

2 CS模型及在语音信号中的应用

压缩感知实现了采样与压缩的同时进行。语音压缩感知的具体过程为:输入信号经过稀疏变换得到稀疏信号,稀疏信号乘以一个观测矩阵得到观测值,这样就完成了压缩的过程;压缩后的信号更有利于存储传输,并且基于重构算法,能够根据观测值不失真地重构出原信号。

假设一个长度为N的信号x∈RN。如果它可以表示成式(1)的形式,则称x在D域是K-稀疏的。

x=Dα

(1)

其中,D=[d1,d2,…,dN]∈RN×N是一个正交矩阵;α是一个只有K个非零值的稀疏向量。

选择一个M×N维的观测矩阵Ψ。如式(2),对x进行降维处理,得到观测值y。

y=Ψx

(2)

将式(1)代入式(2),得到:

y=Ψx=ΨDα=Φα

(3)

其中,Φ=Ψ×D∈RM×N为压缩矩阵。

由于M

min‖α‖0s.t.y=Φα

(4)

压缩感知理论指出,只要信号在某个变换域内具有稀疏性,则可以通过一个观测矩阵将信号线性投影到低维空间,从而实现对信号的压缩。基于数学上最优化问题的求解方法,便可以根据观测值高质量地重构出原始信号。语音信号满足CS理论这个先验条件,所以可以使用CS理论压缩处理语音信号。使用压缩感知对语音信号进行无失真低速率的采样,对信号的采样、存储、传输和处理都带来了很大方便。将CS理论用到语音信号中来探求语音处理的新方法意义非凡,语音信号的CS重构方法将是其实现的基础[13-14]。

3 语音信号压缩感知重构算法描述

在压缩感知模型中,重构算法是恢复原始信号必不可少的一个环节,直接影响重构信号的质量。重构算法应该遵循如下原则:算法能够在观测值较少的情况下,快速精确地恢复出原信号。目前,重构算法主要分为三类:基于0范数最小化的贪婪算法,比如匹配追踪法、正交匹配追踪算法以及基于此算法的正则正交匹配追踪算法和压缩感知匹配追踪算法等;基于1范数最小化的凸优化算法,包括内点法、基追踪算法、阈值迭代法、梯度投影算法等;以及以上重构算法的组合算法。其中,OMP算法最具代表性,也是语音信号重构时最常用的算法。所以将基于SL0算法的重构模型和基于OMP算法的重构模型进行比较,证明所提出的重构模型的优越性。

3.1 正交匹配追踪(OMP)算法

OMP算法首先根据匹配追踪算法(Matching Pursuit,MP)中选择原子的原则,从压缩矩阵中选取和迭代余量(观测值的残差)乘积最大的原子,然后将选择后的原子进行格莱姆-施密特正交化(Gram-Schmidt Orthogonalization),得到由这些正交原子构成的空间,再将信号投影到此空间上,进而得到信号在正交空间上的分量和迭代余量,最后用同样的方法分解余量,使用最小二乘法找到最匹配的原子,循环直至逼近原始信号。

OMP算法实现的具体过程如下:

输入:压缩矩阵Φ,观测值y,稀疏度k;

输出:信号x的k稀疏信号α的逼近αr,重构误差e;

初始化:余量r0=y,重建信号α0=0;索引集Γn=Γn-1∪{k},迭代次数n=0。

步骤1:计算余量和压缩矩阵Φ每一列的内积gn=ΦTrn-1;

步骤3:更新索引集Γn=Γn-1∪{m}和原子集合ΦΓn=ΦΓn-1∪{ϑm};

步骤5:更新余量rn=y-Φαn;

步骤6:判断是否满足收敛条件,满足则截止,αr=αn,e=rn,输出αr,αn,不满足则转步骤1循环。

3.2 平滑L0算法

(5)

那么,稀疏向量α的0范数可以表示成:

(6)

由式(6)可以看出,稀疏向量α的0范数的不连续性是由不连续函数g引起的。如果用一个近似函数g的平滑连续函数来代替函数g,那么就可以得到0范数的平滑估计。

SL0算法的关键问题是平滑连续函数的选取。如果一个连续函数满足式(7)的形式:

(7)

(8)

(9)

所以,稀疏向量α的0范数可以表示为:

(10)

此时式(4)的求解模型可以转化为:

(11)

其中,参数σ决定了逼近的程度。当σ=0时,‖α‖0=n-Fσ(α),此时式(11)的解就是求解模型式(4)的解。然而,实际中无法使得σ取值到0,因此只能选择一个递减的序列σ1,σ2,σ3…,求解每一个σi值对应的目标函数的最优解,直到σ足够小为止。

3.2.1 标准高斯函数作为平滑函数

标准的高斯函数形式如下:

fσ(α)=e-α2/2σ2

(12)

它是一个均值为0、方差为σ的高斯分布,显然满足式(7),所以SL0重构算法中通常使用此函数作为平滑函数。

基于标准高斯函数的SL0重构算法已经应用到很多领域并取得了不错的成果。将基于高斯函数的SL0重构算法应用到语音信号的压缩感知中,发现基于此方法重构出的语音信号更接近原始信号。

3.2.2 提出的新的平滑函数

为了进一步证明SL0算法对语音信号的重构性能,又提出了类似式(13)形式的平滑函数,来近似0范数。

fσ(α)=2/(1+e5α2/σ2)

(13)

为了看出两种平滑函数的差异,在方差σ=0.1时画出了两种函数的曲线,如图1所示。

由图1可以看出,提出的新的平滑函数比标准高斯函数更“陡峭”,因此理论上新的平滑函数逼近0范数的效果应该更好。

4 基于SL0算法的语音压缩重构模型

语音压缩感知理论主要包括三部分:选取稀疏基、设计观测矩阵和重构算法。其中,信号稀疏基主要分为三类:正交基变换、多尺度几何变换和冗余字典。语音信号作为低维信号,一般不用多尺度几何变换。为此,研究重点在重构算法,因此在稀疏基的选取上使用常用的离散余弦(Discrete Cosine Transformation,DCT)稀疏基,观测矩阵选择高斯观测矩阵。

图1 函数曲线

将SL0算法用在语音压缩感知重构上,并与传统的OMP算法作比较。其中,SL0算法使用了两种不同的平滑函数,分别是标准的高斯函数和所提出的平滑函数。通过比较发现,基于两种平滑函数的SL0算法对语音信号进行重构时,效果都比传统的OMP算法好;另一方面,基于新的平滑函数的SL0算法重构出的语音信号的平均帧信噪比,要高于基于标准高斯函数的语凌晨信号的平均帧信噪比。

采用SL0算法的具体步骤如下:

步骤1:设置初始值,重构信号α=ΦTy,余量初始值r0=0,平滑函数初始参数σ=1;

步骤2:求-Fσ的搜索方向d;

步骤3:使用修正的牛顿算法更新重构信号α=α+μd;

步骤4:使用梯度投影算法得到α=α-ΦT(ΦΦT)-1(Φα-y),计算余量r=y-Φα;

5 实验结果及分析

为了验证算法的重构性能,应用MATLAB平台对算法进行测试仿真。从中国科学院自动化研究所汉语语音库中,选取一段时长为1 s的男性语音“大规模集成电路”。此信号的采样频率为16 kHz。基于语音信号的短时平稳性[15],对该语音进行分帧处理。其中每帧信号取256个采样点。

在MATLAB中,使用了tic、toc语句对重构的时间进行计算。经计算:在相同环境下,基于所提出的平滑函数的SL0算法重构时间为3.269 0 s,基于标准高斯函数的SL0算法重构时间为3.512 8 s,传统的OMP算法的重构时间为11.654 3 s。所以,SL0算法大大降低了语音重构的时间。

在评估语音重构质量方面,从客观和主观两个方面入手。在客观方面,首先选取该语音信号的一帧浊音,在压缩比(M/N)为0.5的情况下,画出该帧信号在DCT稀疏域的波形,计算出该帧信号的重构相对误差。其次,将压缩比分别设置为0.1,0.2,…,0.9,并求出不同压缩比下的平均帧信噪比(AFSNR)。在主观方面,对在不同压缩比情况下重构的语音信号,进行平均意见得分(MOS)评估。为了描述方便,把使用标准高斯函数的SL0算法称为GSL0(Gaussian Smoothed L0),把使用所提出的连续函数作为平滑函数的SL0算法称为NSL0(New Smoothed L0)。

5.1 客观方面

该帧信号在DCT域的波形及基于不同重构方法重构的帧信号波形见图2。

图2 语音信号帧重构前后波形对比

从图2中可以看出,相比传统的OMP重构模型,GSL0重构模型和NSL0重构模型重构的语音帧波形更接近原语音帧的波形。再使用式(14)计算此帧信号的相对误差:

(14)

经计算:基于NSL0的相对误差为0.080 2,基于GSL0算法的相对误差为0.086 4,而基于OMP算法的相对误差为0.119 0。可以看出,基于SL0算法得到的相对误差明显小于基于OMP算法的值。

接下来,在不同压缩比下,根据式(15)求解AFSNR:

(15)

其中,P为语音帧数。

实验数据记录在表1和图3中。

从表1和图3中可以看出,随着压缩比的增加,不论使用哪种重构方法,语音的AFSNR都会随着增加。但是,在相同的压缩比下,基于NSL0算法重构的语音信号的AFSNR要高于基于GSL0算法的,但相差并不大。但是,不论是基于NSL0算法还是基于GSL0算法,重构后的语音信号的AFSNR都要明显高于传统的OMP重构模型。因此可以说明,所提出的基于SL0的语音压缩重构算法可以明显提高语音重构的质量。此外,基于新提出的平滑函数的SL0算法也实现了比基于高斯函数的SL0算法较好的效果。

5.2 主观方面

在主观方面,采用PESQ(Perceptual Evaluation of Speech Quality)测试语音的质量,得到的PESQ MOS如表2和图4。PESQ MOS是最直观反映语音质量的技术指标,根据ITU P.862规范,取值范围为0(最差)~5(最好)。

表1 采用不同算法重构后的平均帧信噪比 dB

表2 采用不同算法后的MOS

图3 平均帧信噪比随压缩比的变化曲线

图4 MOS随压缩比的变化曲线

从表2和图4可以看出,随着压缩比的增加,MOS也会随着增加。但是,在相同的压缩比下,基于NSL0算法的语音重构信号的MOS和基于GSL0算法的相差无几,但是都要高于基于传统OMP算法的。因此,所提出的基于SL0重构模型的MOS要高于传统的OMP重构模型,在主观方面,基于SL0算法重构的语音具有较好的听觉感受。

实验结果表明,对于语音信号来说,与传统的OMP重构算法进行比较,所采用的基于两种平滑函数的SL0重构方法都可以提高语音信号的重构质量、减少重构时间。并且,在某些特定的环境下,基于新的平滑函数的SL0重构模型的平均帧信噪比要高于使用标准高斯函数的SL0重构模型。

6 结束语

为了提高语音信号的重构质量、缩短重构时间,提出了一种基于SL0算法的语音信号重构算法。实验结果证明,基于两种平滑函数的SL0算法,对语音信号进行重构时,性能均优于传统的OMP算法。并且,在某些特定的环境下,基于新的平滑函数的SL0重构模型的语音重构质量要高于使用标准高斯函数的SL0重构模型。

[1] Vaidyanathan P P. Generalizations of the sampling theorem:seven decades after Nyquist[J].IEEE Transactions on Circuits and Systems I:Fundamental Theory and Applications,2001,48(9):1094-1109.

[2] Donoho D L.Compressed sensing[J].IEEE Transactions onInformation Theory,2006,52(4):1289-1306.

[3] Sigg C D,Dikk T,Buhmann J M.Speech enhancement using generative dictionary learning[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(6):1698-1712.

[4] Jafari M G,Plumbley M D,Davies M E.Speech separation using an adaptive sparse dictionary algorithm[C]//Hands-free speech communication and microphone arrays.Trento:[s.n.],2008:25-28.

[5] 李 珅,马彩文,李 艳,等.压缩感知重构算法综述[J].红外与激光工程,2013,42(S1):225-232.

[6] 李 博.压缩感知理论的重构算法研究[D].长春:吉林大学,2013.

[7] Yang M,de Hoog F.Orthogonal matching pursuit with thresholding and its application in compressive sensing[J].IEEE Transactions on Signal Processing,2015,63(20):5479-5486.

[8] 杨真真,杨 震,孙林慧.信号压缩重构的正交匹配追踪类算法综述[J].信号处理,2013,29(4):486-496.

[9] Ekanadham C, Tranchina D, Simoncelli E P. Recovery of sparse translation-invariant signals with continuous basis pursuit[J].IEEE Transactions on Signal Processing,2011,59(10):4735-4744.

[10] Mohimani H,Babaie-Zadeh M,Jutten C.A fast approach for overcomplete sparse decomposition based on smoothed l0 norm[J].IEEE Transactions on Signal Processing,2009,57(1):289-301.

[11] 王军华,黄知涛,周一宇.稀疏信号重构的迭代平滑l0范数最小化算法[J].宇航学报,2012,33(5):642-647.

[12] Quan X,Jing X,Sun S,et al.Sparse channel estimation in OFDM systems using improved smooth L0 algorithm[C]//14th international symposium on communications and information technologies.[s.l.]:[s.n.],2014:346-350.

[13] 孙林慧.语音压缩感知关键技术研究[D].南京:南京邮电大学,2012.

[14] 赵瑞珍,林婉娟,李 浩,等.基于光滑l0范数和修正牛顿法的压缩感知重建算法[J].计算机辅助设计与图形学学报,2012,24(4):478-484.

[15] 孙林慧,杨 震.基于压缩感知的分布式语音压缩与重构[J].信号处理,2010,26(6):824-829.

Application of Smoothed L0 Algorithm in Compressed Sensing Reconstruction of Speech Signal

XUE Hai-shuang,SUN Lin-hui,OU Guo-zhen

(Institute of Telecommunications & Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

At present,speech signals have good sparsities in domains like frequency and Discrete Cosine Transformation (DCT) and so on,which satisfies the prerequisite for Compressed Sensing (CS).Therefore,it can be treated by CS theory,which consists of sparse representation of the signal,design of the measurement matrix and the algorithms of reconstruction.Among them,the most important part is reconstruction algorithms which can influence the quality of reconstructed signals directly.The traditional compressed sensing reconstruction of speech is usually based on Orthogonal Matching Pursuit (OMP) method.The orthogonal matching pursuit method needs to obtain sparse priors of the speech signal in advance,which makes the realization difficult.In order to improve the reconstruction quality of speech signal and simplify the implementation process,a compressed speech’s reconstruction method based on Smoothed L0 (SL0) algorithm has been proposed,in which the SL0 uses smooth function to approximate L0 norm without acquisition of sparse priors of the speech signal in advance and with advantages of lower calculation capacity and higher quality of reconstruction.In addition,a new smooth function has been proposed.Gaussian function and the new smooth function are used to confirm the performance of the SL0.Simulation results demonstrate that the SL0 algorithm has not only obtained a higher quality of reconstruction than the traditional OMP method,but also shorten the implementation time.

compressed sensing;speech reconstruction;algorithms of reconstruction;smoothed L0 algorithm;smooth function;L0 norm

2016-08-04

2016-11-10 网络出版时间:2017-04-28

国家自然科学基金资助项目(61271335);江苏省自然科学基金项目(BK20140891);南京邮电大学校科研基金项目(NY214038)

薛海双(1990-),女,硕士,研究方向为语音处理及人机交互;孙林慧,副教授,研究方向为语音处理与现代语音通信技术。

http://kns.cnki.net/kcms/detail/61.1450.TP.20170428.1704.088.html

TP39

A

1673-629X(2017)06-0160--05

10.3969/j.issn.1673-629X.2017.06.033

猜你喜欢
范数压缩比高斯
基于同伦l0范数最小化重建的三维动态磁共振成像
向量范数与矩阵范数的相容性研究
质量比改变压缩比的辛烷值测定机
数学王子高斯
天才数学家——高斯
基于加权核范数与范数的鲁棒主成分分析
从自卑到自信 瑞恩·高斯林
低温废气再循环及低压缩比对降低欧6柴油机氮氧化物排放的影响
高几何压缩比活塞的燃烧室形状探讨
采用两级可变压缩比系统提高车用汽油机的效率