万东琴,卿朝进,阳庆瑶,蔡 斌,余 旺
西华大学 电气与电子信息学院,成都 610039
日益增长的音频传输需求造成频谱资源紧张。为节省频谱资源,压缩感知(Compressed Sensing,CS)[1-2]技术被引入到稀疏音频信号的压缩处理中[3-4]。压缩感知技术在一定程度上降低了频谱资源需求,但仍面临诸如模拟-数字转换器(Analog to Digital Converter,ADC)设计困难的挑战。为进一步改善数据存储与传输,1-bit CS[5]被应用于稀疏音频信号处理中[6]。
因只提取符号信息而不考虑音频信号的幅度,1-bit CS 极大地降低了稀疏音频信号传输时的频谱资源需求[7-8]。然而,信号幅度信息的损失造成1-bit CS较低的重构精度。为改善1-bit CS的重构精度,文献[9]提出了经典的二进制迭代硬阈值算法(Binary Iterative Hard Thresholding,BIHT)。在BIHT算法的基础上,文献[10-11]提出了自适应量化方法。虽然文献[9-11]取得了较好的重构性能,但信号的先验信息没能被开发利用。文献[12]将信号的先验信息融入到重构算法中,利用Oracle 估计、混合加权、监督加权等方法获取先验信息,进一步改善稀疏信号的重构性能。然而,文献[12]通过估计方法获取先验信息,不可避免的估计误差造成重构性能下降。
受文献[12]启发,本文提出一种基于叠加特征辅助的1-bit CS 音频传输方法。不同于文献[12],本文方法不估计先验信息,而是以扩频叠加的方式[13-14]将先验信息传输至接收端,用以辅助重构算法。在发送端,利用音频中高幅度值信号的支撑集(即先验信息)构造特征信息,并使用扩频矩阵对特征信息进行扩频处理;为不增加频谱开销,将扩频后的特征信息加权叠加在1-bit压缩后的音频信号上进行传输。接收端通过解扩还原出特征信息和1-bit CS压缩的音频信号;并利用特征信息辅助构建重构算法恢复稀疏的音频信号。特别地,本文在BIHT 算法基础上提出特征辅助的BIHT(Feature Aided BIHT,FA-BIHT)算法进行稀疏音频信号的重构。相对于BIHT 重构方法,本文方法可在不增加频谱开销的情况下改善重构的音频信号的MSE(Mean Square Error)值和MOS(Mean Opinion Score)评分。
本文中,(·)T、(·)-1和分别表示转置、矩阵的逆和向下取整运算;Il表示l×l的单位矩阵;矢量x的算子0范数定义为,矢量x的算子2范数定义为表示矢量x的支撑集(所述支撑集是指非零元素的索引);集合W的势和变量x的绝对值分别表示为表示符号函数,x≥0 时,sign(x)=1 ,x <0 时,sign(x)=-1;dec(x)表示硬判决操作,将x中大于0 的元素置为1,其余元素置为-1。
接收端接收的带噪音频信号z~ 可表示为:
其中,n∈ℝM×1表示高斯白噪声矢量,其元素服从零均值,方差为的高斯分布;z∈ℝM×1表示叠加发送信号,即:
式中,α(0<α <1)表示加权系数;Es为信号发射能量;h∈ℝL×1为音频帧信号的特征信息;Q∈ℝM×L为扩频矩阵,由Walsh码构成,满足QTQ=MIL[13];y∈ ℝM×1为音频信号,由1-bit CS压缩得到,即:
其中,Φ表示M×N的测量矩阵;x表示N×1 的稀疏音频信号,其稀疏度为K(即‖x‖0=K)。根据听觉掩蔽效应,可将人耳未能感知的声音信号去掉,实现音频信号的稀疏化[15-17]。本文以此为前提,假设音频信号x是稀疏的,研究提出方法对1-bit 重构音频的MSE 和MOS的改善。
接收端对带噪音频信号z~ 进行解扩还原出特征信息h和1-bit压缩信号y。继而利用特征信息辅助BIHT重构算法从1-bit CS压缩的信号中恢复稀疏音频信号。
根据式(2),提出方法将音频帧信号的特征信息h叠加到1-bit CS压缩音频信号y上传输,这可使在相同时间相同传输速率的条件下传输更多信息。即在不增加频谱开销的情况下,将特征信息传输至接收端,用于辅助BIHT 重构算法恢复稀疏音频信号,进而改善重构音频信号的MSE和MOS评分。
基于特征信息的1-bit 压缩传输的方法在发送端提取特征信息,并根据式(2)将特征信息叠加传输;接收端通过解扩频恢复特征信息和1-bit CS压缩的音频信号,并利用特征信息辅助构建重构算法重构音频信号。
本文选取音频信号的部分支撑集作为特征信息辅助重构。用Ω表示稀疏度为K的x的支撑集,即Ω=supp(x),支撑集Ω的势为 |Ω|=K。
根据人耳听觉特性中的掩蔽效应,高幅度值信号会掩蔽附近的低幅度值信号,使得低幅度值信号不易被人耳察觉,故将高幅度值信号的支撑集信息作为特征信息将有助于改善语音重构精度[16-17]。因此,将x前l个幅度值最大元素的索引构成部分支撑集Ω^ ∈ℤl×1,即:
其中,λxi,i=1,2,…,K表示元素xi的索引。
对进行量化处理,量化处理后的信息表示为ω,从而有:
其中,Θ(·)是二进制量化操作器;ω为L×1 的矢量。对ω进行二进制相移键控(Binary Phase Shift Keying,BPSK)数字调制处理,得到特征信息,即:
其中,℘(·)表示数字调制处理。
提取到特征信息h后,根据式(2),利用扩频矩阵Q对特征信息h进行扩频处理,并叠加在1-bit压缩音频信号上进行发送。
因叠加处理造成叠加干扰(见式(1)和式(2)),接收信号并不能直接用于音频重构。首先,在3.2.1 小节通过解扩处理方式从接收信号中恢复出特征信息和1-bit压缩的音频信号。然后,在3.2.2小节根据恢复出的1-bit压缩信号,并结合特征信息,构建重构算法重构音频信号。
3.2.1 特征信息与压缩语音恢复
根据式(1)和式(2),接收端接收的带噪信号可表示为:
对z~ 进行解扩,得解扩信号ph∈ℝL×1为:
对ph进行硬判决操作,恢复出特征信息h的估计值,即(ph)。在获取特征信息的估计值之后,利用干扰抵消技术,可从接收信号中消除特征信息h的影响,从而得到压缩信号y的估计值[13],即利用替代h,根据式(7)和式(8),可得:
其中,py为M×1 的矢量信号。
对py进行硬判决操作,恢复出压缩信号,即(py)。联合恢复得到的特征信息(参见式(8)和式(9)),通过3.2.2小节提出的FA-BIHT算法进行音频重构。
3.2.2 音频重构
根据3.2.1小节恢复得到的特征信息与压缩语音,在BIHT重构算法[18]的基础上,提出FA-BIHT算法对x进行重构,算法如下。
不同于BIHT 算法,FA-BIHT 算法融入了由特征信息构造的支撑集。具体不同表现在:
(1)输入:不同于BIHT 算法,提出的FA-BIHT 的输入参数增加了由特征信息构造的支撑集(BIHT算法的输入参数不含支撑集)。
(2)支撑集映射:
其中,ξ(·)表示支撑集映射操作器,它将集合在矢量βt+1中索引的元素幅值赋给集合在xt+1中的索引所在位置。不同的是,BIHT算法仅通过步骤2计算xt+1,即通过硬阈值映射计算xt+1,表示为:
其中,η(·)为硬阈值映射操作器,它保留βt+1中前K个最大元素,其余置为0。
为验证提出方法的有效性,对FA-BIHT 与BIHT 方法的音频重构精度和音质效果进行了对比。对比中,用到的术语做如下定义。稀疏率和信噪比(分贝形式)分别定义为:
仿真选用100组音频文件,来自中国科学院自动化语音库和TIMIT语音库,采样率为16 kHz。取N=1 024,信道噪声n为加性高斯白噪声,其元素服从零均值,方差为的高斯分布,SNR 选取0 dB、5 dB 和10 dB。测量矩阵Φ的元素是独立同分布的高斯随机变量[1],且服从N(0)分布[19]。加权系数α选取0.01、0.05 和0.10,测量值M选取N、1.5N、2.0N和3.0N。
在叠加的特征信息数据维度相同的情况下,讨论在不同α和SNR 情况下,测量值M和稀疏率k的变化对BIHT 与FA-BIHT 算法重构性能的影响。采用MSE 和PESQ 标准下的MOS 作为音频信号重构性能的评价指标[20-21]。
为讨论在不同α和不同SNR情况下,测量值M变化对提出方法改善音频信号音质和精度的影响,图1给出了不同α和不同SNR情况下,MSE与测量值M的关系曲线,图2给出了不同α和不同SNR下,MOS与测量值M的关系曲线。
由图1 和图2 可知,提出方法改善了音频信号的音质和精度。由FA-BIHT 方法重构音频的MSE 和MOS值优于BIHT 方法,尤其是测量数M=N时,优势更为明显。随着测量数M的增加,FA-BIHT 方法的优势减弱,这是由于在测量数足以满足1-bit重构需求时,BIHT方法也能准确重构出信号位置。尽管如此,提出方法仍具有有效性。
为讨论在不同α和不同SNR情况下,稀疏率k对提出方法改善音频信号音质和精度的影响,图3给出了不同α和不同 SNR 下,MSE 与稀疏率k的关系曲线,图4给出了不同α和不同SNR 下,MOS 与稀疏率k的关系曲线。
由图3和图4可知,在稀疏率k增加的条件下,提出方法也具有改善音频信号的音质和精度的作用。尤其在稀疏率k=12 时,由FA-BIHT 方法重构音频的MSE和MOS值明显优于BIHT方法。随着稀疏率k升高,两种方法所获得的重构信号的MSE 和MOS 值有一个下降再上升的过程。在这个过程中,FA-BIHT方法仍然优于BIHT方法,提出方法仍具有有效性。
图1 不同α 和不同SNR下MSE与M 的关系曲线
图2 不同α 和不同SNR下MOS与M 的关系曲线
图3 不同α 和不同SNR下MSE与k 的关系曲线
图4 不同α 和不同SNR下MOS与k 的关系曲线
本文提出了一种基于叠加特征的1-bit 音频压缩传输方法。该方法以扩频叠加的方式传输音频信号的特征信息,用以辅助接收端FA-BIHT 算法恢复音频信号,从而在不增加频谱开销的情况下改善重构信号的MOS和MSE。通过与BIHT 算法进行仿真对比,提出的FABIHT 算法能够改善重构精度,且在低信噪比和低测量数的情况下,改善效果尤为明显。