司 明,李志华,刘定星
(中国地质大学(武汉)自动化学院,湖北 武汉 430074)
数据压缩在次声监测中的应用
司 明,李志华,刘定星
(中国地质大学(武汉)自动化学院,湖北 武汉 430074)
随着次声监测要求的不断提高,次声监测数据量急剧增加,这使数据传输、存储、处理的压力也越来越大。为了解决该问题,结合次声监测数据体存在信息冗余和互相关的特性,采用有能量集中效应的改进型离散余弦变换(MDCT)、改善信噪比的非线性压缩与扩张量化和高编码速率的自适应 Huffman统计编码技术,对次声数据体进行压缩处理。该技术是一种有损压缩技术,根据数据的信噪比、松散度、复杂度等数据特征,统筹数据压缩和损失程度,合理选择压缩比,实现对次声监测数据体的低失真压缩。
次声监测;数据压缩;离散余弦变换;压扩量化;霍夫曼编码
次声波信号简称次声信号,频率范围为10-4~20 Hz,具有频率低、波长大、传播距离远、衰减小、穿透能力强等特点[1]。通过检测和分析次声信号对声波源进行定位,研究次声波的产生和传播规律来揭示次声波信号与对应事件的关联性,达到监测和预报事件的目的[2]。实践证明,次声监测对自然灾害、工业生产、交通运输、人民的生命和财产安全等有着极其重要的意义。
随着科技的不断发展,次声监测的应用越来越广泛,次声监测中数据量也急剧增加,人们面对传输、存储及处理这些海量信息的压力越来越大,所以进行数据压缩成了一种迫切的需求,也是一种行之有效的方法[3]。次声数据监测仪器采集的数据存在大量冗余、密切相关等特点,为数据压缩提供了可能。对这些次声监测仪器采集的数据进行压缩,也可以充分应用传输和记录信道,提高次声监测的效率[4]。
次声数据压缩与其他常见的数据压缩有很多相似之处。早期人们使用变长码编码、香农-范诺编码以及去相关性的马尔可夫模型等来压缩声波数据;后来随正交变换的出现,将原始数据转换为一组相关性很小的系数,再对变换后的系数进行各种二次量化和编码处理实现数据压缩[5-6]。目前的研究结果表明,选择合适的压缩方法和参数,压缩数据产生的误差比数据处理流程中引入的误差还要小,而且压缩比相比于无损压缩要大很多[7]。这表明有损数据压缩是可以用于数据处理和解释阶段的。
数据压缩归纳起来可分为两大类型:第一类为压缩-存储-回放系统,通常又称数字录放系统;第二类为压缩-传输-解压系统,通常又称数字通信系统[8]。两种物理过程均可用图1所示的数据压缩系统模型来概括。
图1 数据压缩系统模型
1.1 改进型离散余弦变换
改进型离散余弦变换(Modified Discrete Cosine Transform,MDCT)是将信号从一个域变换到一个域中,在该域中更容易完成压缩。DCT属于正交变换,正交变换实现数据压缩的本质是经过多维坐标中适当的旋转和变换,把散布在各个坐标轴上的原始数据集中到新的、适当的坐标系中的少数坐标轴上。DCT具有熵保持、解相关、能量重新分配和集中的特性。与其他5种正交变换(KLT、SLT、DFT、WHT和 Haar)相比,DCT具有很好的性能,算法也相对简便,实现成本低,所以被广泛应用在信号处理中[9-10]。
次声监测数据的压缩过程使用了一维离散余弦变换(1D-DCT)。1D-DCT的正交变换矩阵为:
式中:k(行)、m(列)=0,1,…,M-1。
若设输入的信号为:
则1D-DCT为:
将式(1)、式(2)、式(3)代入式(4),得到矢量信号 X的一维离散余弦变换M×1矢量信号:
其中A为一个正交矩阵,但不是对称矩阵。
一维离散余弦反变换(1D-IDCT)矩阵为:
式中:m(行)、k(列)=0,1,…,M-1。
因数据量大需分段作DCT,而相邻段变换后数据边界处存在不连续的“跳边效应”,所以采用改进型离散余弦变换(MDCT)。即用长度为2M的矩形窗函数h(m)截取原始数据的2M个样点,将截取的h(m)x(m)变换为:
式中:k=0,1,…,M-1;m0=(M+1)/2。
改进型离散余弦反变换(IMDCT)为:
式中:m=0,1,…,M-1。
MDCT也称余弦调制滤波器组,采用重叠转换M个样点的方法消除“跳边效应”。该变换也有快速算法,不会因重复转换样点给整个数据压缩系统附加运算量,而且性能好于 DCT,可广泛应用在声频压缩中[11]。
1.2 压扩量化
均匀量化的优点是简便,缺点是量化噪声较大,用于量化MDCT的系数会影响数据压缩质量,所以选择改善信噪比的非线性压缩与扩张量化(简称压扩量化)。压扩量化是非均匀量化方法,即用一个非线性对数函数y=F(x)将信号“压缩”后再作最佳量化,恢复时用反变换x=F-1(y)对量化值进行“扩展”得到重建数据。
压扩量化在小信号域量化区间小,大信号域量化区间大。因为低电平信号出现概率大、量化噪声小,高电平量化噪声大、但出现概率小,所以可以提高数据量化后的信噪比[12]。目前国内外常用μ律和A律两种对数压扩量化器(归一化)。
μ律曲线公式:
其中,μ为压扩参数,现在多取μ=255。μ律是斜率变化率递减且为过零的对数曲线。
A律曲线公式:
其中,A为压扩参数,通常取A=87.6,可以通过13或18折线逼近来实现。
μ律和A律的特性基本相同,只在小信号区μ律量化器的信噪比略高于A律量化器,但在大信号区则不如A律量化器。
1.3 Huffman编码/译码
Huffman编码相比于其他 3种统计编码(香农-范诺编码、游程编码、算数编码)的算法简单,编码效率高,Huffman译码是编码的逆过程。编码的方法步骤如下:
(1)将信源符号的概率按照由大到小的顺序建立列表。
(2)取2个最小的概率进行组合相加,然后将组合后的概率之和作为新的符号概率,重复步骤(1)和(2),直到概率总和达到1为止。
(3)将每个组合中的上边一个指定为 0,下边一个指定为1。
(4)构造由概率 1处到每个信源符号概率的编码树,顺次记下编码树分支上的0和1,即为Huffman码字。
为了提高编码速度,采用自适应Huffman编码,即从一颗空的Huffman编码树开始,随着输入符号的读入和编码、译码,不断修改码树[13]。
由于数据压缩参数、应用环境、使用技术、应用目的等不同,数据压缩系统的设计也是多种多样的。
结合次声信号的特点,以及监测数据体信息冗余和互相关的特征,采用MDCT将次声监测数据体从时域转换到另一域中。选用小信号域量化噪声低的μ律量化器,对作MDCT后的系数进行二次“压缩”及基于Max-Lloyd算法(简称M-L算法)的最佳量化。由于数据能量集中到了MDCT系数的前段部分,所以对MDCT系数进行量化时,保留百分之一数据长度的前段变换系数,只对剩余的变换系数进行量化,这样做可以有效降低量化噪声,也不影响数据压缩程度。最后通过自适应Huffman编码,实现对次声监测数据的压缩。解压过程除去MDCT系数量化部分外,其他过程为上述逆过程。
设计选用MATLAB数据处理软件实现对数据的转换、量化、压缩和解压处理。整个设计框图如图2所示。
图2 设计框图
3.1 压缩系统评价指标
压缩比(Compression Ratio,CR)是衡量数据压缩系统性能好坏的一个重要指标。其定义为:
CR又称bpc(bit per character),表示压缩一个字符平均所需的比特数。以下测试是对次声监测数据文本文件的压缩。
离散时间域重建数据的保真度常用信噪比SNR来度量,其计算公式为:
式中:N为采样数据个数;xi(i=1,2,…,N)为原始数据;为重建数据。
3.2 次声监测数据压缩测试
取已有次声监测数据,使用该数据压缩系统对其进行压缩处理。表1为对3个文件中的次声监测数据压缩测试的结果。
表1 数据压缩情况
从表1可以看出,该数据压缩设计对原始数据文件进行压缩后,信噪比都大于90 dB,并且文件2和文件3压缩后数据量大幅减少,这样可以很大程度地减轻后续数据存储、传输和处理的压力。
图3~图5是对这3个文件的原始波形、重建波形及其两者误差波形进行测试的结果。
图4 文件2数据压缩测试
图5 文件3数据压缩测试
从表1和图3(c)可以看出,CR=2.52时信噪比高达113.7 dB,实现了对原始波形的高保真重建。随着压缩比的增大,原始波形与重建波形的误差增大,信噪比降低。从图5(b)看到,CR=9.56时,重建数据已经开始滤掉原始数据中的高频微弱信号,MDCT开始主要体现出滤波器组的作用,在有用信号电平很低时,选择过高的压缩比会造成有用信号的掉失,所以对压缩比的选取应当小于10。图6~图8是对3个文件的原始数据和重建数据进行频谱测试的结果。
图6 CR=2.52时的频谱分析
图7 CR=5.79时的频谱分析
图8 CR=9.56时的频谱分析
从图6和图7可以看出原始数据和重建数据的频谱相关性比较好,100 Hz以内的波形基本无衰减。从图8看到重建数据的频谱从20 Hz开始衰减,到100 Hz时重建数据的频率已经基本衰减为零,但原始数据中还存在20 Hz~100 Hz的信号,很明显地看出该压缩系统在较大压缩比情况下,衰减甚至滤掉了信号带宽以外的较高频信号。
改进型离散余弦变换、非线性压扩量化和霍夫曼编码相结合的数据压缩技术,相比于其他声波压缩技术更适用于低频的次声波数据压缩。该技术在CR≤10时,不仅实现了对次声监测数据的低失真压缩处理,而且滤掉了信号中的高频干扰,保存了次声波带宽内的有用信号。
[1]李彦,欧阳红群,刘小伟.次声波简易监测方法及分析[J].物理实验,2010,30(10):40-43.
[2]杨庆生,张少伟,夏雅琴.不同地域前次声波异常信号的分析[J].北京工业大学学报,2016,42(2):167-168.
[3]吴家安.数据压缩技术及应用[M].北京:科学出版社,2009.
[4]Khalid Sayood.Introduction to data compression[M].Harbin:Harbin Industrial University Press,2014.
[5]张俊兰,周峰.数据压缩的发展历程[J].延安大学学报(自然科学版),2008,27(3):24-27.
[6]杜美华,孙建英.正交变换的几何意义及其应用[J].哈尔滨师范大学自然科学学报,2014,30(3):36-39.
[7]胡丽丽,李杰.数据采集存储系统无损压缩算法的设计与实现[J].计算机测量与控制,2010,18(12):2833-2835.
[8]吴乐南.数据压缩(第三版)[M].北京:电子工业出版社,2012.
[9]Shaban Al-Ani Muzhir,Abd Rajab Maha.Biometrics hand geometry using Discrete Cosine Transform(DCT)[J].Science and Technology,2013,3(4):34-37.
[10]张婧,徐国根.基于 DCT的遥感图像压缩算法应用[J].航空电子技术,2015,46(1):25-28.
[11]闫保中,刘泥石.一种有效的MDCT/IMDCT快速算法[J].应用科技,2011,38(3):12-15.
[12]贾瑞莲,肖沙里,郭成.A律语音压缩编解码器的 FPGA实现[J].重庆工商大学学报,2016,33(1):59-64.
[13]刘政.一种自适应 Huffman算法在无线传感器网络数据压缩的应用[J].重庆理工大学学报,2013,27(2):84-89.
The application of data compression in infrasound monitoring
Si Ming,Li Zhihua,Liu Dingxing
(College of Automation,China University of Geosciences,Wuhan 430074,China)
With the continuous improvement of the infrasound monitoring requirements,the data of infrasound monitoring has increased dramatically,making the pressure of data transmission,storage and processing bigger and bigger.In order to solve the problem,combining redundancy of infrasound monitoring data volume and cross-correlation characteristic,this paper adopts modified discrete cosine transform(MDCT),nonlinear quantitative of compression and expansion and Huffman statistical coding technique to compress the infrasound data volume.The technology is a loss compression technique.If compression ratio is reasonably selected according to signal-to-noise ratio,loose,complexity and data characteristics,the system will achieve a low distorted compression of infrasound monitoring data.
infrasound monitoring;data compression;DCT;quantization;Huffman coding
TP391
A
10.16157/j.issn.0258-7998.2016.11.018
司明,李志华,刘定星.数据压缩在次声监测中的应用[J].电子技术应用,2016,42(11):70-73.
英文引用格式:Si Ming,Li Zhihua,Liu Dingxing.The application of data compression in infrasound monitoring[J].Application of Electronic Technique,2016,42(11):70-73.
2016-05-30)
司明(1988-),男,硕士研究生,主要研究方向:地球物理仪器与信息处理。
李志华(1972-),男,副教授,主要研究方向:微弱信号检测技术、地球物理仪器。