音频信号联合编码算法码书长度研究

2018-10-12 05:08黄隽逸刘云飞徐向旭
海军航空大学学报 2018年4期
关键词:码率译码音频

杨 超,黄隽逸,刘云飞,孙 云,徐向旭

(1.海军航空大学,山东烟台264001;2.海军航空大学青岛校区,山东青岛266041;3.91604部队,山东龙口265706;4.92635部队,山东青岛266041)

随着信息技术的迅速发展,各类电子产品进入千家万户,音视频等多媒体被广泛应用于人们的生活、工作和学习中,音频编码应运而生,为了解决日益增加的多媒体信息和有限的存储空间及传输带宽的矛盾[1-3],音频压缩编码研究也越来越受到重视。目前声音编码技术分为3类:波形编码、参数编码以及混合编码[4-5]。应用各种带宽扩展技术,声音编码标准发展的趋势是从窄带(8 kHz采样)到宽带(16 kHz采样),再到超宽带(32 kHz采样),最终发展到全频带(48 kHz采样);应用各种可分级声音编码技术,声音编码标准发展从固定码率,到多速率,最终发展到更精细的可变比特率,更灵活地利用传输带宽;传统的音频编码标准通过各种降低延时和码率的技术,提高其对声音的编码效率[6-8]。

当前最新的低延时音频编码格式Opus对于互联网上的交互式声音和音乐传输来说是最佳的选择,同时也用于存储和流媒体。它的采样率从8~48 kHz,它的码率范围为6~510 kb/s,算法时延在2.5~30 ms之间。一些新的音频编码算法也在不断涌现,例如一种将预测编码[9]、基于SOM自组织神经网络[10-14]的矢量编码[15-17]及Huffman[18]编码相结合的音频编码算法[19](简称联合编码算法)。在保证声音质量的前提下,该编码方法的码率小于MEPG-1 Layer3[20]的最低的64 kb/s标准码率,且算法较简单。为了进一步提高联合编码算法的码率,本文提出通过合理选择码书长度值以减小码率的算法。

1 联合编码算法

预测编码、基于SOM自组织神经网络的矢量编码及Huffman编码相结合的音频编码算法[20](简称联合编码算法)是一种音频压缩编码算法。图1是联合编码算法编码部分程序流程图。

图1 联合编码算法编码程序流程图Fig.1 Flow chart of the code program of the joint coding algorithm

首先,将1列声音样本采样信号按照奇偶顺序转换成2列,即将原序号为(2×n-1)的组成为新的第一列,原序号为2×n,组成为新的第二列,其中n为正整数。每列信号分别按照线性预测编码原理各自进行预测,计算当前的预测值和误差值,共得到2个误差值,将这2个误差值组成一组2维矢量,进行基于SOM自组织神经网络的矢量编码,最后进行Huffman编码;译码过程与编码过程相反,最后对译码数据用切比雪夫Ⅰ型低通滤波器滤波。

2 音频编码的评价指标

2.1 音频编码的主观测量方法

目前,在国际上比较通用的音频质量主观评价标准是平均意见得分(Mean Opinion Score,MOS),MOS评分标准分为5级,见表1。在数字音频通信中,一般高质量数字化音频的MOS分在4.0~4.5分间,质量满足长途电话网的要求,接近透明信道编码,也称之网络质量。音频通信质量一般MOS分在3.5分左右,此时能感觉到恢复的音频质量有所下降,但能知道声音中的内容,可以满足多数音频通信系统的适用要求。合成语音质量MOS分一般在2.0~3.0分之间,是指一些声码器的合成语音所能达到的质量,一般具有一定的可懂度,但是自然度和音色的确认方面不够理想。

表1 MOS判分五级标准及相应的描述该级音频质量的形容词Tab.1 MOS grade five standard and the adjective that describes the quality of the audio level

2.2 音频编码的客观测量方法

通过客观测量的方法来对音频的编码质量进行评价的方法称为客观评定方法,常用的客观评定的方法有信噪比、平均分段信噪比等。它们的实质就是进行度量均方误差,具有计算简单的优点,但是人对音频质量的感觉不能单纯地由此方法体现,对于测试中、低速率音频编码尤其如此。

信噪比是一种常用的客观测量标准,定义如下:

式(1)中:xi、yi分别代表音频编码算法的输入信号和输出信号;N代表音频的样点数。

3 不同码书长度值的实验结果与分析

本文将改变联合编码算法中量化矢量码本的个数,即码书长度值,研究码书长度值对压缩率和码率的影响,旨在寻找进一步提高声音信号压缩率,减小码率的算法。

考虑到码本编码效率,一般码书长度值选为2n,n为正整数。在保证声音质量前提下,为了减小码率,应尽量选择较小值的码书长度。实验中,选取码书长度值分别为2、4和8。利用联合编码算法分别进行码书长度值为2、4和8的编、解码实验。编码程序流程图如图1所示。其中,码书长度值分别为2、4和8的编码算法的不同之处是:在图2的联合编码算法编码程序流程图中,在“对两个误差值做基于自组织神经网络SOM的矢量量化”这一步骤中,设计SOM神经网络时,分别设计神经网络的输出为2、4和8,再分别进行码本数分别为2、4和8的码本训练,分别计算得到2、4和8个码本。然后,用这2、4和8个码本,分别对图2的联合编码算法编码程序流程图,在“由当前的声音样本原始值和预测值之差计算得到2个误差值”这一步骤中得到的,由每2个误差值组成的误差矢量进行矢量量化。

压缩率的计算公式为:

式(2)中:α为压缩率;r0为编码后表示声音样本信号的二进制码总位数;ri为表示原始声音样本信号的二进制码总位数。

码率β的计算公式为:

式(3)中:μ为采样率;η为平均码长。

信噪比的计算如式(1)所示。

为了研究最小码率,分别选择了标准声音样本库中的“雷声”、“音乐”和“心跳”这3个日常生活中具有代表性的声音样本作为研究对象。其中,声音样本“雷声”样本的时域采样率为11 025Hz,量化精度为8 bit;声音样本“音乐”和声音样本“心跳”样本的时域采样率均为22 050Hz,量化精度均为16 bit。

图2所示的是采用联合编码方法对声音样本“雷声”的编码运算结果。联合编码的码书长度值为8,码率为16.568 kb/s,基于SOM的神经网络训练码本的码本训练次数为200。图2 a)、b)分别是原始声音样本信号“雷声”的时域波形和频谱;图2 c)、d)分别是在对图2 a)的“雷声”样本进行联合编码的编码端的预测编码部分,对误差矢量信号进行矢量量化所产生的量化噪声的时域波形和频谱。从图2 b)可见,信号的能量主要集中在2 500Hz之前。从图2 d)可见,量化噪声能量几乎均匀分布在0~5 500Hz范围内。因此,联合编码的译码端低通滤波器的通带截止频率设为2 500Hz,阻带截止频率设为3 750Hz,通带波纹设为0.3dB,阻带衰减设为10dB(下文同)。计算得到滤波器输出信噪比为6.935 8。图2 e)和图2 f)分别是对图2 a)进行联合编码所得到的声音样本“雷声”的译码信号的时域波形和频谱。

图2 码书长度值为8的条件下,声音样本“雷声”的联合编码运算结果Fig.2 Results of joint coding of“Raytheon”sample under the condition that the codebook length is 8

表2是对“雷声”声音样本进行码书长度值为8条件下的联合编码所得到的译码信号MOS值,是10位听力正常的评定者给出的声音样本“雷声”的译码的MOS值。从表2可见,声音样本“雷声”译码信号的MOS值平均分为3.1分,质量等级为可接受,译码声音失真级别为“有察觉且稍觉得可厌”,可满足多数音频通信系统的适用要求。由图2 e)和图2 a)对比可见,译码信号时域波形的包络基本没有改变。所以,译码“雷声”声音可以辨别;由图2 f)和图2 b)对比可见,译码信号损失了频率大于2 500Hz的高频能量,而人耳对2 500Hz以上的高频信号的敏感度较低,所以,人耳对译码声音和原始声音样本的音质差别感觉不大。

表3是对声音样本“音乐”信号进行码书长度值为8的联合编码得到的译码信号MOS值的判分,从表3可见,“音乐”MOS值的均值为3.8分,质量等级为可以接受,译码声音失真级别为“有察觉且稍觉得可厌”,可以满足多数音频通信系统的适用要求。其中,联合编码低通滤波器的通带截止频率设为4 000Hz,阻带截止频率设为6 000Hz,通带波纹设为0.3dB,阻带衰减设为10dB(下文同);码率为33.075 kb/s。

表4是对声音样本“心跳”信号进行码书长度值为8的联合编码得到的译码信号MOS值的判分,从表4可见,“心跳”MOS值的均值为4分,译码声音失真级别为良,在数字音频通信中,属于一般高质量数字化音频,质量满足长途电话网的要求,接近于透明信道编码,为网络质量。其中,码率为33.075 kb/s;滤波器的通带截止频率设为2 000Hz,阻带截止频率设为2 500Hz,通带波纹设为0.3dB,阻带衰减设为10dB(下文同)。

表2 对声音样本“雷声”样本进行码书长度值为8的联合编码所得到的译码信号MOS值Tab.2 MOS value of the decoding signal obtained by the joint encoding of the codebook length of 8 for the"thunder"voice sample

表3 对“音乐”声音样本进行码书长度值为8的联合编码得到的译码信号MOS值Tab.3 MOS value of the decoding signal obtained by the joint encoding of the codebook length of 8 for the"music"voice sample

表4 对“心跳”声音样本进行码书长度值为8的联合编码得到的译码信号MOS值Tab.4 MOS value of the decoding signal obtained by the joint encoding of the codebook length of 8 for the"heartbeat"voice sample

表5是对声音样本“音乐”、“心跳”和“雷声”采样码书长度值分别为2、4和8时进行联合编码运算结果。由表5可见,同一样本,随着码书长度值的增加,译码声音的信噪比和MOS分数值增加,质量变好,码率也增加;声音样本“雷声”在码书长度值为4和声音样本“音乐”以及声音样本“心跳”在码书长度值为2时的码率均为11.025 kb/s,对应表1中的MOS判分为2,译码声音质量等级为“差”,失真级别为“明显察觉且可厌但可忍受”。即译码声音具有一定的可懂度,但是音色不够理想;声音样本“雷声”在码书长度值为8码率为16.568 kb/s和声音样本“音乐”以及声音样本“心跳”在码书长度值为4码率为22.025 kb/s时,对应表1中的MOS判分为3,译码声音质量等级为“可”,失真级别为“有察觉且稍觉可厌”,译码声音达到一般音频通信质量要求。

表5 码书长度值不同的条件下的3种声音样本的联合编码运算结果Tab.5 results of joint encoding of three kinds of voice sample under different conditions of codebook length

4 结论

通过合理选择联合编码的码书长度值,可以减小码率。联合编码方法对声音样本“雷声”、“音乐”和“心跳”在各自对应的码书长度值下,在译码声音的音色稍差一些的情况下,信号的压缩编码可以达到11.025 kb/s的最小码率;在译码声音满足一般通信的情况下,信号的压缩编码范围可以达到16.568~22.025 kb/s,较联合编码在码书长度值为31时的码率62.5 kb/s有所减小,远低于MEPG-1 Layer3的最低64 kb/s标准码率。

猜你喜欢
码率译码音频
极化码自适应信道译码算法
基于缓存补偿的视频码率自适应算法
流媒体视频的两阶段码率调节提升QoE策略研究
移动视频源m3u8多码率节目源终端自动适配技术
基于扩大候选码元范围的非二元LDPC加权迭代硬可靠度译码算法
分段CRC 辅助极化码SCL 比特翻转译码算法
柏韵音频举办Pureaudio 2021新产品发布会
基于校正搜索宽度的极化码译码算法研究
考虑全帧间参考依赖性的监控视频高效视频编码码率控制算法
开盘录音带音频资料的数字化