基于频谱特征的数字音频中信息隐藏算法

2015-12-18 13:17徐治

电子科技 2015年8期

徐治

(安徽师范大学物理与电子信息学院，安徽芜湖 241000)

信息隐藏是以某种方式在一段宿主信息中嵌入另一段信息，从而产生一种复合信息。由于嵌入的信息给宿主信息带来的干扰被控制在不易察觉的程度，其可隐藏在复合信息中公开地传输或存储，在收端再将隐藏的信息提取出来，从而实现信息的隐蔽存储或保密通信。信息隐藏是信息安全的重要方法，例如将信息隐藏在视频或音频码流中能起到良好的伪装作用，因通常人工审查或软件过滤会将其当成普通的影音信息忽略过去。将加密后的信息隐藏在以GB计的视频或音频信息中，其安全性比单纯的加密更高，因此其在情报、军事及安全领域有重要的意义，在民用领域的应用包括数字水印版权保护、互联网身份认证、报文纂改检测等。

信息隐藏技术是在1994年的国际图像处理会议(ICIP 94D)上首先提出的［1］，早期用在静态图像中，后来扩展到音频视频信号［2］。本文研究以音频信号作为宿主来隐藏信息，音频的数据量较大，审查和过滤更困难，而可隐藏的信息却更多。音频信号是实时信号，若其中隐藏信息的密度足够大，则隐藏信息也可作为实时信号传输，这可实现在一个宿主通信的掩护下同时进行另一个隐藏的保密通信。

1 基于频域特征的信息隐藏提取过程

目前在数字音频信号中隐藏信息的方法主要分时域和变换域两大类。时域隐藏主要是最低有效位算法和回声隐藏法，但其鲁棒性较差［3］。本文采用基于DCT谱的频域变换方法，将信息嵌入到音频信号的频谱中去，其基本过程如图1所示。

首先将音频序列分段成一定长度的帧，并用DCT变换计算出该帧的频谱。同时将隐藏信息置乱或交织后串行化为bit流，一个bit的隐藏信息通过改写一个音频帧的频谱，使其符合相应的特征而被嵌入其中，然后对改写了的频谱作IDCT反变换得到复合音频序列。信息提取过程是计算出音频帧的DCT频谱，然后根据其频谱特征决定该帧的隐藏bit是0还是1。

信息隐藏按提取方式分为盲检测和非盲检测两类，盲检测只需要复合信息即可提取出隐藏信息，而非盲检测需要同时获得原始的宿主信息，通过比对宿主信息和复合信息来提取［4］。盲检测方案的应用价值更高。本文的算法在信息提取时无需宿主信息，从而实现了盲检测。

图1 信息的隐藏和提取

2 频域信息隐藏和提取算法设计

本文设计的频域信息隐藏的嵌入和提取算法如图2所示。

图2 隐藏信息的嵌入和提取

2.1 DCT频谱

DCT变换是多媒体信息处理中求频谱的常用算法［5］。本文选择DCT而不是DFT有两个原因:(1)DCT不涉及复数运算。由于作为多媒体信息的音频序列可看成一个实偶序列，而实偶函数的傅里叶变换只包含余弦项，因此DFT的复数变换核 e－j2πNn就退化为DCT的实数变换核cos。(2)DCT更加有效。N点实序列的DFT谱是共轭对称的，因此N点的DFT谱相当于只有条谱线，而N点DCT谱没有这个性质。因此同样的帧长，DCT谱可操作的谱线数量是DFT谱的2倍，同时DCT谱的频率分辨率也比DFT谱高2倍，因而在遭受攻击时鲁棒性更强。

2.2 基于多频点谱线极性特征的信息嵌入

本文通过一帧DCT谱中m个特定频点的谱线的极性来表达1 bit的隐藏信息:如果隐藏信息位是1，则m个谱线的极性都必须为正，对其中原来是负极性的谱线，则改写为正的，而绝对值大小保持不变;如果隐藏信息位是0，则m个谱线的极性均必须为负，改写方法相同。改变DCT谱线的极性，相当于将对应的谐波分量作了180°倒相处理，由于人耳对声音的相位信息不敏感，因此其透明性应该优于改写幅度的算法。从数值变化大小的角度看，极性翻转的数值变化要远大于幅度修正，因此抗攻击的性能也应优于改写幅度。

极性特征编码在m个谱线上，这种重复冗余的方式是为了提高抗攻击能力。在信息提取时采用等增益合并方式进行判决:即将特定的m个谱线直接累加，若和为正，则隐藏信息位判为1;反之为0。根据测试，m约取10即可，过小会降低鲁棒性，但过大无意义。

2.3 多频点谱线位置的选择

为了兼顾透明性和鲁棒性，m个频点的位置是按帧动态选择的。首先频点选择范围限制于1 000 Hz～3 000 Hz的中频段内。因为除非对复合音频进行破坏性处理，否则中频段的谱线不受正常滤波的影响，也不会全部被压缩算法删除。接着对中频段的谱线按其幅度绝对值的大小进行排序，然后回避最大的b个谱线，从第b+1的位置开始的m个谱线就是该帧的特征频点。b的取值是平衡透明性和鲁棒性的关键参数:b过大，对宿主音频的干扰比较大，但鲁棒性会较好;b过小则效果相反。测试发现b约取20较为合适。

2.4 帧能量检测与修正

某些音频序列中存在采样值全部为0的帧，其DCT谱也全部为0，无法嵌入和提取。若某些帧能量较小，DCT谱线的抗噪能力会很差。算法会计算每帧的能量，若小于一定的门限，则随机选取多个位置，将谱线幅度修正为适当大小的随机值。

3 性能测试与分析

3.1 透明性

衡量声音失真度的指标分主观和客观两种［6］。本文使用MOS等级评分来衡量，因为客观指标有时与听觉感受并不一致。本算法的MOS测试结果为:多数声音样本评分为良(失真刚有察觉，但不讨厌)，少数评分为优(失真无察觉)，只有个别的样本评分为中(有察觉，且有点讨厌)。实际上，实验对象均认为复合声音无异常，只有通过复合声音与宿主声音的对比才能觉察到失真。图3(a)的波形是汉语“北”的原始语音，图3(b)是嵌入9 bit的隐藏信息后的波形。

图3 嵌入隐藏信息前后声音波形对比

3.2 误码率

由于有限字长效应，即使未受到攻击，提取的信息也可能有误差，可以用误码率来衡量。目前的音频传输或存储格式，字长多是16 bit或8 bit［7］，这低于 DCT变换要求的计算精度。具体来说，发端IDCT的结果应该是实数精度的，但实际传输或存储时只有16 bit，这就带来了一定的量化噪声。本算法对此有良好的鲁棒性，经测试，有1/2的样本误码率为零，其余样本平均误码率在10－4以下。因此，只要加入纠错编码完全可实现无差错提取。

3.3 信息容量

由于每帧嵌入1 bit，则帧长越短，信息容量越大。但帧越短其DCT谱也越短，由于算法采用了中频截取、大谱线回避和多频点重复，帧长在技术上存在一个下限。通过对帧补0延长的办法可以提高频谱序列的长度，但由于频域有效分辨率并没有提高，该方法效果有限。经测试，对于44 kHz宿主音频，要保持误码率在10－4数量级，最小帧长在8～10 ms之间，即码率约为125～100 bit·s－1。但若不考虑滤波攻击，就可省略中频截取步骤，只保留回避和多频点重复，则最小帧长缩短约为1 ms，即隐藏信息的码率约是1 kbit·s－1。这已经接近目前语音压缩编码的极限码率1.5 kbit·s－1了［7］。

3.4 鲁棒性

表1所示是本算法经受几种常见攻击后提取的图像，实验中的宿主音频为44 kHz采样，16 bit。

表1 部分鲁棒性测试结果

由表可见算法对于ADPCM压缩、MP3压缩具有良好的鲁棒性，对加性噪声有较好的鲁棒性。但对GSM压缩比较敏感。其原因在于ADPCM和MP3并不改变中频段主要谱线的结构，而GSM声码器在压缩时主要记录极点位置以及声门波激励等参数［8］，解压缩后还原的频谱结构有一定的偏差，从而误码率较大。对于重采样攻击，在2倍率重采样时，本算法的鲁棒性较好，但3倍率以上重采样会使隐藏信息基本丢失。

表1也比较了置乱前后误码分布的变化，由于能量偏低的帧其抗噪性比较弱，不置乱时误码呈突发分布。若隐藏信息是实时的，则可使用交织编码方式。虽然置乱或交织本身并不改变误码率，但如果以后加上纠错编码，则效果会有较大的不同。

4 结束语

本文所设计的隐藏算法基于常用的DCT变换，实现起来简单快速，盲检测的提取方式具有较高的实用性，性能方面透明性和鲁棒性较好，结合简单的纠错编码可以在多种攻击下实现无差错提取。不考虑滤波攻击时信息容量可以达到比较高的水平，但不足之处在于对某些类型的攻击比较敏感。

［1］ Shyndel R G Van，Tirkel A Z，Osborne C F．A digital watermark［C］．Austin:Proceeding of ICIP'94，1994．

［2］陈昕．语音水印技术的研究与应用［D］．北京:北京邮电大学，2010．

［3］项世军．稳健音频水印研究［D］．广州:中山大学，2006．

［4］陈亮，张雄伟．语音保密通信中的信息隐藏算法研究［J］．解放军理工大学学报:自然科学版，2002，3(6):1－5．

［5］门爱东．数字信号处理［M］．北京:科学出版社，2009．

［6］王继祥，刘贵忠，刘广健，等．基于小波谱失真测度的语音质量评估［J］．兵工学报，2008，29(1):33 －36．

［7］郭立，王妙锋，刘璐，等．1．6Kb/s类MELP语音压缩编码器的FPGA实现［J］．小型微型计算机系统，2008，29(8):1553－1556．

［8］韩纪庆，张磊，郑铁然．语音信号处理［M］．北京:清华大学出版社，2005．