数字音频水印技术研究

2012-11-28 10:51:52辛蔚峰

中国科技信息 2012年15期

关键词：保真度数字音频鲁棒性

辛蔚峰

苏州科技学院传媒艺术学院，江苏苏州 215009

数字音频水印技术研究

辛蔚峰

苏州科技学院传媒艺术学院，江苏苏州 215009

本文首先介绍了数字音频水印的应用与属性，分别阐述了频域、时域以及压缩域的数字音频水印技术。最后，总结了现有数字音频水印技术的异同点以及今后的研究方向。

数字音频水印；版权保护；鲁棒性

前言

近年来，随着数字多媒体作品在互联网上的传播和复制变得越来越方便快捷，其版权保护的需求也在不断增长。这些需求促使研究者去研究阻止版权侵犯的方法。最有希望解决这一挑战性问题的思路是运用信息隐藏技术。[1]信息隐藏是将信息嵌入到数字媒体中的过程。嵌入的信息应当是不被察觉的；同时，被嵌入信息的数字媒体的保真度必须不受影响。

信息隐藏技术的两个重要类型是隐写术与水印。[2]隐写术的主要目的是隐藏通信的事实（而不仅仅是隐藏通信的内容）。发送者将秘密信息嵌入到数字媒体中，只有特定的接收者才能提取到这个秘密信息。通信信道的监管人也许会察觉到传输的媒体，但是他不会察觉到隐藏于其中的秘密信息。

水印和隐写术的目的都是在载体中隐藏信息。其中，隐写术应用于两方之间点对点的秘密通信。因此，隐写术通常只有有限的鲁棒性，它要防止嵌入的信息在传输过程中被改动。另一方面，当很多人知道媒体中存在嵌入信息，而且有意图移除此信息时，就需要使用水印技术而不是隐写术。因此，水印技术对鲁棒性的要求更高。一个理想的水印系统要确保嵌入的信息不能被移除或改变，并且嵌入的信息不能影响载体的保真度。

学术界已经对数字水印技术表现出了极大的研究兴趣。然而，大多数的研究都集中在图像水印和视频水印方面，有关音频水印的研究还很少。音频水印是将水印嵌入到音频信号中的过程。因为人类听觉系统（Human Auditory System，HAS）的敏感性，制作音频水印是一个很困难的过程。

1.数字音频水印的系统模型

一个数字音频水印系统包括三个基本模块：水印生成模块、水印嵌入模块和水印检测模块。[3]水印信号通过一个不可逆的过程生成。音频水印生成的时候也会考虑原始音频信号的特点，这将有助于生成不易感知的水印。

水印嵌入采用某种恰当的嵌入规则（例如，加法或乘法），在时域或频域中完成。最后，水印检测可以在借助或者不借助原始音频信号的情况下，通过某些相关检波器或统计假设检验实现。

2.数字音频水印的应用

对水印系统的要求总是基于它的应用。因此，在研究对数字音频水印的要求和设计要素之前，我们需要先讨论它的应用。[3][4][5]

2.1 版权保护

2.2 数字指纹

这个应用的目的是传输有关合法接收者的信息，确保数字音频作品每个副本的合法性。这非常类似于软件产品的序列号。在这个应用中，不同的水印被嵌入到每个副本中。而在版权保护应用中，只有一个水印嵌入到数字音频作品的所有副本中。与音频水印的版权保护应用一样，数字指纹也需要很高的鲁棒性。

2.3 内容认证

这个应用的目的是检测音频数据的改动。这可以用所谓的脆弱性水印来实现。脆弱性水印对某些修改（例如，压缩）具有很低的鲁棒性。

2.4 复制保护

这个应用试图阻止数字音频作品的非法复制。可以利用水印来指示数字音频作品的复制状态（例如，复制一次或者没有复制过）。同时，用来进行复制操作的软件或设备必须能够检测水印，并且根据作品的复制状态来允许或者阻止操作请求。

2.5 广播监控

数字音频作品的制作商希望确保他们的作品能够在他们购买的时间内按时播出。广播监控的老办法是要有人监听广播频道，记录他们听到的内容。这个办法既昂贵而且容易产生误差。最好的解决方案是自动监控。其中一种自动广播监控的方法是使用水印技术。我们可以嵌入一个标识码到要广播的作品中，通过监控系统来检测嵌入的水印，以此来确保所购买的广播时间是否全部得到利用。

3.数字音频水印的属性

数字音频水印系统具有某些属性。每一个属性的重要性取决于对水印应用的需求。[3][6]

3.1 嵌入效率

水印系统的效率是指输出音频信号被嵌入水印的可能性。当输出信号被检测器检测到相应的反应时，才可以说音频信号已被嵌入了水印。输出信号被检测到相应反应的百分比就是音频水印系统的效率。

3.2 保真度

一般而言，音频水印系统的保真度是指数字音频的原始版本以及嵌入水印版本之间的感知相似度。但是，嵌入水印的音频有可能在被接收者感知之前在传输过程中衰减。因此，需要对保真度有一个更恰当的定义。我们可以将音频水印系统保真度定义为接收者感知到的未嵌入水印音频信号和嵌入水印音频信号之间的相似度。

3.3 数据负载

数据负载是指水印在单位时间内嵌入的比特数。对音频而言，数据负载是指每秒钟传输的嵌入比特数。不同的水印应用需要不同的数据负载。例如，版权保护应用就只需要在数字音频中嵌入少量的比特。

3.4 盲检测或知情检测

我们将需要原始音频信号的水印检测称为知情检测。知情检测需要来源于原始信号的信息。与之相对，不需要原始音频信号的检测被称为盲检测。知情检测在水印检测时具有良好的性能，但是这需要存储大量的原始信号。

3.5 鲁棒性、安全性和成本

鲁棒性是指水印不受常用信号处理技术影响的能力。音频水印需要在时域滤波、数模转换以及比例缩放等方面表现出鲁棒性。并不是所有的水印应用都需要各种形式的鲁棒性。这依赖于水印系统的应用性质。

水印的安全性是指对抗恶意攻击的能力。恶意攻击是指明确的阻止水印目的的过程。攻击可以分为三种类型：非法移除、非法嵌入以及非法检测。

水印系统的成本是指水印嵌入和检测的速度以及必须部署的嵌入器和检测器的数量。其他问题还包括检测器和嵌入器是通过硬件设备、软件应用，还是通过插件来实现的。

4.数字音频水印技术概述

可以根据水印的作用域将数字音频水印技术分为三类，下面分别进行讨论。

4.1 频域音频水印

频域音频水印技术利用HAS的音频掩蔽特性，将人耳听不见的水印信号嵌入到数字音频中。将音频信号从时域转换到频域使得嵌入的水印成为音频信号重要的组成部分。这使得水印系统具有更高水平的鲁棒性，因为任何移除水印的企图都会对原始音频信号的保真度造成严重的影响。

输入的音频信号首先变换到频域，在频域中嵌入水印信号，接着，合成的信号通过反频率变换，最后得到嵌入水印的音频信号作为输出。如图1所示。

图1 频域音频水印

水印可以通过多种方法嵌入到频域中。例如，在频域中应用扩展频谱（Spread Spectrum）技术。[7][8]在扩频通信中，传输信号的带宽远大于信号本身的带宽，以至于在每个频率上的信号能量几乎感觉不到。与之类似，水印分布于众多的频率分量中，任何分量上的能量都是非常微小的，因此水印信号的隐蔽性很强。在这种方法中，载体信号的频域被看作是一个通信信道，水印则是通过其传输的信号。各种有意或无意的干扰信号就被看作噪声。水印检测过程知道水印的位置和内容，它能将许多微弱的信号集中起来形成具有较高信噪比的输出值，要破坏水印需要很强的噪声信号加入所有频率分量中。但是，破坏水印的同时也造成载体信号保真度严重下降。因此，利用扩频技术的数字水印技术具有很高的鲁棒性和安全性。

另一种常用的频域音频水印技术是采用Patchwork算法，这是一种统计算法，即在原始音频信号中嵌入特定的统计特性。[3][9]该方法包括两个主要步骤：（1）选择两个伪随机序列的插入码；（2）插入码A加上一小常数d，另一插入码B减去同一常数d。这样，原始采样变量就会略有改变。检测过程从两插入码样本值的差入手，采样值的差值期望值决定了是否含有水印信息。由于采用了两个而非一个插入码，因此，检测过程无需原始信号，即可检测出水印。

4．2 时域音频水印

在时域水印技术中，水印直接嵌入到音频信号。在这个过程中不需要域转换。在嵌入操作之前，水印信号需要整形，以确保信号的透明性，如图2所示。与频域水印相比，时域水印相对容易实现且需要较少的计算资源，但对一般信号处理如音频压缩和滤波等的抵抗能力较差。[10]

图2 时域音频水印

最不重要位（Least Significant Bits，LSB）方法是一种典型的时域水印算法。[4][10]LSB通过将每个采样值的最不重要位，多数情况下为最低位，用代表水印信息的二进制位替换，以达到在音频信号中嵌入水印信息的目的。为了提高水印的鲁棒性，可以采用一段伪随机序列来控制嵌入二进制位的位置。伪随机信号可由伪随机序列发生器的初始值来产生，这样在收发双方只需要秘密地传送这个初始值作为密钥，而不需要传送整个伪随机序列值。LSB算法简单易实现，信息嵌入和提取的速度快，数据负载大，但是其安全性很差，攻击者只需要对信道简单地加上噪声干扰或者对数据进行重采样和压缩编码等处理都会造成整个水印信息的丢失。

4.3 压缩域音频水印

频域和时域水印算法大都是直接将水印添加到非压缩的音频格式中，由于没有考虑到音频编码中的压缩系数与水印参数之间的优化匹配，对音频压缩的鲁棒性一般不高，所以难以起到压缩音乐版权保护的作用。近年来，针对逐渐成熟的例如MP3、AAC等音频感知编码标准，研究者提出了一些MPEG编码的压缩域音频算法，大致分为三类：[8]（1）在非压缩域进行，即先向非压缩原始音频中加入水印，然后再压缩。（2）在压缩域进行，水印直接加到MPEG音频比特流上，直接形成含水印的压缩音频文件。这使水印嵌入非常迅速，但鲁棒性较差，任何解压缩——再压缩的处理都可以轻易除去水印。（3）首先将压缩音频解压，然后将水印嵌入到非压缩域，最后带水印的音频内容再被重新压缩成带水印的压缩格式音频。该方法可以提高水印的鲁棒性，但时间开销太大，因为压缩过程要花费很长时间，不适合在线交易和分发。

总的来说，压缩域音频水印算法的编解码系统过于复杂，受格式化编码带来的限制很大，另外由于在压缩域已经滤掉了音频信号的大部分冗余信息，使得水印信息嵌入的难度很大。压缩域音频水印技术还有待于进一步的深入研究。

结语

所有的音频水印系统都被设计来实现同一个目标：在数字音频中嵌入一个隐蔽的、稳健的水印。音频水印系统必须满足两个相矛盾的设计要求。第一，水印必须要抵抗有意和无意的移除企图，要具有良好的鲁棒性。第二，嵌入水印的音频信号必须保持良好的保真度，即水印必须是人感知不到的。为了满足这些要求，不同的方法被开发出来，使用不同的域来实现水印的某种应用，同时提高嵌入水印的音频信号的保真度和鲁棒性。

然而，不同的音频水印系统也有一些区别。在评价水印系统的效果以及完成某项应用的适用性时，要考虑到这些区别。这些区别包括：

（1）一些音频水印系统的检测过程不需要使用原始音频信号。而另一些音频水印系统在检测过程中需要原始音频信号，这将会导致在检测过程中需要存储和搜索大量的原始材料。需要原始音频信号的系统不适用于某些应用，在这些应用中，检测过程无法使用原始材料。

（2）在水印嵌入过程中，原始音频信号被分成不同的帧，然后每一帧被分别嵌入水印。一些水印系统在所有帧中嵌入同样的水印，以提高水印的鲁棒性。但是，在另外一些系统中，每一帧嵌入不同的水印。

（3）因为HAS的敏感性，水印信号应该通过整形来实现透明化。音频信号的掩蔽特性可以用来实现这个目的。还有一些音频水印系统采用了不同的技术。这些技术在调制水印时使用了原始音频信号。因此，水印信号的幅值被音频信号的幅值所控制。

当前，数字音频水印的研究已经取得了许多成果，但是数字音频水印技术仍需要改进和提高，许多研究还有待开展。例如：

（1）目前大多数的音频水印算法都只针对常见的音频信号处理手段或者只针对一种或几种水印攻击有鲁棒性，而在抵抗多重攻击时，水印性能大大降低。

（2）音频水印自身的性能还有可提高的空间，例如计算的复杂度、嵌入强度、是否盲检测、能否做到自适应调整等。

（3）深入研究与新一代压缩标准如MP3、AAC相适应的音频水印算法，这样才能更好地将数字音频水印技术应用到实际中。

[1]乔明亮,宋莉.信息隐藏技术在通信中的应用研究[J].图书与情报, 2011(4):62～65.

[2]李友,张定会.基于隐写术的信息隐藏技术[J].信息技术, 2010(7):119～122.

[3]王向阳,杨红颖.数字音频水印技术研究综述[J].曲阜师范大学学报,2005,31(4):119～125.

[4]方健华.数字音频水印技术[J].信息技术,2007(4):75～78.

[5]N.Cvejic and T.Seppanen.Digital Audio Watermarking Techniques and Technologies: Applications and Benchmarks[M].IGI Publishing Hershey, PA,USA,2007.[6]吴迪,朱冰莲.数字音频水印技术研究综述[J].电声技术, 2009(2):55～58.

[7]D.Kirovski and H.S.Malvar.Spread-Spectrum Watermarking of Audio Signals[J].IEEE Transactions on Signal Processing, 2003, 51(4):1020～1033.

[8]李伟,袁一群,李晓强等.数字音频水印技术综述[J].通信学报, 2005,26(2):100～111.

[9]刘海燕,郑雪峰,王颖.数字音频水印主要算法的研究与比较[J].计算机应用研究,2007,24(9):136～139.

[10]P.Bassia and I.Pitas.Robust Audio Watermarking in the Time Domain[J].IEEE Transactions on Multimedia, 2001,3(2):232～241.

10.3969/j.issn.1001-8972.2012.15.039

苏州科技学院2010年度科研

数字音频水印技术研究（XKY201029）

辛蔚峰（1976- ），女，硕士，苏州科技学院传媒艺术学院讲师，研究方向：数字音频技术。