MP3压缩域音频的数字水印算法

2011-01-09 03:08常丽

太原师范学院学报(自然科学版) 2011年4期

关键词：音频文件透明性数字水印

常丽

（山西工程职业技术学院，山西太原 030009）

MP3压缩域音频的数字水印算法

常丽

（山西工程职业技术学院，山西太原 030009）

文章依据MP3音频文件的压缩原理及特点，提出了一种能够用于MP3音乐文件版权保护的数字水印算法.该算法通过与MP3编码与解码过程相结合，能够实现水印信息的实时提取，具有良好的感知透明性、较好的实时性和相对较低的计算复杂度.

音频；数字水印；压缩域；水印嵌入；水印提取

随着互联网技术与电子商务的不断发展，人们在日常生活和工作中越来越多地要使用到音频文件，因此有关于音频数据的版权保护就变的非常重要.数字水印技术最早主要用于数字图像领域，后来慢慢渗透到视频和音频领域中，成为了一门以保护多媒体数据版权信息为主的新兴技术.目前通过互联网接触到的相当大部分的音乐文件都是利用MP3来压缩编码的，因此对该类文件进行版权保护的研究就显得十分重要.当前提出的各种各样的音频数字水印技术不能够很好地满足市场需求，水印隐形性不高，当增大水印的添加量时音质就会严重下降，针对大容量、实时性、音质与水印容量的制约因素这三大问题，我们可以将水印信息分为两个部分：水印信号和水印Hash值.依照二者自身的特性提出了一种新的数字水印算法.

1 MP3音频格式

MP3［1］的全称是Moving Picture Experts Group Audio Layer 3，是MPEG－1标准中的声音部分，MP3利用一种音频压缩技术，将声音用1∶10甚至1∶12的压缩比例制作成容量较小的文件，并且可保持较好的音质，所以很受广大用户尤其是互联网用户的欢迎.MP3文件的编码过程是以帧为单位进行的，一帧通常有576个数据.根据帧的性质不同，文件大体可分为三部分：ID3v2标签帧、ID3v1标签帧和音频数据帧.数据帧往往有多个，由文件大小和帧大小来决定.每个标签帧都是顺序存放在文件中.帧的音频数据分为边信息和主数据.MP3文件主数据的组织结构［2］如图1所示.

图1 MP3文件主数据组织结构图

2 MP3音频水印方案

2.1 数据预处理

水印信息在添加到MP3音频文件之前需要作一定的前期准备即进行预处理工作，主要包括对水印信息的置乱和计算相关的Hash值.数字水印技术是一种非常重要的信息隐藏技术，主要嵌入到当前的数字作品当中，如随机信号、文字、图像、声音影像数据等等，一般具有隐藏性、鲁棒性等基本特性.文章中选用二值图像作为水印，为了提高数字水印的安全性能，保证音频数据中某一部分即便受到破坏仍能最大限度地恢复水印，就需要对该二值图像进行水印信息的置乱并且加密.文章在数据预处理阶段使用Arnold变换对二值水印图像W（X×Y）进行置乱加密，使之成为了安全水印矩阵W1.

Arnold变换是俄国数学家Arnold V J提出的一种剪裁变换，是一种图像领域中经常用到的置乱技术.

Arnold变换的定义［3］如下所示：

对于任意的N*N矩阵（所有元素均相同的矩阵除外）来说，设i和j为矩阵中各元素原始下标，通过Arnold变换后下标变为i＇和j＇，并且满足下式：

其中i和j取值范围均为（0，1，…，N－1）（1）

Arnold变换具有一定的周期性，意思是经过数次变换后，矩阵任然会回到初始状态，其中周期T与N的大小有一定关系.

为了很容易地嵌入水印，在这一阶段须设置一维数组WA，是通过加密后的安全水印矩阵W1转换而成的，同时须保存密钥K，这个是由置乱次数决定.为增强该算法的鲁棒性，在试验中会将N个相同的水印在同一时间内一起嵌入到音频数据中，然后将原始水印数组复制，在重复N次后将会形成一个新的一维数组WA1.

2.2 水印嵌入方法

文章中引入了水印嵌入密度因子α，主要用来平衡水印的添加比例和其鲁棒性.首先由用户进行输入并且自动生成一个随机序列，取值范围为（0，1），标记为i.这个随机序列会与水印嵌入密度因子α共同作用，主要是分散整个MP3文件中的水印信息.α取值范围为（0，1），主要作用是监督控制候选水印载体位个数与实际水印载体位个数的百分比.在此，α取值一定要合理，α越小表示水印信息越分散，其隐秘性越强，但如果太小会影响水印的添加量.

MP3音频文件中添加水印的过程是在编码过程中同步进行的.MP3音频文件的压缩过程对PCN码是以粒度为单位按照一定顺序处理的.量化后的一个粒度的MDCT系数可以将568个频率线分为“大值区”、“零值区”和“Count1区”.“Region1”将作为音频文件水印信息中Hash值相对应地添加部分.

音频文件中水印嵌入算法［4］的步骤为：

1）先将水印信息进行一定的置乱处理，目的是为了消除水印信息的相关性.

2）读取MP3帧，并将MP3帧按照8帧为一组的方式分成一系列的组合.

3）利用帧边信息，读取每一个组合中的水印嵌入密度因子，并按照一定的嵌入规则进行嵌入.

4）进行前后对比分析每一组的变化，最后计算出嵌入后的信嗓比.

5）最终水印嵌入完成，此时MP3音频文件已经带有了水印.

2.3 水印提取方法

提取水印的过程与嵌入水印的过程正好相反，提取操作是在将MP3音频文件解码成PCM码的过程中进行的.这样可以实现在MP3文件播放的同时进行水印的提取.因为水印提取算法花费的时间较短，所以不会影响MP3文件的播放.因此水印同步提取的操作是可以实现的.水印提取过程如下：

首先生成一个随机序列m，取值范围为（0，1），这是根据用户输入的密码决定的.对其中每一帧水印的提取均分为两步：一是提取 “Region1区”中的Hash值，二是提取“Region2区”中水印的置乱信息.

“Region1”部分中的提取算法［5］用式（2）表示：

“Region2”部分中的提取算法用式（3）表示：

在提取水印的过程中如果发现结束标志则应马上停止提取操作，但解码工作依然会正常进行.解码工作完成之后水印信息将会保存在先前的W1数组中.W1数组中的信息是先前设定好的置乱信息，按照用户输入的密码将W1中的信息进行反置乱，最终可以得到正确的并且完整的水印信息W.

3 实验结果与性能分析

3.1 水印嵌入量试验

本试验选用了二值图像作为水印，在预处理阶段将Arnold置乱次数T设为30，进行重复嵌入6次，不同类型不同大小的MP3音乐文件在不同比率下的可嵌入水印容量也不同.表1列出了三首MP3音乐文件在不同比率下的可嵌入水印容量大小.

表1 音乐文件在不同比率下的可嵌入水印容量

通常情况下，一首MP3音乐文件的时长一般都在2 min以上，所以由表1可知，对于本试验中采用的水印图像，其中水印的可嵌入容量是足够的.

在水印添加之前需要对水印的载体进行一定的预处理，目的是可以获取能够添加的最大的水印容量；将水印的载体文件按照MP3文件的压缩规则事先取得各个粒度的量化系数，并且对能够嵌入水印的数据量进行记录，通过计算各个粒度中所有系数大于2的个数之和来得到可加入的水印的最大容量.

试验中使用了不同类型的MP3文件来测算最大嵌入信息量以及最大添加比例，最终结果如表2所示，从表2中可以看出，本实验所采用的算法具有相对较高的水印添加比例.

表2 水印嵌入容量试验

3.2 感知透明性试验

本实验对3种不同类型的音乐通过ABX测试方法来计算各自的水印感知透明性.通过对各种音乐和各类人群进行多次测试，同时记录测试出来的ABX值，如果最终得到的ABX值明显接近于50%，则说明人耳很难觉察到初始音乐文件和嵌入水印后音乐文件之间的区别.

为了能够对音频质量做出更加客观准确的评价，采用了PEAQ算法来比较不同类型的音乐文件嵌入水印前后的音频质量［6］.根据计算结果可以得出客观差异等级ODG，ODG的取值范围为（－4，0），数值越接近0就表示音频文件中能够感觉到的损伤就越小.

试验选用了多种类型的音乐文件进行测试，表3列出了本算法与MP3Stego的感知透明性测试相比较的结果.

从表3中不难看出，两种算法最终得到的ABX值都接近于50%，说明水印的嵌入与否我们人耳基本很难辨别出来，分析两种算法最终得到的ODG可知本文算法的水印透明感知性会更好一些.

表3 本算法与MP3Stego的感知透明性测试比较结果

4 结束语

文章提出了一种有效的可行的能够用作MP3音乐文件版权保护的数字水印算法.通过实验可以得出该算法感知透明性较好，非法检测率较低，而且嵌入和提取水印时不需要MP3的编码与解码过程，这就极大地降低了整个计算的复杂度，同时也极大地增强了该算法在MP3音乐作品版权保护领域中的实用性与可操作性.该算法具有一定的抵御常规攻击的鲁棒性，但是无法抵御那些主动攻击者在压缩和解压缩方面的攻击，因此下一步的工作将是对此进行进一步的完善.

［1］刘伟，王朔中，张新鹏.一种基于部分 MP3编码原理的音频水印［J］.中山大学学报（自然科学版），2004，43（2）：26-28

［2］晁婷婷，王新房，蒋存云.基于压缩域的 MP3音频数字水印算法［J］.计算机工程，2011，37（10）：204-206

［3］周治平，张彩虹，周礼华.MP3压缩域音频的自适应水印算法［J］.计算机工程与应用，2010，46（23）：92-95

［4］ Meyer B.ABX tests and testing procedures［EB／OL］.http：／／boston audiosociety.org／bas-speaker／abx-testing.htm.，1990－11－23

［5］汤光明，蒋小标，王亚弟.信息隐藏理论安全性研究［J］.计算机工程，2009，35（8）：192-194

［6］刘振华，尹萍.信息隐藏技术及其应用［M］.北京：科学出版社，2002

Audio Digital Watermarking Algorithm Based on MP3 Compressed Domain

Chang Li
（Shanxi Engineering Vocational College，Taiyuan 030009，China）

Proposes a copyright protection for large－capacity MP3 audio watermarking algorithm based on MP3 audio file principles and compression characteristics.The algorithm with MP3 encoding and decoding process achieves the extraction of the watermark information in real time，and has a good perception of transparency，excellent imperceptibility and lower computational complexity.

audio；digital watermarking；compressed domain；watermark embedding；wartermark extraction

王映苗】

1672-2027（2011）04-0096-04

TP312

2011-09-23

常丽（1981-），女，山西原平人，山西工程职业技术学院计算机工程系助教，主要从事计算机应用技术研究.