高 健,刘星星,杨 珂
(上海大学 机电工程与自动化学院,上海 200072)
自适应最小能量谐波相位偏转音频水印算法
高 健,刘星星,杨 珂
(上海大学 机电工程与自动化学院,上海 200072)
随着计算机网络的飞速发展,多媒体音频的传输越来越便利,以致音频作品的版权保护也显得日趋重要。针对离散余弦变换(DCT)的频谱系数符号具有良好鲁棒性的特点,文中提出了一种基于最小能量谐波相位偏转的音频水印算法。该算法依据音频幅值平均值具备良好的鲁棒性特点,将音频数据根据水印长度进行分段处理,对每个数据段去绝对值的平均值进行离散余弦变换,通过偏转最小能量谐波的相位实现水印信息的嵌入。为了控制水印的嵌入强度,引入了品质因子这一性能指标,将音频文件分解为若干水印可嵌入段和水印不可嵌入段,确保水印信息的嵌入对音频数据的改变控制在较小范围内。实验结果表明,该算法不仅具有非常好的不可感知性,而且对常规信号处理操作具备较好的鲁棒性。
离散余弦变换;符号;品质因子;MP3压缩
数字水印技术是指将具有标识性的信息嵌入到图像、音频、视频等载体中,但要保持载体原有的使用价值,并要尽可能避免被人类的感知系统察觉[1-3]。数字音频水印技术作为保护数字音频作品版权的重要手段,是当前学术界的一个研究热点。对于音频水印技术而言,近年来,研究人员提出了许多时、频域音频水印算法。时域算法[4-5]主要有回声隐藏、相位编码等;频域算法主要有离散傅里叶变换(DFT)[6]、离散余弦变换(DCT)[7-9]、离散小波变换(DWT)[10-14]。
文献[3]从时域角度提出了一种基于邻域平均的鲁棒水印算法,该算法同时具备良好的不可感知性和对常规信号处理操作、去同步的抖动攻击以及随机剪切等的抵抗能力。但该算法对整段音频选取了相同的量化步长而非自适应的量化步长。量化步长的取值偏小或偏大分别会影响水印的抵抗攻击能力和音频质量。文献[6]基于音频DCT系数的统计特征,提出了一种最大似然水印检测方法,采用扩频方式将水印嵌入DCT域,获取对应的高斯混合模型,再通过最大似然检测方法,进行水印信息的判断与提取。从检测可靠性上说,该文献提出的水印检测算法比传统检测方法更高。但在检测过程中,该方法还需通过密钥来寻找初始的水印嵌入位置,实际应用价值不高。
文中基于音频数据压缩前后的DCT系数符号具有良好的鲁棒性这一特性,提出了一种最小能量谐波相位偏转的音频水印算法。该算法依据中低频段最小能量谐波符号改变后导致的音频数据改动量是否在品质因子的控制范围内这一特性,将音频数据段分为水印可嵌入段与水印不可嵌入段。在水印可嵌入段中通过改变最小中低频段频谱系数符号,实现最小能量谐波相位偏转,从而完成水印信息的嵌入。由于谐波符号具有天然较好的鲁棒性,文中所提出的方法对如何协调水印鲁棒性和水印透明性上做出了一些有意义的探索。
一维DCT变换公式如下:
(1)
(2)
其中,k,i=1,2,…,n。
(3)
(4)
(5)
由式(5)可见,数组X=[x1,x2,…,xN]受到扰动影响后,对应的DCT频谱系数在以下两种情形下会发生变号:
由此可知,当数组X=[x1,x2,…,xN]的扰动量绝对值不超过其本身数值时,系数F1不会发生变号,从而说明DCT系数中直流系数的符号鲁棒性很强。
F2=c2[x1a1+x2a2+…+x8a8]
此时ΔF2为最大负值(极端情形)。于是
表1给出了某一音频文件经MP3压缩攻击后8点DCT系数的变号概率表。
表1 8位DCT变换的各位置系数变号概率表
表1数据通过如下对比实验获得:选择某一wav音频文件A(码率1 411kbps,采样率44.1kHz),先作MP3压缩处理,获得MP3音频文件B(码率128kbps,采样率44.1kHz),再将音频文件B解压为wav音频文件C。依次计算A和C相邻5个音频采样点的绝对值平均值,每8点绝对值平均值做1次DCT变换,连续做了4 000次后,得到8点DCT变号概率。取单个采样点的绝对值进行8点DCT变换,与取5个采样点的绝对值平均值进行8点DCT变换相比,虽然水印嵌入容量更大,但水印的鲁棒性较差。由表1可知,直流分量频谱系数的符号在压缩攻击后系数符号不变,中低频系数变号概率较小,也小于高频系数的变号概率,由此说明中低频系数的符号具有较好的鲁棒性。
2.1 品质因子
结合人类的感觉系统和心理学的感知机理对数字水印算法进行研究,是近年来该领域的研究热点。对于音频水印算法来说,由于人类的听觉系统要比视觉系统敏锐得多,所以数字音频水印算法对透明性的要求要比图像水印算法高得多。一般情况下,嵌入水印的强度越大,算法的鲁棒性越好,透明性越差;反之,嵌入水印的强度越小,算法的鲁棒性越差,透明性越好。总之,鲁棒性和透明性之间相互矛盾。为了解决这个严重的矛盾关系,文中通过品质因子的引入,控制了水印嵌入强度过大的问题。
(6)
其中,0≤Q(i)<1,x≠0。
文中Q(x)按式(7)给出:
Q(i)=aebx(i)
(7)
2.2 可嵌入水印与不可嵌入水印数据段
文中算法取音频文件相邻5点绝对值平均值,按8点绝对值平均值做DCT变换,相邻8点绝对值平均值称为一个水印信息(0或1)的嵌入段。选取DCT中低频段(第2~5个系数)中绝对值最小的系数,判断该数据段是否能嵌入水印,具体做法如下:
(1)按8点位置品质因子计算各点可改动的最大量:
(2)计算DCT(x(n+1),x(n+2),…,x(n+8)),确定最小谐波系数(最小系数)位置,即
(3)确定数据段是否为可嵌入水印段。
(8)
2.3 水印嵌入算法
假设原始音频信号为A,数字水印为二值图像,记为W,音频水印嵌入过程如下:
步骤2:对每个数据段40个数据依次按5点计算绝对值平均值,共计8个绝对值平均值;原始音频数据A转化为绝对值平均值数据B,B大小为Size×Times×8。
步骤3:按照2.2节所述方法判断各数据段是否为可嵌入水印数据段。
步骤4:若数据段为可嵌入数据段,则在DCT系数的第2~5位置中选取第二最小系数fs,其中
步骤6:水印嵌入方法。
①若该数据段嵌入水印信息“1”,且fm>0,则视为水印信息已自然嵌入。
同理,若数据段嵌入水印信息“0”,采用类似方法处理。
步骤8:按照y1,y2,…,y8的取值对数据段中的40个点进行修正,以嵌入水印信息。
2.4 水印提取算法
步骤2:对每个数据段40个数据依次按5点计算绝对值平均值,共计8个绝对值平均值;将音频数据C转化为绝对值平均值数据D,D大小为Size×Times×8。
步骤3:结合2.2节所述方法,判断各数据段是否为已植入水印信息数据段。
步骤5:结合2.3节所述方法,每个水印信息(0或1)均被多次重复嵌入,提取水印时,统计同一水印信息提取后“1”的个数与“0”的个数,如果“1”的个数大于等于“0”的个数,则判定为“1”;否则为“0”。
由于水印可嵌入段和不可嵌入段完全依赖于对应的最小谐波系数的数值,而该数值的大小会因音频数据的改动而发生一定范围内的改变。因此在水印提取过程中,会因为这些关键数值的改动而导致水印可嵌入段和不可嵌入段的误判。为了较好地解决这个问题,文中采用多重(40重)水印嵌入的方法,按照少数服从多数的原则定义对应的水印信息。以下实验将某音乐文件按照水印图像大小和水印嵌入重数分为64×64×40段。
文中选取了4首不同风格的音乐文件进行实验。其中一双声道音频文件的各参数如下:采样率为44.1kHz,比特率为16b/s,时长为280s。水印为64×64的二值图像。实验内容包括:
(1)MP3压缩:先将含水印音频分别压缩到320kbps,192kbps,128kbps,然后再解压还原到wav格式文件;
(2)叠加噪声:加入高斯白噪声,信噪比为35dB;
(3)低通滤波:采用6级巴特沃斯低通滤波器,截止频率为10kHz;
(4)重量化:先将音频从16比特量化到8比特,然后再量化到16比特;
(5)重采样:先将音频下采样到22.05kHz,然后再上采样到44.1kHz[15-16]。
在水印鲁棒性的客观评估方面,采用误码率(BitErrorRatio,BER)和归一化相似系数NC衡量水印的提取准确度。嵌入水印信息后,音频的信噪比SNR为40.425 1dB。常规信号处理后水印检测的实验结果如表2所示。
表2 常规信号处理后水印检测结果
从表2实验数据可以看出,在各类攻击下,文中算法具有较低的误码率和较高的相似系数。该算法对常规信号处理的攻击具备较好的抵抗能力。另一方面,为了更直观地评估算法的抵抗性能,还可以观察水印提取图像的可辨识度,如图1所示。
图1 原始水印图像和水印提取图像
结合图1的提取水印图像和各个攻击类型来分析,水印的提取准确度随MP3压缩程度的增大有所降低,在MP3格式码率为128kbps下,所提取的水印图像仍可通过肉眼较清晰地辨识出水印信息。并且,从提取的水印图像上可以看出,算法对添加白噪声、重量化以及重采样等攻击均具有较好的鲁棒性。
为了进一步测试算法对音频文件听觉质量的影响,采用了国际电信联盟ITU推荐的BS.1116定义的主观评价标准SDG和BS.1387音频质量听觉评价标准中的PEAQ测试工具对含水印音频进行主观和客观的评价。文中对4首不同风格的音乐进行了SDG和PEAQ的实验测试,结果如表3所示。
表3 SDG和PEAQ测试值
通过对表3测试数据的分析,SDG测试平均分值约为-0.500 0,平均PEAQ值约为-0.198 4,其中最小PEAQ值为-0.206 9,最大PEAQ值为-0.190 8。实验结果表明,水印算法具备较好的不可感知性。
文中结合理论分析和对比实验对DCT系数符号的鲁棒性进行分析,验证了中低频段的DCT系数符号具备较好的鲁棒性。通过品质因子的引入对水印嵌入强度进行了控制,从而较好地实现了水印信息的不可感知性。同时,利用多次重复嵌入方法,提高了提取水印的准确率。实验结果表明,提出的水印算法对常规信号处理操作,尤其是MP3压缩类攻击,在保证一定的音频质量前提下,具备较好的抵抗力。但是,在判断可嵌入水印段和不可嵌入水印段的过程中,由于各类攻击的影响会导致误判,在一定程度上降低了水印提取的成功率。另一方面,文中提出的算法对数据长度较短的音频文件可能因数据量不够而无法完成水印嵌入。以上问题有待进一步的分析与研究。
[1] 金 聪.数字水印理论与技术[M].北京:清华大学出版社,2008:1-20.
[2] 李秀滢,段晓毅,王建新.一种心理声学模型的自同步音频水印方案[J].计算机工程与应用,2013,49(8):96-99.
[3]CoxIJ,MillerMI.Thefirst50yearsofelectronicwatermarking[J].JournalofAppliedSignalProcessing,2002,2:126-132.
[4] 张金全,王宏霞,李学华.基于邻域平均的鲁棒音频水印算法[J].铁道学报,2012,34(7):43-48.
[5]XiangY,NatgunanathanI,PengD,etal.Adual-channeltime-spreadechomethodforaudiowatermarking[J].IEEETransactionsonInformationForensicsandSecurity,2012,7(2):383-392.
[6]SinghJ,GargP,DeA.MultiplicativewatermarkingofaudioinDFTmagnitude[J].MultimediaToolsandApplications,2014,71(3):1431-1453.
[7] 林晓丹.基于高斯混合模型的DCT域水印检测方法[J].自动化学报,2012,38(9):1445-1448.
[8] 任克强,李 慧,谢 斌.基于DWT和DCT的自适应双重音频水印[J].计算机应用研究,2013,30(7):2120-2123.
[9] 凡 超,王 忠,肖留威,等.改进的DCT域音频水印算法[J].计算机工程与设计,2011,32(4):1351-1355.
[10] Alshammas H A.Robust audio watermarking based on dynamic DWT with error correction[C]//Proceedings of ITU kaleidoscope:building sustainable communities.[s.l.]:IEEE,2013:1-6.
[11] 刘 芳,李学斌.一种基于混沌与DWT的数字音频水印算法[J].微计算机信息,2011,27(1):193-194.
[12] 黄雄华,蒋伟贞,王宏霞,等.基于比值的小波域数字音频盲水印算法[J].铁道学报,2011,33(5):66-71.
[13] 马德洋,卢 忱,范九伦.一种均匀量化小波能量的盲提取音频水印算法[J].微电子学与计算机,2013,30(3):43-46.
[14] 王向阳,牛盼盼.基于音频统计特性的数字水印嵌入算法[J].自动化学报,2008,34(8):1001-1003.
[15] 韩纪庆.音频信息处理技术[M].北京:清华大学出版社,2007.
[16] 程佩青.数字信号处理教程[M].北京:清华大学出版社,2007:69-77.
An Adaptive Audio Watermarking Algorithm Based on Minimum Energy of Harmonic Phase Deflection
GAO Jian,LIU Xing-xing,YANG Ke
(School of Mechatronic Engineering and Automation,Shanghai University,Shanghai 200072,China)
With the rapid development of computer network,the transportation of multi-media audio is becoming more and more convenient,which makes the right protection of audio works more important.For the symbol of spectral coefficients has robustness for spectral coefficients Discrete Cosine Transform (DCT),the novel audio watermarking algorithm based on the minimum energy-harmonic phase deflection has been proposed.Based on audio amplitude average with good robustness characteristics,the audio data is segmented according to the length of the watermarking,and average value out of absolute value for each data segment is carried on DCT,implementation of the embedding of watermarking through deflection of phase for minimum energy harmonic.In order to control the strength of the embedding watermarking,the algorithm uses the quality factor as a performance index.Audio files are divided into several watermark embedding segments and watermark segments cannot be embedded.This object is to ensure that the embedded watermark information has a little effect on audio data.The experimental results show that the proposed algorithm has a good performance in terms of imperceptibility,and also has a high robustness for the conventional signal processing operations.
discrete cosine transform;symbol;quality factor;MP3 compression
2015-07-05
2015-10-16
时间:2016-03-22
国家自然科学基金青年基金(71201097)
高 健(1961-),男,副教授,博士,研究方向为音频水印、图像编码;刘星星(1990-),女,硕士研究生,研究方向为音频水印。
http://www.cnki.net/kcms/detail/61.1450.TP.20160322.1519.054.html
TP309
A
1673-629X(2016)05-0110-05
10.3969/j.issn.1673-629X.2016.05.023