适用于声学传输的鲁棒交叉扩频水印算法

2018-03-16 06:33刘影，陈怡，高戈，吕冰，张康

计算机工程与设计 2018年2期

刘影，陈怡，高戈，吕冰，张康

(1.华中师范大学计算机学院，湖北武汉 430000；2.武汉大学计算机学院国家多媒体软件工程技术研究中心，湖北武汉 430000)

0 引言

不同于以往音频水印技术在版权保护、拷贝控制和广播监控等领域的应用[1-4]，移动互联网络应用中要求水印算法必须具有更强的鲁棒性，必须更加具备抵抗这种特定情境下产生的不利因素(如背景噪音、麦克风的自噪声)的能力[5]，因为这些不利因素很可能对水印的提取造成困难。同时，水印算法能够易于检测并且具有较小的水印检测错误率以达到电视节目与观众实时互动的要求。

Huang X等提出了一种基于LSB的用于声学隐写的高容量音频水印算法[6]，但是该算法易受到一些常见信号攻击的影响，例如加噪声、重采样等；Wodecki等提出了一种较好的声传输音频水印方案[7]，但是其文章缺少该水印算法对于常见信号攻击以及背景噪声抵抗性的讨论；Arnold M等针对声学传输提出了一种基于相位的音频水印系统[8]，但是在相位旋转的情形下该算法不能得到较好应用；Alexiou V等提出的水印算法解决了音频传输过程中的延迟问题[9]。除了以上方法之外，扩频水印技术(SS)[10]是鲁棒的音频水印算法之一，该方法被广泛的应用于数字版权保护之中。然而，在解码过程中原始音频信号会成为影响水印提取的干扰因素是传统扩频技术的一大缺点。Malvar等提出了一种改进的扩频水印算法(ISS)[11]，ISS可以有效降低原始音频信号的干扰，显著提高了水印系统的解码性能。受到ISS的启发，Valizadeh等将相关感知和嵌入信息位感知的概念与扩频水印方案结合，提出了一种基于相关感知的扩频(CAISS)信息隐藏方案[12]。仿真结果显示，对于载体信号的干扰，CAISS方案具有比传统扩频方案更强的鲁棒性和更大的有效载荷。

以上研究算法大都是针对版权保护等方面的应用，水印技术在移动互联网络中的应用，在保证信号音质具有不可感知性的同时，更加强调水印必须具有的较强的鲁棒性，更够抵抗包括移动终端的移动、环境噪声等的各种干扰攻击，并且要求检测效率高，可以满足用户在短时间内完成信息交互的要求。本文基于扩频水印技术，利用连续音频帧之间的高度相关性提出的交叉扩频水印算法(CSS)正是针对移动互联网络中对水印技术的要求，降低了水印检测

统计量的方差，减小了水印检测错误率。受到改进的扩频水印技术的启发，通过结合交叉扩频和改进的扩频水印技术两种方案，继而提出了一种改进的交叉扩频水印算法(ICSS)，进一步增强了音频水印的鲁棒性，降低了水印检测的错误率，即使是在存在环境背景噪音的情况下，也可以达到能够让用户实时准确的提取出互动信息(水印)的目的。

1 传统扩频水印算法及其改进算法回顾

1.1 传统扩频水印算法

图1 传统扩频水印算法结构

在分析传统扩频水印算法解码错误率之前，首先给出内积的定义公式如下

(1)

其中，N代表向量x, u, s,以及y的长度。

在解码端，水印检测的第一步是计算检测统计量r

(2)

(3)

因此，可以由如下公式计算水印检测错误率p

(4)

其中，erfc(·)是余误差函数。

1.2 改进的扩频水印算法

s=x+(αb-λx)u

(5)

其中，α和λ分别用来控制嵌入失真以及去除原始音频信号对检验统计量的干扰。在与传统扩频水印技术嵌入失真水平相同的情况下，参数α给定为

(6)

在基于相关性的解码器端，检测统计量r可由如下公式计算

(7)

其均值和方差分别表示如下

(8)

由此可以得到改进的扩频水印算法的检测错误率为

(9)

2 基于传统扩频水印算法的水印新方案

本章节将重点介绍文章提出的能够用来提高水印鲁棒性的新的水印方案。该水印算法基于传统加性扩频水印技术，在水印嵌入过程中利用音频信号高度相关的相邻点来嵌入水印信息从而有效减小方差。

2.1 嵌入区域的选择

在水印嵌入之前，我们必须在音频文件中选择出合适的水印嵌入区域。水印嵌入区域必须满足以下条件：

(10)

如果一个帧的能量满足

(max{E[0],…,E[K-1]}/min{E[0],…,E[K-1]})>τ1

(11)

那么该帧就被判定为是含有预回声的帧，将不允许嵌入水印信息。在这里，阈值τ1由经验得出，本文实验τ1的取值为150。

(2)水印不能嵌入到静音区。否则，要么会产生噪声，要么水印的检测将不具意义。因此，水印嵌入区域的能量应该超过一个给定的阈值τ2(本实验取值为音频信号静音区的平均能量2.086dB)，在嵌入过程中水印信息将自动跳过能量低于这个阈值的音频区域

(12)

(3)水印不应该嵌入到音频文件感知不明显的区域，因为音频中感知不明显的区域容易受到一些常见信号攻击以及信号处理的影响。在本文算法中，我们只在音频文件频率系数为1kHz-8kHz的范围内嵌入水印，经验表明人耳对该频率范围内的音频感知较为明显。

2.2 交叉扩频水印算法

从式(4)可以发现x的方差会对检测错误率产生影响：x的方差越小水印的检测错误率越小。所以我们提出了交叉扩频水印算法(CSS)，利用音频信号高度相关的相邻点来嵌入水印信息从而有效的减小方差。

交叉扩频水印算法的步骤可以简单概括如下：水印嵌入时，首先将时域音频信号分帧后转换为频域信号，然后将信号分成交叉帧(奇数帧和偶数帧)，利用传统的加性扩频水印嵌入公式对音频信号奇偶帧分别进行正负水印比特的嵌入，最后将嵌入水印信号后的奇偶帧合成一帧音频信号；检测水印时，将接收到的信号同样的分成奇偶交叉帧，分别对其进行相关检测，将得到的奇偶决策统计量做差得到最终的决策统计量，以此进行水印的提取。交叉扩频水印算法结构图如图2所示。

图2 交叉扩频水印算法结构

为了提高水印的鲁棒性，我们将一个水印比特嵌入到两个连续的帧中

x=[xo1,xe1,…,xoN,xeN]

(13)

这样不仅仅要增加音频样本的长度，还需要通过区分两个连续的帧所包含的样本将其划分成两个交叉帧，即包含奇数点的帧和包含偶数点的帧

xodd=[xo1,xo2,…,xoN], xeven=[xe1,xe2,…,xeN]

(14)

因为大多数音频信号都是短时平稳信号，两个相邻的频率点之间是高度相关的。这也充分说明了我们所提出的交叉帧之间的高度相关性。划分好交叉帧之后，水印信息b将被嵌入到这两个帧中。在我们提出的算法中，每两个帧嵌入两个极性相反的水印比特。即奇数帧嵌入b，偶数帧嵌入-b。所以水印嵌入公式可以表示为

sodd=xodd+bu，seven=xeven-bu

(15)

在与传统扩频水印算法及其改进算法相同的声道背景下，交叉扩频水印方案接收到的音频信号可以表示为

yodd=sodd+nodd，yeven=seven+neven

(16)

在解码端，为准确获得添加了水印的音频信号，接收到的信号y=[yo1,ye1,…,yoN,yeN]同样需要被划分成奇数帧和偶数帧。相应于奇偶帧的检测统计量分别以如下公式计算

(17)

(18)

(19)

(20)

因此，检测统计量r的最终方差可以表示为

(21)

其中，ρ是奇偶帧之间的相关性系数。通过以上分析，式(4)可以改写为

(22)

比较式(22)与式(4)，可以发现交叉扩频水印算法的水印检测错误率明显低于传统扩频水印算法的错误率。图3展示了检测错误率作为相关性系数ρ的一个函数随着ρ的大小改变而变化的趋势。相关性系数ρ越接近于1，就越能得到较小的水印检测错误率。

图3 检测错误率作为相关性系数ρ的函数的变化趋势

2.3 改进的交叉扩频水印算法

这一小结我们提出了改进的交叉扩频水印算法(ICSS)。通过上面章节的分析发现，改进的扩频水印算法可以有效降低原始音频信号对水印信息的干扰，而我们在上一小结提出的交叉扩频水印方案可以有效减小检测统计量的方差，两种方法都可以降低水印的检测错误率，从而在一定程度上提高水印的解码性能。这促使我们通过将改进的扩频水印算法与交叉扩频水印算法进行有效的结合来充分利用两种方案的优势。于是，改进的交叉扩频水印方案应运而生。由此，式(15)可以修改为

(23)

结合式(7)以及式(17)，在解码端，奇偶帧的检测统计量可以分别由如下公式得出

(24)

所以改进的交叉扩频水印方案最终的检测统计量r的计算公式如下

(25)

其均值为mr=E[r]=2αb，方差为

(26)

由此得出检测统计量的方差为

(27)

所以改进的交叉扩频水印方案的检测错误率可以表示为

(28)

比较式(28)与式(22)可以发现，水印检测错误率有了明显的降低。更多的比较细节将在接下来的章节中进行详细讨论。

3 性能比较

3.1 错误率

本文提出的交叉扩频水印算法是将一个水印比特信息嵌入到两个音频帧中，传统扩频水印算法及其改进方案同样也可以在两个音频帧中嵌入一个水印比特信息，所以可以将传统扩频水印算法的检测错误率公式改写为

(29)

改进的扩频水印算法的水印错误率计算公式可以改写为

(30)

图4为展示了在10dB和20dB的信噪比的攻击下传统扩频、改进的扩频、交叉扩频以及改进的交叉扩频几种水印算法的检测错误率。从图4能很容易的发现，在相同的信噪比攻击下，交叉扩频水印检测错误率的值在允许的范围内，而改进的交叉扩频水印方案的检测错误率是最小的；在同等错误概率下，改进的交叉扩频水印方案在遭受攻击时所损耗的水印能量最少。

图4 信噪比分别为10 dB，20 dB时ICSS与SS，ISS，CSS之间错误率大小比较

3.2 噪声抵抗力

(31)

MalvarHS在他的文章中给出了ISS水印算法的噪声水平[11]

(32)

对于交叉扩频水印方案，我们将其噪声水平表示为

(33)

进而我们得出改进的交叉扩频水印方案的噪声水平为

(34)

图5 各方案相较于直接扩频的增益值(增益值为SNR的函数)

4 实验

为了证明以上对各水印算法性能分析的正确性以及所提方案的实际可行性，我们做了如下有关音频质量和水印鲁棒性的实验。为此，我们从MPEG标准的音频测试库中选择了12个标准音频测试序列，所有测试序列都是采样频率为44.1KHz、量化格式为16比特、音频长度为1分钟的单声道音频文件。测试序列包含了大多数的音频类型，比如语音，各种乐器演奏、声音混合等。

4.1 感知透明性分析

为了测评添加了水印信息后的音频文件质量，我们分别进行了主观听力测试和客观质量测试两个实验。其中，主观测试由平均评价得分(MOS)[14]得出结论，客观评价实验以PEAQ音频质量评价算法[15]为标准。

我们选择了20个从事工作或者学习经历与音频相关的被试者参与了音频质量主观性测试实验，主观实验的统计结果以及客观测试的实验结果由图6给出。观察图6可以发现，以上水印算法的平均得分在同一质量水平上大致相等，水印均处于不可感知的范围内，人耳对其感知均不明显，这也验证了我们提出方法的可行性。

4.2 鲁棒性测试

为了评估所提方法的鲁棒性，我们选择了StirMarkBenchmark软件来对添加了水印的音频信号进行鲁棒性测试。StirMarkBenchmark是一款用来测试音频文件对于抵抗各种攻击的鲁棒性水平的软件。该软件已经集成了50多种具有代表性的针对音频文件的攻击类型，本文采用了其中最具代表性的18种攻击来对音频文件进行测试。对音频文件进行各种攻击之后，各水印算法的平均检测误码率(BER)(%)结果见表1。

图6 音频质量测试结果

BER/%SSISSCSSICSSnoattack1.18560.01030.08780write_addnoise_1001.18560.01030.08780write_addnoise_5001.18560.01030.08780write_addnoise_9001.18560.01030.08780write_addbrumm_1001.18560.01030.08780write_addbrumm_11001.18560.01030.08780write_addbrumm_101001.18560.01030.08780write_extrastereo_501.18560.01030.08780write_extrastereo_701.18560.01030.08780write_amplify6.83560.86583.04330.7667write_compressor1.75560.01350.16670.0135write_lsbzero1.18560.01030.08780write_rc_highpass1.18560.010300write_rc_lowpass6.07631.35562.07110.8667write_addsinus1.18560.01030.08780write_dynnoise1.18560.010300write_fft_real_reverse1.18560.01030.08780write_flippsample2.59980.51031.03330.1944write_normalize3.16670.18921.09610.0633

在声传输过程中，背景噪音会对音频文件质量产生影响。为了模拟声学传输，我们在装有空调的房间里利用adobe audition软件收集了一段背景噪声。该噪声的频谱值如图7所示。众所周知，如果我们在这样的房间里录制添加了水印的音频信号，那么房间里的噪音一定会对水印的检测起到一定程度的影响，因此我们需找到一种能够有效抵抗这种影响的水印方案。另外，为了验证所提算法的普遍适用性，我们也将MP3编码以及高斯白噪声(AWGN)攻击对算法检测性能的影响考虑在内，在这些攻击下水印检测的平均误码率见表2。

图7 房间内收集的噪声

BER/%SSISSCSSICSSMP3(128kbps)1.18560.01030.08780MP3(64kbps)1.18560.01030.08780MP3(32kbps)1.23750.01140.10910.0088Roomnoise1.66380.24140.82320.0901AWGN(5dB)3.29770.83671.08890.3778AWGN(10dB)1.70110.34760.86670.1062

从表1和表2中我们可以发现，在各种攻击处理下，交叉扩频水印嵌入方案的检测错误率大小在我们可接受的范围内，而改进的交叉扩频方案的水印检测错误率明显低于传统扩频、改进的扩频以及交叉扩频水印算法，并且在多数情况下水印检测错误率为0。也就是说，改进的交叉扩频水印方案对于各种常见的信号攻击、信号处理以及室内背景噪音的鲁棒性更强，改进的交叉扩频水印嵌入方案适用于移动互联网络中的声学传输过程。

5 结束语

本文提出了一种基于扩频音频水印算法的声学数据传输方案。首先，利用相邻的交叉帧之间的高度相关性提出了交叉扩频水印算法(CSS)，然后在改进的扩频水印方案的启发下对交叉扩频水印机制进行改进，进而提出了一种能够减小检测统计量的方差、降低原始音频信号对水印检测的影响，从而有效提高水印检测性能的改进的交叉扩频(ICSS)水印算法。理论分析证明改进的交叉扩频水印方案在水印检测错误率和抵抗噪声干扰度方面的优越性。音频质量的检测实验证明了所提方法的可行性。鲁棒性实验结果表明，改进的交叉扩频水印算法抵抗各种常见信号攻击的能力明显优于文中提到的其它几个算法，并且该算法不仅可以抵抗Stirmark Benchmark音频软件模拟的常见攻击以及MP3压缩处理、高斯白噪声等攻击，并且对室内的背景噪声也具有较强的鲁棒性。因此，该算法可以在声数据传输过程中发挥有效作用，满足移动互联网络中广播电视节目与观众的互动要求。接下来我们将继续针对检测端扬声器与移动设备之间的距离对检测结果的影响做进一步研究。

[1]Cho K,Choi J,Kim NS.An acoustic data transmission system based on audio data hiding:Method and performance eva-luation[J].EURASIP Journal on Audio,Speech,and Music Processing,2015(1):1-14.

[2]Chang D,Zhang X,Liu Q,et al.Location based robust audio watermarking algorithm for social TV system[M]//Advances in Multimedia Information Processing.Berlin:Springer Berlin Heidelberg,2012:726-738.

[3]Calixto GM,Angeluci ACB,Kurashima CS,et al.Effectiveness analysis of audio watermark tags for IPTV second screen applications and synchronization[C]//International Telecommunications Symposium.IEEE,2014:1-5.

[4]Chauhan SPS,Rizvi SAM.A survey:Digital audio watermarking techniques and applications[C]//4th International Conference on Computer and Communication Technology.IEEE,2013:185-192.

[5]Arnold M,Chen XM,Baum P,et al.A phase-based audio watermarking system robust to acoustic path propagation[J].IEEE Transactions on Information Forensics and Security,2014,9(3): 411-425.

[6]Huang X,Abe Y,Echizen I.Capacity adaptive synchronized acoustic steganography scheme[J].Journal of Information Hiding and Multimedia Signal Processing,2010,1(2):72-90.

[7]Wodecki K,Piotrowski Z,Wojtun J.Acoustic steganographic transmission algorithm using signal coherent averaging[C]//Communications and Information Systems Conference.IEEE,2012:1-5.

[8]Arnold M,Chen XM,Baum P,et al.A phase-based audio watermarking system robust to acoustic path propagation[J].IEEE Transactions on Information Forensics and Security,2014,9(3):411-425.

[9]Alexiou V,Eleftheriadis A.Real-time high-resolution delay estimation in audio communication using inaudible pilot signals[C]//6th International Symposium on Communications,Control and Signal Processing.IEEE,2014:290-293.

[10]Xiang Y,Natgunanathan I,Rong Y,et al.Spread spectrum-based high embedding capacity watermarking method for audio signals[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2015,23(12):2228-2237.

[11]Malvar HS,Florêncio DAF.Improved spread spectrum:A new modulation technique for robust watermarking[J].IEEE Transactions on Signal Processing,2003,51(4):898-905.

[12]Valizadeh A,Wang ZJ.Correlation-and-bit-aware spread spectrum embedding for data hiding[J].IEEE Transactions on Information Forensics and Security,2011,6(2):267-282.

[13]Valizadeh A,Wang ZJ.An improved multiplicative spread spectrum embedding scheme for data hiding[J].IEEE Tran-sactions on Information Forensics and Security,2012,7(4):1127-1143.

[14]Waidyanatha N,Wilfred T,Perera K,et al.Mean opinion score performance in classifying voice-enabled emergency communication systems[C]//International Conference on Computer & Information Science.IEEE,2012:676-682.