基于注意力机制的音频隐写算法研究

2023-12-15 08:35李宗佑
无线电工程 2023年12期
关键词:透明性鲁棒性信噪比

李宗佑,高 勇

(四川大学 电子信息学院,四川 成都 610065)

0 引言

隐写术是一门将秘密信息隐藏在载体中的技术,除了通信双方外,第三方很难察觉到除载体外隐藏信息的存在。音频的隐写术最先兴起的是将文本隐藏在音频文件中并进行端对端传播,随着需求的不断增加,语音作为秘密信息进行传输逐渐进入人们的视野。

音频隐写系统主要有3个评价指标,分别是透明性、鲁棒性以及隐写容量[1-3],这三者相互制约,很难同时达到最优效果。文献[4-5]通过改变音频相位编码来进行数据隐写,虽然结果表明其具有较好的抗攻击能力,但是隐写容量仅有20 b/s。文 献[6-10]是在音频的时域中去寻找隐写空间,其中最为流行的技术是修改最低有效位(Least Significant Bit,LSB)来进行秘密信息的嵌入。文 献[11-12]提出了一种基于离散小波变换特征值量化的语音隐藏技术,首先通过应用离散小波变换将数字语音的每一帧变换到小波域,然后利用奇异值分解计算系数的特征值,最后对特征值进行量化处理来嵌入信息,结果表明透明性和鲁棒性均有了不错的提升,但是隐写容量仍然很低。

针对传统隐写算法的不足,Kreuk等[13]首次提出使用神经网络进行音频隐写,虽然透明性一般,但是将隐写容量提升至一个新高度;Chen等[14]提出了一种基于生成对抗网络的音频隐写算法,目的是利用对抗训练来进行数据增强,从而提升含密音频的透明性。为了在隐写容量与透明性上都能有较出色表现,本文提出一种基于注意力机制的音频隐写算法,将音频信号的短时傅里叶变换(Short-Time Fourier Transform,STFT)和短时傅里叶逆变换(Inverse Short-Time Fourier Transform,ISTFT)作为网络的输入,在编解码器不同位置加入卷积注意力模块(Convolutional Block Attention Module ,CBAM)[15]来提高网络对有效特征的敏感程度,使得整个系统具有较高透明性、鲁棒性以及较大隐写容量。

1 注意力机制

注意力机制是在神经网络计算能力有限的情况下,通过分配权重将计算资源分配给更重要的特征任务,过滤了绝大部分无关特征信息,从而解决信息过载的问题。

本文采取的CBAM是用于前馈卷积神经网络的简单有效的注意力,给定一个中间特征图F∈RC×H×W作为输入,CBAM按照顺序推导一维的通道注意力图MC∈RC×1×1和二维空间注意力图MS∈R1×H×W。CBAM的整个注意力机制流程如图1所示,整个过程用式(1)表示:

(1)

式中:⊗表示基于元素的乘法,F′表示通道注意力模块对输入信号进行处理后提取到的通道维度特征。空间注意力模块对F′进行空间维度的特征提取后得到最终输出特征F″。

图1 CBAM注意力机制流程Fig.1 Flowchart of CBAM attention mechanism

(2)

(3)

式中:σ表示sigmoid激活函数,A′表示AvgPool(F),M′表示MaxPool(F),W0∈RC/r×C,W1∈RC×C/r,W0和W1是2个输入的共享权重。

(4)

(5)

式中:f7×7表示卷积运算中滤波器的大小为7×7。

2 隐写术

2.1 隐写方案

本文以端对端的方式提出了一个基于CBAM的隐写方案。方案提出的模型在频域工作,但为了将音频作为时域信号传输,本节参考文献[16]在模型训练过程中将音频信号的STFT和ISTFT作为可微层应用,从而对网络输出施加另一个重要约束。流程如图2所示。

整个模型由3个关键模块组成:①Ec学习从原始音频信号中提取潜在冗余的映射,并将秘密信息“塞入”进去,从而使载体受到的影响最小;②Dc解码含密音频;③Dm从含密音频中提取隐藏消息。

(6)

(7)

(8)

式中:Lc和Lm分别表示含密音频和重构音频对应的MSE,λc和λm的加入是为了平衡含密音频和秘密音频的重构。

图2 隐写方案流程Fig.2 Flowchart of the proposed steganography scheme

2.2 网络模型

本文采用了深层注意力网络,为了简化展示,Ec、Dc、Dm可以视为由子模块1和子模块2组成。子模块2借鉴了ResNet网络的残差架构,引入残差边的目的是为了加速网络的收敛以及防止出现深层网络梯度爆炸的情况。网络结构如图3~图7所示。

图3 子模块1Fig.3 Sub-module 1

图4 子模块2Fig.4 Sub-module 2

图5 Ec模型Fig.5 Ec model

图7 Dc模型Fig.7 Dc model

3 实验结果及讨论

本次实验采用了TIMIT[17]和DiDiSpeech[18]2类语言(中、英文)的数据集对模型进行评测,按照7∶2∶1的标准比例分割数据集作为训练、验证和测试集。2种音频信号数据的采样率均为16 kHz。为了提升模型效率,STFT中傅里叶采样点数设置为512,段间重叠采样点数设置为256,可以保证获取到的特征数据宽度和高度是2的幂次。通过随机选择一条音频作为载体信息、任意一条其他音频作为秘密信息来获取一组训练数据,并以1∶1的形式完成嵌入,实验中对载体和秘密音频的选择是随意的。

模型采用经典的Adam优化器,初始学习率设置为0.001,并采用每隔15个epoch学习率下降50%的策略进行训练,网络以Loss连续3个epoch不下降作为停止训练的条件,给出模型在通用数据集上的临界值。在损失函数的设计中,λc设置为 3.0,λm设置为1.0,以权衡载体音频与含密音频、秘密音频与重构音频之间的损失。

3.1 透明性测试

本节给出了音频透明性基本评价指标SNRs′(含密音频信噪比)、SNRc′(重构音频信噪比)以及MSEs′(含密音频的均方误差)、MSEc′(重构音频的均方误差)的计算如下:

(9)

(10)

(11)

(12)

表1和表2给出了本文模型在中、英文数据集上进行隐写实验后的透明性测试结果。在DiDiSpeech数据集下,含密音频的MSE最低为1.82× 10-3,信噪比最高可达26.69 dB;重构音频的MSE最低为 2.71×10-2,信噪比最高可达14.41 dB。在TIMIT数据集下,含密音频的MSE最低为1.07×10-4,信噪比最高可达26.79 dB;重构音频的MSE最低为 1.71×10-3,信噪比最高可达14.05 dB。

表1 DiDiSpeech数据集透明性分析Tab.1 Transparency analysis of DiDiSpeech dataset

表2 TIMIT数据集透明性分析Tab.2 Transparency analysis of TIMIT dataset

为了能够更加客观地评价音频的听觉质量,除了网络训练过程中的4个基础指标外,还引入了客观语音质量评估(Perceptual Evluation of Speech Quality,PESQ)。PESQ是ITU-T P.862建议书中提供的客观语音质量感知评估方法,能将客观的语音质量评估映射到主观MOS刻度范围,得分在1.0~4.5,得分越高,音频质量越好。

表3表明了不同语种的音频在通过本文模型进行隐藏后,含密音频的PSEQ在3.7以上,人耳主观不能发现异样;重构音频的PSEQ在2.7左右,可以清楚理解秘密信息的语义。表4给出本文方案与一些研究结果的含密音频信噪比的比较结果,可以看出本文隐写模型生成的含密音频具有更好的透明性。

表3 含密音频和重构音频PESQ Tab.3 Objective aural quality PESQ of steganographic audio and reconstructed audio

表4 与其他隐写方案的信噪比对比Tab.4 Comparison of SNR with other steganography schemes 单位:dB

3.2 鲁棒性测试

本节对模型抗干扰的能力进行测试。在训练过程中,样本分别添加了“Gaussion”和“Speckle”两种噪声,定义δ为噪声系数,其计算如下:

(13)

表5给出的鲁棒性分析结果表明在带噪环境下,模型隐写后的含密音频信噪比不会发生较大变化,重构出的秘密信息也和原来的效果无差,且高度可理解。实验说明本文提出的隐写方案具有良好的鲁棒性。

表5 鲁棒性分析Tab.5 Robustness analysis

3.3 嵌入容量

嵌入容量表示在一定时间内可以嵌入的秘密信息比特数,用每秒比特数(b/s)来衡量,计算如下:

(14)

式中:T为含密音频时间长度,B为嵌入到含密音频中总的秘密信息比特数。

本文采取的隐写算法嵌入容量为4 001.833 b/s,大小是传统隐写方法[6-9]的20倍左右。由此可以看出神经网络的训练使模型具有自适应嵌入秘密信息的能力,大大提升了隐写方案的嵌入容量,弥补了传统隐写方法隐写容量小的缺陷。

4 结束语

本文提出了一种将注意力机制运用到深度神经网络的音频隐写方法,该方法利用深度学习优势实现了对音频的自适应编解码,在透明性、鲁棒性以及隐写容量这3个指标中做到了较好的平衡。实验结果表明:① 该隐写方法相较于多种传统隐写术[7-9],含密音频信噪比提升2~8 dB,嵌入容量提高20倍左右;相较于对比神经网络,生成的含密音频信噪比提高了4 dB左右。② 网络重构出的秘密信息PSEQ值在2.7左右,可以清楚理解重构的秘密信息的语义。③ 模型具有较好的鲁棒性,在训练过程中分别引入δ为0.01和0.001的噪声,网络生成的含密音频质量几乎不受影响。

猜你喜欢
透明性鲁棒性信噪比
日本建筑师蛇形画廊展馆的透明性特征探析
透明性理论与其在建筑设计中的体现
荒漠绿洲区潜在生态网络增边优化鲁棒性分析
基于深度学习的无人机数据链信噪比估计算法
基于确定性指标的弦支结构鲁棒性评价
低信噪比下LFMCW信号调频参数估计
网络安全审查中的透明性研究*
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
基于非支配解集的多模式装备项目群调度鲁棒性优化
非接触移动供电系统不同补偿拓扑下的鲁棒性分析