基于贝叶斯网络模型和矩阵嵌入的VoIP隐写算法

2018-04-16 12:09高瞻瞻汤光明
计算机研究与发展 2018年4期
关键词:测度脉冲编码

高瞻瞻 汤光明 王 硕

(解放军信息工程大学 郑州 450001) (gaozhandyx@126.com.cn)

随着计算机网络的巨大发展,网络语音电话(voice over IP, VoIP)逐渐成为一种应用广泛的流媒体通信方式.VoIP基于计算机网络技术,采用分组包交换协议实现通话,比传统电路交换的方式更加高效、经济.VoIP所包含的语音信号及其涉及的Internet各层网络协议为隐写提供了良好的嵌入环境,载体空间巨大.不仅如此,VoIP数据流具有瞬时性和“即用即弃”的特点,这使得VoIP隐写具有很强的隐蔽性.因此,VoIP隐写近年来逐渐成为隐写术研究的热点.

按载体元素的不同,VoIP隐写算法可以分成2类:基于协议的隐写和基于语音压缩编码的隐写.第1类方法主要将秘密信息嵌入到UDPIP协议族中的预留、填充或可选字段[1],或者通过调制发送数据包的速率来传递秘密信息[2].前者容易被攻击者检测识别,后者则会对网络的服务质量带来一定的影响.因此,目前主要采用第2类方法,通过替换语音参数的LSB或修改语音压缩编码规则进行信息隐藏.比如:应用量化索引调制(quantization index mod-ulation, QIM)方法修改线性预测(linear predictive coding, LPC)合成滤波器系数的矢量量化过程,从而嵌入秘密信息的隐写算法[3-4].此外还有基于语音编码的基音周期预测过程的隐写算法[5]和基于固定码本搜索过程的隐写算法[6-7].

抗检测性是隐写算法最重要的性能指标.已有算法主要通过选择特定载体、提高嵌入效率和保持统计特征3种途径提高隐写的抗检测性.基于载体选择的思想,Tian等人[8]给出了度量载体向量与秘密信息间相似性的标准,进而制定匹配策略选出最佳的语音片断实施隐写;Wei等人[9]则利用MOS(mean opinion score)值区分数据流中的比特串是否适合嵌入,并通过动态调整比特串的间距进一步增大检测难度.这些算法具有自适应的特点且具有一定的通用性.如何制定合理的标准以判断语音是否适合嵌入是这类算法的设计核心.基于提高嵌入效率的思想,目前的普遍做法是借鉴图像隐写技术,借助矩阵嵌入设计隐写算法.文献[4-5,10]等均沿用了这一研究思路,虽行之有效但多数算法未能充分结合网络语音的载体特性,仅仅停留于对已有编码的简单应用.特征保持思想就是在信息嵌入过程中尽可能减小对载体统计特性的影响.受限于计算复杂度,文献[5,7,9]将语音参数的直方图特征作为安全性测度,并在嵌入时保持不变,一定程度上提高了算法的抗检测性.然而,VoIP隐写分析技术的发展亦十分迅速,已提出基于特征提取和分类器的通用检测算法[11-12],以上仅就低阶统计特征进行保持的算法存在安全隐患.

为进一步增强隐写的抗检测性,本文在设计算法时尝试结合提高嵌入效率的思想与特征保持的思想.算法以固定码本参数为载体,并进一步将其细分为二元载体和三元载体2类,分别应用矩阵嵌入技术,从而在提高嵌入效率的同时兼顾了不同参数间的差异.分析并建立了VoIP的贝叶斯网络模型,基于模型定义了隐写安全性,从而较好地平衡了反映载体更多的统计相关性与简化计算复杂度之间的矛盾.在此基础上,以最小化安全性测度为目标设计了具体的嵌入和提取过程.

1 贝叶斯网络模型下的语音隐写安全性

1.1 贝叶斯网络模型下的语音隐写安全性

已有隐写安全性研究中,得到普遍认可的是Cachin基于KL散度(Kullback-Leibler divergence)定义的隐写安全性[13].由于很难估计高维数据的联合概率分布,该安全性测度通常采用独立同分布等简化模型来近似载体的概率分布.利用随机变量之间的条件独立关系,概率图模型提供了一种表示一组随机变量联合概率分布的形式并在其上进行概率推理的有效方法.Markov网络(Markov network, MN)是一种应用广泛的概率图模型,被许多研究者[14-15]用于改善文献[13]的安全性定义.

以上研究主要针对图像载体展开,不宜评估VoIP隐写的安全性.一方面,图像像素间距离越小相关性越强,所以基于4邻域或8邻域系统即可准确建模[15],但在语音信号中参数间的影响并不明确,且存在帧间和帧内2种相关关系,难以直接判定相关性的强弱;另一方面,MN是无向图,刻画的是随机变量间对称的相关性,但语音帧间具有明显的时序关系,帧内各参数具有一定的因果关系,这些相互作用都不具有对称性.针对这类单向的相关关系,可以使用贝叶斯网络(Bayesian network, BN)模型来描述.

定义1. 贝叶斯网络可表示为一个二元组,即βBN=〈G,Θ〉.其中,G=(V,E)是一个有向无环图.V={V1,V2,…,VN}称为结点集;E为结点间的弧的集合,反映变量间的因果关系.Θ={P(Vi|Λi),i=1,2,…,N}是一组条件概率的集合,称为网络参数.Λi是结点Vi的父结点集合.

BN是一种有向概率图模型,能够表示对象之间的依赖关系和随机变量之间的条件独立关系.它将联合概率分布表示为所有变量在其父结点变量下的条件概率的乘积[16],从而减少了表示联合概率分布所需的参数个数.如果BN是结点集V上的一个贝叶斯网络,那么其联合概率分布P(V)为

(1)

设βcBN和βsBN分别为载体语音流和载密体语音流的BN模型.显然,二者具有相同的结构,只是网络参数略有不同.隐写系统的载体元素用模型中的结点Vi表示,vi表示结点的取值.基于式(1),利用相对熵建立VoIP隐写在BN模型下的安全性测度D(βcBN|βsBN):

D(βcBN|βsBN)=

(2)

其中,Pc(Vi|Λi),Ps(Vi|Λi)分别表示βcBN和βsBN的网络参数;λi表示结点集Λi具体的取值状态;v表示向量(v1,v2,…,vN),其所有可能的取值构成集合υ.根据相对熵的定义,式(2)规定0×lb(0·)=0.基于该安全性测度有如下定理:

定理1.βcBN和βsBN分别为载体语音流和载密体语音流的BN模型,其网络参数分别为Θc={Pc(Vi|Λi),i=1,2,…,N},Θs={Ps(Vi|Λi),i=1,2,…,N},则:

D(βcBN|βsBN)≥0,

(3)

当且仅当Pc(Vi|Λi)与Ps(Vi|Λi)处处相等时等号成立.

证明. 根据式(2)有:

-D(βcBN|βsBN)=

依据Jensen不等式可得:

-D(βcBN|βsBN)≤

证毕.

1.2 基于安全性测度进行嵌入优化的可行性分析

基于BN模型,我们给出了VoIP隐写的安全性测度,并证明了其有效性.但安全性的计算过于复杂,直接指导全部秘密信息的嵌入必然带来巨大的计算复杂度.

事实上,对于实时VoIP隐蔽通信,其隐写操作需要在语音帧组上进行,而不是整段语音流,否则将严重影响语音的传输质量.即VoIP隐写本身不具备实现全局最优嵌入的前提.语音帧本身具有帧长,此外,编解码还有不可避免的算法时延.通常认为150 ms以下的时延经过一定的处理后可以被正常接收.因此,以帧长为10 ms的G.729编码为例,帧组内至多包含15个语音帧.有限的载体元素使得基于安全性测度进行嵌入操作的局部优化成为可能.

BN模型中其他条件概率并未变化,隐写前后的比值为1.因此计算这一改变导致的Dt(βcBN|βsBN)时,可简化为

(Pc(Vi,Λi)×

(4)

若被修改的结点相互独立,总的D(βcBN|βsBN)具有可加性,即:

D(βcBN|βsBN)=∑Dt(βcBN|βsBN).

(5)

一次嵌入的载体元素个数较少,如果我们进一步减小载体的修改量,依式(4)(5)便能够在有限的计算复杂度内选出安全性测度下最优的嵌入方式.

2 基于BN模型和矩阵嵌入的VoIP隐写算法

2.1 基于BN模型和矩阵嵌入的VoIP隐写框架

矩阵嵌入能减少对载体的修改,提高隐写嵌入效率,也有助于降低式(5)的计算复杂度.目前,矩阵嵌入研究已扩展到卷积码,如Filler等人[17]提出的量化格子编码(syndrome trellis codes, STCs).虽性能优良,STCs码却并未在VoIP隐写中得到广泛应用.这一方面是因为语音隐写的载体元素种类繁多,针对性的失真函数设计相对滞后;另一方面是因为STCs更适合长码,而VoIP隐写的载体长度一般较短.设计适宜网络语音的矩阵嵌入是目前VoIP隐写的一个重要方向[5,8,18].本文选择文献[18]所提矩阵编码,该编码克服了汉明码只能实现个别嵌入量的缺点,更适用于VoIP隐写.其校验矩阵的基本结构为

(6)

其中,H1和H2均为汉明码校验矩阵,(A1,A2)T中的列由(H1,0)T和(0,H2)T中的列异或相加得到.发送方利用H找到与载体c最接近的载密体s,接收方用H左乘s即可提取出秘密信息.

文献[18]的编码方法可以确定载体的修改位置,却不能明确其修改方式.已有算法通常直接进行LSB替换.但不同载体元素的隐写耐受性往往不同,若某元素允许较大幅度的修改,显然更有利于提高嵌入效率.例如:相比LSB替换,以±1的方式修改语音参数时,同样的修改率,其嵌入率由1提升为lb 3.不仅如此,修改方向的可调整性给了我们优化嵌入操作的空间.

基于以上分析,提出一种面向VoIP的隐写框架如图1所示:

Fig. 1 Framework of VoIP steganography based on Bayesian network and matrix embedding图1 基于贝叶斯网络模型和矩阵嵌入的VoIP隐写框架

2.2 固定码本参数的贝叶斯网络模型

固定码本用于逼近语音经短时、长时预测后的预测误差.与基音周期参数相比,固定码本的比特位更多,隐藏容量更大.选择该参数作为载体,在图1框架下设计隐写算法.

固定码本搜索在子帧上进行,不同语音帧内的码本参数具有相关性.这是因为:1)音素的发音持续时间浮动较大,语音帧无法与音素准确匹配.如果相邻帧的子帧信号正好对应了同一音素周期性的信号,那么这些子帧编码后的参数应该是相同的.2)语音中各音素的出现频率本身并不均衡,不同音素的出现存在很强的相关性[19].语音编码反映音素特性,音素前后的相关性必然导致帧间码本参数的相关性.

同一帧内的固定码本参数也具有相关性.固定码矢cst(η)共40维,在不同位置上放置有4个单位脉冲.

cst(η)=sig0δ(η-l0)+sig1δ(η-l1)+
sig2δ(η-l2)+sig3δ(η-l3),
η=0,1,…,39.

(7)

其中,δ表示单位脉冲,sigi为其符号,li为脉冲位置.确定最佳的脉冲位置需要4层循环.基于代数码本激励(ACELP)的固定码本分析采用集中搜索法,通过限制最后1轮循环的次数来简化搜索过程,该方法在G.723.1和G.729编码中均有应用.设前3个脉冲的最大绝对相关为Cmax3,平均相关为Cav3,则阈值Cthr3计算为

Cthr3=Cav3+α(Cmax3-Cav3).

(8)

当前3个脉冲的绝对相关值之和超过Cthr3时,搜索过程才执行最后1轮循环.

可见,同一子帧的固定码本参数中,前3个单位脉冲与第4个脉冲具有相关关系.综合帧间载体元素的影响,构建固定码本各参数的关联模型如图2(a)所示.去除意义表达相同的线段,最终的BN模型为图2(b).图2中k代表子帧索引.为兼顾性能和计算复杂度,图2中只反映了相邻3个子帧间的影响.

Fig. 2 Bayesian network model for fixed codebook parameters图2 固定码本参数的BN模型

2.3 信息嵌入过程

固定码本参数共17 b,前3个脉冲τ0,τ1,τ2的位置用3 b编码,脉冲τ3的位置用4 b编码,各脉冲的符号用1 b编码.具体结构如表1所示.

编码形成的码字:

(9)

由表1知:同一脉冲(前3个脉冲)内,位置取值的最小间隔为5,但相邻脉冲间位置取值的最小间隔仅为1;直接改变表示脉冲位置的各个比特,除τ3最低比特(jx位)导致l3发生1个单位的位移外,其余比特都至少导致脉冲位置5个单位的位移.考虑到脉冲顺序并不影响解码端固定码本的重构,用脉冲位置间的大小关系代表秘密信息,通过调换相邻脉冲的编码位置嵌入秘密信息,从而减小脉冲位移,降低嵌入影响.

Table 1 Structure of Fixed Codebook

具体来说,用l0与l1之间的大小关系对应二元数据0,1;l2,l3间的大小关系对应三元数据的LSB;由于jx位的改变不会影响l2,l3的大小关系,令其值与三元数据的修改方向对应.

1)l0

(10)

2)l0>l1时,

(11)

l2,l3的修改分2步.首先调整编码位置以表示三元数据LSB的取值:

l2

(12)

l2>l3时,

(13)

第2步改变jx位表示三元数据的修改方向:

(14)

明确脉冲位置的修改方式后,基于BN模型和矩阵嵌入的隐写嵌入步骤可描述如下:

Step1. 分组语音帧,保证各帧组均含有w个语音帧.设最终形成r个语音帧组{X1,X2,…,Xr}.

Step3. 统计帧组X1内各类单位脉冲各种脉冲位置的出现频次,得到BN模型内各结点各种状态下的条件概率Pc.

(15)

Step8. 统计下一帧组Xj+1内各类单位脉冲各种取值的出现频次,更新条件概率Pc,Ps.

Step9. 重复Step4~Step8,将r个信息块全部嵌入到相应的帧组中.

2.4 信息提取过程

收发双方应共享校验矩阵H.在此基础上,秘密信息的提取分如下4步:

(16)

Step4. 重复Step1~Step3,得到全部信息块并组合出原始秘密信息M.

Fig. 3 Waveforms of normal speech files and stego speech files图3 载体语音与载密语音的波形

3 实验结果与分析

修改G.729编码器实现第2节所提隐写算法.从感知透明性、抗检测性和实时性3个方面进行测试.实验所用样本来自CMU ARCTIC语音数据库[20],由美式英语发音者录制,持续时长2~9 s.实验前对这些语音进行8 KHz采样、16 b线性PCM量化,转化为G.729编码器要求的输入格式.

3.1 感知透明性

按所提算法,时长1 s的语音内含400 b载体元素,故可实现的最大嵌入量为400 bps.文献[7]同样以固定码本参数为载体并应用了汉明码,最大嵌入量为333.3 bps.在166.7 bps的嵌入量下比较2种算法及LSB算法的感知透明性.从数据库中选择2段不同长度的语音,经G.729编码得到载体语音,绘制其波形图如图3第1列的2个子图所示.随机产生二进制比特作为秘密信息,使用不同的隐写算法嵌入到2载体语音中,得到载密语音.图3第2~4列所示波形图分别对应本文算法、文献[7]算法和LSB算法下的载密语音.相似地,绘制2段语音在各个情况下的宽带语谱图,如图4所示.实验中本文算法以15个语音帧为1个帧组,同理,限定文献[7]算法执行1次嵌入操作时的载体长度不超过15帧.将各载密语音子图与载体语音子图进行对比,可知:1)本文算法的载密语音感知透明性良好,在时域和频域均与原载体没有明显差别;2)3种算法中,LSB算法的感知透明性最差,与原载体间的差异较大(图3尤为明显).

PESQ是客观评价语音质量的典型方法.选取2 000段语音,男、女声各一半,分别计算载体语音的PESQ平均值,并与不同嵌入量下载密语音的PESQ值进行对比.计算时所选参考语音为未经编码器压缩的初始语音,实验结果如表2所示.从表2可以看出,本文算法的载密语音的PESQ值略高于文献[7]的方法,听觉质量良好;受限于汉明码,文献[7]能实现的嵌入量有限,本文算法克服了这一缺陷.

Fig. 4 Spectrograms of normal speech files and stego speech files图4 载体语音与载密语音的语谱

bps

Fig. 5 Measured values of steganographic security with different evaluation methods图5 不同方法对语音隐写载密体的安全性测度值

3.2 抗检测性

选择4 000个语音片段作为隐写载体,随机比特流作为秘密信息.分别利用本文算法、文献[7]算法和LSB算法实施隐写,计算出载体、载密体间的D(Pc|Ps)(独立同分布模型下文献[13]的安全性测度)和D(βcBN|βsBN)的平均值,对比不同方法不同嵌入量时的安全性测度值.实验结果如图5所示.为便于观察,图5中纵轴坐标为所得均值的对数值(以10为底).

由图5可知:1)随着嵌入量的增加,2种测度值均不断变大,且D(βcBN|βsBN)相比D(Pc|Ps)更加敏感,这说明所提安全性测度更具合理性;2)得益于矩阵编码较高的嵌入效率,本文算法和文献[7]算法在小嵌入量下均具有良好的安全性表现;3)本文算法在大嵌入量下依旧具有相当的安全性,图5(b)尤为明显,这说明本文算法有效减少了对载体统计特性的破坏.

利用文献[11-12]所提隐写分析算法进一步检验算法的抗检测性.2算法均为近年来引用广泛且效果较好的通用语音隐写分析方法,且都基于梅尔倒谱系数设计,分别简记为DMFCC,D2-R-MFCC.未隐写的载体语音和不同嵌入量下得到的载密语音共同构成样本集,利用SVM进行训练和检测.实验结果如表3所示,其中Se,Sp分别表示准确识别出载密语音、载体语音的概率.由表3可知,3种方法中本文算法抵抗现有隐写分析的能力最强.

Table 3 Steganalysis Results with Different Embedding Capacities

3.3 实时性

Table 4 Encoding Time of Speech Frame Groups

由于信息嵌入以语音帧组为单位进行,故表4中实际统计的是语音帧组的编码时间.对于矩阵嵌入所得的载密体,信息提取只与载密体长度有关.实验结果也表明不同嵌入量下2种隐写算法的帧组解码延迟相同,均为0.061 ms.综合以上结果可知:应用本文算法的嵌入和提取延迟与文献[7]算法相近,其数量级至多为10-3s,实时性好;当嵌入量小于200 bps时几乎不引入额外延迟.实验所用PC机的主要参数为:3.4 GHz Intel Core i7 CPU,8 GB RAM,实验程序由C语言编写.

4 总 结

当前的隐写研究仍主要针对图像等传统载体.网络语音作为应用广泛的网络流媒体,具有较好的隐蔽性和巨大的载体空间.研究网络语音隐写技术对拓展隐写应用范围、推动隐写实用化都具有积极作用.以固定码本为载体,本文提出一种具有较强抗检测能力的网络语音隐写算法.固定码本中,若干连续的比特位按照特定规则构成语音参数,±1的修改方式可能影响载体的次低位,甚至是更高位,导致合成后的语音质量显著降低.因此,将载体元素分为二元和三元2类.从提高嵌入效率和保持统计特征2个角度出发设计具体的嵌入过程.基于矩阵嵌入确定载体元素的修改位置,减小载体修改量;基于BN模型下的安全性测度确定三元载体的修改方向,尽可能保持网络语音的统计特性.实验结果表明,所提算法感知透明性良好,小嵌入率下能够抵抗现有隐写分析算法,且满足语音通信实时性要求.下一步,将以BN模型下的安全性测度为指导,探索建立基音周期等其他载体元素的BN模型并设计网络语音隐写算法.

[1]Mileva A, Panajotov B. Covert channels in TCPIP protocol stack[J]. Open Computer Science, 2014, 4(2): 45-66

[2]Khan M F, Baig F, Beg S. Steganography between silence intervals of audio in video content using chaotic maps[J]. Circuits, Systems, and Signal Processing, 2014, 33(12): 3901-3919

[3]Liu Jin, Tian Hui, Lu Jing. Neighbor-index-division steganography based on QIM method for G.723.1 speech streams[J]. Journal of Ambient Intelligence and Humanized Computing, 2016, 7(1): 139-147

[4]Liu Peng, Li Songbin, Wang Haiqiang. Steganography in vector quantization process of linear predictive coding for low-bit-rate speech codec[J]. Multimedia Systems, 2015, 23(4): 485-497

[5]Yan Shufan, Tang Guangming, Sun Yifeng, et al. A triple-layer steganography scheme for low bit-rate speech streams[J]. Multimedia Tools & Applications, 2015, 74(24): 11763-11782

[6]Su Yamin, Huang Yongfeng, Li Xing. Steganography-oriented noisy resistance model of G.729a[C]Proc of IMACS Multi-Conf on Computational Engineering in Systems Applications, vol 1. Piscataway, NJ: IEEE, 2006: 11-15

[7]Yan Shufan, Tang Guangming, Chen Yanling. Incorporating data hiding into G.729 speech codec[J]. Multimedia Tools & Applications, 2016, 75(18): 11493-11512

[8]Tian Hui, Qin Jie, Guo Shuting, et al. Improved adaptive partial-matching steganography for voice over IP[J]. Computer Communications, 2015, 70(C): 95-108

[9]Wei Ziling, Zhao Baokang, Liu Bo, et al. A novel steganography approach for voice over IP[J]. Journal of Ambient Intelligence and Humanized Computing, 2014, 5(4): 601-610

[10]Qin Jie, Tian Hui, Huang Yongfeng, et al. An efficient VoIP steganography based on random binary matrix[C]Proc of Int Conf on P2P, Parallel, Grid, Cloud and Internet Computing. Piscataway, NJ: IEEE, 2015: 462-465

[11]Liu Qingzhong, Sung A H, Qiao Mengyu. Novel stream mining for audio steganalysis[C]Proc of ACM Int Conf on Multimedia. New York: ACM, 2009: 95-104

[12]Ghasemzadeh H, Khas M T, Arjmandi M K. Audio steganalysis based on reversed psychoacoustic model of human hearing[J]. Digital Signal Processing, 2016, 51: 133-141

[13]Cachin C. An information-theoretic model for steganography[J]. Information and Computation, 2004, 192(1): 41-56

[14]Sullivan K, Madhow U, Chandrasekaran S, et al. Steganalysis for Markov cover data with applications to images[J]. IEEE Trans on Information Forensics and Security, 2006, 1(2): 275-287

[15]Zhang Zhan, Qu Fang, Liu Guangjie, et al. A novel security evaluation method for digital image steganography based on high-order Markov chain model[J]. Information and Control, 2010, 39(4): 455-461 (in Chinese)(张湛, 瞿芳, 刘光杰, 等. 基于高阶Markov链模型的数字图像隐写安全性评估方法[J]. 信息与控制, 2010, 39(4): 455-461)

[16]Pearl J. Probabilistic reasoning in intelligent systems: Networks of plausible inference[J]. Computer Science Artificial Intelligence, 1988, 70(2): 1022-1027

[17]Filler T, Judas J, Fridrich J. Minimizing additive distortion in steganography using syndrome-trellis codes[J]. IEEE Trans on Information Forensics and Security, 2011, 6(3): 920-935

[18]Tian Hui, Qin Jie, Huang Yongfeng, et al. Optimal matrix embedding for voice-over-IP steganography[J]. Signal Processing, 2015, 117(C): 33-43

[19]Li Songbin, Huang Yongfeng, Lu Jicang. Detection of QIM steganography in low bit-rate speech codec based on statistical models and SVM[J]. Chinese Journal of Computers, 2013, 36(6): 1168-1176(in Chinese)(李松斌, 黄永峰, 卢记仓. 基于统计模型及SVM的低速率语音编码QIM隐写检测[J]. 计算机学报, 2013, 36(6): 1168-1176

[20]Carnegie Mellon University, Language Technologies Institute. CMU ARCTIC database[DBOL]. (2015-02-14) [2016-11-16]. http:www.festvox.orgcmu_arctic

TangGuangming, born in 1963. Professor and PhD supervisor in PLA Information and Technology University. Her main research interests include network security, watermarking and data mining.

WangShuo, born in 1991. Master candidate in PLA Information and Technology University. His main research interest is network security.

猜你喜欢
测度脉冲编码
Rn上的测度双K-框架
生活中的编码
平面上两个数字集生成的一类Moran测度的谱性
脉冲工况氧气缓冲罐裂纹修复实践
我国要素价格扭曲程度的测度
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
Genome and healthcare
小型化Ka波段65W脉冲功放模块
超音频复合脉冲GMAW电源设计