基于HCF统计特征的MIDI音频隐写分析

2010-08-04 06:36王昱洁王翠平
通信技术 2010年9期
关键词:特征函数分析方法直方图

杨 博,郭 立,王昱洁,王翠平

(中国科学技术大学 电子科学与技术系,安徽 合肥 230027)

0 引言

随着信息技术的发展,信息安全相关的隐写和隐写分析引起人们的极大关注。MIDI是乐器数字接口简称,是音乐设备和计算机之间交换信息的通信协议,MIDI音频具有体积小、便于修改等优点,在互联网、手机等领域有广泛应用。为保障信息安全,防止利用MIDI文件进行秘密通信活动,开展对MIDI的隐写和分析研究,具有重要的学术意义和应用价值。

目前针对MIDI文件的隐写越来越多,文献[1]提出了MIDI音频三种隐写方法,指出LSB空域隐写是MIDI音频主要隐写方法,LSB隐写方法是将秘密信息隐藏在MIDI音频力度分量的LSB位,在MIDI音频力度分量的最低3位嵌入秘密数据,人耳不能有效区别。常用的LSB隐写方法有LSB最低位替换嵌入、LSB最低位匹配嵌入和LSB最低两位替换嵌入。

针对LSB隐写的分析有:2χ算法[2]、RS[3]及SPA[4]算法。2χ检测算法只适用于LSB最低位连续替换,对随机替换隐写无效;RS算法和SPA算法均要求符合一定的统计假设,MIDI音频数据量小且分布不规则,不符合统计假设,所以上述分析算法对MIDI隐写分析效果不好。文献[5]针对LSB匹配隐写提出基于力度分量平滑度转换率的分析方法,但在低嵌入率下,检测正确率较低。文献[6]提出基于信息量估计的MIDI音频隐写分析方法,但没有考虑MIDI音频最低位匹配和低两位替换隐写检测。

针对基于MIDI音频力度分量的三种LSB隐写方法:LSB最低位替换、LSB最低位匹配及LSB低两位替换,提出HCF统计特征和SVM的MIDI音频LSB隐写分析方法,提取MIDI音频直方图特征函数域21维统计特征,用SVM分类器训练分类器,对原始MIDI音频和载密MIDI音频进行分类。实验表明,提出的隐写分析方法,在嵌入率大于10%的情况下,对三种LSB嵌入方法平均分类正确率可以达到90%以上。

1 MIDI音频的LSB隐写方法

1.1 MIDI文件结构

MIDI文件由头块和轨道块组成,头块描述文件的格式、长度和指定时间类型,轨道块用来存放MIDI指令数据。MIDI指令由间隔时间、系统指令、声高和力度组成,如表1中所示。间隔时间表示前后音符间隔时间,单位为节拍,在头块里设定;系统指令的后四位(0,1,…,15)表示MIDI通道,共16个通道;音高对应音乐中的音符,最高位为符号位,后七位(0,1,…,127)表示音高的值;力度表示敲击MIDI键盘的力度,最高位为符号位,后七位(0,1,…,127)表示力度值,力度为零相当于音符关闭。

1.2 基于力度分量的MIDI音频LSB隐写

ADLI提出[1],在MIDI音频力度分量低3位嵌入秘密数据,人耳不能有效区别。研究基于MIDI音频力度分量的LSB隐写,包括 LSB最低位替换、最低位匹配和低两位替换隐写方法。LSB替换原理是指将载体的LSB位直接替换为秘密信息,LSB匹配是指在载体LSB位进行±1隐写,匹配隐写对载体样值点的改变基本是对称的,所以更难隐写分析。MIDI音频力度分量为一维7 bit数据,在[0,127]之间,而且集中在某些力度值上,分布很不规则,而且不同 MIDI音频数据差异很大,不符合统一的统计分布。

假设MIDI音频中力度分量的值为 C (i),N为力度分量长度,定义力度分量一阶差分 d '(m) = C (i) - C (i - 1 )i =1,2,3,…,N,力度分量的二阶差分d''(n) = d '(m) - d '(m -1)m=1,2,3,… ,N -1。MIDI音频LSB隐写过程对C、d'和 d''的分布影响较大,图1中的是隐写前后C、 d'和 d''分布直方图,但由于MIDI音频力度分布不规律,仅靠空域差分特征区别是否隐写检测效率不高,所以下文提出基于直方图特征函数特征的隐写分析方法。

图1 LSB低两位替换隐写前后力度直方图分布

2 基于HCF统计特征的MIDI音频隐写分析

2.1 HCF定义

设X为随机变量,pX(x)表示X的概率密度函数(PDF), pX(x)的经验特征函数(CF)定义如下:,因此CF可以看作是PDF的DFT变换。考虑PDF及CF函数的高阶矩作为分析手段,PDF函数的前四阶矩分别定义X的均值、方差、偏斜度和峰度。CF函数矩定义为:

CF矩具有比PDF矩更好的分析特性,根据样本集的直方图分布离散估计出PDF函数,对直方图函数作DFT变换即可得到HCF。假设 h[n]是MIDI音频力度分量的直方图,用 h[n]可以表征力度分量的分布特征,为PDF的离散估计,则MIDI音频力度分量直方图的特征函数(HCF)及其n阶矩可以表示为公式 H [k]和 M(hcf)n:

2.2 LSB隐写对HCF函数的影响

LSB空域隐写是在MIDI音频力度LSB位嵌入秘密信息,嵌入过程相当于加性噪声模型,MIDI音频力度分量集中分布在某些力度值上,且相邻力度值之间具有很强的相关性,差分直方图能够很好的表示这种相关性。所以不仅仅考虑直方图的特征函数,还考虑一阶和二阶差分直方图的特征函数。图 2中是隐写前后C、 d'和 d''的直方图特征函数H[k]C、H[k]d'和H[k ]d"曲线图,反应了MIDI音频隐写前后直方图域和直方图特征函数域的变化,可以看出直方图特征函数有明显的变化。所以利用MIDI力度直方图的特征函数高阶矩特征,提取三种直方图特征函数域 21维特征,利用隐写前后特征的不同对原始MIDI音频和载密MIDI音频进行分类。

图2 LSB低两位替换隐写前后HCF分布

2.3 SVM分类器

SVM是基于统计学习理论的分类器,其主要思想是通过引入核函数方法将低维的非线性不可分问题转化为高维空间的线性可分问题,在高维超平面内使得正例和反例之间的隔离边缘最大化。SVM 具有通用性、鲁棒性、有效性、计算简单和理论完善等优点,所以选择 SVM 分类器作为MIDI音频隐写分析的分类方法。

特征数据输入到SVM分类器训练之前,需要对数据进行预处理:首先要剔出奇异值,比如在计算MIDI力度特征时出现个别的无穷大数据,要将此类数据剔出;将特征向量值缩放到[-1,1]区间内,将会提高SVM的分类准确率。

2.4 基于HCF统计特征的隐写分析方法

基于HCF统计特征和SVM分类器的隐写分析方法利用直方图、一阶差分直方图和二阶差分直方图估计MIDI力度分量的概率密度函数(PDF),然后经过DFT变换,得到经验特征HCF函数,求出三种直方图HCF函数的前四阶矩,并加上其HCF函数的极大值、极小值和极差值(极大值和极小值之差)共21维特征向量,而后用SVM分类器对原始音频和载密音频进行分类。方法的原理框图如图3所示。

图3 基于HCF统计特征的隐写分析方法

3 实验结果及分析

从 MIDI资源库[5]中下载 87首 MIDI资源,分别进行LSB最低位替换、最低位匹配和低两位替换隐写,得到相应的载密MIDI音频集并组成训练集和测试集;分别从原始音频和载密音频中提取的特征向量,并设置分类标签为0、1,然后用支持向量机对训练集 174个样本进行训练,在 SVM工具箱选用LIBSVM工具包[6],采用以径向基函数为核函数的非线性支持向量机。训练后的支持向量机就是音频隐写分析的分类器,用训练好的分类器对测试集音频分类,对LSB三种隐写方法从嵌入率10%到100%分别进行实验,分类正确率如表2所示。图4是提出的隐写分析方法在不同嵌入率下的正确率曲线,实线表示该方法对三种LSB隐写方法的平均分类正确率曲线,分别与文献[7]基于平滑度转换率的隐写分析及文献[8]基于信息量估计的隐写分析方法正确率曲线比较,可以看出,隐写分析方法在较低嵌入率下,具有更高的分类正确率。

表2 三种LSB嵌入方法在不同嵌入率下的分类准确率

图4 现提出的隐写分析方法和文献[5-6]中方法分类正确率的比较

4 结语

本文提出了基于 HCF统计特征和支持 SVM 分类器的MIDI音频隐写分析方法,通过分析隐写前后统计特征的变化,提取MIDI音频力度分量的直方图特征函数域21维特征,用SVM分类器训练分类器,对原始MIDI音频和载密MIDI音频进行分类。实验表明,该隐写分析方法,在嵌入率大于10%的情况下,三种LSB嵌入方法平均分类正确率可以达到90%以上,与文献[5-6]中的隐写分析方法相比,具有更高的分类正确率。

[1] ALEXANDER A, ZENSHO N. Three Steganography Algorithms for MIDI Files[C]Guangzhou:[s.n.], 2005:18-21.

[2] 周继军,陈钟. Chi-square检测算法的特性分析研究[J].武汉大学学报:信息科学版,2006,31(04): 371-374.

[3] FRIDRICH J, GOLJAN M, RUI D. Reliable Detecting LSB Steganography in Color and Gray-scale Images[J]. IEEE Multimedia, Special Issue on Security, 2001,8(04): 22-28.

[4] SORINA D, WU X L, WANG Z. Detection of LSB Steganography via Sample Pair Analysis[J].IEEE Transactions on Signal Processing,2003,51(07):1995-2007.

[5] MIDI Database.Free MIDI File Database [DB/OL]. (2003-06-17)[2009-09-16]. http://www.mididb.com/.

[6] LIN C J. LIBSVM-- A Library for Support Vector Machines[EB/OL].(2009-01-19)[2009-04-15].http://www.csie.ntu.edu.tw/~cjlin/ libsvm/.

[7] 杨博,郭立,王昱洁,等.一种MIDI音频的LSB 匹配隐写分析方法[J].信息安全与通信保密,2010(05):87-89.

[8] 杨帆,郭立,徐雷,等.基于信息量估计法的 MIDI音频隐写分析[J].通信技术,2010,43(01):86-89.

猜你喜欢
特征函数分析方法直方图
符合差分隐私的流数据统计直方图发布
基于EMD的MEMS陀螺仪随机漂移分析方法
一种角接触球轴承静特性分析方法
亚纯函数的Borel方向与Tsuji特征函数
随机变量的特征函数在概率论中的应用
关于(a,b,0)分布类的特征函数统一表达式的若干标记
中国设立PSSA的可行性及其分析方法
用直方图控制画面影调
特征函数的性质在实变函数中的应用
中考频数分布直方图题型展示