基于特征融合和改进RSM集成分类的BMP隐写检测

2014-12-27 01:34:58何凤英钟尚平徐巧芬
关键词:子集分类器分类

何凤英,钟尚平,徐巧芬

(福州大学数学与计算机科学学院,福建福州 350116)

0 引言

传统的BMP图像盲隐写检测主要采用单一特征和单一强分类器,由于提取的片面性,单一特征难以全面体现隐写信息的嵌入所引起的差异性,而且单一特征对不同的隐写算法具有偏向性,从而导致检测率难以提升,单一分类器也存在对训练样本敏感,泛化能力差、分类精度难以提高等问题.因此,对BMP图像隐写检测方法的改进显得尤为重要.

特征融合[1]是将原始特征数据源采用某种方法进行融合,产生新的特征集,以期能比原始特征数据包含更多综合性分类信息的方法.和单一特征相比,融合特征包含了更多的鉴别信息,能有效提高分类识别的效果.Pevny[2]串行融合193维DCT特征和81维Markov特征,得到274维的特征向量并用SVM分类;Kodovsky[3]等串行融合CC-PEV 和SPAM 特征后进行分类,Fridrich[4]采用high-dimensional rich model在随机子空间上进行特征融合分类,这些实验均证明,融合后的特征可以获得比单一的特征更好的检测性能.

集成学习利用基学习器的多个版本来解决同一个问题,能显著提高学习系统的泛化能力,已被认为是当前机器学习领域的四大研究方向之首[5].而随机子空间法(random subspace method,RSM)是一种有效的集成分类方法[6],该方法从原始特征空间抽取子空间来构造不同的特征子集,并在每个特征子集上构建基分类器,最后根据一定的准则将所有基分类器的结果进行组合,得到最终决策.目前RSM已被成功地应用于人脸识别、手写体识别、文本分类等领域.

但是,由于RSM是随机选择特征子集,无法保证选取的特征具有较高的区分能力,可能导致训练出性能很差的个体分类器从而影响集成的性能.针对RSM存在的不足,已有许多学者进行了相关的研究,主要的改进方法有:①将RSM和其他的集成学习算法相结合.García-Pedrajas等[6]结合Boosting思想,对RSM进行了改进,并利用UCI数据集验证改进算法取得了较好的效果.Fridrich等[7]则将Bagging的思想引入RSM,从而提高特征子集的区分能力.②降低抽取特征子集的随机性以提高区分能力.Wang等[8]提出基于PCA的RSM算法,先对样本空间进行主成分分析(principal component analysis,PCA),然后再利用RSM抽取特征子空间,取得了较高的准确率.Zhu等[9]提出了半随机子空间算法,在抽取的子样本空间中加入全局信息,实验证明该方法可以提高经典RSM算法的性能.

基于以上分析,提出一种基于特征融合和改进RSM集成分类的BMP隐写图像检测方法.首先抽取SPAM[10]特征和Moulin[11]特征,并进行串行融合构造新的特征空间,为了提高特征子集的区分能力,特征子集不再随机选取,而是利用序列前向选择(sequential forward selection,SFS)选取部分分类能力较强的特征作为固定特征,其余特征从剩余的特征空间中随机抽取,由固定特征和随机抽取特征构成特征子集,最后在特征子集上训练成员分类器,并用多数投票法对它们进行组合.实验结果表明,本文提出的方法较好地克服了传统BMP隐写检测方法的不足,在LSB匹配、LSB替换、SS和QIM四种隐写算法下,检测率得到了一定的提高.

1 基于SFS的改进随机子空间法

1.1 序列前向选择(SFS)算法

序列前向选择算法[12]是一种特征选择算法,其本质是一种贪心选择算法.设特征子集X=φ,每次选择一个特征xi加入X,使得加入xi后的特征集X利用分类算法C训练得到的分类器在验证集V上进行分类得到的分类精度最高.算法描述如下:

输入:原始特征集D,选择的特征个数S,分类方法C,验证集V;输出:特征子集X

1)初始化特征子集X为空集,X=φ;

2)遍历原始特征集D中的每个特征di:

若di∉X

(a)X'=X∪di;

(b)对X'利用分类算法C训练分类器,并计算在验证集V上的分类精度Ti;

3)找出步骤2)中最大的分类精度Ti,并将相应的特征di加入特征子集X;

4)统计X的特征个数 S',如果S'<S,返回步骤2);否则,跳到步骤5);

5)返回选择的特征子集X.

1.2 改进的随机子空间法

改进的随机子空间算法首先选择合适的子空间大小r,每个子空间由两部分组成:一部分由特征选择算法SFS得到,另一部分从剩余的特征空间中随机抽取得到.然后由分类算法C得到每个子空间的决策,最后利用投票法得到最终的结果.算法描述如下.

输入:原始特征集D,测试数据x,分类方法C,子空间维数r,基分类器个数m,验证集V;输出:x的类别T.

1)利用特征选择算法SFS选取原始特征集D中分类能力较好的r/2维特征构成特征子集X=SFS(D,r/2,C,V),并记录特征子集X在原始空间D中的位置FS;

2)在特征集R=D-X中随机产生m个r/2维的特征子集R1,R2,…,Rm,并记录所对应样本子集的位置 S1,S2,…,Sm;

3)构造特征子空间H1,H2,…,Hm,其中,Hi=X∪Ri(i=1,2,…,m),在各个子间Hi上利用分类算法C进行训练,得到基分类器C1,C2,…,Cm;

4)将步骤1)得到的位置FS在测试样本x上进行投影得到测试样本子集tx;

5)将步骤2)得到的随机样本子集位置S1,S2,…,Sm在样本子集tr=x-tx上进行投影,得到相应的随机测试子样本tr1,tr2,…,trm;

6)构造测试样本子空间x1,x2,…,xm,其中,xi=tx∪tri(i=1,2,…,m);

7)对每个测试子集xi用基分类器Ci进行分类,并利用多数投票法得到最终决策T.

2 仿真实验结果与分析

2.1 隐写特征的提取

本文串行融合两类经典的BMP隐写特征:Moulin特征和SPAM特征进行检测分类.

Moulin特征的提取方法如下:首先对图像进行三级Harr小波分解,然后分别提取分解子带和预测误差子带的n阶概率密度函数矩和特征函数矩.选取n=6的概率密度矩和特征函数矩得到208维的Moulin特征.SPAM特征的提取方法如下:首先获得水平、垂直、主对角线、次对角线的正向和逆向共8个方向上的差值图像,然后统计各个差值图像概率转移矩阵,最后设置阈值T,将区间[T,-T]内的转移概率在水平、垂直、主对角线、次对角线的正向和逆向共8个方向求均值.本文选取T=3得到686维的SPAM特征.

实验过程中,从USC-SIPI图像库[13]和自己采集的图像库(图像主题包括人物、风景、建筑、动植物等)中随机选取了3 000幅BMP图像,并分别用经典的空域隐写算法LSB替换、LSB匹配、SS和 QIM以25%、50%、75%、100%的嵌入率用随机产生的数据对图像进行隐写,然后分别提取相应的Moulin和SPAM特征,最后得到不同嵌入率下的8组隐写特征集,如表1所示.

其中,Moulin_LR和SPAM_LR是从LSB替换隐写图像集提取的特征,Moulin_LM和SPAM_LM是从LSB匹配隐写图像集提取的特征,Moulin_SS和SPAM_SS是从SS隐写图像集提取的特征,Moulin_QIM和SPAM_QIM是从QIM隐写图像集提取的特征.

表1 隐写特征集Tab.1 Steganographic feature set

2.2 实验结果及分析

实验过程中,针对不同隐写算法,任选1 500幅原图及其对应的1 500幅隐写图片作为训练样本,剩余的1 500幅原图及其对应的1 500幅隐写图片作为检测样本.子空间的维数r设定为原始特征空间维数的一半,基分类器统一采用SVM,基分类器个数m设定为51,选取RBF核作为核函数,采用十折交叉验证法根据数据集特征自动选取训练参数g和C.为得到较准确和稳定的测试结果,实验过程重复10次,取平均检测率作为最后的结果.

实验1

为了验证融合特征的有效性,采用单一特征Moulin、SPAM和基于这两种特征的串行融合特征在单一分类器下进行BMP隐写图像的检测对比.实验结果如表2所示.其中Tp代表真阳性率(即将载密图像正确判断为载密图像的概率),计算公式为Tp=(被正确识别的载密图像/载密图像总量);Tn表示真阴性率(即将原始载体正确判断为原始载体的概率),计算公式为Tn=(被正确识别的原始载体/原始载体总量);T表示最终检测率,计算公式为T=(Tp+Tn)/2.

表2 不同特征和单一分类器对4种隐写方法的检测结果Tab.2 The results of four kinds of steganalysis methods using different features and single classifier

从表2可以看出,单一特征在LSB替换、LSB匹配以及SS隐写算法下,平均检测率都不高,尤其在25%的嵌入率下,检测率比较的低.当采用融合特征作为隐写特征时,在不同隐写方法和隐写率下,分类准确率均有明显的提高,相较于单一特征,准确率提高了约2%~14%.说明融合特征发挥了特征间的互补作用,为分类器提供了更多的分类信息,从而增强了分类器的识别能力.

实验2

为了验证本文改进RSM方法(记为SFSRSM)的有效性,分别和经典的RSM算法,文献[8]提出的基于PCA的RSM算法(记为PCARSM)以及Bagging算法在LSB替换、LSB匹配、SS和QIM四种隐写算法下进行分类检测对比实验,实验结果如表3~表4所示.

表3 不同特征和不同集成分类方法对LSB替换、LSB匹配的检测结果Tab.3 The detection results for LSB replacement and LSB matching using different features and ensemble classification methods

表4 不同特征和不同集成分类方法对SS、QIM的检测结果Tab.4 The detection results for SS and QIM using different features and ensemble classification methods

从表2和表3、表4的对比可以看出:

1)对于相同的特征,在不同隐写方法的各种嵌入率下,采用集成分类器比采用单一分类器,检测率均有不同程度的提高,而基于SFSRSM的集成方法的检测率提高最为明显.特别在LSB替换、LSB匹配以及SS三种算法下,相较于采用单一SVM的分类方法,在SFSRSM的集成方法下,采用单一特征的算法,其准确率约有2%~6%的提高,采用融合特征的算法,其准确率约有2%~3%的提高.

2)对于相同的集成分类方法,融合特征的检测率高于单一特征,特别在LSB替换、LSB匹配以及SS三种算法中,检测效果明显好于单一特征.

3)在LSB替换、LSB匹配以及SS三种算法下,基于SFSRSM的集成方法和PCARSM相比,平均检测率提高了约0.7% ~1%,和经典的RSM及Bagging相比,平均检测率提高了约1.5% ~3%.

4)在QIM算法下,四种集成分类方法都具有很好的检测效果,但在25%的嵌入率下,本文的FSRSM方法的检测率高于其它三种集成方法.

5)在四种隐写算法下,RSM的集成方法总体上优于Bagging方法.特别在SS隐写算法下,基于融合特征的RSM集成分类,其平均准确率比基于Bagging的方法高约0.6%.

3 结语

针对传统BMP图像隐写检测方法的缺陷,提出一种基于特征融合和改进RSM集成分类的BMP隐写检测方法.实验结果表明,该方法有效融合了不同特征,利用SFS选取分类能力较高的特征作为固定特征,保留了分类能力较高的特征,从而提高了特征子集的分类能力,获得了较好的BMP图像的隐写检测效果.今后将研究如何合理选择RSM子空间维数,从而进一步提高该算法的性能.

猜你喜欢
子集分类器分类
由一道有关集合的子集个数题引发的思考
拓扑空间中紧致子集的性质研究
分类算一算
关于奇数阶二元子集的分离序列
分类讨论求坐标
数据分析中的分类讨论
BP-GA光照分类器在车道线识别中的应用
电子测试(2018年1期)2018-04-18 11:52:35
教你一招:数的分类
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器