任侠 廖建平
摘 要:敏感图像信息多以压缩格式存在、表现形式多样、缺乏统一定义等诸多因素影响着敏感信息识别速度和准确率的提高。针对这个问题,从压缩域图像处理及基于数据挖掘探寻识别规则两个角度出发,采用数据挖掘的方法,在大量的样本数据中探寻隐含的判决规则,并用于进行敏感图像的识别。
关 键 词:敏感图像;压缩域;数据挖掘;多代价敏感决策树
一、引言
当前,由于各种自然灾害而导致的水利突发事件层出不穷,根据国家防汛抗旱总指挥部网站消息,去年南方水涝导致广西、福建、浙江等地50多条河流先后发生超警戒水位洪水,超警幅度0.01-5.67米,其中广西蒙江发生了超历史实测记录大洪水,福建建溪支流南浦溪发生了超保证水位洪水。去年以来,洪水造成22个省(区、市)1823万人受灾,因灾死亡148人,失踪42人,农作物受灾1642千公顷,倒塌房屋6.78万间,直接经济损失299亿元,其中水利设施经济损失56亿元。与2000年以来同期相比,洪涝灾害直接经济损失偏多近2成。与此同时,在我国甘肃省却由于降水偏少,导致农作物受旱面积达970万亩,旱情造成71万人、65万头牲畜存在程度不同的饮水困难。随着各种自动监测技术在水利工程中的应用和深入扩展,各个决策部门的工作变得更加快捷和便利,同时,也生成了大量图像数据。要在这海量数据中即时获取有效信息是当前急需解决的关键技术之一,本文主要针对敏感图像的自动快速识别技术进行研究,从而为决策部门预防水利灾害提供数据支持。
二、敏感图像快速识别面临的挑战
敏感图像识别对速度和准确率的追求是永无止境的。但是面临网络环境下的海量信息,同时信息内容又复杂多变,想要快速准确的识别敏感图像需要面临各方巨大的挑战。
首先,各种水利系统中自动检测技术的应用都通过信息技术利用网络存储传输图像文件。[1]而网络环境下为寻求高存储率和高效率,对图像的本地存储和远程传输大多采取压缩技术。传统的敏感图像识别都是基于像素域进行的,因而针对压缩码流就必须先解压缩再进行识别,这样做虽然完成了识别图像的要求,但恰恰违背了网络环境下的核心优势,既增加各种负荷又缺乏灵活性及实时高效性。
其次,在各种水利系统的自动检测过程中生成的海量图像信息,由于拍摄点的环境、拍摄本身的角度、拍摄所处的背景和各种光照条件不同的限制,使得图像的表现形式呈多样性特点,很难找到统一特征进行准确、完整的表征描述。因此,提取哪些图像特征,及如何抽取各种鲁棒的敏感图像判决规则都是在网络环境下进行的,提高系统识别速度和准确率,从而提供数据决策支持是必须解决的重要问题。
最后,敏感图像表现形式的多样性,以及针对图像敏感性,不同的部门、不同的用户有不同的主观理解和需求,没有完整统一的标准,因而很难通过经验简单确定需要提取何种合适特征,也很难判断图像的底层特征和高层语义之间的联系规则。所以如何适应终端用户的主观需求是提高敏感圖像识别准确率所要面临的又一大问题。
三、敏感图像快速识别研究
基于内容的敏感图像识别是一种综合利用图形图像处理技术和人工智能决策的方法。本文基于这一思想,不针对单幅图像进行详细分析,而是通过详细分析压缩码流特点,快速准确的在压缩域中提取图像多种特征;然后利用数据挖掘的方法探寻适合识别敏感图像的特征及潜在决策规则,利用获取的知识来建立识别模型并用于对其它图像进行判决;最后,在预先分类的数据库中检索与之匹配的图像,再根据匹配结果对图像进行判定,如图1所示。
针对敏感图像识别,首先提取压缩图像的区域特征,进而分别利用颜色直方图、纹理及形状等特征在预定义类别的图像样本库中检索出与待识别图像最匹配的若干幅图像,如果检索结果中敏感图像的数量超过一定的阈值,则认为待识别图像为客户需求的敏感图像。由于该方法的效果和样本库与检测方法密切相关,因而针对压缩图像如何构建完整的样本库和如何基于数据挖掘探寻识别规则,实现有效快速检测是本方法存在的两个主要问题,同时也是本文重点要解决的问题。
四、敏感图像快速识别关键技术
本文提出的压缩域检测方法分为模型库生成和图像检测两个阶段,在模型库生成阶段,首先对压缩码流进行熵解码然后从中提取颜色、纹理以及其它一些图像特征。接下来利用数据挖掘技术探寻这些特征与敏感图像判断结果之间的内在规律,同时建立相关模型。在检测阶段,首先从熵解码之后的数据中提取与敏感
图像模型相关的图像特征,并初步检测图像中的敏感区域,然后采用区域生长算法完成最终的检测,如图2所示。
4.1 模型库生成
敏感图像识别是典型的模式识别问题,由于图像保真的需求造成数据量巨大,一种有效的方法是将图像信息通过特征提取从原始数据空间转换至特征空间,然后利用模式分类的方法对其识别。能够表征敏感图像的特征包括:基于区域颜色的特征、基于图像检索结果的特征、基于感兴趣区的特征以及图像全局颜色和纹理特征等。
目前敏感图像识别的主流技术都以未经压缩的像素域数据为研究对象,对于普遍存在的压缩格式的图像信息需要完全解码再进行处理。图像的解码操作不仅耗费时间,而且解码后待处理的数据也过于庞大,这已成为敏感图像识别的严重制约因素之一。基于压缩域的敏感图像识别注重对现有压缩格式的图像进行分析,并从中提取能够表征敏感图像的特征。由于各种压缩编码标准制定之初,并没考虑后续操作。因而,基于压缩域研究敏感图像识别方法需要深入分析压缩标准及压缩码流技术,进而研究相应的压缩域图像处理方法。DCT变换是当前压缩标准常用的核心技术,作为JPEG编码标准的核心技术分块,DCT变换的基本流程是:原始图片→颜色空间转换→分块→DCT变换→量化→熵编码→压缩码流,解压过程是此流程的反序。颜色特征是图像底层的基本特征之一,在图像识别领域有广泛应用。与其它视觉特征相比,颜色特征具有旋转、平移、尺度等不变性的特点,常用的颜色特征包括颜色直方图、颜色矩阵、颜色相关图等。JPEG采用YCbCr颜色空间,YCbCr颜色空间能够较好的分离亮度信息和色度信息,适应人眼视觉特性。出于编码效率和运算复杂度考虑,DCT变换前通常将原始数据先做8×8分块。经DCT变换后左上角系数会集中大部分能量,该系数称为DC系数,其他位置的系数称为AC系数。量化后的高频AC系数大部分会变为零,以此达到压缩目的,再经熵编码可进一步提高压缩效率。[2]N×N的二维DCT变换定义如式(1)所示。
(1)
其中,u、v、x、y∈[0,N-1];x、y是数据块的空域坐标;u、v是变换域的坐标。C(u),C(v)的取值如式(2)所示。
(2)
由式(1)和(2)可知,DCT变换后的DC系数值,即(0,0)位置处的DCT系数,如式(3)所示。
(3)
考虑N×N的像素块,其均值可由式(4)表示:
(4)
由式(3)和(4)可推出式(5):
(5)
由式(5)可知空域图像像素块均值可直接由DC系数获得,不必进行反DCT变换。由此可将图像中所有分块DC系数组合成一幅DC图。虽然DC图仅是原始图像的缩略,但可保留大部分视觉信息。YCbCr颜色空间中,Y分量反映图像的亮度信息,Cb、Cr分量反映图像的色度信息。DCT变换前已经将图像转换至YCbCr颜色空间,因而利用DC系数提取颜色特征及亮度特征,是一种有效方法。除此,还可在DC图中提取亮度直方图、颜色直方图、色度直方图等信息。提取的压缩域颜色特征并利用图像块内所有像素的颜色平均值表示。对于8×8大小的图像块,其颜色平均值可由下式获得。其中以F(0,0)为8×8图像块经DCT变换后的DC系数。如式(6)所示。
(6)
由于压缩过程中DCT变换后的系数需要经过量化处理,因而式(6)可由量化后的DC系数与量化因子的乘积近似得出,如式(7)所示。
(7)
式(7)中,Q(0,0)是量化表中(0,0)处的值,可在压缩码流中直接获取。FQ(0,0)是熵解码后的DC系数,可在熵解码后的码流中获取。因而我们将上式定义为压缩域的颜色特征,用μc_colar表示,如式(8)所示。
(8)
利用式(8)求得的各颜色分量的均值作为图像块压缩域的颜色特征,并分别记为YDC、CbDC、CrDC。综上所述,具体的特征提取过程为:
1.在压缩码流中,将图像转换至YCbCr颜色空间,利用基于数据挖掘的压缩域颜色检测方法获取颜色似然图,即DC图。
2.将DC图划分为8×8的图像块。
3.将DC图中对应图像块像素均值作为低分辨率图像的像素值得到低分辨率图像。
4.对低分辨率图像进行二维DCT变换。
5.变换后的DCT系数进行Zigzag排序,并提取前6个系数作为SCLD特征。
纹理是图像的另外一种基本底层特征,在图像内容分析中有重要作用。目前对于纹理并没有统一定义,但普遍认为纹理特征反映了图像像素的亮度或者颜色信息的某种变化,是统计相关的。对于纹理分析常用的研究方法有結构法、统计法、模型法和频谱法四种。
4.2 图像检测
基于压缩域的特征提取提高了特征提取速度,但敏感图像识别算法性能的提高还要求通过选用合理有效的模式分类方法,进而提高检索速度。特征提取将原始图像转换至特征图像后,为了深入分析提取的各种图像特征与敏感图像之间的关系,我们采用了数据挖掘的思想在大量的样本数据中探寻潜在的敏感图像识别规律。决策树是一种常用的数据挖掘方法,能够清晰的显示哪些特征比较重要,具有检测速度快、方便生成、易于理解等优点。
基于NNIA的代价敏感决策树构建方法,首先将平均误分类代价和平均测试代价作为两个优化目标,然后利用NNIA对决策树进行优化。优化过程中,将决策树看作是免疫进化中的抗体,通过研究决策树抗体的随机构建方法、剪枝策略以及变异操作等,最终建立的多代价敏感的决策树具有规模小、泛化能力强的特点。[3]利用NNIA算法解决决策树构建过程中多代价优化问题时,将决策树视为NNIA算法中的抗体。为了使NNIA更适应决策树抗体并且进一步降低复杂度,在构建代价敏感决策树过程中我们对NNIA算法进行改进。改进后的算法在每次迭代过程中增加对决策树抗体的剪枝操作,以获取更精简鲁棒的决策树。由于变异操作需要利用决策树的测试结果,如果变异之前进行重组操作势必会破坏原有决策树结构,这时需要重新对训练集进行测试。因此,为了降低算法的计算复杂度,我们去除了NNIA中的重组操作。另外,为增加抗体的多样性,在每次迭代过程中都加入新的随机决策树抗体。
平均误分类代价和平均测试代价是NNIA算法中首先需要确定的待优化目标,这是构建代价敏感决策树的基础。另外决策树抗体初始化、决策树剪枝以及决策树变异操作是算法的三个关键步骤。至于优势抗体群更新、活性抗体选择及比例克隆等操作与标准的NNIA相同。
1.优化目标确定
将平均误分类代价和平均测试代价作为两个优化目标,即构建的决策树对误分类代价和测试代价敏感。采用分类代价矩阵的方法计算平均误分类代价。对于一个K分类问题,分类代价矩阵C是一个K×K阶矩阵,其中元素Ci,j(0
(9)
其中, I D I 为训练样本集D中所包含的样本数目;d为训练样本集D中的样本;Id为样本d的实际类别;h(t,d)为决策树t对样本d的预测类别。
2.决策树抗体的随机生成
NNIA算法框架首先需要对决策树抗体进行编码。由于二叉树和多叉树之间可以相互转换,因而我们直接用二叉决策树表示抗体,随机建立的二叉决策树为满二叉树,其内部节点决策属性和分裂点是随机选择的,这有利于在整个决策树空间搜索。叶节点类别的指派方法为:对于叶节点,训练样本集D经决策树t测试后,得到符合叶节点l对应规则的数据样本子集Dl,将使Dl误分类代价最小的类别指定为叶节点l的类别。其中x为叶节点l应指派的类别,如式(10)所示。
(10)
3.决策树剪枝策略
考虑到随机生成的决策树某些分支可能无效以及构建代价敏感的决策树的需要,我们采用了两种剪枝策略:(1)基于最小支持项数目的剪枝策略;(2)基于分类错误代价的剪枝策略。
基于最小支持项数目的剪枝策略与控制树规模的方法类似,以此作为剪枝策略。剪枝前預先设定决策树的每分支最小支持项的数目,然后自顶向下考察每棵子树。基于分类错误代价的剪枝策略则是利用训练样本集D评估决策树的误分类代价,并自顶向下对子树是否被剪枝作以判定。对于内部任意节点,假设以该节点作为根节点的子树tn,若剪除tn后的决策树的平均误分类代价不大于剪枝前的平均误分类代价,则对子树tn进行剪枝,否则保留该子树。
4.决策树抗体的变异操作
决策树抗体的结构并不固定,不易采用普通的变异操作进行变异。为此,采用以下五种决策树变异操作:(1)利用随机创建的子树替代原决策树中随机选取的子树;(2)对决策树进行随机剪枝;(3)随机改变内部节点决策属性的分裂点;(4)随机改变内部节点的决策属性和分裂点;(5)随机分裂叶节点。
针对检测对象,首先在码流中提取图像块的颜色和纹理等特征快速构建低分辨率版本图像;进而利用基于数据挖掘的压缩域检测方法,在大量的训练样本中探寻隐含决策规则,并将这些规则作为压缩域检测的依据。网络环境下虽然难以简单确定敏感图像信息的决策规则,但可以轻易获取各种类型的大量数据,从而利用选定的样本数据,探寻隐含的颜色和纹理等特征关系,进而在样本中挖掘出隐含知识,从而建立基于规则的模型,并用于检测新图像,最后利用一些先验知识和区域生长算法进一步去除部分背景噪声干扰,最终获取检测结果。该方法能够有效提高检测速度,并且准确率也较高。
五、结束语
在敏感图像识别中,将敏感信息误判为正常和将正常信息误判为敏感所造成的影响是不同的,并且图像特征的提取也需要一定的时间。在数据挖掘中,前者称为误分类代价,后者称为测试代价。这两种代价影响到了敏感图像识别的准确率和速度。针对这个问题,本论文提出了一种基于非支配邻域免疫算法的多代价敏感决策树构建方法。将决策树作为非支配邻域免疫算法中的抗体,通过对决策树的平均误分类代价和平均测试代价进行优化,获得一组Pareto最优决策树。该方法不仅仅能够用于敏感图像识别,也能够应用于其他对误分类代价和测试代价比较关注的分类领域。
敏感图像表现形式多样并且缺乏统一定义,难以获取准确的判决规则。针对这个问题,本论文首先将图像划分为四种较为客观的类别,并在压缩域提取多种图像特征。然后,利用基于多代价敏感决策树的数据挖掘方法,对大量图像样本进行分析,探寻隐含在其中的敏感图像判决规则。最后,通过引入可由用户自行定义的敏感程度的概念,使决策规则可输出待检测图像的敏感程度信息。最终识别结果取决于终端用户对各类图像敏感程度的定义,可以适应不同群体用户的需求,有效提高了识别的准确率和速度。
参考文献
[1] 邱瑞田,等.全国水库防洪调度决策支持系统工程[J].中国水利.2004,18(22):58-60.
[2] 程向辉,等.电力系统应急调度权转移分析及决策方法[J].电力自动化设备.2012,32(8):80-84.
[3] 姚亚夫,邢留涛.决策树C4.5连续属性分割阈值算法改进及其应用.中南大学学报(自然科学版).2011,42(12):3772-3776.
[4] 曾山,等.基于对应分析的冗余模糊C均值聚类算法研究.华中科技大学学报(自然科学版).2012,40(2):107-111.
[5] 杨露菁,等.基于静态模型的多视角SAR图像目标识别方法.武汉大学学报(信息科学版).2012,37(1):26-30.