基于Legendre矩不变量和K—means的密级标识识别算法

2016-01-15 00:22傅涛经正俊
中文信息 2016年1期

傅涛+经正俊

摘 要: 在电子取证领域,需要对各种电子文档中的密级标识进行精确地识别,以判断其密级信息。本文在图像Legendre矩不变量基础上,结合K-means算法提出了一种基于Legendre矩不变量和K-means的密级标识识别的方法。该方法首先通过对密级标识进行图像预处理后,通过计算其Legendre矩不变量,然后利用K-means分类器对密级标识图片进行分类识别。实验表明,该算法与相关算法相比,该识别方法具有很强的抗各种常见攻击的能力和更高的识别准确率,取得了良好的识别效果。

关键词:密级标识    电子取证    Legendre矩    K-means

Identification of security level logo algorithm based on the Legendre moment and K-means

FU Tao 1    Jing Zhengjun2

1 Jangshu Bosh  Company  of  Software & Technology ,Nanjing , 210017

2 School of Computer and Software, Nanjing University of Information Science & Technology, Nanjing , 210044

Abstract: In the electronic forensics field, it is essential to accurately identify the marks on the different electronic documents. Based on the theories of Legendre moment invariants and K-means algorithm, this paper proposes an identify scheme for security level logo. Firstly, preprocessing the security level log images by image processing method. Secondly, computing the value of Legendre moment invariants. Finally, using the K-means classifier to classify and recognize the logo image. Experimental results have shown that the proposed algorithm can resistant common attacks. and has higher identification accuracy, which achieves good recognition effect compared with the related algorithms.

Keywords: security level logo; electronic forensics; Legendre moment invariants; K-means

中图分类号:O174 文献标识码:A      文章编号:1003-9082(2016)01-0007-04

一、引言

在电子取证中,在完成对涉密文件的检索后,需要对涉密文件的密级标识进行进一步的识别,将检查的结果以记录的形成日志,作为取证的证据[1]。密级标识一般由密级级别(包括“秘密”、“机密”和“绝密”)、密级标识符(“*”)和保密期限(以年或月计,特殊情况也可以是长期)几部分组成。

在现有的文字识别技术中,常见的方法有模板匹配法[2-4]、字符特征统计法[5-8]和神经网络法[9-12]等。模版匹配法基本思想是将待识别图像与模板图像进行直接或间接(对待识别图像进行一定的处理)相关运算得到相关值,根据相关值的大小去判定是否为模板字符。该方法相对简单,对于背景单一或者无污染的图片识别准确率较高,但随着背景图像的噪声增加,识别效果会急剧下降。基于字符特征的方法就是通过统计字符的特征,如轮廓特征、笔画特征、骨架特征和复杂指数特征等等,然后根据这些特征的相似度进行判别。该方法对于较为复杂的文字以及污染较轻的图片有较好的识别效果,具有一定的稳定性和适应性。神经网络法是通过利用神经网络对大量文字图像样本进行训练,通过神经网络不断的学习和收缩达到识别的目的。该方法在通过使用样本训练学习使得整个网络达到稳定后,具有较高的识别率。但是由于神经网络的结构设计严重依赖先验知识和经验,无法准确控制其是否收敛以及收敛速度。

以上文字识别方法,可以对密级标识完成较好的识别,但是一旦密级标识遭受常见攻击如几何攻击(旋转、缩放和平移等)、滤波攻击(均值滤波、高斯滤波等)、直方图均衡化攻击等利用上述方法无法准确的识别出密级标识。

针对上述研究存在的问题,本文提出了基于Legendre矩不变量和K-means的文字识别算法,首先对样本图像进行预处理后,通过计算低阶Legendre矩不变量作为特征,利用K-means分类器进行分类识别,由于低阶Legendre矩不变量在常见的攻击下具有很好的稳定性,因此不管带识别图像是否遭受攻击,本文方案均能够对密级标识信息进行很好地识别。

二、相关理论简介

1. Legendre 矩不变量理论简介

Teague在文献[13]中根据连续正交矩的理论提出了Legendre矩的概念,

阶的Legendre矩定义如下:

其中          为     阶Legendre正交多项式,且

其中系数         为

根据Legendre矩的正交性可得

其中系数         [14]

Zhang等[14]在Legendre矩的理论的基础上于文献[14]中提出了图像Legendre矩不变量的定义,分别如式(5)所示:

其中    和               的定义分别入式(6)和式(7)

在式(7)中有,

其中          为大小             图像               的质心,计算方法如式(9)所示:

由于图像的Legendre矩不变量在常见攻击下具有很强的稳定性与鲁棒性,因此本文选取8个低阶Legendre矩不变量作为特征,再利用K-means分类器进行分类识别。

2.K-means聚类算法简介

1967 年,MacQueend等[15]总结了Cox、Fisher等的研究成果提出了K-means聚类算法。K-means算法是一种很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越高。K-means算法在每次迭代中都要检测每个样本是否分类准确,否则就需要调整。如果在一次迭代算法中,所有数据对象被准确分类,则不需要再调整,聚类中心也不再改变,这标志着聚类准则函数收敛。

K-means算法的核心思想是将n个数据对象划分成K个簇,每个簇中的数据对象的相似度较高,不同簇之间的数据对象的相似度较低,即簇内紧凑,簇间独立。该算法处理过程如下:

(1)从数据集中随机选择k个对象, 每一个对象作为一个初始簇的中心;

(2) 将其他数据对象分配到距离其最近的各个簇中;

(3) 每一个簇计算其所有对象的平均值,作为该簇的新的中心;

(4) 重复步骤2和3直到目标函数收敛。

所以在应用过程中只需要定义合适的距离计算方法即可非常方便地将K-means算法转化为计算机可执行程序进行上机运行,所以K-means聚类算法是目前对集合元素进行分类的常用方法。

三、密级标识识别算法

本文所提出的密级标识识别算法主要包括图片预处理、Legendre 矩不变量特征提取和K-means分类识别三个部分组成,整个算法流程图如图1所示:

图1 算法流程图

由图1可知,本文算法中首先通过训练样本经预处理、特征提取,然后运用K-means算法进行聚类获得聚类结果,然后对测试样本同样经过预处理和特征提取后,运用聚类的结果进行识别。下面将从图像预处理、Legendre 矩不变量特征提取和K-means分类识别等三个方面对本文方案进行具体阐述。

1.图像预处理

在本文的密级标识识图像别算法中,首先要对样本图像进行预处理,主要包括图像灰度化、图像反相和二值化、图像去噪、倾斜校正、行字切分、细化以及归一化等操作,具体过程如下:

(1) 图像灰度化:将密级标识图像进行灰度化,以减少不必要的干扰和降低处理的复杂度,本文算法中采用灰度阈值法对图像进行灰度化和对比度增强,具体方案如下:

设图像灰度                             ,若令集合                    ,则可以通过判断像素值是否在集合中进行分类:

通过选定适当的a, b值就可以对图像的灰度化分割,实现图像的增强,达到拉伸图像的效果增加图像对比度。

(2) 图像去噪:将灰度化的图像采取3*3或者5*5的均值滤波法进行去噪,去除干扰信息的影响。

(3) 图像反相和二值化:将灰度化后的图像进行反相操作,使字符区域呈现为白色,背景区域呈现为黑色,使得文字轮廓与背景色对比更加强烈,有利于观察文字特征。然后利用全局阈值法对反相后的图像进行二值化:

(4) 倾斜校正:在文字图像电子化过程中,由于各种客观因素可能会使图像产生一定倾斜。当倾斜角度较大,若不进行校正,则很难对字符进行准确的切分,严重影响文字识别的效果。本算法中采取文献[13]中的Hough变换方法进行倾斜校正,其基本思想是通过把直线从图像的空间转换到参数的空间,求得参数空间的局部极大值获得图像文字的倾斜角。

(5) 行字切分:在经过二值化和倾斜校正后得到的图像是一个整体,在行与行以及字与字之间会有一定的空白,而在对字符识别时,需要对单个字符分割出来。本文利用经典的垂直投影法[16]进行文字行切分,在利用基于回溯的最大宽度法[16]进行单个字符的切分,最终得到包含每一个字符的文字序列。

(6) 细化:细化是提取文字的骨架,使各个笔划均由宽度为1个像素的形式表示。由于该方式能够很好的保留构成文字的基本组成单位,使得各种不同字体之间的差异最小化,从而有利于文字特征的提取。

(7) 归一化:归一化操作包括对图像进行大小归一化和位置归一化,其中大小归一化是指将文本图像通过相应的系数变换得到宽和高均相等的图像,以利于图像特征提取,提高识别率。图像位置归一化,是指将以图像的质心为原点平移图像,使文字位于图像中心。

2. Legendre 矩不变量特征提取

在完成对密级标识样本图像的预处理后,需对其进行Legendre 矩不变量特征的提取,根据2.1节中Legendre 矩不变量的计算方法,计算8个低阶Legendre 矩不变量,本文中分别选取其两个1阶矩不变量、两个2阶矩不变量和四个3阶矩不变量构造图像的特征向量

作为密级图像的特征,然后运用于K-means算法对密级标识进行分类识别。

3. K-means分类识别

利用K-means算法,通过计算样本图像特征向量     之间的欧式距离进行聚类,完成密级标识的分类识别,具体算法如下:

(1) 对样本图像特征向量集合      中随机选取    个向量作为中心向量。

(2) 采用欧式距离公式如式(12)所示,分别计算      中各向量到各中心向量之间的距离,按照最小距离原则进行聚类。

其中        代表集合      中第    个向量的第     个元素,例如,       即第

个向量的            的值。

(3) 根据(2)中的聚类结果,计算各簇内样本的均值作为新的中心向量。

(4) 根据更新后的中心点,按照最小距离原则再次进行聚类划分。

(5) 重复上述步骤,直到前后两次聚类后的聚类中心相同时停止运算。

四、实验结果与分析

本文以密级标识中出现的字符图像为训练样本,包括10个阿拉伯数字,“秘”、“密”、“机”、“绝”、“急”、“紧”、“特”、“年”、“月”、“长”、“期”、“级”、“★”等字符,然后通过彷射变换(包括旋转、缩放和平移)、JPEG压缩、亮度降低、模糊处理、中值滤波、均值滤波、对比度增强等攻击对上述字符图像进行处理,每种攻击产生11幅图片,加上原图,每个字符共计产生100图片作为样本图片,其中40幅作为训练样本,60幅作为测试样本,用于检测识别效果。图2给出了字符“秘”、“密”样本原图二值化以及旋转90度后二值化的结果图,以及数字“0”和“1”在质量因子为50的JPEG压缩后所

图2 样本图像示例

1. Legendre 矩不变量的稳定性

表1给出了字符“秘”在常规攻击下的8个低阶Legendre矩不变量的值,从表中的数据可以看出,字符的低阶Legendre矩不变量在常见的各种攻击下具有稳定性,因此可以作为图像的特征向量表示图像特征。

表1 常规攻击下字符“秘”Legendre矩不变量的稳定性

2.文字识别效果对比

本文使用Matlab 2013Rb软件对本文的算法进行实现,通过对训练样本预处理后的Legendre矩不变量进行聚类分析,然后用测试样本进行识别测试。此外,为了验证本文算法的优越性,本文对文献[10]、[11]和[12]的算法进行了实现,然后与本文算法一起进行对比实验。

图3给出了利用本文算法,对随机选取样本中100个测试样本进行分类识别,得到的分类识别结果与真实值的对比图。在该次随机选取的样本中,共有8种字符。从图2可以看出随机选取的一百个测试样本中,只有3个类别识别错误,识别率高达97%,可见用本文算法可以对密级标志图片进行准确度较高的识别。

图3 预测值与真实值对比图

表2给出了利用本文算法与其他三种算法的识别率对所有的1380个测试样本进行测试得到的识别率。从表2的数据可以看出在未遭受攻击的情况下本文算法的识别率能够达到96.87%,而其余三个算法的识别率分别为91.97%,93.46%和89.93%,因此本文算法与其余三个算法相比具有更高的识别率。

表2 不同算法下所有测试样本的识别率

五、总结

本文针对电子取证中的密级标识的识别,提出了一种基于Legendre矩不变量和K-means的识别方法,该方法通过计算预处理后图像的低阶Legendre矩不变量作为特征向量,然后利用K-means算法对密级标识进行分类识别。实验表明,本文算法与其他相关算法相比,能够抵抗各种常见攻击,具有更高的识别准确度与执行效率,

参考文献

[1]熊国华. 涉密网文件安全检测解决方案[J]. 电脑知识与技术, 2009, 5(14):3625-3627.

[2]郑文怡,鞠时光.模式匹配方法研究[J].计算机应用研究,2006, 23(2):60-63.

[3]李新良.基于模板匹配法的字符识别算法研究[J].计算技术与自动化, 2012, 31(2):90-93.

[4]Aravinda C V, Prakash H N. Template matching method for Kannada Handwritten recognition based on correlation analysis[C]//Contemporary Computing and Informatics (IC3I), 2014 International Conference on. IEEE, 2014: 857-861.

[5]杨明, 陈玲玲, 郑宝华. 基于提升小波的字符识别特征提取[J]. 吉林化工学院学报, 2013, 29(11): 97-99.

[6]褚晶辉, 董越, 吕卫. 基于小波变换的文字检测与提取方法[J]. 电视技术, 2014, 38(3): 182-185.

[7]Shah J, Gokani V. A Simple and Effective Optical Character Recognition System for Digits Recognition using the Pixel-Contour Features and Mathematical Parameters[J]. International Journal of Computer Science & Information Technologies, 2014, 5(5):6827-6830.

[8]Das S, jyoti Choudhury S, Das A K, et al. Selection of Graph-Based Features for Character Recognition Using Similarity Based Feature Dependency and Rough Set Theory[M]//Recent Advances in Information Technology. Springer India, 2014: 57-64.

[9]Zeng F, Yang T. The Research of Character Recognition Based on Improved Complexity Index Feature Extraction Algorithm[J]. AISS: Advances in Information Sciences and Service Sciences, 2012, 4(23): 224-230.

[10]张凯歌. 基于K-means和神经网络算法的图像文字提取与识别[D]. 云南大学, 2013.

[11]杨天长. 基于神经网络的文字识别技术研究及应用[D]. 北方工业大学, 2013.

[12]Qu Z, Chang Q, Chen C, et al. An Improved Character Recognition Algorithm for License Plate Based on BP Neural Network[J]. Open Electrical & Electronic Engineering Journal, 2014, 8: 202-207.

[13]Teague M R. Image analysis via the general theory of moments[J]. JOSA, 1980, 70(8): 920-930.

[14]Zhang H, Shu H, Coatrieux G, et al. Affine Legendre moment invariants for image watermarking robust to geometric distortions[J]. Image Processing, IEEE Transactions on, 2011, 20(8): 2189-2199.

[15]MacQueen J. Some methods for classification and analysis of multivariate observations[C]//Proceedings of the fifth Berkeley symposium on mathematical statistics and probability. 1967, 1(14): 281-297.

[16]付涛.基于高阶神经网络的文字识别算法研究[D]. 东北师范大学, 2010.

作者简介:傅涛,男,(1980.12-),博士,副研究员,主要研究方向:信息安全。

经正俊,男,(1992.2-),硕士,研究方向:信息安全。