信息设备电磁泄漏还原图像的文本识别研究

2016-11-21 05:44徐艳云李怡伟孙德刚
信息安全研究 2016年2期
关键词:字符投影电磁

徐艳云 郭 佳 李怡伟,3 孙德刚

1(中国科学院信息工程研究所 北京 100093)2(国家保密科技测评中心 北京 100044)3(中国科学院大学 北京 100049)



信息设备电磁泄漏还原图像的文本识别研究

徐艳云1郭 佳2李怡伟1,3孙德刚1

1(中国科学院信息工程研究所 北京 100093)2(国家保密科技测评中心 北京 100044)3(中国科学院大学 北京 100049)

(xuyanyun@iie.ac.cn)

信息设备电磁辐射产生的信息泄漏是信息安全中的重要隐患,随着信息设备广泛使用,电磁泄漏信息重建技术也引起了国内外学术界的广泛关注,然而重建信息中文本的自动识别技术并未引起人们的注意.人工识别重建文本的方法耗时耗力,而且图片信息不便于保存及实现检索自动化,因此不能快速及时发现有用信息.基于模板匹配方法,提出一种针对计算机视频电磁泄漏文本“横”缺失特点的自动识别方法,实验证明该方法适用于电磁泄漏文本信息特点,可自动快速地识别电磁泄漏,还原图像的文本信息.

电磁泄漏;重建图像;字符识别;阈值投影法;模板匹配

随着信息、网络、通信技术等的飞速发展,计算机已广泛应用于国防、科技、工业等众多领域,各种信息被送入计算机进行处理、存储和传递.而计算机、传真机、打印机等应用广泛的通信设备,在工作过程中均会产生不同程度的电磁泄漏[1-3],这些泄漏信号存在于开放的空间中,侦听者可以利用特定的设备截获该泄漏信号,通过技术手段还原、重现信息设备正在处理的信息.该技术可以用于情报获取,在未来电子战、电子对抗领域具有不可忽视的作用.因此国内外学术界对计算机视频泄漏信息的重建和还原做了大量的研究工作[4-6].

由于信号处理能力限制和电磁泄漏信号自身特征,信息设备电磁泄漏还原图像质量差别较大,文本信息模糊,目前主要通过人工方式识别字符,费时费力.直接保存图片不仅占用空间大,也不便与其他检索技术结合,不能及时发现敏感或感兴趣的信息.因此,实现电磁泄漏还原图像中文本信息的自动识别、存储,对于提高电磁泄漏还原设备的性能和实用能力具有重要意义.

本文以计算机视频电磁泄漏信号为研究对象,针对其还原图像中文本信息“横”缺失的特点,提出了一种基于模板匹配的文字识别算法,实现了对计算机视频电磁泄漏还原图像中文本信息的自动快速识别.

1 电磁泄漏还原图像特征分析

以计算机为例,计算机显示的视频信息是活动的图像信息,图像信息是与时间相关的2维信息,而视频信号及其电磁泄漏信号是与时间相关的1维信号,下面首先阐明1维视频信号和2维图像信息的关系,并分析视频电磁泄漏信号的产生过程,最后说明电磁泄漏还原图像中文本“横”缺失的原因.

图片是由一系列像素点构成的,1幅1 024×768分辨率的图片,包含768行,每行有1 024个像素点.视频信号的形成过程与显示器扫描显示图像的过程一致,即从左上角第1个像素开始,从左到右,自上而下,逐个像素扫描显示,每个像素点对应视频信号的1个梯形脉冲.对于黑白视频信号,高电平表示白色,低电平表示黑色.对于彩色视频信号,电压值受像素点对应的RGB灰度值控制,不同灰度值对应不同电压.

根据电磁泄漏发射特点,远区辐射场时域波形近似正比于电流波形的时间导数,见式(1).当水平方向相邻像素灰度值不同时,视频信号产生电压跳变,引起电流变化并辐射出电磁能量,形成电磁泄漏信号.当水平方向相邻像素灰度值相同时,不存在电压跳变和电流变化,没有能量泄漏.因此,当电磁泄漏信号被接收并进行2维重建后,在水平方向像素灰度值变化的位置呈现白色,灰度值不变的地方呈现黑色.

(1)

以图1(a)中的“十”字为例,图中每个方格为1个像素,图中只包含黑白像素,图1(b)是图1(a)第1行像素形成的视频信号及其泄漏信号的示意图,由视频信号波形可知白色像素处为高电平,黑色像素处为低电平,由泄漏信号波形可知在视频信号电平跳变处产生泄漏信号.图1(c)是图1 (a)的电磁泄漏重建文本图像理想图,可见水平方向跳变点,即字符笔画的竖直边缘为白色,电磁泄漏还原图像中文字整体表现为“横”缺失,“竖”存在空心的现象.

图1 电磁泄漏还原图像形成示意图

由于目前计算机视频信号多为彩色视频信号,分256级灰度级,所以电压跳变程度不同,电流变化有大有小,辐射能量大小不一,因此还原文本没有图1(c)中那样明显的分界线,而是存在模糊现象.

图2为斯诺登事件披露的代号为DROPMIRE的内容[7],从中可见黑底白字图片,该图极可能为电磁泄漏发射的接收还原图像,从截取放大的黑底白字图片“EC NCN”可以看到一些细节,字母的垂直边清晰可见,而水平边部分“横”缺失,存在空心现象.

图2 斯诺登事件披露内容图片

2 文本信息识别算法

图3 还原文本图像文字识别流程图

针对上述电磁泄漏信号还原图像中文本“横”缺失且存在模糊的特点,本文提出了一种基于模板匹配的文本信息自动识别方法,该方法的流程图如图3所示:

首先利用专用接收机对计算机视频电磁泄漏信号进行还原重建得到文本图像.之后对含噪的彩色文本图像进行灰度化、二值化、滤波去噪等预处理操作.经过预处理,图像变为字符较清晰的二值图,此时通过行列投影实现对文本图像中每个字符的切割提取,后续对每个字符进行建库和识别.其中,学习阶段实现对每个待识别字符建立模板库,测试阶段将待识别字符与模板库中字符进行匹配,最后输出识别结果.下面对识别算法中的关键技术和原理进行详细介绍.

2.1 预处理

通过专用接收机获取的文本图像是彩色图像,并且含有噪声,因此首先要对文本图像进行灰度化、二值化、滤波去噪等操作.

二值图表示简单,计算复杂度低,常被用于文字识别算法.假设图像的2维函数表示f(x,y)的灰度值范围为G,t为选取的阈值(t∈G),则图像二值化过程[8]可表示为:

(2)

其中(b1,b2)是二值化对,一般取为0和1.式(2)中如果t选取过大,则会把部分目标点归类为背景点,可能造成断笔等现象.如果t选取过小,会将背景点归类为目标点,造成字符笔画粘连或出现伪影等,所以对阈值t的选取是二值化算法研究的关键.

二值化算法大致可分为全局阈值法和局部阈值法2类[9],本文采用Otsu[10]于1979年提出的最大类间方差法,该方法属于全局阈值法,基本思想是设阈值将图像分割成2组,一组灰度对应目标,另一组灰度对应背景,则这2组类别的灰度值应该达到类内方差最小,而类间的方差最大.Otsu算法计算简单,速度较快,在图像目标区域和背景区域灰度相差较明显时效果突出.

中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术,基本原理是把数字图像或数字序列中1点的值用该点邻域中各点值的中值代替,让周围的像素值接近真实值,从而消除孤立的噪声点.具体方法是选择一种2维滑动模板,将模板内像素按照像素值大小进行排序,生成单调上升(或下降)的2维数据序列.2维中值滤波输出为

g(x,y)=med{f(x-k,y-l),(k,l)∈W},

(3)

其中f(x,y),g(x,y)分别为原始图像和处理后图像.W为2维模板,可以是矩形、线状、圆形、十字形、圆环形等.

2.2 字符投影切割

经过预处理,文本图像变为较清晰的二值图,此时利用阈值投影法,切割提取出每个字符.

投影方法的实质是把复杂、不利于分析的高维信息转化为低维[11],从而便于人们分析和把握.由于版面信息是较复杂的2维信息,不便于分析,可采用投影法将其转化为1维信息.对1幅经过二值化处理、大小为M×N的图像,若背景为黑色像素点,目标为白色像素点,那么1行或1列的白色像素点总和就是该图像的行列的投影值.把所有行或列的投影值统计起来,即可得到这幅图像的水平或垂直投影.

经过投影之后,2维文档图像上的文字像素分布特征被转换为2个1维的函数,设图像的2维函数表示为:

f(i,j) (i=1,…,M,j=1,…,N),

(4)

行、列分别投影为H(i)和V(j):

(5)

因此在行间和列间空白处会存在谷值,可以依次将每行和每个字符分开.但由于电磁泄漏信号还原图像中文本信息“横”笔画严重丢失,这些字符本身的垂直投影会出现空白间隙,因此直接用投影分割时会产生误切分,将1个字切分成多个.

本文引入列数阈值p,当相邻p列像素值和均为0时,判定此处为字符间的空白处,并予以切分,否则,认为是字符内空白,不予以切分,此即阈值投影法.

2.3 模板建立和匹配

在对文本图像进行文字识别过程中,模板库的建立尤为重要,模板的质量决定了识别正确率的高低.本文利用信噪比较高的计算机视频泄漏信号还原文本图像,经过二值化、中值滤波、字符切分及规整处理,在学习阶段对部分汉字进行模板库的建立.

在测试阶段,将待识别字符与已建立的模板库中的字符进行模板匹配.本文采用相关系数来度量字符的匹配程度,相关系数计算公式如下:

(6)

取相关性最强的字符作为结果输出,当相关系数小于经验阈值时,认为匹配失败,输出空格.

3 实验与结果分析

3.1 实验场景

实验利用图4所示的专用采集平台对电磁泄漏信号还原图像进行采集.被测计算机位于1 m高的平台上,显示Word文本.电磁泄漏信号接收天线采用对数周期天线,高度为1.5 m,距离被测计算机水平3 m处,经射频电缆与专用接收机相连.专用接收机对计算机电磁泄漏信号进行采集和图像重建.

图4 计算机电磁泄漏还原图像采集专用平台

3.2 结果分析

首先对文字进行建库.被测计算机显示Word字体为宋体,字号为初号,专用接收机采集并存储重建图像,筛选出信噪比较高的文本图像,经二值化、中值滤波、字符切割和规整处理,建立汉字字符模板库.

当计算机显示Word文本时,通过图4的专用采集平台得到的计算机视频电磁泄漏还原文本图像,如图5所示,图中文字存在“横”缺失、“竖”空心特点,灰度值为多级变化,黑白分界线模糊.

图5 计算机视频电磁泄漏还原文本图像

图5中2侧的白色竖线是Word的边框线和行消隐引起的,在预处理过程中可利用垂直投影法去除,对图5进行灰度化、二值化、滤波去噪等预处理操作,得到图6所示的图像:

图6 预处理后的图像

利用阈值投影对图像从上向下进行行切割,得到每1行字符,如图7所示,清晰可见分割出的1行字符.再对1行字符从左到右进行列切割,得到每个字符,如图8所示.对切割得到的字符作归一化处理,并利用模板匹配算法对字符进行匹配识别,将识别结果输出到txt文档中.所有文本信息的识别结果如图9所示.

图7 行切割得到一行文字

图8 列切割得到一个字符

图9 识别结果

对图9的识别结果进行统计,待识别字符为45个,正确识别41个,识别正确率为91.1%.由图9可以看出,识别结果出现许多空行,这是由于电磁泄漏信号中的噪声会在还原文本图像中形成散粒和白点,在阈值投影切分时形成行,但识别过程中,由于没有与其匹配的字符模板,因此输出空格,形成许多空行.

此外,“一”和“目”字未能正确识别,其中,“一”字由于“横”缺失严重,识别时将其识别为散粒噪声,导致匹配失败.“目”字由于“横”缺失造成字符切分错误,识别时将其切分为2个字符,导致匹配失败.因此,对于全由“横”笔画组成或者“横”笔画较多为主体结构的字符,其电磁泄漏信号重建的文本信息无法识别.

3.3 算法性能分析

以图5去除白色竖线后的图像为参考图像,通过对其加入不同程度的高斯白噪声,并以峰值信噪比衡量加噪后的图像质量,分析噪声对本文识别算法性能的影响.峰值信噪比PSNR(peak signal to noise ratio)的计算公式如下:

(7)

(8)

其中,I(x,y)为参考图像灰度值,f(x,y)为加噪图像灰度值,二者大小均为M×N.

峰值信噪比与文字识别正确率的关系如表1所示:

表1 峰值信噪比和识别正确率关系

由表1可见,当峰值信噪比在30 dB以上时,识别正确率在80%以上.因此在噪声没有对图像造成严重失真的情况下,本文算法是可行有效的.

由以上分析知,该方法可快速自动地实现计算机视频电磁泄漏信号还原图像中文本信息的识别.

4 结束语

本文提出了一种自动快速识别和存储计算机视频电磁泄漏信号还原图像中文本信息的方法.针对电磁泄漏信号还原文字“横”缺失的特点,设计了阈值投影分割法和模板匹配法,建立了部分汉字的模板库,通过实验验证,该方法识别正确率可达91.1%,在图像质量失真不严重情况下识别正确率在80%以上,证明了该方法的可行性和有效性,后续将对识别算法进行优化,利用上下文关系,对“横”笔画为主要结构的字符进行有效识别.

[1]Kuhn M G. Compromising emanations eavesdropping risks of computer displays, UCAM-CL-TR-577[R]. Cambridgeshire: United Kingdom, University of Cambridge, Wolfson College, 2003

[2]Kuhn M G, Anderson R J. Soft tempest: Hidden data transmission using electromagnetic emanations[G]LNCS 1525. Berlin: Springer, 1998: 124-142

[3]Tosaka T, Taira K, Yamanaka Y, et al. Feasibility study for reconstruction of information from near field observations of the magnetic field of a laser printer[COL]Proc of the 17th Int Zurich Symp on EMC. 2006: 630-633 [2014-04-20]. http:ieeexplore.ieee.orgxplarticleDetails.jsp?arnumber= 1629703&newsearch=true&queryText=Feasibility%20study%20for%20reconstruction%20of%20information%20from%20near%20field%20observations%20of%20the%20magnetic%20fie

[4]Zhang Hongxin, Lü Yinghua, Qiu Yuchun, et al. Study of threshold effects of information leakage arising from computer[J]. Journal of China Institute of Communications, 2003, 25(10): 88-92

[5]杨文翰. 实用化的计算机辐射信息截获技术研究[D]. 北京: 北京邮电大学, 2011

[6]熊伟, 吕英华. 视频红信号频谱识别中波峰搜索算法研究[J]. 软件, 2012, 33(11): 190-193

[7]徐艳云, 张萌. 从“棱镜门”事件看电磁信息安全[J]. 保密科学技术, 2013 (7): 19-21

[8]梁涌. 印刷体汉字识别系统的研究与实现[D]. 西安: 西北工业大学, 2006

[9]Sahoo P K, Soltani S, Wong A C K, et al. A survey of thresholding techniques[J]. Computer Vision Graphics and Image Processing, 1988, 41(2): 233-260

[10]Otsu N A. A thresholding selection method from gray-scale histogram[J]. IEEE Trans on System, Man, and Cybernetics, 1979, 9(1): 62-66

[11]李俊. 印刷体文字识别系统的研究与实现[D]. 成都: 电子科技大学, 2011

徐艳云

高级工程师,主要研究方向为电磁信息安全、信号处理、信息特征提取和检测.

xuyanyun@iie.ac.cn

郭 佳

博士研究生,主要研究方向为信号处理、模式识别.

m13581902161@163.com

李怡伟

硕士研究生,主要研究方向为电磁检测与防护、图像处理.

liyiwei@iie.ac.cn

孙德刚

硕士,正研级高级工程师,博士生导师,主要研究方向为高安全等级系统防护技术、电磁泄漏与发射技术、无线通信安全.

sundegang@iie.ac.cn

Research on Character Recognition of Reconstructed Image from Electromagnetic Emanation of Information Equipment

Xu Yanyun1, Guo Jia2, Li Yiwei1,3, and Sun Degang1

1(InstituteofInformationEngineering,ChineseAcademyofSciences,Beijing100093)2(NationalSecrecyScienceandTechnologyEvaluationCenter,Beijing100044)3(UniversityofChineseAcademyofSciences,Beijing100049)

The information leakage caused by electromagnetic emanation of information equipment is a great hidden danger in information security. With information equipment widely used, the technology of information reconstruction from electromagnetic emanation of information equipment has been paid widespread attention. However, the Automatic recognition technology of reconstructing text in the information equipment has not aroused people’s attention. Artificial recognition method of reconstructing the text is time-consuming, and images are not facilitate to save and realize automatic retrieval. So it is unable to find useful information quickly. This paper proposes an automatic character recognition method based on template matching to fit the "horizontal" lack property of reconstructed image from electromagnetic emanation of computer video. Experiments show that this method is suitable for the characteristics of the electromagnetic leakage text information, which can automatically and quickly identify the text information of the electromagnetic leakage reduction image.

electromagnetic emanation; reconstructed image; character recognition; threshold projection; template matching

2016-01-08

中国科学院信息工程研究所“优秀青年人才”专项基金项目(1104008004)

TN918

猜你喜欢
字符投影电磁
瞬变电磁法在煤矿采空区探测中的应用
解变分不等式的一种二次投影算法
基于最大相关熵的簇稀疏仿射投影算法
字符代表几
一种USB接口字符液晶控制器设计
图片轻松变身ASCⅡ艺术画
三维多孔电磁复合支架构建与理化表征
找投影
找投影
HBM电子称与西门子S7-200系列PLC自由口通讯