兰 宇,刘文斌,2,寇云峰,2,丁建锋,2,王梦寒,陈永祥
(1.成都新欣神风电子科技有限公司,四川 成都 611731;2.中国电子科技网络信息安全有限公司,四川 成都 610041)
图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。近年来,伴随着图像处理技术的飞速发展,图像识别技术被广泛应用在各个领域,并发挥越来越重要的作用[1]。例如,较常见的应用领域包括导航、地图与地形配准、自然资源分析、天气预报、环境监测、交通标志与车牌读写、指纹及人脸识别以及生理病变研究等。
图像识别建立在信息技术基础上,主要是借助计算机替代人工快捷地处理各种信息[2]。而在人工智能应用的各个领域,图像识别技术相对较晚,主要是因为其开发难度较大,不像语言具有固定的语义、语法,也没有具体的界定,且涉猎因素众多,各个层面都有参与。
敏感场所、关键部位具有迫切的信息安全监测与防护需求。除了通过声、光、电磁信号分析等手段可达到对特定环境的安全监测[3],针对外来电子设备,一个更简单有效的方法是对办公环境进行光学图像信号采集与识别,判断是否有未授权设备进入目标办公场所或特殊环境。在图像识别这个领域中,卷积神经网络(Convolutional Neural Network,CNN)是目前受到学者普遍关注的方法之一。因为图像在不做太多前期处理的情况下可以直接作为网络的输入[4],是卷积神经网络的一大优势。
基于卷积神经网络进行深度学习和物体识别主要分为两种应用:一种应用是对电子设备的判别与分类,着重于“分类”,分类结果通过文本形式呈现结果;另一种应用是对电子设备的识别与定位,侧重于“定位”,在识别后将框选出图像中的电子设备。
论文分别以Inception和Faster-RCNN网络模型为例,对分类和定位两种应用的实现方法进行介绍,并面向办公场景,以键盘和鼠标为对象,实现了典型电子设备的识别验证。
自2012年AlexNet取得历史突破以来,主流的网络结构突破大致是增加网络层数。虽然这样可以起到一定效果,但单纯增大网络存在较多缺点。例如,参数太多易过拟合;网络越大,计算复杂度越大,难以应用;网络越深,越易梯度弥散,难以优化模型。这时Inception网络结构应运而生,其对传统神经网络进行优化,提高了深度神经网络性能。
Inception构 建 1×1、3×3、5×5的 卷 积 运算和3×3池化分支网络,同时使用多层感知器和全局平均池化,扩宽卷积层网络宽度,增加了网络对尺度的适应性[5];提出了批标准化(Batch Normalization),其正则化的效果使大型卷积网络的训练速度加快很多倍,同时收敛后的分类准确率大幅提高;引入了卷积分解法(Factorization),将一个较大的二维卷积拆成两个较小的一维卷积,如将3×3卷积拆成1×3卷积和3×1卷积,一方面节约了大量参数,加速运算并减轻了过拟合,另一方面增加了一层非线性扩展模型表达能力。Inception网络是卷积神经网络分类器发展史上的一个重要里程碑。
基于Inception网络的分类应用,首先需要进行有监督学习。以电子设备识别为例,即需要根据特定环境实际需求对电子设备图片进行深度学习,以形成样本模型。其次,应用时比对要识别的电子设备与训练模型,实现分类判断。分类结果实时输出并保存,如果有未授权的非法电子设备,则对其记录并报警。
有监督学习,首先需要将各电子设备样本图片进行人工分类,随后神经网络对各类图片进行训练。训练需达到对式(1)目标函数的最小化误差,即使损失函数Loss收敛。为了使Loss收敛得到识别准确率高的模型,式(1)中L(yi,f(xi;ω))的值需要尽可能小。
该类应用对视频和图片均可进行识别,此处以最常见的鼠标键盘为例,设置不同的两类电子设备。深度学习后,输入如图1(a)、图1(b)所示键盘图片,判别为键盘的概率为100%和99.996%,如表1所示;输入如图1(c)、图1(d)所示鼠标图片,判别为鼠标的概率分别为99.995%和99.943%,如表1所示。使用视频功能,则可以对摄像头监控范围内的鼠标键盘进行实时判断。
图1 分类测试对象
表1 分类测试结果
以目标检测模型Faster R-CNN为例,验证非法电子设备的定位应用。它的主要功能是在视频帧或图片中实时识别目标电子设备,并框选出该设备位置。
Faster R-CNN是基于候选区域(Region Proposal)的深度学习目标检测算法,生成建议框仅需约10 ms,实现了端到端的目标检测框架。其自2015年底问世后,虽然又逐步问世了R-FCN、Mask R-CNN等改进框架,但基本结构变化不大,同时业内不乏有SSD、YOLO等在检测速度上有相对优势的新作。但是,综合考虑到检测速度及准确率,Faster R-CNN的表现仍是目前最优秀的。
结合文献[6]中对Faster R-CNN的描述,该网络可主要分为4部分。
(1)卷积层(Convolutional Layers):用于提取图片特征,输入为整张图片,输出为提取的特征。
(2)RPN网 络(Region Proposal Network):用于推荐候选区域,输入为图片,输出为多个候选区域;
(3)特征图框池(Region of Interest Pooling):将不同大小的输入转换为固定长度的输出;
(4)分类和回归(Classification and Regression):这一层的输出是最终目的,输出候选区域所属的类和候选区域在图像中的精确位置。
定位应用同样需要在使用前进行有监督学习。与分类应用不同,定位应用需要对大量目标电子设备的图片进行标注,通过标注告诉计算机目标电子设备名称和外形模样。标注后进行深度学习,形成样本模型。当运行应用时会实时判断摄像头或监控设备的画面,并标记输出目标电子设备的位置。如果发现非法设备,则进行记录并报警。
在使用该类应用时,要对所识别的目标物体类别样本进行标注。标注有两种主要方法,可分别生成XML文件和JSON文件,且各有优缺点。
第一种方法为XML格式标注。XML全称为Extensible Markup Language,即扩展标记语言,通常用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言[7]。XML使用文档类型定义(Document Type Definition,DTD)组织数据;格式统一,跨平台和语言,早已成为业界公认的标准。它的优点在于:格式统一,符合标准;易与其他系统进行远程交互,数据共享比较方便。缺点也显而易见,即XML文件庞大,文件格式复杂。图2为使用Labellmg软件标注电子设备鼠标用来生成XML格式文件的演示。
图2 使用Labellmg软件标注电子设备鼠标
第二种方法为JSON格式标注。JSON全称为JavaScript Object Notation,是一种轻量级的数据交换格式,具有良好的可读性和便于快速编写的特性,可在不同平台之间进行数据交换[8]。JSON采用兼容性很高、完全独立于语言文本的格式,同时也具备类似于C语言的习惯,使JSON成为理想的数据交换语言。但是,JSON通用性不如XML,且标注相对较费时间。图3为使用Labelme软件标注电子设备鼠标,用来生成JSON格式文件的演示。
图3 使用Labelme软件标注电子设备鼠标
在综合比较以上两种标注方法后,本文在标注过程中选取使用第一种方法,即通过Labellmg软件对电子设备目标样本进行标注,并生成XML格式文件。
对目标电子设备的已标注样本进行训练后,可对场景内该类别的电子进行实时识别及定位。
Faster R-CNN对于图像中物体进行目标定位及识别,其函数定义为[9]:
其中,pi为预测成目标概率;ti、ti*表示坐标向量;Lcls(pi,pi*)是目标与非目标对数损失;Lreg(ti,ti*);分类和回归层的输出分别由{pi}、{ui}组成。
为了提高识别准确率,损失函数Loss需尽可能收敛,表示式为:
最终,Faster R-CNN函数优化目标表达式为:
利用梯度下降法或者最小二乘法可以得到w*。
该类应用在运行时可以实时分析摄像头或监控采集的画面,判断是否存在非法电子设备。如果存在,则在监控画面实时框选出目标设备,并显示设备类别和判别概率。以某型鼠标键盘为例,如图4所示,当目标出现在监控摄像头范围内,则框选出键盘并显示其识别概率为99%;框选出鼠标并显示其识别概率为99%。
图4 对鼠标键盘的定位应用结果
与分类应用相比,定位应用可以同时对多目标识别,而分类应用则主要针对单一目标的分类。
从上述方法可以看出,电子设备的识别应用一般分为3步:
(1)针对特定场景或特殊办公环境,先将禁止带入的电子设备如无线鼠标、键盘、手机、相机等进行样本采集,并构建样本库,通过深度学习训练固化识别模型。
(2)实际工作中,使用监控设备对场景进行图像采集,然后实时分析采集的数据并输出结果。
(3)如果在该区域发现非法设备,则通过声、光等手段进行警示,并将非法行为记录并反馈至相关管理部门,或通过启动加扰、断电等防护功能实现实时防护。
当前信息安全、物理安全领域对设备识别特别是非法电子设备识别有大量需求。例如,某些敏感场所禁止拍摄,则可将手机、摄像机等摄录设备设置为未授权设备。如果监控中出现此类设备,则会实时向工作人员做出警示。
对于分类应用,它适用于背景单一的物体识别,应用侧重于图片识别。定位应用本质上是目标框选与分类的结合,适用于要锁定非法设备目标并跟踪其行为轨迹的场景,如考试环境、敏感业务部门等。
分类和定位两种应用,本质上是对光学信号进行深度学习,并实时采集光学信号进行识别。但是,这类用于成像的信号一般是电子设备表面发射的光信号,而电磁等物理信号是电子设备内部工作时发射的信号,经过转化同样可以基于瀑布图、频谱图等图片形式呈现,并挖掘出更多的特征用于识别目标对象。实际应用中采集并结合光学、电磁以及声学、热学信号进行综合判别,可以更准确地识别目标。
本文分析并验证了基于深度学习对电子设备智能识别的分类和定位两种典型应用。其中,分类应用可以判断图片中的设备是否为非法电子设备;定位应用可以准确识别场景内是否存在非法电子设备,且可以准确定位该电子设备位置。在后续研究中,将深入优化神经网络模型,并研究输入图像预处理及识别后处理,同时通过丰富样本库、优化硬件平台等手段来提高对非法电子设备识别的反应速度和准确率。