一种基于卷积神经网络的违禁品探测系统及部署方法

2020-08-16 13:53王宇石王晓侃

科技创新与应用 2020年23期

王宇石　王晓侃

摘要：文章设计了一种X射线安检图像的违禁品自动识别系统。以经典的ResNet卷积神经网络为特征提取骨干网络，使用特征金字塔网络进行违禁品目标探测;把图像分成笔记本区域和非笔记本区域，分别用不同的网络模型进行探测，取得了出色的探测效果。并使用网络服务器的模式部署上述算法探测系统，使得产生图像的安检机系统与算法服务器既保持彼此独立又能进行稳定、实时的通讯，完成探测。

关键词：X射线;安检图像;违禁品;卷积神经网络

中图分类号：O434.1 文献标志码：A 文章编号：2095-2945（2020）23-0136-03

Abstract. This paper proposes a contraband detection system for X-ray security inspection machines. Based on the classic ResNet convolutional neural networks as backbone networks， we detect contrabands with Feature Pyramid Networks. A better performance is achieved by segmenting an image as notebook area and no-notebook area which are processed separately with different detection models. And the models are deployed in a network server connected with the X-ray security inspection machine which sends X-ray images to the server. Both sides communicate with each other stably in a real time.

Keywords： X-ray; security inspection image; contraband; convolutional neural networks

1 概述

自2014年以來，卷积神经网络（Convolutional Neural Networks， CNN）已经成为了计算机视觉领域的主流技术，在各个方面都取得性能突破，特别是图像识别领域已经臻于成熟[1-2]。呈现的总体趋势是网络深度不断加深、卷积也以小型化（1×1/3×3）模板为主[3-4]。

在基于X射线的安全检查领域（以下简称“安检”），同样可以通过迁移学习的方式，实现对安检图像中特定目标的识别。安检图像的基本原理是利用多能的X射线透射被检查物品，形成同一穿透位置的多能量X射线的衰减效应，归一化成多个灰度值，再基于安检判读需求进行着色处理形成RGB三基色值。通常有机物成像为桔红色，无机物或金属成像为蓝色，介于两者之间的混合物（有机物/无机物的叠加、或类似玻璃、含盐液体、电路板等）则为绿色（如图1（a））。这样整个被检查物品就根据其各部位的材质及厚度形成了伪彩色图像。在本文中，作者基于伪彩色的安检图像，进行违禁品的识别。

违禁品的识别目标定为对公共安全威胁较为直接的枪支、刀具、其他杀伤性器具（例如斧子、锯、甩棍、弹弓等）。此外由于地铁、民航领域对于液体也有一定的禁、限要求，所以各类液体也被设为违禁品目标，其中压力罐是所有安检领域都重点关注的对象，因其具有高压下爆炸、易燃的危险。针对安检图像的违禁品目标识别，已经有研究者基于卷积神经网络展开了相关工作[5-6]，但采用的是层数较少的网络，例如AlexNet[1]。

本文包含两方面的内容，一方面是目标识别算法，另一方面是系统部署方案。前者是基于CNN提取区域特征并最终判定区域的目标类别，在实施中分笔记本区域和非笔记本区域分别处理;后者则实现的是安检机与算法服务器之间的关联;两者将分别在本文的第2、第3节进行介绍。

2 基于卷积神经网络的违禁品识别

本文的系统中使用了经典的Faster架构[7]进行了违禁品目标识别，2.1节介绍基本的目标识别算法，2.2节利用基本的目标识别算法分别处理非笔记本区域和笔记本区域。

2.1 基于FPN的违禁品目标识别算法

Faster架构系列方法的核心思想是两阶段探测：第一阶段找到疑似目标区域，第二阶段针对这些区域进行进一步的区域细化和目标分类，两者使用同样的特征提取骨干神经网络。该系列方法的经典方法是Feature Pyramid Networks（FPN）[8]，该方法除了继承Faster系列的基本框架，在多尺度特征融合方面又更进一步。

在经典的骨干神经网络中，网络结构是按照尺度进行组织的——在某一尺度下，进行一系列卷积神经网络层的叠加，然后进行下采样（通常是2倍），在更高尺度上进行类似的卷积神经网络的叠加。

FPN的总体逻辑架构类似一个金字塔（图2）。在L1～L4每一级金字塔的顶端，产生本尺度的骨干特征图;从低尺度（例如L1）向高一级尺度的过度过程中，发生了下采样;基于各层的骨干特征图，形成本层的最终特征图（Fi，i=1～4），Fi通常由本层的骨干特征图连同上一层的Fi+1融合形成，并且F1～F4具有相同的特征维度数（例如256，即Fi特征图的每一位置有256维特征）。此种方案融合各个尺度的特征，彼此参考、呼应。

以ResNet为例，在Li层金字塔中，由Ni个同构的ResNet模块串接组成。在每个ResNet模块中，都由1x1卷积、3×3卷积、1×1卷积连续3层神经网络组成，并通过Residual结构[2]，将本模块的输入图层和第二个1×1卷积输出图层合并形成本ResNet模块的最终输出。

在每个Fi特征图层中都会按照Faster的架构，在各抽样性的锚点位置先用回归的方式形成物体区域（即“区域建议”网络），能够产生对应尺度物体的初步预测（物体四角的图像位置）。再基于Fi中物体四角范围内的所有位置的特征进行特征浓缩，所得特征输入到最终的识别网络，形成目标类物体的准确四角位置及其类别判定结果。以上两个阶段即为典型的Faster架构——将物体搜索和物体识别分两个阶段完成，总体效果更为精准。

2.2 针对笔记本区域的违禁品目标识别

笔记本区域是安检图像中目标检测的难点，因该区域不仅密布各种电子部件、颜色浓重具有强干扰性，而且面积较大，导致违禁品目标更加难以识别。本文对此采取的办法是为笔记本的图像区域建立一个单独的FPN识别模型，用于识别掩藏在笔记本下面或附着在笔记本附近的违禁品目标。具体识别流程如图3所示。换句话说，将笔记本区域作为一个特殊的任务，建立一套适应其特点的识别网络。这就如同不能用普通图像的识别模型去直接用于X射线安检图像一样，针对安检图像常规区域的识别模型，也会不适用于笔记本区域。

在用标准模型FPN0进行识别过程中，笔记本区域和其余的违禁品（例如刀、枪）一样被当做一种识别目标。如果一个图像中识别到存在笔记本区域，该区域会被提取出来作为一个图像（如图1（b））再输入到FPN-Nb模型（笔记本区域探测）中进行探测。得到的探测结果与FPN0的识别结果需要进行融合、归并，因为在笔记本区域边界处的违禁品目标，可能存在两个模型双重的探测结果，特别是在提取笔记本图像时对其四周进行了适当扩张，以免体积大的违禁品不能被较为完整地一同提取。

为训练识别CNN模型，采集了10万张训练图像。但其中并未包含笔记本区域。为此我们在不包含违禁品的背景包裹图像中，以随机选择的姿态注入了另行采集的笔记本图像，又形成2万张图像用于训练FPN0。注入方法就是传统的Threat Image Projection方法[9]，该方法概况为如下公式：

其中I0表示X射线的初始能量，A1表示背景图像中某像素对应射线所经历的能量衰减，A2表示笔记本图像中某像素对应射线所经历的能量衰减，最终得到注入笔记本之后的合成的X射线的能量值ITIP。由于现代X射线安检机都使用双能量伪彩色图像，所以同一像素存在两个能量对应的ITIP，并据此形成新的笔记本区域伪彩色图像。而在训练FPN-Nb时，对10万张采集的训练图像用同样的方法随机注入了笔记本区域，同样形成了10万张训练图像。

如果两种区域同时兼顾训练一个模型，并不会得到最佳的性能，主要的问题是如何平衡笔记本区域在训练集中所占比重。如果笔记本占比较低（遵循实际应用场景的统计比例），则无法形成突出的笔记本区域识别能力;反之笔记本区域占比提到足够高的水平时，又会降低常规区域的识别能力。所以按不同模型分别识别，就可以规避这个问题。由于安检图像的识别不具有高实时性的要求（安检设备产生图像的频率每秒小于1幅），且安全重于效率，所以在1个GPU显卡上采用双模型探测完全能满足现场要求。

3 基于事件機制的算法服务器调用

在实现算法的同时，本文将算法工作站同安检机进行了对接，实现了安检设备的实时违禁品探测。由于深度学习领域普遍采用的是基于Linux操作系统的软件、算法平台，而传统安检机通常采用基于Windows的软件系统，两者的兼容是一个问题。一个比较直接的解决方式就是利用网络通讯的方式来实现两者的对接，即深度学习算法使用1个Linux平台进行计算服务，而从Windows系统（安检机软件）获得安检图像、再返回探测结果。

在通讯机制的实现过程中，两种平台基于socket协议进行消息传递。将消息的传递和处理视为事件，实现一种基于事件循环的异步IO机制。所谓事件循环，是指当一个事件A的处理陷入停顿、等待，就可以把CPU的使用权交给别的事件，当A的处理获得条件就会继续进行。

通过指定Windows系统和Linux系统的IP地址和端口，建立一个可读写的IO消息流。对于流两端的系统来说，如果没有消息来，就进行等待;如果对方有消息发来，就触发对应的消息处理函数执行规定操作。消息的种类可以包括：握手、探测模型初始化、图像传送、结果返回等。

具体的硬件配置是任意支持上述工作模式的平台均可，在本文中采取的是常规的GPU显卡算法服务器，操作系统是Ubuntu（Liunx的一种）。

4 实验结果

为了证明双模型（非笔记本区域和笔记本区域）探测性能的优势，本文在上述10万张训练图像的基础上，使用基于ResNet-101[2]的FPN模型，进行模型训练。

安检图像并非常规图像，其内容的单一化、识别的难度都超过普通可见光图像。换句话说，辨识安检图像所需的视觉能力超过了常人（安检员都经过特殊的训练）。在测试集上的实验结果（表1）也证明，使用的模型复杂度高，会带来探测性能的改进。在表1中的性能栏中，左侧数字为查全率（%），右侧数字为探测准确率（%）;其中R50表示使用50层的ResNet，R101表示使用101层的ResNet，“+”号两边分别表示图3的PFN0和FPN-Nb所用的CNN特征提取模型。

同时还对比了将笔记本区域图像和普通训练图像混合训练的效果（表1中无加号的“R101”），结果显示对于两种图像的探测能力都有一定程度的损害，有必要分两个任务分别进行探测。

在未来的工作中，如何简化目前的高复杂度模型，以及如何融合两种区域的探测模型，是需要进一步研究的优化方向。

参考文献：

[1]Krizhevsky A.， Sutskever I.， Hinton G.. ImageNet Classification with Deep Convolutional Neural Networks[J]. NIPS，2012：1097-1105.

[2]He K.， Zhang X.， Ren S.， et al. Deep Residual Learning for Image Recognition[C]// The IEEE Conference on Computer Vision and Pattern Recognition （CVPR），2016：770-778.

[3]Szegedy C.， Liu W.， Jia Y.， et al. Going Deeper With Convolutions[C]// The IEEE Conference on Computer Vision and Pattern Recognition （CVPR），2015：1-9.

[4]Xie S.， Girshick R.， Dollar P.， et al. Aggregated Residual Transformations for Deep Neural Networks[C]// The IEEE Conference on Computer Vision and Pattern Recognition（CVPR），2017.

[5]Jaccard N.， Rogers T. W.， Morton E. J.， Griffin L. D.. Automated Detection of Smuggled High-risk Security Threats Using Deep Learning[C]// 7th International Conference on Imaging for Crime Detection and Prevention （ICDP），2016.

[6]Akcay S.， Kundegorski M. E.， Devereux M.， et al. Transfer Learning Using Convolutional Neural Networks for Object Classification within X-ray Baggage Security Imagery[C]// The IEEE International Conference on Image Processing （ICIP）， 2016.

[7]Ren S.， He K.， Girshick R.， et al. Faster R-CNN： Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2015，39（6）：1137-1149.

[8]Lin T.， Dollar P.， Girshick R.， et al. Feature Pyramid Networks for Object Detection[C]// The IEEE Conference on Computer Vision and Pattern Recognition （CVPR），2017：2117-2125.

[9]毛宇.安檢机中危险品图像注入问题的研究[D].东南大学，2016.16-17.