赵天乐,李萍
(上海理工大学 光电信息与计算机工程学院,上海 200093)
近年来毫米波技术已被应用于人体安检成像系统,有逐步取代传统安检技术的趋势。毫米波辐射属于非电离辐射,对人体无害,且具有穿透衣物的能力,因此可以应用于人体成像,检测隐藏在衣服里面的违禁物体。毫米波成像雷达和成像算法已经成熟,并且已经实现商用[1-3]。但针对毫米波图像的违禁物体定位仍然是一个亟待解决的问题。鉴于毫米波硬件的不稳定性,毫米波图像往往存在较大的本底噪声,物体的纹理非常模糊。而违禁物品种类繁多,各物体纹理复杂,难以提取有效的特征。这使得毫米图像的物体定位成为一项艰巨的任务。
卷积神经网络(convolutional neural network,CNN)是一种强大的特征提取方法[4],并且在许多计算机视觉任务中达到了最好的性能[5-7],使用CNN,ImageNet 数据集中的分类错误率在2012 年降低到了15.3%[8],压倒了基于传统手工特征提取方法,如SIFT(Scale Invariant Feature Transform)和LBP(Lo-cal Binary Pattern)方法。2015 年,ImageNet 数据集的识别误差通过CNN 降低到了3.57%[9]。2016 年,Faster R-CNN[6]使用区域提议网络(region proposal network,RPN)代替选择性搜索,使得对整个目标检测框架进行端到端训练成为可能,这进一步提升了网络的检测精度及检测速度,达到了当时的先进水平。2021 年,Bochkovskiy 等提出的YOLOv4在保持实时检测速度的同时更大幅度提升了检测精度,成为工业界主流的目标检测框架之一[10]。2021 年,Duan等提出CenterNet[11],首先通过一对角点预测边界框,然后再通过预测边界框中心点的概率去除简单负样本,在MS COCO 数据集上取得了显著的性能提升。2019 年,Shi 等提出PV R-CNN[12],将三维体素CNN 和基于PointNet的集合抽象进行了深度集成,实现了先进的检测性能。由于CNN 优异的特征提取能力,姚家雄等采用CNN 对毫米图像进行物体定位并在实验中达到93.18%的定位准确率,验证了这种方法的有效性[13]。
近年来,针对如何提高远场合成孔径雷达图像目标检测准确度取得了许多成果,如薛远亮等[14]通过融合注意力机制方法有效地提高了准确率。梅妍玭等[15]通过进行多尺度子空间融合谱聚类而有效地增强了输入特征。然而公开文献中目前很少有人针对不同数据预处理方式对近场毫米波合成孔径雷达全息图像检测定位精度的影响这一问题进行探讨。本文针对毫米波图像隐匿物品检测准确度问题,基于Faster-RCNN目标检测网络,使用不同数据预处理方式探究预处理方式对毫米波全息图像目标检测准确度的影响。先使用针对距离维的空间滤波方式探究该预处理方式对毫米波全息图像目标检测准确度的影响,而后在此基础上对幅度维使用基于Calinski-Harabasz(CH)准则引导的K-Means 的最大/最小值聚类的预处理方式探究该预处理方式对毫米波图像目标检测准确度的影响。实验针对4 类数据集:未处理的原始毫米波全息图像、经过空间滤波的毫米波全息图像、经过空间滤波和最小值聚类的毫米波全息图像及经过空间滤波和最大值聚类的毫米波全息图像,分别在Faster-RCNN 网络上进行目标定位实验。结果表明,与未进行任何预处理的数据对比,进行过预处理的数据均能有效地提高毫米波全息图像目标检测的准确度,其中效果最佳的预处理方式为空间滤波,其与未进行任何预处理方式的数据对比能提高近4%的准确度。
Faster-RCNN 模型在光学图像的二维目标检测任务上取得了先进性能,本文参考Faster-RCNN 模型设计毫米波全息图像目标检测系统,系统框架如图1 所示。对于给定的毫米波全息图像,经过预处理模块后,输出给Faster-RCNN网络进行目标定位,其中网络主要包含特征提取模块、区域候选网络(region proposal network,RPN)、RoIHead 3 个模块,最终在其二维正视图上输出物品的边界框、分类标签及置信度。
图1 毫米波全息图像目标检测系统框架Fig.1 Framework of millimeter wave hologram target detection system
基于空间滤波的预处理方法是一种基于像素点距离信息的滤波方法,也是一种重要的图像处理的技术,对于本文的毫米波全息三维成像结果而言,仅仅只是对毫米波全息三维成像结果中的某一部分感兴趣,这一部分称为前景图像,其余的部分称为背景图像。为了更好地识别和分析毫米波全息三维成像中感兴趣的目标,需要将这些前景图像从图像中提取出来。
本文所使用的基于空间滤波的方法,是依据成像图像三维空间对距离维位置设立阈值,以利用阈值化处理的非线性计算来祛除图像中由于不同距离维带来的噪声,从而得到更好的前景图像。本文在此处所使用的滤波方式为基于距离维的空间阈值的预处理方式,其对应的数学表达式为
式中:g(z)表示三维成像结果像素点的距离信息;z表示三维空间中像素点的实际距离;z0表示基于距离维设置的空间阈值,此阈值的设立主要是由于在实验数据集的制备中模特位置是固定的,因此可以设立固定的阈值。基于空间滤波的预处理方法后提取到的毫米波全息图像的前景图像及对应的灰度直方图如图2 所示,由灰度直方图可以看到,经过空间滤波之后,图像的数据分布集中在了低灰度级区域,而由于空间滤波的预处理方法能将特征信息的分布集中起来,因而其能在一定程度上提升目标检测器的特征提取能力,能更好的做好机器学习中的特征工程工作,因此也将会影响到最终的目标检测结果。
图2 前景图像与对应的灰度直方图Fig.2 Foreground image with corresponding gray histogram
K-Means 聚类算法是一种最流行、最简单的聚类算法,它通过计算分割均值[16],根据数据的特征自适应有效地分割数据。K-Means 能自适应地找到每个全局分区的阈值,从而有效地为我们提供了成像图像能量分层的指导。K-Means 的核心思想是:1)选择簇数量k作为初始簇中心;2)计算所有观测到每个质心的点到簇到质心的距离;3)将每个观测值分配给具有最近质心的簇;4)计算每个聚类中观测值的平均值,更新每个聚类的质心;5)重复步骤2 到步骤4,直到簇质心不变。由于传统K-Means 算法的簇数k是人为设置的参数,本文使用了Calinski-Harabasz(CH)准则引导的K-Means 算法。其中CH 准则被用来计算聚类得分,并用这个得分来判断簇数k设置是否合理。CH 准则认为簇间方差越大,簇内方差越小,则数据分区越好。
点云是一种非结构化、无序的、稀疏的三维数据表示形式。简单地说,点云就是空间中一组点的集合,每个点由其XYZ坐标及其他特征(如颜色、法向量、反射强度等)表示。因此,本文在此处将原始的AMMW 数据由原有的三维体数据转换到点云数据进行处理。然后基于CH 准则引导的K-Means 聚类的方法,依据各点的空间位置及反射强度特征对点云进行聚类,进一步去除阈值处理后的前景图像中残留的噪声,完整的去噪流程如图3 所示。对于给定的原始 AMMW全息图像,首先通过式(1)的空间滤波的预处理方式提取前景图像保存为点云,再通过 KMeans 聚类进一步去除噪声,由于本文使用反射强度作为迭代计算标准,而目标物与人体连接在一起,因此在识别过程中感兴趣的目标物信息较多地分布在最大类以及中间类的簇,最后通过统计滤波保留对应最大类或去除对应最小类,便可得到对应的空间滤波加最大/最小值聚类前景图像,实际效果图如图4 所示。由图4(d)与图4(e)可知,在经过空间滤波加最小值滤波后灰度级分布更集中在低灰度级区域,但同时灰度级分布概率也大大降低。由图4(d)与图4(f)可知,在经过空间滤波加最大值滤波后灰度级分布同样更集中在低灰度级区域,但其集中程度不如空间滤波加最小值滤波方式,由于空间滤波加最大值滤波方式比空间滤波加最小值滤波方式更易造成特征信息分布的不集中,这将会影响到目标检测器对特征提取的能力,从而影响最终的检测结果。
图3 基于空间滤波加CH 引导的K-Means 聚类的 AMMW 全息图像预处理方法Fig.3 AMMW holographic image preprocessing method based on spatial filtering and CH-Guided K-Means clustering
图4 前景图像与对应的灰度直方图Fig.4 Foreground image with corresponding gray histogram
Faster-RCNN 架构主要分为3 部分:特征提取模块、RPN、RoIHead,图片先输入特征提取模块进行特征提取,而后利用RPN(Region Proposal Network)提供候选区域rois(region of interests),最后将得到的rois 与特征提取模块提取到的图像特征,输入到RoIHead中,对这些rois 进行分类,以判断这些rois 均属于什么类别,同时对这些rois 的位置进行微调。
特征提取模块主要使用VGG 网络[17]搭建特征提取模块,特征提取模块主要由5 个卷积层构成,如图5 所示。在每个卷积层之后,有一个修正线性单元(rectified linear unit,ReLU)。而VGG最后的三层全连接层是用来初始化后续的RoIHead模块的部分参数。
图5 特征提取模块结构Fig.5 The structure of our proposed feature extractor
RPN 是Faster-RCNN 最重要的改进,RPN主要是利用提取到的特征经RPN 后提供候选区域,最后将得到的rois 与特征提取模块提取到的图像特征输入到RoIHead中以做进一步的分类与位置回归,而由于RPN为全卷积网络,因此对输入的尺寸没有具体要求。
Faster-RCNN中的RoIHead 部分是利用RoI Pooling 层进行统一下采样以使能在最后的特征图中共享权重,经两层全连接层进行特征提取之后,再经由一层全连接层预测rois 类别,另一全连接层对位置进行回归以得到更为准确的位置坐标。
实验建立了数据集以验证方法的有效性。为了模拟实际的场景,本文准备了7 件物品,包括枪、老虎钳、扳手、尖嘴钳、锤子、小车、陶瓷刀,实物图如图6 所示。模特选择一个或者多个物品置于身体几个部位,经3 mm 的毫米波全息成像系统扫描重建其全息图像,本数据集共包含4 位模特,涵盖了不同的体型。全息图像沿着距离维方向投影得到二维正视图,用于标注物体边界框与类别。实验采集了2 200 张图像验证空间滤波、基于K-Means 的最大聚类、基于KMeans 的最小聚类的不同预处理方式对毫米波图像目标准确率的影响。
图6 目标物Fig.6 Target
为了训练本文所使用的网络,随机选取2 000张的图像作为训练样本,另外200 张图像作为测试样本,网络训练时数据批的大小设置为1,初始学习率设置为0.000 1。总共训练了40 个迭代周期,这时网络收敛到最小值。
本文总共用了200 张图像来验证不同数据预处理方式对毫米波图像目标定位精度的影响。图7 展示了不同预处理方式下检测器的输出结果图,图中物体的放置姿态或者位置有所不同,但均能实现一种准确的定位。图7(a)为未经过任何预处理方式的目标检测结果图,图7(b)为使用空间滤波加最小值聚类预处理方式的目标检测结果图,图7(c)为使用空间滤波加最大值聚类预处理方式的目标检测结果图,图7(d)为使用空间滤波预处理方式的目标检测结果图。
图7 检测结果Fig.7 Detection results
表1为无预处理和3 种预处理方法的检测性能对比,图8为无预处理和3 种预处理方法的检出率-召回率(P-R)曲线。由表1 和图8(a)不经任何预处理的P-R 曲线,可以看到,不使用任何预处理方式的目标检测准确率为88.82%;由表1和图8(b)使用空间滤波加最小值聚类方式的PR 曲线,可以看到使用空间滤波加最小值聚类方式的目标检测准确率为90.44%,相较于不使用任何预处理方式有效的提高了准确度;由表1 和图8(c)不经任何预处理的P-R 曲线,可以看到使用空间滤波加最大值聚类方式的目标检测准确率为90.80%,同样相较于不使用任何预处理方式有效的提高了准确度;由表1 和图8(d)为经空间滤波的P-R 曲线,可以看到使用空间滤波的准确率为92.30%,相较于其他预处理方式有更好的准确度。无论使用哪种预处理方式都能一定程度上提升网络的定位精度,但是使用了基于强度的最大与最小值聚类的预处理方式其目标检测的准确率要低于使用空间滤波的预处理方式。
图8 检出率 -召回率曲线Fig.8 Precision -recall curve
表1 检测准确率Tab.1 Detection accuracy
Loss 曲线用于判断网络训练过程的情况。为确定网络训练情况是否良好,本文绘制了Loss 关于迭代次数变化的曲线,如图9 所示。当设置系统的置信度阈值取0.5 时,数据批的大小设置为1,初始学习率设置为0.000 1。图9(a)为不经任何预处理的Loss 曲线其在验证集上正常收敛,图9(b)为经空间滤波的Loss 曲线其在验证集上正常收敛。图9(c)为经空间滤波加最大值聚类的Loss 曲线其在验证集上正常收敛,图9(d)为经空间滤波加最小值聚类的Loss 曲线其在验证集上正常收敛。
图9 损失函数曲线Fig.9 Loss curve
通过对以上3 种预处理方法性能指标的分析,得到基于空间滤波的预处理方式能够达到更好的效果,这表明在毫米波全息图像目标检测的任务中基于空间的滤波方式要好于基于反射强度的滤波方式。这为探究如何提升毫米波全息图像目标检测定位精度的任务提供了一种参考依据。
本文针对主动式毫米波图像隐匿物品检测定位精度问题,使用空间滤波、空间滤波加最大值聚类、空间滤波加最小值聚类方法的预处理方式探究何种预处理方式能有效提高毫米波全息图像目标检测的准确度,实验结果表明对数据进行不同预处理均能有效提高毫米波全息图像目标检测的准确度,但是基于空间的滤波方式比基于强度的滤波方式能更有效地提升检测准确度,为有效提升毫米波全息图像目标检测准确度的任务提供了一种参考依据。