基于EfficientNet模型的毫米波雷达人体行为识别

2022-09-16 06:49王汝传

计算机技术与发展 2022年9期

陈鑫，叶宁，徐康，王甦，王汝传

(1.南京邮电大学计算机学院、软件学院、网络空间安全学院，江苏南京 210023;2.江苏省无线传感网高技术研究重点实验室，江苏南京 210023)

0 引言

近年来，人体行为识别的研究在公共安防、智慧养老、人机交互等领域取得了深入的发展[1-3]。利用传统光学摄像头在构建人体行为识别系统时会带来隐私暴露，受光照、遮挡等条件影响的问题，具有一定的局限性[4]。利用雷达等无线射频传感器从人体反射的无线电磁波信号中，提取出人体姿态相关的信息，弥补了传统光学摄像头方法易受光照、物体视线遮挡的缺点，同时更加注重隐私保护，已经成为当前人体行为识别领域研究的一个热点方向[5]。

目前，基于雷达实现人体行为识别的系统多采用微多普勒技术与机器学习方法。V. C. Chen于2000年开始了最早的对于雷达微多普勒效应的研究，他用实验表明了目标的微动与雷达微多普勒效应之间的联系，利用时频分析法从雷达回波信号中获得了运动目标的微多普勒特征[6-8]。Kim和Ling从雷达采集的微多普勒图中手动提取了相应的特征，利用支持向量机(SVM)模型进行了人体运动的7分类[9]，分类结果的准确率为92.8%。H. B. Li利用奇异值分解(SVD)将微多普勒图的熵、频谱质心、带宽分解后的统计量作为特征来进行人体行为识别[10]，准确率达到80.6%。Bryan等人将主成分分析(PCA)应用于微多普勒特征的提取，采用机器学习方法对8种人体活动进行分类[11]，取得了85%以上的准确率。B. Erol和M. G. Amin等人利用多维主成分分析法(MPCA)，结合时间、微多普勒和距离信息，实现了基于FMCW雷达系统的跌倒检测[12]，准确率最高达到91.6%。

然而人体微多普勒特征是时变和非平稳的，有时比较微弱且不易稳定提取[7,13]。人体微多普勒特征主要来自于强回波的躯干，会造成躯干多普勒回波遮蔽肢体多普勒回波的现象，这对提取慢速动作的微多普勒特征十分不利[14]，采用机器学习方法进行特征提取，依赖于开发者的经验，容易忽略各动作的隐藏特性，导致泛化能力较弱。

随着深度学习技术的兴起，无需经验即可自动学习特征的CNN模型逐步代替需要人工特征选取的机器学习方法，成功应用于人体行为识别中。Y. M. Shao等人将微多普勒数据分为实部和虚部两部分，采用基于Inception的网络进行训练[15]，识别率达到了96.9%。Y. Kim等人将由时频分析法得到的人体运动微多普勒图像输入到DCNN网络[16]，获得了97.6%的准确率。F. Luo等人设计并实现了卷积神经网络(CNN)，根据类型、数量、活动和粗略定位进行目标分类[17]，获得了97%以上的分类准确率。

目前，在人体动作识别研究中，应用深度学习的方法还比较少，这与深度学习方法需要大量数据集训练有关。与一般图像分类数据集不同，雷达数据集的制作通常繁琐，制作数据集是一项巨大的工程，因此现实生活中常常面对的是小批量的雷达数据分类任务，由于网络参数过多、数据集太少，使得网络模型难以得到充分的训练或者容易出现过拟合现象。因此需要寻求更高效的深度学习模型，以在较少数据集的情况下实现较高的准确率，同时防止出现过拟合现象，提高模型的泛化能力。

对于一些微多普勒特征较弱的动作，运动期间躯干或肢体的空间位置仍然可能会发生显著变化，如果能够获取躯干或肢体的空间位置信息，将有助于对人体行为进行分类。该文提出了利用FMCW雷达进行人体行为识别的新方法，通过距离多普勒算法生成了能够感知人肢体运动速度、距离、信号强度的距离多普勒图像，采用逐帧积累的方式延长观测时间窗口，构建了覆盖整个人体运动过程的轨迹。建立了自己的数据集，并以改进预训练的EfficientNet模型为基础来构建该系统。在5秒与2.5秒的两个观测时间窗口中，在改进预训练的EfficientNet-B4模型中获得了对已知个体和未知个体9种行为识别最高的准确率。

1 行为识别系统构成

该文设计的人体行为识别系统属于非穿戴式检测设备，主要由FMCW雷达、数据采集板及PC机组成，其系统组成如图1所示。FMCW雷达实测数据经数据采集板采集，以太网传输保存至PC机，PC机一次读取一帧数据，经距离傅里叶变换(Range FFT)、多普勒傅里叶变换(Doppler FFT)绘制人体运动的距离-速度图像，逐帧累积后生成覆盖整个人体行为的运动轨迹。PC机搭载的改进预训练EfficientNet模型可以在经过训练后通过该运动轨迹对人体行为进行有效识别。

图1 行为识别系统构成

1.1 调频连续波雷达

该文使用调频连续波雷达又称FMCW雷达，其在一个调频周期内，发射天线发射的信号[18]可表示为：

(1)

其中，AT为发射信号幅值，fc为载波中心频率，B为带宽，Tc为信号调频周期，φ(t)为相位噪声。经人体反射后，接收天线接收的回波信号可表示为：

(2)

其中，AR为接收信号幅值，td表示信号从雷达发射至接收到人体反射信号的时间，td=2R(t)/c，其中R表示目标距离，c为光速。

接收机将人体反射的回波信号与发射信号混频和低通滤波后得到差拍信号，近似为：

SIF(t)=AIFcos(2πfbt+φb(t)+Δφ(t))

(3)

最后，对上述差拍信号采用离散采样，该差拍信号可表示为数据矩阵的形式：

SIF(n,m)=AIF·cos[2πfbnTf+

(4)

其中，n表示快时间采样轴上对应的标号，m表示慢时间采样轴上对应的标号，Tf表示快时间采样轴上ADC采样间隔，Ts表示慢时间采样轴上ADC采样间隔。由此，得到了所需的雷达采样数据矩阵。

1.2 构建距离多普勒图与帧积累

SIF(n,m)包含一帧情况下的所有采样数据。对N个信号调频周期中的M个离散中频采样点数据分别做距离傅里叶变换(Range FFT)和多普勒傅里叶变换(Doppler FFT)，即可得到以距离-速度为坐标轴的人体运动的一帧距离多普勒热图(Range Doppler Map，RDM)。

人体运动是一个复杂的过程，一帧数据时间太短，很难判断某个运动状态，因此该文采用逐帧积累的方法，保留每一帧生成的距离多普勒图像，通过延长观测时间窗口来判断人体运动状态，其具体流程如图2所示。利用此方法，得到了覆盖人体整个运动过程的距离多普勒轨迹，并以此作为系统判断人体行为识别的依据。

图2 距离多普勒轨迹构建流程

1.3 EfficientNet模型

在数据量较少的情况下，为获得更高的准确率，深度学习模型通常会扩展模型的深度、宽度，又或者是图像的分辨率。传统卷积神经网络尽管可以任意调整这其中的两个或三个维度，但是都需要繁琐的手动调整，并且还有可能导致模型性能和效率的下降。为了解决上述问题，Tan M等人在2019年提出了一种新的搜索网络架构EfficientNet[19]。EfficientNet网络的主要构建模块是移动翻转瓶颈卷积(mobile inverted bottleneck convolution，MBConv)。该模块结构类似于由Mark等人2018年引入的MobileNetV2[20]，MBConv模块引入了压缩与激发(Squeeze-and-Excitation Network，SENet)的注意力思想，SENet注意力机制能够使得网络关注信息量大的通道特征，抑制不重要的通道特征，因此能够获得更高的准确率。

在此架构基础上，EfficientNet利用一种复合缩放方法对网络模型的深度、宽度、图像分辨率进行统一的缩放，其缩放的公式如下：

(5)

其中，α、β、γ均为常数，可通过神经网络搜索得到最优解，φ是用户指定的系数，用于控制有多少其他计算资源可用于模型缩放，当它的值为1时，对应于EfficientNet-B0。固定α、β、γ的值，使用不同的φ值对应于EfficientNet-B1～B7。EfficientNet模型在有限的资源环境下，可获得比传统深度学习模型更高的性能提升。

1.4 基于改进EfficientNet的迁移学习

迁移学习是一种机器学习方法，它从相似性出发将旧领域学习过的经验知识应用在新领域上。该文使用基于模型的迁移方法。这种迁移方式要求的假设条件是：源域中的数据与目标域中的数据可以共享一些模型的参数。为便于比较EfficientNet模型各版本的实验效果，实验的EfficientNet-B0-B7均已基于ImageNet数据集学习了丰富特征表示。为减小模型占用的内存空间，在保留EfficientNet核心结构的基础上，采用GAP全局平均池化层代替FC全连接层。与采用FC全连接层相比，该方法可有效降低空间参数，使得模型更加健壮，增加系统向小型设备移植的可能性。针对EfficientNet训练参数过多可能导致的模型过拟合问题，在全局平均池化层之后，加入了Dropout层，Dropout层可以在训练过程中有效省略大量的隐藏神经元，保证数据的有效性，同时如果网络在某一层过于依赖某些节点，可以减少或防止数据过拟合。该文还对最后的全连接层进行了调整，使得该网络能够适用于该研究任务。

2 实验与结果分析

2.1 实验设备与参数设定

使用的FMCW雷达设备采用Texas Instruments公司研发的商用IWR1642-BOOST毫米波雷达传感器以及DCA1000EVM数据采集板组合。IWR1642-BOOST毫米波雷达传感器支持77 GHz～81 GHz的调频带宽，由2个发射天线和4个接收天线组成，具有低发射功率、高距离分辨率的特点，几乎不存在测距盲区，可应用于近距离的人体行为识别实验。DCA1000EVM数据采集板是Texas Instruments研发的毫米波雷达传感器数据采集模块，可对雷达数据实时采集并通过以太网传输至PC端。本实验设置的雷达参数如表1所示。

表1 FMCW雷达参数设置

FMCW雷达的距离分辨率、速度分辨率、最大可观测速度可分别用公式(6)～公式(8)来表示。

(6)

(7)

(8)

其中，C表示光速，B表示调频带宽，且B=K×Nadc/Fs，λ为发射波长，λ=C/f0，其余相关变量均在表1给出。

对于表1中的雷达参数配置，求得本实验的距离分辨率约为4.40 cm，速度分辨率约为0.095 m/s，最大可观测速度为6.09 m/s。

该文使用的所有深度学习模型都是在GPU支持下编译的。所有实验研究都是在Windows10操作系统上运行，该操作系统运行在Intel(R)Core(TM)i5-8400CPU@2.80 GHz和16 GB RAM上，GPU型号为NVIDIA GTX1080Ti，深度学习的代码在Keras2.4.3及Tensorflow2.4.0上运行，利用了Anaconda集成于Pycharm中的框架。

2.2 实验数据采集与数据预处理

2.2.1 实验数据采集

为验证所提方法具有较高泛化能力，实验分两组进行，第一组由同一位实验者在室内场景采集，该实验者身高1.82 m，第二组数据由8位实验者在室内或者室外不同场景采集，身高从1.58 m～1.85 m不等。实验过程中，IWR1642-BOOST及DCA1000EVM被固定于三脚架，距离地面约80 cm，除实验对象外无其他运动目标干扰，在雷达与实验者直线距离中无静态物体摆放。总共采集了9组人体动作，在第一组实验中，每个动作均由同一名实验者重复采集300组，总共2 700条数据。第二组实验中，每个动作由8位实验者共同采集完成，每人每个动作10组，总共720条数据。为确保高质量距离多普勒热图生成，两组实验对象随机站在雷达前1 m～12 m范围，每一组动作采集时间均为5 s，对应100帧的数据。

2.2.2 数据预处理

该文设计的系统可以识别9种人体行为，图3展示了实验中的9种行为描述。首先雷达传感器采集的数据经数据采集板实时传输至PC，PC端每次读取一帧数据并利用距离多普勒算法逐帧绘制2D距离多普勒图像，以100帧数据为一个断点生成一组动作的距离多普勒轨迹，大小为380×380。实验生成了9种动作对应的距离多普勒轨迹，如图4所示。中心轴线上方为检测到的运动物体远离雷达方向，下方为检测到运动物体靠近雷达方向。从图中可以看出，对于位移明显的人体行为，延长观测时间窗口能够清晰展示其对应的特征，由于以距离和速度为坐标轴，获得的特征图具有一点的可解释性。

图3 9种人体行为描述

图4 9种人体行为的距离多普勒轨迹

2.3 基于机器学习模型的行为识别

为了验证本系统行为识别的准确率优于传统使用机器学习方法构成系统的准确率，首先采用本领域常用的基于主成分分析[11,21]的特征提取方法，并选取决策树模型、KNN模型、SVM模型、朴素贝叶斯模型等机器学习方法来构建系统，完成了行为识别。首先对所有的距离多普勒轨迹图进行灰度化并调整大小为256×256，再通过PCA方法将其降维为64维的向量，该64维向量对原始特征的累计贡献率达到了99%。经主成分分析降维后的特征图像如图5所示。对经过主成分分析降维后的数据，实验采用了基于决策树、最近邻算法(KNN)、支持向量机(SVM)、朴素贝叶斯的机器学习方法进行训练和分类，其中用于训练的数据占第一组数据的70%，系统对已知个体和未知个体的行为识别结果如表2所示。由表2可知决策树模型在本轮实验获得了双最高的准确率，对于已知个体的9种行为识别，其总体准确率达到了92%。利用已知个体的训练模型对未知个体的行为进行预测，其对9种行为预测的总体准确率也达到了88%。由此可知，使用机器学习方法对该文实验数据进行特征提取后分类的方法是可行的，但实验准确率还有较大提升空间。

图5 PCA降维特征

表2 机器学习方法识别结果

2.4 基于深度学习模型的行为识别

2.4.1 改进EfficientNet模型及训练策略

为了能够比较得到最佳精度的EfficientNet模型，在EfficientNetB0-B7结构中融入了相同的改进方法及迁移学习策略，图6展示了取得最高精度的模型EfficientNet-B4的网络结构。为了能够降低训练数据集过小对准确率的影响，以及快速得到最佳的精度，采用了迁移学习的方法进行模型参数的初始化。为此通过加载在ImageNet数据集上预训练的EfficientNet权重对去除全连接层的EfficientNet网络模型进行参数初始化，考虑到ImageNet数据集和实验数据集之间的巨大差异，对于网络层的训练从每一层重新开始。为了缩小模型空间参数，防止网络过拟合以及提升模型的准确率和泛化能力，用GAP全局平均池化替代了FC全连接层，在Dense层前加入了dropout模块，其比例为0.5。最后一层选择Softmax作为激活函数，选择分类交熵作为损失函数。采用Adam优化器，初始学习率为0.000 1，每次输入网络的样本量Batch_size为8。

图6 改进EfficientNet-B4模型结构

将5秒观测时间窗中对已知个体采集的2 700条数据按照7∶2∶1的比例划分为训练集、验证集、测试集，并将对未知个体采集的720条数据全部划分为测试集，以验证模型的泛化能力。在改进预训练的EfficientNet架构中，准确率最高的EfficientNet-B4模型的迭代曲线如图7所示。从图中可以看出，在100个epoch中，本实验在训练集与验证集上的准确率经过20个epoch后即逐渐趋于平稳，最终均能够接近100%。以同样的方法对VGG16、ResNet50、Xception、Inception-V3、MobileNet-V2进行了改进和预训练，并将结果与改进预训练的EfficientNet结果做对比，其比较结果如表3所示。从表3中可知，对应于5秒观测时间窗口，基于改进预训练的EfficientNet-B4模型组成的系统对已知个体和未知个体行为识别的准确率均达到最高，分别为99.3%和98.2%，表明系统具有较高准确率且泛化能力较强。进一步缩短测试集的观测时间窗口至2.5秒，系统对已知个体和未知个体行为识别的准确率仍能达到最高96.7%与95.4%。通过与表2采用机器学习的方法进行比较，发现采用深度学习方法对已知个体和未知个体的行为识别准确率均远超机器学习方法，因此本系统更适合采用深度学习的方法。

图7 改进EfficientNet-B4迭代曲线

表3 深度学习实验结果比较

续表3

(a)已知个体混淆矩阵 (b)未知个体混淆矩阵

通过进一步评估5秒EfficientNet-B4模型在已知个体与未知个体的测试集中的表现，得到了如图8所示的混淆矩阵，其中(a)为已知个体识别的混淆矩阵，(b)为未知个体识别的混淆矩阵。通过对混淆矩阵的分析，发现最容易出现分类错误的人体行为是跑步，常常被错分为走路，原因可能是因为跑步的速度过慢，产生的距离多普勒轨迹与走路过于相似。除此之外的其他行为分类，几乎不存在误分类的情况。

2.4.2 距离多普勒与微多普勒实验对比

为进一步验证采用距离-速度提取行为参数的优势，本节采用本领域常见的利用微多普勒特征进行参数提取实验，并利用EfficientNet-B4模型进行建模。仍然按照2.4.1节的训练策略，仅利用时间-速度进行参数提取的实验结果与利用距离多普勒提取行为参数的实验结果进行比较，如表4所示。

表4 距离多普勒与微多普勒实验结果比较

由表4可知，对应5秒和2.5秒观测时间窗口，缺少距离特征后行为识别系统仍能保持较高准确率，但准确率均有所下滑，由此可以证明对上述9种人体行为，采用距离-速度提取行为参数的方法更加具有优势。

3 结束语

针对微多普勒特征提取以及机器学习分类的弊端，提出了一种新的雷达实现人体行为识别的方法。该方法的基础是根据距离多普勒算法产生以距离-速度为标轴的每一帧图像，并以逐帧积累的方式产生能够区分人体9种运动的轨迹。根据产生的特征图，在雷达进行人体行为识别的方法中首次利用改进预训练的EfficientNet模型来构建整体架构，并在Efficient-B4模型中取得了最高的准确率。验证了利用深度学习方法的优越性，能够大幅度提高系统的准确率。比较了距离多普勒方法与微多普勒方法对识别准确率的影响，通过对已知个体和未知个体的9种人体行为识别验证了模型具有较高的泛化能力。

当然，该系统尚存在一些局限性，仅实现了对面向雷达的上述9种动作有效识别，下一步将利用多块雷达传感器，从不同方位进行数据采集，以争取识别更多更复杂的人体动作。