陈涛,张法桐,刘子铭
哈尔滨工程大学 信息与通信工程学院,黑龙江 哈尔滨 150001
手势识别技术在非接触式的人机交互中的应用价值广泛,可用于智能家居[1-2]、虚拟现实[3]、智能驾驶[4-5]、游戏控制[6]等多种应用场景。FMCW 毫米波雷达具有硬件成本低,测距、测速方案简单,抗干扰能力强,可全天候工作且不会泄露用户隐私等优点,在手势识别的应用上具有可观的应用前景。
FMCW 毫米波雷达是一种可以从目标回波中估计目标的距离、速度、角度信息的一种传感器,文献[7-8]介绍了传统FMCW 雷达的调制波形,讨论了FMCW 信号的混频和调制原理。基于毫米波雷达的手势识别技术主要通过在回波中提取手势动作的距离、速度甚至角度等信息进行估计后得到特征谱图,然后将特征谱图以图片数据集的形式使用支持向量机(support vector machine,SVM)[9]或者卷积神经网络[10-16]等分类器进行识别。谷歌公司在Soli 项目[10-11]中采用了带宽高达7 GHz 的毫米波雷达对手势识别进行了研究,利用卷积神经网络将连续时刻的距离-多普勒像逐帧特征提取,再利用循环神经网络对时序特征进行提取后进行手势分类。文献[12]利用短时傅里叶变换(short-time Fourier transform,STFT)对雷达回波信号进行时频分析,得到多普勒谱,并将多普勒谱图像作为卷积神经网络的输入数据实现了手势识别。文献[13]通过对混频后的中频信号进行2 维快速傅里叶变换获取手势的距离多普勒图像,以2 维距离多普勒像构建数据集,并输入卷积神经网络进行训练。文献[14]通过时频分析和多重信号分类方法估计了手势的距离、速度以及角度信息,构建了多维参数输入的卷积神经网络,对估计的信息进行了分类;文献[15]提出了微动手势的特征提取的最优参数设置准则,利用多特征谱图进行了微动手势识别。靳标等[16]提出了一种串联式一维神经网络的手势识别方法,该方法对雷达回波直接进行卷积池化,通过1 维Inception 模块后,利用长短时记忆网络进行分类。本文在距离多普勒图的基础上,提取了距离、速度变化的时序信息并使用全局池化代替扁平层与全连接层构建了双通道的卷积神经网络实现了手势识别。
本文采用的FMCW 毫米波雷达设备为TI 公司的IWR1642-BOOST 开发板,支持77~81 GHz 的调频带宽,在水平方向具有±60°的视场,支持最多2 个发射天线4 个接收天线。本文仅使用了1 个发射天线,仅读取了1 个接收天线的数据。波形配置图如图1 所示。
图1 毫米波雷达脉冲配置
从图1 可以看出,数模转换器(analog-todigital converter,ADC)会在上升时间之内的一段时间内进行采样。可以通过配置采样点数NADC以及采样率Fs来计算采样时间TADC:
在采样时间确定之后,可以通过设置信号的调频斜率K来得到有效的调频带宽B:
在得到有效调频带宽后可求得距离分辨率dres:
式中c为光速。
FMCW 毫米波雷达会发射M个图2 形式的线性调频脉冲帧,根据FMCW 毫米波雷达测速原理,可以通过配置图1 中的调频周期Tc(chirp cycle time),求得最大测量速度vmax:
图2 线性调频脉冲帧
式中 λ为载波频率对应的波长。
可以通过配置每帧的调频脉冲数Nchirp来求得速度分辨率vres:
本文中的雷达参数为:调频起始频率f0,77 GHz;调频斜率K,66.6 MHz/μs;调频周期Tc,160 μs;ADC 采样率,5 MS/s;ADC 采样点数,256;帧数,64 f;每帧脉冲数,128。
结合雷达参数配置,根据式(1)求得距离分辨率:
根据式(2)求得可观测最大速度:
根据式(3)求得速度分辨率:
在一个调频周期内,雷达发射的FMCW 信号可以表示为
式中:t为一个调频周期内的快时间索引,AT为发射信号振幅,fc为载波中心频率。
由发射信号可以将目标场景反射信号表示为
式中:AR为接收信号振幅;Δt为信号飞行时间,Δt=2R/C;R为目标相对雷达的径向距离;K(τ-Δt)为 τ时刻接收信号频率;Δfd为多普勒频移。
接收机将目标场景反射的回波信号与发射信号进行混频和低通滤波后得到中频信号,近似为
式中fIF=KΔt为t时刻中频信号的频率。所以,得到的中频信号的相位可表示为
式中:fcΔt相对于快时间来说为一常量,可认为是初相;fIF只与调频周期内对应的快时间索引有关,由于Tc很小,通常假定一个调频周期内多普勒频移 Δfd是恒定的,则可通过对快时间域进行快速傅里叶变换求得到与目标距离相关的中频信号频率分布;当不同调频周期的fIF固定时,即距离相同时,Δfd仅与调频周期之间对应的慢时间索引有关,从而在慢时间域进行快速傅里叶变换可以得到与目标速度相关的多普勒频移分布。
为了实现上述方法,需要将雷达回波处理成为一个矩阵的形式:矩阵的每一列代表快时间方向上Nadc个采样点,每一行代表慢时间不同的Nchirp个脉冲信号的回波在相同快时间处的值。
以帧为单位处理信号,可得到M个Nadc×Nchirp的矩阵。对每一个矩阵快时间维做FFT 即可得到M个二维距离谱图,后对二维距离谱图进行自相关,抑制背景噪声。假设每帧内的目标距离相同,对得到的每一个二维距离谱图抽取第1 列后,按帧拼接,得到距离-时间谱。
对二维距离谱图,在慢时间方向做FFT 即可得到距离-多普勒图,将多个距离多普勒图按行累加后转置得到多个列向量,将多个列向量按帧拼接即得到速度-时间谱图。
最终得到的手势特征图大小均为64×64。图3 给出了手势动作的示意图以及手势动作的回波特征图。本文将雷达前的人也考虑在内,即距离随时间变化图(range-time map,RTM)中距离不变的横线,以及速度随时间变化图(Doppler-time map,DTM)中速度为0 的横线。
图3 7 种手势示意及对应的2 种特征图
在利用上述方法得到特征图后,需要利用卷积神经网络进行学习,在学习前首先需要建立样本集供神经网络训练。本文通过4 名志愿者对7 种手势进行样本集构建。每种手势200 个样本,构建了各有1 400 个样本的2 个数据集RTM、DTM,在此基础上构建了二维的数据集,将其命名为MUL,MUL 中每种手势由2 个特征图表征。
对于RTM 和DTM 数据集,本文使用了全局平均池化层来代替扁平层以及全连接层,搭建了3 个卷积-池化层的单通道卷积神经网络。本文所使用的单通道卷积神经网络结构如表1 所示。
表1 单通道卷积神经网络结构
本文使用表1 所示的网络分别对由RTM 和DTM 特征图构建的样本集进行了训练。同时基于表1 网络构建了双通道的卷积神经网络,对本文构建的二维手势样本集MUL 进行了训练,进而验证双通道神经网络对训练结果的影响。本文所构建的双通道的卷积神经网络结构如图4 所示。
图4 双通道卷积神经网络结构
使用了TI 公司的DCA1000EVM 高速数据采集卡获取毫米波雷达中频信号采样后的ADC 原始数据,并经过千兆网口传输到PC 端(Windows10 64 位操作系统,NVIDIA GeForce GTX 1 050 显卡),在Matlab 2020a 中进行数据处理,建立数据集后使用Tensorflow2.1 深度学习框架搭建了神经网络,并使用本文的样本集对网络进行了学习分类。
在单输入的网络验证中,对RTM 与DTM 这2 种特征图的操作相同。每种数据集具有1 120个训练样本以及280 个测试样本。使用Adam 的优化算法,初始学习率设置为0.001,选取了指数型学习率衰减的方法,使学习率在100 个epoch内连续衰减10%,设置的批尺寸为8。从图5 中可以看出卷积神经网络训练在测试集的准确率随迭代步数的变化情况。
图5 单通道网络在RTM 和DTM 中的准确率对比
从图5 中可以看出,卷积神经网络对在对本文建立的样本集进行训练的最终识别率达到了95%以上,DTM 数据集与RTM 数据集的训练结果近似相同,且2 种数据集在进行了40 个epoch后均达到了收敛。
双通道网络同样使用Adam 优化算法,初始学习率设置为0.001,选取指数型学习率衰减的方法,使学习率在100 个epoch 内连续衰减10%,设置批尺寸为8。
测试集的准确率随迭代步数的变化如图6 中MUL 所示。
图6 不同方法训练结果对比
从图6 中可以看出,双通道的卷积神经网络结构在测试集上的准确率达到了近99%,相较于单通道神经网络,最终的识别率提升了近4%。由于网络的优化算法、学习率、衰减率等没有改变,所以2 种网络的收敛速度几乎相同,只是第2 种的网络规模是第1 种的2 倍,所以在网络训练时多输入网络用的时间是单输入的2 倍。本文参考搭建了文献[13]中的单通道的仅两层卷积层的网络模型,并在此基础上搭建了双通道网络模型,2 种模型在本文数据集(单通道对比模型使用RTM 数据集训练)中的训练结果分别如图6 中的单通道对比网络及双通道对比网络所示。
本文的FMCW 雷达手势识别系统将人体作为参考特征,构建了手势动作的距离-时间、速度-时间特征图,使用全局平均池化层代替扁平层与全连接层的情况下构建了双通道的卷积神经网络。该网络使用本文构建的数据集训练,最终在测试集上达到了99%的识别率,相较于单通道的卷积神经网络,在训练集上的准确率提高了近4%。通过与其他方法对比可以得出:1)网络模型对不同的数据集将会产生不同的结果;2)卷积层数增多会提取到更深层的信息,进而在一定条件下得到更好的拟合结果;3)验证了联合多特征的识别方法优于单特征的识别方法。