基于时间距离像的人体动作深度学习分类

2019-05-24 02:37:34谢晓兰陈梓涵
桂林理工大学学报 2019年1期
关键词:雷达卷积人体

谢晓兰,陈梓涵

(桂林理工大学 信息科学与工程学院,广西 桂林 541004)

0 引 言

利用雷达开展人体动作特征的研究始于20世纪90年代,随后发展较为迅速,但研究大多集中于人体目标的微动特征[1-2],且以微多普勒特征为主。人体微多普勒特征主要来自于人的肢体,部分来自于躯干。由于人体是一个复杂的介质体,在做动作时,躯干和肢体之间的相对运动与姿态变化形成的微多普勒特征十分复杂,不仅是时变的[3],而且有时比较微弱且不易稳定提取[3-4]。如躯干的雷达回波强度一般都明显强于肢体,会造成躯干多普勒回波遮蔽肢体多普勒回波的现象,这对提取慢速动作的微多普勒特征十分不利,给基于微多普勒特征的人体动作识别带来了挑战。对于一些微多普勒特征较弱的人体动作,运动期间躯干或肢体的空间位置仍然会发生较显著变化,如果能够获取人体这些位置相对于雷达的距离变化信息,将有助于提高人体动作的分类识别能力。Erol等[5]利用超宽带雷达(ultra-wide band, UWB)获取了老人摔倒动作的距离信息,降低了摔倒动作误判的虚警率。

近几年来,在雷达目标识别领域,深度学习方法也已得到研究者的关注:Feng等[6]利用堆栈校正自编码器进行了基于高分辨距离像的雷达自动目标识别;Chen等[7]将改进后的深度卷积神经网络(deep convolutional neural network, DCNN)成功应用于SAR图像目标分类,克服了有限训练集导致的低识别精度问题;Kim等[8]也使用DCNN对7种手势的微多普勒特征进行识别,获得了93.1%的识别精度。与传统方法相比, 深度学习网络可以逐层非线性组合低层特征,形成更加抽象的高层特征用于目标分类识别,在一定程度上避免或减轻了传统方法因特征不稳定而导致识别精度下降的问题。

目前在人体动作雷达识别研究中, 应用深度学习方法的报道还比较少。 本文采用NVA6100单片冲激脉冲雷达, 对近距离人体动作进行了高距离分辨测量, 利用采集的人体动作回波数据构建了每个动作的时间-距离像, 然后通过DCNN对时间-距离像进行了分类识别处理。 设计了9种较典型的体育动作, 包括挥手、 打乒乓球、 拍篮球、 立定跳远、 投保龄球 、踢足球、 垫排球、 投篮和拳击等动作,并从3个不同人体目标录取了5 000多组雷达回波数据。 数据经过DCNN处理, 9个动作获得了96.67%的平均分类精度, 验证了DCNN算法应用于人体动作雷达分类的可行性和有效性。

1 人体动作超宽带雷达回波及特征

本文的实验研究以人们熟知的若干体育动作为主, 开展人体动作的雷达分类识别研究。人体动作的雷达回波是研究人体动作散射特征提取和分类识别的基础,在此首先分析人体目标雷达回波的获取及其可能存在的特征。

1.1 用于人体动作测量的超宽带雷达

大多数人体动作都存在肢体和/或躯干在空间位置上的较显著变化,变化范围通常在数厘米到数米。对于雷达来说,要获取这些人体动作在空间位置的变化信息,必须采用宽带雷达发射信号。众所周知,雷达的测距能力与雷达发射信号带宽有关,雷达的极限距离分辨率可表示为ΔR=c/2B(c为光速,B为雷达发射信号带宽)。由此可见,要在距离上分辨小至厘米级的人体动作位置变化,雷达信号带宽要达到几GHz,甚至十几GHz,在现有常用雷达工作频段上,这种雷达一般都称之超宽带(UWB)雷达。

目前,较常用的UWB雷达发射波形有无载波冲激脉冲、线性调频连续波、步进频率连续波以及正交离散频率编码连续波等,其中无载波冲激脉冲是应用最多的一种UWB雷达信号,因受限于可产生的脉冲发射功率,该雷达的作用距离一般较近。无载波冲激脉冲UWB雷达由于具有超宽的信号频谱和极高的距离分辨能力等优点,对于人体目标探测来说,能够获取丰富的人体动作位置信息和多普勒信息,对人体动作的分类识别十分有利。在本文的实验研究中,采用了Novelda公司出品的NVA6100单片冲激脉冲雷达收发器,其发射波形为一阶高斯脉冲,脉冲宽度约为300 ps,-10 dB发射频谱覆盖0.85~9.55 GHz,极限距离分辨率可达到2 cm,所以能够满足常规人体动作分类识别的要求。NVA6100单片雷达发射的时域波形和频谱如图1所示。

NVA6100雷达发射的一阶高斯脉冲波形是基本高斯脉冲的一阶微分形式,可表示为

(1)

图1 NVA6100雷达的脉冲波形Fig.1 Pulse waveform of Radar NVA6100

冲的成形因子。若雷达目标是由M个静止的理想点目标组成,点目标仅对波形的幅度和时延有影响,则冲激脉冲雷达接收信号(回波)可表示为

(2)

其中:Lp(i)是第i个点目标含衰减的幅度因子;GT(t)和GR(t)分别是发射和接收天线的增益系数;n为微分次数;τi为第i个点目标的双程时延。冲激脉冲雷达的接收信号与发射信号之间呈现高阶微分关系,是由收发天线对超宽带冲激脉冲响应来决定的;n的取值与具体天线形式有关。

该式是理想目标冲激脉冲雷达回波的信号表达式,通常仅用于雷达回波的定性分析和仿真。而人体目标是一种多枝节柔性复杂介质目标,即使在静止情况下,人体的电磁散射情况也是十分复杂的,要获得较精确的人体目标雷达回波模型十分困难。不仅如此,对于运动中的人体目标,目前还没有有效的雷达回波建模方法,所以在人体目标的雷达探测与分类识别中,实际测量还是经常采用实验研究方式。

1.2 人体动作的时间距离像特征

为了获取人体目标的UWB雷达回波,开展人体动作的分类识别实验研究,利用NVA6100单片冲激脉冲雷达搭建了一个室内实验测量环境,UWB雷达实验布局如图2所示。雷达放置在高度约为0.8 m的测试台上,人体面向雷达并相距1.5~2.0 m。为了降低对面墙壁的直接反射、地面和天花板的二次反射对人体回波测量的干扰,提高人体目标相对于背景环境的信杂比,在人体目标后面和左右两侧的2~4 m处设置了高度约为2.5 m的吸波材料墙。

图2 UWB雷达实验布局示意图Fig.2 Experimental layouts of Radar UWB

在人体动作实验中,选择和设计了9种较具典型性的体育动作,可以覆盖推、拉、鞭打、缓冲、蹬伸、摆动、扭动和相向运动等基本动作类型,包括挥手、打乒乓球、拍篮球、立定跳远、投保龄球、踢足球、垫排球、投篮球和拳击等动作,如图3所示。除了立定跳远需要在一定距离范围进行以外,其余动作均在原地完成。在重复多次进行同一动作的过程中,UWB雷达进行连续探测,并作回波数据的录取。

雷达每发射一个脉冲信号,与人体目标相互作用之后,都会有一部分电磁能量从人体反射回来,雷达接收后形成一次目标回波。由于人体各个部位相对雷达的距离不尽相同,因此它们分别反射回来的脉冲在到达雷达的延迟时间(即时延)上是存在差异的。对于具有很高时延分辨力的UWB雷达来说,时延差异会使得人体不同部位脉冲回波在叠加形成总的人体回波时呈现出沿时间(也即距离)的回波幅度扩展现象, 人们通常把这种扩展的回波称为目标的高分辨距离像(high resolution range profile, HRRP)。

获取一次目标距离像相当于对目标进行一次快速“照相”(俗称快拍), 在近距离人体目标探测中,这种一次快拍通常可以在10 ns~1 ms以内完成,远远小于完成一次人体动作所需时间,所以可将一副距离像看成人体动作的一个时间切片,在切片的持续时间内可忽略人体动作的变化。由于人体动作一般都存在一定的持续时间,一次快拍得到的人体距离像不能完整体现动作的全过程,若仅使用一副距离像对人体动作进行分类识别,明显是不可靠的,这就好比利用一张照片来判断一个动作远不如一段视频更可靠。

图3 9个体育动作的剪影(箭头表示动作方向)Fig.3 Profiles of 9 typical sports actions

为了提高人体动作的分类识别能力,可以使用人体动作回波构成的时间-距离像。时间-距离像是由雷达等时间间隔获取的多帧距离像按时间顺序并行排列而成,类似于视频是由多帧图片按时间顺序构成。图4给出了9种体育动作在一个动作持续期上的时间-距离像,其中纵轴表示目标到雷达的距离;横轴表示动作测量的持续时间; 灰度等级代表回波的(归一化)幅度。NVA6100雷达对回波采取并行采样方式,以39 GS/s采样率对当前回波连续采样512点,构成一幅目标的距离像,然后再间隔10 ms采集下一幅距离像,所以图4横轴的最小时间间隔为10 ms。每个时间间隔点上,沿纵轴方向都是当前时刻获得的人体动作高分辨距离像。

图4 9个体育动作的时间-距离像Fig.4 Time-range profiles of 9 typical sports actions

由于躯干是人体最主要的散射源,所以每张图像中最强的回波幅度主要来自于躯干部分。立定跳远动作存在较明显的躯干运动,所以躯干回波在时间-距离像中呈现密集的倾斜亮线,而原地完成的其他动作的躯干回波大多呈现接近水平且有一定起伏的密集粗亮线。虽然上下肢相比躯干是较弱的散射源,但是在运动变化的幅度范围和频度上则要显著于躯干,这从每张图中变化范围较大且较快起伏的细曲线上可见一斑。不仅如此, 在每种动作的时间-距离像中, 上下肢变化形成的细亮曲线形态都不相同,可以认为这代表了不同动作的差异化特征,是每种动作的专有属性,为分类识别不同的人体动作提供了可能。

图4h中还可以看到一些较为显著的亮度较低的水平细线,这些水平细线在采集到的每个动作回波数据中都会随即出现,这些脱离目标本体位置显现出来的水平细线可能与周围环境的随机干扰有关。

2 基于深度卷积神经网络的分类方法

在传统的人体目标雷达分类识别技术中,大多采用基于回波统计特性或者设置人为先验的特征提取与分类识别方法。目前的传统特征提取技术在面对复杂的人体目标时,无论是在特征提取的稳定性上还是在目标变化的适应性上,都还难以满足实用化的要求,给特征提取技术提出了更高的要求。由于人体目标的雷达散射特性十分复杂,人体动作和姿态也是千变万化的。根据前述时间-距离像的图像特征,借鉴图像识别中已广泛使用的深度卷积神经网络算法,对获取的人体动作时间-距离像进行直接处理,探究DCNN对人体目标特征提取的能力,初步验证深度学习方法应用于人体动作分类的可行性和有效性。

深度卷积神经网络是一种专门用来处理结构化数据的神经网络,一般由卷积层、池化层、全连接层三部分组成。卷积层用以完成卷积核与输入数据的卷积操作,该操作可以得到一系列特征映射。这里可将时间-距离像I作为输入,在卷积核K的作用下,得到的卷积操作输出为

S(i,j)=(I*K)(i,j)

(3)

其中: 卷积核K的大小被称为感受野,其作用相当于一个滤波器,可看作对输入数据做特征提取的窗口。相比于普通全连接网络,卷积操作具有局部连接和权值共享的性质,这可以显著减少网络参数的个数,并能够提取到更有效的特征。卷积操作的输出结果通常需要经过一个激活函数,将线性映射转换为非线性映射模式,这里选择激活函数的形式为修正线性单元(rectified linear unit, ReLU),具体形式为f(i,j)=max(0,S(i,j))。ReLU具有分段线性特征,可以构建较好的经验结果,同时可以减少网络训练时间,避免反向传播中的梯度消失问题。

在每个卷积层之后都要进行特征提取的池化操作,池化可以理解为一个降采样过程。假设上一层卷积非线性特征映射的输出为f(i,j),则池化操作后的特征变为

(4)

式中:L代表池化尺度,s代表步长。式(4)是将一个邻域内的像素值用一个最大值来代替,因而可进一步减少数据量,同时特征可以保持平移不变。上述卷积、池化操作可采取多层形式,其输出为一系列抽象特征映射,将其向量化后形成样本数据的特征向量,并与样本标签相匹配,可构成有监督训练的学习模式。

在一系列的卷积池化操作后要添加了一个Dropout层[9],其作用是对随机抽取特征进行组合,以避免过拟合问题。在Dropout之后,将特征进行向量化以得到特征向量。多个人体动作识别属于多分类问题,这里使用多项Logistic回归方法进行分类操作,使用的是softmax函数,它将训练得到的特征向量作为函数的输入,能够得到判为各个类别的后验概率结果,并选取概率最高的类别作为最终判别结果,从而完成动作的分类识别。对于给定的一组特征向量Vi(i=1,…,N),向量Vi的softmax值可表示为

(5)

优化得到的DCNN结构如图5所示。该网络有4个卷积层和最大池化层,卷积核的大小为5×5,池化尺度为2×2。另外,在算法中利用提取的特征向量与样本标签联合构建了代价函数,使用了随机梯度下降法(stochastic gradient descent, SGD)对网络反向传播更新网络参数,使得代价函数达到最小,然后将测试样本正向传播就可得到分类的结果。

图5 带结构参数的DCNN示意图Fig.5 DCNN diagram with structural parametrs

3 实验数据处理和结果分析

在图2所示的实验场景中, 对3个不同人徒手完成的9种体育动作回波进行了数据采集, 每人每个动作重复采集约200组, 总体数据达到5 000多组。每组动作的数据采集时间与动作的持续时间有关,约为2~3 s,因此每个动作的数据长短不一。按照图4所示的时间-距离像构成方法,将每个动作的每组数据统一处理为一个100×100的数据矩阵,每个动作随机抽取30组作为测试集,剩余作为训练集。

在网络训练方面,采用的开源工具Keras是以谷歌公司开发的Tensorflow为后端的顶层API接口,具有易于训练和配置等特点。整个DCNN网络采用SGD进行训练,相比于普通梯度下降方法,随机梯度可以选取一个mini-batch为一组进行梯度更新,使得网络具有更好的收敛性能,实验中mini-batch值设为50,梯度更新学习率设为0.001。同时,在梯度更新过程中,加入了动量(momentum)因子,可以使得梯度更新方向更加平滑,其中动量权重取为0.9,衰减因子权重取为0.004。网络中所有的初始化参数均设置为满足均值为0、方差为0.01的高斯分布参数。

为了验证网络的收敛性和平均分类识别性能, 对网络进行了400次循环更新迭代测试, DCNN对测试集的分类精度和收敛性如图6所示。 经过50次迭代后, 网络就已达到90%以上的分类精度, 随着进一步迭代,分类精度快速趋于收敛,并最终达到96.67%。

为了分析错误分类样本,表1给出了9种体育动作的测试混淆矩阵,其中(a—i)分别对应图3中的9种动作。混淆矩阵的每一行代表实际动作,每一列代表网络识别的动作。可见,挥手a、 打乒乓球b、 拍篮球c、 立定跳远d、 投篮球h和拳击i等6个动作都具有高于平均精度的分类效果, 而投保龄球e、 踢足球f和垫排球g等3个动作的分类精度则低于平均精度。从图4的时间-距离像对比可见,这3种动作中的上下肢特征曲线与其他动作存在局部的相似性,这种相似性提高了动作错误分类的可能性。

为了验证深度卷积神经网络方法的有效性,选取了目前比较通用的随机森林(random forest, RF)、 最近邻(k-nearest neighbors, kNN)、 支持矢量机(support vector machine, SVM)等分类算法进行对比,对比实验采用了相同的数据训练集和测试集,对比结果如表2所示。

图6 DCNN对测试集的分类精度随迭代次数的变化Fig.6 Classification accuracy for test set changes with iterations of DCNN

表1 测试集混淆矩阵

表2 本文DCNN算法与3种传统方法的对比

在缺乏有效的特征提取方法前提下,传统分类方法对测试数据的分类会产生较高的误判概率,而DCNN则通过多层特征提取可以有效识别动作中的关键性特征,并且通过大量数据的学习训练,对人体动作分类具有更好的泛化能力,所以能够获得很高的测试精度和计算稳定性。因此,深度卷积神经网络算法是有效的,在人体目标雷达识别中具有潜在的应用前景。

4 结束语

利用UWB雷达获取了人体的高分辨距离信息,使用DCNN对人体动作进行了分类识别研究。将人体动作的时间-距离像作为DCNN的输入数据,对9种典型体育动作进行了分类处理,取得了96.67%的高分类精度,DCNN对人体动作测试集的计算收敛性好,收敛速度也较快,这说明基于时间-距离像的DCNN具备潜在的分类识别人体动作的良好能力,特别是在稳定提取人体动作特征上存在十分明显的优势。由于未利用人体动作回波中所包含的多普勒信息,也没有考虑不同观测视角下同一动作回波存在的差异(仅采集了面向雷达的人体动作数据),亦未对其他深度学习算法进行有益的尝试,这些都将在下一步工作中开展深入的研究。

猜你喜欢
雷达卷积人体
有雷达
大自然探索(2023年7期)2023-08-15 00:48:21
人体“修补匠”
人体冷知识(一)
基于3D-Winograd的快速卷积算法设计及FPGA实现
排便顺畅,人体无毒一身轻
基层中医药(2021年5期)2021-07-31 07:58:34
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
雷达
奇妙的人体止咳点
特别健康(2018年3期)2018-07-04 00:40:10
基于傅里叶域卷积表示的目标跟踪算法
基于空时二维随机辐射场的弹载雷达前视成像