邱杰凡 徐一帆 徐瑞吉 周栋利 池凯凯
(浙江工业大学计算机科学与技术学院 杭州 310023)
(qiujiefan@zjut.edu.cn)
近年来,越多越多的人选择在家中运动,客厅运动的潮流越来越流行. 而在运动过程中实时监测呼吸率和心率等体征信息对于评估运动效果、保障运动期间运动者,尤其是新冠已康复人群的安全有着重要的作用[1].
人体常见的体征监测指标包括呼吸速率、呼吸成分、心率、血压、血氧以及体温等内容[2],在人体运动的过程中,血压和体温会不可避免地波动,对于评估运动者健康和运动水平意义不大. 而血氧和呼吸成分的监测,往往依赖较为笨重的分析仪器,且对佩戴敏感者不太友好. 因此在过往的研究中,往往将呼吸速率和心率作为主要研究指标. 尤其是心率,能够很好地反应运动情况和健康情况,例如在心跳过速时应及时停止运动,以免造成危险.
当前研究表明,雷达技术在体征监测方面有着较大的优势,例如可以实现无接触监测,对于穿戴不便或皮肤敏感的人群较为友好;对环境光亮度没有要求,即便是在较暗的条件下也能很好地完成监测;相对于基于视觉的体征监测,由于雷达信号需要进行特殊处理,很难获取除体征信息以外的敏感信息,因此隐私保护性较好[3]. 另一方面,在近年来体征监测领域的应用研究中,基于调频连续波(frequency modulated continuous wave,FMCW)的体征雷达由于其对距离/速度的高敏感性,得到了越来越多研究者的关注.FMCW 雷达的工作原理是通过发射经过调制且频率不断变化的连续波(continuous wave, CW),接收回波后通过混频获取中频信号,由于中频信号的频率和相位对距离和速度变化较为敏感,可以实时估计当前被测目标的运动状态,这也是传统基于CW 的雷达所不具备的. 尤其在近几年,得益于毫米波射频技术的快速发展,基于GHz 带宽的FMCW 雷达,大大提高了雷达在体征监测领域的识别精度和抗干扰性[4].
目前已有的体征监测的方法,通常要求人体处于稳态的场景中. 例如被测对象完全静止[5-8]或仅伴随周期性的小幅晃动[9-12]. 在这些方法中,需要先提取特征信号,再对特征信号进行短时傅里叶变换(short time Fourier transform, STFT)或者经验模态分解(empirical mode decomposition, EMD)等处理,最后提取出呼吸和心率信息.
然而在人体处于大幅度运动等非稳态场景时,会产生肢体移动、胸腔被遮盖、身体重心整体移动等问题,将会对雷达波产生极大干扰,这些干扰甚至将完全淹没体征信号,从而大大提高体征信号的提取难度[13]. 另一方面,根据我们对人们居家锻炼实际场景的调查,在锻炼过程中一般存在间歇期,在间歇期内运动者的肢体运动幅度将大幅度下降,而间歇期的体征监测结果几乎能够完全反映当前运动者的身体状态,因此我们提出一种面向非稳态场景的生命体征监测优化方法,通过特征频谱图[14]来区分运动期以及运动间歇期,并在间歇期以最大努力(besteffort)的方式从信号中提取出人体体征信息,从而实现对非稳态场景中运动者的体征监测.
而要判断运动者是否处于运动间歇期的关键在于对运动状态的高精度识别,传统运动状态识别通常包括姿势识别[15-16]和轨迹跟踪[17-18]2 大类. 前者往往只对单个动作进行数据采集和识别,对连续动作下的识别精度不高;后者只关注人体的位置以及速度等连续移动信息的测量,缺少对不同类型运动的识别. 然而在日常锻炼的场景中,如瑜伽或keep 运动等,运动过程往往持续时间较长,并且动作类型也比较多变,若使用传统的方法构造数据集,一方面代价过高,另一方面识别效果不佳. 而使用滑动窗口采样的方法可以规避这些缺点,通过窗口值和步长值的设置,选择合适的样本长度,既能提高模型对于运动者状态变化的敏感度,又能提高对动作类型的分类精度,而且降低了数据集的构建成本. 同时,我们还利用雷达数据对运动的类型进行识别,并将雷达数据与相应的体征数据绑定后,可以为进一步评估运动效果提供依据.
综上,本文的主要贡献有3 点:
1) 提出基于特征频谱图的运动识别方法,该方法通过计算并提取运动状态下的距离-主导速度特征信息,按照时间排列形成特征频谱图,并基于该谱图完成运动状态识别.
2) 提出一种滑动窗口采样方法,通过实验确定针对运动间歇期体征监测的最佳滑动窗口值和步长值,能够有效减少网络训练成本,提高识别精度以及降低识别时延.
3) 在非稳态场景下,基于商用雷达设备,实现了对运动者进行运动状态识别以及体征监测的体征雷达系统,实验表明该系统能够有效识别运动类型并能够以较高的精度完成体征监测.
传统的针对运动者的体征监测方法可以粗分为基于可穿戴设备的体征监测方法[19]和基于WiFi 信号的体征监测方法[20-22]. 可穿戴设备包括心率胸带、呼吸胸带、智能手表等,尽管这些设备的测量结果相对准确,但是在监测过程中,被监测对象需要长时间佩戴设备,对于不习惯在运动过程中佩戴额外设备的运动者来说并不友好;并且在一些大幅度肢体运动的过程中,可穿戴设备可能与皮肤发生相对位移,影响监测精度. 基于WiFi 信号的体征监测方法的优势在于可以利用现有无线设备完成监测,但受限于其无法自发自收的特点,实际探测过程中仍然需要通过至少2 台设备才能实现数据的采集;此外,由于WiFi 信号的波长为厘米级,很难实现对心跳引起的胸腔变化的监测. 基于毫米波雷达的体征监测方法与WiFi 相似,均可实现非接触测量,同时由于其具有自发自收能力,设备更加简化,且其波长在1~10 mm之间,可以探测到更微小的心跳引起的胸腔振动.
而在专用雷达领域,Shi 等人[5]曾采用2.4 GHz的CW 雷达,提出一类基于正交余弦变换技术的体征监测算法,取得了较好的效果,然而CW 雷达无法反映距离上的信息,因此当场景中有较大干扰时效果较差.Khan 等人[6]则采用IR-UWB 雷达监测呼吸速率和心率,应用卡尔曼滤波器去除噪声,并提出一种将心跳信号与呼吸谐波分离的算法. 近年来,WiFi 等非专用设备也能用于体征监测,Wang 等人[20]利用信道状态信息(channel state information,CSI),尤其是相位差信息,实现了对人体呼吸率和心率的监测. Liu 等人[21]利用时域和频域中细粒度的通道状态信息来捕捉呼吸和心跳引起的微小运动,实现了睡眠期间的体征监测.
基于FMCW 的毫米波雷达,得益于其较大的可调制带宽(通常超过1 GHz),对较为微小的物体移动也有较高的灵敏度和分辨率. 进而随着采用毫米波段的6 GHz 通信不断推进,基于FMCW 的毫米波专用雷达越来越受到研究者的关注. 如Alizadeh 等人[7]改进相位展开的方法,利用77 GHz 的毫米波雷达提取卧床患者的呼吸和心跳速率,但没有考虑运动的干扰,当有翻身的动作时监测效果较差. 另外,如Ahmad 等人[8]采用FMCW 毫米波雷达,利用波束成形技术,将人体体征信号与其他信号分开,从而高精度地提取体征信号,但对一些随机动作的干扰没有作进一步的处理. 此外,部分研究工作对干扰有一定的抑制,但是仅限于一些小幅度、有规律的干扰. 如Chen 等人[11]提出的MoVi-Fi 系统,利用体征信号的自相关性,采用对比学习的方法从源信号中提取出心率信号,达到较好的效果. 但是其实验场景仅包括原地步行,或者静坐等干扰有限的场景,没有涉及不同运动类型和运动幅度较大的非稳态场景下的监测.
因此,我们从运动状态识别着手,尝试设计并实现一个可以识别运动/间歇时期以及运动类型的模型,最大限度地提取准确的体征信号. 目前对于人体活动识别的研究有很多,例如Singh 等人[23]提出的RadHAR 模型以及Wang 等人[24]提出的m-Activity 模型均通过人体表面信号散射方向来提取3D 点云,并进行后续处理来获取人体活动类型. 其中m-Activity能够识别多种运动动作,但是准确度较低,仅为90%.
由于人们在日常锻炼中持续时间较长,且动作多样化,因此我们需要设计能够同时满足运动状态识别和运动类型识别的模型,同时模型在运动状态切换时有较高的灵敏度. 利用运动过程中人体对雷达的距离和速度信息,设计特征频谱图,可以实现这一目的.
体征监测优化方法的实现流程如图1 所示. 首先,毫米波雷达模块发射线性调频脉冲信号(chirp),信号经过目标反射后被雷达的接收天线所接收. 发射信号和接收信号经过混频器、低通滤波器后得到中频信号.
Fig. 1 System structure and process图1 系统结构与流程
在运动状态识别模块,我们对原始中频信号作1维傅里叶变换,得到目标距离信息;然后在每个距离上继续作傅里叶变换,得到每个距离的速度信息,并将所有帧的距离-主导速度信息排列在一起,得到特征频谱图;之后为提高识别精度与灵敏度,我们应用滑动窗口法采集样本,构造数据集;最后使用采集到的样本数据集训练ResNet-18 分类网络,并使用该网络预测动作状态结果. 分类网络的识别结果有2 种情况:1)识别为运动期,此时记录下运动类型并继续识别;2)识别为运动间歇期,也就是非运动状态,此时中频信号进入体征信息计算模块.
在体征信息计算模块,由于呼吸率、心率等体征信息往往包含在相位信息中,所以我们首先计算原始信号的相位信息;之后根据呼吸和心跳的不同频率范围,对相位信号进行带通滤波;最后利用变分模态分解算法(variational mode decomposition,VMD)提取呼吸和心率信息,并与运动类型识别相匹配.
本节主要介绍运动状态识别模块的内容,其包括FMCW 雷达基础、特征频谱图的计算、滑动窗口采样方法以及基于ResNet-18 的运动分类模型等内容.
本文采用基于连续调频波的毫米波雷达,其发射的信号为频率随时间呈线性变化的线性调频脉冲信号. 毫米波雷达模块发射信号,经目标反射后由天线接收回波信号,经过混频器和低通滤波器后得到中频信号. 毫米波雷达的发射信号可以表示为:
其中AT表示发射信号幅值,f0表示信号初始频率,k表示信号频率上升斜率. 由于我们采用的是FMCW信号,频率随着时刻t的增大而增大,因此我们将信号表示为t的函数. 雷达发射信号后,经过时延τ,得到回波信号,表示为:
假设运动者的胸腔表面到雷达天线的距离为R,同时胸腔表面因呼吸和心跳而产生的波动会导致胸腔表面以速度v(t)移动. 这时,瞬时的信号时延τ由R以及v(t)决定,可表示为:
但由于单个chirp 波的往返时间Δt很短,v(t)在Δt内可视为定值.
将发射信号ST(t)与接收信号SR(t)经过混频,得到高频和低频2 个信号,再通过低通滤波器,得到实验所需的中频信号,表示为:
获取到中频信号后,对SIF(t)作1 维快速傅里叶变换,得到中频信号的频率fIF,据此我们可以计算目标距离d,计算方法为:
在实际处理中,对单个chirp 信号作1 维傅里叶变换得到的频率图,根据式(5)计算目标距离信息.雷达模块与被测人体的距离约为1.5 m,在单个chirp的频谱图中,曲线在1.5 m 附近有较大波峰,如图2所示. 这表明目标距离雷达1.5 m 左右,也反映出雷达对距离估计有较高的精度.
Fig. 2 Spectrogram of a single chirp图2 单个chirp 的频谱图
由于单个chirp 脉冲只包含距离信息,如果要分析目标的速度,需要综合分析一段时间内多个chirp的信息,以获取目标的速度. 而每个chirp 之间的间隔非常短,由人体运动产生的位移也比较小,一般小于毫米波的距离分辨率,通常无法通过中频信号的频率信息来计算速度. 然而较小的振动对于信号相位的影响比较大,我们可以通过不同chirp 之间的相位关系来计算速度:
其中λ为信号波长,ω为不同chirp 之间的相位差,Tc为chirp 间隔.
对于1 帧内的数据,将所有的chirp 数据纵向排列形成矩阵,即矩阵的每一列代表1 个chirp 数据,对每个chirp 进行快速傅里叶变换得到距离谱图. 之后在每个距离上,对该帧内所有数据进行2 次快速傅里叶变换,得到速度的谱图,变换过程如图3 所示.
Table 1 The Main Parameters of the Radar表1 雷达主要参数
Fig. 3 Velocity calculation chart for each distance图3 每个距离上的速度计算图
通过对运动场景的分析我们发现,人体在不同的运动状态以及进行不同类型的运动时,躯干以及四肢的运动幅度都不一致,因此我们将每一时刻中每个距离上信号强度最大的速度作为主导速度,并且统计所有时刻每个距离的主导速度,汇总成特征频谱图用于下一步分析.
3.1节中提到,每个chirp 之间的间隔Tc以及每一帧之间的间隔Tf分别为微秒级和毫秒级,相对于人体完成1 个动作的时间而言其数值都非常小. 因此仅仅分析1 帧内的距离和速度信息是无法判断人体的运动或者静止情况,我们需要一段时间内目标的距离和速度信息,以此分析具体的运动情况.
首先需要对所有的chirp 信号实施去趋势处理,以消除直流分量. 对信号y(t)的去趋势处理过程为:
其中n为所选择的信号数量. 之后根据3.1 节中的内容,计算出该帧数据的距离-速度信息,形成频谱图,如图4(a)所示. 我们发现,不同的距离有不同的速度,表示人在运动时身体不同部位的速度存在差异. 据此提取出每一帧内每个距离上的主导速度值,并且将连续的多个帧的距离-主导速度信息依次排列起来,得到目标的特征频谱图,如图4(b)所示.
Fig. 4 Distance-velocity spectrogram图4 距离-速度频谱图
计算出运动的特征频谱图后,选择合适的样本长度对提高运动状态识别精度和效率都十分重要.以往对于人体动作的识别一般利用单个动作样本完成识别,即用于分类训练的样本通常包含了一个动作的全部内容. 而在人们日常锻炼时,运动的持续时间较久,动作的重复次数不定,动作类型多样,此时若使用包含单个动作全部内容的样本会存在2 方面的缺点:1)持续采样监测不能保证每一个样本都能包含全部动作内容,因此会影响模型的识别精度;2)由于运动的类型较多,如果样本包含全部动作会导致数据采集和处理的成本较高.
为了解决这2 方面的缺点,提出了滑动窗口采样的方法,即不间断地监测人体在锻炼时的距离-主导速度信息,获得较长时间的样本后,对样本加窗,并将窗口内的特征频谱信息作为一个样本保存. 同时,按照特定步长移动窗口,持续进行采样,并形成数据集输出. 具体的算法见算法1.
算法1.滑动窗口采样算法.
输入:原始数据Raw_data,采样窗口W,滑动步长S,采样量N;
输出:采集的数据集DataSet.
由3.2 节的内容可知,运动中特征频谱图的特征较为明显,并且图谱背景较为干净,干扰较少,因此我们可以采用卷积神经网络(convolutional neural network,CNN)对构造好的数据集进行分类. 常见的用于图像分类的卷积神经网络有AlexNet[25],GoogleNet[26],ResNet[27]等. 其中,ResNet 的核心思想是引入了残差块,在ResNet 中,输入图像首先经过卷积层、池化层进行维度转换,之后通过多个残差块,再经过全连接层,最后使用softmax 函数进行分类. 具体见图5(a)所示. 其中,一个残差块包含直接映射和残差2 部分,如图5(b)所示,其结构函数可以表示为:
Fig. 5 The structure of the classification network图5 分类网络结构
其中h(xl)表示直接映射部分,f(xl,Wl)表示残差部分,两者同时接收上一级的输出xl,在直接映射部分中xl直接向下传递,在残差部分中xl经过卷积层、批量归一化层、ReLu 激活层、卷积层、批量归一化层后与直接映射部分传递过来的数据进行加操作,构成下一级残差块的输入.
相较于AlexNet 和GoogleNet,ResNet 能够有效解决随着网络深度增加所引起的网络退化问题,在图像分类问题上有良好的应用效果;同时考虑到系统对于实时性的要求,我们尝试选择层数相对较少、复杂度相对较低的ResNet-18 作为特征频谱图的分类器,并在实验部分与其他网络进行性能对比.
本节主要介绍当系统监测到人体处于非运动状态时,从中频信号中提取人体呼吸速率以及心率等体征信号的过程. 该过程主要由相位提取方法和变分模态分解算法构成.
由3.1 节获取目标速度的计算可知,当目标的位移较小时,无法通过中频信号的频率信息计算位移.但是小位移却能够对信号的相位产生较大的影响.通常人体由呼吸引起的胸腔位移范围为1~12 mm,由心跳引起的胸腔位移为0.1~0.5 mm[28],因此可以利用信号中提取出的相位变化信息,获得呼吸信号和心跳信号.
首先,信号的相位可以由式(9)计算:
其中I(y(t))表示信号的虚部部分,R(y(t))表示信号的实部部分. 其次,根据式(5)计算得到的目标距离图确定目标的位置. 选择频谱图中幅值最大的频率点对应的相位作为该帧的信号相位,并计算出观测时间内每一帧的原始相位.
但是通过上述方法得到的原始相位存在一定程度的缠绕,导致相位图十分杂乱,很难通过原始相位直接获取呼吸信号和心跳信号,如图6(a)所示. 这是由于在计算相位的时候,相位会在π(−π)处发生跳变,跳变幅度为2π. 为了解决这个问题,我们对原始的信号相位进行解缠绕处理,即每当连续相位角之间的跳跃大于或等于 π 弧度时,就通过增加 ±2π 的整数倍实现相位角平移,直到跳跃小于 π. 实际处理中,我们使用函数unwrap[29]完成相位的解缠绕. 解缠绕后的相位信息如图6(b)所示.
Fig. 6 Effect of phase unwrapping图6 相位解缠绕效果
通过图6(b)我们发现,解缠绕后的相位信号能够反应呼吸信号的大致情况,这是由于呼吸产生的胸腔移动主要体现在相位信号中. 同时,我们在解缠绕后的相位波形中,还发现了一些细小的波动,如图6(b)中的标记框所示. 经过分析,这些波动是由心跳引起的胸腔运动所致. 由于心跳引起的胸腔波动比较微小,因此会被淹没在呼吸信号中. 当呼吸达到波峰或者波谷时,胸腔会有较为短暂的相对静止时间,此时心跳产生的波动较为明显.
由于体征信号中呼吸和心跳的频率不同,所以我们首先对原始相位信号进行滤波,考虑到运动状态下人体的呼吸速率和心率都高于日常情况,呼吸速率可以由12~18 次/min 增加到30~60 次/min;心跳速率则可以达到80~160 次/min.我们采用巴特沃斯滤波器,将带通频率范围分别设置为0.2~1.2 Hz,1.0~3.0 Hz,实现对呼吸信号和心率信号的同步获取.
为了进一步提高呼吸信号和心率信号的精度,我们在滤波的基础上进行多信号分离. 常用的方法有短时傅里叶变换[30]以及经验模态分解法[31]. 短时傅里叶变换通常在观测数据比较长时效果较好. 然而,在运动间歇时间较短的情况中,如按照Keep 运动软件的要求,运动间歇时间不应超过1 min.此时直接使用短时傅里叶变换分离出的体征信号误差较大,我们将在5.3 节实验部分进行讨论. 而经验模态分解法由于对IMF 的数量不能预先定义,当信号出现欠包络或者过包络时,容易出现模态混叠的现象,使得分离效果不佳.
与经验模态分解中的递归分解模式不同,变分模态分解法[32]将信号的分解转换为自适应分解模式,并且将本征模态分量看成具有中心频率和有限带宽的本征模态信号uk(t),不断迭代更新信号,得到最终的IMF 分量.
为了得到一个模态信号uk(t)的带宽,可以建立约束变分模型,如式(10)所示:
其中{uk(t)}表示变分模态分解的模态函数集合,{ωk}表示所有中心频率的集合.
为了解决约束变分模型,建立增广拉格朗日函数模型,引入二次惩罚因子和拉格朗日算子,如式(11)所示:
之后,我们通过算法2 中描述的交替方向乘子算法寻找增广拉格朗日模型的鞍点,计算约束变分模型的最优解,从而得到分解后的IMF 分量.
获得IMF 分量后,求各个分量与原始信号的相关系数,这里我们利用皮尔逊相关系数来计算,计算的如式(12)所示:
其中ρsign,im f代表原信号与IMF 分量信号的相关系数,Cov(sign,imf)代表原信号与IMF 分量信号之间的协方差,σsign,σimf分别代表原始信号与IMF 分量的标准差. 我们将相关系数最大的分量作为结果输出.
利用变分模态分解算法能够有效避免模态混叠现象,并且能够获得更加精细的结果. 具体步骤如算法2 所示.
算法2.基于变分模态分解的算法.
本节将介绍运动状态识别和体征信息计算的具体实验设置以及实验效果评估.
本文的雷达硬件采用Texas Instruments 公司的商用毫米波雷达平台. 该平台主要由IWR6843ISK 毫米波雷达模块、DCA1000EVM 数据采集模块以及原始信号处理软件模块3 部分组成. 其中,IWR6843ISK 雷达组件包含3 根发射天线和4 根接收天线,发射信号的中心频率为60 GHz,最高带宽为4 GHz,采用锯齿波调制;DCA1000EVM 数据采集模块中数据通过LVDS 技术传输,并将数据以IQ 分量的形式储存下来. 本次实验中使用到的雷达参数如表1 所示.
将表1 中的参数代入式(5)(6),得到系统可探测到目标的最大距离约为5.6 m,距离分辨率为0.037 5 m;可以探测到的目标最大速度约为10 m/s,速度分辨率为0.077 m/s,基本能够覆盖人们日常居家锻炼的各种场景.
实验过程中,雷达模块放置在距离地面约80 cm的桌面上,并且保证雷达模组中的天线垂直于地面,测试者距雷达的水平距离为1~2 m,并且正面朝向雷达进行各种运动,如图7(a)所示. 雷达模组、DCA1000数据采集卡以及与计算机程序的连接情况如图7(b)所示:雷达天线模组与DCA1000 数据采集卡通过60 pin串口相连,数据通过采集卡上的RJ45 网络接口传输到计算机中的程序进行处理.
Fig. 7 Experimental scene and equipment introduction图7 实验场景与设备介绍
同时,为了获取真实的呼吸速率数据和心率数据,在实验过程中,被试者需要佩戴Polar H7 心率带以及Vernier 呼吸测量胸带,以采集标准体征数据.
在构建运动动作数据集时,首先我们根据Keep软件中常见的居家客厅锻炼课程[33],选取了具有代表性的6 个动作,分别是深蹲、开合跳、拳击、波比、高抬腿、前后走. 每个动作的特征频谱图如图8(a)~(f)所示,其中图8(g)是非运动状态下的频谱图. 同时,我们招募了身高区间在155~183 cm 的6 名志愿者,对每个运动动作以及非运动状态分别采集5 次,每次30 s,共采集了6 300 s 的数据. 根据实验结果,我们选择滑动窗口值为3 s,滑动步长值为2 s,这样,我们共采集到有效样本2 940 个用于训练,其中,70%的样本用作训练集,30%的样本用作测试集.
Fig. 8 Feature spectrograms of various actions图8 各类动作的特征频谱图
首先,为了确定滑动窗口值与步长值,我们设置了不同的组别,每个组由滑动窗口值与步长值通过连字符组合,分别为(2 s-1 s),(3 s-1 s), (3 s-2 s), (4 s-2 s),(4 s-3 s),(5 s-3 s)共6 组,并分别进行实验;同时,为了确定分类网络的选择,我们也对几种经典的CNN 图像分类网络进行了对比实验,包括AlexNet,GoogleNet,ResNet-18 等网络结构. 实验结果如图9所示.
Fig. 9 Accuracy results of different window-step values in CNN networks图9 CNN 网络不同窗口-步长值的准确率结果
结果显示,当窗口-步长值设置为(3 s-2 s), (4 s-2 s)时,各网络的综合准确率都较高,最高值接近97%. 而窗口-步长值过小时,由于单个样本包含的运动信息变少,因此使用这些数据训练分类网络时,分类准确率稍差一些. 然而当窗口-步长值增大至(5 s-3 s)时,准确率也会下降,主要是因为随着窗口-步长值的增大,样本数量会有所减少. 此外,当窗口-步长值设置为(3 s-2 s)时,其能够包含大多数运动的信息,并且系统的监测时延会比(4 s-2 s)的小1 s 左右,这对于休息时间持续不长的运动场景来说尤为重要,因此我们最终选择滑动窗口时间为3 s,滑动步长为2 s.
在网络模型选择方面,实验表明,针对运动分类而言,ResNet-18 的准确率最高,达到96%以上,其次为GoogleNet,而AlexNet 的表现较差. 因此我们最终选择ResNet-18 作为实验分类器网络.
之后,我们基于ResNet-18 以及(3 s-2 s)的滑动窗口-步长值,对运动状态分类性能进行研究,得到混淆矩阵,如图10 所示. 我们发现,模型能够很好地区分运动状态和非运动状态,准确率达到100%. 在对不同类型的运动进行分类时,深蹲、开合跳、波比、前后走等动作均能够达到100%的准确率,然而拳击动作的分类效果较差,准确率仅为77.5%,主要是因为拳击动作中全身移动较小,仅有双臂的位移,因此在特征频谱图中不明显,导致分类效果较差.
Fig. 10 Confusion matrix for motion type recognition图10 运动类型识别的混淆矩阵
最后,通过比较相同条件下RadHAR 模型和m-Activity 模型的表现来研究本文方法的性能. 我们将相同的原始数据处理成点云图,并且分别放入RadHAR 和m-Activity,通过离线分析得到这2 种方法的综合准确率,如表2 所示. 不难发现,在大部分类型的动作识别中,本文方法均超过其他2 种基准算法,验证了本文方法的准确性.
Table 2 Effect Comparison of Our Method, RadHAR and m-Activity表2 本文方法与RadHAR,m-Activity 的效果比较 %
综上,本文模型能够很好地完成运动状态的识别,并且能够较好地完成运动类型的分类识别,同时在分类表现上明显优于基准算法.
当运动状态识别模型判定人体处于非运动状态时,体征监测模块将从雷达信号中提取生命体征信息. 实验中测试者站于雷达正前方,测试者允许有轻微的晃动和肢体动作,以模拟人们休息时的实际情况.
在信号的长度选择上,考虑到运动过程中非运动状态持续时间较短,因此算法的输入序列应该尽可能短,但是需要包含整数倍呼吸速率和心律. 经过实验,我们选择时间点前后的时间间隔为5 s,共10 s的数据作为输入序列,同时,由于人体呼吸速率和心率在10 s 内变化的幅度不大,因此我们将序列以5 s的间隔递增,基本满足日常运动中呼吸和心率监测的要求.
此外,为了进一步分离体征信号,消除谐波干扰,需要采用变分模态分解算法处理获取到的信号,VMD 算法的具体参数选择如表3 所示.
Table 3 Partial Parameters of VMD Algorithm表3 VMD 算法部分参数
设置好VMD 算法的参数后,我们以呼吸信号为例,将经过滤波处理的呼吸信号输入经过变分模态分解算法的迭代分解,得到如表4 所示的结果.
Table 4 IMF Diagram Decomposed from VMD of Respiratory Signal表4 呼吸信号的VMD 分解后的IMF 图
由于我们设置的分解模态数为3,因此经过VMD 算法处理后得到2 个模态分量以及1 个残差,我们分别计算了呼吸信号和心跳信号经过VMD 算法后的各分量与原始信号的皮尔逊相关系数,如表5 所示. 我们发现,在该数据片段中,呼吸信号和心跳信号分离出的模态分量中均为IMF1 的相关系数最高,对应的呼吸频率为0.4 Hz,即24 bmp; 心率为1.71 Hz,即102 bmp.这与我们采用标准设备测得的结果极为接近.
Table 5 Correlation Coefficient of Each IMF表5 各IMF 的相关系数
同时,我们模拟了在实际运动场景中的休息情况,在运动后采集了40 s 的非运动数据,并使用VMD算法进行呼吸速率和心率的计算,得到如图11 所示的结果,也显示出本文方法较高的准确率.
Fig. 11 Experimental results of respiration rate and heart rate detections based on VMD图11 基于VMD 的呼吸速率和心率监测的实验结果
同时,我们比较了VMD 算法、STFT 算法和EMD算法的分离效果,如表6 所示. 从表6 不难发现,在呼吸信号分离方面,这3 种算法的表现差不多,VMD 与EMD 略好一些;但是在心率信号分离方面,VMD 明显优于其余2 个算法.
Table 6 MAD of Each Separation Algorithm表6 各分离算法的MAD
最后,将本文方法与传统基于可穿戴设备以及基于WiFi 信号的体征监测方法ExRadio[31]进行了比较. 可穿戴设备包括心率胸带和呼吸胸带. ExRadio采用的设备包括IMX6Q 数据板以及Intel 5 300 网卡,该方法通过合并信道可以将环境中的绝大多数环境动态噪声干扰消除,并且构建有线直连(wire direct connection, WDC)信道消除硬件噪声,可以进一步提高呼吸速率的准确率.
我们在同一场景中分别使用2 种传统方法以及本文的方法进行呼吸速率和心率的监测,被测对象分别在图8 的6 种运动类型中进行运动,分别计算不同运动类型下的体征数据,结果以“心率|呼吸速率”的形式展示在表7 中. 以可穿戴设备的测量数据作为基准数据,结果显示,使用毫米波雷达执行体征监测,结果明显优于WiFi 设备,并且毫米波雷达可以监测WiFi 所无法监测的心率.
Table 7 Effect Comparison of Wearable Devices, WiFi and Millimeter Wave Radar表7 可穿戴设备、WiFi 与毫米波雷达效果比较 次/min
综上,我们所采用的基于VMD 算法的体征信息监测模块能够较好地从原始信号中计算出呼吸速率和心率.
最后我们将在实际运动场景中检验系统整体的效果. 场景设置如下:人体站于雷达前方,每运动20 s后休息20 s 作为一组,分别使用6 种不同类型的运动连续进行6 组实验. 与此同时,被试者依旧佩戴Polar H7 心率带与Vernier 呼吸胸带,并使用其测得的数据作为标准数据. 具体实验设置如表8 所示.
Table 8 System Comprehensive Experiment Scenario Settings表8 系统综合实验场景设置
首先对获取的数据进行处理,以2 s 的间隔共得到120 个时间点的数据,其中,运动类型识别正确的时间点个数为114,准确率高达95%. 在识别错误的6个时间点中,运动/非运动状态识别错误的有2 个,运动状态下运动类型识别错误的时间点有4 个. 总体而言,系统在监测运动状态切换时的准确率和灵敏度都较高,对运动类型的识别准确率也较高. 而呼吸速率的监测值以及心率监测值如表9 所示.
Table 9 Real Values and Detection Values of Vital Sign with Each Motion Status表9 各运动状态的体征信息真实值与监测值 bpm
首先,心率监测与呼吸监测的均方误差(MSE)分别为16.5 与3.3,基本达到了5.4 节中描述的准确率. 另外,我们对不同类型的运动进行分析,发现开合跳以及波比跳这类重心移动较大的动作对心率的刺激较大,相对训练效果较好;其次是深蹲、高抬腿、拳击等动作;而前后走相对较轻松,对于心脏的刺激也较小. 不同类型的动作对呼吸方面的影响都不大.
本文通过理论分析以及大量实验数据分析,验证了利用运动状态监测模块对运动状态下的人体进行体征信号监测的有效性及准确性. 根据运动场景下的特点,提出使用滑动窗口采样法完成数据采样,保证了运动状态识别的高准确性以及低时延,并选取了ResNet-18 网络作为分类器的网络结构,实现了较高的动作分类准确率. 此外,采用VMD 算法对非运动状态下的相位信号进行分析,有效提取出呼吸速率和心率,并将之与真实值之间的均方误差计算,验证了本文方法的准确性. 最后,将ResNet-18 网络和VMD 算法这2 个模块相结合,可以用于进一步实现不同类型运动效果的评价. 通过实验,我们从运动状态识别以及体征信号提取这2 方面验证了本文方法的有效性. 因此,本文方法对于基于体征雷达设备实现非接触非稳态场景中的生命体征信号具有较强的应用价值.
目前的研究主要针对单人运动场景展开. 在未来的工作中,我们将继续针对多人运动场景展开研究,并尝试利用毫米波雷达实现具有身份信息的体征监测,以进一步提高数据的有效性.
作者贡献声明:邱杰凡提出了论文的思路并修改和审核论文;徐一帆负责设计实验方案、完成实验并撰写论文;徐瑞吉协助完成部分实验;周栋利负责前期的调研工作;池凯凯提出方法的指导意见.