多种姿态下的人体呼吸率视觉检测①

2022-08-25 02:52任国军杨学志臧宗迪吴克伟王金诚

计算机系统应用 2022年8期

任国军, 杨学志, 臧宗迪, 吴克伟, 王金诚

1(合肥工业大学计算机与信息学院, 合肥 230009)

2(工业安全与应急技术安徽省重点实验室, 合肥 230009)

3(合肥工业大学软件学院, 合肥 230009)

随着生活节奏的加快, 呼吸系统疾病已经成为了严重危害人们身体健康的频发病, 呼吸频率与人体健康状况息息相关, 定期监测呼吸率能够有效预防呼吸系统疾病. 最初, 接触式检测是呼吸率检测的主要方法,包括阻抗式、心电图、温度传感器[1]、压电传感器[2]等. 现如今, 随着计算机视频图像处理技术的不断迭代和家用摄像机的逐渐普及, 非接触式呼吸率检测成为了未来呼吸率检测领域的发展方向.

基于视频的非接触式呼吸率检测的原理是先选定呼吸运动检测区域, 通过提取检测区域像素点的亮度或者相位变化波形间接得到了呼吸率. 相较于传统的接触式呼吸率检测, 非接触式呼吸率检测成本低廉、不会对检测者造成不适. 不仅适合在普通医院里进行呼吸监测, 未来还可以广泛应用于家庭日常健康监测之中. 基于视频的呼吸率检测方法存在两个关键性问题: 如何准确的选定呼吸运动区域、如何提取出鲁棒性强的呼吸信号.

Alinovi等[3]提出使用亮度值提取呼吸信号, 该方法首先使用欧拉视频放大方法[4,5]放大呼吸运动, 然后使用帧间差法确定呼吸运动区域, 最终求该区域的平均亮度值检测呼吸率, 但是该方法基于帧差法的呼吸运动区域检测对衣服纹理要求高、抗光照干扰能力差.霍亮等[6]方法使用相位的方法提取呼吸信号, 该方法使用人脸检测结合人体结构确定人体胸腹位置, 然后求得该区域的相位信号检测呼吸率, 上述研究都聚焦于人体坐在椅子上正对摄像机进行呼吸率检测, 限制了呼吸率的检测场景, 不适用于日常的家用健康监测. Siam等[7]提出利用运动特征点[8]亮度值总和提取呼吸信号, 但是仅适用于人体平躺时的呼吸率检测. 刘今越等[9]近期提出一种基于欧拉视频放大方法、光流法和像素亮度序列的提取呼吸信号方法, 该方法可以在不同睡姿下检测呼吸率, 适用范围广. 但是欧拉视频放大不仅会放大呼吸运动, 也会放大图像噪声, 同时基于亮度序列的呼吸信号提取极易受到环境亮度变化的干扰, 都会造成检测精度的降低.

针对上述文献提出的方法中存在的检测场景受限、检测精度低的问题, 本文提出一种利用图像金字塔光流法和多尺度多方向相位信息的视频呼吸率检测方法. 通过图像金字塔光流法获得人体胸腹呼吸运动区域, 有效避免人脸检测对检测呼吸率时人体姿态的限制; 利用复可控金字塔提取多尺度多方向相位信息和幅度信息, 通过幅度信息对相位信息的加权增强了呼吸信号, 并对提取到的信号进行判断, 得到鲁棒性强的呼吸信号; 最终通过峰值检测得到呼吸率.

1 本文方法

本文提出了一种基于视频分析的人体呼吸率检测方法.该方法主要实现步骤如下: 1)采集人体呼吸视频,利用基于图像金字塔LK光流法处理视频连续图像得到运动前景区域[10], 选取其中最大连通区域作为初始呼吸运动区域; 2)利用复可控金字塔将视频的每一帧图像进行多尺度分解, 得到多尺度多方向相位谱和幅度谱[11,12], 利用幅度谱对相位谱进行加权得到相位-时间信号; 3)对提取到的呼吸信号进行判断: 若信号主峰频率在呼吸信号合理范围内(0.1–0.8 Hz)[6]并且主频能量占比高则使用峰值检测得到呼吸率, 否则回到步骤1重新选取视频连续图像进行后续检测. 整体方法流程框图如图1所示.

图1 本文方法框架图

1.1 呼吸区域提取

胸腹部的一次起伏记为一次呼吸运动, 光流法是常用的运动检测算法, 刘今越等[9]通过光流法得到呼吸运动区域. 一般光流法需要满足泰勒展开故只能检测小运动[13], 基于图像金字塔LK光流法有效解决了这一问题, 首先对两帧图像使用降采样和低通滤波进行分层处理, 下一层图像是上一层图像的1/4大小,因为图像分辨率的降低, 原本不满足泰勒展开的大运动在图片分辨率降到一定程度的时候已经成为了小运动,然后先计算最底层分辨率最低图像的光流作为上一层光流的初始值, 通过递归得到原始图片的光流. 使用图像金字塔光流法提取的呼吸运动光流场如图2所示.

图2 呼吸运动光流场

一般情况下, 室内呼吸检测时人体胸腹区域是视频中运动最大的区域, 首先将光流场运动矢量转化为二值化图像; 然后对二值化图像中的各连通域进行标记并且记录大小; 因为人体呼吸时胸腹部起伏具有运动范围大、整体性的特点, 所以最后选取其中最大连通域的最小外接矩形为最终的呼吸运动区域. 在提取呼吸区域时会因人体头部的大幅晃动或者视频采集区域有其他人走过等原因造成呼吸区域提取错误, 故在后续步骤会根据提取的呼吸区域信号对呼吸区域进行判断,判断结果不合理则选择3 s后的连续图像提取呼吸区域.

1.2 呼吸区域相位信息提取

相位信息和亮度信息都是蕴含在图像中的重要信息. Ghiglia等[14]通过交换两幅图像的相位谱证明相位信息更加符合人类视觉感知特性, 具有高稳定性优势.同时相位信息的变化代表着运动信息, Wadhwa等[12]提出通过放大某一频段相位信号实现视频微小振动放大, 取得了良好效果.

本文使用一维图像的像素分布f(x)表征图像相位与运动信息之间的关联, 考虑f(x)的Fourier级数展开公式为:

其中,Aw为幅度谱系数, e 是自然常数,w为频率, 将式(1)分解, 则每个频率w对应的Fourier级数展开Sw(x)记为:

f(x+δ(t)) 表示图像在δ (t)时间内发生运动后的像素分布,f(x+δ(t))的Fourier级数展开公式为:

同样将式(3)分解, 则每个频率w在时间点t对应的Fourier级数展开Sw(x,t)记为:

容易观察得到:

由式(5)可得图像在δ (t)时间内发生的运动变化量,记相位变化量为Bw(x,t)=wδ(t), 它代表着图像的运动变化量, 连续图像的运动信息可以使用Bw(x,t)信号表示.

复可控金字塔是对图像在频域的多分辨率处理,其实质是通过构建一组不同尺度、不同方向的频域滤波器对原图像进行频域滤波[15]. 将视频每一帧图像进行复可控金字塔分解, 得到一组不同尺度、不同方向的频带, 然后对各频带进行傅里叶逆变换, 返回空间域,此时得到的像素点值会变成复数, 可以提取出空域幅度和相位. 通过复可控金字塔得到输入图像在多尺度多方向相位谱和幅度谱基带步骤如下所示:

1) 设输入图像的宽度为w, 高度为h,floor为向下取整, 设置方向数M为4, 则复可控金字塔尺度分解的总层数N为:

2) 复可控金字塔的带通模板和多方向模板相乘得到一层多方向滤波器[16], 将带通模板缩小为原来大小的1/4, 再与多方向模板相乘就得到了下一层多方向滤波器组, 最终得到N层多方向滤波器组.

3) 利用N层多方向滤波器组对输入图像进行滤波得到N层多方向的图像的复数谱, 继而获得N×M个包含相位信息的相位谱序列Si和包含幅度信息的幅度谱序列Ai, 其中i=1,2,···,N×M.

1.3 相位谱加权及相位差信号提取

输入复可控滤波器的呼吸区域包含着呼吸运动信号和其他干扰信号, 常见的干扰信号包括其他振动源以及人体轻微晃动带来的相位噪声等, 输入图像经复可控滤波器滤波后得到的幅度谱突出了振动区域的边缘, 利用幅度谱对相位谱进行加权, 可以增强呼吸信号,提高信号信噪比. 对于第i层第t帧图像, 其对应的幅度谱为Ai(x,y,t) 相位谱为Si(x,y,t),G表示高斯滤波, 相位谱加权公式为:

相位差信号可以有效表征运动变化[17]. 对于一个帧数F、宽度w、高度h的输入视频, 通过复可控金字塔空间分解和相位谱加权得到了N×M层F帧的相位谱子带序列, 然后将从第2帧开始每1帧相位谱子带序列与第1帧作差就得到了相位差信号.

对于第i层第t帧图像, 其对应的相位谱宽度为wi、高度为hi、子带序列为Si(x,y,t), 则其第i层第2帧到第F帧的平均相位差信号为:

最后对N×M层的平均相位信号取均值得到初步的呼吸信号P[t], 提取的呼吸信号波形如图3所示. 其中t=1,2,···,F-1:

图3 本文方法提取的呼吸波形

1.4 信号判断

本文在呼吸运动区域提取中将二值化光流矢量图的最大连通区域作为呼吸区域, 在实际场景中, 却可能因为身体其他部位的大幅度晃动、其他人走过摄像机等原因导致呼吸区域提取错误, 故需要对提取信号的合理性进行判断.

记提取的呼吸信号为P[t] , 其中t=1,2,···,F-1,F为输入视频总帧数, 则P[t] 的最大峰值频率fmax和最大峰值能量占比α 分别为:

呼吸率的频带范围在0.1–0.8 Hz, 若提取出的呼吸信号的最大峰值频率fmax不在这一区间或者最大峰值能量占比 α ＜0.5则判定提取的呼吸信号不合理, 重新选取3 s后的连续两幅图像获取呼吸区域并得到呼吸信号.

1.5 峰值检测

本文使用峰值检测得到呼吸率, Ganfure[18]实验证明使用峰值检测提取呼吸率相较于传统的快速傅里叶变换方法总体上提升了11.61%的准确率. 如果实验视频时长N秒, 检测通过本文方法提取的呼吸波形有K个峰值, 则最终的呼吸率RR为:

2 实验分析

常见的人体呼吸率检测姿态包括正坐、平躺、侧躺、平趴4种, 本节将设计3组对比实验来验证本文在上述4种姿态下的呼吸率检测的准确性和鲁棒性.实验过程中使用型号为YX-1207的压电传感器记录呼吸波形作为实验真值, 如图4所示. 再与刘今越等[9]方法进行对比, 同时利用手动框选呼吸区域与霍亮等[6]信号处理方式得到呼吸率作为对比. 3组对比实验实验设置分别为: 不同姿态下检测准确率测试、不同衣服厚度测试、不同时长实验视频测试.

图4 YX-1207压电传感器记录的呼吸波形

2.1 实验设计

实验采用普通摄像机拍摄人体在不同姿态下的呼吸视频, 分辨率为1280×720, 帧率为50 fps. 实验环境为室内, 实验者躺在泡沫垫上, 实验人体姿态包括正坐、平躺、平趴、侧躺4种, 摄像机距离人体约1.2 m,同时使用笔记本电脑和型号为YX-1207的压电传感器记录呼吸波形以及波形峰值数作为实验真值. 实验场景如图5所示.

图5 实验场景示意图

实验使用呼吸信号波形的波峰数RPcal与记录的真实呼吸次数RPreal做对比得到评价指标. 第1个评价指标为真实值与测量值的平均误差Me:

其中,N为测试用例数, 第2个评价指标是平均准确率RPac:

第3个评价指标是均方根误差RMSE:

均方根误差RMSE指标代表着方法的鲁棒性,RMSE越低则方法鲁棒性越高.

2.2 实验结果分析

实验以YX-1207压电传感器记录的呼吸波形峰值数作为真值并且复现文献[6]方法以及文献[9]方法进行对比验证. 实验选取实验者在正坐、平躺、侧躺、平趴4种姿态实验视频各11组作为实验数据集,同时实验数据集中已经剔除在以上方法中出现|RPcal-RPreal|＞3的视频.

本文对人体正坐、平躺、侧躺、平趴4种姿态使用图像金字塔光流法提取出的呼吸运动区域如图6所示.

图6 多种姿态呼吸区域提取结果图

表1是本文方法、YX-1207压电传感器以及对比方法在实验数据集下的呼吸率检测实验结果. 表2所示是利用上文中3个评价指标对表1中实验数据的分析结果. 表2单元格中的数据单位为:Me(bpm)、RPac(%)、RMSE(bpm), 其中bpm (breaths per minute)表示为每分钟的呼吸次数.

表1 YX-1207压电传感器及多种方法呼吸率检测结果(bpm)

由表1和表2数据可知本文方法在人体正坐、平躺、侧躺和平趴4种姿态下具有良好的呼吸率检测性能, 相较于文献[6]方法以及文献[9]方法在人体正坐和平躺两种姿态下的呼吸检测平均误差略有提升, 在人体侧躺和平趴两种姿态下的呼吸检测准确率有显著提升. 文献[9]方法通过视频放大、普通光流法和亮度方法提取出呼吸信号, 视频放大会放大噪声, 普通光流法难以提取准确的呼吸区域并且基于亮度信号的呼吸信号提取容易受到光照变化的干扰以及噪声的影响.文献[6]方法在侧躺和平趴两种姿态下呼吸率检测效果差, 因胸腹部区域运动起伏小, 呼吸信号微弱, 难以被提取. 本文采用图像金字塔光流法的呼吸区域提取能够减弱呼吸运动幅度大小以及噪声对于呼吸区域提取的影响, 基于相位信号的呼吸信号经过空间分解以及相位谱加权后有效去除了呼吸区域的噪声并且增强了呼吸信号. 另外, 本文方法在人体4种姿态下呼吸率检测均方根误差均显著低于其他两种方法.

表2 YX-1207压电传感器及多种方法实验数据分析结果

实验数据集在本文方法检测出的呼吸波峰数和YX-1207压电传感器记录值之间数据关系如图7散点图所示.

图7 本文方法与记录值对比

4散点图中人体4种姿态下的实验数据集中于45度线周围, 最差的数据误差为2次/min, 表明本文方法在这人体4种姿态下的呼吸率检测与YX-1207压电传感器的记录值误差很小.

2.3 方法稳定性分析

本文方法目的在于实现准确性高、鲁棒性强, 能适用于家庭健康监测的呼吸率检测方法, 为了验证本文方法稳定性, 本节将进行本文方法在不同衣服厚度和不同实验时长下的方法稳定性测试, 并与YX-1207压电传感器记录值对比.

使用视觉方法检测呼吸率, 衣服厚度会影响呼吸运动的起伏大小从而影响最终的检测效果. 实验环境如图5所示, 实验者穿上两种不同厚度的衣服(T恤和毛衣)在人体正坐、平躺、侧躺和平趴4种姿态进行测试, 实验以平均准确率RPac评价指标为衡量标准, 实验结果如表3所示, 其中表格单元格中的数据单位为:RPac(%).

表3中的实验结果可以看出当实验者穿着毛衣时对比穿着T恤检测平均准确率仅有略微降低, 整体保持着高平均检测准确率. 原因在于本文方法使用多尺度多方向空间分解获取了更多的图像信息包括轮廓和细节部分, 基于相位的方法具有抗光照干扰和良好的抗噪性能[11], 同时利用空间分解得到的幅度谱对相位谱进行加权增强了呼吸信号, 提升了提取的信号鲁棒性.

表3 不同衣服厚度本文方法检测平均准确率 (%)

使用视觉方法检测呼吸率, 拍摄视频的时长也会影响呼吸率检测最终的结果[6]. 实验环境如图5所示,实验者在人体正坐、平躺、侧躺和平趴4种姿态进行测试实验, 拍摄时长分别为60 s、30 s、10 s. 实验以平均准确率RPac评价指标为衡量标准, 实验结果如表4所示, 其中表格单元格中的数据单位为:RPac(%).

表4中的实验结果表明本文方法检测平均准确率随着实验视频时长的减少而递减, 而总体上的检测平均准确率较好. 原因在于本文方法使用图像金字塔光流法提取呼吸运动区域定位准确并且通过相位信号处理实现了突出呼吸运动信号、增强呼吸信号使得即使较少的数据量也能得到良好的检测结果.

表4 不同时长实验视频本文方法检测平均准确率 (%)

2.4 长时间的呼吸率检测

本文方法目的在于检测人体在短时间(2 min)内的呼吸率, 当检测时间过长时因人体呼吸率的不断变化所以使用峰值检测提取的呼吸率并不能真实反映人体在这一段时间内的呼吸情况. 针对长时间的呼吸率检测每30 s使用本文方法得到一个呼吸率, 最终得到动态的呼吸率. 这种方法可以有效反映出一段时间内受测者的呼吸率变化情况, 可以有助于呼吸暂停综合症[19]等呼吸系统疾病的及时诊断. 实验环境如图5所示, 在人体平躺姿态下进行6 min的实验, 并与YX-1207压电传感器记录值做对比, 实验证明本文方法取得了良好的检测效果, 实验结果如图8所示.

图8 动态呼吸率检测对比

3 结论与展望

本文提出一种多种姿态下的人体呼吸率视觉检测方法. 首先, 利用图像金字塔光流法得到人体呼吸运动胸腹部区域. 然后, 将视频的每一帧图像中呼吸区域输入复可控金字塔进行多尺度多方向空间分解, 得到每一帧图像的多个尺度多个方向的幅度谱和相位谱, 使用幅度谱对相位谱进行加权增强呼吸运动信号, 接下来将每一帧的多个尺度多个方向相位谱进行平均得到初步的呼吸信号. 在此基础上, 如果提取的呼吸信号主频在呼吸信号频段内并且主频能量占比高则使用峰值检测得到最终的呼吸率. 本文以YX-1207压电传感器记录值为参考值, 与两种前沿的呼吸率检测方法进行了对比. 实验结果表明本文方法在人体正坐、平躺、侧躺、平趴4种姿态下均具有良好的准确性和鲁棒性,拓宽了呼吸率检测的应用场景. 然而, 本文方法仍有改进的空间. 如何减小相机晃动、人体挪动带来的误差,以及在有其他干扰振动源的情况下准确提取出人体呼吸区域, 将会是未来研究的重点.