饶 治,李炳霖,隋雅茹,嵇晓强 ,李明烨
(1. 长春理工大学 生命科学技术学院, 吉林 长春 130022;2. 皇家墨尔本理工大学 信息系统和商业分析系, 维多利亚州 卡尔顿 3001;3. 墨尔本大学 计算与信息系统学院, 墨尔本 3053)
精神压力是危害人类健康的主要因素之一,长期遭受精神压力会严重影响人类的心血管系统、激素水平和情绪状态[1-3]。可靠有效的压力检测方法在心理健康干预和治疗中发挥着非常重要的作用,可以帮助预防和控制高强度压力引起的疾病[4]。现有的精神压力检测多采用量表和谈话等方法[5-6],依赖医生的主观经验,较难客观地反映被测试者真实的精神压力状态。
心率变异性(Heart Rate Variability,HRV)是压力评估领域中十分有价值的指标。根据欧洲心脏病学会和美国心脏协会于1996年发布的HRV标准[7],通过ECG (electrocardiogram)、PPG (photoplethysmography)计算HRV,可以通过分析交感神经系统和副交感神经系统来评估压力[8-10],在压力接触测量领域展示出良好的评估结果[11-13]。HRV结合其他生理信号用以评估精神压力也被证明是一种有效的方法[14-15]。然而,上述基于HRV分析的检测方法需要接触测量,会刺激皮肤,尤其不适合敏感皮肤患者。此外,接触性测量过程中需要专业人员(如医生、护士、心理研究人员等)参与,还可能造成受试者情绪波动,导致压力检测结果不准确。
Verkruysse等人[16]通过光学传感器发现人脸的微弱光线变化,可获得脉搏波信号,即成像式光体积描记术(Image Photoplethysmography,iPPG)。该研究为实现视频非接触精神压力检测奠定了基础。Kaur等人[17]在特殊光线下通过光谱相机采集面部皮肤反射信号,并进行HRV时域频域分析。Alghoul等人[18]通过摄像头收集面部视频并提取HRV参数。Wei等人[19]利用HRV非线性分析,通过皮肤血红蛋白成像来判断放松和压力状态。孔等人[20]从视频图像中提取了HRV信息,并与人脸表情进行融合,实现精神压力二分类,其准确率为81.4%。
通过分析和比较现有精神压力检测方法发现,相对于接触测量方法,视频非接触测量方法进行压力检测的准确率偏低,不适用于实际场景应用。针对该问题,本文通过对一种动态ROI提取方法进行改进获取到高质量的iPPG信号,并提出了一种基于iPPG的非接触精神压力检测方法,探讨了iPPG在日常精神压力检测中的应用。该方法只需一台智能手机,并且对于光照条件和受试者运动方面约束较低,为视频非接触测量的实际应用提供了可能。
本文首先从人脸视频中充分挖掘出生物特征,并筛选出精神压力测量特征,探讨了HRV特征与日常精神压力之间的关系;其次,利用机器学习建立了一个用于日常精神压力检测的三分类器,准确度达到95.2%;最后,本文改进了一种基于Face Mesh的动态ROI提取方法,提高了iPPG信号质量,使其更适用于复杂的实际场景。
本方法实现过程如下:(1)通过手机摄像头采集一段人脸视频;(2)进行人脸识别和感兴趣区域提取;(3)获得原始iPPG信号;(4)对信号进行去噪和滤波处理;(5)设计压力诱导实验,筛选与压力状态相关的HRV特征;(6)构建机器学习模型实现日常精神压力的三分类检测。
iPPG技术通过成像设备感知由血管内血容量变化所引起的皮肤表面反射光的变化,来获取生理信号,其生理学基础与PPG相似。由于人体皮肤的光学性质,一般认为在可见光区域内有两种物质对光的吸收起主导作用:血红蛋白和黑色素,其中血红蛋白是真皮中主要的光吸收剂[21]。环境光可以渗透过人体皮肤重新释放,光在人体皮肤中会被面部血液中的血红蛋白吸收,由此使得重新释放的光与入射光相比将产生变化。这一变化难以被人眼发觉,但可以被光学传感器捕捉,并会体现在像素上,如图1(a)所示。心肌的收缩与舒张会改变血管内血液的充盈程度,导致脸部区域血液流量发生改变,由此导致面部反射光的强度大小发生变化。因此,可以通过摄像头采集面部视频以捕捉像素大小的变化,从而提取到皮下血液随心动周期的变化信息。
图1 iPPG基本原理图Fig. 1 Schematic diagram of iPPG principle
人体皮肤对光的吸收是iPPG技术实现的基础,其光学原理则是郎伯-比尔定律:当波长为 λ的单色光直射入某物质溶液时,透射光强I与发射光强I0存在如下关系:
式中, ε(λ)是介质在某特定波长中的吸收系数,C为介质浓度,L为光在介质中的传播距离。iPPG技术中光的吸收量与血红蛋白含量成正比,随着心脏的跳动,血红蛋白含量随血液容积发生周期性改变,其反射光的强度也呈现周期性改变,如图1(b)所示。通过光学传感器捕捉到这种变化,并反映在图像像素强度的变化中,再对像素点的原始曲线进行滤波即可得到人体脉搏波信号。
iPPG信号提取过程如图2(a)所示。首先,采集时长为3分钟的人脸视频,进行人脸识别,提取面部感兴趣区域,获取由心脏搏动引起的皮肤微弱颜色变化;接下来,采用快速独立成分分析(FastICA)、小波变换和窄带带通滤波,实现iPPG信号的提取和去噪,获得高信噪比的iPPG信号;最后对iPPG信号进行心率变异性分析,提取时域、频域、非线性参数特征。
图2 iPPG信号处理结果。(a)iPPG信号提取流程;(b)动态ROI提取过程;(c)不同ROI提取的iPPG信号;(d)R-R间期提取 Fig. 2 Result of iPPG signal processing. (a) iPPG signal extraction process; (b) dynamic ROI extraction process; (c) iPPG signal extracted by different ROI; (d) extraction process in R-R interval
2.2.1 图像预处理
在视频采集过程中实验对象会出现不同程度的运动,这会使iPPG提取的信号中存在运动伪影,影响信号质量,本文引入并改进了一种动态ROI提取方法来解决运动伪影问题。
Li等人[23]引入了新的ROI提取框架,首先对视频的第一帧进行人脸识别,再从人脸的68个关键点中选取9个关键点来确定第一帧的ROI掩模。接下来,使用KLT (Kanade-Lucas-Tomasi)算法[24]跟踪人脸矩形框的特征点[25],得到前后两帧图像特征点的仿射变换矩阵,根据仿射变换矩阵就可以获取下一帧图像的9个关键点位置。最后,根据这9个关键点位置就可以确定下一帧的ROI掩模,从而实现动态ROI的选取。
上述动态ROI提取框架的关键步骤是对人脸关键点进行实时检测并跟踪。本文采用一种轻量级的基于端对端的神经网络模型——Face Mesh[26]。该模型可以精准检测人脸的关键点,其能预测人脸468个3D关键点,并对眼睛和嘴唇区域添加了注意力机制,因此,可以更加精准地检测这部分区域的关键点,便于后续提取。Face Mesh采用机器学习推断3D表面的几何形状,以适应不同的拍摄距离,而且还集成了追踪模块,满足从视频帧流中实时获取动态ROI的需求。
本文的动态ROI提取流程及结果如图2(b)所示。可见在获取人脸视频后,对第一帧图像采用Blazeface人脸检测器进行人脸检测,同时该检测器生成一个旋转的矩形框用于人脸对齐[27]。将人脸矩形框输入Face mesh关键点检测器中,返回人脸468个关键点。接下来,根据目标ROI需要,选取若干个合适的关键点用于绘制脸部皮肤区域的掩模。同时,Face mesh追踪模块可以根据从第一帧图像获取的468个关键点来预测第二帧人脸矩形框,并将其输入Face mesh关键点检测器,从而实现第二帧的关键点检测。按照上述提取方式提取后续帧的ROI,从而获得人脸动态ROI序列。
对上述ROI序列进行颜色通道分离,并分别计算单个通道中所有ROI图像的像素均值,从而绘制像素均值曲线,即原始的iPPG信号。一般而言,ROI面积越大,得到的iPPG信号越平稳,考虑到脸颊和前额的皮肤相对光滑,血管分布比较密集,非刚性运动干扰较少,因此本文选择图2(b)中ROI_3作为提取iPPG信号的感兴趣区域。
为了检验动态ROI提取方法的效果,将其与固定ROI提取方法进行对比。一般而言,固定ROI提取方法首先检测人脸,再通过几何关系截取出一个固定的矩形人脸区域。本文选择的固定ROI区域为图2(b)中的人脸矩形区域(ROI_1),将其与动态ROI提取到的整个面部区域(ROI_2)进行对比。两种ROI得到的iPPG信号如图2(c)所示。可见,相对于ROI_2,ROI_1得到的iPPG信号峰值不明显,信号质量较差,这是由于固定ROI提取方法会掺杂一些背景信息,而且被测对象的一些微小运动对iPPG信号的影响很大。
接下来,本文对基于图2(b)中ROI_2和ROI_3(额头和面颊合成的皮肤区域)提取的iPPG信号进行分析,结果如图2(c)所示。可见,采用ROI_3提取的iPPG信号波形较理想,能获取到更好的生理信号特征。相较于ROI_2,ROI_3避开了眼睛、嘴巴,基本上去除了眨眼、微笑、说话等动作带来的非刚性运动的干扰。
2.2.2 iPPG信号处理
原始iPPG信号中通常混杂着呼吸信号以及与心脏搏动无关的其他生理信号。同时,在实验过程中会存在着采集设备自身的干扰、光照变化等带来的噪声。而且信号源和通道状态未知,不能通过单一滤波器直接滤除噪声信号[28]。
FastICA是在原始ICA基础上建立的一种快速不动点方法,并采用牛顿迭代法保证收敛,在迭代过程中无需人为设置参数,相比于ICA算法,其具有更快的收敛速度,且更加简单方便。FastICA算法流程如下:
(1)输入白化矩阵X=(x1,x2,x3),输出的独立成分为:Y=(y1,y2,y3);
(2)设置需要估计的独立分量个数n,当前独立分量的标号为count,初始化count=0;
(3)初始化权值向量w0;
(4)对权值向量w进行调整:
(a)带入矩阵迭代公式(2),得到新的w′:
式中,g(·)表 示非线性函数,E(·)表示均值操作;
(b)带入矩阵正交化公式(3),得到正交化后的w:
(5)归一化处理:
(6)判断是否收敛。若收敛,则提取一个独立成分y=wTX,并执行步骤(7);若不收敛则返回步骤(4);
(7)count+1,当count<n时,执行步骤(3),否则算法结束。
本文首先使用FastICA算法从原始iPPG信号中的3个通道的信号中分离出独立信号y1(t)、y2(t)、y3(t)。人类的血液更容易吸收绿光,因此绿色通道包含更多有效信息。本文计算了每个独立分量和绿色通道的Pearson相关系数:
式中,n为 样本数量,、代表样本均值,σY、σG为样本标准差。实验发现,第三个独立分量与G通道的皮尔逊相关系数最高,其绝对值为0.93。因此,选择这一独立分量作为iPPG信号进行后续的滤波处理。
通过FastICA获得的独立分量中依然包括高频噪声和基线漂移,针对这一问题,本文采用小波变换对信号进行进一步的滤波处理。小波基函数的选择会影响信号处理结果,根据脉搏波信号的特点,选取了“db8”小波。手机摄像头的采集频率为30 Hz,根据采样定理,从视频中获取的信号频率为0~15 Hz。采用db8小波基进行6层小波分解,得到的每一层信号频带范围分别为CD1(7.5~15 Hz)、CA1(0~7.5 Hz)、CD2(3.75~7.5 Hz)、CA2(0~3.75 Hz)、CD3(1.875~3.75 Hz)、CA3(0~1.875 Hz)、CD4(0.937 5~1.875 Hz)、CA4(0~0.937 5 Hz)、CD5(0.468 75~0.937 5 Hz)、CA5(0~0.468 75 Hz)、CD6(0.234 375~0.468 75 Hz)、CA6
(0~0.234 375 Hz)。本文默认正常人心率范围为60~200 bmp,其对应的频率范围是1~3.33 Hz。iPPG信号集中在第三、四层分解信号中,频带为0.937 5~3.75 Hz。本文将这两层信号结果进行叠加,作为去除基线漂移后包含心跳频率范围的小波重构波形。为了进一步消除噪声,采用窄带带通滤波器,通频带设置为1~3.33 Hz。FastICA、小波变换和窄带带通滤波相结合可以有效消除一些光照变化、运动伪影、电子噪声等无规律噪声对信号产生的干扰,最终得到高信噪比的iPPG信号。
R-R间期是HRV分析的基础,在240 Hz采样频率下对iPPG信号进行三次样条插值,再通过峰值检测得到R-R间期,结果如图2(d)所示。
对处理后的iPPG信号进行HRV分析,提取其时域、频域、非线性特征共17个,如表1所示。接下来,为了筛选出能够真正反映精神压力的特征值,在实验室环境下采用心算任务进行压力应激诱导[29-30],探究放松与压力状态下特征的变化,共筛选出14个有效反映精神压力状态的HRV参数。 最后,本文设计了日常精神压力采集实验,根据多级压力数据与心理医生评估结果构建机器学习模型,将筛选出来的14个特征输入到机器学习模型中进行训练。在比较了SVM(Support Vector Machine)、KNN(K Nearest Neighbors)、RF(Random Forest)等几种机器学习模型后[31-33],选择随机森林RF作为压力识别模型。
表1 HRV特征Tab. 1 HRV characteristics
本文的随机森林模型是基于CART (Classification and Regression Tree)决策树搭建的,使用基尼系数代替信息增益比。将训练集设置为总样本的70%,采用交叉验证网格搜索方法对模型参数进行优化,进行一个K倍交叉实验(K=10),依次选择其中一个作为验证集,剩余的K-1用作交叉验证的训练集,最终构建了精神压力识别的三分类器。将压力状态分为低压、中压和高压3种,分别标记为0、1和2。
精神压力检测实验分为两部分。第一部分是精神压力诱导实验,目的是通过人为调整实验样本的压力状态,并比较放松到压力状态下特征参数的变化趋势,筛选出能够有效评估精神压力的HRV特征用于精神压力检测。第二部分是日常精神压力检测实验,选取在实际生活中处于压力状态的样本,该样本在一段时间内会一直处于压力状态,对实验对象一段时间内的长期压力状态进行评估。两部分实验样本相互独立,互不重合,实验描述如表2所示。精神压力检测实验是在室内下进行的,光照条件较为稳定。但为了进一步降低光照对信号质量的影响,在采集面部视频过程中,尽量避免光照极端条件,如强光、曝晒、光照不足或光照剧烈变化等情况。
表2 实验描述Tab. 2 Description of the test
压力诱导实验流程如图3(a)所示。实验包括两个阶段的信号收集和一个阶段的心理任务执行。在第一次信号采集之前,设定了10分钟的放松阶段,确保受试者在实验开始时不会紧张或焦虑。第二次信号采集是在完成心算任务后,心算准确性可用于判断实验对象是否专注。
为了探索与心理应激相关的特征,对压力诱导前后获得的17个HRV特征进行分析。通过配对t检验(95%置信区间),筛选出两个实验之间存在显著差异的特征,用于后面的日常精神压力检测实验。实验结果表明: std_hr、 SD2/SD1、Sampen三个特征的p值均大于0.05,不予采纳。分析了从放松状态到压力状态下其余14个特征参数的变化趋势,压力诱导实验前后特征值的变化如图3(b)所示。结果显示, HR显著增加,
图3 压力诱导实验及结果。(a) 压力诱导实验过程;(b) HRV特征参数变化箱形图Fig. 3 Stress-induced test and result. (a) Stress induction test process; (b) box diagram of HRV characteristic parameter change
SDNN、PNN50、PNN20、R MSSD、SDSD、CVSD、CVnni显 著下降,TP显 著降低, LFnu显著升高,HFnu 显 著降低,L F/HF显 著升高,S D1、S D2显著降低,以上变化与心理学研究结论一致[17]。
实验开始前,首先安排实验对象填写心理医生提供的心理评估量表,并采集3分钟面部视频。接下来,由心理医生标注出样本的精神压力结果:低、中、高压状态,将其作为样本的压力标签。日常精神压力识别系统流程图如图4(a)所示,在获取视频后提取HRV特征,将由压力诱导实验筛选出来的特征和心理医生标注的标签用于训练机器学习模型。
实验样本共计67个,训练集与测试集以7:3进行分割。为了比较初始模型性能,对单个机器学习分类模型进行多次训练,然后取均值,避免单次训练的随机性。本文比较了SVM、KNN、BP、RF分类器,且都采用十折交叉验证进行训练,不同机器学习分类器在日常精神压力检测的准确率结果如图4(b)所示。其中,随机森林模型表现最好。接下来,本文对随机森林进行了网格搜索操作,进一步优化参数。当树的最大深度为16,决策树数量为41时,随机森林模型性能最佳,日常精神压力识别的准确率达到了95.2%(RF+)。
图4 日常精神压力检测系统。(a)日常精神压力检测系统的流程;(b)不同机器学习分类器在日常精神压力检测的准确率对比;(c)基于随机森林的日常精神压力检测模型图;(d)基于随机森林的日常精神压力检测的ROC曲线Fig. 4 Daily mental stress detection system. (a) Process of daily mental stress detection system; (b) accuracy comparison of daily mental stress detection by different machine learning classifiers; (c) a random forest-based model for detecting daily mental stress; (d) ROC curves for daily mental stress detection based on random forest
采用ROC曲线来反映模型对于日常精神压力状态的检测性能。ROC曲线的横坐标与纵坐标没有相关性,ROC曲线越靠近(0,1)点,代表模型越好。AUC是ROC曲线与x轴围成区域的面积,AUC的数值可以用来衡量分类器的好坏,AUC越高,代表分类效果越好。随机森林参数优化后的ROC曲线如图4(d)(彩图见期刊电子版)所示,结果表明该模型在日常精神压力检测方面表现优秀。
本文对比了目前几个精神压力检测相关的研究工作,结果如表3所示。Healey[13]使用接触性传感器获取EKG、EMG、EDA、GSR生理信号,得到97.4%的识别准确率,能有效检测压力水平。但是,在实际应用中,接触式传感器有很大的局限性,会给被测对象带来“白大褂”现象,检测不方便,使用场景也有一定的限制。Kuar[17]使用LDA(Linear Discriminant Analysis)和LR(Logistic Regression)分类器实现了非接触式的压力三元分类检测,但是需要特定的相机,应用受限,而且该研究准确率仅为75%,远低于本文方法的准确率(95.2%)。孔[20]使用普通相机,融合了9个HRV特征和一个表情特征,仅实现了非接触式压力检测的二分类,准确率仅为81.4%,低于本文的三分类准确率。
表3 压力检测相关工作的比较Tab. 3 Comparison of pressure detection-related work
相对于以上精神压力检测方法,本文提出的方法由于在提取iPPG信号环节进行了一定的优化,使得iPPG信号质量大大提高。本文深度挖掘HRV特征,采用单模态方式实现了基于面部视频的非接触式日常精神压力三分类,准确率达到了95.2%。而且由于测量方法简单,易于操作,不会影响受试者的正常心理和精神状态,更适用于复杂的实际场景且可推广到更多分类,可广泛用于心理健康领域的检测。
成像式光体积描记术是一种无创伤、低成本、简单、非接触的光学测量技术,可以用来测量日常生活中的精神压力。本文通过手机摄像头采集面部视频并提取iPPG信号,再根据iPPG信号进行HRV分析,而且设计压力诱导实验用于特征筛选,构建机器学习模型来检测日常生活中的精神压力。实验结果表明:本文的日常精神压力检测系统表现优异,实现了高精度的日常精神压力三分类检测任务。
从学术角度来看,本研究从人类面部视频中挖掘生物特征,并将这些特征与他们的精神压力联系起来;此外,本文利用机器学习建立一个用于日常精神压力识别的三分类器,准确率达到95.2%。从实际角度来看,这种方法不需要佩戴任何传感器或收集生物样本,只使用智能手机就能准确检测人类的日常精神压力水平,显示了其作为一种有效工具在心理学研究中的潜力;这种方法不需要长期测量,适合临床心理诊断和日常压力监测。
本文方法的主要局限性在于样本量及其应用范围,未来将扩增样本数量,在更大的人群(包括心理疾病患者和以及其他高压群体)中进行实验。