王 越,杨观赐
(贵州大学 现代制造技术教育部重点实验室,贵州 贵阳 550025)
预计到2050年,65岁及以上的人口将占世界人口的17%[1]。家庭护理人员的严重短缺,导致对老年人的精神状态监测不足[2],这也同时加剧了人口老龄化的压力。老年人的精神状态影响生活的各个方面,如决策、感知、解决问题、创造力、创新和积极的社会交流[3]。目前,情绪预测和识别在人机界面、自动驾驶、教育和医疗保健等领域发挥着至关重要的作用。情绪状态的分析可以用来区分神经发育障碍,如自闭症[4]等,因此确定、监测和记录人类的神经状态(如身体压力、认知压力、情绪压力和放松)[5]对于评估老年人身心健康、改善老年人生活质量具有重要意义。
相比于传统的结合睁眼、言语和运动反应来确定人的神经系统状态[6],使用脑电EEG信号更加简单、快速、有效[7]。脑电图(electroencephalogram,EEG)通过表面或植入电极,以无创的方式收集脑电图信号,进行神经活动的监测和状态评估。但是,脑电信号的信噪比较低,使用脑电图仪需要脑电图记录仪等设备进行分析,难以应用于日常生活中。随着可监测、外围生理信号的可穿戴技术的迅速发展,便携的可穿戴医疗设备能够简单、连续对用户生理数据进行采集[8],同时可以利用生物传感器采集的外围信号的多个数据参数作为EEG信号的替代品确定神经状态[9]。腕式设备便于使用与携带,是日常生活的健康监测主要方式。智能手表可以检测心率(heart rate,HR)、皮肤温度(Temp)、血氧(SpO2)、皮肤电(electrodermal activity,EDA)和手腕加速度等。通过从处理和分析的信号中提取出异常信息,理解和评估个人的神经状态[10]。
随着机器学习和深度学习的广泛研究与应用,许多学者都开始对传感器采集的信号进行分析识别。在脑电信号情绪识别方面,文献[11]提出了滤波器组长短时记忆网络(filter-bank long shortterm memory networks,FBLSTM),以微分熵特征作为输入对EEG信号进行分类,所提出的算法模型在情绪的效价度、唤醒度、效价-唤醒平面分类上均获得了较高的准确率。然而受试者只能在固定场所进行测试,并不适合智能家庭环境下的人的情绪识别。在外周生理信号疾病分类方面,文献[12]通过戴在手腕上的设备监测心率、皮肤温度和手腕运动等信号。对这些信号运用机器学习的算法,从而准确区分个体的4种应激状态,实现对癫痫疾病的分类,其准确率达到了90%,但并没有对正常人的情绪进行识别与分析。
利用脑电信号对情绪进行识别的正确率较高,但是存在不方便携带,无法实时监测等问题。本文基于可穿戴设备获取的外周生理信号,研究基于多通道卷积注意力机制的精神状态识别方法,对精神状态进行分类,以实现智能家居环境下独居在家的老年人精神状态监测。
Non-EEG数据集[13]是由达拉斯德克萨斯大学生活质量技术实验室使用非侵入性腕戴式生物传感器收集的非脑电图生理信号,包括皮肤电活动、温度、三轴加速计(xa,ya,za)、心率和动脉血氧水平,用于推断受试者的身体压力、认知压力、情绪压力和放松等神经状态。
该数据集由20个受试者的7个阶段组成,包含每个受试者的两条记录:一条包含三轴加速度计、温度和皮肤电信号,另一条包含 SpO2和心率信号。这些信号是参与者进行4项不同的活动所采集到的生理参数,包括通过行走/慢跑、读取用不同颜色的墨水书写的颜色名称并辨别墨水的颜色、观看恐怖电影中的5分钟剪辑来分别表达身体压力、认知压力、情绪压力。其中,皮肤电活动、温度、加速计的采样率为8 Hz,心率和动脉血氧水平传感器的采样率为1 Hz。
由于受试者进行皮肤电活动、温度、加速计采集与心率和动脉血氧水平的采样率不一样,其中皮肤电活动、温度、三轴加速计采集的样本数量为18 500,而心率和动脉血氧水平的样本数量为2 312,样本数量不平衡。所以需要对心率与动脉血氧水平数据进行重采样,使之与其他类型信号数量相匹配,并进行合并。
为消除噪声对特征提取带来的干扰,在提取皮肤电信号特征时需先对皮肤电信号进行滤波处理。巴特沃斯低通滤波器能够使在通频带以内的频率响应曲线符合最大限度平坦,而在阻频率带内则缓慢降至零,能在保留成分和滤除成分之间平滑过渡,对于保持增益的平坦特性尤为关键[14],特别适合低频信号的处理。因此,选用巴特沃斯滤波器对皮肤电信号进行滤波处理,其计算方式见式(1)。
(1)
式(1)中,n表示巴特沃斯低通滤波器的阶数,Ω表示其频域中心,Ωc表示频域中心到频域平面的距离。其幅频曲线由通带、阻带和过渡带3部分组成,其中对于通带有
1-δp≤|H(jΩ)|≤1+δp,|Ω|≤Ωp
(2)
对于阻带有
|H(jΩ)|≤δs,Ωs≤|Ω|≤∞
(3)
其中,Ωp为通带边缘频率,Ωs为阻带边缘频率;δp为通带与阻带内滤波器幅值的偏差,δs为通带与理想滤波器幅值的偏差,滤波器的性能指标为
αp=-20 log10(1-δp) dB
(4)
αs=-20 log10(1-δs) dB
(5)
其中,αp为通带最大波纹,αs为阻带最小衰减。
将20位受试者的EDA数据进行提取后,用巴特沃斯低通滤波器对其进行滤波。图1为4种不同状态下的滤波结果对比图,可以看出经过滤波操作后信息曲线更加平缓连续。
卷积神经网络能有效提取输入信号的局部特征[15],但往往会忽略掉信号之间的长距离特征元素。增加池化层[16]一定程度上缓解了全局特征的问题,但池化过度可能导致原有特征丢失。
Transformer可学习信号之间的长距离依赖关系以解决RNN(recurrent neural network,循环神经网络)和LSTM(long short-term memory,长短期记忆网络)不能并行训练的限制[13]。Transformer的自注意力机制和多层感知机结构实现了复杂的空间变换和长距离特征依赖,从而实现了输入信号的全局特征表达。然而Transformer结构容易忽略信号的局部特征细节,降低局部特征和信号之间的可分辨性。
为了提取局部特征信号的同时实现信号间的长距离特征表达,本研究提出一种基于多通道卷积注意力机制的Transformer网络结构(a multi-channel convolution attention of Transformer,MCT),将基于CNN(convolution neural network,卷积神经网络)的局部特征与Transformer的全局表达相结合,以增强模型的特征提取能力。其模型结构如图2所示,其算法流程见算法1。
MCT由信号向量表示层、信号序列编码层、多通道卷积注意力计算层、信号类别判定Softmax层共4大部分所组成。其中,模型主题由卷积注意力部分和Transformer中的encoder部分组成,这两个部分构成了局部卷积块、注意力模块和MLP(multi-layer perceptron,多层感知机)单元的组合。其中多通道卷积注意力结构(multi-channel convolution attention,MCA)使用4个不同大小的一维卷积核同时对信号进行特征提取,并将卷积结果进行拼接,最后对拼接结果进行最大池化操作增加模型的感受野。
信号向量表示层将No-EEG信号进行数据预处理后转化成训练向量,并将处理过后的数据送到信号序列编码层。
信号序列编码层对处理过的No-EEG信号段进行可学习的位置编码的嵌入以表达信号的序列特征,并将序列的信息集成到矩阵运算中。
多通道卷积注意力计算层首先对编码过的信号进行不同大小卷积核的卷积,从而捕获信号全局上下文信息,建立信号之间远距离的特征关联,将各卷积核的输出拼接在一起并对其进行最大池化操作,以获得更好的全局一致性。其次将经过卷积后的数据与原数据相加,利用残差结构增加特征多样性。再次对输出进行归一化处理以保证数据的一致性,用多层感知机对输出数据进行处理,使其与输入数据的维度一致。然后在进行新一轮残差相加后进行归一化处理,并开始新一轮的训练。最后数据将输入到信号类别判定Softmax层,将计算后的信号数据进行类别概率计算,并输出所属类别。
为测试所提方法对于精神状态识别的效果,使用准确性、特异性和敏感性对模型性能进行评价。准确率(Acc)为被正确分类的心电类型所占的比例;特异性(Spe)为所有负例中被正确分类的比例,衡量了模型对负样本的识别能力;灵敏度(Sen)为所有正例中被正确分类的比例,衡量了模型对正例样本的识别能力。具体计算方式为
(6)
(7)
(8)
其中,TTP显示真正分类的阳性样本,TFN给出错误分类的阴性样本,TTN为正确分类的阴性样本,TFT为错误分类的阳性样本。
实验平台为Lenovo 7000P,其CPU为AMD-5800H,显卡为Geforce 3070,内存大小为32G,操作系统为Windows10。所提MCT使用Tensorflow框架实现。为了查看本文所提方法的性能,采用Non-EEG数据集[17]作为测试数据集,将调整后的Non-EEG数据集数据按7 ∶3的比例分为训练集和测试集。实验参数设置如表1所示。
多通道卷积注意力模块中,使用了4个大小不同卷积层、1个最大池化层。同信号数据进入多通道卷积注意力模块时,4个卷积层分别对数据进行卷积之后激活,最终将结果进行拼接并进行最大池化以提升感受野。多通道卷积注意力模块的详细参数如表2所示。
在对预处理数据进行特征提取之后,分别使用K最近邻、GradientBoosting、GaussianNB、Adaboost这4种机器学习算法对数据进行特征提取,形成特征数据集并进行训练分类、测试,准确率和损失值如图3所示。
从图3中可以看出,AdaBoost算法识别率为21.34%,相对较低,而梯度提升算法识别率为64.29%,相对较高。
图4为4种算法的混淆矩阵。观察图4可知,在识别准确率高的机器学习模型如随机森林中,对于不同的精神状态下的识别可以做到准确区分。各个算法对于初始的放松状态下的识别准确率最高,在不同精神状态下的之后的Relax2、Relax3、Relax4的放松时间段内识别效果较差。
MCT能够对生理信号数据进行端到端的识别,因此在对受试者的生理信号进行预处理后,在原有的信息以及测试时间的基础上添加受试者的身高、年龄、性别、体重等个人信息。将数据按照7 ∶3的比例分成训练集以及测试集。使用训练数据对基于多通道卷积注意力机制的精神状态识别网络进行训练,然后用测试集对网络模型进行测试。其准确率和损失值如图5所示。
观察图5可知,在Epoch到达40之后,算法的Accuracy和Loss开始收敛,Accuracy提升到99.75%以上,Loss下降到趋近0,表明基于多通道卷积注意力机制的精神状态识别算法能对多模态传感器数据的人体精神状态具有较强的识别能力。基于多通道卷积注意力机制的精神状态识别算法的混淆矩阵如图6所示。
观察图6可知,基于多通道卷积注意力机制的精神状态识别模型能有效识别不同场景下的精神状态,模型对于受试者正常情况下的放松状态的识别效率最高;在经历不同压力状态后转变的其他类型的放松情况,如Relax2、Relax3、Relax4,存在部分错误,其原因可能是受试者精神状态转变存在过渡,在状态转变的临界点前后对受试者精神状态的定义并不准确。
图7为传统的基于特征提取的机器学习算法和基于多通道卷积注意力机制的精神状态识别模型在相同条件下的精神状态识别准确率和损失值。
观察图7可知,MCT算法的识别准确率为99.75%,高于对比算法,Loss值为0.01,低于对比算法。表3为各个算法的评价指标统计结果。
本文提出了一种用于精神状态分类识别的多通道卷积注意力机制网络模型。输入的信号为5种不同的生理信号值,此方法能够提取多生理信号数据的局部相关特征和信号间的长距离特征,并最终实现精神状态的7分类。相比比较算法,MCT拥有更高的分类准确性,其MCA模块使用不同大小的卷积核对数据进行同时提取,增强了特征的提取能力。
在未来工作中,根据老年人不同的生活方式,针对性地采集更多精神状态数据对模型进行优化,以克服个体差异带来的影响等方面值得进一步研究,建立更加精确的精神状态分类模型,从而达到对老年人的精神状态更细化的分类。