张洁,庞丽萍,完颜笑如,*,陈浩,王鑫,梁晋
1.北京航空航天大学 航空科学与工程学院,北京 100083 2.中国船舶工业综合技术经济研究院 船舶人因工程实验室,北京 100081
随着科学技术的发展,人-机系统中人的作用更多地趋于高级决策和监控,使得现代人-机系统中体力劳动不断减少而脑力劳动不断增加,作业人员往往处于较高的脑力负荷状态。研究表明,较高的脑力负荷会引起快速疲劳、失误增加和决策错误,是导致人因事故的重要原因;过低的脑力负荷会造成人力等资源浪费、引起厌恶感,导致作业绩效下降[1]。因此,作业人员脑力负荷的评估是人因工程领域一项重要的研究课题,对铁路司机、飞行员等危险岗位显得尤为重要。
脑力负荷的测量方法主要有主观测评法、行为绩效测评法和生理测评法[2-3]。主观测评法和行为绩效测评法由于具有时间滞后性等特点[4],难以应用于脑力负荷状态的实时评估。基于生理信号的脑力负荷监测由于客观性、实时性和较小的任务侵入性等优势日益成为研究热点[5-6]。采用的生理信号主要有3大类:脑电信号(EEG)、眼电信号(EOG)和心电信号(ECG)[7-8]。其中,分析脑电指标随脑力负荷变化的特点及规律并采用数学算法建立脑力负荷评估模型是脑力负荷研究中使用最多的方法[9-10]。
Garrett等[11]开展了基于线性、非线性和特征选择方法的EEG信号分类模型研究,结果表明非线性分类方法建模效果优于线性分类方法建模效果。基于EEG信号的非线性分类方法中,支持向量机(SVM)和神经网络(NN)被广泛关注。目前,NN模型是一个黑箱子模型,其推理过程和推理依据无法解释,其理论和算法仍需进一步完善和提高。SVM模型由于具备推导过程清晰、可避免陷入局部最优值、性能好的优势吸引了众多学者研究[12-15]。然而,现有研究关于利用EEG信号建立基于SVM的分类模型研究中未仔细讨论模型参数确定方法,倾向于单个角度评价模型效果。因此,在MATB-Ⅱ平台上通过设置航空情境任务的不同唤醒频次诱发低负荷、中负荷和高负荷情境,记录被试在不同脑力负荷水平下的NASA任务负荷指数(NASA-TLX)量表数据和EEG信号,通过NASA-TLX数据的重复测量方差分析结果验证实验任务设计的合理性,通过傅里叶变换提取EEG信号的功率谱密度特征,采用SVM建立基于功率谱密度的脑力负荷评估模型,并进一步利用网格搜索法优化模型参数,利用多指标评价模型效果。
实验的被试为16名北京航空航天大学的研究生(年龄(23.4± 0.8)岁,15名男性,1名女性),身体健康,右利手,视力或矫正视力正常,记为Sub 1~Sub 16。为确保实验脑电数据的客观性,要求被试在实验前24 h内保证充分的睡眠及良好的精神状态,不饮用含有咖啡因、酒精的饮料,不服用任何药物。实验前,对被试进行实验任务培训,使被试充分了解实验流程,熟悉任务操作。
1.2.1 实验任务
采用基于多任务航空情境操作的MATB-Ⅱ平台实现系统监控任务、追踪监控任务、通信监控任务和资源管理任务[16],并采用莱仕达飞行摇杆、键盘和鼠标完成与MATB-Ⅱ平台的人机交互。通过不同的任务唤醒频次设计3个实验水平:低负荷、中负荷和高负荷。低负荷、中负荷及高负荷水平下,每种任务分别呈现1、12、24次。为了平衡练习和疲劳效应,实验采用拉丁方设计。
MATB-Ⅱ平台任务界面如图1所示。
图1 MATB-Ⅱ平台任务界面Fig.1 Task interface of MATB-Ⅱ
1.2.2 主观测评方法
采用的主观测评法为NASA-TLX量表。被试通过填写NASA-TLX量表从脑力需求、体力需求、时间需求、努力程度、业绩等级和受挫程度这6个评价维度测评自身脑力负荷值。
采用NASA-TLX量表评价脑力负荷包括以下主要过程[2]:
1) 要求被试认真阅读NASA-TLX量表6个维度的详细说明,并根据自身实际情况对各维度进行评分。
2) 采用两两比较的方法,要求被试选出每对中对脑力负荷贡献更多的维度,确定NASA-TLX量表各维度对总脑力负荷的权重。
3) 总脑力负荷值为6个维度的加权平均值。分值越高表示脑力负荷越大。
1.2.3 脑电采集系统
采用国际脑电图学会标定的10-20电极导联定位标准[17],利用Neuroscan Neuamps系统(Synamps2,Scan4.3,EI Paso,USA)采集32导联脑电(FP1、FP2、F7、F3、FZ、F4、F8、FT7、FC3、FCZ、FC4、FT8、A1、T3、C3、CZ、C4、T4、A2、TP7、CP3、CPZ、CP4、TP8、T5、P3、PZ、P4、T6、O1、OZ、O2),同时记录垂直眼电(VEOG)和水平眼电(HEOG)。在线参考电极设为单侧乳突(A1),离线分析转换参考为双侧乳突(A1、A2)的平均[18]。实验过程中要求各导联阻抗均小于5 kΩ,采样率为1 000 Hz,记录带宽为0.1~200 Hz。脑电采集系统如图2所示。
图2 脑电采集系统Fig.2 EEG acquisition system
根据生物钟时间表及主观问卷调查,确定实验时间为上午9:00~12:00[19]。被试到达实验室,先接受实验培训,之后佩戴脑电帽。实验准备工作完毕,先进行静息实验,之后按着拉丁方设计顺序依次开展3种不同脑力负荷水平实验,同时记录所有实验的EEG信号。每一水平的脑力负荷实验结束后,均要求被试填写NASA-TLX量表,并适当休息。实验流程如表1所示。
表1 实验流程Table 1 Experimental process
SVM是建立在统计学习理论中结构风险最小化原理基础上的一种机器学习算法,通过核函数将数据投影到一个特征空间进而寻找最优超平面以建立模型,在解决小样本、非线性问题中具有一定的优势[20-21]。SVM的学习能力和泛化能力受核函数及参数影响。高斯核函数(RBF)由于其映射维度广、决策边界多样和表现稳定等优点,被广泛应用于基于SVM的分类研究[22]。因此,选用RBF核函数开展个体脑力负荷模型研究,惩罚系数C和核函数参数gamma的优化选择是建立个体脑力负荷评估模型的重要步骤之一。考虑到网格搜索法具有可得到全局最优解的优点[22-23],利用网格搜索法确定个体脑力负荷评估模型的C和gamma。
(1)
式中:P为功率谱密度;X为EEG信号;F为快速傅里叶变换;F*(X)为F(X)的共轭;fs为采样频率,这里取1 000 Hz;n为EEG信号采样点个数,这里取1 024。
(2)
式中:Pf为频率f下的功率谱密度值;fα、fβ、fθ、fδ分别为α、β、θ和δ节律频率范围。其中:
(3)
图3展现了低负荷、中负荷和高负荷下16名被试平均能量的脑电地形图。可知,随着脑力负荷增加,4种节律的能量均不断增大,且低负荷和中负荷之间的变化相较于中负荷和高负荷之间的变化更明显,这可能与不同脑力负荷水平下任务唤醒频次设计有关。
图3 4种节律能量的脑电地形图Fig.3 EEG maping of four rhythm activities
为建立个体脑力负荷评估模型,个体数据库由单个被试3种脑力负荷实验的120个EEG特征(30个电极点×4维能量特征)和脑力负荷标签组成,其中,低负荷标记为0,中负荷标记为1,高负荷标记为2。以75%∶25%的比例随机划分个体数据库为训练集和测试集,并利用式(4)对训练集和测试集分别进行归一。利用四折交叉验证得到可靠稳定的模型,利用测试集评估模型效果。
(4)
分类模型最常用的性能度量之一为正确率。考虑到正确率只能反映单个分类阈值下的建模结果,采用正确率、受试者工作特征(ROC)曲线和ROC曲线下的面积(AUC)两种分类模型性能度量以更充分全面地展现模型效果。
正确率是分类正确的样本数占样本总数的比例[20]。ROC曲线以真正例率(TPR)为纵坐标、假正例率(FPR)为横坐标,描述了灵敏度和特异度与分类阈值的关系[20],越靠近左上角,模型越可靠。AUC是ROC曲线的衡量指标[20],AUC越大,模型整体效果越佳。
由于本研究为三分类模型,采用宏平均受试者工作特征(Macro-ROC)曲线和Macro-ROC曲线下的面积(Macro-AUC)描述多分类模型效果。
NASA-TLX量表数据分析结果如下:
1) 低负荷、中负荷和高负荷下,NASA-TLX得分分别为39.8±15.0、51.5±10.0和63.7±8.2。这表明随着实验设计脑力负荷水平增加,NASA-TLX得分均值不断升高,标准差不断降低。
2) 重复测量的方差分析表明,负荷水平对NASA-TLX得分的主效应具有统计学意义(F=35.587,p<0.001)。事后最小显著性差异(LSD)法分析表明,低负荷水平的NASA-TLX得分显著低于中负荷水平(p<0.001)和高负荷水平(p<0.001);中负荷水平的NASA-TLX得分显著低于高负荷水平(p<0.001)。
上述结果表明该实验成功地诱发了不同的脑力负荷情境,为后续生理数据的分析奠定基础。
由2.1节可知,SVM有两个关键参数,分别为C和gamma。通过四折交叉验证和网格搜索分别确定16名被试个体脑力负荷评估模型的优化参数。其中,C的网格搜索序列为{0.01,0.05,0.1,0.5,1,5,10,50,100,500,1 000,2 000,3 000,4 000,5 000,6 000,7 000,8 000,9 000,10 000},gamma的网格搜索序列为{0.000 01,0.000 05,0.000 1,0.000 5,0.001,0.005,0.01,0.05,0.1,0.5,1,5,10,20,30,40,50,60,70,80}。进一步考虑到实际应用方便,通过对16名被试个体脑力负荷评估模型的网格搜索结果进行叠加平均以确定一组适用于多被试的优化参数。
最终确定个体脑力负荷评估模型的统一优化参数为C=3 000、gamma=0.000 1,如图4所示,其中正确率为由四折交叉验证的平均验证正确率。
图4 SVM网格搜索结果与统一优化参数Fig.4 SVM grid search results and unified optimization parameters
在C=3 000、gamma=0.000 1的参数设置下,分别建立16名被试的个体脑力负荷评估模型。模型正确率如表2所示,Macro-ROC曲线如图5所示,Macro-AUC如表3所示。
表3 个体脑力负荷评估模型Macro-AUCTable 3 Macro-AUC of subject-specified mental workload discrimination models
图5 个体脑力负荷评估模型Macro-ROC曲线Fig.5 Macro-ROC curves of subject-specified mental workload discrimination models
由表2可知:
表2 个体脑力负荷评估模型效果Table 2 Modeling results of subject-specified mental workload discrimination
1) 个体脑力负荷评估模型训练集正确率在0.969 5~1.000 0之间,平均值为0.994 3,标准差为0.009 3。测试集正确率在0.887 9~0.993 1之间,平均值为0.966 5,标准差为0.029 8。总体来看,个体脑力负荷评估模型正确率远远大于概率水平33%。
2) 个体脑力负荷评估模型之间的模型效果不同,其中,被试5和被试14的模型分类正确率最高,被试3的模型分类正确率最低,这可能与个体对任务负荷的感知差异等因素相关。
由图5和表3可知:
1) 个体脑力负荷评估模型的Macro-ROC曲线大多十分靠近左上角(完美分类点为FPR=0、TPR=1)。由于Macro-ROC曲线越靠近左上角,模型越可靠,被试3的模型可靠性相对最低,其次是被试13。
2) 个体脑力负荷评估模型的Macro-AUC在0.957 3~0.999 8之间,平均值为0.991 0,标准差为0.011 4。除Macro-ROC曲线中观察到的现象外,可观察到被试1的模型可靠性相对最高,其次是被试4。
综合多指标的模型评价结果表明针对16名被试的个体脑力负荷评估模型均取得了较佳的建模效果。值得说明的是,建立的评估模型均基于MATB-Ⅱ平台的EEG信号,考虑真实作业环境任务的复杂性和多变性,针对跨任务的脑力负荷评估技术仍值得进一步的研究。
综合采用主观测评法和脑电测量法,在MATB-Ⅱ平台对16名被试分别开展了低、中、高脑力负荷水平下的实验测量和个体脑力负荷评估模型的建模研究,结果表明:
1) 通过设置MATB-Ⅱ平台航空情境任务唤醒频次可诱发不同的脑力负荷情境。
2) 即使EEG信号存在较大的个体差异性,基于EEG的多被试个体脑力负荷评估模型可以实现SVM优化参数统一,极大地方便了实际应用。确定16名被试个体脑力负荷评估模型的统一优化参数为C=3 000、gamma=0.000 1。
3) 针对16名被试建立的个体脑力负荷评估模型,训练正确率达到0.994 3±0.009 3,测试正确率达到0.966 5±0.029 8,Macro-AUC达到0.991 0±0.011 4。总体看来,利用EEG信号和SVM建立脑力负荷评估模型为作业人员脑力负荷的客观评估提供了一种高精度的新方法。