基于深度主题模型的飞行员脑疲劳检测

2022-09-17 13:50陈琪琦彭献永

电子学报 2022年8期

吴奇，陈琪琦，彭献永，仇峰

（1.上海交通大学自动化系，上海 200240；2.系统控制与信息处理教育部重点实验，上海 200240；3.上海工业智能管控工程技术研究中心，上海 200240；4.中国矿业大学低碳能源与动力工程学院，江苏徐州 221116）

1 引言

现代高性能战斗机具有很高的机动性能，其在飞行中产生的正加速度可高达+9 Gz，持续时间可达15～45 s，并可反复出现，已超出了人体正常的耐受限度.持续性正加速度（+Gz）影响的主要生理表现为身体体重增加，器官沿惯性力方向发生变形、移位，流体静压力增大，血液发生惯性转移和重新分布，从而导致各种生理障碍.+Gz 致意识丧失（G-induced Loss Of Consciousness，G-LOC）的机理及其预警和防护是航空医学的重要问题.因此，如何进一步提高飞行员的认知状态识别水平和防止G-LOC 的发生仍然是当前航空医学中最关注的问题之一.因此，有必要对飞行员脑疲劳认知状态推理进行研究.

2 相关工作

2.1 脑认知指标及图谱

Ma等［1］通过记录驾驶数据和眼动数据预测驾驶员的疲劳状态，他们的研究缺乏疲劳状态指标定义.Setiawan 等［2］分析14通道脑电信号（Electroencephalogram，EEG）信号的频谱特征，使用支持向量机预测受试者的精神疲劳状态.单一通道的频谱特征难以反映大脑的认知状态.Karuppusamy 等［3］用神经网络处理EEG数据，预测驾驶员的疲劳状态.他们的研究同样也缺乏疲劳指标的定量表示.目前的方法在脑疲劳指标与脑认知图谱生成方面明显表现不足.

EEG 信号是脑疲劳检测的重要手段.常用EEG 信号时域评价方法包括相关性分析、峰值检测和波形参数分析等.在疲劳状态下，不同节律波形会出现变化，它们的能量和熵也会相应变化.Jap 等［4］通过δ，θ，α和β节律在驾驶过程中变化的规律，判断驾驶员的疲劳状态；Siemiono 等［5］通过节律θ变化来判断实验人员处于疲劳还是非疲劳状态；Papadelis等［6］发现在疲劳引起的驾驶事故前，驾驶员的节律α会明显增加，香农熵和KL（Kullback-Leibler）熵明显降低.

上述研究表明，疲劳与α，β，θ，δ四个节律密切相关.一般情况下，慢波δ和θ节律能量在疲劳时会增加，而快波α和β会相应地减少.反映到功率谱，δ和θ的功率会增加，α和β的功率会减少.更多的研究显示，可以用相对节律功率比来判断一个人疲劳认知状态变化［7］.

单通道的异常信号会对整体的识别效果有较大影响，存在对整体采集到的信号利用不足等问题.目前已有的脑地形图方法虽能够较精确地反映全局通道的特征，但疲劳状态的分析往往与多个频率带相关，若采用脑地形图进行分析，一次需要结合多种脑地形图，人工经验无法形成统一的判断标准，因此需要一种能够获得全局信息且可以反映人体疲劳状态的脑电信号特征处理方式.鉴于此，本文建立一种可表示大脑认知状态的脑功率图谱.

2.2 脑状态推理模型

基于脑电信号的疲劳检测传统机器学习方法受限于人工挑选特征，机器学习方法特征学习能力不强的问题，很难在高可靠性的场景中达到可以信赖的分类精度.近年来，深度学习方法在很多领域获得了很大的成功.许多学者积极探索基于脑电信号的疲劳检测问题中应用深度网络学习的可能性，为此提出了很多可能的解决方案.

Hinton 开拓了深度学习的研究领域.随后，他的研究成果被许多研究者跟进［8～10］.目前应用于脑电信号特征提取的深度学习网络包括：基于受限玻尔兹曼机的深度置信网络，自编码网络以及卷积神经网络等［11～13］.Zheng 等［11］使用深度置信网络构建基于脑电信号的情感分类识别系统，得到了86.08%的分类正确率，相较于支持向量机，逻辑回归和最近邻算法等方法都有一定的正确率提升.Li 等［12］使用降噪自编码网络提取脑电信号特征，结果显示模型能够从不完整的脑电信号中解码出较好的认知特征.Cecotti 等［13］在对脑电信号进行傅里叶变换的基础上，使用4 层卷积神经网络提取特征，得到了不错的识别效果.Alhussein 等［14］使用深度卷积网络处理脑电信号，进行相关病理研究，得到了87.96%的正确率.Song 等［15］用深度多任务学习方法处理EEG 信号，识别精度提高了3%.Bhardwaj 等［16］使用深度自编码器分析EEG 信号，判断驾驶员的疲劳状态，得到了良好的分类效果.孙等［17］基于脑电信号对同一肢体不同动作的想象模式进行识别.张等［18］使用变分模态分解的方式对癫痫脑电信息进行分类，准确度达到了94.24%.Ahmed 等［19］使用深度信念网络处理EEG 信号，分类精度比支持向量机提高了10%以上.Gao 等［20］使用3 层受限玻尔兹曼机处理EEG 信号，为情感计算开辟了崭新的思路.Yang 等［21］使用复杂网络的方法对脑疲劳进行探测.Zhang 等［22］使用时空建模的分析方法，对脑活性进行分析.Ming 等［8］使用深度Q 学习对驾驶员的睡意状态进行建模.Lin 等［9］使用一个4D 卷积循环网络对脑的动态状态进行建模，实现了驾驶性能的预测.Du 等［10］使用了一个卷积模糊循环网络，实现了驾驶员疲劳.Wu等［23］定义了8 个认知指标，建立一种层次狄利克雷-隐半马尔可夫模型，推理飞行员脑认知属性，这是一个无监督学习过程.Wu 等［7］建立了一种深度收缩自编码网络学习4 个认知指标，识别飞行员脑认知状态，这是一个有监督学习过程.

本文的工作是获取3个强相关的认知指标，形成脑功率图谱，建立一种概率生成模型，即深度狄利克雷主题模型，学习脑功率图谱的认知概率分布.

当前的脑疲劳检测方法一般都是将深度学习模型直接应用到脑电信号或脑地形图中，并没有考虑到脑电信号独有的特性.而且当前深度学习模型的可解释性不强，泛化能力较弱，无法应用到脑认知图概率分布推理中.为了克服这些缺陷，结合脑电信号的独有特性，本文探索了基于贝叶斯主题模型［24］的疲劳状态探测模型.相比于无监督主题模型［24］，本文对深度潜变量狄利克雷模型中的全局变量做了特征化处理，将其与输入向量的积作为Softmax 分类器的输入，将疲劳状态作为有监督的标签，建立了一个有监督的深度潜变量狄利克雷模型（Deep Latent variable Dirichlet Model，DLDM）.

DLDM 用和对数分布反向传播前一层神经元，扩充下一层的神经元个数.采用多项式分布分割扩充的观测向量，产生宽度矩阵，进行行求和形成下一层观测向量，逐层类推，形成多层概率生成模型.设计一种随机梯度马尔科夫链蒙特卡洛（Stochastic Gradient Markov Chain Monte Carlo，SG-MCMC）方法获得合适的DLDM模型参数后验分布［20，25］.另外，DLDM 的费舍尔信息矩阵（Fisher Information Matrix，FIM）［26］的块对角结构使SG-MCMC 方法实现分批训练.训练过程中构造基于FIM 的二阶协方差的学习率，实现各个主题-层之间自适应学习.这些方法帮助模型更好地学习脑功率图谱中蕴含的脑疲劳信息，实现脑疲劳认知概率分布检测模型.

本文主要工作为：（1）构造了面向认知的脑功率图谱，定义了脑疲劳认知指标，它表征一个人的脑疲劳认知状态；（2）建立了一种深度潜变量模型DLDM，模型全局参数作为脑疲劳状态特征向量，推理飞行员脑功率图谱的认知概率分布特征，揭示了脑疲劳状态演变规律；（3）定义一种SG-MCMC 参数优化方法，实现DLDM模型参数的有效推理，该方法不仅可以分批训练，而且实现了不同主题与层之间自适应学习，以此改善了模型参数推断速度.

3 疲劳评价指标及脑功率图谱构建

3.1 疲劳指标

每个节律的功率可以用该节律段功率密度的和表示，即功率密度曲线对应频率带内的面积.文献［4］设计了4个节律信号的功率比作为疲劳认知指标：

飞行员在非疲劳与疲劳两种不同状态下的4 个疲劳认知指标如文献［26］中的描述，如图1 所示.其中，横轴表示不同的样本，纵轴表示认知指标值.与横轴平行的线表示认知指标的平均值.相较于非疲劳状态，疲劳状态下4 个指标都有升高的趋势：(α+θ)/β增加了1.6，(α+θ)/(α+β)增加了2.05，θ/β增加了1.5，α/β增加了0.45.显然，(α+θ)/β，(α+θ)/(α+β)和θ/β指标增强的幅度更为显著.这说明这3 个指标对疲劳状态的变换比较敏感.

图1 脑疲劳认知指标趋势

3.2 基于疲劳指标的脑功率图谱

电极分布在三维空间上，考虑到实际电极空间信息的保留与模型复杂度带来的计算资源开销与精度损失，文中采用二维的脑功率图谱作为深度主题模型输入.为了真实地还原电极位置的球面特性，采用了等距方位投影［27］的方法将电极三维拓扑位置映射到二维平面上（如图2），整合3 个认知指标，生成一张脑认知图谱，如图3所示.

图2 原三维空间电极位置及二维空间投影图

图3 脑功率图谱

脑功率图谱具体转换过程如下.

（1）根据等距方位投影方法将64 个电极位置投影到二维平面上.

（2）提取每个电极的脑电信号的4 个节律，用Welch 方法计算它们的功率谱密度曲线，按照式（1）获得3个认知指标：(α+θ)/β，(α+θ)/(α+β)和θ/β.

（3）将64 个电极位置投放到64×64 的空白图像上，3 个认知指标分别可以产生3 张单通道图像，每个图像上只有64 个电极像素点有初始值，其余置为0.对于每幅图片，采用双立方插值算法，计算出相邻两个电极点之间的像素插值，并将每个通道图片的像素点值进行归一化处理.

（4）每个样本产生的3 幅灰度图像，将3 幅灰度图像合并，即可以得到一个3通道的RGB 彩色图像.进一步重复（1）～（3），可以生成基于3 个疲劳指标的脑功率图谱集合.

4 深度潜变量狄利克雷模型

DLDM 模型把复杂的多元概率分布的参数作为数据的概率特征，抽象出由浅入深的多层概率特征，联合训练所有层的模型参数，形成有监督的深度潜变量狄利克雷模型DLDM，实现脑疲劳认知状态的有效分类.

4.1 模型构建

DLDM 中每一层用和对数分布反向传播其潜变量神经元，扩大下一层的神经元个数.用多项式分布推理下一层宽度出现的概率，将扩展后的观测向量进行分割，合并成与下一层宽度关联矩阵，进一步行求和，形成下一层观测向量.依此类推，形成主题状态的推理结果，模型结构如图4所示.

图4 DLDM模型结构与推理

DLDM模型定义如下：

式（2）的前4行可表示为伽玛负二项分布产生的随机计数矩阵.进一步，这4行可表示为

4.2 模型参数推理

吉布斯采样要求每一次迭代都要处理所有的数据，它不利于大数据并行处理.而SG-MCMC可以较快地处理数据.它可以在迭代中产生全局共享参数的后验采样.

在SG-MCMC，定义半正定扩散矩阵D(z)，维纳过程W(t)，反对称的旋度矩阵Q(z)，Γi(z)是补偿向量Γ(z)的第i个元素.下采样后小批量的数据的更新规则为

5 实验

5.1 数据来源

实验设备为国内某航空研究所模拟飞行器.参与人员是40 名有丰富经验的一线飞行员.脑电信号采集装置是国际通用的10-20 系统，采样频率是160 Hz.飞行共计4 个小时，飞行开始前采集脑电信号，此时为零工作负荷，记为状态1；开始后进行1.5 h 轻度压力模拟实验飞行，后半个小时采集脑电信号，此时为轻度压力状态，记为状态2；随后进行1.5 h中度压力模拟飞行，有轻微气流干扰，同样后半个小时采集脑电数据，此时为中度压力飞行，记为疲劳状态3；最后一个小时进行高负荷状态的起飞降落实验，后20 min 采集脑电数据，此时为高压疲劳状态，记为疲劳状态4.

实验采集到40 个脑电信号样本，考虑到不同个体之间的差异性，在每个阶段结束时，对实验人员做NASA-TLX 量表和karolinska 困倦度量表测试，量表的测试结果反映飞行员当前的疲倦状态，作为数据状态点选择的参考.为了排除每个阶段刚开始和结束时干扰，截取每段信号的中间12 min 信号作为实验中需要的数据.采集到的信号通过带通滤波器提取出θ，α和β节律，每4 s 一个窗口，12 min 的脑电信号共生成脑功率图谱720 张（12 min×4 个阶段×60 s/4 s=720 张）.这样40 个飞行员，一次任务范式下就能够生成40×720=28 800 张脑功率图谱.仿真取每个飞行员的50 张图，40名飞行员共计2 000张飞行员脑功率图.表1提供了不同特征输入下的脑认知状态推理精度.使用标准的CNN 网络处理这些特征.结果显示脑功率图谱较单个节律的认知推理能力要强.

表1 不同特征的脑认知状态探测精度

5.2 脑疲劳推理

飞行员脑疲劳主题状态推理是一个多分类问题.本实验中，本文收集的疲劳状态为4 类数据.实验中，DLDM模型的输入是脑功率图谱.实验选用TLASGR 方法推断DLDM模型的后验参数.实验训练数据量2 000，批处理数据量400，自适应学习率服从式（6）和式（7），模型超参数：η(l)=，a0=b0=0.01，γ0=c0=e0=f0=1.

为了验证均值减少特性的TLASGR 参数化方式的有效性，实验采用如下3种优化算法.

（1）TLASGR：具有均值减少的主题与层间自适应学习率随机梯度黎曼马尔可夫链蒙特卡洛方法.

（2）TLFSGR：具有均值减少的主题与层间固定学习率随机梯度黎曼马尔可夫链蒙特卡洛方法.将TLASGR中学习率替换为固定的

设计3种网络结构如下：128-64-32，128-64和128.128-64-32 代表3 层网络结构，自顶向下每一层神经元个数为128，64和32.网络分类性能指标包括脑疲劳状态分类准确率和模型学习时间.从表2 中可以看出，随着网络层次和宽度增加，整个网络结构越深，对应的认知状态推理能力越好.均值减少的参数化方式（TLASGR 与TLFSGR）要比均值增加的参数化方式SGRLD 运算速度快得多，分类精度上大致相当.网络各层特征的分类效果如表3 所示.显然，随着网络层次的增加，DLDM+TLASGR 模型推理脑疲劳认知状态的正确率逐步提升.

表2 不同网络结构的实验结果

表3 网络各层特征分类效果

5.3 特征知识图谱与模型收敛性

DLDM 学习到的特征是每一层各个神经元的先验，即伽玛分布的形状参数.这些形状参数可以表示为脑图谱特征.图5 表示了不同推断方法不同层的特征参数可视化结果.从特征图中可以看出，深层网络结构中顶层特征规律性最强，同时也可以发现特征图之间的差异性越大，分类准确率越高.连续时间窗口内的特征图谱可以看作大脑认知状态字典，每一个小方格是字典元素，这样整个脑功率图谱可以认为是这些字典元素的加权组合.从这个层面看，DLDM 顶层特征图谱大大降低了字典元素个数，提取出更为抽象的特征.网络层次增加有利于提取脑功率图谱中蕴含的显著疲劳认知知识.

SGRLD：采用SGRLD 推理网络结构参数，获得对应的特征如图5 左边一栏.随着网络层次的增加，学习到的字典特征更加显著，对应的分辨正确率也从81%增加到90.29%.

TLFSGR：采用TLFSGR 推理DLDM 模型参数，如图5 中间一栏.在3 层网络结构中，第一层网络输出的特征给出的分类正确率为36.57%，第二层网络的特征给出的正确率为78.83%，当网络层次达到3 时，对应的分类正确率为89.10%.

TLASGR：采用TLASGR推理网络结构参数，如图5右边一栏.在3 层网络结构中，底层网络学习到的像素特征差异性较小，高层网络学习到的特征差异性较大.对应的分类正确率也从79.40%上升到89.15%，它的性能与SGRLD方法的较为接近.当网络层次为2层时，模型的分类正确率达到89.11%，与SGRLD 方法的89.10%几乎相等.因此，两层结构的TLASGR 方法可以作为兼顾准确率与效率的最佳选择，作为DLDM 模型的参数优化方法.

图5 网络模型的特征图谱

图6展示3种参数优化算法的收敛性.实验使用了分批处理的方法，每一批数据独立学习网络参数.曲线出现跳跃的地方是切换训练数据的时间点.显然，使用均值减少的参数化方式（TLFSGR，TLASGR）要比均值扩张的参数化方式（SGRLD）收敛得更快、更平稳.3 种参数推断方法中，自适应学习率的方法（TLASGR）收敛速度快而平稳，且时间消耗最少，是最有效的参数推断方法.这与由表2得出的结论一致.

图6 不同参数推断算法收敛曲线

5.4 不同深度学习模型对比

表4显示了DLDM模型与其他深度网络模型的性能差异.对比模型主要包括DBN，CNN［12］和EEGNet［30］.其中DBN和CNN 模型运用本文的脑功率图谱作为输入，实现脑疲劳状态检测.EEGNet 方法使用原文献中的处理方法解决疲劳检测任务.结果显示，DLDM 模型分类正确率比DBN和CNN 模型提高了3%，比最新提出的EEGNet网络提升了2%.

表4 DLDM模型与其他深度模型对比

6 总结

本文设计了3 个脑认知指标，生成了任务背景下的脑认知图谱，建立了基于深度主题网络的飞行员脑疲劳状态推理模型.将无监督深度狄利克雷模型［25］中的全局变量与输入向量的积作为认知状态的特征，建立了一个有监督的深度潜变量狄利克雷模型DLDM.在DLDM 中，单纯形约束参数使用了均值降低方法实现快速采样，构建TLASGR-MCMC 方法推理DLDM 模型参数.结果显示它获得了较好的DLDM 模型参数推断效果.本文方法的优势可以归纳如下.

（1）生成了一种新脑功率图谱，解决了脑认知状态图像构建问题.通过64 个通道节律疲劳指标等距变换投影得到飞行员脑疲劳认知状态的特征图像.脑功率图谱可以有效地解决目前脑图谱表达认知能力弱的问题.

（2）建立一种新的深度主题学习模型，解决脑认知图谱认知状态推理问题.运用主题-层间自适应随机梯度下降法优化DLDM 模型参数.使用分批学习，在有限时间和计算资源中实现了大数据背景下的概率生成模型参数优化计算，推理出疲劳认知网络模型结构.通过多组对比实验，得出自适应学习率的TLASGR方法在参数推断中效果较好，既保证了正确率，又兼顾了模型效率.