张金辉,郑宇博,邹 冰,申 牧,罗莹莹,李 蕾
(1.解放军总医院服务保障中心装备保障室,北京 100853;2.北京邮电大学人工智能学院,北京 100876)
脑机接口(brain-computer interface,BCI)利用计算机与人的中枢神经系统进行交流和控制,是结合了神经科学、信息科学等众多学科的重要研究方向[1]。一个完整的BCI系统的工作流程包括脑电(electroencephalogram,EEG)信号采集、信号预处理、特征提取、分类和反馈控制[2],如图1所示,其中特征提取和分类是BCI研究的重点[3]。运动想象(motor imagery,MI)是BCI研究中非常重要的实验范式之一[4],MI过程中,受试个体想象某种肢体运动而不进行真实的动作,其大脑感觉运动区域的EEG会发生变化[5]。BCI采集MI过程中的EEG信号,并通过MI分类模型进行特征提取和分类,可以将受试者的MI意图转化为指令,利用此方法,运动障碍患者经过训练,可以通过想象肢体的运动来控制外部的机械设备,对改善其生活水平具有重要意义[6]。
图1 运动想象BCI示意图
数据之间存在的差异大大地降低了MI分类模型的分类效果,该差异主要体现在两方面:一方面,EEG是一种非线性、非平稳的信号,不同采集个体之间表现出很强的个体性差异[7-9];另一方面,不同的采集方式和实验环境会导致不同研究团队采集的EEG数据存在系统性差异[10-11]。已有的多个公开数据集之间也存在这两方面的差异[12-14],使得研究人员难以同时利用多个数据集进行训练和测试。
最近,有研究人员针对个体性差异提出了一种在欧氏空间中进行数据对齐的策略[15],该策略可以增强模型在跨个体之间的泛化能力。然而,由于不同的EEG采集方式和实验环境所导致的系统性差异,模型的泛化能力仍然亟待提升[16]。针对2种差异问题,2021年神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems,NuerIPS)提出了跨数据集的MI分类问题[17],需要利用竞赛提供的包含数百名个体且采集方式和采集环境有差异的多个源数据集训练模型,并在新数据集中进行MI分类,新数据集的个体、采集方式和采集环境与源数据集均不相同。
目前,已有的基于EEG的分类方法主要有2类:
第一类方法针对EEG的特点,设计算法提取特征,再利用机器学习方法分类[18-19]。针对MI,有研究人员根据EEG的不同频率计算频带能量密度[20],或进行短时傅里叶变换[21](short time Fourier transform,STFT),从时频谱图的角度进行特征提取;为了保留EEG信号的空间相关性,有研究人员提出共空间模式(common spatial pattern,CSP)特征[22],该方法通过计算空间滤波器来最大化不同MI类别间的判别度,以提高模型的分类能力;有研究人员提出滤波器组共空间模式[23](filter bank common spatial pattern,FBCSP),该方法利用带通滤波器将数据划分为多个子频带,计算各频带对应的CSP特征,然后利用机器学习的分类器进行分类。CSP和FBCSP方法对MI分类的研究产生了深远影响,被广泛应用在MI分类的研究中[24-25]。正则化共空间模式(regularized common spatial pattern,RCSP)[26]通过参数规范化空间滤波器,减小CSP的估计偏差。子带共空间模式[27](sub-band common spatial patterns,SBCSP)通过改进FBCSP方法的特征选择方式来提升MI分类任务的效果。此类利用固定算法提取特征的分类模型多针对个体性差异而采用归一化方法[28-29],对于解决系统性差异的研究较为欠缺。
第二类方法利用神经网络进行特征提取和分类。用于EEG的小型卷积神经网络EEGNet是一种可应用于多种范式的卷积神经网络[30],EEGNet利用时域卷积、空间卷积提取EEG信号的时空特征,利用可分离卷积,在时域上整合每个特征映射,优化合并输出并分类。卷积循环注意力模型(convolutional recurrent attention model,CRAM)是一种用于跨个体EEG信号分析的神经网络方法[31],包括一个卷积神经网络和循环注意力网络,卷积神经网络用于提取EEG信号空域和时域特征,长短期记忆(long shortterm memory,LSTM)网络和注意力模型组成的循环注意力网络用于提取不同切片之间的时域动态信息并分类。也有研究人员基于大量图像数据预训练的InceptionResnetV2来提取EEG信号特征,并修改网络的最后几层以适配MI分类[32]。这类方法需要大量数据进行训练,由于数据集之间的个体、采集方式和实验环境存在差异,难以在跨数据集的MI分类任务中有所突破。
基于上述研究,本文改进传统的FBCSP,对EEG子频带的时域信号进行切分,使提取的特征具备时域的动态信息,以提升单个数据集和跨数据集的MI分类准确率,降低数据集之间的系统性差异对模型的影响。
针对数据集间的系统性差异,本文提出切片滤波器组共空间模式(slice filter bank common spatial pattern,SFBCSP),基于SFBCSP的MI分类方法流程图如图2所示。具体流程如下:首先对原始信号进行预处理,通过一组带通滤波器在频域上切分信号频带;其次利用滑动窗口对时域信号进行切分,以体现不同MI类别之间存在子进程的差异;然后再利用空间滤波器提取EEG不同电极通道之间的空域特征;最后对多维度特征进行筛选和分类。下面将对各部分进行具体介绍。
注:EA为欧氏空间对齐。
本文使用NuerIPS竞赛中提供的5个数据集,其中包括3个公开数据集和2个非公开数据集。3个公开数据集主要用于模型训练,分别为Cho2017[11]、BNCI2014001[12]和Physionet[13]。竞赛为该任务单独设置2个非公开数据集,分别记为NIPS1和NIPS2,主要用于测试和输出。这5个数据集的采集设备、实验环境、受试者数量、MI范式类别、采样率、通道和时间窗口等不尽相同,具体信息见表1。
表1 MI数据集基本信息
由于各个数据集的采样率、范式类别、电极位置和顺序、时间窗口等存在较大的不同,无法直接进行合并,本文对5个数据集进行了统一的预处理,具体步骤如下:
(1)对5个数据集中的所有样本重采样为128 Hz。
(2)将所有样本的标签重新标为3类,分别为左手、右手和其他,分别标为0、1、2。双脚、舌头和双手等MI范式都统一归为其他类。
(3)选取5个数据集中所有通道的交集,并且按照BNCI2014001数据集中的顺序进行统一排序。最终选取17个通道的EEG数据,包括Fz、FC1、FC2、C5、C3、C1、C2、C4、C6、CP3、CP1、CPz、CP2、CP4、P1、Pz、P2,确保通道顺序一致。
(4)截取每个样本后3 s的数据,统一所有样本的采样点数为384(128 Hz×3 s)个。
(5)欧氏空间对齐(Euclidean space data alignment,EA)是对原始EEG信号在欧氏空间内进行变换[14],该变换不改变数据维度、运算成本低,且不需要数据标签,被广泛应用在EEG的迁移学习任务中[33-35]。本文根据EA方法,通过协方差矩阵进行参考矩阵的构建和计算,并对每名个体的原始EEG信号进行矩阵变换和对齐。至此,来自5个数据集的所有样本数据维度被统一为x∈R17×384,标签y∈{0,1,2}。
神经系统的预期联想机制是MI的关键[5],使得MI在时间尺度上呈现出一种动态特性。MI是一种对运动行为的编码,需要皮层神经元事件的连续组织串联,形成“行动计划”,这种顺序处理可能包括几个单独且并行的子过程[36]。因此,对一个完整的MI过程进行拆分,利用滑动窗口对EEG切片,分段提取特征,不仅能够区分子进程,还可以体现“并行”的特点。将一个想象左手或右手动作的过程分为不同的阶段,能够减少因个体不同、实验环境不同而在子进程关联方式上产生的个体性差异和系统性差异的影响。而且,通过寻找最优的切分方式,可以进一步提升模型的泛化能力。
本文提出的SFBCSP方法,利用滑动窗口对带通滤波后的数据在时域上进行切分,以刻画具体的MI范式在单个试次中的子进程关联性,具体的特征提取算法如下:
(1)利用滤波器组对EEG信号进行带通滤波。设3类MI范式对应的EEG信号为首先对进行带通滤波,根据频带λ的上、下截止频率和采样率fs,由公式(1)计算带通滤波后的信号
式中,BP代表带通滤波。
(3)通过CSP方法计算空间滤波器,对切分的数据片段进行空间滤波,设输出特征值的个数为m,由公式(2)分别计算各频带的混合空间协方差矩阵Rλ:
(4)通过对混合空间协方差矩阵进行特征值分解,得到特征向量矩阵Uλ,并计算对应的白化值矩阵Pλ:
式中,Λλ为特征值构成的对角阵;(Λλ)-1为该对角阵的逆。
(6)根据推算,3个MI范式对应的特征值对角阵之和为单位阵,即Λ1+Λ2+Λ3=I,且它们的特征向量矩阵是相等的,即B1=B2=B3=B。根据参数m选择特征,根据公式(7)计算λ频带对应的空间滤波矩阵wλ,根据公式(8)可计算任意样本每个时间切片的CSP特征Γλ,即获得该样本的SFBCSP特征张量Γλ:
(7)利用分类模型对特征张量进行降维和分类,至此,来自不同数据集的EEG数据,经过数据预处理、带通滤波、时间切片、空间滤波和分类,缩减了系统性差异,从而完成MI分类任务。
已有的MI分类方法中,由于CSP和FBCSP方法在EEG特征层面深入挖掘而得到了最为广泛的应用。在基于神经网络的分类方法中,EEGNet是一种可应用于多种范式的卷积神经网络,也被广泛应用于EEG信号分类。CRAM是一种用于跨个体EEG信号分析的神经网络模型,在EEG数据差异问题上具有一定的泛化能力。本文将基于SFBCSP的MI分类方法与这4种方法进行对比,以研究和分析各个方法的特点和优劣。
在数据方面,对于单数据集评估实验,为对比各方法在非迁移学习场景下的分类准确率,使用Cho2017作为数据集,随机划分70%作为训练集,剩余30%作为测试集,且各模型数据集划分采用相同的随机种子,以保证划分方式相同。对于跨数据集评估实验,选取数据集BNCI2014001、Physionet和NIPS2分别作为训练集和测试集进行一对多的实验。针对综合数据集的验证,本研究将3个公开数据集合并,并与部分非公开数据集NIPS1和NIPS2中的部分数据结合作为训练集,目标数据集中剩余的数据作为测试集。所使用的数据均经过数据均衡。
经过预处理的数据具有17个通道,为保留通道间的空间关系,CSP的输出维度小于通道数的一半,取整为8。在划分频带时,在4~40 Hz的频带内进行滑动滤波,窗口为4 Hz,步长为2 Hz,共划分为17个频带。在进行时间切片时,将滑动窗口大小和步长作为超参数进行实验。经过SFBCSP方法的提取,单个样本对应的特征为Γ∈R8×17×2。
定义交叉熵损失作为损失函数,利用自适应矩估计优化器进行参数优化,以测试集平均分类准确率(Acc)作为评价指标,如公式(9)所示,其中TP为真正例,FN为假负例,TN为真负例,FP为假正例。所有准确率结果均为5次实验的平均结果。
表2为SFBCSP方法在不同窗口长度(window length,WL)和步长(step size,SS)下的分类准确率对比结果,以选择最佳的WL和SL搭配,每组数据均进行5组训练和测试取平均结果。为了不丢失任何的数据,应满足公式(10)。因部分搭配不满足该要求,表中对应部分结果为空。
从表2可以看出,选择窗口长度在256、步长为128时可以达到最好的效果,此时每段EEG数据被切分为2段,分别为0~2 s和1~3 s。该结论与神经生物学的理论结果相吻合,在MI编码的时序过程中,存在独立且并行的子任务。
表2 SFBCSP方法在不同窗口长度和步长下的分类准确率单位:%
为验证本文提出方法的效果,分别对EEGNet、CRAM、CSP、FBCSP方法以及本文提出的SFBCSP方法进行实验与评估。在数据集Cho2017上,三分类准确率如图3所示,图中结果说明,在单个数据集上,基于神经网络模型的方法获得的准确率优于FBCSP方法,而SFBCSP方法达到最高平均分类准确率(74.14%),相较于FBCSP方法提升了7.26%,具备更好的区分MI行为的能力。FBCSP和SFBCSP方法的准确率相较于基于神经网络模型的方法有更小的方差,意味着基于特征的方法在单个数据集上的分类效果更稳定,受随机因素的影响较小。
图3 各方法在单一MI数据集上的平均分类准确率
图4为各方法在不同数据集上进行跨数据集测试的结果。由图4中的结果可知,SFBCSP方法在数据集之间的迁移效果要优于FBCSP方法和神经网络模型,相较于FBCSP方法平均提升了5.16%。各方法在从BNCI2014001向Physionet迁移时均有更好的效果,但从Physionet向BNCI2014001迁移时效果较差,FBCSP方法失去了对MI的分类能力。相较于Physionet来说,BNCI2014001中可能存在更普遍的特征,系统性差异的影响较小,使得训练出的模型具有更强的泛化能力。从图4中还可以看出,FBCSP方法和SFBCSP方法在使用BNCI2014001作为训练集时达到相近似的效果,但在Physionet做训练集时相差较大,表明BNCI2014001的主要特征在时域动态性上不够显著,而Physionet具备更为明显的时域动态特性。
图4 各方法在跨MI数据集上的平均分类准确率
图5为各方法在混合MI数据集的平均分类准确率。在跨混合数据集的MI分类中,FBCSP方法分类效果相较于神经网络模型有所提升,而CSP特征的效果有明显的下降。本文提出的SFBCSP方法在对比实验的模型中达到了最优,平均分类准确率达到54.40%,相较于FBCSP方法提升了1.96%,此结果进一步说明了经过滑动窗口分割MI特征能够提升特征的泛化能力。图5中的EEGNet和CRAM均低于FBCSP方法和本文提出的方法,说明基于特征的方法在混合数据集的MI分类中更具有泛化能力;SFBCSP方法充分利用了时间切片之间的连续性动态信息,降低了系统性差异对分类模型的影响,具有一定的可解释性。此外,各方法之间的差距与单个数据集和跨数据集相比有所减少,随着问题的难度进一步增大,数据和预处理方法的局限性对分类的准确率产生了限制,基于神经网络和基于特征的方法均不易达到更好的分类效果。
图5 各方法在混合MI数据集的平均分类准确率
本文针对跨数据集的MI分类任务,提出了基于SFBCSP模型的MI分类方法。首先,本文将多个数据集中的不同采集环境、通道、采样率、时间窗口等系统性差异的数据匹配,并通过EA方法将带有个体性差异的EEG数据在欧氏空间中对齐。然后,根据神经生理学理论,将MI过程看作并行子进程,在时域上进行拆解,通过带通滤波、滑动窗口和空间滤波器分别提取EEG信号的频域、时域和空域的特征。最后,利用全连接网络进行特征降维和分类。根据实验结果可知,本文提出的基于SFBCSP特征的分类方法相较于FBCSP、EEGNet和CRAM在单个数据集、跨数据集和混合数据集的MI分类任务中均有所提升,并且具有一定的可靠性和可解释性,说明本文提出的方法能降低跨数据集的系统性差异对分类模型的影响,对MI和BCI的研究具有重要意义。本文还验证了切片滑动窗口长度和步长对模型效果的影响,选择窗口长度为256、步长为128时可以达到最高的分类准确率。本文提出的方法和训练代码将公开在Github上。
本文部分实验的训练集和测试集来源于不同的数据集,为了解决可能存在的过拟合问题,通过提出的切片滤波器组共空间模式来减少训练集和测试集的特征空间差异,从而间接地缓解跨数据集场景的过拟合问题。从跨数据集分类结果来看,本文提出的方法与其他方法进行横向对比效果更好,但仍然无法达到与单一数据集相似的分类准确率,表明由于系统性差异导致的过拟合问题是值得深入研究的复杂问题。后续,将在数据量和范式对模型结构和参数影响上作进一步研究,以进一步提升模型的泛化能力和分类准确率。