王夏霖,阚 秀,范艺璇
(上海工程技术大学 电子电气工程学院,上海 201620)
大脑是人体高级神经活动的中枢,负责处理神经系统中的复杂信息。当人进行思维活动时,信息在大脑皮层上数以亿计的相互连接的神经元之间传递,并产生微弱的电流。这种微电流现象于1928年被首次发现,并被命名为脑电波(Electroencephalogram, EEG)[1]。一般情形下,这些信号通过外围神经或者肌肉组织的通道向身体各个部位传输指令。在重度残疾病人中,正常信息传输通道受损,但通过传感器可以对大脑思维活动进行监控和表征,因此脑机接口技术的发展对于残障人士的认知和行为表达具有十分重要的意义。在“十四五”规划纲要中,脑科学与类脑研究作为重大项目排在第4位,具有良好的发展前景。
脑机接口技术是一种借助脑电信号实现人机交互的技术手段,能够帮助肌肉萎缩病人控制轮椅,辅助语言障碍病人与外界交流[2]。事件相关电位是一种在外界刺激下,大脑区域产生的诱发脑电信号[3]。其中P300事件相关电位为小概率刺激发生后300 ms或400 ms范围左右出现的一个正向波峰,与受试者的心理认知状态密切相关,被广泛运用于脑机接口技术[4]。文献[5]提出了最早的基于P300事件相关电位的字符拼写系统,促进了脑机交互技术的发展,其原理和实现方式引起了国内外广泛关注。设计字符拼写系统的目的是使用数据处理和分类策略对P300事件相关电位进行有效识别。文献[6]利用小波变换对P300信号进行去噪,有效去除了脑电信号中的噪声。文献[7]采用独立成分分析(Independent Component Analysis,ICA)法,根据P300信号的时空域先验知识,将诱发电位的分解信号与ICA分离,保留了P300信号的相关部分,有效增强了P300信号。文献[8]选择目标波形明显的导联,对P300信号滤波后,通过合适的时间窗获得区分度更高的特征向量,并结合贝叶斯判别分析模型进行分类分析。针对小概率下诱发刺激造成的数据不平衡问题,文献[9]结合合成少数类上采样方法(Synthetic Minority Oversampling Technique,SMOTE)丰富含有目标P300事件相关电位的少数类,并用线性判别分析模型分类不同脑电信号。
本文根据5位健康成年被试者的P300脑机接口实验数据,基于LSTM-Attention网络对数据增强后的脑电数据建立了一个P300事件相关电位识别分类模型。本文首先阐述了数据处理阶段的主要内容;然后,基于LSTM(Long-Short Term Memory)网络和Attention机制构建了P300事件相关电位识别分类网络LSTM-Attention;最后,对所提方法和网络进行了性能评估。
本文数据集来源于5个健康成年被试者(平均年龄为20岁)的P300脑机接口实验数据。在实验中,每个被试者能够观察到一个由36个英文和数字字符组成的6行6列矩阵界面[10],界面如图1所示。
图1 6×6字符矩阵界面
被试者被要求注视字符矩阵中的某一随机目标字符,目标字符由矩阵界面的行和列来定义。在被试者注视目标字符时,字符矩阵进入闪烁模式,每次随机闪烁字符矩阵的某一行或一列,闪烁时间为80 ms,间隔为80 ms。每轮实验测试12个随机目标字符,当所有行和列均闪烁一次后,一轮实验结束,每个被试者共进行10次实验。在理想情况下,当目标字符所在的行或列闪烁时,被试者收到视觉刺激,约300 ms后被试者脑电信号中会检测到P300事件相关电位;当其他行或列闪烁时,被试者脑电信号中不会存在P300事件相关电位。
本文实验共采集被试者20个通道的脑电信号,采样频率为250 Hz,采样通道位置如图2所示。信号采样设备设置了参考电极和接地电极,因此采集的脑电信号幅值为作用电极与参考电极之间的差值[11]。
图2 采样电极位置示意图
在脑电信号采集过程中会受到其他生物电信号或一些外界因素的干扰,因此采集到的原始脑电数据中会混入与被试者真实意图无关的噪声,这将增加P300事件相关电位的识别分类难度。为了去除脑电信号中的无用噪声,提高数据的信噪比并完成最终P300电位的识别分类,需要对采集到的原始脑电信号进行预处理。本文对原始脑电信号的处理流程如图3所示。
图3 原始脑电信号处理流程
脑电信号属于一种非平稳、不规则的时间序列信号,其本身具有某种内在联系,而噪声在信号内部联系函数之上叠加了多项式趋势信号,因此本文采用去趋势化方法对原始脑电信号进行基线矫正,过滤原始脑电信号中各阶趋势成分,去除由于噪声和信号的不稳定性带来的伪关联干扰。
对于长度为N的脑电信号序列{x(t),t=1,2,3,…,N},计算其累计差值并转换为新序列
(1)
(2)
y(t)=y(t)-yn(t),t=1,2,…,N
(3)
通过上述处理,去除了原始脑电信号的趋势项,得到了基线矫正后的脑电信号数据。采集到的脑电信号中会出现工频噪声、随机噪声等不同频段的噪声,而P300事件相关电位只会出现在特定的频段范围内,因此需要对采集脑电信号进行滤波。本文选取10阶巴特沃斯带通滤波,对基线矫正后的脑电数据进行0.1~20 Hz的带通滤波,滤除不在该频率区间内的信号噪声。原始脑电信号和去趋势滤波后脑电信号如图4所示。
图4 脑电信号
假设理想情况下,受试者不受其他干扰,当不含有目标字符的行或列闪烁时不会诱发出P300事件相关电位。考虑到在刺激发生后300~450 ms才会出现P300电位,因此基于每个目标字符出现的采样点选取信号片段时,应能够充分包含由刺激诱发出的P300电位。在该实验中,脑电的采样频率为250 Hz,因此1 s中的采样点数为250个。本文将每一个字符所在行或列闪烁后600 ms内,即150个采样点的脑电数据作为一个样本,对原始脑电信号进行切分处理。此外,将受试者脑电信号中与目标字符闪烁时对应的信号片段切割为正样本集,即含有P300电位的样本集,其余信号片段为负样本集。对每个受试者进行训练时,目标字符有12个,因此每个受试者脑电信号最终切分维120个正样本和600个负样本,每个样本的特征维度为150×20。
通过基线校正、滤波处理以及信号片段切割后,获得的每个被试者的训练集样本存在明显不平衡现象。其中,含有P300事件相关电位的样本数远少于无刺激情况下的脑电信号样本。信息量过少则难以为后续识别分类算法提供有效的特征,且分类器的决策边界会倾向于样本数量更多的类别,无法识别并定位P300电位所在的信号片段,增加了后续识别分类的难度,因此需对正样本数据集进行数据增强以扩增正样本数量。本文利用SMOTE算法合成少数类样本,但该操作会生成部分噪声。为了提高合成数据分布的合理性,本文选择基于样本的分布密度剔除游离在高密度区域的噪声点。
2.3.1 合成上采样
SMOTE算法主要针对少数类中的每一个样本,对其k近邻任选一个样本进行线性插值,从而生成分布较为均匀的少数类样本。
对于少数类集合中的每一个样本xi,任选其k近邻样本中任一个样本xneighbor,其合成新样本xnew的大小如式(4)所示。
xnew=xi+rand(0,1)×(xneighbor-xi)
(4)
根据样本不平衡的比例,将采样率设置为5,即对每一个少数类样本合成过程重复5次,进而生成正负样本平衡的训练集。
2.3.2 基于密度聚类的噪声样本去除
通过SMOTE方法,可以根据样本的位置分布情况有效合成大量的少数类数据,但新生成的样本也有可能落在多数类样本的区域中,远离少数类样本的密集区域。针对SMOTE算法生成的样本,需要进一步根据密度剔除无关噪声样本。
具有噪声的基于密度的聚类(Density-Based Spatial Clustering of Application with Noise,DBSCAN)方法能够将足够密度的数据点划分为簇,并且在具有噪声的数据空间分布中发现任意形状的簇[12]。在DBSCAN中,假设样本的训练集为D=(x1,x2,x3,…,xm),参数(ε,MinPts)用来描述每个核心样本邻域的样本分布紧密程度。若D中的任意一样本xj,其ε邻域中的样本数量Nε(xj)至少包含MinPts个样本,则该样本xj为核心对象。具体的密度描述定义如下所示:
(1)密度直达。若xj为核心对象,样本xi位于xj的ε邻域中,则xi由xj密度直达;
(2)密度可达。对于xi和xj,若存在一系列的样本序列(均为核心对象),后一个样本可由前一个样本密度直达,且第一个样本为xj,最后一个样本为xi,则xi由xj密度可达;
(3)密度相连。样本xi和xj均可由一核心对象xk密度可达,则xi和xj密度相连。
基于以上原理,由样本间密度可达关系能够导出的最大密度相连的样本集合为密度高的类簇,算法流程如图5所示。
图5 DBSCAN算法流程
通过DBSCAN的算法原理可知,一些样本点不属于任何核心对象的邻域内。这些游离的样本点远离密度高的区域,是会对分类结果产生混淆的噪声样本。对合成后的全部少数类样本应用DBSCAN算法,并剔除噪声样本,可进一步提高分类识别准确度。
目前的LSTM网络在处理时间序列较短的输入信息时,由于模型的全连接特性,会得到较好的分类结果[13]。但当输入较长时间序列时,它的全连接特性反而会导致维度爆炸问题,此时模型的性能表现较差[14-15]。本文将LSTM网络和Attention机制结合在一起,保留LSTM网络对输入脑电信号的输出信息,并使用Attention机制给输出信息附加权重,以此来提高分类识别结果的信息权重,减少无关信息的权重,使网络能够有选择地学习P300事件相关电位特征,提高P300电位的分类识别准确度。LSTM-Attention网络结构如图6所示。
图6 LSTM-Attention网络基本结构
如图6所示,网络主要可以分为4个部分:输入层、LSTM模块、Attention层和输出层。网络的输入为待识别的脑电信号序列样本,每段样本有150个采样点长度,20个采样通道,因此网络的输入维度为150×20。
网络的第2部分为LSTM模块,主要由3层LSTM层组成:第1层LSTM层有120个LSTM神经元,第2层有64个LSTM神经元,第3层有32个LSTM神经元。
Attention层为网络的第3部分,其可以对脑电信号的重要性进行评判,突出脑电信号中重要的信息,降低网络对识别分类结果影响较小数据的敏感度。Attention层通过加权求和,找到P300信号识别分类中的关键信号段,提高了整个网络对脑电信号的分类效率。
网络的第4部分中,输出层主要由Dropout层、Sigmoid层组成。在P300脑电信号识别分类中,由于训练样本有限,网络训练过程中容易出现过拟合现象,即各个神经元之间表示的特征相互之间可能存在重复。因此,在第3层Attention层后加入Dropout层,在训练过程中,按照概率P=0.5随机将神经元从网络中移除,以防止网络过拟合,提高网络的泛化能力[16]。本文将P300事件相关电位的识别分类问题简化为一个二分类问题,即判断输入脑电信号序列中是否存在P300电位。因此本文使用Sigmoid激活函数将Dropout层输出映射到0、1范围内,如果Sigmoid函数的输出大于0.5,则该脑电信号片段内存在P300事件相关电位,反之不存在。
LSTM网络是循环神经网络(Recurrent Neural Networks,RNN)的一个改良版本,其通过添加遗忘门(ft)、输入门(it)和输出门(Ot),使得神经节点权重可以随时间改变,解决了循环神经网络的长期依赖问题,有效避免了循环神经网络可能出现的梯度消失或梯度爆炸现象[17]。
LSTM网络的前向计算过程为:
(1)首先通过遗忘门中的Sigmoid层来舍弃无用信息,Sigmoid 层将当前单元输入xt和上一时刻单元的隐藏层输出ht-1作为输入,并进行计算,获取介于0、1之间的数。遗忘门的输出如式(5)所示
ft=Sigmod(wf[xt,ht-1]+bf)
(5)
式中,wf和bf分别为遗忘门中的权重和偏置;
(2)通过遗忘门之后,当前单元输入xt和上一时刻单元的隐藏层输出ht-1需要再经过一个Sigmoid层来确定向当前单元添加的新信息it,同时还要经过一个tanh层来获得一个新的状态输出Ct。it、Ct可表示为
it=Sigmod(wi[ht-1,xt]+bt)
(6)
(7)
(3)对遗忘门和输入门的输出结果进行联合计算,得到当前时刻的单元状态值,如式(8)所示。
(8)
与此同时,对经过tanh层的当前单元状态Ct和经过Sigmoid层之后的数据ot进行如下计算,得到当前单元的隐含层输出ht。
ot=Sigmod(wo[ht-1,xt]+bo)
(9)
ht=ot×tanh(Ct)
(10)
Attention机制本质上是一种权重再分配方法,其通过对影响分类识别结果的信息附加权重,同时减少无关信息的权重来模拟人脑注意力的资源分配机制。因此,它能提高模型的学习能力,优化模型的训练过程,提高模型的分类识别准确率[18]。Attention层网络结构如下图所示,假设ht是第t个LSTM单元的输出,则Attention机制中注意力分布的计算过程为
et=ustanh(wsht+bs)
(11)
(12)
式中,ws、bs和us为Attention机制的权重、偏置和时间序列矩阵。当得到每个输出的注意力概率分布后,进行求和再平均,计算特征向量v为
(13)
然后,根据v对LSTM模块的不同输出赋予不同的权重,使得存在P300脑电信号的片段得到网络更多的关注,从而提高分类识别的准确率。
本文使用的实验平台基于深度学习框架Pytorch搭建,网络模型由NVIDA Quadro P4000(8G)进行训练,并结合Python 3.7完成P300脑电信号的识别分类。实验采用Adam优化器优化训练过程,批处理样本数为480。网络的初始学习率被设置为0.000 1,并迭代训练200次。训练过程中模型的准确率变化曲线如图7所示。
图7 训练集和验证集准确率变化曲线
由上图可知,随着迭代次数的增加,模型准确率不断上升,在60轮左右,网络达到最优状态,并将此时的网络参数保存为最佳模型。
本文使用Dice系数和准确率对P300事件相关电位分类识别结果进行评价。每个信号片段的分类结果可以划分为真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN),根据上述4个指标计算准确率和Dice系数,计算式分别如式(14)、式(15)所示。
(14)
(15)
为了证明本文方法的有效性,在同等实验环境下使用被试者1的脑电数据,对LSTM-Attention与SVM、RNN网络进行对比实验。表1列出了不同方法在相同实验环境下的评价结果。
表1 LSTM-Attention和其他网络的评价结果
通过表1可以看出,LSTM-Attention网络对被试者1脑电数据中的P300电位识别分类准确率和Dice系数分别达到了91.9%和91.7%,明显高于采用其他两个网络的结果,说明LSTM-Attention网络具有良好的P300事件相关电位的识别分类能力。
为了进一步验证本文数据预处理方式的可行性,以及识别分类网络中各个关键组件的有效性,本章节对本文方法数据增强阶段和LSTM-Attention网络进行消融实验,以证明其正确性和必要性。
4.3.1 针对数据增强的消融实验
在同等实验条件下,选择1号被试者的脑电数据进行消融实验,实验结果如表2所示。
表2 数据增强的消融实验
由上表可知,当数据集经过数据增强后,LSTM-Attention网络的Dice系数和准确率分别提高了2.8%和2.9%, LSTM网络的Dice系数和准确率分别提高了1.2%和1.0%。这些改进表明,使用数据增强可以有效提高网络的P300事件相关电位的识别分类准确率。
4.3.2 针对LSTM-Attention网络的消融实验
为了研究LSTM-Attention网络中Attention层和Dropout层的性能,本文以LSTM网络为骨干网络,选择1号被试者的脑电数据进行消融实验,实验结果如表3所示。
表3 LSTM-Attention的消融实验
由上表可知,当在LSTM网络后仅加入Dropout层后,网络的Dice系数和准确率分别提高了0.4%和0.2%。当在LSTM网络后仅加入Attention层后,网络的Dice系数和准确率分别提高了2.4%和1.3%。这表明Dropout层和Attention层的加入都能改善网络对P300事件相关电位的识别分类结果,当将Dropout层和Attention层一起加入LSTM网络后,LSTM-Attention网络的识别分类精度达到最高。
为了研究实验重复次数与P300事件相关电位识别分类准确率之间的关系,并进一步验证本文方法的泛化性能,本文在保证实验条件不变的前提下,对所有被试者数据集进行了10次P300事件相关电位识别分类实验,实验结果如图8所示。由图可见,本文方法的平均准确率在0.917左右,平均Dice系数在0.916左右,证明本文方法拥有良好的泛化性能。
(a) (b)
针对脑机接口系统中P300事件相关电位识别分类准确率低的问题,本文提出了一种基于LSTM-Attention的P300事件相关电位识别分类方法。在数据处理阶段,基于P300电位特征和脑电数据基线漂移以及噪声问题,清洗原始数据并切分信号片段制作样本,得到含有P300电位的正样本数据集和负样本数据集。然后,采用合成上采样技术以及基于样本的密度分布状态去除无关噪声样本。与此同时,基于LSTM-Attention网络建立P300事件相关电位识别分类模型,并设计了对比实验和消融实验来证明本文方法的有效性。本文所提出的研究提高了脑电信号中P300事件相关电位的识别分类准确率,其在长时序脑电信号处理上相比传统方法更具优势。但是,本文研究也存在着不足之处:本文使用的脑电数据集采集自5位成年被试者,数据来源不够广泛;本文的数据处理阶段耗时较长,尚存在很大的优化空间。在未来的工作中,可以尝试更多的数据处理方法,使P300电位数据集分布更加合理,并拓展脑电数据来源,进一步提高方法的实用性。