融合频带能量特征和双向门控循环单元的运动想象意图识别

2020-05-20 07:41:12韩向可郭士杰

科学技术与工程 2020年9期

韩向可，郭士杰

(1.河北工业大学机械工程学院，天津 300130；2.安阳工学院机械工程学院，安阳 455000；3.河北省机器人感知与人机融合重点实验室，天津 300132)

脑机接口(brain computer interface,BCI)通过对大脑生理信号的采集和转换，可以不需要人体外周神经与肌肉系统的参与，实现人脑与计算机或外围设备之间的信息交流[1]。因此，对于神经损坏和运动能力丧失的患者来说，BCI系统是其与外界交流的重要工具[2]。运动想象(motor imagery，MI)作为一种重要的BCI系统，在没有外界刺激辅助下，患者能够通过自主诱发大脑运动节律，控制光标、轮椅、机械手等外围设备运动，表达其意图信息[3]。

运动想象BCI作为一种重要的脑机接口范式，有着十分重要应用价值。但是，由于脑电信号的高度非线性、时变性以及个体差异性等特点，如何实现运动想象的高精度解码依然是中外学者密切关注的问题，其核心是如何实现脑电信号(electroencephalogram,EEG)特征的有效提取和正确分类。目前，运动想象BCI常用的特征提取方法有：能量特征法[4]、模型参数法[5]、小波/小波包分析法[6]和共同空间模式[7]等。其中，能量特征法是利用脑电信号相关频带能量信息或功率谱信息实现特征提取，但是该方法损失了信号的时域信息；小波包分析是通过小波包基函数对EEG信号进行多尺度分解和重构，实现特定频段信号的有效提取。因此，本文采用两者相结合的方法，通过小波包变换获得不同频带的节律信号，利用能量计算进行运动想象的特征序列提取，实现脑电信号的多频带分析。

在运动想象意图解码方面，传统的分类方法(如线性分类器[8]、贝叶斯分类器[9]、支持向量机[10]等)，通常损失特征信号的序列信息。但是，脑电信号作为一种高度时变性的随机信号，具有明显的时序性。随着深度学习技术的发展，长短时记忆(long short term memory,LSTM)网络作为循环神经网络(recurrent neural networks,RNN)的重要手段，通过多个LSTM单元的定向连接构建一个内部循环网络，可以实现时间信息的序列化分析[11]。近年来，LSTM以其良好的收敛性和稳定性，在自然语言处理[12]、图像识别[13]、机器人轨迹规划[14]等领域得到了广泛的应用。但是，由于LSTM存在结构复杂、计算繁琐、训练时间长等不足，通过对LSTM模型的改进，提出了一种双向门控循环单元(bidirectional gated recurrent unit，BiGRU)，从而在极大的提高算法效率的同时[15]，实现时序信息的双向关联[16]。

为充分利用EEG信号的能量特征和时序信息，提出了一种频带能量特征和BiGRU相结合的方法，进行运动想象的模式识别。首先通过对MI节律信号的滑动截取实现能量的序列化提取，之后采用BiGRU单元对脑电信号进行分类；最后，通过实验对该方法的可行性进行验证。

1 相关理论

1.1 小波包分解

图1 小波包分解Fig.1 Wavelet packet decomposition

小波包分解后，第l层第k个节点的小波包系数为

(1)

(2)

h1(m-2k)=(-1)1-kh0(m-2k)

(3)

在经过第l层分解后，原始信号被分解为不同的子频带：

(4)

式(4)中：fs为采样频率。

根据分解的节点小波包系数可以对子频带信号进行重构，其公式如式(5)所示：

(5)

1.2 BiGRU

长短时记忆网络(long short term memory,LSTM)是循环神经网络的一个重要分支，它利用记忆细胞进行时间序列记忆并通过门控机制实现信息流管理；该方法不仅考虑了特征序列中上下文的时序关系，还解决了RNN中的梯度爆炸或消失等问题。LSTM单元由输入门、输出门、遗忘门和一个记忆细胞组成，其中遗忘门和记忆细胞相互作用对输入信息适当遗忘和筛选，实现序列化样本的预测和分类。但是，LSTM结构复杂，需要选择的网络参数较多，计算量较大。门控循环单元(gated recurrent unit，GRU)作为LSTM的简化模型，即解决了梯度消失等问题，又提高了学习效率。GRU单元由更新门和重置门组成，如图2所示。其中，更新门用于控制前一时刻隐层输出对当前时刻的影响程度；重置门实现上一时刻信息的某种程度的遗忘；通过两者的配合完成时序信息的筛选。

xt表示t时刻输入数据；zt表示更新门状态；rt表示重置门状态；ht、ht-1表示当前层和前一层的隐层状态；σ为sigmoid激活函数图2 GRU单元Fig.2 Unit of GRU

GRU网络前向传播的具体计算过程如式(6)所示：

(6)

式(6)中，xt为t时刻输入数据；zt为更新门状态；rt为重置门状态；wz、wr、wh分别为GRU单元更新门、重置门和候选隐藏状态的权值系数；ht、ht-1表示当前层和前一层的隐层状态；σ为sigmoid激活函数。

BiGRU是对GRU的拓展，其工作原理与GRU相似，由两个方向相反的GRU组成，充分考虑了特征序列在时间上的双向关联，展现了优越的分类性能。设计的BiGRU模型如图3所示，对输入序列BiGRU后，采用Softmax分类器输出分类结果。

GRUi为第i个门控单元，wi为权值系数图3 BiGRU结构模型Fig.3 Structural model of BiGRU

图4 实验流程图Fig.4 Flow chart of the experiment

2 实验数据

采用2003年BCI竞赛公开数据集Data Set Ⅲ，实验流程如图4所示。实验中，一名受试者坐在椅子上，双手自然放松，根据屏幕提示分别执行左手或右手运动想象任务。在前2 s中受试者安静注视着屏幕，第2 s时，产生实验开始提示音，同时屏幕上出现十字标识，时长1 s；在3～9 s时，屏幕呈现方向提示箭头，受试者根据提示执行相应运动想象任务。实验采集C3、C4和Cz三个通道数据，采样频率128 Hz，0.5～30 Hz带通滤波。整个实验进行7组，每组执行40次运动想象任务，共280次(左、右手次数均等)，其中训练集和测试集样本数据各140个。

3 运动想象意图识别

3.1 MI解码总体流程

基于运动想象的脑电信号作为一种节律信号，不仅具有空、频域特性，而且在时间尺度上也具有显著的时序特性。基于此，采用BiGRU的深度学习算法，对运动想象脑电信号进行意图解码，具体流程如图5所示。首先，通过小波包变换对EEG原始信号多频带分解，并重构特定节律的子频带信号；然后采用特定时间窗对子频带信号滑动截取，并计算其能量，提取能量特征的时间序列；最后利用BiGRU实现序列特征的分类和运动解码。

图5 MI解码总体流程Fig.5 Overall flow of MI decoding

3.2 频带能量特征序列的提取

由于人脑在肢体运动想象的过程中，大脑对侧脑区会出现能量减弱，而同侧增强，即发生事件相关去同步/事件相关同步(event related synchronization/desynchronization,ERD/ERS)现象[17]。脑电信号的这种能量变化主要集中在α(8～12 Hz)和β(16～24 Hz)频段。EEG信号的采样频率为128 Hz，采用bior3.3小波对其4层小波包分解。分解后各子频带频率范围如表1所示。

从表1中可以看出，节点[4 3]与α频带一致，而[4 6]、[4 7]节点落在了β频带范围内。因此，分别重构α、β频带信号，得到[sα,sβ]。

表1 四层小波包分解各子频带范围Table 1 Sub-frequency ranges of four-layer wavelet packet decomposition

为获得序列特征，采用3 s时间窗、0.062 5 s时间间隔(8个采样间隔)，对重构信号进行滑动截取。在运动想象ERD/ERS显著的3.5～7.5 s时间段内，得到65个时间窗数据。所截时间窗的能量特征可以通过采样点的平方和计算，公式如式(7)所示：

(7)

式(7)中：Ej为第j个时间窗的能量；ui第i个采样点数据；N为窗宽。

C3、C4通道的能量特征序列U∈R4×65为

(8)

3.3 BiGRU模型设计

通过时间窗截取的能量特征在时间上依然是连续的，所以仍具有完备的时序特性。因此，使用BiGRU不仅可以学习能量特征，还引入了时变信息。

采用keras框架设计BiGRU结构，模型采用三层网络结构；第一层为输入层，负责特征序列数据准备和格式转换；第二层为BiGRU层，由正向和反向GRU组成，正向计算时，关联未来信息，反向计算时，关联历史信息。最后一层为输出层，采用分类器对计算结果进行分类输出，如图5所示。网络模型主要参数设置为：学习率为0.001，损失函数为Cross-entropy，采用Softmax分类器。

4 结果分析

4.1 窗宽的选择

在对EEG信号进行加窗截取的过程中，窗宽的选择至关重要。在BiGRU分类前，采用能量特征和支持向量机(support vector machine,SVM)相结合的方法对窗宽进行选择。对小波包重构后的信号，计算不同窗宽时的能量特征，并用SVM对其进行分类，结果如图6所示。图6中显示不同窗宽下的最高分类正确率，从图6中可以看出，当窗宽3 s时，分类正确率最高，达到87.86%；而在此窗宽左右两边依次呈下降趋势。这说明以3 s窗宽提取的能量特征，模式分类性能最好。因此，选择3 s窗宽来构造能量特征序列。

图6 不同窗宽下的分类正确率Fig.6 Classification accuracies with different bandwidths

4.2 频带能量特征序列

在窗宽3 s情况下，对α、β频段的训练样本的能量特征序列叠加平均，得到特征序列均值，如图7所示。从图7中可以看出：C3通道，右手运动想象时，能量在时间上先减弱而后回升的变化趋势,即发生显著的事件相关去同步现象(ERD)，6.75 s时达到最低点；左手MI时，则先增强而后缓慢回落趋势，即呈现出事件相关同步现象(ERS)，但是ERD比ERS变化显著。C4通道能量变化情况则相反。这表明，能量特征序列不但有幅值特性，还有时序特征，这也为采用BiGRU分类提供了理论依据。

4.3 与其他分类算法的比较

图8所示为竞赛前三名和分类正确率[18]。由图8可知，文献[19]采用Wavelet特征和贝叶斯分类器，获得竞赛最高分类正确率89.2%；而本文方法的正确率为92.1%，高于其他方法，且优于竞赛最高水平3%左右。为进一步验证本文方法的有效性，与其他使用同样数据的方法进行了比较。文献[20]采用小波包熵特征和Fisher分类器，获得最高90.8%的分类正确率；徐保国等[21]使用小波包分解和聚类分析相结合的方法，得到测试集分类正确率为88.57%；文献[22]中提取连续小波变换系数作为特征，采用支持向量机进行分类，正确率为85.7%。通过测试小波包变换和支持向量机方法得到的最高分类正确率是87.86%。由此可见，所提方法是有效的，对分类效果有一定程度的改善。也为深度学习在BCI方面的研究提供了参考。

图7 能量时序曲线Fig.7 Energy time series curves

图8 BCI竞赛结果比较[18]Fig.8 Comparison of BCI competitions[18]

5 结论

针对脑电信号非线性、时变性等特点，提出了一种频带能量特征和BiGRU相结合的方法，实现运动意图识别。通过加窗、滑动截取的方法实现能量特征的序列化，即体现了运动想象信号能量幅度，又反映了变化趋势。提取的特征序列，经双向GRU后获得的更好的分类正确率。因此，本文方法对运动想象的意图识别是有效的。同时，作为LSTM的简化模型，BiGRU方法计算量小、所需迭代次数少，算法更加高效，为深度学习在脑电信号中进一步研究提供了新的思路。