胡章芳 张力 黄丽嘉 罗元
摘 要:针对目前运动想象脑电(EEG)信号识别率较低的问题,考虑到脑电信号蕴含着丰富的时频信息,提出一种基于时频域的卷积神经网络(CNN)运动想象脑电信号识别方法。首先,利用短时傅里叶变换(STFT)对脑电信号的相关频带进行预处理,并將多个电极的时频图组合构造出一种二维时频图;然后,针对二维时频图的时频特性,通过一维卷积的方法设计了一种新颖的CNN结构;最后,通过支持向量机(SVM)对CNN提取的特征进行分类。基于BCI数据集的实验结果表明,所提方法的平均识别率为86.5%,优于其他传统运动想象脑电信号识别方法;同时将该方法应用在智能轮椅上,验证了其有效性。
关键词:运动想象;脑电;时频域;卷积神经网络;智能轮椅
中图分类号: TP242.6
文献标志码:A
Motor imagery electroencephalogram signal recognition method based on convolutional neural network in time-frequency domain
HU Zhangfang, ZHANG Li*, HUANG Lijia, LUO Yuan
National Engineering Research and Development Center for Information Accessibility, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
Abstract: To solve the problem of low recognition rate of motor imagery ElectroEncephaloGram (EEG) signals, considering that EEG signals contain abundant time-frequency information, a recognition method based on Convolutional Neural Network (CNN) in time-frequency domain was proposed. Firstly, Short-Time Fourier Transform (STFT) was applied to preprocess the relevant frequency bands of EEG signals to construct a two-dimensional time-frequency domain map composed of multiple time-frequency maps of electrodes, which was regarded as the input of the CNN. Secondly, focusing on the time-frequency characteristic of two-dimensional time-frequency domain map, a novel CNN structure was designed by one-dimensional convolution method. Finally, the features extracted by CNN were classified by Support Vector Machine (SVM). Experimental results based on BCI dataset show that the average recognition rate of the proposed method is 86.5%, which is higher than that of traditional motor imagery EEG signal recognition method, and the proposed method has been applied to the intelligent wheelchair, which proves its effectiveness.
Key words: motor imagery; ElectroEncephaloGram (EEG);time-frequency domain; Convolutional Neural Network (CNN); intelligent wheelchair
0 引言
脑机接口(Brain-Computer Interface, BCI)通过分析脑电信号,解码用户意图进而控制外部设备[1]。作为一种新型人机交互方式,脑机接口近年来逐步成为研究热点。当前脑电信号主要分为大脑皮层电位图(ElectroCorticoGram, ECoG)、脑电图(ElectroEncephaloGram, EEG)、脑磁图(MagnetoEncephaloGraphy, MEG)、功能磁共振成像(Functional Magnetic Resonance Imaging, FMRI)等,由于EEG具有低成本和非侵入性的优点而被广泛应用于BCI系统[2]。
目前,基于EEG的BCI系统的研究主要集中于运动想象脑电信号。在执行运动想象任务时,μ节律(8~13Hz)的能量下降,这种现象称为事件相关去同步(Event-Related Desynchronization, ERD);而在β(14~30Hz)节律的能量增加,这种现象被称为事件相关同步(Event-Related Synchronization, ERS)[3]。根据ERD/ERS现象,许多运动想象任务识别方法被提出,如共空间模式(Common Spatial Pattern, CSP)[4]、滤波器组共空间模式(Filter Bank Common Spatial Pattern, FBCSP)[5]、自回归模型[6]等。近年来,卷积神经网络(Convolutional Neural Network, CNN)在机器视觉、语音识别等领域被广泛应用,而在BCI领域仍处于起步阶段。相比手工提取特征的方法,CNN通过数据驱动的方式提取抽象特征,减少了信息的损失。唐智川等[7]以原始的脑电数据(通道×采样点)作为CNN的输入,构建了一个5层的CNN来对运动想象进行特征提取与分类,结果表明,CNN比传统运动想象识别方法更好;Pérez-Zapata 等[8]结合CNN和功率谱密度特征对运动想象脑电信号分类,识别率亦高于传统方法。然而,它们并未考虑到脑电信号含有丰富的时间和频率信息这一特点。为此,本文充分结合时间与频率信息,将经过短时傅里叶变换(Short-Time Fourier Transform, STFT)[9]得到的时频图作为CNN的输入,并使用一维卷积进行特征提取;此外,本文利用支持向量机(Support Vector Machine, SVM)[10-11]在处理小样本分类时的良好特性,将经过CNN提取到的特征利用SVM分类器进行分类。通过在BCI竞赛数据集上的实验表明,本文方法在识别率上优于其他传统运动想象脑电信号识别方法。最后在智能轮椅平台上进一步验证了本文方法的有效性。
1 预处理
脑电信号是一种复杂的生物信号,包含大量时频信息,并且往往由多个通道采集(如本文所使用的数据集,其运动想象脑电信号由C3、CZ和C4三个电极采集而成)。结合ERD/ERS現象,本文基于BCI竞赛数据集设计了一种二维时频图作为CNN的输入。对于每个电极采集到的2s长度脑电信号,利用STFT得到257×32的时频图,其中STFT采用长度为64的汉明窗,时间间隔为14。为了更好地表示数据,对得到的时频图提取8~13Hz频带和17~30Hz频带,分别得到12×32和29×32的二维时频图。此外,为了保证两个频带的一致性,通过立方插值法将17~30Hz频带的时频图调整为12×32。最后,本文将三个电极的所有频带进行组合构成(3×2×12)×32大小的时频图(即72×32),如图1所示。
2 卷积神经网络
2.1 网络结构设计
卷积神经网络是一种多层神经网络,主要由输入层、卷积层、全连接层和输出层组成。与图像不同,脑电信号是一种包 含丰富时频信息的信号,本文为了识别运动想象脑电信号而 设计了一种新的CNN结构模型(如图2所示),该CNN由5层网络构成,第1层为输入层,第2、3层为卷积层,第4层为全连接层,第5层为输出层。各网络层结构具体如下:
1)L1。该层为神经网络的输入层,本文以预处理中得到的72×32时频图作为输入I。
2)L2。该层为卷积层。传统的CNN往往使用二维卷积核进行运算,以时频图作为CNN的输入时,由于其横纵坐标分别代表了时间与频率分量,这种传统的二维卷积核会使得提取的特征中混杂频率与时间信息,对提取到的特征十分不利。为了避免时频信息的混杂,本文采用一维卷积核进行计算。在L2中使用了8个卷积核,卷积核大小设置为72×1,通过与输入数据进行卷积运算可得8个对应的特征图,进行卷积第k个卷积核对应的特征图被定义为:
h2k(j)=f ( ∑ 72 i=1 Ii, j×w2k+b2k(j) )
(1)
其中:j表示特征图中的第j个神经元;w2k为72×1的卷积核;b2k(j)为偏置;f()表示激活函数。本网络模型以修正线性单元(Rectified Linear Unit, ReLU)作为激活函数,表示如下:
f(a)=ReLU(a)=max(0,a)
(2)
3)L3。该层为卷积层。对L2层中得到的8个特征图分别使用5个卷积核,卷积核大小为8×1。为了减小过拟合的风险,该层设置卷积步长与卷积核长度相同以减少参数。经过映射后,该层可得40个特征图,每个特征图的大小为4×1。与L2层计算方式类似,特征图可表示为:
h3k(j)=f ( ∑ 8 i=1 h2k((j-1)×8+i)×w3k+b3k(j) )
(3)
其中:w3k为8×1的卷积核;b2k(j)为偏置。
4)L4。该层为全连接层,神经元个数为30,其作用为连接所有特征,并将输出值送给分类器。计算方式为:
h4(j)=f ( ∑ 40 i=1 ∑ 4 p=1 h3i(p)w4i(p)+b4(j) )
(4)
其中:w4i(p)为L3、L4两层神经元的连接权值;b4(j)为偏置。
5)L5。该层为输出层,神经元个数为2,代表左右手运动想象的二分类问题。它与L4层的所有神经元以全连接的形式相连接:
y5(j)=f ( ∑ 30 i=1 h4(i)w5(i)+b5(j) )
(5)
其中:w5(j)为L4与L5两层之间的连接权值;b5(j)为偏置。
CNN的训练主要采用反向传播算法[12],即先前向计算每层输出,根据输出层的结果与标签反向计算误差,据此误差求权值和偏置的梯度,以此更新各个权值和偏置。
2.2 分类器
在传统CNN中,各卷积层负责特征提取,分类工作主要通过全连接层完成,其分类性能有待提高。SVM以VC维和结构风险最小化的原则,具有良好的泛化能力,在处理类似于脑电数据这种小样本时能表现出很好的优势。为此,本文将CNN与SVM相结合,以SVM作为CNN的分类器,具体做法为:将SVM替换原始CNN中的输出层(即图2中的L5),并以全连接层得到的特征(即图2中的L4)作为SVM的输入。SVM分类器同样需要训练,其训练过程如图3所示:首先,将所有样本作为图2中CNN模型(已训练完毕)的输入,通过L4得到所有样本的特征向量,再将所有训练样本的特征向量作为SVM的输入,最后得到训练完毕的SVM分类器。
3 实验结果与分析
本文在公共数据集BCI Competition Ⅳ 2B上做了离线实验(http://www.bbci.de/competition/iv/)。该数据集记录了9名受试者想象左手运动和想像右手运动的脑电数据,每名受试者通过C3、CZ和C4三个电极采集5组脑电数据,其中前两组每组包含120个样本,后三组每组提供160个样本。在记录时,脑电数据在0.5~100Hz进行带通滤波,并使用50Hz陷波滤波器以消除工频干扰。对于每位受试者,以前3组作为训练样本,后2组作为测试样本。
经过多次实验,对网络模型进行参数调整。在CNN模型的学习率设置为0.01的条件下,本文将不同的网络迭代次数
进行对比,结果如图4所示, 横坐标表示网络迭代次数,纵坐标表示分类正确率。由图4可知, 可以看出最优的迭代次数在300~500,而过高的迭代次数使模型出现了明显的过拟合现象。
由于越高的迭代次数需要的训练时间也越长,在不损失分类
正确率的前提下为了减少训练时间,本文将迭代次数选为
300。此外,本文SVM中的核函数采用径向基核函数,并且通过网格搜索法设置SVM的惩罚系数C=0.18,相应的核函数参数σ=0.5。
為了评估本文方法对左右手运动想象脑电信号的识别性
能,对近年来被广泛使用的CSP方法[4]、CSP的衍生算法FBCSP[13]以及普通CNN方法[7]进行了对比实验;另外,为了体现对比方法的多样性,本文也对BCI Ⅳ竞赛前三名(按名次由高到低依次为Chin、Gan和Coyle)所使用的方法进行了对比。所有受试者的测试样本在上述方法下的识别率如表1所示。由表1可以直观地发现,本文方法平均识别率为865%,优于其他方法,说明充分挖掘脑电信号的时频信息有利于识别率的提升 ;相比FBCSP和普通CNN这两种算法,分别提高了6个百分点和2.3个百分点 。对于单个受试者,本文方法识别率最高可达98.3% ,比普通CNN算法提高了0.2个百分点 。此外,本文方法的识别率虽高于普通CNN方法,但在测试集上分类耗时略高,主要原因在于本文方法在CNN之前引入了预处理操作,且分类器更改为耗时较高的SVM。
为了进一步验证本文方法的有效性和在实际应用中的使用效果,本文基于智能轮椅平台进行了一系列实验。其中运动想象脑电信号利用Emotiv传感器进行采集,如图5(a)所示。该传感器具有16个电极,所有电极按照国际10-20标准电极安放来合理分布,如图5(b)所示。在这16个电极中,FC5、FC6及O1等电极可作为采集通道,而电极CMS和DRL作为参考电极。
以本文方法得到的识别结果作为控制智能轮椅的指令信号,对5名健康受试者按照图6所示实验路径进行走“8”字实验,并与普通CNN方法进行对比,得到的运动轨迹曲线分别如图7(a)和(b)所示。由图7(a)和(b)可知,受试者均能通过两种方法安全地完成指定路线,但普遍存在“8”字形右边没有左边光滑和波动更大的问题,其主要原因是受试者在左右手运动想象过程中需要高度集中注意力,使得在控制后期易产生疲劳,进而导致脑电信号特征值发生变化[14],稳定性降低,加重误识别的可能性。虽然两种方法均能完成“8”字形路线,但相比较而言,基于本文方法的轮椅运动轨迹曲线比基于普通CNN方法的轮椅运动轨迹曲线更光滑,波动更少,且更具有实际的应用前景。
4 结语
本文采用了一种基于时频域的卷积神经网络对左右手运动想象脑电信号进行特征提取和分类。首先,通过STFT提取电极C3、CZ和C4原始时间序列信号的时频域信息,依据此时频信息,设计了CNN结构;其次,通过实验对CNN的相关超参数进行调整和选定,并基于公共数据集将本文方法与其他方法以识别率为标准进行了一系列对比实验,结果表明,本文方法的平均识别率均优于其他识别方法,单个受试者的识别率亦高于其他识别方法;最后,将本文方法应用于智能轮椅的实时控制中,验证了本文方法的有效性。本文方法实现了左右手运动想象脑电信号的准确识别,为脑机接口技术在助老助残领域的应用提供了理论基础与支持,但相比于其他常用的运动想象脑电信号识别方法,本文方法分类识别时耗时较高,如何减少分类所需时间是我们下一步的研究重点。
参考文献
[1] 王行愚,金晶,张宇,等.脑控:基于脑——机接口的人机融合控制[J].自动化学报,2013,39(3):208-221. (WANG X Y, JIN J, ZHANG Y, et al. Brain control: human-computer integration control based on brain-computer interface [J]. Acta Automatica Sinica, 2013, 39(3): 208-221.)
[2] MINGUILLON J, LOPEZ-GORDO M A, PELAYO F. Trends in EEG-BCI for daily-life: requirements for artifact removal [J]. Biomedical Signal Processing and Control, 2017, 31: 407-418.
[3] AVILS-CRUZ C, VILLEGAS-CORTEZ J, FERREYRA-RAMíREZ A, et al. EEG pattern recognition: an efficient improvement combination of ERD/ERS/laterality features to create a self-paced BCI system [C]// Proceedings of the 2016 Mexican Conference on Pattern Recognition, LNCS 9703. Cham: Springer, 2016: 231-240.
[4] RAMOSER H, MLLER-GERKING J, PFURTSCHELLER G. Optimal spatial filtering of single trial EEG during imagined hand movement [J]. IEEE Transactions on Rehabilitation Engineering, 2000, 8(4):441-446.
[5] KAI K A, ZHENG Y C, ZHANG H, et al. Filter Bank Common Spatial Pattern (FBCSP) in brain-computer interface [C]// Proceedings of the 2008 IEEE International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2008: 2390-2397.
[6] IQBAL H, AQIL M. A QR decomposition based RLS algorithm with forgetting factor for adaptation of AR EEG features [C]// Proceedings of the 2016 International Conference on Emerging Technologies. Piscataway, NJ: IEEE, 2016: 1-5.
[7] 唐智川,張克俊,李超,等.基于深度卷积神经网络的运动想象分类及其在脑控外骨骼中的应用[J].计算机学报,2017,40(6):1367-1378. (TANG Z C, ZHANG K J, LI C, et al. Motor imagery classification based on deep convolutional neural network and its application in exoskeleton controlled by EEG[J]. Chinese Journal of Computers, 2017, 40(6): 1367-1378.)
[8] PREZ-ZAPATA A F, CARDONA-ESCOBAR A F, JARAMILLO-GARZN J A, et al. Deep convolutional neural networks and power spectral density features for motor imagery classification of EEG signals [C]// AC 2018: Proceedings of the 2018 International Conference on Augmented Cognition. Berlin: Springer, 2018: 158-169.
[9] GRAMFORT A, STROHMEIER D, HAUEISEN J, et al. Time-frequency mixed-norm estimates: sparse M/EEG imaging with non-stationary source activations [J]. Neuroimage, 2013, 70(2): 410-422.
[10] SHAO S Y, SHEN K Q, ONG C J, et al. Automatic identification and removal of artifacts in EEG using a probabilistic multi-class SVM approach with error correction[C]// SMC 2008: Proceedings of the 2008 IEEE Internatioanl Conference on Systems, Man and Cybernetics. Piscataway, NJ: IEEE, 2008: 1134-1139.
[11] BHARDWAJ A, GUPTA A, JAIN P, et al. Classification of human emotions from EEG signals using SVM and LDA classifiers [C]// Proceedings of the 2015 2nd International Conference on Signal Processing and Integrated Networks. Piscataway, NJ: IEEE, 2015: 180-185.
[12] NG S C, LEUNG S H, LUK A. Fast convergent generalized back-propagation algorithm with constant learning rate [J]. Neural Processing Letters, 1999, 9(1): 13-23.
[13] KENG A K, YANG C Z, WANG C, et al. Filter bank common spatial pattern algorithm on BCI competition IV datasets 2a and 2b [J]. Frontiers in Neuroscience, 2012, 6: 39.
[14] NEU D, MAIRESSE O, VERBANCK P, et al. Non-REM sleep EEG power distribution in fatigue and sleepiness [J]. Journal of Psychosomatic Research, 2014, 76(4): 286-291.