基于多特征融合的多分类运动想象脑电信号识别研究

2020-11-03 10:03骆金晨胡秀枋邹任玲
生物信息学 2020年3期
关键词:电信号特征向量识别率

骆金晨,姜 月,胡秀枋,邹任玲,2*

(1.上海理工大学 医疗器械与食品学院,上海 200093;2.民政部神经功能信息与康复工程重点实验室 ,上海 200093)

脑-机接口(Brain-Computer Interface,BCI)将人类的意图转换为控制信号,实现人脑与外部设备之间建立信息交流与控制[1]。该系统在辅助控制[2]、疾病康复[3-4]、生活娱乐[5]等领域均有着广泛的应用前景。而BCI技术实现的关键依赖于脑电信号的高识别率,因此脑电信号(Electroencephalogram,EEG)提取方法的优化是目前BCI研究的重点,尤其基于运动想象脑电信号特征提取和分类器的优化识别。

近几年来,多特征融合因能表征更多的有效脑电信息而成为多分类运动想象的研究热点之一。其中代表性的有: Sreeja等[6]提出一种基于稀疏表示的分类方法来对运动想象脑电信号进行多分类识别,该方法直接从分段的运动想象数据中计算小波能量并构造字典,使用来自字典的稀疏表示进行分类,获得了90%的平均正确率。陆振宇[7]等人提出一种基于多特征融合的运动想象脑电分类方法,提取AR模型系数、小波包熵差和方差作为特征,经LDA获得91.43%的识别准确率。KWON-WOO H[8]等人提出了一种通过胶囊网络(CapsNet)学习EEG的各种属性来实现运动想象脑电信号分类方法,实验验证了CapsNet优于卷积神经网络(CNN)和其他传统机器学习方式,并获得了78.44%的平均正确率。邹晓红[9]等人提出一种基于局部均值分解(LMD)和多尺度熵(MSE)相结合的脑电信号分类识别方法,将6维的融合特征向量作为SVM的输入,相比于采用传统的共空间模式(Common Spatial Pattern,CSP)特征提取算法和AR特征提取算法,最优识别率能达到85.21%。

在阅读相关文献的基础上,本研究提出在EMD基础上与希尔伯特(Hilbert Transform,HT)相结合的希尔伯特-黄变换(Hilbert-Huang Transform,HHT),获得重构前三阶内蕴模态函数(Intrinsic Mode Function,IMF)能量、边际谱熵,用“一对一”共空间模式(OVO-CSP)获得空间域特征,选取近似熵(Approximate Entropy)、模糊熵(Fuzzy Entropy)和样本熵(Sample Entropy)作为非线性动力学特征,将组合的时-频-空-非线性融合特征向量采用主成分分析(Principle Component Analysis,PCA)降维,后作为优化后SVM分类器的输入,获取算法仿真识别率,来验证本研究方法在四分类脑电信号识别研究的可靠性。整个算法流程图(见图1)。

图1 算法流程图Fig.1 Flow chart of algorithm

1 实验源数据

实验数据采用2005年第三届国际BCI竞赛中由Graz科技大学提供的脑电数据(data set IIIa),共采集了三名受试者的脑电信号,k3b,k6b和l1b。以第一位受试者k3b作为本次研究对象。在实验采集过程中,受试者以放松状态坐在椅子上,分别执行想象左手、右手、脚或舌头动作,提示是随机出现的,实验由至少6轮组成,每轮试验40次,四种提示在每轮中分别被显示10次。如图2所示,试验开始后,前2 s为安静状态,在t=2 s时,有一个声音刺激表明实验开始,十字形“+”出现,从t=3 s,一个向左、向右、向上或向下的箭头被显示1 s,同时,要求受试者分别想象左手、右手、舌头或脚部运动,直到箭头在t=7 s时消失。信号采用Neuroscan公司的64通道脑电放大器进行记录,采集通道为其中的60个通道,信号采样率为250 Hz,采用陷波滤波器进行1-50 Hz信号滤波。

图2 实验范式的时序图Fig.2 Experimental paradigm sequence diagram

2 特征提取方法

特征提取对于多分类运动想象识别有着至关重要的影响。本研究进行左手、右手、舌头、脚的运动想象四分类数据特征提取,其采用的特征提取方法是分别提取时-频特征、空间域特征以及非线性动力学特征后进行多特征融合处理。

2.1 希尔伯特-黄变换

HHT因具有完全自适应性优势,非常适合分析非线性、非平稳的EEG信号。本研究采用EMD基础上与希尔伯特(Hilbert Transform,HT)相结合的希尔伯特-黄变换融合算法,主要由经验模态分解 (Empirical mode decomposition, EMD)和 HT算法组成[10]。将预处理后的EEG信号经EMD分解生成IMF,再进行Hilbert谱分析得到每个IMF的能量谱和边际谱熵[11]。

HHT对预处理后的脑电信号x(t)的处理步骤如下[12-13]:

(1)找出x(t)的所有极值点并进行插值,计算包络线平均值:

(1)

(2)用x(t)减去包络线平均值m1(t)得到疑似IMF分量h1(t),判断h1(t)是否符合IMF两个条件,若条件符合,则将h1(t)视为一个IMF分量c1(t),若不符合,将h1(t)代替x(t)重复上述步骤k次找出c1(t),用x(t)减去c1(t)得到一个去掉高频成分的新信号r1(t)。

r1(t)=x(t)-c1(t)

(2)

(3)将r1(t)看做是x(t),重复上述步骤,由此x(t)可表示为一组IMF和一个残余项和

(3)

(4)将每一个IMF进行Hilbert变换得到相应的Hilbert谱叠加得到EEG信号的Hilbert谱,其Hilbert变换为:

(4)

2.2 CSP优化扩展

采用“一对一”(One Versus One,OVO)方法对CSP算法做多分类扩展[14]。采用OVO-CSP方法对四分类运动想象脑电信号进行空域特征提取。该方法将多分类拆分为若干个二分类问题,故对用于二分类的CSP传统算法具体实现过程做说明。

(1)求两类数据的空间协方差矩阵

(5)

(6)

(3)对混合空间协方差矩阵按式进行特征值分解、白化处理得具有相同特征向量的S1和S2,再对特征向量S1和S2分别进行特征值分解处理。

S1=Bλ1BTS2=Bλ2BT

(7)

B是S1和S2共同的特征向量,特征值之和为1。

(4)构建空间滤波器后对脑电信号矩阵Ei滤波得Zi,将Zi进行如下运算后作为特征值:

(8)

其中p=1,2,....,2m(2m

2.3 近似熵

采用近似熵作为非线性动力学特征之一,是基于近似熵具有量化EEG信号的规律性和不可预测性优势,可以表示EEG信号的复杂度,反映信号中新信息发生的可能性大小[16]。近似熵对预处理后EEG信号x(t)的处理步骤如下:

(1)对N维原始信号时间序列为等时间间隔采样,重构m维向量X(1),X(2),...,X(N-m+1),其中X(i)=[u(i),u(i+1),...,u(i+m-1)]。

(2)对于i=1,2,...,N-m+1,统计满足以下

满足条件的向量个数

(9)

(3)定义

(10)

(4)则可将近似熵定义为

ApEn=Φm(r)-Φm+1(r)

(11)

式中通常设置参数m=2或m=3,m=3能更细致地重构系统的动态演化过程;r值主要取决于应用场合,通常选择r=0.2*std(std为时间序的标准差)。

2.4 模糊熵

采用模糊熵作为非线性动力学特征之一,模糊熵是于沐涵等[17]人针对提取熵值不连续问题而提出的一种改进算法,在继承样本熵优点的同时,减少对时间序列长度的依赖性。其因具有较好的连续性和鲁棒性,可有效用于脑电时间序列的分析中。模糊熵对预处理后脑电信号x(t)的处理步骤如下:

(1)给定的N维信号时间序列与近似熵相同,定义相空间维数为m(m

X(i)=[u(i),u(i+1),...,u(i+m-1)]-u0(i)

(12)

(2)引入模糊关系函数A(x),并计算

(13)

(14)

(4)则可将模糊熵定义为

FuzzyEn=lnΦm(r)-lnΦm+1(r)

(15)

2.5 样本熵

采用样本熵作为非线性动力学特征之一,是Richman等[18]人基于样本熵是在近似熵的基础上改进而来的一种新的统计族,它是一种衡量信号时间序列复杂度的算法[19]。样本熵对预处理后脑电信号x(t)的处理步骤如下:

(16)

(3)令k=m+1,重复样本熵的第一步和第二步,可得

(17)

(4)则可将样本熵定义为

(18)

3 运动想象脑电信号的处理

3.1 预处理

脚部运动想象与中央的Cz区域相关,其频率段为7~8 Hz和20~24 Hz,舌头运动想象与C3、C4较接近,其频率段为10~11 Hz。本研究通过相关的计算值贡献,确定使用24、25、28(C3)、31(Cz)、34(C4)、41共六个通道数据。采用FIR等波纹滤波器分别对包含180次的试验样本进行7~30 Hz带通滤波。本次试验选取每次8 s试验中的4~7 s数据进行研究是因为3 s以前的EEG信号与运动想象无关,并且与受试者的反应时间发生重叠。左右手运动想象时预处理后的六个通道信号(见图3)。

3.2 特征提取与融合

(1)将每次试验的6个通道的原始数据经EMD分解,以某次试验第一个通道的EMD分解情况为本次特征提取对象,该通道的IMF的波形(见图4a),可明显看出能量主要集中在前三阶IMF。因EMD具有完备性,为避免出现特征维数过高的情况,可将EMD分解后信号进行重构处理。该信号前三阶IMF正向重构后波形,重构后的信号包含绝大部分有用脑电信号(见图4b)。将得到的6维能量特征向量F1=[E1,E2,E3,E4,E5,E6]进行Hilbert变换,得到时频谱和边际谱,并计算边际谱熵,得到每次样本的6维边际谱熵特征向量F2=[S1,S2,S3,S4,S5,S6]。Hilbert谱对时间积分的Hilbert边际谱图(见图5),可明显看出每个频率点的累积幅值分布,较准确的反应了信号的实际频率成分。

图3 左手运动想象的预处理后信号Fig.3 Preprocessed signal of left hand movement imagination

图4 EMD分解得到IMF和 IMF1至IMF3正向重构后信号Fig.4 EMD decomposition to IMF and IMF1 to IMF3 are forward reconstructed

(2)使用OVO-CSP算法提取多空域特征值,分别对 “左手与右手”、“左手与舌头”、“左手与脚”、“右手与舌头”、“右手与脚”和“舌头与脚”6个组合进行CSP处理,获得 48维特征向量,即F3=[f1,f2,f3,...,f48]。

(3)使用近似熵、模糊熵跟样本熵作为本研究的非线性动力学特征。三种算法中的嵌入维数m和相似容限值r的参数设分别设为2和0.50,获得3维非线性动力学特征向量,即F4=[ApEn,FuEn,SamEn]。180次样本近似熵、模糊熵跟样本熵的对比图(见图6),可以看出蓝色的近似熵整体值偏低,绿色的模糊熵相对偏高,且同一熵值在不同样本之间的差异也较明显,证明将其作为特征向量是可行的。

时-频、空间域和非线性动力学特征向量融合成63维特征向量F,高维特征向量由于容易出现“维数灾难”,且不利于后期分类器分类,故需要通过降维来剔除对分类贡献值较小的特征向量,本次试验把特征向量贡献率设置为85.00%,将特征向量F经PCA降维得到16维新的特征向量。

图5 HHT边际谱图Fig.5 HHT marginal spectrum

图6 三种非线性动力学特征对比图Fig.6 Comparison of three nonlinear dynamics characteristics

4 基于SVM的脑电信号分类识别

目前,运动想象识别分类主要采用(Linear discriminant analysis,LDA)线性判别分析和SVM两种方法[20],有文献表明,基于参数寻优的SVM在单次运动想象识别分类中的效果较好[21]。本研究选取了网格搜索算法(Grid Search,GS)、遗传算法(Genetic Algorithm,GA)、粒子群优化算法(Particle Swarm Optimization,PSO)三种SVM寻优法进行对比研究。

基于GS寻优法得到的GS-SVM多分类参数选择结果等高线(见图7),不同的惩戒因子C与核参数g组合得到不同的准确率,当惩戒因子C为2.00,核参数g为0.35时可取得最大分类准确率为81.70%。基于GA寻优法得到的GA参数寻优适应度曲线(见图8a),从图中可以看出随着迭代次数的不断增大,适应度即分类准确率也在不断增加,最佳适应度在进化至45代后趋于稳定,当惩戒因子C约为2.56、核参数g约为0.29时最优,可得最大分类准确率为91.70%。基于PSO寻优法得到的PSO参数寻优适应度曲线(见图8b),从图中可以看出最佳适应度随着进化代数的不断增加而增加,在36代后趋于稳定,在进化至200代时迭代结束,当惩戒因子C约为8.50、核参数g约为24.45时最优,可得到最大分类准确率为93.00%。

图7 多分类GS-SVM参数选择结果(等高线图)Fig.7 Multi-class GS-SVM parameter selection results (contour map)

图8 GA参数寻优适应度曲线图和PSO参数寻优适应度曲线图Fig.8 GA parameter optimization fitness curves and PSO parameter optimization fitness curve

将数据集中的k6b、l1b和k3b三个受试者数据经多特征提取融合后,分别送入GS-SVM、GA-SVM、PSO-SVM分类算法中识别分类。实验显示PSO-SVM的识别准确率最高,其最大分类准确率为93.30%,故选取PSO-SVM为本研究的最终识别分类算法。三种参数寻优算法下的识别率对比情况(见表1)。

表1 三种参数寻优算法下的识别率Table 1 Recognition rates of three parameter optimization algorithms %

5 结论与分析

为了验证本研究提出算法的有效性,一是以BCI2005 Data set IIIa的k3b数据集为例进行验证,二是通过运动想象脑电采集实验获得四名受试者数据进行验证。

对k3b数据使用PSO-SVM分别对单一特征、两两组合特征、三组合特征和四组合特征进行识别分类结果(见表2),当四种特征结合时,识别率达到了89.90%,但该特征向量维数过高,易造成“维数灾难”,而本研究采用的多特征融合方法,达到了93.30%的准确率,明显高于其它15种方法,验证了将多特征融合与PSO-SVM结合作为多分类脑电信号识别的有效性。

表2 不同特征的识别率对比Table 2 Comparison of recognition rates of different features %

采用美国Neuro Scan公司的脑电信号采集系统进行运动想象脑电采集实验,共获得四名身体健康的受试者脑电数据,包括2名男生和2名女生,分别记作A、B、C、D。实验一天内完成,将实验分两轮进行,每人每轮进行100次运动想象,其中想象左手拍篮球、右手拍篮球、舌头动、右脚踢足球各25次,构成四组各200次样本的数据集,选择140个样本为训练集,60个样本为测试集。将四名受试者数据经多域特征融合处理后分别送入OVO-SVM、GS-SVM、GA-SVM、PSO-SVM、ELM不同分类器识别,实验结果可以看出基于多特征融合的PSO-SVM取得四名受试者平均识别率为72.96%,在五种分类器中识别率最高(见图9)。

图9 多分类数据使用不同分类器识别率对比图Fig.9 Comparison of multi-class data using different classifier recognition rates

利用EMD、HHT、OVO-CSP、近似熵、模糊熵和样本熵进行多域特征提取,获取EEG信号的时-频域、空间域和非线性动力学特征信息,后经PCA降维后,将多特征融合向量送入PSO-SVM算法中分类。利用国际标准数据集BCI2005 Data set IIIa提供的四分类脑电数据使用本文提出的算法,最终得到93.30%的识别率。通过两种具体方式验证了多特征融合及PSO-SVM分类算法的有效性,为便携式脑机接口提供了一种新思路。本研究不仅对非稳定、非线性类信号的分析研究具有一定的借鉴意义,而且对于脑电信号与其它多生理电信号融合研究也具有一定的参考价值,未来可增加诱发脑电的刺激种类,引入其他类型的信号,以获得多种待识别的模式。

猜你喜欢
电信号特征向量识别率
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
基于联合聚类分析的单通道腹部心电信号的胎心率提取
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于Code Composer Studio3.3完成对心电信号的去噪
一类三阶矩阵特征向量的特殊求法
听力正常青年人的低通滤波言语测试研究*
提升高速公路MTC二次抓拍车牌识别率方案研究
基于随机森林的航天器电信号多分类识别方法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用