基于免疫优化的脑电自适应集成分类方法研究*

2018-08-23 01:20李嘉伟任立红丁永生
机电工程 2018年8期
关键词:脑电分类器准确率

李嘉伟,任立红,丁永生,陈 磊

(东华大学 数字化纺织服装技术教育部工程研究中心,上海 201620)

0 引 言

近年来,基于脑电(electroencephalogram, EEG)信号的脑机接口系统受到了广泛的关注。脑机接口是一种新的人机交互方式,通过识别脑电信号来获取被试者意图,这项技术能为神经肌肉损伤的患者提供不依赖外围神经的新的通讯工具[1]。通常在EEG信号处理中,P300诱发电位由于它的稳定性,以及不需要训练等特性越来越被研究人员所接受。P300诱发电位是一种事件相关电位[2],是对发生概率相对较小的外界事件或刺激的反应,由于P300诱发电位一般出现在刺激发生后300 ms左右,故称为P300信号。

基于脑电信号识别用户意图是脑机接口的核心任务,特征提取和分类是识别脑电信号最重要的环节,直接决定了分类的性能。目前特征提取以及分类算法主要分为3大类:生成模型分类器、线性分类器以及非线性分类器。在生成模型分类器中贝叶斯分类器是选择具有最大后验概率的类作为该对象所属的一类。线性分类器中常用的是LDA(linear discriminant analysis)分类器,LDA分类速度快且无须高性能计算,通常用于二分类问题,在线性分类中占有一席之地[3]。另外一类是非线性分类器,例如支持向量机(SVM)神经网络分类器等。RAKOTOMAMONJY A等[4]提出一种集成支持向量机,将数据分为多个类,并利用不同的支持向量机训练数据,最后综合多个支持向量机的结果来降低由于单个数据误差造成的整体影响,并最终得出96%的分类准确率;CECOTTI H等[5]将卷积神经网络(CNN)应用于脑电分类中,提出了基于CNN的7个分类器—4个具有不同特征集的单一分类器以及3个多分类器,并应用于BCI竞赛数据集得出95.5%的识别率;除此之外还有多种用于分类的方法如基于小波变换的识别算法[6-7]、线性回归算法[8]。

在近几年脑电最新研究成果中,国内学者利用SSVEP信号针对以往只控制机器人方向的实验进行改进[9],加入了对机器人速度的精细化控制,结果表明:通过对设备的恰当设置,8名被试脑控机器人到达终点平均用时2分40秒,能够实现对机器人多个运动方向和多级速度控制;孟明等[10]学者在处理运动想象脑机接口中引入堆叠降噪自编码器提出一种两级特征提取方法应用于BCI VI的数据,平均Kappa系数可以达到0.69。除此之外,国外的一些学者针对脑电的高度非平稳性,以及传统静态方法在线应用识别错误率高的问题,在自适应分类算法上做出研究,可以实时更新分类器参数,例如VIDAURRE C等[11]提出一种简单的无监督自适应LDA分类器,可以抵消脑电信号非平稳性的负面影响,并且将算法应用于在线实验其性能甚至优于目前最先进的监督学习算法。

本文将结合SVM的二分类性能以及IA算法的自适应性,提出基于IA的自适应集成算法。

1 基于免疫优化的混合核函数集成SVM

1.1 Bagging集成学习方法

单一SVM分类准确率低,所以本文借用了集成学习方法的思想[12]。集成学习方法中AdaBoost算法主要用于弱分类器,对于脑电这种高维小样本信号分类不理想,所以采用Bagging集成算法,对强分类器进行集成。Bagging算法对训练样本进行采样,之后训练出n个相互独立的强学习器。在对预测输出进行结合时,对分类任务通常采用简单投票法。

1.2 IA-SVM算法

1.2.1 SVM算法

SVM是建立在统计学习理论、VC维理论和结构风险最小化原理基础上的机器学习方法,它在解决小样本、非线性和高维模式识别问题中有优势。

给定一个数据集T以及n个样本,T={(xi,yi),i=1,…,n,xi∈Rd,yi∈{-1,+1}}。其中:xi—输入集;yi—目标值。

数据集x经过非线性变换φ(x)可以映射到高维空间F:

φ:Rn→F
x→X=φ(x)

(1)

线性回归函数f(φ(x))可以在空间F中预测目标y的值:

(2)

式中:w—权值向量,w∈F;b—偏移量。

式(2)即为F中的超平面,在超平面确定的情况下,根据结构风险最小化原理可以从中找出间隔最短的最优超平面,即:

(3)

式中:C—正规化参数,其取值范围较大,该类型的SVM称为C-SVM。

只要采取适当的内积函数φ(xi)就可以实现某一非线性变换后的线性分类,而计算复杂度没有增加。将正定的核函数k(x,xi)代替点乘x·xi,分类器的判别函数转化为:

(4)

常用的内积函数有两种。一种为多项式核函数:K(x,xi)=[r*(x·xi)+coef]d。其中:d—多项式的阶;coef—偏置系数。多项式核函数是全局性核函数中的典型代表,其最突出的特点是泛化能力强。另一种为高斯核函数(RBF)。K(x,xi)=exp(-r*‖x-xi‖2)。其中:r—核函数的宽度。高斯核函数是局部性核函数的代表,对一定距离内的样本具有很好的学习性能。

1.2.2IA算法

智能算法是受生物自然机理启发而得出的一系列处理策略,如人工免疫算法、遗传算法以及粒子群算法[13-18]。人工免疫算法是在免疫学理论基础上发展起来的一种新兴的智能算法。通常,免疫算法的优化策略如下:

(1)生成初始群体。将数据输入,如果记忆库非空,则初始抗体群从记忆库中选择生成。否则在可行解空间随机产生初始抗体群,满足约束条件:

β∈{0,1},β,θ,∈{0,10}

(5)

(2)对上述群体中各抗体进行评价。通常对个体评价是以个体期望繁殖率P为标准的;在群体中,每个个体的期望繁殖率由抗体抗原间亲和力AV和抗体浓度CV两部分共同决定:

(6)

通过式(6)可得出当前SVM种群分类错误率。抗体浓度CV为群体中相似抗体所占比例:

(7)

式中:kυ,s—抗体v与抗体s相同位数;L—抗体长度;N—抗体总数。

根据AV,CV可得出当前抗体期望繁殖率。

(3)形成父代群,更新记忆库。将初始群体按期望繁殖率P进行降序排序,并取前N个个体构成父代群,同时取前m个个体存入记忆库中;

(4)判断是否满足结束条件,是则结束,反之则继续下一步;

(5)新群体产生。基于步骤(3)的计算结果对抗体进行选择,pc概率交叉,pm概率进行变异得到新群体,再从记忆库中取出记忆个体,共同构成新一代群体;

(6)转去执行步骤(2)。

1.2.3 IA-SVM算法

通过上文对两种算法的介绍,SVM的性能取决于它的参数、内核以及C参数,然而对于不同的内核,C的选择也不同,SVM参数需要根据实际数据的不同特征来选择,例如脑电分类中每个个体脑电特征都会存在细微差别,固定的SVM参数不能很好地适应每个个体。这个问题利用目前先进的免疫算法可以很好地解决,借鉴免疫算法产生多样抗体的能力,以及免疫系统的自我调节机构和免疫记忆功能。免疫算法是一种自适应智能算法,可以针对SVM对不同个体参数的不确定性进行优化。将SVM与免疫算法结合出自适应的分类算法,把参数作为初始种群输入免疫算法中,通过种群间个体信息交换,新种群产生这一循环过程来获得问题最优解,每一代种群中借助克隆选择,免疫记忆,疫苗接种等机理可以保存下来优秀的参数,并且又保证了参数的多样性。本文通过对SVM以及IA两种算法的结合利用IA的自适应性优化SVM强大的二分类性能从而可以对脑电信号进行分类得出较高的分类准确率。

IA-SVM完整流程图如图1所示。

图1 整体算法流程图

IA-SVM算法中将SVM中需要的参数看作是免疫算法中的抗原,每次迭代存储下来这一代优秀的参数作为记忆细胞,并对最终SVM分类结果进行优化。

2 脑电信号分类的应用

2.1 数据集

本文实验所用EEG数据来源于BCI Competition III Dataset II所提供的P300拼写器实验数据[16]。该P300拼写器基于Oddball范式,是利用P300诱发电位即视觉刺激后约300 ms开始在头顶皮层引起的EEG正峰设计出的BCI应用实验,实验所用EEG数据如图2所示。

图2 实验所用EEG数据

该拼写器实验由FARWELL和DONCHIN[17]在1988年提出,是一个6×6的字符矩阵。Oddball拼写器实验设计如下:拼写器的6行6列会随机被高亮,被试者需要从拼写器的36个字符中选出一个字符作为靶目标,然后全神贯注地观察高亮的行或列中是否存在靶目标。根据伏云发等[18]对脑信号时间-空间模式的定义:

(8)

对于Oddball实验6行6列各随机高亮一次称为一次Trail,即每次Trail对应12次高亮,为了使试验数据更可靠,被试者在选定一个字符后要进行15次这样的重复Trail实验,每次需要对靶目标所在行和列的高亮次数进行计数,这样靶目标的高亮次数对于非靶目标来说就是小概率事件(分别为2次高亮和10次高亮),可以诱导被试者产生P300信号。根据这一特点,均出现P300电位的行与列交叉得到的字符就是被试者注视的字符。

(9)

式中:ED(Error decision)—错误决策数目;CD(Correct decision)—正确决策数目。

2.2 数据预处理

P300与非P300信号对比如图3所示。

图3 含P300与不含P300信号对比

从原始信号中含P300与不含P300信号对比中可以看出:在6 s~8 s时间区间内P300信号幅值要略大于非P300信号,但是图中现象不够明显,可以通过取平均操作来降低信号信噪比从而看出P300与普通信号差别。将多组P300与非P300信号叠加取平均后效果非常明显,可以看出包含P300脑电信号的幅值远远大于非P300脑电信号。

P300诱发电位通常出现在受刺激后300 ms时间范围内,所以本文采取刺激后0~667 ms时间点的电位值,从文献中可以得出P300诱发电位是低频波,所以低通滤波和下采样可以去除高频成分中的不重要的信息。对每一个提取出来的信号通过8阶带通截止频率0.1 Hz~10 Hz的Chebyshev Type I滤波器,之后再对信号根据最高频率进行下采样,通过以上预处理步骤后得到待分类的脑电输入信号。

2.3 参数以及分类器选择

首先需要确定集成算法中基分类器的个数,查阅文献得知脑电数据采集时有很大的时间相关度,即被试者在短时间内脑电数据处于一个状态,根据这方面考虑决定对样本采用时间序列分组,按照样本的采样时间顺序,1~5组数据训练一个基学习器,6~10位一个基学习器,以此类推训练得出17个基学习器。

之后确定基学习器,本次实验为二分类问题,所以本研究选择一些常用分类方法作为对比试验。针对实验脑电数据Dataset II,在不使用集成分类以及免疫优化的条件下分别测试SVM、神经网络、稀疏自编码器(sparse auto encoder, SAE)、深度信念网络(deep belief networks, DBN)4种分类器下10次测试平均分类错误率,实验结果如表1所示。

表1 分类器对比结果

结果显示:直接对预处理过后脑电信号进行二分类,SVM效果最佳,平均分类错误率仅为0.116 2,优于其他3种分类器。在神经网络分类器中稀疏自编码器与深度置信网络效果相近,神经网络稍差。从实验结果可以看出采用SVM作为基分类器可以达到更好的分类效果。同时也得出不使用集成分类以及免疫优化时最佳分类准确率仅能达到0.92,对脑电信号的分类准确度并不高。

2.4 实验及结果分析

训练好所有基学习器后,对被试者的测试数据利用集成的自适应分类算法进行分类。经过实验不同免疫迭代次数下该算法对测试数据的字符识别结果,正确字符集,以及识别正确率如表2所示。

从表中识别结果可以看出:算法对识别字符率的优化效果,识别准确率随着迭代次数增加逐步提高。在迭代次数达到13时,获得0.96的准确率,已与竞赛第一准确率持平,在迭代次数达到15时,获得最高98%的准确率。

表2 不同免疫算法迭代次数正确率

免疫算法对参数优化效果如图4所示。

图4 免疫算法对支持向量机优化效果

图4展示了免疫算法迭代次数不断增加对17个支持向量机参数的优化结果。可以看出参数随着迭代次数的增加使整体朝着错误率低的方向自适应地改变,并逐渐趋于稳定。

为了更直观的表达本文方法在脑电分类上的优良性能,还进一步对比分析在两个不同被试者(Dataset I, Dataset II)试验集上不同优化方法的分类准确率。

本文算法在两个数据集上与未使用自适应集成算法以及PSO优化算法的分类正确率对比如图5所示。

图5 自适应集成学习算法与原始分类算法以及PSO优化算法对比

PSO是一种基于群体的算法,是一种与免疫算法类似的优化算法。PSO算法粒子速度及位置更新公式如下:

(10)

PSO算法中,粒子速度可以智能地随着局部以及全局最优解更新来调控最终结果,从而得出结果最佳的参数。接下来对比分析3种算法对数据集的分类效果,从dataset I可以看出PSO对参数优化可以提高准确率,然而缺点在于PSO不能保存优秀解,免疫算法迭代次数从11到12以及14到15均出现准确率下降,同样对比原算法与自适应算法可以看出自适应参数与定值参数相比,自适应参数可以很好地调节准确率,迭代15次时可以达到0.98的准确率,比原准确率提高了0.2。且整体水平均高于原竞赛第一名。在分析dataset II数据可以看出自适应算法的增长速度均高于其他两种算法,证明其拥有很好的适应调节效果,最终准确率可以达到0.97。

综合两张图,该算法都能获得相对较优的准确度,表明该法在处理P300脑电信号这类问题上是可行性的。

3 结束语

本文提出了一种自适应的集成分类方法,该算法利用免疫算法对集成的SVM中每个基学习器进行寻优,最后得出98%的分类正确率;免疫优化算法可以保留优秀的参数,并且又保证了参数的多样性,与集成的SVM结合,可以改进SVM参数,又通过适当的核函数选择得到自适应的效果,使分类准确率达到最佳。

由于数据分组较多,本文提出的自适应的集成分类算法免疫优化的寻优过程需要一定的时间,准确率的提高以损失时间作为代价,所以该法适用于离线处理,对于在线的脑电处理还需进一步研究。

猜你喜欢
脑电分类器准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
基于脑电的意识障碍重复经颅磁刺激调控评估
高速公路车牌识别标识站准确率验证法
基于脑电情绪识别的研究现状
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
Bagging RCSP脑电特征提取算法
脑电逆问题在运动康复领域中的应用