基于遗传算法的运动想象脑电信号分类准确率的提升方法*

2018-10-22 10:45高诺鲁昊鲁守银吴林彦
生物医学工程研究 2018年2期
关键词:时间段适应度正确率

高诺,鲁昊,鲁守银,吴林彦

(山东建筑大学信息与电气工程学院,济南 250101)

1 引 言

脑机接口(brain computer interface, BCI)是人脑与计算机或其他电子设备之间建立的直接的交流和控制通道。通过这种通道,人就可以直接通过脑来表达想法或操纵其他设备,而不需要通过语言或肢体的动作,是一种全新的通信和控制方式[1-5]。在所有能够被监测到的反映大脑活动的信号中,由于脑电信号(electroencephalogram,EEG)具有较好的时间分辨率,监测仪器较简单,非入侵等优点,被大部分脑机接口系统所采纳。

运动想象是在肢体不实际运动的情况下对肢体某个部分的潜在想象。基于运动想象的脑机接口系统的生理依据是使用者在想象不同肢体运动时,自主控制其大脑运动感觉皮层与所想象肢体对应区域u节律或β节律的变化[6-7]。如何提取u节律或β节律的能量差异这种特征是运动与想象脑机接口系统的关键问题[2]。

目前,研究重点大多集中于尝试新的脑电信号的提取算法,但提出的新算法相对于传统算法的效果提升并不明显[8-12],而利用提升算法来改进已有的算法却取得了较好的成果。刘锦等以交叉验证识别率为指标,剔除“低质量”的数据集,识别率得到了有效的提升[13];牛晓青等利用遗传算法进行最优特征集选择,除去了冗余的特征信息,分类正确率提升效果明显[14];单海军等提出了一种Relief-SBS通道选择算法,得到了出色的分类准确率[15]。上述方法有效地提高了脑电信号分类正确率,但都只是对特征、通道或者数据进行剔除,而未能增加有效的信息。

本研究提出了一种综合考虑不同时间段分类结果,并且可以进行数据筛选的提升方法。由于脑电信号具有较好的时间分辨率,且不同时间段对有效特征的贡献率是不同的,因此本研究提出:利用CSP算法进行不同时间段的特征提取,再利用遗传算法得到不同时间段对分类正确率的贡献率,即权值,最后对不同时间段结果加权得到最终分类结果及其可信度。利用本实验室采集的脑电信号进行测试,测试结果证实,该方法可以有效提高脑电信号分类准确率,并且通过设置可信度阈值,可以进行低质量数据的剔除。

2 数据和方法

2.1 数据来源

本研究的数据来源是本实验室采集的运动想象脑电数据。七名年龄在19~23岁的大学生志愿者每人采集了两组数据,一组数据作为训练数据,一组数据作为测试数据。数据是在有视觉反馈提示的情况下获得的。每次实验时间长度为10 s, 在1 s的无提示准备时间后,屏幕出现方向提示,提示时间1 s。之后被试进行左手与右手的运动想象,想象时间为8 s。信号采集时序图见图1。

每名被试分两天共记录了两组数据共400次实验数据,其中一组200次实验数据用于确定权重,另一组200次数据用于算法测试。每一组200次实验数据中,都包含左手想象和右手想象各100次。整个实验采用Emotiv EPOC+电极帽进行脑电信号采集,采样频率为128 Hz。

图1 数据采集时序示意图

2.2 方法

2.2.1特征提取 共空域模式(common spatial pattern, CSP)算法是一种常见的空域滤波方法[16-19]。步骤如下:

若将实验测得的脑电数据表示为N×T的矩阵E,其中N为脑电测量的通道数,T为脑电测量时每个通道的采样点数,那么归一化的脑电数据协方差矩阵可以表示为:

(1)

若用C1和CR表示想左和想右两种情况下的空间协方差矩阵。那我们可以应用主成分分析法,对协方差矩阵的和C按式2进行特征分解:

(2)

其中,λC为特征矩阵对角阵,FC为对应的特征向量矩阵。那么,白化矩阵为:

(3)

则协方差矩阵CL和CR可以变换为:

SL=PCLPT=UλUT

(4)

SR=PCRPT=UλUT

(5)

SL和SR拥有共同的特征向量,即如果SL=BλLBT,则SR=BλRBT。不难得λR+λL=I,B是SL和SR共同的特征向量。由于两类矩阵的特征值相加总是为1,则SL的最大特征值所对应的特征向量使SR有最小的特征值,反之亦然。将白化后的EEG信号投影在特征向量B的前8和后8列特征向量上,就能够得出最佳的分类特征。投影矩阵W=BTP,则单次任务实验的脑电数据E可以变换为Z=WE。

对于脑电特征的提取,可以将投影后的信号ZP(p=1,K,16)做如下变化后作为特征值[19]:

(6)

则特征向量为F=[f1,f2,…,f16]。

2.2.2特征分类 本研究采用支持向量机对提取的特征进行二分类,将想象左和想象右分别应标记为1和-1[19-20]。10折交叉验证方法被用来数据训练,将想象左手、右手运动的各100组数据随机分为10组互斥数据,每组包括左手、右手各10组数据。每次用9组数据作为训练集,剩余一组为验证集,对每一秒都进行训练和测试,最终得到想象左手、右手运动的各100组的分类结果。

2.2.3确定权重 由于脑电信号具有较好的时间分辨率,不同时间段的特征都具有较好的分类效果。在表1中可以看出每秒的正确率都在80%左右,一般只会取最高的时间段作为判断的依据,而忽视了其他时间段对最后结果的贡献,所以本研究采用加权各时间段的结果,从而获得最终结果S:

(7)

常见的权重确定方法有专家打分法、层次分析法和模糊评价等。这些权重确定方法通常是凭经验给出的,不能客观地反映实际情况,评判结果可能“失真”[21]。本研究采用遗传算法(genetic algorithm, GA)来客观地获得最有效的权重,遗传算法的流程图见图2[22-25]。

(1)种群初始化 种群规模确定为100,每个个体对应8个权重(i=1,2……7,8),采用二进制编码。进化代数预设为100。

(2)适应度函数的确定 将解码后的权重Ki对不同时间段的分类Oi结果加权,加权结果与实际结果G差距越小,适应度越大;相反,适应度越小。加入可变参数N,使得优秀个体与普通个体适应度差异增大,从而防止优秀个体的丢失。适应度函数定义如下:

(8)

注:N在本研究中取8。

图2 遗传算法流程图

(3) 选择、交配和变异 根据种群中每个个体的适应度,轮盘选择算法被用来选择复制出新的种群;交配采用单点交叉法,交叉概率0.9;变异概率0.1,即每位二进制数都有0.1的概率发生改变[25]。

3 结果

3.1 不同时间段的分类正确率

通过10折交叉验证对不同时间段进行10次训练和测试,得到每次交叉验证不同时间段的分类正确率,且求得不同时间段10次交叉验证正确率的平均值,结果见表1。

表1不同时间段的分类正确率

Table1Theaccuracyofclassificationfordifferenttimeperiods

10次交叉验证不同时间段正确率/s0-11-22~33~44~55~66~77~810.650.800.700.800.850.700.750.7020.850.800.750.800.850.800.800.9030.950.900.750.700.900.850.850.8040.750.850.800.650.800.650.800.8050.900.650.550.750.800.850.600.8060.800.800.600.700.950.750.800.6070.700.950.950.800.900.650.700.6080.850.750.950.750.550.850.750.7090.800.650.900.750.800.800.750.80100.850.850.750.800.900.850.800.70平均0.810.800.770.750.830.770.730.71

3.2 遗传算法求解

通过遗传算法,进行初始化种群,重复计算种群适应度、种群选择、交配和变异步骤,迭代100代,最大平均适应度随迭代次数变化曲线见图3。

图3 种群适应度随进化代数的变化

从图3可以看出遗传算法迭代100代,种群达到较为稳定状态,表明得到了目标函数对应的最优解。图中,蓝色曲线代表最大适应度随进化代数的变化曲线,红色曲线代表平均适应度随进化代数的变化曲线。

3.3 限制可信度

设置不同的可信度阈值,筛选出结果可信度高的结果。其中,可信度低的数据往往是低质量,可以被剔除。得到可信测试数据的正确率和个数随可信度阈值变化趋势,见图4、图5。

图4 可信测试数据的正确率随可信度阈值的变化

Fig4Thecorrectrateoftrustedtestdatavarieswiththethresholdofconfidence

图5 可信测试数据的个数随可信度阈值的变化

Fig5Thenumberoftrustedtestdatavarieswiththethresholdofconfidence

从图4和图5得知,可信测试数据的正确率随可信度阈值的增大而增大,且正确率变得非常理想。但是,伴随着的是可信测试数据的个数下降,即对数据质量要求变高。

3.4 算法验证

对七名被试的训练数据进行上述权值及可信度计算,然后对每名被试的测试数据进行测试。设置可信度阈值0.4,得到没有加权综合考虑前不同时间段的分类正确率和加权后分类正确率,见图6。实验结果表明,设置了可信度阈值之后,算法明显提高了分类精度。

图6 加权前后正确率比较

Fig6Comparisonofcorrectnessbeforeandafterweighting

4 讨论

相较于传统算法,新的特征提取算法提升效果不明显[8-12],改进和提升传统算法是一个有效的途径[13-15]。本研究提出了一种综合考虑不同时间段分类结果,并且可以进行数据筛选的提升方法。不同时间段的特征都具有较好的分类效果。从表1可以看出,不同时段交叉验证的平均正确率差别不大,均在0.7~0.8之间,说明每一时间段的特征都是有效的。而当某一时间段判断失误时,其他时间段大多数都为正确的预测结果,所以,加权每一时间段分类结果是十分必要的。而从图6可以看出加权后的正确率由原来的80%左右上升到95%左右,且对7名被试人员都有效。这证明了该算法不但能够明显地提高准确率,并且具有普适性。

此外,本研究提出的方法还得到了对应结果的可信度,可信度越低说明各时间段判断结果越不一致,进而体现出数据的质量越差。脑电信号易受干扰,采集到的数据往往不能直接用来作为识别运动想象的准确识别。通过设定阈值,可以剔除低质量的信号,进而提高了准确率。从图4可以看出准确率随着阈值的提高逐渐变高,甚至可以达到100%。但在图5中可以看出,阈值的提高对数据的质量的要求也随之变高,即有效数据的数量迅速下降。所以,根据对正确率要求和数据质量的实际情况,阈值可以进行适当地调整。本研究中设置可信度阈值为0.4,在保证数据个数的前提下,正确率即可达到95%。

目前提升算法主要是对特征、通道或者数据进行选择,即剔除无效的特征和通道或者剔除低质量的数据,而未能增加有效的信息,而仅仅利用减少冗余信息使得分类器更容易分类,所以改善的效果相对较差。而本研究提出的算法可以综合不同时间段的分类结果,分类效果提升更加明显。此外,本方法还能得到分类结果的可信度。设置可信度的阈值可以剔除低质量的信号,从而提高算法识别的正确率。同时,该方法还可以与其他特征提取方法相结合,对不同时、频特性进行有效性及可信度计算,提升分类准确率。

5 结论

为了综合考虑不同时间段脑电信号特征的分类结果,提高分类准确率,本研究通过CSP算法求得不同时间段的特征,以支持向量机为分类器,通过10折交叉验证法对不同时间段进行训练和测试,以降低加权后的分类结果与实际结果之间欧式距离为目的,通过GA确定权重K。随后,对不同时间分类结果加权。本研究同时讨论了可信度阈值的作用,通过设定可信度阈值,可以选择最有效的时间段数据,摒弃无效数据,从而大幅度提高正确率。本研究利用实验室测试数据进行验证,在可信度阈值设置为0.4,引入了不同时间段的权值之后,分类准确率由原来的80%左右上升到95%左右。

本研究提出的方法不仅可以综合考虑不同时间段分类结果,还可以综合考虑不同算法或不同时、频特征得到分类结果。如何确定更优的权重、以及加权对象选择有待更进一步的研究,也是本方法的潜力所在。

致谢

感谢本实验室翟文文、于冬雪、高枫提供了实验数据。

猜你喜欢
时间段适应度正确率
改进的自适应复制、交叉和突变遗传算法
门诊分诊服务态度与正确率对护患关系的影响
夏天晒太阳防病要注意时间段
一种基于改进适应度的多机器人协作策略
发朋友圈没人看是一种怎样的体验
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
基于空调导风板成型工艺的Kriging模型适应度研究
不同时间段颅骨修补对脑血流动力学变化的影响