李健,郭冰,唐瑞阳,黄斌,张潇,李奇
(长春理工大学 计算机科学技术学院,长春 130022)
脑机接口(Brain-Computer Interface,BCI)系统是一种使大脑能够不依赖于外周神经和肌肉通道,而与外部环境进行交互的系统[1],它旨在帮助由于神经疾病或外伤(如严重脊髓损伤、完全瘫痪等)而产生永久感觉运动障碍的患者向外部传送大脑指令,从而实现用户与外部的有效交流。基于P300电位的脑机接口字符输入系统(P300拼写器)是一种普遍使用的脑机接口系统[2]。经典的P300拼写器呈现范式为一个6×6的字符矩阵,矩阵中每行或每列的字符进行随机的闪烁,每行和每列只闪烁一次。当用户想输入某个字符时就注视该字符,则包含该字符的行或列被闪烁的概率为1/6,为小概率事件。当小概率事件出现300~500ms后,在大脑顶叶会诱发一个正的波峰,即P300电位[3]。通过P300电位出现的时间与行列闪烁的对应关系就能判定被闪烁的行或列,则被确定的行和列的交叉字符即为用户想要输入的字符。
经过近十多年的发展,P300拼写器的识别准确率和传输率有了一定的提高,但仍然达不到实际应用的要求。许多研究者通过使用不同的分类算法对P300拼写器进行了改进,如SWLDA,支持向量机等[4-6]。也有许多研究者通过改变呈现范式的参数来对P300拼写器性能进行优化,如改变矩阵大小、刺激频率、刺激强度等[7-10]。这些呈现范式参数方面的研究与某种心理活动、认知过程有一定的联系。最近,一些基于人脸认知的研究表明,熟悉的人脸能够诱发出更大振幅的P300电位,除了P300电位还诱发了与人脸识别相对应的事件相关电位(Event-Related Potential,ERP),如N170和N400f。假设将基于熟悉人脸的脑电特征应用到传统的P300拼写器中,将进一步提高P300拼写器的识别准确率。因此,本研究设计和实现了基于熟悉人脸范式的P300脑机接口字符输入系统。
本研究共有17名志愿者参加,其中有11名男性,6名女性,均为在校大学生和研究生,年龄在21~26岁之间,视力或矫正视力正常,右利手。实验过程中被试需要精神放松,集中注意力,尽可能减少眨眼次数以及肢体动作。
在本研究中,针对传统P300范式进行了改进,设计出基于熟悉人脸的P300脑机接口刺激范式。该范式为一个6×6的字符矩阵,矩阵中每个字符大小为1.5cm×1.5cm,矩阵大小为24cm×16.5cm,背景色为黑色,字符颜色为灰色,亮度为20cd/cm2。该范式被显示在刷新率为60Hz的19英寸显示器上。实验开始后,矩阵中每行或每列的字符将进行随机的闪烁。与传统范式不同的是,行列闪烁时不再是单纯的字符由灰色变为白色,而是在字符上覆盖半透明的熟悉人脸图像(英国著名球星贝克汉姆的头像),闪烁间隔(Inter-Flashing Interval,IFI)为250ms,其中,字符覆盖半透明的熟悉人脸头像的持续时间为200ms,恢复为灰色字符的时间为50ms。在范式的上方有6个字符,前5个字符为本次实验所要输入的字符,最后一个在括号内的字符为当前要输入的字符,如图1所示。
图1 熟悉人脸实验范式示意图
由于肖像权问题,本文中并没有使用贝克汉姆的头像,而是使用了本实验室一名大四学生的头像代替。
每名被试须进行6次实验,每次实验输入5个目标字符,共须输入30个目标字符。被试将在每两次实验之间休息2分钟。把每次实验定义为一个session,每输入一个目标字符定义为一个run,在输入目标字符的过程中,行或列闪烁一次定义为一个trial,其中包含目标字符的行或列的闪烁为靶刺激trial,不包含目标字符的行或列的闪烁为非靶刺激trial。对12个trial进行了编号,依次将从左向右的列闪烁trial分别定义为1~6号trial,依次将从上到下的行闪烁trial定义为7~12号trial。1~6号trial中有且仅有一个靶刺激trial,5个非靶刺激trial;7~12号trial中有且仅有一个靶刺激trial,5个非靶刺激trial。12个trial以随机顺序完全闪烁一次定义为一个sequence。15个sequence组成一个run,完成一个目标字符的输入如图2所示。
被试坐在距显示器正前方70cm的椅子上。在进行实验前,被试有20秒的时间来熟悉范式。为了使被试能够集中注意力,被试将被告知须在实验过程中默数目标字符所在的行或列闪烁的次数。
实验开始前,屏幕上会出现3秒的提示语,告知被试实验即将开始。在输入每个目标字符前,该字符会在字符矩阵中高亮显示1秒,以提示被试该字母所在矩阵中的位置。然后恢复为灰色矩阵,经过2秒后,范式开始行列闪烁,输入完一个字符后,范式恢复为灰色字符矩阵,再经过2秒开始下一个字符的输入。在被试输入完全部5个字符后,屏幕上会出现1秒钟的提示语,告知被试实验结束。
图2 实验设计
本研究采用Neuroscan放大器(SynAmps 2,Neuroscan Inc.,Abbotsford,Australia)采集了14个通道(Fz,F3,F4,FC1,FC2,Cz,C3,C4,Pz,P3,P4,Oz,O1,O2)的脑电信号(电极配置如图3)。参考电极为左乳突,基准电极为右乳突,脑电信号采集的过程中通过HEOG和VEOG电极记录了被试的水平和垂直眼电信号。所有电极阻抗均保持在5kW以下,采样率为250Hz。
图3 选取的14个通道
使用Scan4.5软件(Neuroscan Inc.)对数据进行预处理,采用0.1~30Hz的带通滤波器对脑电信号进行滤波,通过回归分析的方法去除脑电信号中的眼电成分。取每行或每列闪烁前100ms到闪烁后500ms对脑电信号进行分段,以-100~0ms作为基准进行基线校正。将上述处理好的脑电信号保存为eeg格式,并用EEGLAB[11]转换为mat格式,然后使用MATLAB软件进行下一步的分类。
由于脑电信号信噪比较低,其中存在着许多噪声和干扰,进而导致诱发出的P300电位不明显,所以,采用叠加平均的方式来去除脑电信号中的噪声和干扰,增强信噪比。由于在同一run中,无论哪个sequence,包含P300电位的trial编号均相同,因此我们对相同编号的trial的脑电信号进行叠加平均。
EEGk(i)表示第 i号 trial(1≤i≤12)在第 k(1≤i≤15)个sequence中的波形,EEGk(i)经过 K(K≤15)次叠加平均后的波形为:
根据叠加平均时所用sequence数目的不同,得到了叠加1~15次共15种不同波形,随着叠加次数的增多,脑电信号的噪声越来越弱,ERP成分越来越明显。
每个trial所对应的脑电信号由14个通道采集,由于每个通道所在头部位置的不同,所采集到的波形也不相同。针对每个通道,采用bior4.4将脑电波形进行三尺度小波分解,提取分解后的低频系数作为当前通道的特征向量,把全部14个通道的所有特征向量首尾相接,作为此trial的特征向量,将靶刺激trial对应的特征向量称为靶刺激特征向量。脑电波形进行叠加平均后,每个字符对应12个特征向量(12个trial),30个字符共有360个特征向量。
在本研究中,使用集成支持向量机(Support Vector Machine Ensemble)作为分类算法,构建了5个不同的子分类器,选取6个session中的5个作为子分类器的训练集,余下的一个session作为测试集。5个子分类器分别对测试集进行分类,得到5个不同的分类结果。
由于每输出一个目标字符对应12个trial,即12个特征向量,任务是将这12个特征向量分为两类:靶刺激特征向量和非靶刺激特征向量。F(Triali)为 i号trial所对应的特征向量,labelj(F(Triali))为F(Triali)在第 j个子分类器中的分类结果,当Triali为靶刺激 trial时,labelj(F(Triali))=1,当Triali为非靶刺激trial时,labelj(F( Triali))=-1。将5个子分类器的分类结果进行累加,得到ri:
当1≤i≤6时,取其中数值最大的ri所对应的列作为目标字符所在列,当7≤i≤12时,取其中数值最大的的ri所对应的行作为目标字符所在行,而确定的行与列的交叉字符即为目标字符。
由于被试往往在第一个session时精力充沛,随着实验时间的增加,被试将逐渐感到疲惫,因此α波将逐渐增加,影响实验结果。为了保证分类结果的客观性,依次取6个session中的一个作为测试集,其余5个作为训练集,这样就有6种不同的测试方法,对应着6个不同的分类结果,取这6个结果的平均值,即为认为最接近实际应用的分类结果。
实验结果显示,熟悉人脸范式在颞枕区160ms~260ms间诱发了ERP负成分,其峰值在180ms,在O2电极处峰值最大,值为-2.145mV;该ERP成分可以确定为N170波形,这个ERP成分与人脸识别相关[12-17]。由于大脑右半球的优势,与O1电极相比,O2电极记录的N170波幅平均值更高。在额叶(Fz)处 180ms~380ms间发现 Vpp波形,峰值在232ms,值为4.357mV;在刺激后364ms,P300波形出现在顶叶(Pz)处,值为3.178mV,如图4所示。
图4 熟悉人脸范式条件下,靶刺激与
经过数据处理和分类后,我们得到了叠加1~15次的17个被试的字符输入正确率,如表1所示。
表1 叠加1-15次17名被试字符输入正确率及平均正确率
基于P300传统范式,在字符上叠加半透明的熟悉人脸图片,对P300脑机接口系统进行改进,设计并实现了基于熟悉人脸的P300脑机接口字符输入系统。从17人的实验结果来看,基于熟悉人脸的P300脑机接口字符输入系统具有良好的性能,与以往使用传统范式的P300脑机接口系统相比,具有较高的字符输入正确率。基于熟悉人脸的P300脑机接口字符输入系统具有较好的性能,但其仍不足以投入到实际应用中,对于脑机接口系统仍需要大量的研究,相信经过研究者们不断的努力,脑机接口的时代一定会在不久的将来到来。
[1]高上凯.浅谈脑-机接口的发展现状与挑战[J].中国生物医学工程学报,2007,26(6):801-803.
[2]Farwell L A,Donchin E.Talking off the top of your head:Toward a mentalprosthesis utilizing event-related brain potentials[J].Electroencephalography and Clinical Neurophysiology,1988,70(6):510-523.
[3]Wolpaw J R,Birbaumer N,Mcfarland D J,et al.Brain-computer interface for communication and control[J].Clinical Neurophysiology,2002,113(6):767-791.
[4]Krusienski D J,Sellers E W,Cabestaing F,et al.A comparison of classification techniques for the P300 Speller[J].Journal of Neural Engineering,2006,3(4):299-305.
[5]Krusienski D J,Sellers E W,McFarland D J,et al.Toward enhanced P300 speller performance[J].JournalofNeuroscienceMethods,2008,167(1):15-21.
[6]Blankertz B,Lemm S,Treder M,et al.Single-trial analysisand classification ofERP components-A tutorial[J].NeuroImage,2011,56(2):814-825.
[7]Allison B Z,Pineda J A.ERPs evoked by different matrix sizes:implications for a brain computer interface(BCI)system[J].IEEE Transactions on Neural Systems and Rehabilitation Engineering,2003,11(2):110-1130.
[8]Sellers E W,Krusienski D J,McFarland D J,et al.A P300 event-related potential brain-computer interface(BCI):the effects of matrix size and inter stimulus interval on performance[J].Biological psychology,2006,73(3):242-252.
[9]Kaper M,Ritter H.Progress in P300-based braincomputer interfacing[C].IEEE International Workshop on Biomedical Circuits and Systems,Singapore,2004.
[10]Polich J,Ellerson P C,Cohen J.P300,Stimulus Intensity,Modality,and Probability[J].International Journal of Psychophysiology,1996,23(1-2):55-62.
[11]Delorme A,Makeig S.EEGLAB:an open source toolbox for analysis of single-trial EEG dynamics including independent component analysis[J].Journal of Neuroscience Methods,2004(134):9-21.
[12]Wolpaw J R,Birbaumer N,McFarland D J,et al.Brain-computerinterfacesforcommunication and control[J].Clinical Neurophysiology,2002,113(6):767-791.
[13]Miiller G,Neuper C,Pfurtscheller G,et al.An asynchronously controlled EEG-based virtual keyboard:improvement of the spelling rate[J].IEEE Trans Biomed Eng,2004,51(6):979-984.
[14]Birbaumer N,Ghanayim N,Hinterberger T,et al.A spelling device for the paralysed[J].Nature,1999.398:297-298.
[15]Kubler A,Kotchoubey B,Kaiser J,et al.Braincomputercommunication:unlockingthelocked in[J].Psychol Bull,2001,127(3):358-375.
[16]Nijboer F,Sellers E W,Mellinger J,et al.A P300-based brain-computer interface for people with amyotrophic lateral sclerosis[J].Clin Neurophysiol,2008,119(8):1909-1916.
[17]Bernat E,Shevrin H,Snodgrass M.Subliminal visual oddball stimuli evoke a P300 component[J].Clin Neurophysiol,2001,112(1):159-171.