基于人脸范式的P300拼写系统的参数优化

2018-03-28 07:43孙红艳王行愚
中国生物医学工程学报 2018年1期
关键词:比特率离线字符

孙红艳 金 晶 张 宇 王 蓓 王行愚

(华东理工大学信息科学与工程学院,上海 200237)

引言

脑机接口(brain-computer interface,BCI)是当前多学科交叉领域的研究热点,旨在大脑与外部设备之间建立直接的通信通道,而不依赖周围神经肌肉组织[1-5]。脊髓损伤(spinal cord injury, SCI)、脑瘫(cerebral palsy, CP)、肌萎缩(muscular dystro-phies, MD)、肌萎缩性脊髓侧索硬化症(amyotrophic lateral sclerosis, ALS)等患者会逐渐失去自主运动和交流能力,但是他们在不同思维任务下的脑电位活动依然存在。因此,脑机接口系统可以通过识别在特定思维任务下的脑电活动,帮助这些患者实现与外界的信息交互[6-7]。除此以外,脑机接口系统在康复、娱乐、家居生活等方面也有一定的应用价值[8-9]。

基于P300电位的脑机接口系统,因其识别准确率高,信息传输率快,常被用于拼写系统[10-11]。P300电位由具有一定时间间隔的小概率事件刺激诱发,是刺激发生后300 ms左右的一个正波。1988年,Farwell和Dochin首次提出了P300脑机接口系统,字符拼写的原理是利用6×6字符矩阵的行列随机闪烁[10]。但是,这个系统需要经过信号多次叠加,在准确率和速率方面还不能满足实际应用的需要,因此很多学者致力于提高这种拼写系统的性能[12-19]。目前主要的优化方法分两大类:一种是信号处理与模式识别方法的设计与优化[14-16],另一种是刺激编码、刺激源的范式优化[17-19]。

近年来,很多研究人员对刺激呈现间隔、刺激间间距和刺激源等刺激呈现形式展开了大量的研究[20-27]。2002年,Gonsalvez和Polich提出在一定时间区域内(<8 s),P300幅值随着刺激间时间间隔(target-to-target intervals, TTI)的增加而增加,P300潜伏期随着TTI的增加而减小,但是与内部刺激时间间隔(inter-stimulus intervals, ISI)没有关系[21]。通过长期的研究,表明刺激源间的时间间隔过长会使得拼写系统过慢,如果间隔过短又会带来信号间重叠、重复盲(repetition blindness, RB)等问题[23]。在刺激间距和刺激源尺寸方面,2009年Slvaris等人提出字符间距对P300脑机接口系统的影响不显著,但字符本身大小却会显著影响系统性能[24]。除此以外,很多学者还对刺激颜色[25]、视觉刺激强度[26]、事件相关电位(event related potentials, ERPs)诱发机制[27]等展开相关研究。

2011年,Kaufman等发现熟悉人脸除诱发较强的P300以外,还能诱发可识别性较高的N400, 试验结果表明,人脸刺激可以得到比传统字符刺激更高的分类准确率[28]。为了进一步提高人脸范式的性能,研究人员分别对卡通人脸[29]、倒人脸[30]、表情变化人脸[31]等展开了一系列的研究。然而和传统字符刺激一样,人脸刺激的呈现形式也会直接影响人脸诱发信号的可识别性。本研究主要对人脸刺激在脑机接口系统中的几个基本呈现形式进行实验分析,研究了刺激间隔(130 ms和200 ms)、界面尺寸(15.6和24英寸,1英寸=2.54 cm)和图片像素(50×69和80×110)对系统性能的影响。笔者首先对刺激时间间隔展开研究,为设计准确率高、信息传输率快的人脸诱发拼写系统提供依据;接着针对现在比较常见的15.6和24英寸显示界面展开研究,讨论不同界面尺寸对诱发信号的影响;最后探讨了刺激源像素对诱发信号的可识别性的影响,为刺激源大小的选择提供依据。

1 材料与方法

1.1 被试及实验装置

参与本次实验的被试一共10名(男性6名,女性4名),他们的平均年龄是25岁,均为右利手,视力正常或矫正为正常。所有受试者均签署知情同意书。

本次实验使用的脑电信号采集装置是g.USBamp脑电信号采集仪和g.EEGcap电极帽,采样频率设为256 Hz,带通滤波设为0.1~30 Hz。电极帽的导联选择为F3、Fz、F4、FC1、FC2、C3、Cz、C4、P7、P3、Pz、P4、P8、O1、Oz、O2(见图1)。参考电极安置在右耳垂上,地极安置在前额FPz处。

图1 导联分布Fig.1 Electrodes configuration

给被试佩戴好实验装置,实验开始前,给被试讲解实验流程以及注意事项,等被试熟悉后开始实验。每个被试均参与4个不同范式的实验,每次实验包括3个离线训练阶段和1个在线测试阶段,每个阶段间隔5 min。在每个离线阶段被试需要完成5个目标选择任务,在线阶段需要选择42个目标。实验过程中,被试需要对目标刺激进行默数。具体刺激流程见图2。

图2 刺激流程Fig.2 The flowchart of stimuli

1.2 实验范式

本次试验范式在传统字符闪烁范式[10]的基础上,增加了一行字符,分别用来输出逗号、句号、空格、问号,删除字符和发出指令NO。形成的6×7矩阵,扩充了P300拼写系统的功能。字符的颜色是深蓝色,背景色是黑色。用熟悉人脸图片闪烁代替传统的字符高亮。刺激面板如图3所示,右边的方框用于输出被试拼写的字符。其中,闪烁机制采用的是2011年金晶等提出的基于二项式系数的闪烁方式[32],具体表达式为

C(n,k)=n!/(k!(n-k)!)

(1)

图3 刺激面板(呈现的是第9闪)Fig.3 The stimulus screen presented to the subject during the experiment (The human face pattern presented were illuminated in the ninth of the 12 flashes.)

根据图2可知,n=12,表示每一个闪烁序列都有12闪;k=2,表示12闪中2闪可以确定一个目标。每个字母的闪烁序列如图4所示。

图4 闪烁序列(冒号两边的数字表示定位目标字符的编码,横杠后面的数字为目标序号(0~41),如A字符可由第1闪和第4闪确定该目标)Fig.4 Flash sequence (The numbers beside the left and right sides of the colon are the code to locate the target characters, and the numbers in the right side of the hyphens are the sequence numbers of target characters (0~41). For example, the top left element of panel A would be illuminated during the first and fourth flash groups of the 12 flash groups.)

为了探究刺激时间间隔,界面尺寸和人脸图片像素对P300拼写系统性能的影响,本研究设计了4个刺激模式,具体参数如表1所示。本研究采用控制变量法。范式A和范式B在界面尺寸和人脸图片像素一样的基础上,比较刺激时间间隔对系统性能的影响。两种范式的具体时间参数如图5所示。实验A和B均在15.6英寸显示器上进行,为了比较界面尺寸对P300拼写系统的影响,将范式B移植到24英寸显示器上进行实验,得到范式C。随着界面尺寸的增大,刺激面板整体放大,字符间距、字符大小、人脸图片等参数均等比例放大(比例为15.6∶24.0)。范式C和范式D在刺激时间间隔、界面尺寸相同的基础上,改变了人脸图片像素。

表1 4种刺激范式的具体参数Tab.1 Four patterns used in this experiment

图5 闪烁呈现时间、刺激消隐时间、刺激时间间隔参数Fig.5 Flash duration (FD), stimulus off time (SOT) and stimulus onset asynchrony (SOA)

1.3 特征提取及分类算法

利用三阶巴特沃斯(Butterworth)带通滤波器进行1~30 Hz带通滤波,并截取每闪刺激呈现后的800 ms脑电数据。为了消除数据的高维“灾难”问题,将原始EEG数据进行下采样:每隔7个数据点选取一个数据点进行下采样,构成特征向量。笔者选用贝叶斯线性分类器(Bayesian linear discriminant analysis, BLDA)进行特征向量的建模分类。该分类器避免了过拟合,具有良好的分类效果[13]。为了去除噪声信息对波形的影响,将EEG信号中高于90%的部分用等于90%的值代替,小于10%的部分用等于10%的值代替[13]。

1.4 实际比特率

2002年,Wolpaw定义了原始比特率(raw bit rate,RBR)[2],定义式为

RBR={lb2N+Alb2A(1-A)+

lb2[(1-A)/(N-1)]}×T

(2)

式中,A表示分类准确率,N表示每个trial中目标数,T表示完成目标选择的时间。

为了评估BCI系统的实际性能,2010年Town-send提出了实际比特率(practical bit rate, PBR)[33]。在线系统中发生拼写错误时,删除和重新输入需要额外的时间,实际比特率把这个额外时间计算在内,计算公式为

PBR=RBR×(1-2Aon)

(3)

式中,Aon表示BCI系统的在线错误率。

如果Aon>50%,分类错误率太高,无法有效地修正拼写错误,则把PRB设为0。

1.5 统计分析方法

采用配对样本检验(t-test)方法进行样本之间的差异显著性分析,P<0.05被认为有显著性差异。

2 结果

2.1 离线实验结果

为了探究3个物理参数对ERP幅值的影响,图6将范式A和范式B、范式B和范式C、范式C和范式D在电极Fz、Cz、Pz和P8上的ERP幅值分别进行了对比。可以看出,范式A与范式B之间的幅值差异较大,范式B与范式C之间的幅值差异较小。表2中列出了所有被试在这4种范式中的ERP峰值,分别是:电极P8上的N200,电极Pz、Cz和Fz 上的P300,电极Cz 上的N400。表3是对表2中范式A与范式B、范式B与范式C、范式C与范式D之间的峰值差异进行了配对样本检验。

图6 4种范式在电极Fz、Cz、Pz、P8 (每行自左至右)上的ERP目标刺激幅值。(a)范式A和范式B;(b)范式B和范式C;(c)范式C和范式DFig.6 The comparison of mean ERPs amplitude on Fz, Cz, Pz and P8 (from left to right for each line). (a) Pattern A vs pattern B; (b) Pattern B vs pattern C; (c) Pattern C vs pattern D

图7中列出了这4种范式的平均离线分类准确率和信息传输率。为了进一步分析系统的分类性能差异,本研究计算了所有范式的单个闪烁序列的准确率,如图8所示。配对样本检验结果显示:范式B的单个闪烁序列准确率显著高于范式A(t=3.282,P=0.008);范式C的单个闪烁序列准确率显著高于范式B(t=2.841,P=0.018);范式C的单个闪烁序列准确率显著高于范式D(t=4.868,P=0.001)。

表2 10个被试在4种范式中的N200、P300、N400的峰值Tab.2 Peak values of N200, P300 and N400 across 10 subjects μV

表3 N200、P300、N400峰值差异t检验Tab.3 The result of T-test on N200, P300, N400

图7 离线分类性能。(a)准确率;(b)比特率Fig.7 Offline classification performance. (a)Accuracy; (b) Bit rate

图8 10个被试的每种范式的单个闪烁序列准确率Fig.8 The per-trial classification accuracy of 10 subjects in each pattern

R2常被用来反映ERP信号的时间能量,如图9所示,红色表示正电位特性,蓝色表示负电位特性。总体而言,范式A的ERP信号强度最弱。

2.1 在线实验结果

表4中列出了在线阶段的实验结果,即每个被试完成42个目标的准确率(ACC)、平均叠加次数(NUM)和实际比特率(PBR)。配对样本检验结果显示:范式B的在线分类性能是显著优于范式A的(ACC:t=4.429,P=0.002; NUM:t=-2.388,P=0.041; PBR:t=3.627,P=0.006);范式C与范式B之间的差异是不显著的(ACC:t=2.175,P=0.058; NUM:t=0.341,P=0.741; PBR:t=1.697,P=0.124);范式D与范式C之间的差异也是不显著的从范式A和B的离线、在线结果可以看出,刺激时间间隔为200 ms的范式B比刺激时间间隔为130 ms的范式A诱发出了幅值更大的P300信号(见图6、表2、图9),并获得了更高的分类准确率和信息传输率(见图8和表4)。其中,图7中范式A的离线叠加比特率比范式B高,这是由于计算离线比特率时,T取值60/((1~16)×12×SOA)。由于范式A的刺激时间间隔(SOA)比较短,因此获得了比较高的离线叠加比特率。

(ACC:t=-1.830,P=0.101; NUM:t=2.087,P=0.066; PBR:t=-1.484,P=0.172)。

3 讨论和结论

3.1 刺激时间间隔的影响

Lu等系统研究了刺激持续时间、刺激消隐时间和刺激时间间隔对传统行列闪系统的影响[34]。结果表明,增加刺激消隐时间、刺激时间间隔,可以提高系统的分类准确率,加快信息传输率。本研究中范式B的刺激消隐时间、刺激时间间隔均长于范式A,在线测试阶段仅需要较少的叠加次数就能获得较高的分类准确率,符合Jessica Lu等的研究结论。在拼写系统的实际应用中,应针对不同的人群(例如正常人、病人)选取合适的刺激时间间隔,使BCI 系统发挥出较好的性能。

3.2 界面尺寸的影响

实验结果显示:界面尺寸为15.6英寸的范式B诱发出的ERP幅值与界面尺寸为24英寸的范式C无显著差异(如图6、9所示)。分类性能方面,范式C的离线单个闪烁序列准确率显著高于范式B,但这两种范式的在线分类结果并无显著差异。这可能是由于离线单个闪烁序列的准确率是由多个闪烁序列叠加取平均的结果,而在线过程是自适应的,当系统连续两次检测到同一个目标时就立刻输出该结果[15]。

由此可见,相同的实验范式分别在不同尺寸的显示器上运行时,字符间距、字符大小、人脸图片是等比例缩放的,因此诱发的ERP信号强度基本不变。虽然界面尺寸大的范式可以获得更高的分类准确率,但并不影响系统的实际使用性能,这意味着拼写系统可移植到尺寸适当的便携移动设备上,从而为行动不便的病人带来诸多方便。

3.3 人脸图片像素的影响

从表2、3可以看出,人脸图片为80像素×110像素的范式C比图片为50像素×69像素的范式D诱发出了更强的N200、P300信号。分类性能方面,范式C的离线单个闪烁序列准确率显著高于范式D,但在线分类结果没有显著性差异。

人脸感知主要依赖于人脸结构信息[35-36]。对相同的人脸,认知加工过程相同,因此诱发出的N400信号变化不大,但人脸图片像素大的范式可诱发出更强的N200、P300信号,获得更好的分类性能,这与字符大小对传统的字符闪烁范式的影响是相类似的[24]。然而在BCI系统的实际应用中,图片像素过大会增加系统的邻近干扰,从而降低系统性能[12]。

本研究在传统P300脑机接口系统的物理参数研究的基础上[12,37],探究了刺激时间间隔、界面尺寸和人脸图片像素对基于人脸范式的P300拼写系统的影响。研究结果表明:适当增加刺激时间间隔,可以诱发出更强的P300信号,并获得更高的分类准确率和比特率;减小界面尺寸对ERP信号影响不大,虽然分类准确率有所降低,但不影响系统的实际使用性能;增大图片像素可增强N200、P300信号,并获得更高的分类准确率。基于人脸范式的P300拼写系统的性能优化方式还有很多,如可以优化预处理、特征提取、分类算法等[38]。然而,针对实际病人的拼写系统还会受到病人状况和环境因素等影响,会影响拼写系统的准确率和速度,需要针对实际应用条件,加入人工智能模块,帮助解决实际应用中遇到的问题。

[1] Mak JN, Wolpaw JR. Clinical applications of brain-computer interfaces:current state and future prospects[J]. IEEE Reviews in Biomedical Engineering, 2009, 2:187-199.

[2] Wolpaw JR, Birbaumer N, Mcfarland DJ, et al. Brain-computer interfaces for communication and control[J]. Clinical Neurophysiology, 2002, 113(6):767-791.

[3] Yin Erwei, Zhou Zongtan, Jiang Jun, et al. A dynamically optimized SSVEP brain-computer interface (BCI) speller[J]. IEEE Transactions on Biomedical Engineering, 2015, 62(6):1447-1456.

[4] Chen Xiaogang, WangYijun, Nakanishi M, et al. High-speed spelling with a noninvasive brain-computer interface[J]. Proceedings of the National Academy of Sciences of the United States of America, 2015, 112(44):6058-6067.

[5] Zhang Dan, Song Huaying, Xu Rui, et al. Toward a minimally invasive brain-computer interface using a single subdural channel: a visual speller study[J]. Neuroimage, 2013, 71(5):30-41.

[6] 王行愚,蔡锋,金晶,等.听觉脑-机接口的智能机器人控制系统[J].控制理论与应用,2015, 32(9):1183-1190.

[7] Li Yuanqing, Pan Jiahui, Long Jingyi, et al. Multimodal BCIs: target detection, multidimensional control, and awareness evaluation in patients with disorder of consciousness[J]. Proceedings of the IEEE, 2015, 104(2):332-352.

[8] 明东,顾斌,刘爽,等.运动相关皮质电位在运动康复领域的应用[J].纳米技术与精密工程,2015,13(6):425-433.

[9] 王金甲,杨成杰.P300脑机接口控制智能家居系统研究[J]. 生物医学工程学杂志, 2014,31(4):762-766.

[10] Farwell LA, Donchin E. Talking off the top of your head: Toward a mental prosthesis utilizing event-related brain potentials[J]. Electroencephalography & Clinical Neurophysiology, 1988, 70(6):510-523.

[11] Sellers EW, Mcfarland DJ. Toward enhanced P300 speller performance[J]. Journal of Neuroscience Methods, 2008, 167(1):15-21.

[12] 马征,邱天爽. 视觉ERP脑机接口中实验范式的研究进展[J].中国生物医学工程学报,2016,35(1):96-104.

[13] Hoffmann U, Vesin JM, Ebrahimi T, et al. An efficient P300 based brain-computer interface for disabled subjects[J]. Journal of Neuroscience Methods, 2008, 167(1):115-125.

[14] Zhang Yu, Zhou Guoxu, Zhao Qibin, et al. Spatial-temporal discriminant analysis for ERP-based brain-computer interface[J]. IEEE Transactions on Neural Systems & Rehabilitation Engineering, 2013, 21(2):233-243.

[15] Jin Jing, Sellers EW, Zhang Yu, et al. Whether generic model works for rapid ERP-based BCI calibration[J]. Journal of Neuroscience Methods, 2012, 212(1):94-99.

[16] Lotte F, Congedo M, Lecuyer A, et al. A review of classification algorithms for EEG-based brain-computer interfaces[J]. Journal of Neural Engineering, 2007, 4(2):R1-R13.

[17] Guan C, Thulasidas M, Wu J. High performance P300 speller for brain-computer interface[C]// IEEE International Workshop on Biomedical Circuits and Systems.Singaporecity: IEEE, 2005:13-16.

[18] Fazel-Rezai R, Abhari K. A comparison between a matrix-based and a region-based P300 speller paradigms for brain-computer interface[C]// International Conference of the IEEE Engineering in Medicine & Biology Society. Vancouver: IEEE, 2008:1147-1150.

[19] Jin Jing, Allison BZ, Kaufmann T, et al. The changing face of P300 BCIs: a comparison of stimulus changes in a P300 BCI involving faces, emotion, and movement[J]. PLoS ONE, 2012, 7(11):e49688.

[20] Jin Jing, Sellers EW, Wang Xingyu. Targeting an efficient target-to-target interval for P300 speller brain-computer interfaces[J]. Medical & Biological Engineering & Computing, 2012, 50(3):289-296.

[21] Gonsalvez CJ, Polich J. P300 amplitude is determined by target-to-target interval[J]. Psychophysiology, 2002, 39(3):388-396.

[22] Croft RJ, Gonsalvez CJ, Gabriel C, et al. Target-to-target interval versus probability effects on P300 in one- and two-tone tasks[J]. Psychophysiology, 2003, 40(3):322-328.

[23] Kanwisher NG. Repetition blindness: Type recognition without token individuation[J]. Cognition, 1987, 27(2):117-143.

[24] Salvaris M, Sepulveda F. Visual modifications on the P300 speller BCI paradigm[J]. Journal of Neural Engineering, 2009, 6(4):046011.

[25] Takano K, Komatsu T, Hata N, et al. Visual stimuli for the P300 brain-computer interface: a comparison of white/gray and green/blue flicker matrices[J]. Clinical Neurophysiology, 2009, 120(8):1562-1566.

[26] 马忠伟,高上凯.基于P300的脑-机接口:视觉刺激强度对性能的影响[J].清华大学学报(自然科学版), 2008, 48(3):415-418.

[27] Xu Minpeng, JiaYihong, Qi Hongzhi, et al. Use of a steady-state baseline to address evoked vs. oscillation models of visual evoked potential origin[J]. Neuroimage, 2016, 134:204-212.

[28] Kaufmann T, Schulz SM, Grünzinger C, et al. Flashing characters with famous faces improves ERP-based brain-computer interface performance[J]. Journal of Neural Engineering, 2011, 8(5):173-178.

[29] Chen Long, Jin Jing, Zhang Yu, et al. A survey of the dummy face and human face stimuli used in BCI paradigm[J]. Journal of Neuroscience Methods, 2014, 239:18-27.

[30] Zhang Yu, Zhao Qibin, Jin Jing, et al. A novel BCI based on ERP components sensitive to configural processing of human faces[J]. Journal of Neural Engineering, 2012, 9(2):26018-26030.

[31] Jin Jing, Daly I, Zhang Yu, et al. An optimized ERP brain- computer interface based on facial expression changes[J]. Journal of Neural Engineering, 2014, 11(3):1082-1088.

[32] Jin Jing, Allison BZ, Sellers EW, et al. An adaptive P300-based control system[J].Journal of Neural Engineering, 2011, 8(3):292-301.

[33] Townsend G, Lapallo BK, Boulay CB, et al. A novel P300-based brain-computer interface stimulus presentation paradigm: Moving beyond rows and columns[J]. Clinical Neurophysiology, 2010, 121(7):1109-1120.

[34] Lu J, Speier W, Hu Xiao, et al. The effects of stimulus timing features on P300 speller performance[J]. Clinical Neurophysiology, 2013, 124(2):306-314.

[35] Tanaka JW, Farah MJ. Parts and wholes in face recognition[J]. The Quarterly Journal of Experimental Psychology Section, 1993, 46(2):225-245.

[36] Moscovitch M, Winocur G, Behmann M. What is special about face recognition? Nineteen experiments on a person with visual object agnosia and dyslexia but normal face recognition[J]. Journal of Cognitive Neuroscience, 1997,9(5):555-604.

[37] 马忠伟,高上凯. 基于P300电位的脑机接口系统中参数优化问题的研究[J]. 中国生物医学工程学报, 2009, 28(6):851-855.

[38] 尧德中,刘铁军,雷旭,等. 基于脑电的脑-机接口:关键技术和应用前景[J]. 电子科技大学学报, 2009, 38(5):550-554.

猜你喜欢
比特率离线字符
一个大范围混沌系统及其在DCSK 中的应用
异步电机离线参数辨识方法
浅谈ATC离线基础数据的准备
论高级用字阶段汉字系统选择字符的几个原则
字符代表几
一种USB接口字符液晶控制器设计
图片轻松变身ASCⅡ艺术画
FTGS轨道电路离线测试平台开发
离线富集-HPLC法同时测定氨咖黄敏胶囊中5种合成色素
基于多个网络接口的DASH系统设计与实现