面向中高频SSVEP脑机接口的编解码算法研究

2022-10-11 08:52许敏鹏吴乔逸熊文田肖晓琳明东
信号处理 2022年9期
关键词:训练样本受试者范式

许敏鹏 吴乔逸 熊文田 肖晓琳 明东

(1.天津大学医学工程与转化医学研究院,天津 300072;2.天津大学精密仪器与光电子工程学院,天津 300072)

1 引言

脑-机接口(brain-computer interface,BCI)是在人脑与计算机或其他电子设备之间,建立起不依赖于常规大脑信息输出通路(外周神经及相关肌肉组织)的全新信息交流和控制技术[1],实现对人体中枢神经系统功能的修复[2]、增强[3]、补充甚至替代[4]。在各种生理信号采集技术中,非侵入式头皮脑电图(electroencephalography,EEG)因其具备低成本、快响应、易部署等优点被广泛用于构建BCI系统,常用头皮脑电特征信号包括事件相关电位(event-related potentials,ERPs)[5-7]、运动想象(motor imagery,MI)[8-10]、稳态视觉诱发电位(steady-state visual evoked potentials,SSVEPs)[11-13]以及它们的组合[14]。其中SSVEP 因其具有信息传输率高、抗干扰能力强、个体变异性小等优点受到了研究者的广泛关注。在典型SSVEPBCI 系统中,多个刺激目标按照不同频率与初始相位同时进行闪烁。当受试者视线聚焦于其中一个目标上时,大脑视觉皮层将出现与刺激的基波和高次谐波频率一致、相位锁定的特征响应,通过检测SSVEP 中的频率与相位特征就能识别当前受试者所注视的刺激目标。

根据闪烁频率,SSVEP可分为低频段(8~15 Hz),中频段(15~30 Hz)和高频段(≥30 Hz)。基于联合频率-相位调制(joint frequency-phase modulation,JFPM)编码方法设计的低频40 指令集系统是目前信息传输率(information transfer rate,ITR)最快的BCI 系统,理论值最高可达352.3 bits/min[15]。然而低频SSVEP-BCI 系统存在诸多缺陷:1)低频强光闪烁容易引起受试者视觉疲劳;2)低频特征信号易受alpha波段神经振荡的影响产生误检;3)低频系统指令集数量受到带宽限制,难以进一步拓展。

为了解决上述问题,研究者们在系统范式设计上做出了很多新的尝试。在频率方面,Diez 等人[16]基于37~40 Hz 刺激设计了一套4 指令集异步系统,受试者的ITR表现差异较大(4~45 bits/min);Chen等人[17]基于30~33 Hz刺激设计了一套4指令集无监督脑控机械臂操控系统,平均ITR仅有14.21 bits/min。在编码方面,Kimura 等人[18]提出了频控键移法(frequency shift keying,FSK),把不同闪烁模式分配给“0”和“1”,通过多位二进制数字编码指令集;Han等人[19]通过时-频-相多址混合技术,设计了一种P300-SSVEP 混合范式BCI 系统,可帮助构音障碍患者实现正常交流,首次实现了BCI 领域指令集数量(108)与信息传输率(172.46 bits/min)“双百”的重大突破;最近Chen 等人[20]利用多频序列(multiple frequencies sequential coding,MFSC)方法设计了一套160 指令无监督SSVEP-BCI 系统,进一步扩展了指令集数量。

综上所述,目前见刊的中高频SSVEP-BCI 系统普遍存在控制指令少、系统解码效率低的缺陷,而上述构建大指令集的编码方法仅部署于低频段,尚未有研究成功将其拓展至中高频段。针对以上缺点,本研究基于中高频SSVEP 脑电特征,设计了一套编解码算法:在编码上,基于码分多址(code division multiple access,CDMA)思想设计Code Words 范式,将具有相同频率、不同相位的SSVEP 闪烁刺激与静止图块分别设置为基本码元(Codes)并组合成不同码词,利用单个频率可实现多达6个输出指令,通过不同频率分别编码可实现指令集数量的成倍扩增;在解码上,使用集成任务相关成分分析[21](ensemble task-related component analysis,eTRCA)算法提取具有时序、频率与相位差异的多维融合特征,实现复杂信号的精准识别。本研究有助于探索中高频段SSVEP 的编解码潜力,为研发高舒适、大指令、少训练的实用型脑-机交互系统提供关键技术支撑[22]。

2 方法与实验

2.1 受试者

共有10 名受试者(5 名男性,5 名女性,年龄在20~24岁)参与离线实验。各位受试者身体健康,视力正常或矫正后正常。实验程序得到了天津大学伦理委员会批准,所有受试者在实验之前阅读和签署了知情同意书,实验后获取了相应的酬劳。

2.2 编码方法与实验设计

Code Words 范式的用户界面是一个包含6个字符的2×3 刺激矩阵。每个刺激是一个180×180 像素的方块,呈现在24 inch 的LCD 显示屏上。屏幕分辨率为1920×1080 像素,刷新率为240 Hz。编码方式与刺激分布如图1 所示,每个目标刺激序列由6 个等长码元构成,码元“0”与“1”分别表示频率相同、相位相反的300 ms SSVEP闪烁刺激,码元“P”表示灰色静止图片,据此单个刺激频率可实现6 个控制指令。在不同组别中,有效码元频率分别设置为20、24、30 和40 Hz,采用正弦采样近似编码视觉闪烁。刺激程序使用PsychoPy 3 在Python 环境下开发。

图1 6指令Code Words系统的刺激设计与分布Fig.1 Stimulus design and distribution of the 6-target Code Words BCI system

实验包含4个频率各15轮,共计60轮。每一轮的6 个试次分别对应于6 个字符。每个试次开始于一个0.5 s 的黄色三角提示,受试者在提示消失前需要尽快将视线转移到相应字符上。提示结束后,全体刺激目标根据各自编码开始呈现1.8 s,刺激结束后有0.5 s 休息时间。受试者被要求在目标刺激呈现期间避免眨眼以及肢体运动。为了缓解视觉疲劳,每隔3个轮次进行1~5 min休息。受试者坐在距离屏幕70 cm 左右的舒适椅子上,在光线微弱的电磁屏蔽隔离室中进行实验。

2.3 数据收集与信号处理

本实验使用的脑电放大器是Neuroscan 公司开发的64 导联Synamp2 系统,电极位置依照国际10-20 系统标准设置(见图2),参考电极放置于头顶,接地电极放置于前额区域。单电极阻抗控制在5 kΩ 以下,采样率为1000 Hz,系统内置50 Hz 陷波滤波器以去除工频噪声干扰,选用枕区9 导联(Pz、PO5、PO3、POz、PO4、PO6、O1、Oz 和O2)的数据进行后续分析。

图2 64导联电极位置分布图Fig.2 64 electrodes distribution

使用MNE 的mne.filter.filter_data()函数设计有限脉冲响应(finite impulse response,FIR)带通滤波器,窗函数为hamming 窗,阻带截止频率设为18 Hz 和60 Hz,下截止频率过渡带宽度为4.5 Hz,上截止频率过渡带宽度为15 Hz,滤波器长度为最短过渡带倒数的3.3 倍,通过预先截取标签前数据保证有效数据的长度满足滤波器需求。

2.4 解码算法

Nakanishi 等人[21]于2017 年将任务相关成分分析(task-related component analysis,TRCA)用 于SSVEP 信号的模式识别,如今TRCA 已成为SSVEP检测的标准算法之一。其空间滤波器ω可通过最大化滤波后信号的试次间相关性得到,具体计算公式见式(1)至式(4):

其中Xi是单类别第i试次数据,表示试次叠加平均模板;Nc表示导联总数目;Np表示有效数据采样点数;Nt表示训练试次数。S的表达式中由于运算所引入的试次自相关成分一般可以忽略不计,且常系数不影响矩阵特征分解的结果,所以目标函数可以简化为式(4):

根据广义瑞利商的结论,目标函数最优解是矩阵Q-1S的最大特征值对应的特征向量。Nakanishi还提出了集成任务相关成分分析eTRCA,该方法通过级联操作获取高维滤波器与二维模板:

其中χ表示单试次测试信号,corr2()表示计算二维Pearson 相关系数。预测目标类别为最大特征系数所对应的类别k。

2.5 性能评估

信息传输速率ITR(bits/min 或bpm)是目前最常用的BCI 系统性能综合评估参数,它考量了分类准确率(P)、时间(T)与指令集数量(N)共3 个指标[23]:

其中T指完成一轮刺激并输出结果所需的总时长,包括视线转移时间(0.5 s)、视觉通路延迟(0.14 s)与刺激持续时长(1.8 s),在本研究中共计2.44 s。

3 结果

3.1 Code Words特征

Code Words 信号本质上是具有时序编码特性的SSVEP 响应,一般在Oz 导联处特征最明显。因此首先分析Oz 导联处的时域波形来研究新范式下诱发的脑电特征。以24 Hz刺激频率为例,图3显示了来自10名被试的6个字符各150次试验数据叠加平均获得的时域波形,其中0 ms 是闪烁刺激开始0.14 s后的时刻。在有效编码区段能够观察到具有对应频率、相位与时序的SSVEP 成分。进一步截取并对不同频率的有效码元依次进行二分类测试,各测试条件下均重复10次蒙特卡洛交叉验证取均值,结果如图4 所示:中频段码元之间的可分性普遍较好;在40 Hz高频段下,由于受试者之间存在一定的个体差异,在训练样本较少时整体分类结果较差,但随着样本数量上升,分类准确率也逐渐稳定于较高水平。综合以上结果表明,本研究设计的Code Words刺激能够在特定时段内稳定诱发具有相应频率与相位的SSVEP 响应,初步证明了新范式的有效性。

图3 Code Words时域波形图(24 Hz)Fig.3 Averaged waveform of Code Words data(24 Hz)

图4 单频率有效码元分类结果Fig.4 2-target classification accuracy of Codes

3.2 解码结果

分别使用TRCA 与eTRCA 对4种刺激频率下的Code Words数据依次进行6分类,使用配对t检验差异显著性。结果如图5 所示,在中频段刺激下,TRCA 与eTRCA 的6 分类结果不具备显著性差异;在40 Hz高频段下,当训练样本量较少时,eTRCA 的解码能力优于TRCA(*p<0.05,**p<0.01,***p<0.001),随着训练样本量增加,两种算法的平均分类准确率均稳定于较高水平(>90%)。

图5 单频率Code Words分类结果Fig.5 6-target classification results of Code Words

基于以上结果,使用性能更稳定的eTRCA 算法对不同频率刺激下的Code Words 数据进行组合分类,即2种频率组合的12分类、3种频率组合的18分类以及4 种频率组合的24 分类,验证通过增加有效编码的频率种类直接倍增指令集数量的可行性。分类准确率如图6(a)至(c)所示,在12分类、训练样本量为2 时,24 Hz &30 Hz 组合优于30 Hz &40 Hz的纯高频组合(Δ=11.48 %,p<0.01),当训练样本量为9 时,该差异依旧存在(Δ=4.33%,p<0.05);在18 分类、训练样本量为2 时,20 Hz&24 Hz&30 Hz组合优于20 Hz &24 Hz &40 Hz 组合(Δ=9.73 %,p<0.01);而训练样本量为10 时,具有统计学意义的差距依然存在(Δ=3.44%,p<0.05)。以上结果表明影响分类性能的主要因素是频率升高后诱发信号质量的下降,该负面影响在现有编解码策略下难以通过增加训练量加以平衡。图6(d)对不同频率组合下Code Words 系统的最优理论ITR 值进行了比较(6 指令集的刺激频率为24 Hz,12 指令集的频率组合为24 &30 Hz,18 指令集为20 &24 &30 Hz)。在具有10 个训练样本时,尽管分类准确率相对较低,但由于指令集数量增加,18 指令集系统的平均ITR 值(86.94±6.07 bits/min)优于6 指令集(Δ=30.19 bits/min,p<0.001)与12 指令集(Δ=8.94 bits/min,p<0.05)。18 指令集与24 指令集(81.71±5.95 bits/min)之间的差异不具备统计学意义。以上结果表明在合适的范围内通过简单增加频率种类的方法成倍扩充编码数目,能够有效提升BCI系统性能。图6(d)中每位受试者的具体ITR 情况详见表1。

图6 组合频率Code Words分类结果Fig.6 Multi-target classification results of Code Words

表1 组合频率Code Words系统理论ITR(bits/min)结果Tab.1 ITR(bits/min)results of Multi-target Code Words systems

4 讨论

离线实验结果证明,本研究设计的方法能够有效编解码中高频SSVEP 特征,且具备相当程度的可扩展性。目前该套算法的研究尚处于初级阶段,深入研究有希望进一步提高分类精度,增强系统实用性。

4.1 解码方法的优化

在解码算法上,除了eTRCA,还有很多根据TRCA 思想设计与改进的新算法能够提供更强的分类效能。例如Tanaka等人[24]为了克服试次间初始相位随机性而提出的xTRCA、Wong等人[25]结合相邻目标刺激数据提出的多重刺激eTRCA(multi-stimulus eTRCA,ms-eTRCA)、Liu 等人[26]提出的任务判别成分分析(task discriminant component analysis,TDCA)等。相比于普通(e)TRCA 算法,上述算法在不同方面的性能上分别有所提升,例如少训练样本下的鲁棒性、受试者个体有效信息的利用率、跨频率分析的差异捕获能力等。

在以往报导中,为了充分利用SSVEP 的高次谐波信息,研究者们通常使用滤波器组技术[21]提升(e)TRCA 算法的性能,范式刺激频率大多为常规低频段的8~15.8 Hz。SSVEP 的二次、三次乃至四次谐波分量可能都包含了足够高的能量,因此融合各子带分量的特征有利于增加分类器的识别能力。然而在本研究中,闪烁刺激的最低频率就已达到20 Hz,高频达到40 Hz,这类SSVEP 的高次谐波可能并不包含足够的有效成分,而且研究者一般将背景脑电信号视为具有1/f分布的宽带随机信号,在经过高下限截止频率的带通滤波处理后,空码区段的脑电信号也可能出现与刺激频率相关的伪迹成分,因此我们认为包含滤波器组的方法可能并不适用,在本文中也没有进行相关尝试。

在解码策略上,目前的分类方法需要针对每个刺激目标采集数据并建模,而本研究设计的Code Words 范式本质上仅由少数有效码元组合而成,因此利用少量原始数据或额外采集的SSVEP 数据对短时长码元建模,有希望实现对长序列Code Words信号的识别分类,相关研究正在进行当中。此外,利用迁移学习技术在少量训练数据的基础上批量生成模拟样本[27],有可能与该策略产生良好的化学反应。

4.2 编码方法的优化

我们调研了其他基于SSVEP 的编码范式,从中挑选代表性研究与Code Words 范式进行理论参数对比,结果展现于表2。

表2 Code Words与其他SSVEP范式研究的对比Tab.2 Comparison of Code Words and other SSVEP paradigms

与JFPM编码方法相比,本文设计的Code Words优势主要有两点,其一是使用中高频闪烁刺激,用户体验感较好;其二是基于单频率编码多指令,具有高度可扩展性,不易受带宽制约。Code Words 的劣势主要在于刺激时间偏长且不可变更,严重影响了系统ITR 指标。与现有基于MFSC 编码方法的工作相比,Code Words在ITR 指标上具有一定优势,合理编码方式与先进解码算法起到了关键作用。

尽管如此,现有Code Words 范式依旧存在广阔的改进空间。目前单个刺激频率仅能编码6个独立的控制指令,这主要是受到了有效编码率(33.3%)的限制。本研究结果表明,增加频率种类虽然能够扩充指令集数量,但是效率相对较低,且与低频段不同,中高频段可用的频率选择存在较大局限性,间隔过小或跨度太大都会影响分类精度。因此通过增加有效编码率,提高单频率可编码的指令集数量,从根本上提高信号间可分性是一种效率更高、更具有研究价值的方法,相关研究也正在进行当中。

需要强调的是,增加有效编码率并不意味着取消空码的设计,也不等同于减少码元长度或者增加码词长数。若在本研究中采用“0-1”编码的FSK 范式,单频率最高可实现64 个控制指令,然而编码集稀疏性将大幅减小,导致指令可分性弱化。同时频繁的码元切换可能对SSVEP 波形产生未知影响;若将码元长度缩短至150 ms,码词长度相应地扩增为12 位,编码稀疏性虽然得以提升,但码元响应强度将减弱,特征显著性受到影响。因此如何优化码元长度、码元种类以及码词长度亟待深入研究。

除此之外,为了稳步推进脑-机接口系统的实用化进程,有必要在现有中高频刺激范式的基础上通过其他方式继续改善使用舒适度,例如改变刺激面积[30]、使用有色刺激[31]等,在上述领域进行探索有利于减轻BCI 系统应用的认知负担,实现更自然的脑机交互与意图表达。

5 结论

本研究基于中高频SSVEP 脑电特征设计的编解码算法能够有效诱发、提取与识别具有时-频-相多维度的融合特征,Code Words 特征信号具有广阔的潜在应用和研究价值。以上结果为研究高速高通量、舒适易部署的视觉型脑-机交互系统提供了重要依据与全新的探索方向。

猜你喜欢
训练样本受试者范式
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
浅谈新型冠状病毒疫情下药物Ⅰ期临床试验受试者的护理
法治范式的沟通主义进路
——简评《中国法治的范式研究:沟通主义法范式及其实现》(郭金平)
以写促读:构建群文阅读教学范式
人工智能
中国传统哲学研究中的认知范式转移
管窥西方“诗辩”发展史的四次范式转换
基于小波神经网络的网络流量预测研究
重要的事为什么要说三遍?