基于空-频域特征的视听混合脑机接口

2020-06-12 11:43:36郭柳君张雪英陈桂军

计算机工程与设计 2020年6期

郭柳君，张雪英，陈桂军

(太原理工大学信息与计算机学院，山西太原 030024)

0 引言

脑机接口(brain-computer interface，BCI)是一种不依赖外围神经肌肉，只通过脑电信号便可直接操控电脑或开动机器、实现人与外部信息交互的新技术。目前，人们普遍认为基于事件相关电位(event related potential，ERP)的BCI系统(ERP-BCI)较为高效和稳定[1]。视觉和听觉是人类获取信息最主要的两种感觉通道，且视听交互结合优于单个感觉通道。但关于视、听觉的ERP-BCI大多数仅采用视觉或听觉单一模态刺激，近年来，一些学者开始针对视听交互刺激的BCI范式进行研究：Cui等[2]将相同图片在8个不同位置随机出现与8个不同单音节语音刺激相结合来构建视听交互刺激；Barbosa等[3]将视觉单词图片与对应的语音发声刺激相结合来构建视听交互刺激。上述研究均得到视听双模态刺激具有更好性能的结论，但采用的BCI范式都基于脑电信号的某一特征，能够提供的有用信息较少。Pfurtscheller和Allison等提出混合脑机接口的概念。Yu等[4]将SSVEP和运动想象(motor imagery，MI)结合提出一种混合反馈范式，实现了患者意图的检测。为此，本文提出了基于视听交互刺激的混合脑机接口，分别设计了混合运动视觉诱发电位(motion-onset visual evoked potential，mVEP)和P300的语义一致的视听觉诱发实验、混合mVEP和P300的语义不一致的视听觉诱发实验，并以基于mVEP的视觉诱发实验和基于P300的听觉诱发实验为对照进行研究，研究验证了视听混合诱发范式的优越性。

1 方法

1.1 受试者

本实验招募了7名年龄在21岁-25岁的健康被试，其中男生2名，女生5名，均为在校研究生，都有正常的听力以及正常或矫正到正常的视力，实验前都签署知情同意书，并在实验后给予一定的报酬。

1.2 实验设计

实验包括视觉、听觉和视听觉3类刺激，见表1。其中视觉、听觉刺激分别有目标刺激和非目标刺激两种形式，视听觉刺激有目标刺激、非目标刺激以及两者的组合刺激3种形式。实验采用Oddball范式[5]，目标刺激和组合刺激出现的概率共占20%，非目标刺激出现的概率占80%。如图1所示，数字0-9所在的矩形区域按顺时针方向均匀的分布在整个界面内，每个区域的宽为6.1°，高为1.7°。刺激程序由E-prime 3.0编写，呈现在17寸显示器上。视觉刺激采用mVEP刺激范式，从刺激开始时刻到刺激后200 ms内，一个小正方形随机地快速从其中一个区域的左边向右边运动，若该区域是目标数字所在区域，则该刺激为视觉目标刺激(V)，否则，为视觉非目标刺激(v)。听觉刺激为0-9对应的自然语音的录音，持续时间为200 ms，由头戴式耳机呈现，刺激开始后，若出现的是目标数字对应的自然语音，则该刺激为听觉目标刺激(A)，否则，为听觉非目标刺激(a)。视听觉刺激由视觉和听觉刺激同时呈现，共有5种不同类型的刺激，分别为视听觉目标刺激(VA)、视觉目标刺激听觉非目标刺激(Va)、视觉非目标刺激听觉目标刺激(vA)、语义一致的视听觉非目标刺激(va_c)、语义不一致的视听觉非目标刺激(va_ic)。

表1 刺激类型

图1 刺激界面

实验在屏蔽室中进行，被试距离显示器50 cm，保持舒适的坐姿，眼睛注视屏幕正中央。对于每个试次，上述9种刺激随机出现，刺激呈现时间为200 ms，刺激间隔为1000 ms-1800 ms的随机间隔。每组实验有375个试次(目标和组合试次共75个，所有试次伪随机呈现)，共6组(目标数字的顺序在不同被试间平衡)。每组实验结束后，被试可根据实际情况休息一段时间。实验过程中要求被试同时注意视觉和听觉通道的信息，并对目标刺激以及组合刺激尽快地做出按键反应。正式实验之前，每名受试者都进行50个试次的练习。实验过程中要求被试头尽量保持不动，并且少眨眼。

1.3 数据采集和预处理

使用NeuroScan SynAmps2系统采集受试者的脑电信号。64导电极位置参照国际10-20系统，参考电极在Fz和Cz之间，接地电极在Fz和FPz之间，放大器采用0 Hz-100 Hz滤波，采样频率为1000 Hz，头皮与电极之间的阻抗小于5 kΩ。实验的行为数据(被试是否进行按键反应以及从刺激开始到被试做出反应的时间)用E-prime 3.0记录。在ERP分析前，采集到的脑电数据需用EEGLAB进行如下预处理：将参考电位转换为左右乳突的平均值，并对原始信号进行0.1 Hz-30 Hz的带通滤波。按照刺激呈现时间的-200 ms-800 ms对滤波后的信号进行分段，以-200 ms-0 ms为基准进行基线校正。结合行为学数据，手动剔除被试反应错误的段。同时，包含较大伪迹的段也被剔除。最后，使用独立成分分析的方法去除眼电伪迹。然而在分类性能的研究中，对刺激后0 ms-650 ms的数据进行0.1 Hz-20 Hz的8阶带通滤波，并且保留所有的数据段。

1.4 数据分析

1.4.1 行为学数据分析

对于需要反应的5种刺激类型(见表1)，分别将实验记录的每个被试是否对该类型试次进行反应，以及反应时间的数据进行统计。将所有被试对该类型刺激的反应时间和反应的正确率(反应正确的试次数与需要反应的总试次数的比值)求平均值得到该刺激类型的平均反应时间和平均反应正确率。为了研究被试对视听双模态刺激与视或听单模态刺激的反应在行为学上的差异，用SPSS 17.0分别对V和VA、V和Va、A和VA、A和vA这4对刺激的反应时间和反应正确率进行配对样本t检验，检验的显著性水平为p<0.05。

1.4.2 ERP统计分析

对目标刺激以及组合刺激的ERP数据进行分析。首先，将每个被试的ERP按不同刺激类型分类叠加平均，然后，计算所有被试每个刺激类型的总平均波形。在进行分析时，仅考虑我们感兴趣的ERP成分幅值较大的12个电极，分别为F3、Fz、F4、FC3、FCz、FC4、C3、Cz、C4、CP3、CPz和CP4。为了对比不同刺激类型的ERP成分幅值的差异，我们计算刺激后0 ms-600 ms的波形分别在每30 ms时间窗内的平均幅值，利用SPSS 17.0分别对V和VA、V和Va、A和VA、A和vA这4对刺激的每个时间窗内的平均幅值进行三因素重复测量方差分析：刺激类型×横向电极(r1,r2,r3,r4)×纵向电极(c1,c2,c3)。检验的显著性水平为p<0.05，分析结果经过Greenhouse-Geisser校正。若两个或两个以上因素之间交互效应显著，则进行简单效应分析[6]。

1.4.3 空-频域脑电特征提取及分类识别

本文提出一种特征提取方法(CSP-PSD)，该方法将共空间模式(common spatial pattern，CSP)和功率谱密度(power spectrum density，PSD)相结合，有效利用了脑电信号的空域及频域信息，图2为该方法的流程。

图2 空-频域脑电特征提取流程

具体过程如下：X1∈RNc×Nt和X2∈RNc×Nt分别为目标刺激和非目标刺激所诱发的脑电信号，其中Nc为脑电信号的通道数，Nt为采样点数[7]。

X归一化后的协方差矩阵R为

(1)

式中：XT表示矩阵X的转置，traceX表示矩阵对角线元素的和。

对复合协方差矩阵进行对角化分解

(2)

将特征值进行降序排列，白化矩阵为

(3)

(4)

对S进行主分量分解，得

(5)

可以证明矩阵S1的特征向量和矩阵S2的特征向量相等，即B1=B2=V，同时，两个特征值的对角阵α1与α2之和为单位矩阵，即α1+α2=I。S1的最大特征值对应的特征向量对应S2最小特征值，反之亦然[8]。对白化脑电信号的最大特征值的特征向量进行变换，可以获得两个信号矩阵的最优分离方差。投影矩阵W表示为

W=BT×P

(6)

将X经过构造的空间滤波器W可得到

Z0=W×X

(7)

对Y求平均功率谱密度[9]

C=EFYt·Yt+τ

(8)

式中：E{ }为求均值，F[ ]为求其傅里叶变换。

特征向量f=f1,f2,…,f2mT∈R2m×1定义为

(9)

为了研究不同类型刺激下目标和非目标脑电信号的分类准确率，对预处理后的脑电信号进行下采样，下采样率为25。采用支持向量机(support vector machine，SVM)对其进行分类，分类结果经过6-fold交叉验证进行矫正。为了验证本文提出的CSP-PSD特征的有效性，将该特征的分类准确率与原始采样点下采样特征和CSP特征进行对比。

2 实验结果与分析

2.1 行为学分析

如图3所示(图中**表示p≤0.001)，与单一视觉刺激相比，加入与视觉刺激语义一致的听觉刺激时，受试者更容易识别到目标刺激，表现为反应时间的显著减少(V vs. VA，t=-5.721,p=0.001)以及较低的平均反应错误率；而加入与视觉刺激语义不一致的听觉刺激时，对视觉目标刺激的识别没有明显的促进作用，也没有明显的抑制作用。与单一听觉刺激相比，加入与听觉刺激语义一致的视觉刺激时，受试者也更容易识别到目标刺激，同样表现为反应时间的显著减少(A vs. VA，t=-8.041,p<0.001)以及较低的平均反应错误率；而加入与听觉刺激语义不一致的视觉刺激时，对听觉目标刺激的识别没有明显的促进作用，也没有明显的抑制作用。通过以上分析发现，语义一致的视听刺激促进认知，而语义不一致的视听刺激则没有促进作用。

图3 行为学分析结果

2.2 ERP分析

ERP可以很好反应大脑的思维活动，这里主要讨论幅值较大的N1、P2、P3成分。N1是早期听觉注意最重要的成分，P2表征大脑对无关刺激的抑制能力，而P3表征大脑资源的调用情况。为了对比不同类型的刺激下大脑的响应特性，采用重复测量方差分析以及简单效应分析对其ERP进行研究，分析结果通过图4呈现。

结合ERP时域波形(图4左，阴影部分表示两种脑电信号的幅值在该时间范围内存在显著差异，即p<0.05)以及重复测量方差分析结果(表2第二列)可得到：与V相比，VA诱发的N1、P3成分的幅值更大；与V相比，Va诱发的N1、P2成分幅值更大；与A相比，VA诱发的P3成分幅值更大；与A相比，vA诱发的P2、P3成分幅值更大。N1成分幅值略小。我们注意到，无论视听觉刺激是否语义一致，视听双模态刺激总是诱发出更大幅值的ERP(除视听觉刺激诱发的N1成分比单一听觉刺激诱发的N1成分幅值略小外)。

图4 不同刺激类型的脑电信号时域波形图(左)及地形图(右)

表2 重复测量方差分析及简单效应分析结果

结合脑电地形图(图4右)及简单效应分析结果(表2第三、四、五列)可得到：①N1成分：视觉N1成分幅值较小，听觉N1成分在额区，额中央区，中央区幅值较大，视听觉VA的N1成分在额区、额中央区的中线附近幅值较大，视听觉Va的N1成分在额区幅值较大，视听觉vA的N1成分在额中央区的中线左侧幅值较大。由表2可得，V和VA的N1成分的交互效应在额区、额中央区、中央区的中线附近比其它区域更显著。A和vA的N1成分的交互效应在额中央区的中线右侧更显著。②P2成分：视觉、听觉、视听觉VA的P2成分幅值较小，视听觉Va的P2成分在额中央区、中央区的中线附近幅值较大，视听觉vA的P2成分在额中央区的中线附近幅值较大。V和Va的P2成分的交互效应在额中央区的中线及中线右侧显著。A和vA的P2成分的交互效应在中线处显著。③P3成分：听觉P3成分幅值较小，视觉P3成分在中央区、中央顶叶区、顶叶区的中线附近幅值较大，视听觉VA和Va的P3成分在整个中央区、中央顶叶区、顶叶区幅值较大，视听觉vA的P3成分在顶叶区幅值较大，A和VA的P3成分的交互效应在额中央区、中央区、中央顶叶区的中线附近更显著。

2.3 分类识别性能

如图5所示，每种刺激类型的最高分类准确率均是由被试2取得，且语义一致的视听觉刺激的分类准确率为85.56%，显著高于其它刺激类型。值得注意的是，每个被试的最高分类准确率都在VA或Va类型的刺激时达到，其中，被试2，3，5，6在VA的分类准确率略高于Va。而所有被试各个刺激类型的平均分类准确率也表明VA(74.19%)和Va(74.31%)明显高于其它刺激类型。

图5 不同刺激类型的分类准确率

以VA刺激类型为例来验证本文提出的特征提取方法，如图6所示。传统的CSP相比于原始采样点下采样特征的分类准确率有了很大的提高，其中被试4提高了29.77%(最多)，被试2提高了10.66%(最少)，验证了该方法对于本数据集的适用性。采用本文提出的CSP-PSD特征后所有被试的平均分类准确率与传统CSP相比提高了4.92%，每个被试的分类准确率都达到95%以上，被试2和被试5的分类准确率均达到99.11%。

图6 不同特征提取方法的分类准确率

3 讨论

以往关于字符拼写矩阵的研究大多采用黑色背景刺激界面，而本文采用的白色背景刺激界面具有更好的性能[10]。实验采用的刺激呈现方式为SC范式，即在每次刺激呈现时仅闪烁一个刺激单元。该范式不易受近邻干扰及双闪问题的影响，同时也不易引起眼睛的不适，虽然牺牲了信息传输速率，但对于数字拼写这样的小尺寸矩阵来说有一定的优势。实验中视听觉刺激呈现的时间一致性以及要求被试分配注意(即同时注意视觉和听觉通道的信息)都有利于视听觉信息整合，从而诱发更有利的脑电信号。本文采用的mVEP，具有较大的特异性波幅、较小的被试间以及被试内差异，并且与SSVEP相比不易让被试产生视觉疲劳[11]。

研究采用行为学分析和ERP分析，行为学结果显示，语义一致的视听觉刺激促进认知，而语义不一致的视听觉刺激则没有促进作用。ERP分析结果显示，从视觉角度来看，听觉刺激的加入在额区以及额中央区诱发出更大幅值以及更广范围的N1成分。N1成分被认为是早期听觉注意最重要的成分。而从听觉角度来看，视觉刺激的加入使得诱发出N1成分的幅值减小，这是由于实验要求被试分配注意，视、听觉通道同时刺激使得被试对听觉的关注有所减少。语义一致的视听觉刺激比单一视觉或听觉在中央顶叶区以及顶叶区诱发出的P3成分幅值更大，P3幅值的大小反应大脑资源的调用情况，幅值越大，调用资源越多。说明大脑在处理语义一致的视听觉信息时调用更多的资源。语义不一致的视听觉刺激比单一视觉或听觉在额中央区中线附近诱发出P2的幅值更大，P2反应大脑对无关刺激的抑制能力，非目标刺激的加入，使得诱发出的P2成分幅值更大。

分类性能分析结果表明，VA和Va两种刺激范式表现出良好的性能，这得益于其诱发出较大的ERP幅值，尤其是Va不仅诱发出很大幅值的P3成分，也诱发出较大幅值的P2成分。对于VA，本文提出的CSP-PSD特征相比于传统CSP特征的平均分类准确率提高了4.92%。

4 结束语

将视听觉语义一致与否作为变量去设计字符拼写应用是本研究与前人研究的不同之处。视听双模态刺激诱发的ERP幅值更大，也因此具有更高的分类准确率。值得注意的是，语义不一致的视听觉刺激诱发出较大幅值的P2成分，这为一直以来依赖P3成分识别目标刺激的脑机接口提供了新的思路。因P2成分潜伏期比P3成分短，有望成为提高脑机接口的信息传输速率的一个方法。而且，本文提出的CSP-PSD特征也可以用在其它脑电信号的特征提取中。