基于脑电的快速序列视觉呈现脑-机接口系统研究进展综述

2024-03-15 09:22:36李叙锦毛嘉宇王妍紫何晖光

电子与信息学报 2024年2期

魏玮邱爽② 李叙锦② 毛嘉宇② 王妍紫② 何晖光*②

①(中国科学院自动化研究所多模态人工智能系统全国重点实验室脑图谱与类脑智能实验室北京 100190)

②(中国科学院大学北京 100049)

1 引言

脑-机接口(Brain-Computer Interface, BCI)系统是一种测量中枢神经系统活动并将其转换为人工输出的系统，该系统的输出可以替代、修复、增强、补充或者改善自然的中枢神经系统输出，从而改变中枢神经系统与其外部或内部环境之间正在发生的交互作用[1]。快速序列视觉呈现(Rapid Serial Visual Presentation, RSVP)是指在空间上的相同位置向观察者以较高速率呈现图像的过程，例如在屏幕中央以10 张/s的速率呈现图像。RSVP范式能够在较小的空间范围呈现大量信息，同时避免眼球的运动，可以实现提升用户的专注度以及信息获取速率。以快速序列视觉呈现为实施范式的脑-机接口系统可以实现拼写器、目标检索和人机交互等诸多应用，在娱乐、军事和科研领域展现出了巨大的价值潜力。

2006年，基于快速序列视觉呈现的脑-机接口系统(RSVP-BCI)被提出时用于处理图像人工判读效率低的问题[2]。人类视觉系统可以在很短时间内对图像内容进行准确判断，但人工读图操作效率较低、能处理的图像有限，无法处理一些高吞吐量的图像，如卫星侦察。图1以简单的目标检索应用为例展示了RSVP-BCI系统的整体框架，系统通过RSVP将待检索图片通过显示器呈现给用户，用户检索图片中的目标。图像序列中小概率出现的目标图像会诱发用户大脑中，包含显著P300成分的脑电(ElectroEncephaloGraphy, EEG)事件相关电位(Event Related Potential, ERP)响应；脑电处理模块对任务期间采集的脑电信号进行分类：利用算法对每张图像诱发的脑电进行分析，通过识别目标ERP响应来完成对目标图标的自动化检索。上述的系统实现目标检索可以理解为脑信号(脑电)的两个过程：编码和解码。其中，将图像按照RSVP的方式呈现给图像判读人员进行目标检索的过程可定义为(脑电)编码过程，对应RSVP范式相关研究；对图像判读人员脑电进行分析，解析出其中目标图像的过程可定义为(脑电)解码过程，对应RSVP-EEG分类方法相关研究。

图1 RSVP-BCI系统示意图

2018年，Lees等人[3]对RSVP-BCI进行了全面的综述，随着对RSVP-BCI的研究推进，近些年在呈现范式、脑信号解码、系统应用等方面都取得了较大进展。在此基础上，本文进一步整理和总结最近几年来的相关研究进展，文章内容组织如下：第2节，介绍RSVP-BCI的ERP基础以及近年在范式上的研究情况；第3节，介绍RSVP-BCI系统在脑信号分析上的研究发展；第4节，对RSVP-BCI的系统性和应用性研究进行综述；第5节，总结当前研究现状，讨论未来发展和挑战。

2 RSVP-BCI范式编码研究

2.1 事件相关电位基础

“事件相关电位”一词最早由Herb Vaughan表述，用来表达一种电位，“它显示与一个可定义的参照事件的稳定时间关系”[4]，其中包含了“诱发反应”以及“锁时锁相”的特性。ERP 的基本成分是感、认知加工过程中大脑内部产生的电活动，其中，在RSVP-BCI中应用最为广泛的ERP成分包括P300(P3b)和N200。图2展示了在行人目标检索任务中，31名被试平均的Pz导联ERP波形，其中目标类ERP在约281 ms和482 ms可见N200和P300电位的峰值。对应非目标类ERP主要为由于固定的图像闪烁(10 Hz)引起的稳态视觉诱发电位(SteadyState Visual Evoked Potential, SSVEP)。

图2 基于RSVP的目标检索任务中多名被试平均的ERP波形

2.2 编码研究进展

编码研究主要是针对RSVP范式的研究，研究RSVP的关键参数，包括：呈现速率、呈现模式等，对任务的影响，以及RSVP可应用的不同场景来实现对系统可应用领域的扩展。

在呈现速率方面，常用的呈现速率范围在2～20 Hz[3]。2019年，在Yi等人[5]的研究中，目标检索任务下设置了6 Hz,10 Hz和15 Hz 3种呈现速率，实验结果表明随着呈现速率的增加，人员的认知负荷增加，目标命中率显著降低。考虑到认知负荷、准确率、效率等因素，具体在系统应用中，使用何种呈现速率往往还需要结合实际需求选取。在呈现模式方面， Cecotti等人[6]研究了一种双视觉通路呈现模式，如图3所示，在屏幕中央并行放置了两个图像序列呈现的视觉通路，右侧通路与左侧展现的图像序列相同但存在1.25 s延迟。用户在观察到目标图像出现在左侧序列后的1 250 ms在右侧序列会再次观察到目标图像。通过产生两次目标响应来提升脑电分类的准确率来提升性能。2017年Lin等人[7,8]研究了单/双/三视觉通路的RSVP目标检索，分别实现0.926, 0.946和0.952的受试者工作特征曲线下面积(Area Under Curve, AUC)，实验结果表明三视觉通道相较于双通道具有性能提升，同时双通道相较于单通道具有性能提升。

图3 双视觉通路RSVP范式示意图(引自文献 [6])

与单视觉通路范式相比，双/三视觉通路范式需要更多的视觉注意，而视觉注意在整体视野范围是不均匀的。2022年，Zhang等人[9]研究了视野对RSVP目标检索的影响，研究结果表明视野对RSVP目标检索性能有显著影响，中心视野优于周边视野，左视野高于右视野，上视野优于下视野；N2pc和P300分别在视觉区和前额叶存在左右不对称性。这一结论也验证了Matran-Fernandez等人[10]研究，利用 N2pc 电位来对目标检索任务中检索目标在图像中位置进行定位。

将RSVP-BCI系统中呈现内容替换为字母/字符表可将系统实现应用为拼写器，基于RSVP的拼写器相较于传统矩阵拼写器的优势在于RSVP范式的应用可以避免用户的视线切换，可为患有复杂眼功能障碍的瘫痪患者提供应用服务。Won等人[11]研究了字符随机方向运动的字符拼写器，利用字符出现时固定/随机方向产生短距离运动的RSVP范式，诱发更强的P300信号，促进实现性能更好的拼写器。基于RSVP-BCI的拼写器受限于呈现模式和呈现速率，信息传输速率较低。 Mijani等人[12]和Lin等人[7]分别基于RSVP呈现模式改进了拼写器，使用双/三视觉通路模式，同时呈现2/3个字符，以提高系统信息传输速率(Information Translate Rate,ITR)，其中三视觉通路RSVP拼写器最高实现了在线平均ITR为20.26 bpm。Jalilpour等人[13]提出了RSVP拼写器中的第1个混合范式—RSVP-SSVEP BCI，实现平均信息传输率达到23.41 bpm。

表1中整理了上述近年来RSVP在编码范式上的相关进展。

表1 RSVP编码研究进展简表

3 RSVP-BCI脑电解码研究

解码研究主要是针对RSVP-EEG特征提取和分类方法的研究。跟随面向图像检索应用的RSVPBCI系统，一种分层判别成分分析(Hierarchical Discriminant Component Analysis, HDCA)脑电分类方法一同被提出[2]。HDCA对单试次脑电数据在时间维度划分无交叠时间窗，分别在EEG的空间和时间两个维度提取特征后进行分类。由于RSVPBCI系统的多数应用依赖于P300成分的识别，因此，许多EEG P300特征提取和分类的方法也被用于对RSVP-EEG的解码，如空间滤波xDAWN[14]、基于黎曼几何的距均值点最小距离(Minimum Distance to Riemannian Mean, MDRM)分类方法[15]等。近些年神经网络技术快速发展，不同的基于神经网络的RSVP-EEG解码方法被提出并取得了较大的进展[16,17]。典型的如EEGNet，由Lawhern等人[17]于2018年发表的基于深度可分离卷积的网络模型，可应用于RSVP任务的脑电解码且具有较好的性能以及鲁棒性。

由于脑信号的变异性导致脑电数据在跨个体、跨时间情况下差异性大，对于用户个体而言，使用RSVP-BCI系统前需要采集个人的有标签脑电数据训练解码模型，以实现准确可靠的脑电解码。这一过程称为模型校准过程，此类脑电解码方法可定义为有校准方法，在部分研究中也称为被试依赖的方法(subject-dependent methods)。研究者们致力于压缩校准过程，基于迁移学习的不同方法被提出来实现在小样本情况下的模型校准。更进一步的，研究者提出了不同的零校准方法(zero-calibration methods)也被称为被试无关方法(subject-independent methods)，旨在实现模型在不同个体、不同时间应用时，不需要进行校准且能够具有可靠的性能。本节将分为5个小节分别对解码方法的性能评估指标、有校准方法、小样本解码方法、零校准方法和多模态解码方法进行介绍。

3.1 性能评价指标

对RSVP解码常用的性能评价指标包括：均衡精度(Balanced Accuracy, BA)、命中率(True Positive Rate, TPR)、误判率(False Positive Rate,FPR)、受试者工作特征曲线下面积(AUC)等。由于RSVP范式会带来两类样本数量极大的不平衡性，因此单纯使用分类正确率无法客观描述性能。因而，在进行性能评价时一方面会选择更加综合的指标：均衡精度、ROC曲线下面积，另一方面会结合具体指标如命中率、误判率进行全面分析。其中，BA是预测目标刺激和非目标刺激两个类别上的平均准确率，计算方式为

其中，TP, TN, FN, FP分别表示正确分类的正样本数、正确分类的负样本数、错误分类的正样本数和错误分类的负样本数。命中率为正确识别目标刺激占总目标刺激的比例，越高的命中率表示分类器对目标刺激的识别能力越好。误判率为错误分类的非目标刺激占总非目标刺激的比例，越低的误判率表示分类器对非目标刺激识别能力越好。ROC曲线绘制命中率与误判率之间的关系，AUC为ROC曲线下的面积，提供了对分类器整体性能的评估，值在0.5～1范围内，越大表示分类器性能越好。这些指标在RSVP-BCI系统中被广泛应用，为系统的设计和优化提供参考。

3.2 有校准方法

近年来，不同的基于传统机器学习与神经网络的P300脑电解码方法被提出，应用于RSVP,P300拼写器等范式。在基于传统机器学习的脑电解码方法中，Xiao等人[18]提出一种基于判别典型模式匹配(Discriminative Canonical Pattern Matching, DCPM)的空间滤波算法，显著增强了不对称视觉诱发电位(asymmetric Visual Evoked Potential,aVEP)的信噪比，并实验验证了DCPM在ERP分类上的鲁棒性。2023年，Cui等人[19]提出了潜伏期检测和EEG重构方法(Latency Detection and EEG Reconstruction, LDER)，用于ERP信号增强，提出了一种用于延迟检测的时空相似性度量方法并构建了包含ERP潜伏期信息的单试次脑电信号模型得到校正后的ERP信号，实现ERP特征的增强来提升分类性能。实验结果表明，LDER与传统RSVP解码方法结合使用在AUC, BA, TPR等指标实现了显著性提高。Li等人[20]提出了一种基于集成学习的脑电判别信息提取方法，利用极端梯度增强框架依次生成子模型，包括一个全局时空滤波器和一组局部时空滤波器。该方法在基准RSVP脑电数据集对63个被试的脑电数据进行测试，与现有方法相比该方法的时空分布模式更符合P300特征，分类效果明显更好。同年，Li等人[21]发表了一种区间ERPs的判别分析与分类(Discriminant Analysis and Classification for Interval ERPs, DACIE)方法。首先，利用ERP的区间模型处理不同ERP试次间变化问题；接着，利用空间结构稀疏性正则化和时间自动加权提取感兴趣的空间区域和时间区域；最后，通过特征值分析获得分类特征，避免了由于训练试验数较少而导致协方差矩阵的病态估计，实现了利用较少的训练次数获得更高的解码性能。通过在包含12名被试的RSVP任务中测试，该算法的平均准确率为96.9%，TPR为81.6%，FPR为2.8%，AUC值为0.938。

在基于神经网络的脑电解码方法中，2018年，Shan等人[22]提出了仅使用单个卷积层的卷积神经网络(One Convolution Layer Neural Network,OCLNN)，该卷积层同时在所有导联和不交叠的时间窗上提取特征。OCLNN结构简单、训练过程稳定且具有良好性能。2020年，Eduardo等人[23]基于Inception模块提出了EEG-Inception网络用于P300脑电解码，在ERP信号的特征提取过程中，可以从时域多个维度挖掘潜在的信号特征，可以使用很少的校准试次来实现优于对比方法的性能。2021年，Ma等人[24]基于胶囊网络(CapsNet)结构提出了ERP分类胶囊网络(ERP-CapsNet)用于ERP信号检测，利用CapsNet提取ERP信号的时空特征并将特征编码在胶囊中，以减少重要信息的丢失，提高ERP检测性能。相关P300脑电解码方法在RSVP-BCI系统在目标检索应用下的有效性也在不同的研究中得到了验证。例如，在Mao等人[25]的研究中，包括EEGNet, OCLNN, EEG-Inception和ERP-CapsNet等P300解码方法作为对比方法在RSVP-BCI图像目标检索任务进行脑电解码，分别实现79.12%, 79.47%, 81.04%和80.49%的均衡精度。针对RSVP范式下的脑电解码方法，最近几年研究者们利用ERP信号的时域锁时锁相特性提出了一系列卷积神经网络架构。2022年，Zang等人[26]基于ERP信号的锁相特性提出PLNet，引入标准卷积层、置换层和深度卷积层的组合，分别对不同时段的空间卷积进行操作，学习不同时段的主要ERP分量的空间分布，从而更充分地利用锁相特性进行分类，性能相比于EEGNet取得了显著提升。同年，Li等人[27]提出了一种相位信息保持神经网络(Phase Preservation Neural Network, PPNN)来学习相位信息，网络在时间维度上采用一系列空洞卷积提取时域信息，避免了相位信息的丢失。考虑到脑电信号固有的信道依赖性，利用空间卷积层获得输入脑电信号的时空表征并进行分类，提高了RSVP任务的分类性能，在RSVP图像目标检索任务中实现了90.63%的均衡准确度。近年来，不同的基于神经网络的脑电解码方法被提出并不断取得更好的性能。与传统方法相比，神经网络模型可以自动地从原始数据中提取关键特征，减少了传统方法中特征工程的需要；但为了实现更优的性能还需对于神经网络结构进行优化设计。

随着人工智能技术的进步，新的架构和技术不断涌现，基于神经网络的方法在多模态学习(融合脑电信号、其他生理电数据或其他感知数据等)、迁移学习等领域能够实现促进脑电解码在性能和应用场景上的进步，也成为当前的技术研究热点。另一方面，当前各有校准方法利用测试被试的训练数据训练模型，能够在测试被试的脑电解码中取得了优异的性能。但有校准方法需要在被试使用BCI系统前采集被试的有标签数据训练模型用于脑电解码，易导致BCI系统在使用时校准过程繁琐、冗长，限制了实际应用，因此减少校准需求成为相关研究的关注点。

3.3 基于迁移学习的小样本脑电解码方法

研究人员们将迁移学习方法引入RSVP脑电解码，通过已采集被试的有标签脑电数据和少量新采集被试有标签脑电数据共同训练解码模型的方式，利用已有被试数据(源域)中与类别判别相关的信息(知识)来降低新被试(目标域)训练数据采集需求，以此减少校准时间，缩短校准过程。此类脑电迁移学习问题中，不同域之间的差异性为数据分布上的差异性，因而，实现从源域到目标域的知识迁移存在两种方法：找到不同数据之间的相同“结构”或者找到不同决策边界的差异[28]，如图4所示。前者试图找到一种到数据空间的转换的策略，将不同的数据转化到同一个数据空间中，使得相同的决策边界能对所有样本进行分类。后者试图学习分类规则结构的策略，新的数据集面临着更小的可能规则搜索空间，这允许更快地学习新的决策边界。

图4 实现从源域到目标域的知识迁移存在两种方法[28]

随着CNN在RSVP-BCI领域的广泛应用[16,17,26,27,29]，基于微调(fine-tune)的迁移学习方法被研究和应用，fine-tune方法可视为规则适应(rule adaptation)类方法。Hajinoroozi等人[30]对CNN在跨被试和跨数据集RSVP任务上的可迁移性进行了研究，通过将源域被试数据训练得到源域模型的参数转移到目标域被试中并利用目标域训练数据进行微调(fine-tune)。相较于仅使用目标域训练数据，在跨被试迁移中AUC实现了平均2.2%提升，而在跨数据集迁移中平均提升2.71%。Mijani 等人[31]在迁移学习研究中固定源域训练获得的卷积层参数，而在目标域 finetune全连接层的参数。在RSVP单、双、三通路3种范式和3名被试数据的基础上，对比不使用迁移学习的基线，跨被试和跨范式情况分别实现了9.7%和4.7%字符识别正确率的提升。

进一步地，研究者们从迁移学习中的领域自适应(domain adaptation)方法中得到启示，将每名被试(一定时间内)的数据视作领域自适应方法中的一个域，则可将跨被试或跨时间任务认为是借助有标签源域数据和少量有标签目标域数据，提升模型在待测目标域整体上的性能，即有监督的领域自适应任务。Zhang 等人[32]提出了一种流形嵌入知识迁移(Manifold Embedded Knowledge Transfer,MEKT)方法，通过提在黎曼流形中对齐的源域和目标域，并在正切空间中提取特征，利用最大均值差异(Maximum Mean Discrepancy, MMD)损失函数拉近源域和目标域的分布实现域自适应。相比基线方法，在单被试迁移中取得最优性能，在多被试迁移中取得次优性能。Wei等人[33]提出基于生成对抗网络的多源条件对抗领域自适应方法(multisource Conditional Adversarial Domain Adaptation with the Correlation metric learning,mCADA-C)，训练条件对抗领域自适应网络，其中特征提取模块能够提取源域和目标域的共性特征，使得域判别模块难以区分特征的所属域。从而拉近每一源域与目标域的分布并依次提取源域中与分类任务相关的信息。在自采集RSVP目标检索任务上实现了87.72%的均衡精度，性能与EEGNet仅使用目标域3倍训练数据相当。Fan等人[34]提出领域自适应和导联注意力的时域卷积神经网络(Domain adaptive and Channel-wise attention-based time-domain Convolutional Neural Network, DCtCNN)，同样利用了条件对抗网络来拉近源域和目标域，但对基础CNN模型进行了改进，通过引入基于通道维注意力的时域卷积和多尺度模块，进一步提升了CNN模型对脑电特征的提取能力，结合条件对抗网络，取得了跨被试0.974的AUC。She等人[35]在利用均值分布对齐(Distribution Mean Alignment, DMA)拉近源域和目标域并提取特征后，在每个训练批次迭代中对所有源域依次与目标域利用MMD进行拉近并叠加，并在第1个训练迭代后根据分类性能剔除可迁移性能较差的源域。该方法被用在运动想象和RSVP图像检索任务中，在RSVP任务中，11名被试(8导EEG)数据集上取得了平均67.53%的均衡精度，优于包括MEKT在内的对比方法。

大规模的脑电训练数据的获取耗时费力，迁移学习可以充分利用已标注的脑电数据集(源域)进行知识迁移，有助于解决大规模训练数据稀缺的问题；使用预训练的模型在新被试少量数据上微调可以减少在RSVP-BCI任务上的训练时间。面向不同的RSVP-BCI应用，迁移学习允许模型从一个用户或任务中学到的知识迁移到另一个用户或任务中，提高了系统的适应性和个性化程度。通过周期性地将新的知识和数据迁移到模型中，可以适应用户的变化和系统的演化。当前RSVP-BCI的迁移学习研究更多集中在领域自适应方法，随着已采集数据量(源域)的进一步增大，拉近已有数据和目标域的分布变得更加困难。因而，一方面为使得模型能够更充分利用已有的大量数据，另一方面对于压缩校准过程的目的，研究者更期望实现对于RSVP-EEG的零校准解码。

3.4 零校准方法

对于实现零校准脑电解码，当前基于数据驱动的方法的核心是实现模型在个体间、不同时间的泛化，主要可以分为两类：基于数据联合训练(Pooled)的方法和基于已有分类器集成(Ensemble)的方法。Pooled 方法联合已有不同的被试/时间的有标签数据，共同训练一个解码模型用于新被试的脑电解码。Ensemble 方法利用已有被试的解码模型来对新被试的脑电进行解码，最后通过投票或其他策略来集成(ensemble)并获得最终的解码结果。

在RSVP-EEG零校准解码中，2016年，Waytowich等人[36]研究了一种集成式(Ensemble)方法：基于信息几何的谱迁移(Spectral Transfer-learning using Information Geometry, STIG)，是一种基于黎曼几何和谱迁移的方法，该方法使用谱元学习来集成已有分类器对新被试的分类结果，实现了78±7%的分类均衡精度。更多的研究使用联合训练式(Pooled)方法，一种简单同时行之有效的方法是利用大量不同个体的数据训练一个模型来提示模型在个体间泛化的性能，例如2020年，Lee等人[37]使用55名受试者的脑电数据联合训练一个改进的EEGNet模型，该模型可直接用于新被试的脑电解码，且零校准模型的性能与被试依赖模型的性能无显著性差异。为了实现更好的零校准解码性能，更多研究关注到RSVP-EEG的特征及其在个体间的差异性，进行针对性的结构设计以提示零校准场景下的性能。

2022年，Wei等人[38]提出一种基于元学习的ERP原型匹配网络(ERP Prototypical Matching Net, EPMN)，通过在大量已有被试的数据上学习共同表征得到ERP目标与非目标的原型，测试被试的脑电数据在网络的特征空间中与原型计算相似度即可实现分类，在31名被试的数据集上取得了平均86.34%的均衡精度。Li等人[39]提出了一种基于卷积神经网络和自适应图学习的图节点分类方法用于零校准解码。通过将相似样本自适应连接构建图，采用图注意网络聚合相似样本的特征提升零校准解码性能，实现了平均86.76%的均衡精度，但该方法由于需要同时输入多个样本自适应构图，因此面向实际应用时延迟时间较长。而后，Li 等人[40]又提出一种脑电时频融合方法(Temporal-Frequency Fusion transFormer, TFF-Former)，利用Transformer可以有效表征时序信息全局特征的特点，利用多视图融合框架提取被试的时频共性特征，提升零校准场景下的模型性能，实验结果表明，所提出模型的零校准性能与有校准模型利用4个block校准数据训练的性能相当，实现了平均88.05%的均衡精度。针对上述零校准方法，表2中整理了各方法在同一个包含31名被试者的图像目标检索数据集上的零校准解码性能(留一法)[40]。

表2 零校准脑电解码性能(%)

当前的零校准方法的发展是与深度学习和机器学习技术的进步密切相关的。随着深度学习模型的崭露头角，BCI领域也开始应用这些技术，以更好地处理脑电信号和实现零校准解码。零校准解码算法可以避免BCI系统在使用时的模型校准过程，不仅节省了BCI系统使用前的等待时间，也提高了BCI模型的通用性，对推动系统走向实际应用具有积极意义。当前各类研究面向的场景范围比较狭窄，主要针对同一RSVP任务中的跨个体的场景，研究了不同的数据驱动方法。但是实际应用场景系统往往面向不同的RSVP应用任务，即RSVP目标检索目标类别与检索场景均在不断变化。当前方法虽然在任务内跨被试零校准情况下取得性能提升，但面向实际还需要处理跨任务应用等难题。

3.5 多模态解码方法

在不同RSVP-BCI系统应用中，为了提升系统的性能和可靠性，往往会使用来自不同源的信息。例如对于同一名被试者，除了脑电信号外，还会利用其它的模态数据，如视觉刺激、眼动信号等。通过将这些模态信号和脑电进行联合解码，可实现RSVP任务性能和鲁棒性的提升。多模态解码研究中的不同模态选择多与不同应用场景有关，而解码方法的发展也经历了从早期较简单的直接组合两种模态的结果到考虑到不同模态的解码特性来构建模型的历程。

在RSVP目标检索任务中，2016年，Manor等人[41]提出在检测脑响应的同时利用刺激图像本身来提供更多信息。构建了分别解码脑电和图像的卷积神经网络，并通过拼接输出特征的方式对两种模态进行融合，实现了85.06%的均衡精度。Mao等人[25]将脑电和眼动模态结合，利用与脑电信号同步采集的眼动模态(双眼的瞳孔面积和注视点位置)数据提升目标检索性能。设计了跨模态引导网络，利用脑电模态引导眼动的特征提取过程并在融合过程中动态调整两种模态权重，实现了对次优对比方法和单模态脑电方法分别2.96%和6.15%的均衡精度提升。在基于RSVP的身份验证系统中，Wu等人[42]提出结合RSVP任务的脑电响应和眨眼的眼电信号共同提升系统的精度和鲁棒性。两种模态的数据分别经过预处理特征提取和分类得到各自模态的结果并通过最小二乘法估计融合系数，并进行融合做出身份判定。在封闭集上取得了97.60%的识别正确率，相较单独使用EEG模态提升了5.2%。针对RSVP-BCI系统在需要用户运动的场景中存在肌电等其它生理电信号的干扰的问题，Ding等人[43]提出，通过将采集脑电信号中同步采集的非头皮电极(眼电和肌电)信号加入模型训练，分别对脑电和非头皮电极信号进行特征提取，利用拼接后的全连接层进行融合并分类，以提升在运动过程中的解码鲁棒性。此外为了提升脑电信号抗的噪能力，还在分类支路外增加了噪声自编码支路，最终在多种运动条件下取得了比单独使用EEG模态更佳的性能。

表3整理了近年RSVP-EEG多模态解码相关研究。当前，使用的不同模态主要依据不同的任务确定；针对多模态解码，还需进一步挖掘与任务相适应的解码和融合相结合的方法来充分挖掘新增模态的潜力。

表3 多模态脑电解码性能对比

除了利用多模态之外，研究人员基于协作式BCI，综合不同被试的脑电信号中蕴含的信息，来提高脑机接口任务的性能。在RSVP任务中，多名被试对同一刺激产生的脑电响应通过多种方式融合起来，用以做出最终的判断，以提升性能。

2017年，Matran-Fernandez等人[44]在包含多种设置的目标定位任务中应用协作式脑机接口来提高性能。包括信号层融合、决策层融合和线性判别分析融合：分别通过平均输入特征向量来训练单个分类器、训练多个分类器并求各自结果的平均值和训练1个线性判别分析 (Linear Discriminant Analysis,LDA)分类器融合多个分类器等3种方式实现融合不同被试的信息，并在所有条件下产生了性能提升。Zheng等人[45]提出了一个跨时间 (session)的RSVP目标检索任务数据集，并通过ERP平均、特征拼接、投票3种方式实现协作式脑机接口。其中ERP平均和特征拼接在训练分类器之前进行融合，而投票则是在得到分类结果之后融合。在多种参数条件下，相较于单被试结果的平均，3种融合方式都能显著提升目标检索性能。2021年，Zhang等人[46]提出了一种用于双被试协作式RSVP的多层次信息融合模型(HyperscanNet)。通过构建并训练基于长短期记忆(Long Short Term Memory, LSTM) 网络和CNN的多特征模块 (hyper feature module)进行特征层融合，并通过原始特征拼接实现数据层融合，最终利用支持向量机将数据融合和特征融合的结果进行决策层融合。HyperscanNet在多种设置和被试组合的条件下相对于对比方法都取得了性能提升。Zhao等人[47]提出一种用于协作式脑机接口的ERP特征提取和分类方法：时空加权与相关分析(Spatio-Temporal weighting and Correlation analysis, STC)。包括源提取和区间建模、时空加权和时序投影，最终通过相关分析去匹配目标和非目标的模板实现分类。该方法可用于数据层融合和特征层融合并取得了显著的性能提升。

RSVP-BCI系统中开展多模态相关研究，利用来自不同信息源的脑电、眼动、眼电等多种不同模态信号中包含的共有、互补的信息来提升系统的性能和稳定性，是近年来受到关注较多的研究方向。当前，大多数研究只是将其中两种进行融合。随着采集手段、相关理论和算法的进一步完善和发展，研究者有望同步采集更丰富的模态信息，设计出更加高效和完备的融合模型与算法，实现对多种模态信息的更加充分利用。协作式BCI则从综合多人信息的角度利用更多信息实现解码性能的提升。当前方法主要集中在同步采集多被试信号后进行融合和决策，忽略了不同个体对任务、刺激的不同响应特性，未能够充分利用协作式的优势，这可能是是未来需要研究和关注的方向。

4 RSVP-BCI应用研究

为促进RSVP-BCI系统迈向实际应用，研究者们进行多方面的研究和攻关，例如降低系统准备时间，扩展应用领域等。

降低系统准备时间可以从多方面开展，从当前广泛使用湿电极BCI系统而言，降低使用电极数量同时保证性能，可以实现压缩湿电极的准备时间。对应算法的层面，即实现导联选择，Xu等人[48]研究了一种基于多目标优化的导联选择方法，该方法可以实现被试间泛化，从而可以实现在应用中降低导联密度、压缩准备时间。从脑电解码过程而言，减少训练可以压缩训练数据采集和模型训练时间。然而，减少训练带来训练数据量的降低会制约模型性能。如本文“迁移学习脑电解码”一节中所述，可利用跨个体/时间的数据来降低模型对训练数据量的依赖；此外，数据增广的方法也被用来增加训练数据量，从而提升模型性能。在计算机视觉中典型的数据增广方法是几何变换，例如：裁剪、翻转和缩放等，但这些方法并不完全适用于EEG信号。He等人[49]指出脑电信号数据增强技术主要有3种策略：基本几何处理(裁剪、翻转、旋转等)、深度学习(自动编码器、生成对抗网络)和特征转换。基于深度学习的数据增广方法近年来获得较多的研究和关注。在RSVP-BCI任务中，2019年，Panwar等人[50]利用梯度惩罚(Gradient Penalty, GP)的条件生成对抗网络生成不同认知事件的单通道脑电数据。该方法解决了人工生成EEG数据频率伪影和训练不稳定问题。2020年，Panwar等人[51]基于带梯度惩罚项的Wasserstein距离生成对抗网络(Wasserstein Generative Adversarial Network-Gradient Penalty, WGAN-GP)生成多通道EEG数据实现数据增强，在RSVP被试内跨时间任务中所提出的解码模型性能优于EEGNet。2022年，Xu等人[52]在WGAN-GP的基础上，提出了带有平衡梯度惩罚的 Wasserstein生成对抗网络(Balanced Wasserstein generative adversarial network with gradient penalty, BWGAN-GP)用于解决RSVP数据中的极端类别不平衡问题，通过学习RSVP目标与非目标类的数据分布生成目标类(少数类)数据，增广后的数据对传统机器学习方法与深度学习都实现了解码模型的性能提升。目前研究人员逐渐关注通过数据增广的方式提升RSVP任务的解码性能。然而缺乏衡量多通道脑电人工生成数据质量的定量标准。

当前，RSVP-BCI系统最典型的应用场景仍是目标检索，本文前述的多项研究均以目标检索任务为背景开展。近年学者们研究了系统不同在领域的应用，例如基于RSVP-BCI的拼写器研究能够实现辅助交流的能力，可以帮助患有运动障碍或者无法通过传统方式进行交流的人群实现与外界沟通交流[7,13]，探索了RSVP-BCI系统在辅助通讯和康复医疗中的潜在应用。如图5(d)，具有良好的实时性能。在监控安防领域，基于RSVP-BCI系统将街景图像构成序列并从中检索行人，实现行人检测[25]；Cui等人[53]研究了夜间车辆检测场景下的脑电解码； Waytowich等人[36]模拟街道场景监控，由监控画面构成的图像序列中检索武装分子，实现武装威胁检测(图5(a)展示了模拟的目标与非目标图像示例)。文献[42,54,55]设计了基于RSVP-BCI系统的身份识别系统，图5(b)展示了该系统的框架，系统结合自我面孔和非自我面孔图像与RSVP范式，形成快速稳定的脑电诱发，基于对脑电的判别实现身份识别(如图5(b))。Wang等人[56]基于RSVP范式设计了一种新的脑电测谎范式(RSVP-based Concealed Information Test, RCIT)，通过基于RSVP的测试形成有效的脑响应并利用神经网络对脑电进行解码实现测谎，(图5(c)展示了结合RCIT范式和脑电分析的测谎应用流程框架)；此外， Nayak等人[57]和Ko等人[58]使用RSVP-SSVEP混合范式设计了一种BCI游戏，2022年，InnerEye公司[59]发布了基于RSVP-BCI系统的安检产品，安检员对扫描的行李图像进行快速判读，实现了相较于专家手工判读快1倍的效率，还可应用于包括检测医学图像中的肿瘤，识别病害植物，发现产品缺陷等场景。此外，在科学研究领域，RSVP-BCI被用于认知负荷[60]、注意力瞬脱[61](Attention Blink)和脑认知加工机制[62]等方面的研究。这些RSVP-BCI系统研究覆盖了生活、娱乐、军事、科研等众多领域，并展现了很强的未来发展潜力。未来的研究可以继续探索和优化RSVP-BCI系统的性能，拓展其应用范围，并进一步发掘其在各领域的潜在价值。

图5 RSVP-BCI系统部分应用示意图

5 总结与展望

RSVP-BCI系统经历了近20年的研究和发展，针对RSVP范式、脑信号分析和系统应用等方面的研究都取得了显著的进展。对范式的研究，探究了适用于系统应用的RSVP范式参数、研究了不同RSVP参数下脑响应的机制影响、扩展系统的可用领域。对脑信号分析方法的研究实现了解码性能的提升，迁移学习、多模态学习等技术进展，促进脑电解码迈向少校准、零校准。对RSVP-BCI系统应用的研究，挖掘RSVP-BCI在生活、娱乐、军事和科研等领域的应用模式和发展潜力，以促进系统走向更广泛的实际应用。

RSVP-BCI系统被提出时用于图像目标检索问题，当时计算机视觉系统性能并不可靠，因此系统利用人类视觉的优势实现图像目标检索。而随着技术的发展，计算机视觉技术取得了突飞猛进的进步，对目标检测等问题可实现极高准确率和速率。因此，近几年RSVP-BCI系统在目标检索等领域应用和发展时，往往会被质疑使用人类视觉的必要性。针对这一问题，本文认为可以从如下3个层面来理解和回应。

(1)首先关于计算机视觉技术的发展，得益于近年来神经网络的进步和大模型的兴起，计算机视觉取得了性能上的飞跃。但这一效果是基于数据驱动、在限定的数据集上取得的，当面向真实世界(开放集)的专业/复杂问题时，往往难以再现这样的优秀性能表现。以目标检测为例，现实世界中的环境变化、光线条件、目标变形、图像采集设备不同等诸多因素可能导致计算机视觉系统的性能下降。研究人员也在针对这些问题不断发展新方法。

(2)相比之下，人类视觉系统对信息的处理基于知识和推理，只需要学习少量的知识即可以准确完成任务。人类可以利用先前的经验和背景知识来更好地理解和识别目标，即使目标受环境因素影响发生了形态变化，甚至是不同场景下目标的类别发生变化。人类视觉系统能够更好地适应面对真实世界开放集的复杂性，并且具有更强的可靠性和鲁棒性。

(3)诚然近几年大模型的发展带来了令人惊艳的人工智能效果，但相比较于实现通用人工智能仍有差距。基于上述理由，可以理解为人工智能算法即使能够很好的处理真实世界的99%的问题，剩余1%的问题仍需要人类进行处理或进行价值判断。

发展计算机视觉系统和发展基于人类视觉的系统，二者之间并无冲突。尤其人类视觉系统与计算机视觉系统存在着非对称的优势：计算机视觉的信息处理速度快，但是缺乏对价值的判断；人类视觉的感知、推理能力强，但处理海量信息的能力差。二者进行协同，实现优势互补会带来最大化的应用效果；同时也为促进人机协同/人机融合提供新的发展途径，是RSVP-BCI未来技术发展的方向。