刘迎欣,李 明,于 扬,曾令李,周宗潭,胡德文
(国防科技大学智能科学学院,湖南长沙 410073)
脑-机接口(brain-computer interface,BCI)[1-2],指的是将人或动物的大脑直接与外部设备相连,实现对外部设备直接控制的新型人机交互技术[3].1929年,德国耶拿大学精神病学教授Hans Berger首次在头皮上记录到脑电信号[4],开创了脑机接口发展的新里程.根据采集信息的方式不同,BCI分为侵入式BCI[5]、部分侵入式BCI[6]以及非侵入式BCI[7].侵入式BCI和部分侵入式BCI均将采集信号的电极植于头皮以内,前者是植入大脑灰质中,后者植于颅腔内,灰质以外,此两种采集方式信号质量较高,但会引起创伤,主要用于功能障碍人群的恢复治疗.实现方式主要有脑皮层电图(electrocorticography,ECoG),将电极置于头骨内,位于硬膜层以外或以内,但不在脑组织内[8],采集的信号具有高的空间分辨率和信噪比,以及长周期的鲁棒性,在基础神经研究和临床应用方面极具潜力[9].相比之下,具有无创性的非侵入式BCI将信号采集设备置于头皮以外,更容易被健康人群所接受[10],其研究方法如图1所示.
图1 多种生理信号示意图Fig.1 Schematic diagram of multiple physiological signals
1)脑电记录技术(electroencephalogrphy,EEG)[11],通过穿戴式电极帽记录被试大脑皮层低振幅的电生理活动[12],具有成本较低,方便快捷的优点,同时有着对噪声较为敏感以及空间分辨率差的不足,该技术目前在人机交互领域具有较为广泛的应用[13].
2)功能性磁共振成像技术(functional magnetic resonance imaging,fMRI)[14],通过大脑内血流变化反映神经活动与激活模式[15],可以观测不同脑区之间的活动差异[16],其成像质量较高,但设备昂贵笨重,被试需静止处于密闭环境,与人机交互领域研究所要求的现实环境差距较大,因此其应用也受到限制[17].
3)功能性近红外光谱成像技术(functional nearinfrared spectroscopy,fNIRS)[18],通过近红外光检测大脑皮层的血氧变化,进而测量神经活动[19],其与fMRI的生理机制较为相似[20],但其测量不受空间限制并允许被试自由活动,因此在针对大脑皮层神经活动的研究中取得了较为理想的应用.
4)脑磁图(magnetoencephalography,MEG)[21],通过超导量子干涉仪(superconducting quantum interference device,SQUID)对神经活动期间产生的磁信号进行测量[22],与EEG信号测量方式类似,同样具有空间分辨率低的不足,并且MEG还需要电磁干扰(electromagnetic interference,EMI)屏蔽,因此便携性较差.
5)功能性经颅多普勒超声(functional transcranial doppler sonography,fTCD)[23],通过超声多普勒成像原理检测血液流动时的超声波反射测量血流速度,进而观测大脑内神经元活动.该方法便携性较好,但经颅超声传递以及调整超声波路径的难度较大,并且目前仅限于对大脑主要血管的检测[22].
随着学者们的不断探索,单一模态的BCI 在改善人类身体机能和提升生活质量方面已经展现出极大的应用价值,然而仍存在以下方面问题:
1)信号质量: 侵入式BCI在植入初期获得的脑电信号质量较高,但长时间植入会导致信号质量降低甚至消失[24].非侵入BCI中较常用的EEG信号微弱,并且含有伪迹,易受外部噪声干扰.
2)数据传输速率:Willett等人[25]在Nature上报道,其开发的一种用于打字的侵入式BCI,被试者打字速度可以达到每分钟90 字符,为提升瘫痪人士的交流速率带来了曙光.现有研究展示了BCI 数据传输的可行性,但对于当前大多数BCI系统,数据传输速率较低仍然是其在健康人群中应用的一个瓶颈.
3)分类准确率:针对目前用于分类的传统机器学习方法基于神经网络的深度学习方法[26],由于BCI信号质量不高,信噪比较低,且BCI 数据采集较复杂,采集到的数据较少,在分类过程中用于训练的数据样本较少,故分类准确率还有待提高.
4)用户适应性: BCI系统并非对所有人群均适用,研究显示有约15~30%的被试者即使在长时间的训练之后,其使用BCI 系统依旧得不到正确的结果,这类人群被称作“BCI 盲”[27].并且BCI系统对于不同被试者表现出不同的性能[28],其对用户的适应性还需进一步增强.
5)认知负荷:BCI系统在运行过程中往往会占用用户较多的认知资源,比如稳态诱发电位(steady-state visual evoked potentials,SSVEP)[29]、P300 视觉诱发电位,运动想象(motor imagery,MI)[30]产生的事件相关异步/同步(event-related desynchronization/synchronization,ERD/ERS)[31]等BCI经典范式,往往要求被试在实现BCI 控制时注意力高度集中,很难兼顾其他任务.
6)稳定性及可靠性: BCI系统主要可分为信号采集、特征提取和信号分类等环节[32],在信号采集环节容易受被试精神状态、外界噪声等干扰,在特征提取环节需对信号进行预处理,准确去除伪迹,由此可见,BCI系统在实现过程中存在较多不可控因素,且长时间作业时鲁棒性较差,因此,其稳定性及可靠性还需进一步提高.并且,目前绝大多数BCI 研究均是在实验室环境下,干扰较小,其在现实自然环境中的应用表现需要更多地考虑.
针对单模态BCI存在的上述问题,可以采用多模态融合的方式进行改善,其实现方式为混合脑机接口(hybrid BCI,HBCI)[33],指的是将单一模态脑机接口系统与另一个附加系统相结合[34],该附加系统可以是BCI系统,也可以是非BCI系统.混合脑机接口和多模态脑机接口是两个高度相关的概念,Li等人[35-37]认为这两个术语在定义上是等价的,可以互换使用来描述BCI 系统.
本文主要介绍HBCI的基本原理及其在人机交互领域的应用.首先阐述了HBCI 的概念及信号融合方式,进而介绍了HBCI 在人机交互领域的应用,最后对HBCI 的应用前景进行讨论.
根据混合模式的不同,HBCI可以分为3类[35]如图2 所示: 1)基于多模态诱发刺激的HBCI.比如将视觉与触觉刺激相结合,通过切换注意力来调节BCI 系统中SSVEP的振幅[38];将视觉与听觉相结合,用于意识障碍患者的意识检测和康复[39]等.2) 基于多种BCI信号融合,或BCI 信号与其他生理信号相融合的HBCI.如将EEG信号和NIRS(near-infrared spectroscopy)信号相结合用于提高基于MI的BCI的性能[40];将脑电信号与眼动信号结合起来,通过检测大脑意识,改善采用眼动信号进行物体选择时“点石成金(The Midas touch)”的问题[41].3)基于多种脑电范式融合的HBCI.如将SSVEP 和MI 两种范式相结合,用于控制机器人移动和抓取[42];将P300 与SSVEP 相结合,用于改善传统字符拼写系统的性能[43]等.
图2 混合脑机接口原理Fig.2 Principles of hybrid brain-computer interface
在基于多种生理信号融合的HBCI中,生理信号可分为内部神经模式、外部潜意识行为信息和外部行为信号[28].脑电信号等BCI相关信号反映的是内部神经模式,是对人的认知、决策、情绪等主观因素的直接度量.外部潜意识行为信息包含肌电[44]、眼动[45]、心电[46]、皮肤电[47]、眼电[48]、呼吸[49]和脉搏[50]等(图1),这些信号属于潜意识不受控行为,其变化情况受人主观因素的影响.外部行为信号包括面部表情[51]、手势[52]、声音、文本等,是人与外界交互最直观的信号,比较容易获取,但其反映的人的主观信息存在一定的局限性,比如在公共场合可能会通过微笑掩饰消极情绪,使得仅通过外部行为信号判断人的精神状态可能存在误差.
这些生理信号从不同层面反映了人的认知状态,通过融合多种生理信号进而更好地表征用户状态,有利于改善BCI系统性能,提升用户体验感,更好地满足人机交互功能需求.
基于多模态生理信号融合的BCI系统的核心是信号融合,如何更好挖掘深层次的互补信息,减小信息损失量,使多种生理信息优势互补,达到最佳的融合性能,是提高系统性能的关键.常见的信息融合方式有3类[53](图2):
1) 数据层融合[54].将不同模态的数据直接融合,之后进行特征提取,再将提取到的特征用于分类.这种融合方式信息更加全面准确,损失较少,但容易存在冗余信息,使得算法耗时较长,难以满足实时性要求较高的系统,并且其容错性较小,当系统中某个模态信号产生大幅误差,对决策结果影响较大.
2) 特征层融合[55].先将不同模态的数据进行特征提取,之后将特征融合用于分类.该方式较为折中,既保留了有用信息,也去除了一部分冗余信息,在信息损失量、容错性、实时性、分类准确率等方面均处于中等水平.
3) 决策层融合[56].将各模态数据先进行分类决策,然后按照融合规则计算整体决策结果,如最大值、模糊积分、加权求和方法等[28].这种方法信息处理量最小,但同时信息损失量较大,不利于挖掘各模态数据之间的深层互补信息,但其容错性较好,当一种模态信号出现决策错误时,可以通过其他模态信号输出的决策信息进行校正,最终输出正确的结果.
近年来,针对HBCI系统的信息融合方式不断被探索,在一项基于运动想象对偏瘫患者进行神经康复的研究中,利用波长最优空间滤波器和多尺度熵的多特征融合,提高了运动想象任务的分类性能[57].脑电-(EEG)和近红外光谱(NIRS)的融合信号被用于检测BCI范式中的空闲状态,利用两种模态的互补信息显著改善了空闲状态的检测效果,并最小化由于NIRS信号固有的缓慢响应而造成的信号延迟问题[58].表1列举了近年来部分以情绪识别为应用背景的HBCI 融合方法及性能参数,可以看出多模态融合方法趋于多样性,在算法类别方面深度学习优势逐渐凸显,例如基于深度学习的多模态融合方法被用于EEG和血容量脉冲信号的处理,通过探索两种信号之间高度相关的情绪表征提高了情绪分类的性能[59],同时传统机器学习也在不断探索中取得较好性能;在融合类别方面,特征层融合方法使用较为广泛,整体上以情绪识别为应用背景的HBCI的分类准确率得到不断提升.
表1 近年来部分以情绪识别为应用背景的HBCI 融合方法及性能参数Table 1 Some HBCI fusion methods and performance parameters with emotion recognition as application background in recent years
人机交互(human-computer interaction,HCI)关注的是人与机器之间的信息交互,是一个跨学科的研究领域[60].自1959 年首次出现关于HCI的研究以来,该领域得到了广泛关注和持续发展[61].在一项针对HCI 出现至今各子学科的发展趋势研究中,BCI作为新型人机交互技术,在文献量和发展速度方面均处于前列,成为HCI领域关注度颇高的研究方向[62].
人机交互系统中关注的重点是怎样使计算机检测并识别出人的意图,搭建友好的用户界面,使交互更加高效流畅,在节省人的认知成本的前提下,保证交互的准确可靠.作为人机交互的主要表现形式,用户界面也从命令行界面(command-line interface,CLI),过渡到图形用户界面(graphical user interface,GUL),如今实现了自然用户界面(natural user interface,NUL)[63].NUL 旨在使用户通过最自然的方式实现与计算机的交互,通过语音识别、手势识别、触摸屏、触觉、眼动追踪和BCI等多通道输入[86],调动多感官体验,提高交互的流畅度和沉浸感,这与构建多模态生理信号融合的HBCI系统的出发点不谋而合,因此将HBCI应用于人机交互系统顺应了发展趋势,也必将为人机交互领域注入新的生机与活力.
为充分讨论HBCI在HCI中的研究现状,本文进行了文献调研,流程见图3,首先,在Web of Science(WOS)数据库中,以HBCI,Multimodal EEG,Multimodal BCI为主题词进行文献检索,检索文章的日期范围在2000-01-01至2023-01-01,结果显示共有2571条相关内容.之后对文章进行筛选,选用文章需满足以下标准:1)研究对象是混合BCI;2)应用场景在人机交互系统的范畴之内.排除在外的文章有以下几类:1)认知科学基础理论研究相关文章;2)进行数据融合,分类算法研究,且没有明确的应用场景的文章;3)应用于医疗康复领域的文章;4)其他与人机交互领域无关的文章.筛选后的文章共有426篇,之后对每篇文章的录用年份、HBCI的融合类型以及其应用进行了统计,利用Microsoft Excel 表格进行汇总分析.图3显示了最终汇总得到的426 篇论文中索引时间从2004至2022各年份的文章数,可以看出文章数量随年份递进总体呈增多趋势,反映出HBCI在HCI领域的应用研究越来越引起人们的关注,得到不断发展且前景广阔.
图3 文献信息收集流程图Fig.3 Flow chart of document information collection
BCI在人机交互系统中的作用可以形象地分为“控制者”和“监测者”[87].“控制者”角色下的BCI 通过解读大脑信号、输出对外部设备的控制指令,比如拼写器[88]、轮椅导航[89]、智能机器人控制[90]、无声通信[91]等,其输出控制指令与计算机进行交互,对系统实时性,准确性和稳定性要求较高.“监测者”角色下的BCI通过对神经状态的捕捉分析,发挥其可以直接反映用户认知状态的优势,对用户的认知、注意力及情感状态进行感知[87],建立起人机交互系统的反馈机制,根据用户认知状态对人机界面进行调整[92],使其更适应用户偏好,提升界面效率及交互友好性.该类型脑机接口也被称作“被动BCI”[93],其主要目的是提高健康人在执行高负荷任务时的认知能力[94].
根据HBCI在人机交互系统中“控制者”和“监测者”的不同角色,对文献进行了分类统计(图4),其中“监测者”HBCI的论文以327篇占多数部分,“控制者”HBCI共有64篇,其他无法分类的共有32 篇.之后研究了不同应用所占的比重,如图4所示.
图4 HBCI在人机交互领域应用分析Fig.4 Application analysis of HBCI in the field of human-computer interaction
在“监测者”HBCI中,以“情绪识别”为应用背景的论文以156篇的数量占有48%的比重,反映出利用HBCI系统进行情绪识别相关研究的极高学术热度,其HBCI的融合类型也较为多样,如将眼动和脑电相融合,用于评估恐惧情绪[95];将脑电信号与面部表情融合,用于听力障碍人群的情绪认知模式识别[96];将脑电信号、心率(HR)和皮肤电反应(GSR)进行融合,用于模拟飞行试验中的情感识别[97].“认知负荷评估”通过检测操作员的认知负荷,对工作内容进行调整,从而避免因认知负荷过高造成的人为失误,减少操作事故的发生[98-99],其应用在“监测者”HBCI中所占比例也较高.诸如压力[100]、焦虑[101]、警惕性[102]、无聊[103]、信任度[104]、欺骗[105]的检测,也是HBCI的主要应用方向,有助于提升人机交互系统中用户主观体验.“监测者”HBCI的其他应用也比较多样,如对用户的睡眠[106]、意识[107]、唤醒程度[108]、疲劳程度[109]进行检测,有助于监测人机交互系统中人的参与程度;还可用于生物识别[110]和身份验证[111].对于用户游戏体验[112]、多媒体体验[113]、兴趣[114]、满意度[115]、偏好[116]的评估,可用于调整人机交互模式,改善用户参与体验.对于学习教育领域的人机交互系统,HBCI可用于评估学习表现[117],创新感知能力[118],以及学生的努力程度[119].另外可将HBCI用于决策[120]、记忆状态[121]、注意力检测[122],以及驾驶中突发事件检测[123]、飞行员边境突遇回避任务检测[124]、晕车检测[125]等.
在“控制者”HBCI中,应用最广泛的是拼写器、虚拟键盘、鼠标等,其提供了一种新的人机交互界面输入方式,如将脑电和眼动信号相融合,利用眼动信号的注视选择优势,以及脑电信号对选择意识的反映能力,两种信息互补用于提升拼写器[126]和虚拟键盘[127]的效率和准确性.另外可将P300 和MI两种脑电范式结合,用于界面交互[128].HBCI作为“控制者”的应用还有机械臂控制[129],机器人控制[130]、轮椅控制[131]、无人机控制[132]、目标识别检测[133]等.
其他无法依据“控制者”和“监测者”HBCI分类的文章共有32篇,主要研究内容包括可穿戴设备[134]、智能传感器[135]、驾驶辅助系统[136]、航空航天机器人多模态人机界面[137],以及虚拟智能家居系统[138]等.
之后对HBCI的融合方式进行统计分析,按照基于多种EEG范式融合的HBCI,基于多种诱发刺激融合的HBCI,以及基于多种生理信号融合的HBCI,将426篇文献进行分类,结果显示共有312篇文献,占有总数93%比例的HBCI采用的是基于多种生理信号的融合方式.之后对该312篇文献根据融合生理信号的数目进一步分类,对融合数目为2的文献进行了分析,结果显示EEG&眼动信号的融合组合所占比例最大,之后依次是EEG&NIRS、EEG&面部、EEG&ECG、EEG&FMRI、EEG&EOG、EEG&EMG、EEG&EDA、EEG&HR.在以EEG&眼动信号组合的HBCI 系统中,其应用方向如图5所示,可看出其应用最广泛的为情绪识别[139],之后是拼写器[126]、虚拟键盘[127]等.
图5 HBCI融合方式统计分析Fig.5 Statistical analysis of HBCI fusion mode
从上述文献调研结果可以分析出,目前HBCI在人机交互领域的应用更多偏向于作为“监测者”,即其并不主动给用户设置某种认知任务,诱发特定的大脑信号并以此作为输出指令控制外部设备,而是在用户执行特定的任务时,通过记录大脑信号建模其认知加工模式进而获取交互信息,最终实现与外部设备的交互.表现为通过评估用户的情绪、认知负荷、压力、焦虑、疲劳程度等认知状态,作为反馈形成“人在回路中”的闭环系统,进而调整系统任务量、交互方式等,实现更高效的交互,提升用户体验感.从HBCI的融合方式来看,研究的主要方向是多模态生理信号的融合,通过将不同信号所反映的独特生理信息进行融合,可以更全面多维地反映用户状态,其中就生理信号的组合方式而言,脑电信号和眼动信号的组合更受研究者的青睐,反映出二者较好的互补特性,以及较高的应用价值.
结合HBCI在人机交互系统中应用的文献调研结果以及人机交互领域自身的发展情况,围绕HBCI所在人机交互系统于现实环境中的角色,将其应用前景进行如下几方面的展望:
1)训练HBCI:评估训练表现,以及学员的压力、焦虑、努力程度、恐惧和注意力等认知状态,通过提供连续的生理检测和反馈,构建闭环的HBCI系统以提升训练效果.Raphael 等人于2009 年[140]开发了一套自适应和交互式的神经教育技术(I-NET),用于加速学习中的技能获得进程,并为成功训练提供定量的证据,同时提出一种学习系统(adaptive peak performancetrainer,APPT),该系统通过采集EEG,ECG,呼吸和眼动信号,对受训者提供持续的监测和反馈(视觉、音频、触觉等).在一项模拟步枪射击训练实验中,通过使用该系统新手的训练表现轨迹提高了2.3倍[141].
2)感知HBCI:通过移动模块化的HBCI 检测装置[142],可穿戴式传感器[134]感知用户生理信息,将其作为传感节点参与信息交互网络,将用户的认知信息纳入人机交互感知系统,完善人在人机交互系统中起到的关键作用.
3)决策HBCI:通过高效的交互模式以及对用户认知状态的检测,辅助用户更好地进行决策输出.Ming Qian等人[56]于2009年通过在决策级融合EEG和瞳孔反应,利用该两种信号针对目标图像的特异反应进行目标检测,通过其模态互补性提高了视觉目标搜索的图像吞吐量和分类准确性.HBCI还可通过提供高效的交互模式,如虚拟键盘、鼠标等,实现人与操作系统的无缝衔接,提高操作决策的实时性和高效性.另外,HBCI可以通过评估操作员的认知负荷、疲劳状态等精神因素,将结果纳入决策的考量因素内,从而减少因操作员认知状态较差而引起的人为失误.其还可对突发事件进行检测,如Faller 等人[124]于2016年将HBCI 系统用于飞行员执行边境回避任务(boundary avoidance tasks,BAT)检测,进而通过闭环音频反馈降低飞行员唤醒状态,以增加飞行员决策的灵活性.
4)行动HBCI:将HBCI与外部可移动系统相结合,如轮椅控制、机器人控制等,从而实现行动力的拓展.在战场环境中可通过HBCI将人与武器系统的结合,构建“人在回路中”的攻击系统,将人的认知意识与机器人、飞行器等装备相结合,打造智能化、协调化的“超级士兵”.还可通过HBCI 控制外骨骼和假肢,为士兵进行功能增强.美国国防高级研究计划局(the defense advanced research projects agency,DARPA)于2006年创建一项革命性的假肢项目,以应对军人截肢和神经系统损伤,为受伤的战士恢复上肢控制灵活性,其采用大脑信号与肌电、惯性的结合控制,在技术上实现了较大突破[143].
随着HBCI技术的发展,其对人脑认知状态的表征优势也越来越多受到人们关注,BCI技术通过与认知科学的交叉融合,从而揭示认知特征和交互规律[17],目前人脑在HBCI中的仍起输出作用,未来随着大脑认知奥秘的一点点揭开,实现外部设备对人脑的控制也变得有可能,但其面临的伦理问题还有待进一步思考.随着机器智能的不断发展,人机共享控制技术[144]也受到更多学者的关注,如何将人的决策、感知能力与机器强大的存储,运算能力结合起来,实现更复杂精准的控制系统,HBCI技术提供了一个很好的思路.基于HBCI 的人机交互技术使得系统更好地感知认知信号,发挥人在上层规划中的独特优势,从而将人的智能与机器智能更好地融合,实现人机共生,协作共促的良好交互.作为一个具有蓬勃发展力的研究方向,HBCI必将不断以颠覆革新的形式出现在我们的生活中.
本文主要介绍了混合脑机接口(HBCI)在人机交互领域的研究进展和发展趋势.首先,阐述了脑机接口基本概念,以及当前发展存在的瓶颈,进而引入混合脑机接口,从多模态生理信号类型及信号融合方式两方面介绍了其基本原理.之后通过文献调研,讨论了HBCI在人机交互领域的研究现状与发展趋势,并对其应用前景进行了展望.
HBCI技术是一个充满朝气的研究方向,在过去几年里得到了较快的发展,也取得了一些可喜的成果,但仍面临一些问题与挑战,表现为以下几个方面:
1) 如何提高单一模态的性能,提升各个异构信息源的同步性、稳定性及鲁棒性,从而使混合系统的整体性能得到提升.BCI 技术仍受信息传输率限制,HBCI系统如何充分发挥BCI的主导作用,将人脑神经系统融入控制回路,其切入点仍需进一步探索.
2) 多模态信息的融合机制有待进一步研究,如何充分发挥多模态的互补优势,通过信息融合挖掘各模态间的深层互补信息,构建多模态协同联合表征的融合模型,是混合脑机接口面临的一个关键问题.
3) 将HBCI应用到人机交互系统,重在交互,如何设计便携高效的集成可穿戴设备,实现高通量,长期稳定且多模态兼容的HBCI,是未来发展仍需解决的问题.同时还需不断探索如何构建用户友好性界面,通过便捷、清晰的指令控制及良好的反馈系统,提升用户体验感,从而构建人机良耦合系统[33],另外将HBCI 应用到人机交互领域时还需考虑个体差异性,通过设计个性化的交互模态提升交互效率,或通过跨个体的解码算法提升系统的泛化能力.
4) 生物智能的奥秘在一点点揭开,机器智能也在迅猛发展,二者如何做到有机结合,实现共享控制是当前人机混合智能面临的一大难题,也正是HBCI在人机交互系统中的深层次应用需首要考虑的问题.
HBCI技术是一项典型的跨学科交叉研究,需要神经科学、生物学、医学、控制学、人工智能学科等多个学科的交叉融合,其目前主要以“监测者”和“控制者”的角色参与人机交互系统,通过多模态融合构建更多维的认知表征模型,从而提升人机交互系统的整体性能.该技术当下还处于发展阶段,可以预期,未来随着认知科学研究的不断深入,HBCI技术必将在人机交互领域取得更深更远的发展.