黄文博,王长元,贾宏博,周高豪
(1.西安工业大学 光电工程学院,西安 710021;2.西安工业大学 计算机科学与工程学院,西安 710021;3.空军军医大学 中国人民解放军空军特色医学中心,北京 100142)
意图推断的核心是用户在进行计算机系统操作时的目标和期望。意图推断最大的难度是如何准确识别用户的预期命令,特别是在飞行驾驶等高度动态系统的人员配备方面。随着人机交互的发展,意图推断在人机交互领域还有许多应用,包括驾驶[1]、远程救援[2]和无人机控制[3]。然而,意图推断对于目前研究现状来说是相对困难的,主要原因之一是传统的运动想象检测设备对人体具有入侵性,易受环境干扰性强的特点[4]。传统方法仅仅依靠单一的脑电信号或眼动信号,不能很好的利用并结合两种方法的优点,导致准确率较低[5]。
随着人工智能的发展,意图识别系统在人机交互的文献中已经有过探索。比如,为了遥控机械手,通过人机交互系统最终实现运动意图被识别[6],但控制精度较差;文献[7]中利用隐马尔可夫模型(Hidden Markov Model,HMM)识别感兴趣的对象,选择所需的配置,帮助识别执行所需任务的用户,但系统稳定性不足。在离线阶段,专家训练HMM以机器人手末端执行器的运动作为输入来识别用户意图[8],本质上缺乏动态柔性。之后,在测试过程中,学习系统进行调整人机输入输出增益,提高了操作员执行所需任务的效率。该系统的缺点是需要为每个新的感兴趣的操作对象或新的所需运动建立一个新的学习阶段。为了解决这些问题,文献[9]将意图预测与运动规划相结合,建立了一个由DOF鼠标控制的DOF机械臂的直观遥操作系统。该系统主要完成两个任务:第一,提出了一种基于意图预测的机器人遥操作系统遥操作系统通过实现高斯混合回归学习和表示多模态转换模型来预测所需的任务,然后跟踪预测路径。第二,意图识别作为选择适当控制参数的手段,以帮助操作员指挥机器人行李箱。在学习阶段,不同的运动模式和相应的用户输入被合成,并存储在数据库中;在操作过程中,评估用户输入并匹配到数据库中最相似的运动模式[10]。此方法的主要限制是无法输入训练集中未考虑的新命令。通过研究移动机器人基于手势的遥操作,借助多层感知器神经网络,可以识别手的形状。多个形状描述符用于表示分割后的手形,并作为神经网络的输入。通过这种结构,作者能够使用多种静态手姿势实时控制移动机器人[11]。然而,该系统采用一对一的姿态与相应运动之间的映射,有限的姿态数限制了机器人的机动性,但上述方法都没有解决完全意图推断的问题。
本文在汲取文献[8]的基础上对方法进行改进,相对原文方法只提取单一信号特征进行分析,本文结合眼动、脑电和面部表情的多维度信号优势,加以优化通过触觉反馈输出,提升人机交互效率,达到提升意图推断准确率的效果;其次,设计模拟飞行驾驶员意图诱发实验,通过分类器得到输出结果,解决飞行操作员在进行人机交互时的意图推断问题。
脑电数据分析涉及到多种信号处理技术,包括但不限于信号采集、预处理和特征提取;在数据分类上目前也有多种方法被广泛应用,如基于样本特征距离的KNN、基于VC维理论的线性SVM和基于深度神经网络等模型。下面对此次研究中所涉及到上述两大领域的关键技术进行介绍。
文献[12]于1881年最早用电流计获得了肌肉神经电信号,并确立了神经生理学的概念。在随后的近百余年间人们对生物电信号的采集方法及标准逐渐明确,在脑电信号领域目前已经被广泛使用的非侵入性采集方法有磁共振成像(Functional Magnetic Resonance Imaging,FMRI)、脑电图(Electroencephalography,EEG)、近红外光谱(Near-Infrared Spectroscopy,NIRS)和磁脑电图(Magnetoencephalography,MEG)四种[13]。其中以集成高时间分辨率、造价低廉、无创安全等优点于一身的多通道电极EEG方法应用最为广泛。得益于技术的不断进步,临床实验中以美国临床神经生理学会制定的 10-20标准导联最为常见[14],图1为10-20标准导联系统电极位置。
图1 10-20标准导联系统[15]
该项目引用10-10标准导联系统所建议的电极位置为基准展开实验,同时选用Jayshree等人[16]的标准将脑电信号依据其频率分为5个不同波段,见表1。
表1 不同波段的脑电信号
脑电信号通常被认为是非平稳的,尽管通常将多通道EEG分布视为多元高斯分布,但均值和方差特性通常会在每个段之间变化[17]。因此研究的时候仅能在短时间间隔中认为是平稳状态。信号段分布的变化可以根据高斯过程的参数和分布测量,通过测量或估计一些高阶矩阵如偏度、峰度来检查EEG信号[18]。
DS证据理论(Dempster-Shafer Envidence Theory)也称为DS理论,是一种处理不确定性问题的完整理论。主要作用是将多个主体(可以是不同的人的预测、不同的传感器的数据、不同的分类器的输出结果等等)相融合。在本文的主要作用为根据不同数据类型提供的概率,给出每种假设的综合概率,从而起到了不同数据源数据融合的作用。随着多传感器信息融合在人机交互领域得到了广泛的重视和应用,并且DS证据理论允许不确定性的存在,可以根据经验推断出飞行员的下一步操作意图。因此,飞行操作员可以在未知的复杂环境中安全地进行自主导航和越障,如图2所示。如果系统在未来的完善过程中增加了其他传感器,也可以采用这种方法进行集成。实验结果表明,改进的DS证据理论能够消除噪声干扰,平滑处理信号,提高分析模拟飞行训练效果精度。
图2 飞行员操作意图评估流程图
数据融合是一项复杂的任务。与实现相关的几个最关键的问题是预处理、特征提取、得到特征向量、数据分类、特征级数据融合。为了达到这一目的,已经开发了许多数据融合框架。本文根据有关数据融合模型的文献,以及与多传感器融合相关的系统工程方面的研究,提出了一种将数据融合系统工程与算法工程范式相结合的通用框架,加入神经网络训练,引入了一个新的术语“影响因子”来表示数据融合性能研究结果,如图3所示。
图3 神经网络训练流程图
表情数据的处理将采用卷积神经网络对数据集进行训练处理,通过表情数据采集小组的人员用Python语言进行编程对已有的数据集训练,然后对实验室模拟飞行人员采集的一组测试样本进行测试正确率能达到85%以上。
卷积神经网络的结构类似于视觉神经系统结构,由输入层、卷积层、池化层、全连接层和一个输出层构成,是一个多层的结构。其中输入层用于数据的接收。卷积层、池化层和全连接层共同构成卷积神经网络(Convolutional Neural Networks,CNN)的隐藏层,是CNN 的核心层,用于数据的计算和分析。最后的输出层输出数据分析和判定的结果。CNN 的网络结构,如图4所示,给出了每层的结构和数据处理过程。
图4 CNN网络示意图
特征提取是基于面部特征检测方法的第一步,需要从面部区域中找到可以识别受试者驾驶过程中的特征并提取出来。因此本文基于CNN思想构建的特征提取器如图4所示,以此提取眼睛、嘴部、头部姿势以及整个面部的特征。
① 输入为48×48×1的图片;
② 通过1×1×32卷积层,步长为1,输出图尺寸为(48×48×1);
③ 通过3×3×64卷积层,步长为1,输出图尺寸为(48×48×64);
④ 通过5×5×64卷积层,步长为1,padding为2,输出图尺寸(48×48×64);
⑤ 通过maxpooling,kernel为2×2,步长为2,输出图尺寸(24×24×64);
⑥ 通过3×3×64卷积层,步长为1,输出图尺寸为(24×24×64);
⑦ 通过5×5×64卷积层,步长为1,padding为2,输出图尺寸(24×24×64);
⑧ 通过maxpooling,kernel为2×2,步长为2,输出图尺寸(12×12×64);
⑨ 通过全连接层、dropout,输出图尺寸(1×1×2 048);
表2 CNN结构示意表
模型训练完成后会生成一个权重文件。编写一个调用笔记本电脑摄像头的python程序,该程序的实时检测基于Opencv进行设计,旨在用摄像头对实时视频流进行预测。首先加载权重文件,然后运行程序,程序会调用摄像头检测到并框选到人脸,根据续训练好的模型权重实时对表情进行分析并在人脸旁边实时显示表情的变化。实验过程中会实时录制屏幕,并在后台记录每个时刻的表情状态,最后录入分析数据。
触觉是除视觉和听觉之外最重要的一种知觉形式,是人体重要的但目前未被充分利用的信息传输通道。如何充分利用多种感知能力,使人能够全面快速地获取各种信息,已经成为当前人机交互领域研究的热点。本文加入了触觉传感器,通过一系列校准的传感硬件工具,考虑到传感材料和传感精度,提出了一个适用于增强人因工效分析的无线传感器部署方案。
通过对脑电、眼动特征的提取,根据特定于预期最终用户的输入数据对CNN进行不同的预训练,对每个试验者的数据进行特征级数据融合得出推断结果,通过触觉反馈输出,最终达到意图识别的目的,整体系统结构分层如图5所示。
图5 系统结构分层模型
穿戴型振动触觉测试控制系统由上位机测试软件、下位机控制系统、触觉传感背心三部分构成。上位机测试软件设置一些触觉组合,下发给硬件控制系统,控制触觉传感背心的振子,产生一定频率和节奏的振动信号,表达方位信息。
上位机测试软件通过设置,可进行多种测试组合。根据被测人员的测试结果,分析振动强度、振动频率、作用部位、编码组合等各种信息,为准确、可靠、有效表达方位信息提供依据。
通过测试确定方位表达准则后,数字罗盘、方位信息采集模块、目标方位信息采集装置等信息通过融合系统,产生控制信息,取代上位机测试软件,控制下位机控制系统。
下位机控制系统采用嵌入式处理器,通过放大电路控制振子强度,并可通过调节输出频率控制振子振动频率。
每条触觉数据腰带由5个振子构成,采用5条触觉数据腰带,构成25振子阵列。通过测试确定人体有效作用部位,敏感部位等信息,为振子阵列构成提供设计依据。
根据不同振动方式,将脑电、眼动信号输出为不同的编码方案,将信息转化为相应的振动强度和振动时间在人体背部不同的空间落点产生刺激并输出,实现多通道数据融合并快速输出的目的,实验装置图如图6所示。
图6 振动触觉传感背心实物图(不含手机和电脑)
从系统硬件架构看,振动触觉表达装置由电脑平台客户端模块、智能手机客户端模块、嵌入式系统控制器模块小功率感性负载驱动器模块和多路分布式振动刺激器模块五个模块组成。
基于嵌入式的穿戴型触觉感知数据腰带从硬件组成分为电源模块、通信模块、核心解码模块、驱动模块、触觉振子。系统结构原理框图如图7所示。
图7 振动触觉硬件系统原理框图
3.2.1 核心解码模块
核心解码模块是以cortex_M3为内核的ARM处理器构成的嵌入式系统,其主要工作为接收上位机命令或融合信息的命令,按照预定的解码算法,执行命令,转换成振动触觉表达的信息,其原理图如图8所示。
STM32系列基于专为要求高性能、低成本、低功耗的嵌入式应用专门设计的ARM Cortex-M3内核。STM32F103增强型系列时钟频率达到72 MHz,512 K FLASH,64 K RAM,是同类产品中性能最高的产品。
针对各种振动组合命令,STM32处理器能够及时解码,驱动相应触觉振子。可以完成复杂组合的解码算法,为触觉研究提供可靠、先进的硬件基础。
3.2.2 驱动模块
在此设计中单颗处理器最多可驱动64路振子,且处理器GPIO资源有限。利用RC积分电路和共射极三极管放大电路控制,成本低,电路简单可靠,振子振动强度可调。
RC积分电路如图9所示。
图8 核心解码器原理图
图9 RC积分电路
从图9可看出,积分电路是R-C串联电路,从电容C上取出电压。当时间常数τ远大于输入矩形波tw的脉宽时,即τ≫tw,积分电路是将矩形波变换成锯齿波或三角波的波形变换电路。
调整输入电压Ui脉冲宽度将会得到不同输出电压值,电流i也随之发生变化,作为共射极三极管放大电路基极输入信号,可控制集电极电流,进而控制振子振动强度。
综上述,在驱动模块中采用RC积分电路和共射极三极管放大电路原理,经电路改造,处理器一个GPIO管脚就可控制一个振子。其基本原理图如图10所示。
图10 驱动模块原理图
经测试,通过调整MCU GPIO输出脉冲的频率和占空比,可改变振子振动强度。
3.2.3 脑电数据(EEG)采集设备
本项目组购置了由北京津发科技股份有限公司提供的ErgoLAB人机环境同步平台脑电测量系统,如图11所示。
图11 ErgoLAB脑电设备
该系统所配置的脑电设备为水电极脑电系统,以湿海绵作为传导介质,该脑电帽配备10-10标准脑电导联系统的部分电极,输出32导脑电。在医学领域能够有效针对压力、情感、警觉度等精神状态进行检测。脑电设备每个电极采集1~49 Hz的时序数据,使用中会划分为五个波段。32导脑电仪有32部电极按一定规则布置在头部不同位置,同时采集头部不同位置的脑电信息。脑电仪获得的脑电数据为32组时序波,通过小波变换,将32组时序波整合为视频图。视频图能够将波信号使用彩色图像形式表示,方便RCNN、LSTM等神经网络算法使用。
3.2.4 眼动数据(EM)采集设备
本次课题使用的眼动数据采集设备为罗技公司生产的C270i网络摄像头,该设备可拍摄720P、30帧高清画面,采用USB3.0连接线与电脑连接,即插即用。如图12所示,这个为产品的外观图。在实验室,该设备需夹在显示器上,保证被试者面部光照充分的情况下镜头正对被试者的面部,进而记录采集眼球及瞳孔扩张程度数据,如图13所示。
图12 眼动数据采集设备
图13 实验设备环境图
实验前,先验证了人机交互意图推断方法的科学性和有效性。共招募男性试验者8人,年龄范围18~22岁(M=20.3岁,SD=1.8岁)。所有被试均签署知情同意书后方可进行实验,视力均为正常,并报告没有心脏或精病史,为了体现实验的公平性,均为首次参与类似实验。
实验研究主要目的是为得到振动与人体生理感应之间的关联,确定合理、有效测试的依据。主要测试内容包括振动强度测试、振动频率测试、编码测试。
通过大量的实验研究,确定人的触觉生理和心理特性,并研究人的触觉动态特性、强度和频率的分辨率,触觉刺激的时间响应和理解时间,以及触觉对注意力的影响。
实验中,被试需要坐在飞行模拟器前方,头戴脑电帽,平均每人进行4组实验,每组实验时长为50 s,进行模拟驾驶对抗敌方战机,共计需要对抗来自8个方向的攻击和躲避。
实验方案概述
实验目的:研究振子的振动强度与人体震感之间的对应关系
实验对象:振子
实验部位:背部、腰部
实验仪器:MATRIX直流稳压电源(IPD3303LU)
实验方法:核心解码模块处理器通过GPIO输出高电平,共射极三极管放大电路进入饱和状态,驱动模块可输出最大电流。由MATRIX直流稳压电源提供振子供电电压(5 V),调整振子供电电流,振子振动强度发生变化。
电流从0 mA增至130 mA,断电2 min,再从130 mA减少至0 mA,在这个过程中测试记录员根据被测人员主观感受,记录测试数据,找到无震感、有震感、有明显强震感的振子供电电流阀值。
为了保证实验环境对人体工效的影响,每次实验只允许一名被试者和操作员进入,且他们均不带任何电子设备,保证其他电磁信号对多通道数据采集无影响,如图14所示。
实验开始后,屏幕中心有一个红色战斗机,周围有4个蓝色敌机会随机向8个方向运动(上、下、左、右、左上、右上、左下、右下共8个方向),被试者一直注视屏幕中随机运动的蓝色敌机,并操作红色战机进行躲避,蓝色敌机的运动速度也会逐渐加快。实验时要求被试者尽可能不眨眼,在闪躲成功时为被试者者休息时间,可以眨眼。整个实验过程持续50 s。被试者在操作过程中,脑电帽会采集脑电信号并存储,以保证采集到的眼动信号和脑电信号在时间上保持同步,从而使得数据融合的精确性。
图14 实验环境图
实验预处理过程为飞行模拟驾驶的1 s时间内采集的数据,8个通道分别采集相应位置的有效数据。采集过程中将Fp1,Fp2,F7,F8,T7,T8,P7,P8这8个通道的数据进行归一化和基线移除处理,并采用10阶最小二乘多项式来进行降噪,从而实现脑电信号曲线的平滑。通过拟合多项式P(x),得到拟合曲线,如图15所示,其中彩色实线为Fp1,F7,T7,P7通道的脑电信号。
根据图15分析可得,8个通道的主要变化趋势如下:在图15(a)中,当被试者眼睛向上看时,所采集的8个通道的信号幅值有下降的趋势;图15(b)中眼睛向下看时,8个通道的幅值变化与向上看时相反,呈上升趋势;眼睛向左和向右看时,前额左侧的4个通道Fp1,F7,T7,P7和前额右侧的4个通道Fp2,F8,T8,P8的电势表现出了相同的极性。眼睛向左上和右下看时,大脑左侧的4个通道Fp1,F7,T7,P7和大脑右侧的4个通道Fp2,F8,T8,P8的电势表现出了相反的极性,且前额两侧脑电的电压差出现了类似递减和递增的变化趋势。眼睛向右上和左下看时,前额左侧的4个通道Fp1,F7,T7,P7和前额右侧的4个通道Fp2,F8,T8,P8的电势同样表现出了相反的极性,且前额两侧脑电的电压差出现了类似递减和递增的变化趋势。根据SVM泛化能力强的特点,将预处理后的数据进行分类。共8名被试者参与实验,每名被试者采集到10组数据,分别对每名被试者的数据进行降噪和分类,并选取70%的样本作为训练集。每名被试者完成了8×10×80=6 400次实验,从中抽样出了8×800×70%=4 480次作为训练集,其余为测试集。训练集抽样方法为:总共10组实验,每组80个,上、下、左、右、左上、左下、右上、右下,每个方向10个。每组选择40个作为训练集,上、下、左、右、左上、左下、右上、右下分别选取5个,使用训练包得到SVM评分,并用这个评分完成测试集分类 ,最终得到表3所示的分类结果。
图15 8方向8通道脑电信号去噪图
表3 去除眼电伪迹500~1 500 ms方向推断的分类率
通过观察表3可得,通过多通道信息融合的方法,平均分类率为71.99%。其中被试者S3的平均分类率最低,造成因素是数据采集过程中脑电设备的产生了松动,导致脑电电极出现了短暂的接触不良,影响了数据的采集和数据融合的精度。从整体结果上看,上、下、左、右四个方向的分类率较高,其余四个方向的分类率相应较低,原因可能是电极的排布方式是在额叶附近以水平方向一字排开,电极部位更加平滑,不容易产生电极短暂失效,由此可得出,人体对上、下、左、右四个方向的眼动推断更加敏感。对比发现,左上和左下两个方向比右上和右下两个方向的平均分类率效果好,其原因是被试的左脑普遍比右脑更加发达,导致对这两个方向的反应更快。
以航空模拟飞行训练人员为背景,对多维度人因数据与训练效果间的关系进行研究,以实现对模拟飞行人员训练效果的精准评估。提出了一种结合脑电信号、眼动信号和触觉反馈的意图推断方法,该方法经过训练,可以识别用户发出的预期命令。通过对脑电、眼动特征的提取,根据特定于预期最终用户的输入数据对CNN进行不同的预训练,对每个试验者的数据进行特征级数据融合得出推断结果,最后通过触觉反馈输出。研究结果表明:相同任务下,该系统的分类性能比基于传统几何方法提高了9.1%;多通道数据融合的意图推断中加入触觉反馈信号可以将意图识别准确率提高至71.99%,并且没有额外的计算成本。此外,该系统也适用于其他需要意图推断的人机交互应用界面。