余剑雄 文元美
特约论文
面向瘫痪失语者的脑机字符与语音交互系统
余剑雄 文元美
(广东工业大学信息工程学院,广东 广州 510006)
为解决瘫痪失语者语言交流的困难,研究一种基于单通道柔性干电极脑电采集模块的脑机字符与语音交互系统。首先,将时序脑电信号绘制成二维图像并着色处理,利用卷积神经网络识别出含有眨眼特征的图像;然后,根据含有眨眼特征图像的连续帧数,实现短眨眼、中眨眼、长眨眼特征的细分;最后,结合脑电信号中解析的注意力特征,在虚拟交互系统输出字符与语音。实验结果表明:该系统的交互准确率达96.4%。
脑电信号采集;单通道;眨眼特征;注意力特征;字符与语音交互系统
我国因中风或渐冻症而瘫痪失语的人数多达10余万。瘫痪失语者意识清醒却只有眼珠能动,常因为无法表达身体感觉和情绪而得不到合适照料,同时也因无法与人交流而心理受创[1]。为提升瘫痪失语者的生存质量,国内外学者在脑机接口方面展开了一系列研究以帮助患者进行交流。
在多通道脑机接口研究方面:2011年CECOTTI等基于64通道的脑电信号,利用卷积神经网络(convolutional neural networks, CNN)设计一种检查P300电位的算法,最高分类准确率达95.5%[2];2012年HWANG等采用双通道(Oz, O2)脑电信号设计一款基于稳态视觉诱发电位(steady-state visual evokedpotential, SSVEP)的字符输入系统,字符输入速度为9.39字符/min,交互平均准确率达87.58%[3];2017年韩国高丽大学的研究人员采用30个电极的电极帽,通过稳态触觉诱发电位实现电动轮椅的控制[4];2018年DOSE等采用64通道的脑电信号,利用深度学习方法对运动想象进行分类,在左右手二分类任务上取得86.49%的平均准确率[5];2019年清华大学神经工程团队基于与枕叶视觉区有关的6个主要脑电通道,将SSVEP技术应用到渐冻症患者身上,成功完成打字挑战[6];2020年马斯克通过3只小猪和实时神经元现场演示活动,展示多通道侵入式Neuralink脑机接口技术的实际应用过程[7];同年浙江大学完成国内首例多通道植入式脑机接口临床转化研究,患者利用大脑皮层信号精准控制外部机械臂和机械手,实现三维空间运动[8]。
在单通道脑机接口研究方面:2014年马超使用单通道脑机接口,基于眨眼特征和注意力特征实现智能轮椅运动控制,控制指令最低识别正确率为87%[9];2017年赵兴平基于单通道脑电模块通过眨眼和注意力特征实现智能轮椅系统控制,控制指令平均识别正确率达82.96%[10];2018年RAJ等基于单通道脑电模块实现字符输入控制,最高字符输入准确率达82.5%[11];2019年邱铜基于单通道脑电传感器,通过提取眨眼和注意力特征设计一种智能病床运动控制器,系统交互平均准确率为92%[12]。
综上所述,国内外相关研究大多通过采集大脑皮层多个通道或大脑内部神经元的脑电信号,达到精准控制、交互的目的,但该类脑机接口价格昂贵,设备配戴过程繁杂。而侵入式脑机接口需进行高风险和昂贵的脑机接口植入手术,这对于多数瘫痪失语者家庭而言,是一个沉重负担,在实际生活中无法广泛应用。
相对而言,柔性干电极的单通道脑机接口虽然准确率和速度不及多通道和侵入式的脑机接口,但脑电信号采集简单、价格便宜,且不需要进行脑机接口植入手术,具有较好的应用前景。目前,将单通道脑电信号用于智能轮椅、字符输入系统和智能病床等控制,多利用眨眼与注意力特征,准确率可达80%且逐年提升。基于前述单通道脑机交互系统的研究,本文以图像形式记录脑电信号,并将细分的短眨眼、中眨眼、长眨眼3类眨眼特征与注意力特征结合,用于交互系统的输入控制,以提高交互准确率。
面向瘫痪失语者的脑机字符与语音交互系统包括脑电信号获取、图像绘制与着色处理、眨眼特征提取(CNN)、眨眼特征细分、注意力特征提取和虚拟键盘与语音输出等模块,系统框架如图1所示。
图1 面向瘫痪失语者的脑机字符与语音交互系统框架
本系统采用单通道脑电采集模块(think gear asic module, TGAM)进行脑电信号采集。TGAM包括参考电极、接地电极和测量电极3个干式电极,采集频率为512 Hz。TGAM经过采样、放大、去噪、量化和信号处理分析后,获取前额Fp1或Fp2处的脑电信号,并以脑电数据包形式输出注意力集中度、冥想度、不同频率波段(δ波、θ波、α波、β波和γ波)能量值以及信号质量值等数据。为减少工频信号和电磁信号等干扰,TGAM与PC端通过蓝牙通信,将脑电数据包发送到PC端并进行特征提取。
TGAM的输出数据以图像形式记录。将原始的单通道脑电信号绘制成二维图像,根据脑电信号和接地电极端信号的数量关系进行着色区间分割,并对分割区间进行颜色编码。经过着色处理后的脑电信号使眨眼特征更为直观、显著,易于理解。
记离散的脑电数据Rawdata序列为(),其中=N0,N1, …,N为Rawdata序列对应的采样时刻点,=0,1, … ,P为采样序列。同理,记接地电极端信号为() = 0,=N0,N1, … ,N为Rawdata序列对应的采样时刻点,=0,1, … ,P为采样序列。()与()是采样频率一致的离散信号,且()与()以包络形式围成一个二维图像,因此可根据()与()的大小关系对图像进行着色处理,以颜色特征表示()与()的大小关系。
具体操作:记某个采样点为N,(N)对应的像素点为A点,(N)对应的像素点为B点,A,B像素点之间形成的线段记为AB;当(N)(N)时,AB着色为红色;当(N) <(N)时,AB着色为蓝色。对每个采样点重复以上着色处理,最终得到一幅表征()与()大小关系的二维图像。
将着色后的二维图像作为数据集输入CNN模型来分类眨眼特征,并对分类后的眨眼特征进行标记。本文采用8层CNN,包括2个卷积层、2个池化层、2个全连接层、1个dropout层和1个softmax层。网络结构如表1所示。
表1 本文采用的CNN结构
本文采用的CNN第一层为卷积层conv1,卷积核大小为3×3,输出16个224×224的特征图;第二层为池化层pool1,池化核大小为2×2,输出16个112×112的特征图;第三层为卷积层conv2,卷积核大小为3×3,输出16个112×112的特征图;第四层为池化层pool2,池化核大小为2×2,输出16个56×56的特征图;第五层full1和第六层full2为全连接层,均输出128个特征值;第七层为概率=0.6的dropout层;第八层为softmax层。卷积层的激活函数采用ReLU函数。
本文权值与偏置的初始值服从均值为0、标准差为0.005的标准正态分布。训练过程中,每次随机从样本中选取90个样本,共进行100次随机采样。初始学习率为0.01,动量为0.09,每采样10次验证1次,验证过程中发现准确率不变或下降时,学习率下降一个数量级继续训练,直到学习率下降到0.0001时不再变化。
每50 ms对脑电信号图像做1次分类识别,形成20帧/s的标记视频流。借助该视频流判断眨眼开始和结束时间,识别出1次完整的眨眼过程。
在已标记的视频流中,根据眨眼特征的连续图像帧数,将眨眼特征细分为短眨眼、中眨眼和长眨眼。
定义一个大小为20的分类结果记录队列,每 50 ms将分类结果插入队列最后。如果队列已满,则舍弃队列头的记录,以保证队列中的记录都是最新的。用于眨眼特征细分流程的记录队列缓冲区如图2所示。
图2 记录队列缓冲区
1)开始时,对少于20个分类结果的记录不做处理;
2)当第20个分类结果加入队列时,统计队列中的分类结果,记包含眨眼特征的连续图像帧数为,以“≥ 4”为眨眼有效的判定条件;
3)以此类推,每50 ms将分类结果插入队列最后,舍弃队列头记录,重复步骤2)的操作,每50 ms进行一次眨眼是否有效的判定。
频繁多次的短眨眼信号可构成一次中眨眼或长眨眼信号。基于眨眼有效的判定条件(“≥ 4”),进一步细分“10 >≥ 4”,“16 >≥ 10”,“≥ 16”分别对应短眨眼、中眨眼、长眨眼3类眨眼特征。因长眨眼较耗时,系统暂时没有使用,用于以后其他扩展功能。
人脑中脑电信号的频率为0.5 Hz到几十赫兹,将频率由小到大排列,脑电信号可分为δ波、θ波、α波、β波和γ波[13]。当大脑由放松状态进入注意力集中状态时,脑电信号中不同频率波段能量值会做出相应变化。根据这一现象,可从脑电信号中提取注意力特征[14]。
TGAM每秒输出一个范围值为0~100的注意力特征[15](attention)。本文以文献[10]的注意力特征阈值58作为参考,将注意力高于或低于阈值的2种状态分别定义为H和L。
对一次有效的注意力控制过程进行判断:记为注意力状态连续为H的持续时间,以0(0= 3 s为时间阈值)作为注意力控制是否有效的判断条件,从注意力状态由L转为H时开始计时,直至注意力状态由H转为L时结束,同时置0并开始下一次的注意力控制检测。以图3所示的注意力变化过程为例,虽然在第2 s时检测到注意力状态为H,但在第3 s时注意力状态由H转为L,= 1 s视为无效的注意力特征;从第5 s开始注意力状态由L转为H持续到第9 s结束,= 5 s,视为有效的注意力特征。
图3 注意力变化过程示意图
基于眨眼特征和注意力特征,本文设计虚拟键盘交互系统,用于瘫痪失语者与外界进行“言语”沟通。该系统包括虚拟键盘和语音输出模块。其中虚拟键盘包含26个英文字母按键、10个数字按键和1个句号按键,共37个按键,并根据字符使用频率,利用哈夫曼编码对按键进行位置布局,如图4所示。
虚拟键盘有按键节点和哈夫曼编码形成的中间节点2种类型。依据节点使用频率自上而下、自左至右依次排列,使用频率越高的节点扫描路径越短。虚拟键盘每层第1个节点主要用作11个非英文字符按键;每层的第2,3,4个节点分别对26个英文字符进行布局(字符V除外)。
2013年,湖北省水利厅继续深入贯彻中央和省关于加快水利改革发展的决策部署,强化工作举措,加快水利发展,各项工作保持又好又快的发展态势。
图4 虚拟键盘布局
虚拟键盘上用光点的闪动表示当前扫描节点,定义当前扫描节点为CurKey。当检测到短眨眼信号且CurKey节点为按键节点时,输出按键字符;否则开始CurKey节点的下一层扫描,以此类推,直至CurKey节点为按键节点。为取消因不由自主眨眼引起的误操作,用中眨眼信号进行中断并从头开始扫描过程。
语音输出模块实现音量、语速和语音的控制和输出,实现过程如图5所示。
图5 语音输出模块实现过程
为实现实时语音输出,当一句话输入完成时,用一次有效注意力特征激活语音输出模块,文本输入框当前内容转换为语音并输出,音量与语速可事先设定。
实验PC机CPU为Intel(R) Xeon(R) W-2123,内存容量为16.0 GB,操作系统为window10 64位。
由于脑电信号微弱,因此在采集过程中,参考电极和接地电极采用耳夹形式,分别夹在左、右耳垂位置A1,A2,如图6(a)所示。测量电极放置于额头Fp1或Fp2的脑电极采集点,如图6(b)所示。参考电极、接地电极和测量电极的硬件连接导线不宜过长(视头部尺寸大小而定,一般为20 cm~30 cm)。
图6 脑电信号采集
以图7(a)所示脑电信号为例,其存在幅值范围为−0.5 mV~+0.5 mV的干扰信号,反复微调各个电极位置,直到脑电信号幅值范围减小到−0.1 mV~+0.1 mV,如图7(b)所示。此时,可轻微地眨动眼睛并观察脑电信号幅值是否发生变化。若眨眼行为使脑电信号发生短时的幅值跳变,则说明脑机接口配戴位置已调至最佳,如图7(c)所示。
图7(a)被干扰的脑电信号
图7(b)正常的脑电信号
(c) 轻微眨眼时的脑电信号
本文使用的数据集是由实验室的受试者A,B,C通过TGAM采集。利用.NET平台的上位机软件Capture对TGAM采集的数据包进行解析、绘制并着色成224×224的图像,着色图像记录无眨眼和眨眼2类数据。TGAM采集数据的流程如图8所示。着色前后的有无眨眼特征数据图像如图9所示。
图8 TGAM采集数据流程
图9 着色前后的有无眨眼特征数据图像
由图9可知:携带眨眼特征的脑电信号在图像中呈现尖峰,而不携带眨眼特征的脑电信号较为平稳;从着色处理前后来看,着色处理后的图像眨眼特征显示更为直观,如图9(d)显示眨眼次数为5。
本文采用CNN模型训练和分类眨眼特征。为验证该模型的有效性,先用数据集90%的样本进行CNN训练,并将该模型以model.pb的文件形式保存。数据集剩下的10%样本用于结果验证,得到的验证准确率为98.6%,说明该模型有效可行。
采用已验证的CNN模型进行受试者眨眼特征识别对比实验,对照组为文献[10]提出的基于阈值判断的眨眼特征提取算法。实验分别对受试者A,B,C进行有无眨眼的识别测试各150次。
鉴于从TGAM中获取的原始脑电信号范围为−2048~2047,而普通人正常情况下眨眼脑电信号的幅值范围为450~1000,参考文献[10]设置的阈值为1021,对该阈值分别加减缓冲值100,即921,1021和1121,再与本文算法进行眨眼特征识别准确率对比。准确率计算公式如式(1)所示,结果如表2所示。
表2 眨眼特征识别准确率对照表
由表2可知:对照组文献[10]阈值为921和1121时,眨眼特征识别平均准确率均为87.8%;而阈值为1021时取得最佳平均准确率为90.4%,文献[10]也正是选择1021为阈值。本文提出的眨眼特征提取算法(着色+CNN)平均准确率为97.1%,高出对照组的最佳平均准确率6.7%。
对照组文献[10]在不同阈值时有无眨眼的实验中,受试者A,B,C的眨眼特征识别准确率存在较大差异:阈值为1021时受试者A和C眨眼特征识别准确率较高;阈值为921时受试者B的眨眼特征识别准确率较高。这是由于不同受试者存在眨眼强弱的差异,且文献[10]根据固定的阈值进行眨眼特征识别,致使整体识别准确率不高。
采用本文(着色+CNN)的眨眼特征提取算法时,受试者A,B,C眨眼特征识别准确率分别为97.3%,98.0%和96.0%,不同受试者眨眼特征识别准确率差异较小。本文算法将脑电信号绘制并着色成二维图像,再利用CNN模型训练和分类。不同个体眨眼的差异表现在着色图像中为位移、缩放和其他扭曲等变化,但CNN能较好地处理这类非线性问题,可识别由于个体差异而导致的眨眼特征变化。
为验证系统眨眼细分和注意力的特征识别准确率,本文对受试者A,B,C分别进行短眨眼、中眨眼、长眨眼和注意力特征识别测试各50次,实验结果如表3和表4所示。
表3 眨眼特征细分识别准确率
由表3可知:本文算法对眨眼特征细分的平均准确率达94.67%,解决了文献[10]眨眼特征类型单一的缺点;短眨眼、中眨眼和长眨眼的最低识别准确率分别为94.0%,92.0%和94.0%,说明眨眼细分算法对不同眨眼类型都有较高的识别准确率。
表4 注意力特征识别准确率
由表4可知:本文算法的注意力特征平均识别准确率比文献[10]高3.3%,原因是本文加入了完整注意力周期的判断,减少注意力噪声影响。
脑机字符与语音交互系统实验流程如图10所示。为验证字符输入速度,按照图10的实验流程对受试者A,B,C进行测试,字符输入速度计算公式为
实验要求受试者A,B,C通过眨眼完成字符“welcome”的输入,并通过注意力完成语音输出任务,测试结果如表5所示。
表5 字符输入速度 (单位:字符/min)
由表5可知:脑机字符与语音交互系统字符输入速度约为5字符/min,除不由自主的误眨眼指令和用来取消误操作的中眨眼指令外,1 min内共输入眨眼指令W(4次)+E(2次)+L(4次)+C(4次)+O(3次)=17次,单次眨眼指令约耗时3.5 s。文献[10]在64 s内共发出22个眨眼选择控制指令,单次眨眼指令约耗时2.9 s;比本实验耗时少0.6 s。
为评价脑机字符与语音交互系统算法的准确率,实验受试者A,B,C以文献[10]算法控制虚拟键盘完成相同的测试任务作为对照组,测试结果如表6所示。
表6 不同算法控制虚拟键盘准确率比较
由表6可知:文献[10]算法控制虚拟键盘的平均准确率为85.6%,而本文算法的平均准确率为96.4%,提升了10.8%;原因是本文算法不但眨眼和注意力特征识别准确率优于文献[10],而且以短眨眼、中眨眼信号分别输入字符和中断有误输入。
脑机字符与语音交互系统界面如图11所示。
图11 脑机字符与语音交互系统界面
图11中,Input文本框用于字符输入;Output用于输出文本框内容;图像显示框实时显示脑电信号着色图像;Threshold是注意力特征阈值,可通过滑动条对其进行调整;Attention进度条显示注意力持续时间;CountDown是按键节点扫描倒计时显示(单位为秒);右上方的曲线图实时显示注意力特征;界面下半部分为虚拟键盘以及音量、语速控制。
本文基于单通道脑电采集模块,采用CNN识别脑电信号中的3类眨眼特征,并将眨眼特征与注意力特征结合,设计一款脑机字符与语音交互系统。经准确率和字符输入速度的多组对照实验表明:本文提出的采用CNN识别眨眼特征以及细分眨眼特征用于字符输入控制的方法,较好地提升了系统的交互准确率。未来借助AI SOC芯片的运算能力,可将本文提出的方法用于智能轮椅、智能病床等控制。
[1] 李燕,章玮.康复性沟通模式对脊髓损伤并瘫痪患者情绪及生活能力的影响[J].现代中西医结合杂志,2020,29(18):2046- 2049.
[2] CECOTTI H, GRASER A. Convolutional neural networks for P300 detection with application to brain-computer interfaces[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2011, 33(3):433-445.
[3] HWANG H J, LIM J H, JUNG Y J, et al. Development of an SSVEP-based BCI spelling system adopting a QWERTY-style LED keyboard[J]. Journal of Neuroscience Methods, 2012, 208(1):59-65.
[4] KIM K T, LEE S W. Towards an EEG-based intelligent wheelchair driving system with vibro-tactile stimuli[C]// IEEE International Conference on Systems. IEEE, 2017.
[5] DOSE H, MOLLER J S, IVERSEN H K, et al. An end-to-end deep learning approach to MI-EEG signal classification for BCIs[J]. Expert Systems with Applications, 2018, 114(DEC.): 532-542.
[6] 杨晨.面向应用的稳态视觉诱发电位脑—机接口算法及系统研究[D].北京:清华大学,2018.
[7] 乌肖米.马斯克的“脑机接口”,能彻底根除残疾吗?[J].宁波经济(财经视点),2020(10):31-33.
[8] 吴雅兰,柯溢能.高位截瘫可用“意念”喝可乐打麻将:浙江大学完成国内首例植入式脑机接口临床转化研究[J].今日科技,2020(4):40-41.
[9] 马超.基于单通道脑机接口的嵌入式智能轮椅控制系统研究[D].南宁:广西大学,2015.
[10] 赵兴平.基于单通道脑机接口的智能轮椅控制及人机交互研究[D].哈尔滨:哈尔滨工业大学,2017.
[11] RAJ R, DEB S, BHATTACHARYA P. Brain-computer interfaced single key omni directional pointing and command system: a screen pointing interface for differently-abled person[J]. Procedia Computer Science, 2018, 133:161-168.
[12] 邱铜.基于脑机接口的智能病床运动控制器研究[D].杭州:浙江大学,2019.
[13] Zhang Lu, Lyu Qingsong, Xu Yishen. Single channel brain-computer interface control system based on TGAM module[C]//International Congress on Image & Signal Processing. IEEE, 2018.
[14] Wu Yu, Xie Ning. Attention optimization method for EEG via the TGAM[J]. Computational and Mathematical Methods in Medicine, 2020, 2020:1-11.
[15] Ni Dan,Wang Shuo, Liu Guocheng. The EEG-based attention analysis in multimedia m-learning[J]. Computational and Mathematical Methods in Medicine, 2020, 2020(4):1-10.
Brain-Computer Character and Speech Interaction System for Paralyzed Aphasia
Yu Jianxiong Wen Yuanmei
(School of Information Engineering, Guangdong University of Technology, Guangzhou 510006, China)
To help paralyzed aphasia patients to solve the difficulty of language communication, a new brain-computer interaction system based on single channel flexible electrode EEG acquisition module was studied. Firstly, the sequential EEG signal is drawn into a two-dimensional image and colored. Secondly, the image with blink feature is recognized by CNN. Thirdly, according to the number of consecutive frames of the image with blink feature, the features of short blink, medium blink and long blink are subdivided. Finally, combined with the attention feature of EEG analysis, characters and speech are output in the designed virtual interactive system. The experimental results show that the interactive accuracy of this method is as high as 96.4%.
EEG signal acquisition; single channel; blink feature; attention feature; character and speech interaction system
余剑雄,男,1993年生,硕士研究生,主要研究方向:模式识别、嵌入式系统。E-mail: 1157247727@qq.com
文元美,女,1968年生,副教授,博士,主要研究方向:智能信息处理。E-mail: ym0218@gdut.edu.cn
TP391.7
A
1674-2605(2021)03-0001-09
10.3969/j.issn.1674-2605.2021.03.001