魏佳鑫,张晓飞,龚真颖,郭一娜
(太原科技大学 电子信息工程学院,太原 030024)
听觉是人类的五大感知器官之一,其接收的信息仅次于视觉信息。由于许多闭锁综合征患者虽然意识清楚,但因身体不能动,不能言语,常被误认为昏迷[2]。这些患者的大脑视觉区域受损,但大多数患者的听觉能力却未受影响[3]。采用基于听觉诱发的脑机接口技术能够有效的搭建起患者与外界环境交互的桥梁[4]。脑机接口的研究可以追溯到二十世纪六七十年代,但该技术直到近十几年才开始迅猛发展。2009年,Furdea设计的基于Oddball范式的听觉P300拼写器,识别准确率为65%[5].2019年,哥伦比亚大学Nima Mesgarani教授团队通过采集ECoG信号将脑电波转化为可识别的语音,Nima Mesgarani教授团队通过采集皮层脑电图(Electrocorticogram,ECoG)信号将脑电波转化为可识别的语音[6],识别率达到65%.同年,美国加利福尼亚大学和加州大学的Gopala K.Anumanchipalli与 Josh Chartier等人设计了一个神经解码器,利用人类皮层活动中编码的运动学和声音表示来合成可听语音[7],其识别率达到70%.国内对听觉BCI技术的研究起步稍晚,2010年,清华大学研究人员在基于听觉BCI的研究中加入选择性注意,诱发出明显的脑电信号[8]。2018年,广州大学蒋本聪基于自回归模型,通过Burg算法提取AR模型系数,并使用人工神经网络算法对离线数据进行分类识别,识别准确率在84.7%,对比支持向量机(Support Vector Machine,SVM)算法高出10%左右[9]。2019年,浙江工业大学邹小武利用卷积神经网络结合长短期记忆神经网络完成人体行为分类识别,识别率达90%[10],长短期记忆神经网络的潜力之高显而易见,但神经网络却极少应用于脑机接口中。目前听觉BCI技术的发展还处于起步阶段,听觉诱发脑机接口存在的“BCI盲(识别率低于70%)”[11]与模型泛化能力差、模型训练时不易收敛等问题仍是阻碍BCI技术实际应用的一大难题。
为了突破这一难题,本文提出惩罚式长短期记忆神经网络,并在其基础上融合DENSE网络。首先,将实验采集到的脑电数据处理后作为神经网络的数据集输入,然后对长短期记忆神经网络中输出门的损失函数添加惩罚项,减少模型的参数,将其输出输入到DENSE网络,解决模型训练过程中不易收敛的问题。本文的贡献主要有:
(1)提出惩罚式长短期记忆神经网络(Regularizer Long Short Term Memory,RLSTM)算法,通过对输出门的损失函数添加L2范数,约束权重矩阵,减少模型训练的参数,极大提高模型识别准确率,有效解决“BCI盲”问题。
(2)提出RLSTM-DENSE网络,经过RLSTM的数据输入到DENSE网络中,DENSE网络将RLSTM的输出结果中具有类别区分性的局部信息进行处理,输入到激活函数里,最后输出识别的结果,有效解决了模型训练过程中不易收敛的问题。
40名受试者(均为在校大学生、硕士研究生)参加了实验,25名男性,15名女性,年龄在(22~28)岁之间,听力均正常。所有人均在实验前被告知所有实验内容,并同意进行实验。
1.2.1 刺激装置
由受试者佩戴上海诺诚电气股份有限公司研发生产的脑电采集设备自带的耳机设备,聆听实验前已经在设备电脑上下载好的音频文件。
1.2.2 EEG信号采集
脑电信号由上海诺诚电气股份有限公司的产品——脑电图与诱发电位仪(型号规格为NCERP-T,如图1(a)所示)采集,具有24导采集功能的脑电帽用来采集覆盖在整个大脑头皮的24个位置的信号,电极位置参照国际通用的10/20电极排布标准,本实验对10个电极位置(F7、F8、T3、T4、T5、T6、Fz、Cz、Pz、Oz)的脑电信号进行记录,参考电极(A1、A2)置于双耳耳垂处(或耳后乳突),接地电极(GND)置于前额中央。(0.5~50)Hz的带通模拟滤波器用于采样前的抗混叠滤波,50 Hz的陷波器用于消除电源线的50 Hz的工频干扰。采集系统的采样率为128 Hz.
听觉诱发脑电信号的信号源位于人脑的皮层听觉区域,即颞上回。当物体发出的声音通过空气的传播,经外耳、中耳和内耳的传导系统,引起耳蜗内淋巴液和基底膜纤维的振动,并由此激起听觉细胞的兴奋,产生神经冲动。冲动沿着听觉神经传到丘脑后内侧膝状体,交换神经元后进入大脑皮层听区(颞上回),产生听觉。
实验在隔离外界噪声的实验室内完成,整个实验过程中,受试者被要求尽量放松,避免面部肌肉动作、减少眨眼,前臂和手放在受试者自己觉得舒适的地方,但不可以有动作。受试者的任务是仔细聆听设备耳机播放的音频文件,如图1(a)所示。每个受试者完成10节实验,每节10次实验,每节实验之间受试者休息(1~2)min时间。单次试验时序图如图1(b)所示。实验开始时,单独播放一个音频文件一次,提醒受试者做好准备,时长1 s;接着受试者开始做听觉诱发实验任务,聆听数字声音6 s,此时音频声音消失,受试者停止实验任务。整个实验过程受试者闭眼,直到声音消失,任务完成提示后,睁眼,眨眼放松,休息2 s后下一个trial开始。
图1 听觉诱发脑机接口系统
通过采集得到的原始脑电信号为多维时间序列,每一维时间序列反映了特定大脑区域的信号特点,因而原始脑电信号具有时空结构。文中为检验分类模型的实用性,未使用公共的EEG数据库,并基于现有脑电采集设备进行数据的采集与制作。
1.5.1 RLSTM算法
LSTM与传统循环神经网络(Recurrent Neural Network,RNN)相比,其核心在于隐藏层细胞状态的控制。让它来处理长时间序列,因其内部复杂的“门”,解决了神经网络在训练过程中容易出现的梯度消失的问题。
在LSTM中用两个门控制单元状态C,一是遗忘门(forget gate),它决定了上一时刻t-1的状态Ct-1中有多少内容保留到当前时刻t的状态Ct中。它决定上一时刻的输出信息是保留还是丢弃:若需要丢弃无用信息,遗忘门负责将其丢弃并且决定丢弃信息的多少;若需要提取有用的信息,其负责将这些信息保留下来并且决定保留多少信息。其原理如公式(1)所示,其中Wf是遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bf是遗忘门的偏置项,σ是激活函数。
ft=σ(Wf·[ht-1,xt]+bf
(1)
经过对上一时刻的输出ht-1和当前时刻输入xt的作用后,其输出是一个在0-1范围内的值,该值越接近1,则需要保留的信息越多;相反,若该值越接近0,则要丢掉的信息就越多。
另一个是输入门(input gate),它决定了当前时刻网络的输入xt有多少保存到单元状态Ct.它作用是实现对当前时刻的输入xt的控制,直接决定当前时刻会有多少新的信息输入到LSTM的隐藏层中。其工作原理如公式(2)所示:
it=σ(Wi·[ht-1,xt]+bi)
(2)
此外,根据上一次时刻的输出和当前时刻的输入来计算当前时刻输入的单元状态,其工作过程如公式(3)所示:
(3)
LSTM在工作过程中信息的更新是由遗忘门、输入门以及当前时刻输入的单元状态(候选门)共同决定的,遗忘门决定丢掉的信息为ft*ct-1,输入门和候选门决定当前时刻决定的新信息。二者结合起来,隐藏层处理得到新的状态,即当前时刻的单元状态Ct如公式(4)所示。由于遗忘门的控制,它可以保存很久很久之前的信息,由于输入门的控制,它又可以避免当前无关紧要的内容进入记忆。
(4)
输出门则控制单元状态Ct有多少输出到LSTM的当前输出值ht,控制了长期记忆对当前输出的影响。其工作原理如公式(5)所示,Ot是输出门的权重,取值范围是0~1.Ot的大小将决定传递给下一时刻的信息ht.
ot=σ(Wo·[ht-1,xt]+bo)
(5)
惩罚项的基本思想是向损失函数添加一个惩罚项用于惩罚大的权重,隐式地减少自由参数地数量,所以可以达到弹性地适用于不同数据量训练的要求而不产生过拟合问题。在机器学习算法中,正则化的作用是惩罚了系数,但在深度学习算法中,其实质是惩罚了节点的权重,即通过添加一个额外的正则项来更新成本函数。本文基于传统LSTM,在输出的隐藏层添加L2范数,使输出单元的权重值减小,神经网络复杂度降低,在一定程度上抑制了过拟合情况的发生。其工作原理如公式(6)所示,将这种添加了惩罚项的LSTM称为RLSTM,其结构原理如图2所示。
图2 RLSTM结构
ht=Ot*tanh(Ct)+λ‖Ot*tanh(Ct)|
(6)
1.5.2 RLSTM-DENSE识别模型
由于脑机接口中需要处理的时间序列信号长且数量很多,使用LSTM网络进行识别时,模型的训练过程中会出现不易收敛的问题,本研究在RLSTM层的基础上融合全连接(DENSE)层:听诱发脑电信号在经过RLSTM处理后的输出信息可在DENSE层作非线性变换,有助于提取出这些脑电信息间更深层次的关联,然后将结果映射到全连接网络的输出空间上,进而促进模型学习与训练的收敛过程。DENSE层结构如图3所示。DENSE层由输入层、隐藏层和输出层组成,每个相邻层之间的所有神经元之间相互连接。
图3 DENSE层结构图
将DENSE网络嫁接到RLSTM网络之后,建立了新的识别模型,如图4所示采集得到的数据输入到RLSTM网络,经过RLSTM网络的处理后输入到DENSE网络中,DENSE网络将RLSTM的输出结果中具有类别区分性的局部信息进行处理,输入到激活函数中,最终输出输入数据的识别结果。将脑电信号输入到RLSTM网络中,经过RLSTM网络的处理后得到特征,DENSE网络种的所有神经元都和RLSTM网络剔除出的特征节点相连,其作用是根据这些特征对脑电数据进行识别分类。简单的讲就是所有的特征节点有着一定的权重,根据这所有的权重进行识别分类,全部特征的权重共同决定了输入的脑电信号的识别结果。
图4 RLSTM-DENSE网络结构图
采集得到的EEG信号作为输入数据传输到RLSTM中,经过RLSTM的分析处理后的结果传输给DENSE网络,在此过程中,RLSTM网络与DENSE网络的嫁接使得RLSTM的输出层成为DENSE网络的输入层,网络可以加强网络的特征传播,会使得网络挖掘到数据中更深层次的特征,促进识别模型在训练过程中的收敛。在该运算过程中,DENSE网络运行的原理如公式(7)-式(9)所示:
at-1=W11*ot-1+W12*ot+W13*ot+1+b1
(7)
at=W21*ot-1+W22*ot+W23*ot+1+b2
(8)
at+1=W31*ot-1+W32*ot+W33*ot+1+b3
(9)
在DENSE网络之后,是整个识别模型的激活函数,由于各网络层的输出是非线性的组合,极大地限制了识别模型的工作效果,使用激活函数对输出结果产生非线性的作用,可以从另一个角度提高识别模型的有效性和可靠性,解决了线性模型无法求解的问题。整个RLSTM-DENSE模型的流程图如图5所示。
图5 RLSTM-DENSE流程图
如等式(10)所示,其表达了激活函数Softmax的原理,多应用在多分类问题的处理过程中。
(10)
激活函数Softmax将DENSE网络的输出结果值映射到向量(σ(S)1,σ(S)2,σ(S)3,σ(S)4,σ(S)5,…)上,σ(S)j是一个大小在(0,1)范围内的实数,表示多分类问题中属于每个种类的概率,∑σ(S)j=1.网络最终可以根据映射出的向量中的每个分类所属的概率,得出分类的结果。
使用数据集对模型不断调试,调整参数,以使模型达到最优。RLSTM模型的训练学习与测试过程如图6所示,红线为模型训练结果,蓝线为模型测结果。识别准确率基本上随着迭代次数的增加而升高:从开始训练至迭代到400次左右时,识别的准确率达到80%左右;迭代到1 100次左右时,识别率达到90.11%,趋于稳定;模型测试的识别率曲线走势基本与训练相同,识别率趋于稳定时,达到89.65%.但是由图中可以看出,当识别率趋于稳定时,曲线抖动幅度大、毛刺多,导致模型不易收敛。
图6 RLSTM模型训练-测试识别准确率变化
提出将RLSTM与DENSE网络嫁接,将RLSTM层的输出与DENSE层的输入一一对应,通过调整DENSE网络中的参数,比较不同情况下模型识别准确率的大小。识别率情况如表1所示。RLSTM网络层数、DENSE网络层数及其Unit值大小对模型的识别率有着很大的影响。由表可知,其他参数不变,当RLSTM的Unit值为128时,模型识别率最高;当RLSTM与1个DENSE网络嫁接时,调整其Unit参数,识别率最高为89.74%,而当RLSTM与2个DENSE网络嫁接时,调整两个DENSE层的Unit参数,识别率最高为91.59%.
表1 不同网络参数对RLSTM-DENSE模型识别率的影响
综合考虑模型训练识别率的高低与样本训练所需时间的长短,本研究选择RLSTM层为128,两个DENSE层层数分别为64和32的Unit参数组合。
随机抽取80%的听诱发数据脑机接口识别模型的训练,其余20%用于模型的测试。由于RLSTM模型里迭代次数过长,模型的识别率稳定后还在训练,故适当减少迭代次数以减少模型训练时间。RLSTM-DENSE模型训练与测试结果如图7所示。模型的训练与测试均稳定后,测试集识别率达到91.59%.对比图6,图7中可以看出,在整个模型训练学习过程中,RLSTM-DENSE模型训练与测试曲线平缓圆滑,曲线抖动小,毛刺相对较小,从而可以证明本研究的方法更加优秀。
图7 RLSTM-DENSE模型训练-测试识别准确率变化
挑选擅长处理时间序列的长短期记忆神经网络(LSTM)算法、循环神经网络(RNN)算法,将其分别应用到脑-机接口系统进行识别,对它们的识别效果进行比较,结果如表2所示。
表2 分类算法识别准确率对比
训练得到的识别模型应用在脑-机接口识别系统,从40名受试者中随机挑选出4名受试者(2男2女)进行手势识别交叉验证实验。每人每个数字声音实验做25次,每个声音实验共做100次。实验结果如表3所示,为4名受试者实际听到的声音类别与经过RLSTM-DENSE模型识别得到的语音类别的对比。
表3 听觉诱发脑-机接口识别交叉验证
从表3可得出,RLSTM-DENSE模型对数字声音0~9的识别准确率分别为93%、93%、90%、91%、91%、94%、88%、93%、91%、92%,每个数字声音的识别率不尽相同,但数字声音6的识别率仅88%,低于平均水平,这可能与受试者的听觉注意力有关。从性别角度分析,男性的声音信号识别率分别为92%、92%、90%、90%、90%、94%、88%、92%、92%、90%,总体平均识别率为91%;女性的数字声音识别率为94%、94%、90%、92%、92%、94%、88%、94%、90%、94%,总体平均识别率为92.2%.显而易见,女性识别率高于男性识别率,这是因为男性在实验过程中更有可能因为各种情况而受到干扰。
针对脑机接口中存在的“BCI盲”、泛化能力差以及神经网络里处理听觉诱发脑电信号时出现的模型不易收敛的问题,本文提出惩罚式长短期记忆神经网络融合全连接(DENSE)层的识别算法。首先,将实验采集到的脑电数据处理后作为神经网络的数据集输入,然后对长短期记忆神经网络中输出门的损失函数添加惩罚项,减少模型的参数,将其输出输入到DENSE网络,解决模型训练过程中不易收敛的问题。实验表明,文中算法的识别率达到91.59%,解决了“BCI盲”的问题,有效解决了算法过拟合与不易收敛的问题。其识别性能不仅高于长短期记忆神经网络,而且相比一些其他代表性的算法也有一定优势。