冯一飞, 王青山
(合肥工业大学 数学学院,安徽 合肥 230601)
据世界卫生组织2017年的统计,全球大约有5.5%的人遭受听力损失的困扰,合计人口达到4.66亿,仅在中国就有2 780万听障人士。手语是听障人士最重要的交流方式,然而对于没有专门学习过手语的健全人来说,手语是一种难懂的语言,这使得听障人士和健全人之间形成沟通障碍[1]。沟通障碍一方面影响了听障人士的工作、学习、娱乐等生活状态;另一方面可能使他们形成自卑心理,不利于形成健全的人格。为了让听障人士更好地融入社会,越来越多的研究者开始关注手语识别问题。
目前,已经存在许多手语识别的形式,从采集信号的种类上看,有基于视觉图像的方法[2-4]、基于WIFI的方法[5]和基于传感器的方法[6-7];从采用的识别方法来说,有机器学习方法[8-9]和深度学习方法[10-11]等。基于视觉图像的方法可以采集到手和面部的特征,往往在多目标的手语识别任务中表现更出色,然而由于需要借助摄像机采集图像数据采集,难以在现实生活中普及。基于WIFI的方法可以采集到除了手和手臂以外身体其他部分的运动,但是对于比较细粒度的运动,比如手指的运动,会损失采集的精确性。基于传感器的方法通过佩戴手环来采集手势的肌电流和运动的惯性信号,无需通过摄像头采集,采集到的手势信号也更为精确。
目前,脉冲神经网络(spiking neural network,SNN)[12]已经应用在一些深度学习的任务中,如模式识别[13-15]、强化学习[16]。脉冲神经网络中的神经元更接近生物神经元的组成,它利用稀疏的脉冲来表示信息,而不像传统人工神经网络的神经元使用连续的变量表示信息。由于这种仿生的机制,脉冲神经网络有潜力在使用更少神经元的情况下达到和人工神经网络相似的性能[9],使得脉冲神经网络非常适合实际的场景。另外,脉冲神经网络可以在线学习,对复杂信号处理的鲁棒性高于人工神经网络[17]。然而利用脉冲神经网络对手势进行识别[13,18]工作较少,文献[13]设计了预训练脉冲神经子网,使得脉冲神经网络的隐藏层数更深,对8种手势进行识别。文献[18]提出了深度卷积脉冲神经网络,缩短了处理信号所需的时间,在2个8分类的手势数据集上验证网络性能。它们识别的手势规模较小,本文研究脉冲编码和训练方法来设计轻量级的脉冲神经网络,对101个常用手语手势进行识别。
本文提出了基于表面肌电流(surface electromyography,sEMG)手语识别模型,该模型由轻量级长短时记忆脉冲神经网络(long short-term memory-spiking neural network,LSTM-SNN)组成。在模型中设计自适应脉冲编码对输入的手语信号进行编码,改进带泄漏整合发放(leaky integrate-and-fire,LIF)神经元模型进行网络训练,最后通过实验来比较该模型与其他深度学习和机器学习模型的准确率等方面的性能。
手语识别系统框架如图1所示,首先使用MYO手环采集数据得到原始手语sEMG信号,然后将sEMG信号经过自适应脉冲编码后获得脉冲信号,脉冲信号作为LSTM-SNN的输入,通过时间驱动方式训练神经元中的参数,由全连接层对特征向量进行识别分类,最后由LSTM-SNN中的softmax层输出手语分类的结果。
图1 手语识别系统框架
脉冲编码过程主要是将输入信号转化为脉冲信号,从而产生脉冲网络的输入。本文设计了一种自适应脉冲编码来对手语信号编码,其主要思想是通过计算当前时刻编码手语信号前后变化信息进行自适应脉冲编码。
对给定的手语信号X=(x1,x2,…,xT),其中,xt∈R,1≤t≤T,T为信号的帧数,经过脉冲编码得到的序列为Y=(y1,y2,…,yL),其中,yl∈{0,1},1≤l≤L,L为脉冲序列长度,一般来说L=T。因为产生脉冲的原因是在膜电位形成了电位差,即该时刻产生的电压变化较大,所以本文根据信号的变化程度进行脉冲编码。当信号变化程度越大,发射脉冲的时间就越早。标准脉冲的发放时间表示为:
tf(zt)=(T-1)(1-xt)
(1)
其中:T为脉冲最大的发放时长;xt为当前时刻的输入,且xt∈[0,1)。本文设计的自适应脉冲编码思想,如图2所示。
图2 自适应脉冲编码
1) 计算手语信号在当前时刻(2≤t≤T)与上一时刻t-1的差值dt=|xt-xt-1|。假设上述差值中最大值为dmax(2≤max≤T),通过dt/dmax将dt映射到[0,1]之间。
(2)
由式(2)可知,如果Rt≤RT,说明当前时刻t后k帧的信号变化较小,那么可以推迟脉冲发放的时间;反之,则尽早发放脉冲。
本文使用带泄漏整合发放神经元模型来实现脉冲神经网络中信息的传递。该模型主要模拟生物体内神经元突触之间的信息传递方式,通过不断地充电和放电来产生脉冲信号,这种方式被称为时间驱动方式。
神经元的信息传输过程主要分为充电、放电和复位。充电和放电的具体过程分别用以下公式表达,具体计算公式如下:
Ht=Vt-1+Δvt
(3)
(4)
在充电的表达式(3)中;Ht为t时刻神经元未发放脉冲的瞬时电压;Vt-1为上一个时刻t-1的电压;Δvt为t时刻的电压增量。在放电的表达式(4)中:θt表示是否产生了脉冲;如果Ht超过阈值Vthreshold,那么就会产生一个脉冲,随后膜电位会立即回到一个静息电位,此过程叫做复位;反之,不产生脉冲。
本文采用当前膜电位减去阈值Vthreshold的方式来复位,这样膜电位在充电的过程中不需要从0开始增长,提高了脉冲放电的效率。具体的复位方式如下:
Vt=Ht-Vthresholdθt
(5)
其中,Vt为t时刻的电压。
图3 脉冲网络的神经元
长短时记忆网络是一类特殊的循环神经网络(recurrent neural networks,RNN),能够为信号的时间依赖性建模,同时解决了循环神经网络结构面临的梯度消失问题[19]。因为肌电流信号是时间序列信号,所以本文选择了长短时记忆网络来捕捉脉冲神经网络中信号的时间依赖性。长短时记忆脉冲神经元工作原理如图4所示。
图4 长短时记忆脉冲神经元工作原理
长短时记忆脉冲神经元与长短时记忆网络神经元一样,都使用了细胞状态ct来管理神经元之间信息的传递。ft是遗忘门,决定了哪些信息会保存;it是输入门,控制了输入单元的信息和另一个辅助的输入gt,gt由另一个脉冲激活函数来调节;ot是输出门,形成下个神经元的输入。具体来讲,对于一组给定的脉冲序列(y1,y2,…,yL),长短时记忆脉冲神经网络LSTM-SNN的门和状态可以用如下方程描述:
(6)
其中:⊙代表Hadmard乘积;σ1、σ2为反应膜电位的脉冲激活函数,当函数值超过阈值时会产生脉冲。
本文对所提的LSTM-SNN手语识别模型进行性能评价分析,具体包括实验环境设置、LSTM-SNN性能、不同编码方式对LSTM-SNN性能影响、LSTM-SNN与其他模型性能对比。
本文使用MYO手环采集肌电流数据,其包含8个表面肌电流传感器,采样频率为200 Hz。将手环佩戴于前臂,可以采集到手部运动的信息,并通过蓝牙设备传输到电脑,完成数据的收集。肌电流信号采集设备如图5所示。
图5 肌电流信号采集设备
本数据集包含101个日常生活中常见的手语手势。该数据集由16位志愿者采集,包括8男8女,其中有4位手语老师和6位听障学生,其余的志愿者也都经过了专业的手语训练,可以熟练地使用手语。在本数据集中每个手语手势有10个样本,一共1 010个样本,每种手势中都包含了至少3位志愿者的手语样本。
本文通过电脑端完成网络的训练,CPU是i7-9700F、32 GiB RAM,GPU采用NVIDIA RTX 2080Ti; 深度学习框架和训练过程通过Pytorch完成。另外,本文应用深度学习框架惊蛰[20]搭建脉冲神经网络。式(2)中的T设置为20。因为本文构建一个轻量级的网络,所以网络模型只设置了1层LSTM-SNN加1层全连接层,LSTM的隐藏层数量设置为128,训练模型的epoch设置为800,batchsize为32,采用Adam作为优化器,优化器的学习率设置为0.001。
本文使用的评估指标包括准确率A(accuracy)、精确率P(precision)、召回率R(recall)和F1分数。准确率可以表现出模型对所有样本的分类能力;精确率可以反映出模型对正样本分类的能力;召回率反映模型对正样本的误判情况;F1为综合考虑精确度和召回率的结果。这些指标经常被应用于分类任务中,作为评价模型性能的重要标准。
评估指标的计算公式如下:
(7)
(8)
(9)
(10)
其中,Ntp、Nfp、Ntn、Nfn分别表示真阳性、假阳性、真阴性和假阴性样本的个数。
本实验对101个手语手势进行识别评价LSTM-SNN的性能,将数据集中的70%作为训练集,30%作为验证集,得到验证集的准确率为95.37%、精确度为94.88%、召回率为94.53%、F1为94.70。这说明该模型可以正确分类大部分的样本。进一步,本文对分类效果较差的16个手势进行实验分析其准确率,将模型输出的维度调整为16,以16个手势对应的160个样本作为验证集进行验证,得到的混淆矩阵如图6所示。
图6 16个手语词的混淆矩阵
由图6可知,准确率为86.88%,说明模型在单独分类这些样本时效果并不差。从混淆矩阵的坐标轴中可以看出,这些手语在含义上并不相近,产生这种现象的原因可能是在这些手语手势信号中有相似的肌电流信号,导致模型在分类时容易产生混淆。
本文将所提自适应脉冲编码、常见的周期编码和泊松编码进行了性能比较,实验结果见表1所列。从表1可以看出,采用自适应编码在性能表现上都优于其他常见的编码方式。
表1 不同编码方式的性能比较
本文将所提模型LSTM-SNN同手语识别中现有的机器学习和深度学习模型进行性能比较,包括单层卷积神经网络(convolutional neural networks,CNN)、单层长短时记忆网络、单层全连接网络(fully connected,FC)、多并行卷积神经网络模型[21]、改进支持向量机(support vector machine,SVM)模型[22]和人工神经网络模型[23]。另外,实验还搭建并训练了卷积脉冲神经网络(CNN-SNN)和全连接脉冲网络(FC-SNN),这些模型的搭建与长短时脉冲网络的搭建类似,将其中的激活函数替换为LIF神经元,再使用自适应编码和时间驱动方式进行训练。这些模型的实验结果见表2所列。
表2 不同模型的性能比较
从表2可以看出,所提模型LSTM-SNN在所有指标上性能最好。另外,传统神经网络LSTM、CNN和FC在采用脉冲神经元之后性能都有一定程度提升。
本文提出一种轻量级长短时记忆脉冲神经网络模型,该模型对输入信号设计了自适应脉冲编码方法,改进了LIF模型进行网络训练,实现对101个手语手势的识别。实验结果表明,该模型在手语识别任务上较现有模型取得更高的准确率。本研究还有不足之处,例如,没有探讨手语识别实时性的问题,当手语数据集扩展后脉冲神经网络系统的鲁棒性问题,这些将在未来的工作中进行研究。