张俊晓,薄华
(上海海事大学信息工程学院,上海 201306)
情绪识别是通过获取人的生理或非生理信号,对人的情绪状态进行识别的一个过程,在医疗护理、军事战术、产品开发、测谎技术、交通运输、抑郁症治疗等多个方面都有潜在的应用价值[1,2]。脑电信号(ElectroEn⁃cephaloGram,EEG)产生于大脑皮层的神经活动,采用非侵入式方式记录的大脑皮层信号,在一定程度上可以反映大脑的活动状态[3]。利用脑电信号进行情绪识别成为目前主流的研究手段[4]。Sammle等人通过对音乐诱发情绪的脑电分析发现,欢快的音乐在额中区能够引起更多的δ波[5];国内赖永秀等人发现左右额叶α波与正负情绪的相关性等[6]。
传统的脑电情绪研究[7~11],主要是通过人工提取情绪相关的脑电特征,例如,特定频率波段的能量或者功率谱、不同频段的能量比值等方法来研究情绪的大脑机制。这种方法原理简单,容易实现,但人为地提取特定的特征,一方面会造成信息损失,另一方面提取的特征是否能够很好地识别不同情绪还有待验证。近年来,机器学习算法在人工智能领域发展火热,神经网络算法的分类效果也有目共睹。本文采用卷积神经网络方法,利用卷积神经网络模型自动提取数据特征的优势,在输出层实现对正面和负面情绪的识别。实验结果证明,此方法可以以较高的识别率完成情绪识别的任务。
卷积神经网络在传统人工神经网络的结构基础上,加入了两种重要的思想,即“局部感受野”和“权值共享”。相比于全连接神经网络,卷积神经网络能够非常有效地降低网络计算的复杂度,是深度学习算法的典型代表之一,在图像、语音、文本、视频等方面均有很好的成果展现。传统人工神经网络包含输入层、隐层、输出层三种网络结构,卷积神经网络在其基础上,隐层体现为全连接层,并在输入层与全连接层之间增加卷积层与池化层两种网络类型[12]。通过多层卷积,不断提取更为抽象的信号特征,在增强有效信号特征的同时,也弱化了噪声信号的特征。
卷积层,即特征提取层,它模拟简单细胞具有局部感受野的生物机制,采用局部连接和权值共享的方法提取信号的初级特征。局部连接是指,卷积层上的每个神经元通过卷积核的作用,与前一层特征图中特定区域内的神经元相连接,而并非所有的神经元。其中,特定区域的大小取决于卷积核的大小。不同大小的卷积核所提取的输入数据的特征截然不同。卷积核越小,提取的输入数据的特征就越多,反之亦然。权值共享即同一个特征图中的神经元共同使用相同的连接强度来与前一层局部连接[13]。如图1所示,卷积层中每个神经元使用相同的权重参数、偏置与输入层卷积连接,i个不同的卷积核,在激活函数的作用下能够得到i张不同的特征图。
图1 一维卷积神经网络
卷积层的计算公式如下[14]:
其中,x是输入的二维矩阵;y是M×N的输出矩阵;0≤m 池化层,又称降采样层。通过卷积直接得到的特征向量的维数比较大,如果直接将这些特征输入网络进行分类,不仅计算量大、复杂度高,分类效果可能也会由于特征太小而不好。因而,先将特征降维,再进行特征训练分类,能有效提高分类效率。降采样操作是将卷积提取到的初级特征进行筛选、合并,进而重组为更为抽象的特征。通过降采样后得到的输出特征图数量并不会改变,但是每个特征图维数的降低,能有效降低了网络计算量,并使网络对信号在一定程度上具有平移不变性,鲁棒性能提高[13]。池化分有两种操作方式,分别是最大池化和平均池化。最大池化指的是取区域内最大值;平均池化指的是取区域内像素的平均值。降采样的操作公式为: 其中,x是经过卷积后的输入特征矩阵,y是经过采样后的输出矩阵,S1和S2是降采样的不同尺度。 全连接层是将卷积层学习到的各个局部特征汇聚起来形成全局特征,并以此来感知全局信息。全连接层,顾名思义,是指该层的每一个神经元都与前一层当中的所有神经元互相连接,但是同层之间的神经元没有连接。每一层的神经元节点通过连接线上的不同权值,加权组合后得到下一层神经元节点的输入,以此来进行前向传播。全连接层能够增强网络的非线性映射能力。 实验采用北京中科新拓仪器公司生产的NT9200-16D的医用脑电图仪,选用16导氯化银管型电极,采样频率为1000Hz,采用国际标准10-20系统电极放置法,实验系统如图3示。被试者年龄在22-25岁之间,视觉、听力正常,为右利手,无任何精神病史和脑神经损伤。实验之前,告知被试实验目的、实验流程和注意事项,保证被试者头皮及额头清洁。选择一个安静的实验环境,受试者找一个舒服的坐姿,保证头脑清醒、身心放松。实验环境见图2。 图2 实验环境 图3 实验系统 实验采用国际情感图片系统作为不同情绪诱发源,从中选取两类照片,一类是能让人产生正面情绪的图片,例如自然景观、日常生活工具、诱人的食物,笑脸;另一类是能诱发人产生负面情绪的图片,例如分离、灾难、流泪、恐怖的事情。按照类别,尽可能选择情绪表达强烈的图片,并分别放置在电脑不同情绪对应的文件下。如图4。两种情绪分别单独诱发,被试者按照指示进行实验,屏幕显示“+”时准备,倒计时3个数后,开始观察图片并认真感受图片所表达的情绪,每张图片停留10s自动切换到下一张图片,采集1min后休息2min,进入下一组脑电采集。 图4 正负两种情绪图片 针对每种情绪,每人分别采集2组1min左右长的数据,采样频率为1000Hz,将采集到的数据以500个采样长度为重叠、每段数据长度为1000时截断,以此形成数据样本,即选取1s时长的数据为一个样本,如图5。 图5 数据处理 每个人的数据集分别由2组悲伤数据集与2组愉悦数据集组成,其中悲伤数据集与愉悦数据集分别又均以9:1的比例分配到训练集与测试集。同时,为使识别率更能准确地反映样本特征,在悲伤训练集与愉悦训练集中,均设置了一个随机取数机制,这样,每次生成的数据均来自于训练集中不同数据的组合,使得样本足以代表整体。 在脑电采集过程中,由于环境的原因,不可避免地会受到各种形式的干扰,有眼电、肌电、工频干扰等。首先,我们采用插值法去除比较明显的眼电干扰;然后做去均值处理,消除脑电信号中的直流分量;最后,采用低通滤波器进行滤波,去除工频干扰。我们主要对0.5-30Hz的部分进行分析,低通滤波器的截止频率选定为35Hz。 本文算法采用一个卷积层与一个池化层进行自动特征提取,算法流程图如图6: 图6 本文算法卷积神经网络结构图 被试者处理后的脑电数据样本集一共有574个,包括288个悲伤样本与286个愉悦样本。其中,训练集分别选取250个悲伤样本与250个愉悦样本,一共500个训练数据集,剩余的74个为测试数据集。算法分别对每个通道进行处理,针对每个通道,输入数据为500×1000,通过多次的参数调优,为了避免增加独立信号之间的关联性,采用一维卷积核,大小为171,即卷积层选用5个大小为1×171的卷积滤波器,通过卷积得到 5×500×(1000-171+1)大小的特征面,采用 ReLU 激活函数进行线性单元的修正,之后,采用最大池化,进一步降低样本数据量。全连接层,即隐层大小为500,该层的每个神经元与池化后的特征层的每个神经元均互相连接,但同层的神经元之间不连接。全连接后,ReLU激活函数再次修正线性单元,之后,输出到Soft⁃max函数,进行两种情绪的识别分类。其中,ReLU函数:f(x)=max(0,x),即输入小于0时,输出统一为0;输入大于0时,输出等于输入,以此来实现线性单元的修正。另外,正则化参数为0.1,学习率初始化为0.001,且每迭代10,学习率减小为原来的0.8倍。 实验结果显示,被试者16通道脑电信号的训练集识别率均在98%以上。测试集平均识别率标记为r,单位为%。该被试者的16个通道的10次平均识别率如表1。 表1 16个通道10次平均识别率 可以看出,不同的通道(脑区),正负两种情绪的识别率是不同的。FP2(右额叶区)的识别率最高,十次平均识别率可以达到83.0%,最高识别率可以达到91.89%。FP1(左额叶区)、C3(左顶叶)、O2(右枕叶)通道的识别率次之,在75%左右。第九通道,即O1的识别率最低,十次平均识别率为67.7%。研究显示,积极情绪下,大脑左前额区脑电活动增加;消极情绪下,右前额区脑电活动会增加。 脑电信号按频率可以分为以下几个频段,分别是:δ波(0.8-3.8Hz)、θ波(4-7.8Hz)、α1 波(8-9.8Hz)、α2 波(10-12.8Hz)、β1 波(13-22.8Hz)、β2 波(23-30.8Hz)以及超高频γ波。脑电采集仪软件分析可以看出,正负两种不同的情绪在不同频段与不同脑区脑电信号的强弱,如图7与图8。图中右侧的颜色条代表信号的强弱,红色代表信号最强,蓝色代表信号最弱。度次之,同样高频波脑电信号强度最弱,与以往学者关于积极情绪和消极情绪在额区的脑电活动情况相符。另外,通过比较观察正负两种不同情绪的频段与脑区分布发现,情绪脑电在低频波段诱发比高频波段充分;消极情绪诱发的脑电总体比积极情绪分布范围广、强度高,这与消极情绪对人的影响更持久有关。 图8 正面情绪频段与脑区分布图 图7负面情绪频段与脑区分布图 图7 显示,当被试者观察带有负面信息的图片时,δ波在右半球的前额区与颞叶区、左半球的枕叶区,脑电信号最强,θ波在相同脑区强度次之,高频波最低,基本检测不到脑电信号。而图8表明,当被试者观察带有正面情绪的图片时,δ波在左半球的额叶区、右半球的顶叶区与枕叶区,脑电信号最强,θ波在相同脑区强 本文设计了通过不同图片诱发正面和负面两种情绪的实验,使用16导的NT9200-16D医用脑电图仪采集脑电信号,针对每个通道的信号,用卷积神经网络的方法分别识别愉悦(正面)与悲伤(负面)两种情绪,以此来观察情绪与不同脑区之间的关联是否存在一定的规律。实验结果显示,FP2(右额叶区)通道的识别率是最高的,10次平均识别率为83.0%;FP1(左额叶区)通道的识别率为74.6%,这为进一步研究情绪与脑区间的关联机制提供了有价值的参考意义。 此研究结论还需更多的被试者、更充分准确的实验数据进一步论证。后续将选用音乐、视频等情绪诱发源进行实验,验证个体差异下的共同脑区特征。同时,卷积神经网络算法会进行进一步的调优与改进。1.2 池化层
1.3 全连接层
2 实验设计与本文算法
2.1 实验设计
2.2 数据样本
2.3 预处理
2.4 基于脑电信号的卷积神经网络
3 实验结果分析
3.1 识别率分析
3.2 脑区与频段分析
4 结语