张小内 翟文鹏 侯惠让 孟庆浩
(天津大学电气自动化与信息工程学院 天津 300072)
嗅觉是生物进化史上最古老的感官功能,具有辨别气味、识别环境和调控情绪等作用。大脑是神经系统的最高级中枢,能够评估来自各器官的刺激。近年来,借助脑电(Electro Encephalo Gram,EEG)技术研究大脑对不同气味的识别能力这一问题因其具有重要的应用价值而备受关注,如可用气味刺激辅助诊断嗅觉功能障碍疾病,调控抑郁症和精神病患者情绪等[1–3]。
在EEG信号的分类研究中[2–6],为了获取丰富的信息,通常使用多通道(如32导、64导、128导或256导)电极采集EEG信号。然而,使用过多的电极一方面会增加设备的成本和试验操作的复杂度;另一方面会增加EEG信号数据处理的难度,不利于EEG信号的实时识别和非实验室环境的应用。为了实现EEG信号采集的便携性和识别的实时性,满足众多实际场景应用的需要,研究如何选择EEG通道显得尤为重要。
针对EEG信号分类中的通道选择问题,国内外学者提出了不同的研究方法。例如,在基于EEG信号的运动想象研究中,单海军等人[7]将Relief算法与顺序后向选择方法相结合,提出了Relief-SBS通道选择算法。结果表明使用Relief-SBS算法筛选出的通道的分类准确率远高于使用所有通道和固定通道(Cz, C3, C4)的分类准确率。然而使用Relief-SBS算法获得最优通道的过程需要不断计算不同通道组合的分类准确率,过程繁琐耗时。Lan等人[8]提出了一种基于互信息最大化的EEG通道选择方法。该方法虽然有较好的识别效果,但仅考虑了特征与类别之间的关联,忽略了特征与特征之间的关联。Lal等人[9]提出将基于支持向量机(Support Vector Machine, SVM)的递归特征消除和Fisher准则相结合进行通道选择。这种方法依赖于特定分类器,计算复杂并且可移植性较差。在基于EEG信号的情绪识别研究中,Zhang等人[10]提出了一种基于ReliefF特征权值均值的通道选择(Mean-ReliefF Channel Selection, MRCS)算法,并将其用于情绪的分类研究中。结果表明,MRCS通道选择算法在使用一定数量通道的情况下可以提高分类准确率。Peng等人[11]研究了MRCS算法的稳定性,指出MRCS算法在跨被试者的情绪识别时,稳定性较差。
ReliefF算法是一种原理简单、计算快速的过滤式特征选择方法,在许多场景中有着广泛的应用[12]。目前基于ReliefF的通道选择算法主要有以下两种研究思路:(1)首先使用ReliefF算法计算每个通道的权值,然后设定权值阈值[13],去除权值小于阈值的通道,保留的通道即为所选通道(简称经验选择法);(2)首先使用ReliefF算法计算每个通道的权值,并按照权值从大到小的顺序对通道排序,然后从排序后的第1个通道开始不断增加通道数目,同时使用特定分类器计算每种通道数目下的分类准确率,最后根据分类准确率确定通道数目和所用通道[14](简称准确率选择法)。以上基于ReliefF的通道选择算法均没有考虑通道间的关联性,所筛选出的通道往往存在大量的冗余通道。此外,在经验选择法中,阈值的选择没有统一的标准,需要依靠研究者的经验确定,当阈值变化时所选用的通道也将发生变化;在准确率选择法中,研究者需要计算每种通道下的分类准确率,通道数目越多,需要计算的次数就越多(如30通道需要计算30次),计算耗时,并且通道选择的结果依赖于所用的分类器。
针对传统基于ReliefF的通道选择算法的不足,本文将ReliefF算法和Pearson相关系数[15]相结合,提出了一种新型的基于ReliefF-Pearson的通道选择算法,并将其应用于嗅觉EEG信号的通道选择。本文所提算法考虑了通道之间的相关性,在进行通道选择时能够剔除大量冗余通道保留主要通道,并且通道选择的结果不依赖人为经验和分类器,具有较好的可操作性和推广性。
本文共招募10名右利手健康受试者参加试验,其中女性3名,男性7名,年龄在24~30岁,所有受试者均为在读研究生。试验前,告知受试者试验目的、过程以及设备的无害性。该文试验经天津医科大学总医院医学伦理委员会批准,所有受试者试验前阅读了试验说明及注意事项,并签署了试验知情同意书。试验使用13种气味作为嗅觉刺激剂:5种T&T嗅液(玫瑰味、焦糖味、腋臭味、桃子味、粪便味,浓度最高的嗅液稀释10–2倍)和8种精油(薄荷、茶、咖啡、迷迭香、茉莉、柠檬、香草、薰衣草)。试验在安静无干扰的环境下进行,试验过程中要求受试者睁眼、放松、自然呼吸,并尽可能不要出现眨眼和肢体动作。将32导(包含两个参考电极)电极帽按照国际10-20标准配戴在受试者头部,用塞雷布斯(Cerebus)多通道神经信号采集系统(Cerebus,Blackrock Microsystems, 美国)记录EEG信号,采样频率设置为1000 Hz。每位受试者分别经历13种气味刺激,每种气味重复测试35次。所以,对于每位受试者,试验共得到13×35=455个样本,其中每个样本包含30个通道的EEG信号(除去2个参考电极)。本试验的详细过程可参见文献[16]。
试验采集的EEG信号通常包含大量的冗余信息和噪声,因此在特征提取前需要对EEG信号预处理。本文对10名受试者的EEG数据依次处理,针对每位受试者,首先将采样频率为1000 Hz的EEG信号降频至128 Hz;然后利用4阶巴特沃思滤波器对降频后的EEG信号进行4~64 Hz带通滤波,并将其划分为θ频带(4~8 Hz)、α频带(8~12 Hz)、β频带(12~30 Hz)和γ频带(30~64 Hz) 4个频带;最后,分别计算每个频带下30通道EEG信号的功率谱密度(Power Spectral Density, PSD),并将PSD的算术平均值作为EEG信号特征用于后续的气味分类。
3.2.1 ReliefF算法
Relief算法由Kira于1992年提出,主要用于解决二分类中的特征选择问题,针对Relief算法无法处理多分类的问题,Kononenko对Relief算法进行改进,提出了ReliefF算法[12]。ReliefF算法的核心是权值思想,即根据特征与类别标签之间的相关性计算该特征的权值。该算法中特征和类别标签的相关性是基于特征对近距离样本的区分能力度量的。具体计算过程如下:对任意特征,首先从训练集中随机选择一个样本Ri;然后从和Ri同类(类别标签相同)的样本中选择k个最近邻样本(与Ri距离最近),从与Ri不同类(类别标签不同)的样本中选择出k个最近邻样本;最后根据权值单次迭代式(1)不断更新该特征对应的权值,循环计算m次直至所有样本依次计算完毕,得到单个特征的最终权值。权值单次迭代式为
k
其中,Wi(fl)为第i个样本中第l个特征f的权值;Hj(j=1, 2, ···, k)为与Ri同类的k个最近邻样本中的第j个样本; P(C)为在训练样本中属于类别C的样本所占比值; P(label(Ri))为与Ri同类的样本占总样本的比值,其中label(Ri)为Ri的标签; Mj(C) (j=1,2, ···,k) 为与Ri不同类的k个最近邻样本中的第j个样本(类别标签为C)。函数diff(f, R1, R2)的计算方法如式(2)所示
其中,diff(f, R1, R2)为样本R1和R2在第f个特征上的归一化距离,R1f和R2f分别为样本R1和R2的第f个特征,max(f)和min(f)分别为所有样本中对应特征f的最大值和最小值。在本文研究中,令m为训练样本的特征维数30, k取10。研究表明,当k=10时[10],对大多数分类任务最为可靠有效。
3.2.2 基于ReliefF-Pearson的通道选择算法
本文所提基于ReliefF-Pearson的通道选择算法主要分为以下3个步骤:
步骤 1 对每位受试者利用ReliefF算法计算每个通道的权值(本文每个通道对应提取一个特征,即该通道信号PSD的算术平均值,因此用ReliefFPearson算法进行特征选择也就是通道选择)。
步骤 2 将每位受试者所有通道的权值归一化在[–1, 1],然后将所有受试者同一通道的权值相加,如式(3)所示,得到与受试者无关的每个通道的权值
其中,N为受试者人数,W(ti)为受试者i的第t个通道归一化后的通道权值。得到与受试者无关的通道权值后,对所有通道的权值由大到小进行排序,并求取所有通道权值的平均值,将权值大于平均值的EEG通道作为初选通道。
步骤 3 依次计算初选通道中任意两个通道之间的Pearson相关系数,并根据相关强度(正相关值大于0.9)保留排序靠前的通道,去除排序靠后的通道。Pearson相关系数公式为
其中,ρX,Y为任意两个通道X,Y 间的Pearson相关系数,范围为[–1, 1], E为数学期望,X¯是所有X的平均值,是所有Y的平均值。
本文研究的焦点是嗅觉EEG通道选择方法,因此我们使用常用的k近邻(K-Nearest Neighbor,KNN), SVM和随机森林(Random Forest, RF)作为分类器。该文KNN算法中的距离采用相关距离,最优K值通过交叉验证法确定;SVM算法采用径向基核函数,惩罚参数c和核参数g使用网格搜索法获取最优值;RF算法采用分类回归树(Classification And Regression Tree, CART)作为基分类器,CART树任意生长不剪枝,森林大小设为100。
针对每位受试者,依次从每种(共13种)气味35次试验数据中随机选取20次试验数据作为训练样本,剩余15次试验数据作为测试样本,分别利用KNN, SVM和RF分类器对13种气味分类。以上过程重复计算10次,将10次分类结果的平均值作为该受试者的最终分类准确率。
表1提供了10名受试者气味分类准确率的平均值和标准差。其中,全特征为θ, α, β和γ频带特征的融合。对比表1中不同频带的分类结果,可以发现在3种分类器中,γ频带的分类准确率均显著高于其他频带。特别地,SVM分类器中的γ频带分类准确率最高(92.61%)。该结果表明EEG信号的γ频带与气味信息处理的大脑活动密切相关,这与已有研究结果[17]相一致。对于全特征,虽然它包含了θ, α,β和γ频带的所有特征,但与单独使用γ频带特征相比,分类准确率并没有得到提高。这可能是因为全特征中存在θ, α和β频带具有弱分类能力的特征,这些弱分类特征降低了分类精度。此外,对比不同分类器的分类结果,可以发现,每种分类器的分类性能与所用脑电信号的频带有关:对于全特征,RF的分类性能最好;对于θ和α频带特征,KNN分类能力最好;而对于β和γ频带特征,SVM的分类性能优于KNN 和RF。其他研究者的实验结果也出现了类似于上述分类器的分类性能在不同频带表现不一致的现象[18]。一种可能的解释是不同频带特征的分布不同造成分类器分类性能的差异。
表1 基于全通道不同频带的PSD特征分类准确率(标准差)(%)
本文4.1节的研究发现,γ频带的气味分类准确率最高,因此本节使用γ频带的特征进行嗅觉EEG通道选择。为了验证本文所提算法的有效性,将本文算法得到通道的分类准确率和通道数目与基于ReliefF算法的两种传统通道选择方法(经验选择法和准确率选择法)进行对比,结果如表2所示。其中,经验选择法选取权值大于平均值的通道作为所选通道;准确率选择法将分类准确率达到最大值时所用的通道作为所选通道。
由表2可知,利用本文所提算法筛选出的6个通道最高可达到88.51%的分类准确率,而传统的经验选择法和准确率选择法分别需要13个通道和8个通道方能达到最高91.15%和89.31%的分类准确率(分别仅比本文所提算法高2.64%和0.80%)。此外,准确率选择法虽然也用了较少的通道数量,但在进行通道选择时对分类器依赖比较大。如图1所示,使用不同分类器,分类准确率达到最高时通道数量不同。此外,准确率选择法需要计算每种通道数目下的分类准确率,计算量较大。以上结果表明,本文所提的基于ReliefF-Pearson的通道选择算法不仅能够减少使用的通道数量,而且能够保证较高的分类准确率。此外,本文所提算法在进行通道选择时不依赖研究者的经验和分类器,可操作性和实时性相对较好。
表2 基于γ频带的不同通道选择算法的分类准确率(通道数目)(%)
图1 PSD特征在不同分类器中随通道数增加分类准确率变化
图2 是3种通道选择法筛选出的通道示意图。其中,图2(a)是利用本文所提算法得到的6个通道;图2(b)是利用经验选择法得到的13个通道;图2(c)是KNN作为分类器,利用准确率选择法得到的9个通道;图2(d)是用SVM或RF作为分类器,利用准确率选择法得到的8个通道。对比图2中3种通道选择法筛选出的通道,可以发现,本文所提算法保留了经验选择法和准确率选择法选择出的重要通道(FP1, FCZ, CZ, C4, TP8),并剔除了其中的大量冗余通道(FP2, FZ, T4, CP3, CPZ, CP4, P3)。此外,本文所选通道主要位于额叶、顶叶和颞叶位置,这与神经生理学研究中的嗅觉相关脑区相一致。此结果进一步证明了本文通道选择算法的科学性和有效性。
图2 通道选择结果
本文提出了一种新型的基于ReliefF-Pearson的通道选择算法,并将其应用于嗅觉EEG通道的选择。首先,通过试验采集由13种气味诱发的多通道EEG数据;随后,计算每通道信号的PSD,并将其算术平均值作为特征;接着,基于每通道提取的特征,利用本文所提算法对嗅觉EEG通道进行选择;最后,基于所筛选出的通道对13种气味进行识别。实验结果表明,本文所提算法能够在保证较高分类准确率(88.51%)的同时使用较少的通道(6通道)。与传统基于ReliefF的通道选择方法相比,本文算法考虑了通道之间的相关性,在通道选择时可剔除大量冗余通道,并且通道选择的结果独立于研究者的经验和分类器。
目前,本文所提算法仅针对传统基于ReliefF的通道选择算法的不足而提出的。虽然与传统基于ReliefF的通道选择算法相比,本文所提算法可以剔除大量冗余通道,实现较为快速的通道选择,但筛选出的通道仍可能存在冗余。在未来的工作中,将对本文所提算法进行改进,研究如何在保证分类精度和算法实时性的情况下选择出最少通道,为基于EEG信号的气味识别走向实际应用提供参考。