蒋本聪,王 力,邹采荣,胡 晓*,汪家冬,梁瑞宇
(1.广州大学机械与电气工程学院,广州 510006;2.东南大学信息科学与工程学院,南京 210096)
基于中潜伏期听觉诱发电位的听觉注意特征提取与识别*
蒋本聪1,王 力1,邹采荣1,胡 晓1*,汪家冬1,梁瑞宇2
(1.广州大学机械与电气工程学院,广州 510006;2.东南大学信息科学与工程学院,南京 210096)
针对目前研究听觉注意的实验范式采用电极数量较多,且使用P3电位诱发时间比较长等问题,设计了一种基于听觉诱发中潜伏期反应(MLR)的实验范式。首先在注意与非注意两种状态下诱发出相应的MLR,再分别计算MLR的能量、方差、面积、AR模型系数和波形峰值作为特征值。最后,通过模式识别算法进行分类。实验结果表明:8位受试者以人工神经网络(ANN)为分类器的平均正确率可达到77.2%,本范式对于大部分受试者的效果较理想。
听觉诱发;听觉注意;中潜伏期反应;AR模型系数;模式识别;人工神经网络
视力障碍极大地影响了患者的日常生活,往往视力受限的患者,其听觉系统是完好的。通过评估听觉认知能力可为临床疾病诊断和认知科学研究提供重要依据,而这其中涉及到听觉注意的相关内容[1]。听觉注意神经信息处理机制在鸡尾酒会效应CPE(Cocktail Patty Effect)中可帮助人类处理外界环境中的声音信息。人类能利用该信息处理机制从复杂多变的环境背景噪声中快速和准确地抓取感兴趣或关键性的声音内容[2]。听觉注意被认为存在“自下而上”(bottom-up)和“自上而下”(top-down)这两种机制[3-6]。
人在听到声音并做出相关反应的过程中往往会将这两种机制结合使用,因此为了能更清晰地辨别听觉注意,本文采用了听觉事件相关电位ERP(Event-Related Potentials)[7-8]。当外界刺激为声音时,所诱发的电位称为听觉事件相关电位。听觉事件相关电位可按延迟时间分类,其中,N0、P0、Na、Pa和Nb属于中潜伏期反应MLR(Middle Latency Response)[9-11]。
研究听觉注意机制不仅能帮助人们了解耳蜗、脑干及其大脑等器官的工作原理,还可用于脑机接口等工程领域,Guo J等人通过设计一种新的听觉脑机接口[12-13],以帮助视觉障碍患者选择所需要的目标。本文设计了基于MLR的听觉注意实验范式,仅采用了一个电极数据的方法,并利用特征提取和分类算法对采集到的数据进行处理,已经获得了满意的实验结果。
有8名(8耳,都是左耳)受试者进行了MLR实验,仅采用一个电极的数据,其中男生5名,女生3名,平均年龄24岁,均为广州大学在校研究生。受试者都为右利手,无听觉系统、神经系统疾病及精神障碍病史,而且都没有参加过相关的实验。首先向受试者介绍实验目的和相关注意事项,然后他们签署了《知情同意书》。整个实验在静音的电磁屏蔽间内进行,且进行实验时将屏蔽室的灯光关闭,受试者安静地平躺于床上,头部垫枕,受试者闭上双眼,保持放松。
实验仪器为丹麦尔听美公司的ICS Chartr EP200诱发电位仪。采集数据设置为刺激声:短纯音,密集型。声音频率1 kHz,声音强度70 dBnHL,通道为同侧,由头戴式Telephonics TDH-49P型耳机给声,左耳给刺激声。声音的重复率为1.1次/s,带通滤波为10 Hz~100 Hz,扫描时间为500 ms,叠加次数为80次。本设备用4个电极来获取数据,其中数据采集电极位于额头顶部的发际中心位置,左右参考电极分别位于左右耳乳突,接地电极位于眉心,电极分布如图1所示。所有电极的阻抗匹配低于5 kΩ。
图1 电极分布图
本实验设计了两种思维状态,一种空闲状态(保持放松状态,不计数),另一种则是通过意念对刺激声进行计数的状态,其中受试者在计数时不能发出声音、触动嘴唇或者伸缩舌头。两种状态随机出现,并由实验操作者口头告知受试者。实验设计方案如表1所示。一次实验共采集40组数据,空闲状态和计数状态各采集20组。采集一组数据所需88 s,每组之间的间隔为5 s~10 s之间的一个随机值。每采集完10组数据后,受试者休息5 min。8位受试者均参与了5次实验。
表1 实验设计方案
文献[14]中,Suzuki等认为中潜伏期反应频谱主要集中在30 Hz~50 Hz,Lane发现中潜伏期反应的主要频段是20 Hz~200 Hz。本实验结合实测数据各波潜伏期特点,得出N0、P0、Na、Pa和Nb涵盖在10 Hz~150 Hz频带内,由于数据的采样率为1 200 Hz,对数据进行6层小波分解[15-16],利用第3层到第6层细节分量系数重构原始信号,可实现9.375 Hz~150 Hz带通滤波的效果,并能去除基线、自发脑电和高频噪声。随机挑选两次测试数据进行小波滤波,效果如图2所示。
图2 滤波前后对比图
图2为受试者A非注意状态滤波前后单试次波形对比,可以发现滤波后MLR基线偏移得到矫正,高频噪声得以去除,波形更加平滑。
滤波后的数据仍可能存在肌电和眼电干扰的迹象,因此本文采用阈值法,对波形走势明显异常,波峰和波谷总量小于3个,幅值过高的波形予以自动剔除(测试对象不同,此阈值也会随之变化)。滤波和去伪迹后,分别对8位受试者的所有同状态数据做平均,得到图3所示波形。
图3中子图3(a)~图3(h)分别为8位受试者注意和非注意状态平均MLR波形,实线为非注意状态,虚线为注意状态。可以发现,注意和非注意状态下,平均MLR波峰存在明显差异,且各波潜伏期基本没有改变。
图3 8位受试者所有不同状态平均波形对比
本文针对MLR波形,采用能量、方差、面积、AR模型系数及波形峰值作为特征值,其中AR模型系数采用Burg算法计算得到,阶数则由高阶谱分析工具箱HOSA的定阶函数ARORDER计算获取。MLR峰值由下列公式获取:
记Na,Nb相对于基线的峰值分别为PNa和PNb,则:
PNa=max{x(n)},n∈[n1,n2]
(1)
PNb=max{x(n)},n∈[n3,n4]
(2)
记Pa相对于基线的峰值为LPa,则:
LPa=min{x(n)}n∈[n5,n6]
(3)
记Nb-Pa的峰峰值为FNb-Pa,则:
FNb-Pa=PNb-LPa
(4)
式中:n1、n3和n5分别代表Na、Nb和Pa潜伏期区间起始点,n2、n4和n6分别代表Na、Nb和Pa潜伏期区间结束点。参照文献[17],Na、Pa和Nb的潜伏期分别为16 ms~30 ms,30 ms~45 ms和40 ms~60 ms。实验依照各受试者的波形对潜伏期区间范围进行微调。Na、Pa、Nb位置如图4所示。
图4 MLR峰值位置图
由ARORDER函数计算得到的AR模型阶数为7,组合能量、面积、方差和峰值特征,本文得到的特征共13维,记为
v1=[a1,a2,a3,a4,a5,a6,a7,e,s,σ,PNa,LPa,PNb]
(5)
式中:a1~a7为AR模型系数,e为能量,s为面积,σ为方差,PNa、LPa和PNb分别为Na、Pa和Nb的峰值。此外本文还加入了Nb和Pa的峰峰值FNb-Pa,最终得到特征向量v2和v3:
v2=[a1,a2,a3,a4,a5,a6,a7,e,s,σ,PNa,LPa,FNb-Pa]
(6)
v3=[a1,a2,a3,a4,a5,a6,a7,e,s,σ,PNa,PNb,FNb-Pa]
(7)
由于实验数据有限,为更好地呈现分类的有效性,本文采用了基于K交叉验证的支持向量机和神经网络[18]的分类算法,实验中K取3。
支持向量机选择高斯核函数,设定惩罚参数c和高斯核参数g的寻优范围为[2-10,210],以K交叉验证运行100次中,使正确率达到最大值的c和g值为最终采用的值。
由于仅含一个隐层的神经网络就可以任意逼近一个非线性函数,本实验采用2层神经网络,第1层有10个神经元,第2层有2个神经元。第1层的传递函数是逻辑函数(Logic),输出层的传递函数是线性函数(Linear),同样以K交叉验证运行100次中,使正确率达到最大值的网络为最后采用的网络。最后将基于K交叉验证的两种分类器算法迭代100次的平均识别率作为最终分类正确率。
将8位受试者的Na峰值PNa,Pa峰值LPa,Nb峰值PNb和峰峰值FNb-Pa的提取结果绘制成箱线图,结果如图5所示。
图5 8位受试者峰值特征提取结果箱线图
图5(a)~图5(h)分别为8位受试者Na,Pa,Nb,Nb-Pa提取结果箱线图,每个子图从左到右依次为非注意状态Na,注意状态Na,非注意状态Pa,注意状态Pa,非注意状态Nb,注意状态Nb,非注意状态Nb-Pa,注意状态Nb-Pa的提取结果箱线图。从图5可以看出注意与非注意状态下,各峰值的上下边缘线、上下四分位数和中位数。虽然两种状态下的提取结果有重叠的区间,但其分散情况并不形同。
每位受试者都进行了5次实验,有200次数据,其中注意状态100次,非注意状态100次。去伪迹后剩余160条左右数据,K交叉验证取K=3,因此训练数据106条左右,测试数据54条左右,SVM和ANN分类结果分别如表2和表3所示。
由表2可知,所有受试者的3类特征平均识别正确率相差不大,以v3为特征的识别率为66.1±6.1%,略高于以v2和v1为特征的识别率,由此可见SVM对3种特征并不敏感。各受试者之间的识别率相差较大,最高为74.7±4.9%,最小仅57.3±5.9%。
由表3可知,以v3为特征的平均识别率最高,可达77.2±2.8%,以v1和v2为特征的识别率也分别达到了75.5±2.7%和74.9±3.2%,由此可见所取特征有效且可分。对比表2和表3可以发现在本实验范式下,采用ANN分类器的识别率都高于SVM分类器的识别率。
表2 所有受试者SVM分类结果比较
注:1、3、6号为女性。
表3 所有受试者ANN分类结果比较
注:1、3、6号为女性。
由于不同受试者MLR波形具有各自不同的特点,本文对他们的最优特征和分类器进行了对比研究,详情如表4所示。
表4 不同受试者在不同思维状态下的分类结果
注:1、3、6号为女性。
由表4可知,半数的受试者以v3为分类特征识别率最高,3位受试者以v2为特征识别率最高,仅1位受试者选v2为分类特征时识别率最高,且男性和女性之间并未见明显差异。若考虑特征的普适性,则选择v3为分类特征,v3可用来区分受试者注意与非注意状态。若针对某特定受试者,选取其最优特征可使识别率更高。实验表明,用一个电极所采集的数据,获得了满意的结果。
总之,本文设计的实验范式简洁,技术可行,有望为视觉有障碍的患者提高生活质量,还可为健康人提供人机交互应用体验。虽然实验对象有限,但可以有效推广。
本文在基于MLR的实验范式下,以MLR波形的能量、方差、面积、AR模型系数及波形峰值作为分类特征值,通过使用支持向量机(SVM)和人工神经网络(ANN)分类算法对提取的特征值进行分类和对比。实验结果表明:8位受试者分类正确率较理想,说明本范式对于大部分受试者可以达到较理想的效果。
[1] 顾吉有,吕勇. 选择性注意和分配性注意对多感觉整合的不同影响[J]. 心理与行为研究,2016,14(2):202-206.
[2] 刘扬,张苗辉,郑逢斌. 听觉选择性注意的认知神经机制与显著性计算模型[J]. 计算机科学,2013,40(6):283-287.
[3] Fritz J B,Elhilali M,David S V,et al. Auditory Attention-Focusing the Searchlight on Sound[J]. Current Opinion in Neurobiology,2007,17(4):437-455.
[4] Alain C,Arnott S R,Picton T W. Bottom-Up and Top-Down Influences on Auditory Scene Analysis:Evidence from Event-Related Brain Potentials[J]. Journal of Experimental Psychology Human Perception and Performance,2001,27(5):1072-1089.
[5] Alain C. Breakingthe Wave:Effects of Attention and Learning on Concurrent Sound Perception[J]. Hearing Research,2007,229(1-2):225-236.
[6] Roeber U,Berti S,Muller D,et al. Disentangling Effects of Auditory Distraction and of Stimulus-Response Sequence[J]. Psychophysio-logy,2009,46(2):425-438.
[7] Raggi A,Iannaccone S,Cappa S F. Event-Related Brain Potentials in Amyotrophiclateral Sclerosis:A Review of the International Literature[J]. Amyotrophic Lateral Sclerosis,2010,11(1-2):16-26.
[8] Hettich D T,Bolinger E,Matuz T,et al. EEG Responses to Auditory Stimuli for Automatic Affect Recognition[J]. Front Neurosis,2016,10(244):244.
[9] 彭贤,符秋养,王涛. 听觉诱发中潜伏期反应研究进展[J]. 听力学及言语疾病杂志,2016,24(1):100-104.
[10] Kuhnle G E,Hornuss C,Lenk M,et al. Impact of Propofol on Mid-Latency Auditory-Evoked Potentials in Children[J]. British Journal of Anaesthesia,2013,110(6):1001-1009.
[11] Prakash H,Abraham A,Rajashekar B,et al. The Effect of Intensity on the Speech Evoked Auditory Late Latency Response in Normal Hearing Individuals[J]. International Advanced Otology,2016,12(1):67-71.
[12] Guo J,Gao S,Hong B. An Auditory Brain-Computer Interface Using Active Mental Response[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering,2010,18(3):230-235.
[13] 郭婧.基于听觉注意的认知脑-机接口研究[D]. 北京:清华大学医学院,2010.
[14] Suzuki T,Hirabayashi M,Kobayashi K. Effects of Analog and Digital Filtering on Auditory Middle Latency Responses in Adults And Young Children[J]. Annalsof Otology Rhinology and Laryngology,1984,93(93):267-70.
[15] Zhang R,Mcallister G,Scotney B,et al. Combining Wavelet Analysis and Bayesian Networks for the Classification of Auditory Brainstem Response[J]. IEEE Transactions on Information Technology in Biomedicine,2006,10(3):458-467.
[16] 于亚萍,孙立宁,张峰峰. 基于小波变换的多特征融合sEMG模式识别[J]. 传感技术学报,2016,29(4):512-518.
[17] 李兴启,王秋菊. 听觉诱发反应及应用[M]. 北京:人民军医出版社,2007:163-167.
[18] 朱大铭. 神经网络结构学习算法及问题求解研究[D]. 北京:中国科学院计算技术研究所,1999.
ExtractionandRecognitionofAuditoryAttentionbyEvokedPotentialsintheMiddleLatencyPeriod*
JIANGBencong1,WANGLi1,ZOUCairong1,HUXiao1*,WANGJiadong1,LIANGRuiyu2
(1.School of Mechanical and Electric Engineering,Guangzhou University,Guangzhou 510006,China;2.Schoolof Information Science and Engineering,Southeast University,Nanjing 210096,China)
In view of some problems that exist in the present research on auditory attention paradigm,for example,
using a large number of electrodes,longer time needs to evoke P3 potentials and so on. An experimental paradigm based on the middle latency response(MLR)is designed from auditory evoked. At first,the MLRs are respectively induced in two states of attention and non-attention;and then the energy,variance,area,AR model coefficient and waveform peak value of MLRs are respectively calculated. Finally,the features are classified by the pattern recognition algorithm. The experimental results show that the average accuracy of artificial neural network(ANN)is 77.2% from 8 subjects,which means that the paradigm can achieve satisfactory results.
auditory evoked;auditory attention;middle latency response;AR model coefficient;pattern recognition;artificial neural network
10.3969/j.issn.1005-9490.2017.06.040
项目来源:广州市信息处理与传输重点实验室项目(201605030014);广州市市属高校科研项目(1201630210);广州大学科技创新培育基金项目
2016-10-21修改日期2016-12-13
R339.16
A
1005-9490(2017)06-1539-06
蒋本聪(1992-),男,汉族,湖南郴州人,广州大学机械与电气工程学院硕士研究生,主要研究方向为脑电信号处理,695397975@qq.com;
王力(1986-),男,汉族,湖南耒阳人,广州大学机械与电气工程学院讲师,主要研究方向为脑电信号处理,wangli@gzhu.edu.cn;
邹采荣(1963-),男,汉族,江苏昆山人,广州大学机械与电气工程学院教授,博士生导师,主要研究方向为声信号与语音信号处理,cr_zou@gzhu.edu.cn;
胡晓(1969-),男,汉族,湖南郴州人,广州大学机械与电气工程学院教授,硕士研究生导师,主要研究方向为智能信号处理,人脸检测和识别,医学信号处理,huxiao@gzhu.edu.cn;
汪家冬(1990-),男,汉族,安徽淮南人,广州大学机械与电气工程学院硕士研究生,主要研究方向为数字语音信号处理,1304943689@qq.com;
梁瑞宇(1978-),男,汉族,江苏徐州人,东南大学信息科学与工程学院博士,硕士研究生导师,主要研究方向为语音信号处理,lly1711@163.com。