陈煦海 杨晓虹 杨玉芳
(1陕西省行为与认知心理学重点实验室,陕西师范大学心理学院,西安 710062)(2脑与认知国家重点实验室,中国科学院心理研究所,北京 100101)
口头语言表现情绪主要有两种手段:“说什么”和“怎么说”。前者指语义传达的情绪内容;后者则指依靠语音的音高、语速、响度和音质等声学特征的不同组合所表达的情绪,称作语音情绪(Banse&Scherer,1996)。在交流中,人们更多依靠语音来判断他人的情绪(Dietrich,Ackermann,Szameitat,&Alter,2006)。语音情绪变化是生活中常见的现象,也是凸显情绪的重要手段(Paulmann,Jessen,&Kotz,2012;Paulmann,Pell,&Kotz,2008),人脑能敏感地识别语音情绪的变化并有效加工,但人们对语音情绪变化加工的神经生理机制还知之甚少。因此,本研究拟运用脑电技术探索语音情绪变化加工的神经生理机制。
尽管语音情绪变化加工机制的研究还不多见,但听觉刺激变化加工的研究却颇为丰富。听觉刺激在时间维度延伸,导致预期式加工是听觉加工的重要特征(Winkler,Denham,&Nelken,2009),即听者会根据已听到的刺激对即将出现的刺激形成预期,并将后来的刺激与预期相对比,二者相符则顺利整合,不相符则造成期待违反,形成变化检测与再整合的过程。对这一机制研究最多的是oddball范式,大概率呈现标准刺激让被试提取规则形成预期,小概率呈现偏差刺激与预期违反。大量研究发现人脑能够迅速检测这种听觉刺激的变化,在自动加工时偏差刺激诱发MMN(Näätänen,2007),主动加工时诱发N2/P3复合成分(Polich,2007;Polich&Kok,1995)。连续性声音刺激的变化加工也表现出相似的机制。如连续语流中,后续语音与前文句法违反诱发ELAN和P600(Hahne&Jescheniak,2001),而音韵违反诱发PMN(D'Arcy,Connolly,Service,Hawco,&Houlihan,2004;Newman,Connolly,&Mcivor,2003)。音乐旋律中某个音符的音高违反或句法违反也可诱发早期负波ERAN和晚正成分P300(Magne,Schon,&Besson,2006;Schön,Magne,&Besson,2004)。与语言和音乐相似,语音情绪也是依靠声音为载体,在时间维度展开,并且拥有某种固有的发展趋势,人们可能根据已听刺激对即将听到的刺激形成预期,表现出预期加工的特点。
已有一些研究运用语音情绪变化来考察语音情绪加工的时间进程(江爱世等,2009)。一些研究沿用oddball范式,分别用携带不同情绪的声音为标准刺激和偏差刺激,结果发现语音情绪偏差刺激在自动加工中诱发MMN,但峰值潜伏期不一(Bostanov&Kotchoubey,2004;Goydke,Altenmüler,Möller,&Mönte,2004;Thönnessen et al.,2010),而在主动加工时则诱发P300(Thierry&Roberts,2007;Wambacq,Shea-Miller,&Abubakr,2004)。另一些研究则用语句情绪韵律为材料,Kotz和Paulmann(2007)在语句中交互拼接构建情绪变化,形成语音情绪发展模式的期待违反,发现语句中情绪韵律的变化诱发潜伏期约为350 ms的正成分—— 韵律期待违反正波(prosodic expectancy positivity,PEP)。他们随后的研究证明该成分不受情绪类别、注意资源投入程度的影响(Paulmann et al.,2012;Paulmann&Kotz,2008),且在基底节受损的患者中仍然存在(Paulmann et al.,2008)。最近Chen 等人(2011)发现人脑对情绪韵律期待违反的识别可能更早,表现为早期负波类N200,然后是反映对违反再加工并整合的正成分PEP及LPC,且这些成分会受任务要求和违反特征的调制。显然,这些研究以情绪变化为手段对语音情绪加工进行了很好的探索,但其焦点在语音情绪,未把语音情绪变化本身作为一种现象予以关注。
上述有关声音变化的电生理研究都仅从时域考察变化诱发的事件相关电位(ERP)并推测其背后的认知机制。然而,在锁时又锁相的ERP数据之外,对脑电(EEG)数据进行频域的神经振荡分析(event related oscillations,ERO),具体离析各个频段能量变化(事件相关摄动,event related spectral power,ERSP)和相位变化特征(试次间相位相干系数,inter-trial coherence,ITC),能从神经活动的层面说明语音情绪加工的神经生理机制(Delorme&Makeig,2004)。已有研究证明不同频段的神经振荡往往和不同的认知活动相关,一般认为低频振荡(theta和alpha频段)和大范围的神经活动相关,而高频(如gamma频段)振荡和局部的神经活动相关(Başar,Başar-Eroglu,Karakaş,&Schürmann,2001;Pfurtscheller&da Silva,1999)。在与本研究内容相关的一些研究中,Fuentemilla等人(2008)发现前中部分布听觉MMN主要源于偏差刺激theta能量的增加以及试次间相位同步性增加,而乳突记录到的颞区MMN则只源于试次间相位同步性增加。另外,Yordanova等(1998)则发现theta能量增加是时域P300成分的主要贡献者。事实上,对奖赏预期的违反也导致theta频段的能量增强(Cavanagh,Frank,Klein,&Allen,2010;Tzur&Berger,2007),且theta能量增加值和期待违反的凸显性有线性关系(Chen,Yang,Gan,&Yang,2012;Tzur&Berger,2007)。因此,基于如上一些神经振荡理论和研究事实,可以预期,从神经振荡特征的角度深入分析语音情绪变化的脑电数据可能进一步揭示语音情绪加工的神经生理机制。
综上所述,当前有关语音情绪的研究仅以变化为手段来考察语音情绪的加工特点,未曾把语音情绪变化本身作为一个现象来研究,而且已有的电生理研究都只做时域ERP分析,没有揭示语音情绪变化加工在频域的神经振荡机制。因此,本研究拟将语音情绪变化作为关注的焦点,记录被试加工语音情绪变化的脑电,从时域和频域挖掘脑电数据,进一步揭示语音情绪加工的神经生理机制。本研究沿用交互拼接的方法(Chen et al.,2011;Kotz&Paulmann,2007)构建语句情绪韵律的变化,同时将凸显程度不同的两种变化模式(中性到愤怒,愤怒到中性)纳入考察范围,然后让被试完成与情绪变化无关的语音判断任务,以期回答如下问题:情绪无关任务条件下语音情绪变化加工时域和频域的神经生理机制是怎样的?语音情绪的变化模式对这些机制有什么影响?本研究预期在完成情绪无关任务时,语音情绪变化仍能诱发反应期待违反与整合的ERP成分,且受变化模式的调控;另外,这种变化加工可能和theta能量的增加以及相位同步性变化相关。
在校大学生15名,其中女生7名,年龄在20至26岁之间,平均21.45岁。所有被试均为汉语母语的右利手者,身体健康,没有情感或精神障碍。所有被试均自愿参加实验并获得适量报酬,正式实验前签署知情同意书。其中一名被试的数据因为伪迹太多而剔除。
t
(49)=28.12,p
<0.001),强度更强(70 dB vs.63 dB,t
(49)=23.18,p
<0.001),语速更快(206 ms vs.216 ms/字,t
(49)=5.43,p
<0.01),见图1B。另请8名被试就所有语句韵律情绪进行归类,被试区分两种韵律的正确率接近100%。用交互拼接法将原始材料制作成包含情绪变化的新语句:中性—愤怒、愤怒—中性,拼接模式见图1-A。为了避免被试就发生拼接的位置形成固定预期,分别在第五和第九个音节上拼接。共200个语句(两种包含情绪变化的语句和两种没有情绪变化的控制语句)作为刺激材料呈现给被试。所有材料随机分为5个block,每个block 40句,含“aa”,“nn”,“an”,“na”各10 句,以等概率、伪随机顺序用耳机呈现给被试,确保同一类别刺激不会连续呈现3次。实验在隔音的小房间进行,被试端坐在电脑屏幕前115 cm。先呈现注视点“+”300 ms,接着注视点变成红色,耳机呈现语句韵律,听觉呈现完毕即呈现问号要求被试判断整个句子声音大小是否有变化,被试双手按键盘上的“F、J”反应,F、J键代表的含义和反应手在被试间平衡。在整个句子呈现过程中,要求被试盯着注视点并减少眨眼和头动。判断完毕后间隔1500 ms进入下一个trial。在正式实验前给被试数次练习以熟悉实验程序。
用NeuroScan公司放大器及64导电极帽记录脑电信号Electroencephalogram(EEG),采样率500 Hz,带宽0.05至100 Hz,左侧乳突在线参考,离线分析时从各导联的脑电数据中减去双侧乳突的平均数作再参考。垂直眼电通过左眼上下电极记录,水平眼电通过两只眼睛外周约1 cm处电极记录。GND电极作为接地,所有电极的阻抗小于5千欧。
图1 实验材料示意图。A:例句及拼接。红色和绿色分别代表愤怒和中性情绪的句子,在第五和第九个音节上对两种韵律进行拼接,形成具有情绪变化的韵律“an”和“na”。B:语句韵律拼接后的声学特征,中性到愤怒变化的韵律在拼接点处音强、基频增高,语速增快,而愤怒到中性韵律声学特征相反。(缩写:aa——全愤怒;an—— 愤怒-中性;nn——全中性;na——中性-愤怒;请下载电子版查看彩图,下同。)
首先用NeuroScan 4.3软件对数据进行预处理,包括去除眼电,去除极端伪迹数据。然后截取关键点(拼接处)之前1000 ms和之后2000 ms的数据存为EEG数据,剔除判断不正确以及伪迹污染严重的trial(电位超过±90 μV),每个条件平均约40个trial进入最终的时域ERP分析和频域ERSP和ITC分析。ERP分析中,首先以句子呈现前200 ms做基线校正,然后以违反点前200 ms为基线再做矫正,再分条件平均得到各个被试四种韵律诱发的ERP,导出关键时间窗的数据进行统计分析,平均所有被试各条件下的ERP得到总平均图,本文只呈现关键点前200 ms到关键点后1000 ms的数据。基于对总平均图的观察和初步分析,选取如下时间窗作为我们的兴趣窗口:130~230 ms(N2),250~450 ms(早正成分)和450~900 ms(晚正成分LPC)。
运用EEGLAB工具箱对EEG数据进行ERO分析。该分析用正弦小波与时域数据卷积,随着频率升高小波周期也升高(Delorme&Makeig,2004),先进行单试次分析,然后再进行多个试次的平均,最终获得各个条件下的ERSP和ITC。然后以关键点前200 ms为基线对关键点后的ERSP和ITC进行校正。本实验分段的数据包括关键点之前1000 ms和之后2000 ms,保证感兴趣的时间段(-200至1000 ms)在频域处理后不被遗失。为了简明起见,ERSP和ITC数据都只选择Cz点作频谱图,有差异的频段和时程内的全脑数据做地形分布图,见图5。
然后以变化(CHANGE:有情绪变化 vs.无情绪变化)和关键韵律类型TYPE:愤怒vs.中性)为被试内因素对正确率数据做重复测量方差分析。以CHANGE、TYPE和电极点(ELECTRODE:F5,FZ,F6,C5,CZ,C6,P5,PZ,P6,前中后和左中右各取一个电极)为被试内因素对ERP数据做重复测量方差分析。ERSP和ITC数据先用EEGLAB工具箱导出统计差异图,找到有显著差异的频段和时间窗,然后导出该范围的数据做统计分析(因素设置跟ERP数据相同)。当自由度分子大于1时,F
值都进行Greenhouse-Geisser校正,P
值进行 Bonferroni校正。F
(1,13)=0.02,p
=0.90;TYPE:F
(1,13)=0.71,p
=0.42;CHANGE×TYPE:F
(1,13)=2.23,p
=0.16]。由于实验中被试在语句呈现完成后再做反应,反应时数据有不同延迟,故未作分析。图2 对四种韵律判断的正确率(M±SE)。
t
(13)=5.02,p
<0.001。在该负成分之后,包含情绪变化的韵律诱发了更大波幅的正飘移。下文分时间窗做具体分析。F
(8,104)=4.08,p
<0.05,η
=0.24]和CHANGE 效应[F
(1,13)=9.51,p
<0.01,η
=0.42],其他主效应和交互作用均不显著。两两比较表明,有情绪变化的韵律诱发N2波幅更大,右中前部F6、C6电极N2波幅相对较大,而后部电极P5、P6、PZ的N2波幅相对较小(见图3B地形图)。F
(8,104)=5.20,p
<0.01,η
=0.29,事后比较发现中部电极的ERP相对双侧电极显著更正(ps
<0.01)。还发现显著的TYPE主效应[F
(1,13)=14.19,p
<0.01,η
=0.52]和CHANGE 主效应[F
(1,13)=6.96,p
<0.05,η
=0.35]。另外CHANGE与TYPE有显著的交互作用,F
(1,13)=28.55,p
<0.001,η
=0.69。简单效应分析发现从中性变化到愤怒的韵律相对全无变化愤怒韵律诱发显著更大的正成分,F
(1,13)=21.57,p
<0.001;而相对无转换的中性韵律,“愤怒—中性”韵律在则没有诱发显著更大的正成分,F
(1,13)=0.08,p
=0.778(见图3 ERP波形图和地形图)。F
(1,104)=16.91,p
<0.001,η
=0.57]、CHANGE 主效应[F
(1,13)=7.50,p
<0.05,η
=0.37]以及两因素的交互作用[F
(8,104)=4.80,p
<0.01,η
=0.27]。简单效应分析表明变化效应出现在中部和后部电极[C5:F
(1,13)=5.07,p
<0.05,C6:F
(1,13)=3.61,p
=0.08,CZ:F
(1,13)=9.05,p
<0.01,P5:F
(1,13)=11.70,p
<0.01,P6:F
(1,13)=10.40,p
<0.01,PZ:F
(1,13)=22.92,p
<0.001],且后中部电极PZ的幅度值最大(见图3 ERP波形图和地形图)。图3 四种韵律诱发的ERP。A:各个条件在中线3个代表性电极点上的ERPs;B:四种韵律诱发ERP在兴趣时间窗的地形图。
如图4可见,包含情绪变化的韵律(na和an)相对于无变化的韵律(aa和nn)在theta和beta频段的能量都有显著的变化。下文分频率段做具体分析。
Theta频段(4~6 Hz)ERSP在200到600 ms较长时程内出现差异,重复测量方差分析表明CHANGE主效应显著,F
(1,13)=11.58,p
<0.001,η
=0.27,其他条件主效应及交互作用的均不显著,说明情绪变化相对于无情绪变化的韵律都会引起theta的能量的增加。Theta频段(4~6 Hz)ITC在0到500 ms时程内出现差异,重复测量方差分析表明CHANGE主效应显著,F
(1,13)=7.84,p
<0.05,η
=0.38,说明情绪变化相对于无情绪变化的韵律都会引起theta频段试次间相位一致性性增高。其他条件主效应及交互作用的均不显著。Beta频段差异的频率和时程有较大差别,将两种变化模式分别分析。从中性到愤怒的韵律选择CZ和C6两个电极点,取23到25 Hz在500到700 ms内能量做重复测量方差分析,发现有变化的韵律能量显著降低,F
(13)=7.26,p
<0.05,η
=0.36。而愤怒到中性的韵律相对无情绪变化的中性韵律beta能量降低主要出现在20~24 Hz的450到700 ms时程内,选择9个电极做方差分析发现CHANGE主效应边缘性显著,F
(13)=4.41,p
=0.056,η
=0.25,进一步分析这种降低主要出现C3、CZ和P5几个电极。愤怒变化到中性的韵律相对于无情绪变化的中性韵律Beta频段ITC差异出现在19~21 Hz,300到600 ms的时程内。重复测量方差分析表明CHANGE主效应显著,F
(1,13)=8.65,p
<0.001,η
=0.40,说明从愤怒到中性变化的韵律在该频段试次相干性增加。而中性到愤怒相对于无变化的愤怒韵律在C3点24~26Hz频段内,600至800 ms的时程内ITC显著增加t
(13)=2.38,p
<0.05。图4 四种韵律诱发的ERSP。方形图为4种韵律所对应的ERSP,竖虚线对应于韵律中的拼接点,红色代表能量增加,蓝色代表能量降低,单位为分贝。方形图右侧为有、无情绪变化韵律之间有显著差异的频段和时程所对应的能量分布地形图。
本研究采用交互拼接技术构建语音情绪变化,记录被试不关注情绪时语音情绪变化诱发的脑电以考查语音情绪变化加工的神经生理机制,结果发现语音情绪变化诱发反映变化检测与整合的N2/P3复合成分,同时4~6 Hz的theta能量显著增加,ITC也显著提高,而beta频段能量在有所下降。这些神经生理特征受情绪变化模式的调节,激烈的情绪变化检测时间早,theta能量和相位变化更强烈。下文对上述结果及意义分别进行讨论。
图5 四种韵律诱发的ITC。方形图为4种韵律所对应的ITC,竖虚线对应于韵律中的拼接点,红色代表试次间相关系数增大,绿色代表降低。方形图右侧为有、无情绪变化韵律之间有显著差异的频段和时程所对应的ITC分布地形图。
当被试不关注情绪变化,仅就情绪韵律的声学特征完成任务时,语音情绪的变化仍然诱发早期负波加晚正波的复合成分。而且该复合成分的特征受到变化模式的调节,变化越激烈早期负波的潜伏期更早,前中部正成分(类P3a)越明显。这些结果跟Chen等人(2011;2012)的研究一致,跟Kotz等人(Kotz&Paulmann,2007;Paulmann et al.,2012)的系列研究发现也有相似性,即情绪韵律变化诱发PEP。但是,Kotz等人的研究仅用了中性到情绪性的变化,情绪凸显性都较高,造成正成分十分明显,而且他们的研究也只报告了该正成分。问题在于,语音情绪变化的检测不可能需要300ms以后才被人脑所检测到,因为这跟oddball范式研究的结果相左(Goydke et al.,2004;Thönnessen et al.,2010)。因此,结合Chen等人(2011;2012)的研究,本研究认为语音情绪变化诱发的早期负成分(从产生机理、潜伏期和地形图分布来看,类似于oddball范式中的N200)反应了人脑对语音情绪变化的检测和对新异刺激的注意。该负成分之后的正成分,包括中性到愤怒条件下的稍早的前中部分布正波以及两种转换中均存在的中后部分布的晚正成分LPC,可能反应了对语音情绪变化的再加工以及重新整合。
事实上,这一推断跟语音和音乐的研究结果相一致。如语句中句法的违反会诱发早期成分ELAN加晚期正成分P600的复合波,Friederici等人(Friederici,2002)曾提出这种组合分别反应了句法违反的检测和再整合。另外,音乐旋律中个别音符音高的违反形成旋律句法的违反也有类似的发现(Koelsch,2010;Schön et al.,2004)。本文关注的语音情绪也是负载于声音载体之上,表现一种情绪的韵律就有其固有的发展趋势,让听者逐步构建预期,一旦语音情绪发生变化,大脑将迅速检测到该变化并进行再加工。
这种变化检测与整合的现象可能具有进化论层面的意义。事实上,语音情绪是比语言更为原始的一种交流信号,在人类和其他物种都广泛使用。生活中不难发现,人和其他物种都能迅速检测交际对方语音情绪的变化并采用相应的对策。这种推测得到本研究所观察到另一现象的支持,即语音情绪变化的激烈程度影响情绪变化引起的ERP成分的特征。当从中性变成愤怒时,N200潜伏期更短,前中部分布的正成分更明显,而反向变化,情绪变化不够激烈时,则N200潜伏期稍长,只有反映后期整合的LPC。这再次说明语音情绪变化的加工是一个变化检测到再整合的过程,变化的模式具有调节作用。
时域分析明晰了语音情绪变化加工是变化检测与再整合的过程,且人脑对此十分敏感。但人脑是靠何种机制迅速检测这种变化并重新整合?本研究通过对EEG数据的ERSP和ITC分析,对这一问题进行探讨。结果表明,语音情绪变化导致了theta频段(4~6 Hz)ERSP的增加和ITC的增加,theta能量提升发生在变化约200 ms之后,而变化发生之后立即出现ITC的提升。此外语音情绪的变化导致了beta(na:23~25 Hz;an:20~24 Hz)ERSP的降低,还导致了beta(na:24~26 Hz;an:19~21 Hz)频段ITC增加。
Theta能量和相位变化的结果跟前人研究结果一致。Fuentemilla等人(2008)曾经考察了听觉MMN的神经生理源,发现前中部分布的MMN主要源于刺激变化引发的theta能量和试次间相位同步性的增加。Yordanova等(1998)发现theta能量增加是时域P300成分的主要贡献者。另外,其他一些有关规则违反的研究也发现期待违反引起theta频段的能量增强,能量增幅与违反强度之间存在线性关系(Cavanagh et al.,2010;Tzur&Berger,2007)。将本研究关注的语音情绪变化置于声音变化研究的大背景之下,可以很容易找到本研究与前人研究的相似性—— 都依靠一些刺激(大概率刺激或连续的同类刺激)来提取规则并形成对即将到来刺激的期待,而随后刺激违反原有规则发展,构成了期待违反。因此,基于本研究的结果和已有的研究事实,可以推知theta能量的变化和相位特征的改变是语音情绪变化快速检测并重新整合最主要的神经生理源。
除了theta能量和相位的变化之外,beta频段的能量和相位在语音情绪变化中也发生了显著的变化。Beta能量(15~25 Hz)活动被认为和动作控制相关(Pfurtscheller&Lopes da Silva,1999)。而言语相关研究中,beta能量的功能还没有一致说法,Bastiaansen等人认为16~21 Hz beta能量的降低可能反应了视觉输入的感知加工(Bastiaansen,van der Linden,Ter Keurs,Dijkstra,&Hagoort,2005),而另有研究则发现13~30 Hz能量下降和短语的结构违反相关,认为该频段能量降低反映了语法规则违反的加工(Davidson&Indefrey,2007)。最近有研究发现与期待不符的韵律结构也导致beta(20~24 Hz)能量的降低,可能反映了对这种反常韵律结构的再加工(Luo,Zhang,Feng,&Zhou,2010)。本研究中,两种含有情绪变化的韵律都导致beta能量的显著降低,而ITC值升高,出现的时间在较晚的400到500 ms之后。这和前人研究结果一致,可能反应了对韵律情绪期待违反的再加工。
和时域的结果相似,语音情绪变化的模式对ERSP和ITC都有影响,不过这种影响并不显著,仅表现了一种趋势。这和Chen等人(2012)发现的“情绪变化越激烈,其诱发的能量就越强烈”不完全一致,可能反应内隐加工与外显加工的差异。beta频段能量和相位特征在两种情绪变化中没有显著差异。这可能和该频段主要和对情绪变化的再加工有关,因为在两种变化模式下,都涉及到对韵律情绪的再加工和重新整合。
传统的脑电研究多从时域分析数据,对同质试次叠加后得到ERP,然后根据ERP出现差异的成分推测其后的认知加工过程。ERP的长处在于其高时间精度,对于探讨认知过程的时间进程有无可取代的优势,非常适合回答“when”的问题。但是,认知活动的神经生理基础在于神经细胞的电活动,神经细胞群的电位能量变化以及相位变化可能才是认知活动的真正基础(Klimesch,Sauseng,Hanslmayr,Gruber,&Freunberger,2007;Lopes da Silva,2006)。ERP只能就锁时又锁相的数据进行分析,会丢掉不同频段能量变化和相位变化的信息,因而无从回答认知活动是何以实现(how)的问题。如本研究中,若只做ERP分析,可知语音情绪变化诱发N2/P3复合成分,进而推知语音情绪变化加工是变化检测与整合的过程,但无法回答该过程在神经层面是如何实现的。
神经振荡分析避免直接的叠加平均,而是对单试次的数据进行小波分析或傅里叶分析,然后再进行多个试次的平均(Delorme&Makeig,2004),最终获得事件相关的能量变化(ERSP)和相位变化(ITC),能更好地从神经振荡层面回答认知活动何以实现的问题。如本研究中,语音情绪变化的检测与整合就是因为神经细胞theta频段能量和ITC增高,beta能量降低与ITC增加得以实现的,这就更好地回答了语音情绪变化加工的神经生理基础问题。近年来,从神经振荡层面考察认知活动何以实现的研究越来越多。除了以病人或动物为被试做颅内记录,精细地分析单个神经细胞或神经细胞群的能量及相位变化外,还以正常人为被试,运用脑电图和脑磁图记录数据做神经振荡分析(Luo,Liu,&Poeppel,2010;Mu&Han,2010),以解读认知活动的神经生理基础,有力地促进了认知神经科学的发展。
本研究从时域和频域考察语音情绪变化加工的神经生理机制,提出语音情绪变化加工是变化检测与再加工整合的过程,该过程主要依靠theta频段能量和相位变化得以实现。但本研究仍存在一些局限。首先,本研究仅考察中性与愤怒之间情绪变化加工的特点,没有涉及积极情绪以及不同情绪之间的转换,因而将本研究的结论推及所有语音情绪变化加工时需要谨慎对待。其次,由于实验时间限制,本研究仅用了一个录音人的语音作为实验材料,也可能限制了本研究的外部效度。另外,本研究虽然尝试回答了语音情绪变化加工神经生理基础中“when”和“how”的问题,但由于脑电研究空间分辨率较低,尚不能很好回答“where”的问题,即这种变化加工的脑区及大脑加工网络。
这些局限都可能是未来研究的方向。首先可以扩展研究的情绪和刺激的多样性,并且逐步引入更具有生态效度的刺激,提高研究的生态效度。其次,未来的研究还应当进一步推进神经振荡分析,对不同脑区之间的相干等特性进行深入分析。最后,也可以引入fMRI等研究手段,对语音情绪变化加工的脑区和网络进行深入探讨,进一步揭示语音情绪变化加工的神经生理机制。
语音情绪变化的加工是变化检测与再整合的过程,反映为情绪变化诱发的N2/P3复合成分以及theta和beta频段能量和试次间相位同步性的变化。语音情绪变化加工是通过theta频段能量和试次间相位同步性的增加,beta频段能量的降低和相位一致性增加得以实现的。情绪变化的模式会调控情绪变化加工神经生理特点,变化越激烈,诱发N2/P3复合成分潜伏期越早,theta能量和相位改变也相对强烈。
Banse,R.,&Scherer,K.(1996).Acoustic profiles in vocal emotion expression.Journal of Personality and Social Psychology,70
(3),614–636.Başar,E.,Başar-Eroglu,C.,Karakaş,S.,&Schürmann,M.(2001).Gamma,alpha,delta,and theta oscillations govern cognitive processes.International Journal of Psychophysiology,39
(2-3),241–248.Bastiaansen,M.C.,van der Linden,M.,Ter Keurs,M.,Dijkstra,T.,&Hagoort,P.(2005).Theta responses are involved in lexical-semantic retrievalduring language processing.JournlofCognitive Neuroscience,17
(3),530–541.Boersma,P.,&Weenink,D.(2006).Praat:Doing phonetics by computer[computer program](Version 4.2).Retrieved July 2006,from http://www.praat.org/.
Bostanov,V.,& Kotchoubey,B.(2004).Recognition of affective prosody:Continuous wavelet measures of eventrelated brain potentials to emotional exclamations.Psychophysiology,41
(2),259–268.Cavanagh,J.F.,Frank,M.J.,Klein,T.J.,&Allen,J.J.B.(2010).Frontal theta links prediction errors to behavioral adaptation in reinforcement learning.NeuroImage,49
(4),3198–3209.Chen,X.H.,Yang,J.F.,Gan,S.Z.,&Yang,Y.F.(2012).The contribution of sound intensity in vocal emotion perception:Behavioral and electrophysiological evidence.PLoS One,7
(1),e30278.Chen,X.H.,Zhao,L.,Jiang,A.S.,&Yang,Y.F.(2011).Event-related potential correlates of the expectancy violation effectduring emotionalprosody processing.Biological Psychology,86
(3),158–167.D'Arcy,R.,Connolly,J.,Service,E.,Hawco,C.,&Houlihan,M.(2004).Separating phonological and semantic processing in auditory sentence processing:A highresolution event-related brain potential study.Human Brain Mapping,22
(1),40–51.Davidson,D.J.,&Indefrey,P.(2007).An inverse relation between event-related and time-frequency violation responses in sentence processing.Brain Research,1158
,81–92.Delorme,A.,&Makeig,S.(2004).EEGLAB:An open source toolbox for analysis of single-trial EEG dynamics including independent component analysis.Journal of Neuroscience Methods,134
(1),9–21.Dietrich,S.,Ackermann,H.,Szameitat,D.,&Alter,K.(2006).Psychoacoustic studies on the processing of vocal interjections:How to disentangle lexical and prosodic information?Progress in Brain Research,156
,295.Friederici,A.D.(2002).Towards a neural basis of auditory sentence processing.Trends in Cognitive Sciences,6
(2),78–84.Fuentemilla,L.,Marco-Pallarés,J.,Münte,T.F.,&Grau,C.(2008).Theta EEG oscillatory activity and auditory change detection.Brain Research,1220
(1),93–101.Goydke,K.N.,Altenmüler,E.,Möller,J.,&Mönte,T.F.(2004).Changes in emotional tone and instrumental timbre are reflected by the mismatch negativity.Cognitive Brain Research,21
(3),351–359.Hahne,A.,&Jescheniak,J.D.(2001).What's left if the Jabberwock gets the semantics?An ERP investigation into semantic and syntactic processes during auditory sentence comprehension.Cognitive Brain Research,11
(2),199–212.Jiang,A.S.,Chen,X.H.,&Yang,Y.F.(2009).The time course of verbal emotional prosody processing.Advances in Psychological Science,17
(6),1109–1115.[江爱世,陈煦海,杨玉芳.(2009).言语情绪韵律加工的时间进程.心理科学进展,17
(6),1109–1115.]Klimesch,W.,Sauseng,P.,Hanslmayr,S.,Gruber,W.,&Freunberger,R.(2007).Event-related phase reorganization may explain evoked neural dynamics.Neuroscience and Biobehavioral Reviews,31
(7),1003–1016.Koelsch,S.(2010).Towards a neural basis of music-evoked emotions.Trends in Cognitive Sciences,14
(3),131–137.Kotz,S.A.,&Paulmann,S.(2007).When emotional prosody and semantics dance cheek to cheek:ERP evidence.Brain Research,1151
(2),107–118.Lopes da Silva,F.H.(2006).Event-related neural activities:What about phase?Progress in Brain Research,159
,3–17.Luo,H.,Liu,Z.,&Poeppel,D.(2010).Auditory cortex tracks both auditory and visual stimulus dynamics using lowfrequency neuronal phase modulation.PLoS Biology,8
(8),e1000445.Luo,Y.,Zhang,Y.,Feng,X.,&Zhou,X.(2010).EEG oscillations differentiate semantic and prosodic processes during sentence reading.Neuroscience,169
(2),154–164.
Magne,C.,Schon,D.,&Besson,M.(2006).Musician children detect pitch violations in both music and language better than nonmusician children: Behavioral and electrophysiological approaches.Journal of Cognitive Neuroscience,18
(2),199–211.Mu,Y.,&Han,S.H.(2010).Neural oscillations involved in self-referential processing.NeuroImage,53
(2),757–768.Näätänen,R.(2007).The mismatch negativity:Where is the big fish?Journal of Psychophysiology,21
(3-4),133–137.Newman,R.,Connolly,J.,Service,E.,&Mcivor,K.(2003).Influence of phonological expectations during a phoneme deletion task:Evidence from event-related brain potentials.Psychophysiology,40
(4),640–647.Paulmann,S.,Jessen,S.,&Kotz,S.A.(2012).It's special the way you say it:An ERP investigation on the temporal dynamics of two types of prosody.Neuropsychologia,50
(7),1609–1620.Paulmann,S.,Pell,M.D.,&Kotz,S.A.(2008).Functional contributions of the basal ganglia to emotional prosody:Evidence from ERPs.Brain Research,1217
(4),171–178.Paulmann,S.,&Kotz,S.A.(2008).An ERP investigation on the temporal dynamics of emotional prosody and emotional semantics in pseudo-and lexical-sentence context.Brain and Language,105
(1),59–69.Pfurtscheller,G.,&da Silva,F.H.L.(1999).Event-related EEG/MEG synchronization and desynchronization:Basic principles.Clinical Neurophysiology,110
(11),1842–1857.Polich,J.(2007).Updating P300:An integrative theory of P3a and P3b.Clinical Neurophysiology,118
(10),2128–2148.Polich,J.,& Kok,A.(1995).Cognitive and biological determinants of P300:An integrative review.Biological Psychology,41
(2),103–146.Schön,D.,Magne,C.,&Besson,M.(2004).The music of speech:Music training facilitates pitch processing in both music and language.Psychophysiology,41
(3),341–349.Thierry,G.,&Roberts,M.(2007).Event-related potential study of attention capture by affective sounds.Neuroreport,18
(3),245–248.Thönnessen,H.,Boers,F.,Dammers,J.,Chen,Y.H.,Norra,C.,&Mathiak,K.(2010).Early sensory encoding of affective prosody:Neuromagnetic tomography of emotional category changes.NeuroImage,50
(1),250–259.Tzur,G.,&Berger,A.(2007).When things look wrong:Theta activity in rule violation.Neuropsychologia,45
(13),3122–3126.Wambacq,I.J.A.,Shea-Miller,K.J.,&Abubakr,A.(2004).Non-voluntary and voluntary processing ofemotional prosody:An event-related potentials study.Neuroreport,15
(3),555–559.Winkler,I.,Denham,S.,&Nelken,I.(2009).Modeling the auditory scene:Predictive regularity representations and perceptual objects.Trends in Cognitive Sciences,13
(12),532–540Yordanova,J.,&Kolev,V.(1998).Single-sweep analysis of the theta frequency band during an auditory oddball task.Psychophysiology,35
(1),116–126.