新生儿情绪性语音加工的正性偏向
——来自事件相关电位的证据*

2019-04-11 01:48张丹丹孙国玉刘黎黎侯新琳陈玉明

心理学报 2019年4期

张丹丹陈钰敖翔孙国玉刘黎黎侯新琳陈玉明

(1深圳大学心理与社会学院; 2深圳市情绪与社会认知科学重点实验室(深圳大学), 深圳 518060)(3北京大学第一医院儿科, 北京 100034)

1 引言

语音(即人发出的说话声)是我们在日常生活中接触最为频繁的声音类型, 它不仅能传递语义信息,还能传达说话人的情绪状态(Belin, Fecteau, & Bédard,2004)。对语音中情绪信息的准确解码能让个体更好地适应社会环境(Decety & Howard, 2013; Frühholz &Grandjean, 2013; Hawk, Van Kleef, Fischer, & Van der Schalk, 2009)。在生长发育早期, 新生儿(年龄为0～28天)及婴儿(年龄为1～12月)的听觉系统比视觉系统发育得更加完善, 因此语音中的情绪比面孔等视觉载体所传达的情绪对婴儿的生存和发展更为重要(Grossmann, 2010; Vaish, Grossmann, & Woodward,2008; Vaish & Striano, 2004)。

语音中的情绪可由语义传达, 也可通过声音的频率、响度及节律等特征的有机组合而表达(Brük,Kreifelts, & Wildgruber, 2011)。考虑到小婴儿尤其是新生儿尚不具备语义理解的能力, 本文仅探讨对后者, 即对语音中情绪性韵律(emotional prosody)的加工。新生儿的听觉系统已完全具备了加工音调的能力(Háden et al., 2009), 其大脑的右侧(相比于左侧)颞上沟和颞中回会被语音中变化的韵律显著激活(Arimitsu et al., 2011; Telkemeyer et al., 2009),同时他们的额叶对音调不停变化的语音(相比于音调一层不变的语音)有特异性的激活, 这些结果提示此发育阶段的大脑已可区分语音中不同的韵律模式(Saito et al., 2007)。在情绪性语音(或旋律)加工方面, 虽然已有研究表明, 5月龄的婴儿在听音乐时能区分悲伤和高兴的旋律(Flom & Pick, 2012),5～7月龄的婴儿能分辨不同情绪种类的语音(Flom& Bahrick, 2007), 7月龄的婴儿能捕捉到面孔与语音中一致性的情绪信息(Grossmann, Striano, &Friederici, 2005), 但目前对人类刚出生的时期, 即新生儿阶段的研究还非常少。

人类是否在出生时即具有分辨不同种类情绪性语音的能力？如果有, 新生儿对情绪的加工是否存在正性或负性偏向？这第二个问题的提出基于以下事实：已知儿童、青少年、成年人对情绪信息的加工存在负性偏向(negativity bias), 即对负性信息投入更多的注意、评价、记忆等认知资源(Ito,Larsen, Smith, & Cacioppo, 1998), 但此情绪加工的负性偏向似乎并不是与生俱来的。Vaish等人(2008)总结了基于面孔和语音的研究发现, 婴儿在6～7月龄后才表现出明显地对负性情绪的加工偏向。例如,视觉通路的研究表明, 6月龄婴儿的大脑对恐惧(相比于中性)面孔注视的物体表现出更大的中央区事件相关负成分(Hoehl & Striano, 2010); 7月龄婴儿对恐惧(相比于高兴)面孔的注视时间更长, 中央区负成分的幅度更大(Peltola, Leppänen, Mäki, &Hietanen, 2009)。听觉通路的研究表明, 7月龄婴儿的大脑对愤怒(相比于高兴和中性)语音表现出右侧颞叶的显著激活(Grossmann, Oberecker, Koch, &Friederici, 2010), 且额区及中央区呈现出更大的事件相关负成分(Grossmann et al., 2005)。而支持早期正性加工偏向的研究显示, 5月龄婴儿在听赞赏性(相比于责备性)语音时表现出更多的微笑反应(Fernald, 1993); 4月龄婴儿对高兴面孔注视的时间明显长于愤怒和中性面孔(LaBarbera, Izard, Vietze,& Parisi, 1976), 同时他们对高兴(相比于恐惧)面孔注视的物体显示出更大的额区及中央区负成分(Rigato, Farroni, & Johnson, 2010)。然而, 上述针对正负性情绪加工偏向的研究仅考察了月龄大于3月的婴儿, 目前对小月龄婴儿特别是新生儿的相关报道还非常少。

据我们所知, 仅有三项研究直接比较了新生儿对正性和负性情绪材料的加工。较早期的一项行为学研究发现, 与愤怒、悲伤和中性的语音相比, 高兴语音能在新生儿被试中引起更长时间的睁眼反应(Mastropieri & Turkewitz, 1999)。更近期的一项行为学研究考察了新生儿对高兴和恐惧面孔的注视时间, 发现他们对高兴面孔的注视时间更长(Farroni,Menon, Rigato, & Johnson, 2007)。随后Cheng等人(Cheng, Lee, Chen, Wang, & Decety, 2012)利用odd-ball范式研究了新生儿对情绪性语音加工的事件相关电位(event related potential, ERP), 首次为新生儿区分语音情绪提供了神经学层面(电生理指标)的证据。该研究发现恐惧语音比高兴语音在额-中央区诱发出了更大的失匹配电位。由于该ERP成分在新生儿中表现为正幅度(Dehaene-Lambertz,2000; Friederici, Friedrich, & Weber, 2002; Leppänen et al., 2004; Ruusuvirta, Huotilainen, Fellman, &Näätänen, 2009; Winkler et al., 2003), 与通常在成人中发现的失匹配负波极性相反, 我们称该成分为“失匹配反应” (mismatch response, MMR; Cheng et al., 2012; Zhang et al., 2014)。显然地, 在新生儿阶段仅有的三项研究对情绪加工的正负性偏向给出了相反的答案：前两项行为学实验支持正性偏向而Cheng等人(2012)的实验支持负性偏向。

综上所述, 目前对新生儿情绪性语音加工的研究还非常缺乏, 且在“情绪加工的正负性偏向”问题上出现了看似矛盾的结论。新生儿被试是一组特殊的群体, 他们无法按照主试的意愿安静并专注地完成实验, 在实验中的运动伪迹等会对行为学及神经学指标产生较大的干扰, 因此对新生儿群体的研究往往需要累积较多的证据才能得出相对可靠的结论。本研究即以此为目的, 我们拟通过两项实验,利用ERP技术考察新生儿对高兴、愤怒、恐惧语音的大脑反应。参考Cheng等人(2012)的研究, 本实验采用odd-ball范式播放语音材料, 这是因为该范式比其他被动任务范式(例如两类刺激以等概率播放)在检测被试对不同刺激的分辨能力方面具有更高的敏感性(Ferrari, Bradley, Codispoti, & Lang,2010)。实验1采用经典的odd-ball范式, 在三个block中分别诱发三种情绪语音相应的ERP波形,通过直接比较三种条件下的MMR幅度考察新生儿大脑对正负性情绪的敏感性。实验2采用偏差和标准刺激反转的odd-ball范式, 一方面重复验证实验1的结果, 一方面排除实验1中情绪间MMR的差异来源于情绪语音物理属性差异的可能性。在本次研究中, 我们采用了与Cheng等人(2012)相同的实验材料。根据Cheng等人(2012)的结果, 本文假设：人类出生后即具有分辨正负情绪性语音的能力, 并且可能对负性情绪存在一定的加工偏向, 即愤怒和(或)恐惧语音比高兴语音能诱发更大幅度的MMR。

2 方法

2.1 被试

实验1和实验2分别招募了25名和35名刚出生(一周内)的健康足月新生儿。两个实验中分别有7名和6名被试由于哭闹(脑电伪迹过大)未能完成数据采集。因此实验1的有效被试为18名(9男9女),胎龄38.9 ± 0.9周, 年龄3.2 ± 1.3天; 实验2的有效被试为29名(15男14女), 胎龄38.7 ± 1.0周, 年龄2.8 ± 1.2天。被试的纳入标准如下：1)出生体重符合胎龄; 2)实验前及实验过程中无异常临床表现; 3)实验前至少48小时未使用镇静剂; 4)耳声发射筛查未发现听力障碍(OAE, ILO88 Dpi, Otodynamics Ltd,Hatfield, UK); 5)生后1 min及5 min的Apgar评分不低于9分; 6) 6月龄时神经系统随访未发现异常。排除标准如下：1)缺氧缺血性脑病; 2)脑室出血或白质损伤(超声检查); 3)重度先天畸形; 4)中枢神经系统感染; 5)代谢疾病; 6)惊厥或癫痫(临床表现)。

新生儿家属被告知了研究的目的和内容, 实验前均签署了知情同意书。实验方案获得了北京大学医学伦理委员会的批准。

2.2 实验材料

本研究采用了Cheng等(2012)的情绪语音材料,该材料的有效性已经多项研究得到了证实(e.g., Fan,Hsu, & Cheng, 2013; Hung, Ahveninen, & Cheng, 2013;Zhang et al., 2014)。实验中共使用四个双音节"dada"语音, 它们分别表现出愤怒、恐惧、高兴、中性四种情绪(图1)。简言之, 语音材料的制作流程如下：一名年轻成年女性重复发出四种情绪条件下的“dada”声各15次; 这60份语音材料经由120名成年人进行情绪类型及强度的5点评分, 分别选出愤怒、恐惧、高兴、中性评分最高的4份材料作为实验材料; 利用音频编辑软件(Adobe Audition, Adobe Systems Inc., San Jose, USA)将实验材料编辑为相同的长度及响度。

2.3 实验过程

实验在北京大学第一医院儿科病房进行, 病房背景噪声约30dB SPL (希玛噪音计AS804, 东莞万创电子制品有限公司, 东莞, 中国)。语音材料通过入耳式主动降噪耳机播放(IER-NW500N, Sony Corp.,Tokyo, Japan), 平均响度为50 dB SPL。

被试进食结束后10 min开始实验准备(安置脑电电极等), 准备过程少于10 min。之后保持实验室安静, 让被试进入自然睡眠。实验过程中采用“振幅整合脑电图”技术(Olympic CFM 6000, Natus, Seattle,USA)实时监测被试的睡眠-觉醒状态(图2A), 振幅整合脑电图的电极放置于CP3及CP4位置, 该睡眠监测仪与本研究考察的脑电信号系统独立。被试一旦进入“活动睡眠”状态(active sleep, 相当于成人的快速眼动睡眠期)并稳定3～5 min后开始播放语音材料。振幅整合脑电图技术及新生儿睡眠分期可参考本课题组前期发表的相关文献(Zhang et al., 2011;2014)。

实验采用oddball范式(Cheng et al., 2012; Zhang et al., 2014), 被试在睡眠中被动收听情绪性语音材料。按照情绪条件, 被动收听任务包含高兴、愤怒、恐惧3个block, block之间有10 s的间隙, block的顺序在被试间平衡。每个block含500个试次, 其中标准刺激400个试次, 偏差刺激100个试次。每两个偏差刺激之间至少含两个标准刺激。每条语音刺激长度为350 ms, 刺激间隔为450～850 ms (Hirasawa,Kurihara, & Konishi, 2002; Zhang et al., 2014), 即每个block的500个试次共用时500 s (8.3 min)。

实验1含一个session, 每名新生儿收听高兴、愤怒、恐惧各1个block, 情绪语音作为偏差刺激,中性语音作为标准刺激。实验2含两个session, 每个session包括高兴、愤怒、恐惧各1个block。在其中一个session中, 情绪语音作为偏差刺激, 中性语音作为标准刺激; 而在另一个session中偏差和标准刺激反转, 即情绪语音作为标准刺激, 中性语音作为偏差刺激。每名新生儿进行两个session的实验, session的顺序在被试间平衡。

2.4 数据采集及分析

脑电数据由HANDYEEG系统采集(Micromed,Treviso, Italy), 采样率256 Hz, 电极-头皮间的电阻低于5 kΩ。以左侧乳突为参考电极。为了与已有的研究一致(Cheng et al., 2012; Zhang et al., 2014),实验1考察F3, F4, C3, C4, P3, P4共6个电极点上的脑电信号(图2B)。实验2根据Cheng等人(2012)以及实验1的结果, 简化了数据采集操作, 仅考察F3和F4电极点上的脑电信号。

脑电离线转为双侧乳突平均参考, 之后分别经过滤波(0.01～30 Hz)、分段(-200～1000 ms)、基线矫正(-200～0 ms)、剔除幅度超过±150 μV的试次。本文采用平均幅度来衡量MMR, 时间窗为语音刺激开始呈现后的300～500 ms (Cheng et al., 2012; Zhang et al., 2014)。

统计分析采用SPSS Statistics 20.0 (IBM Corp.,Somers, USA)。描述性统计量表示为“均值±标准差”。显著性水平为p〈 0.05。多重比较采用Bonferroni矫正。采用Greenhouse-Geisser方法矫正自由度。对MMR的平均幅度进行双因素重复测量方差分析,两个被试内因素分别为语音情绪类型(愤怒、恐惧、高兴)和电极点(实验1：F3、F4、C3、C4、P3、P4;实验2：F3、F4)。

实验1在统计时并未使用传统的“差异波”, 而是基于原始波形直接比较三种情绪条件的MMR幅度(Cheng等人(2012)的研究亦如此)。这主要是因为与健康成人的ERP数据相比, 新生儿数据的信噪比非常低(主要由运动伪迹造成), 因而使用差异波会引入较明显的噪声(减法会将标准刺激条件的噪声引入所有的情绪条件)。

实验2采用了偏差和标准刺激反转的odd-ball范式, 需要计算由同一种情绪语音材料诱发的偏差刺激和标准刺激间的差异波(例如高兴条件下的差异波等于高兴作为偏差刺激的ERP减去高兴作为标准刺激的ERP)。考虑到差异波的低信噪比特性,实验2招募了比实验1更多的被试(18vs.29)以增强统计的显著性。

3 结果

3.1 实验1

情绪的主效应显著,F(2, 34)=5.27,p= 0.012,=0.235。高兴语音诱发的MMR (此处为绝对幅度; 3.49 ± 1.23 μV)显著大于愤怒语音诱发的MMR(2.90 ± 1.25 μV),p=0.010; 高兴和恐惧条件下的MMR无显著差异(3.12 ± 1.18 μV,p=0.138); 恐惧和愤怒条件下的MMR无显著差异(p=0.893)。电极点的主效应不显著,F(5, 85) 〈 1。情绪和电极点的交互作用显著,F(10, 170)=2.41,p= 0.025,=0.125 (图3)。简单效应分析表明, 在F3电极点上情绪效应显著(F(2, 34)=13.94,p〈 0.001)：高兴语音诱发的MMR (3.92 ± 1.17 μV)显著大于愤怒语音诱发的MMR (2.40 ± 1.33 μV),p〈 0.001; 高兴语音诱发的MMR略大于恐惧语音诱发的MMR (3.15 ±1.02 μV), 但仅边缘显著,p=0.059; 恐惧和愤怒条件下的MMR无显著差异,p=0.077。在F4电极点上情绪效应显著(F(2, 34)=21.12,p〈 0.001)：高兴语音诱发的MMR (3.88 ± 1.07 μV)显著大于愤怒(2.77 ± 0.90 μV,p〈 0.001)及恐惧(2.93 ± 1.07 μV,p=0.001)语音诱发的MMR; 恐惧和愤怒条件下的MMR无显著差异(p=1.000)。在其他四个电极点, 情绪效应不显著,F(2, 34) 〈 1。

3.2 实验2

本实验获得了三种情绪条件作为偏差刺激(图4A)和标准刺激的波形(图4B), 也计算出了同一种情绪语音诱发的偏差刺激与标准刺激之差的差异波(图4C)。当情绪语音作为偏差刺激时, 与实验1类似, 情绪的主效应显著,F(2, 56)=6.94,p= 0.002,=0.197 (图4A)。高兴语音诱发的MMR (此处为绝对幅度; 3.38 ± 1.14 μV)显著大于愤怒(2.23 ±1.56 μV,p=0.009)和恐惧语音诱发的MMR (2.37 ±1.37 μV,p=0.008); 恐惧和愤怒条件下的MMR无显著差异(p=1.000)。电极点的主效应不显著,F(1, 28) 〈1。当情绪语音作为标准刺激时, 情绪效应不显著(F(2, 56) 〈 1, 高兴= 1.45 ± 1.06 μV, 愤怒= 1.43 ±1.19 μV, 恐惧= 1.54 ± 1.15 μV; 图4B), 电极点的主效应不显著,F(1, 28) 〈 1。对差异波进行统计,发现情绪主效应显著,F(2, 56)=4.14,p= 0.021,=0.129 (图4C)。高兴语音诱发的差异波(1.97 ± 1.64 μV)大于愤怒(0.75 ± 1.72 μV,p=0.058; 边缘显著)和恐惧语音诱发的差异波(0.88 ± 1.81 μV,p=0.048); 恐惧和愤怒条件下的差异波无显著差异(p=1.000)。电极点的主效应不显著,F(1, 28) 〈 1。

4 讨论

本研究采用ERP技术, 通过两项实验考察了出生后一周以内的新生儿(平均年龄3天)在被动收听不同情绪种类(高兴、愤怒、恐惧)的韵律性语音时的大脑神经响应。实验发现新生儿大脑的额区(F3和F4电极点)可以区分情绪性语音的正负性,正性(高兴)语音诱发的MMR幅度明显大于负性(愤怒和恐惧)语音。这一结果首次从神经学层面(电生理指标)为新生儿情绪性语音加工的正性偏向提供了证据。

本文考察的MMR是新异刺激(较之于标准刺激)在新生儿大脑诱发的一个脑电正成分, 它相当于成人大脑额区(或额-中央区)产生的失匹配负波(mismatch negativity, MMN)。听觉MMN的峰值常出现在刺激呈现后150～250 ms, 新异刺激与标准刺激的波形相减即得到一个负波(Näätänen, Paavilainen,Rinne, & Alho, 2007)。MMN反映大脑对刺激间差异的自动化的探测能力, 由于其产生不需要注意的参与, 该成分被认为是最适合用于婴儿的脑功能研究的ERP成分之一。本文及其他新生儿听觉研究(Cheng et al., 2012; Dehaene-Lambertz, 2000;Friederici et al., 2002; Leppänen et al., 2004;Ruusuvirta et al., 2009; Winkler et al., 2003)观察到的MMR可看作是MMN在发育早期的雏形, 由于新生儿的大脑发育还极为不成熟, 此阶段的MMR表现为正成分, 且潜伏期延后。已有的脑电溯源分析表明MMN/MMR的神经源在颞上沟(superior temporal sulcus, STS), 该脑区(特别是右侧STS)恰好是成人加工情绪性语音的脑区(Belin, Zatorre,Lafaille, Ahad, & Pike, 2000; Ethofer et al., 2012)。虽然由于ERP技术的低空间分辨率, 我们并不能断言情绪性语音加工的核心脑区在新生儿阶段已有相当程度的功能分化, 本文的结果至少说明人类出生时即可自动地分辨情绪性语音的正负性, 且对正性情绪信息更加敏感。

本文得到的“新生儿对情绪加工的正性偏向”的结论不符合实验前的假设, 即与Cheng等人(2012)的实验结果相反。我们认为可能的原因有三点。第一, Cheng等人(2012)采用了odd-ball范式的变式(随机设计), 同时将两种偏差刺激(即高兴和恐惧语音)以各10%的概率混入到标准刺激(即中性语音)中, 继而发现恐惧语音诱发的MMR比高兴语音诱发的MMR更大。本研究采用了经典的odd-ball范式(block设计), 将高兴、愤怒、恐惧三种语音分别以20%的概率混入到3个block中, 发现高兴语音诱发的MMR比愤怒和恐惧语音诱发的MMR更大。我们认为, Cheng等人(2012)的随机设计在同一个时间段中混入了高兴和恐惧语音, 而这二者诱发的正性和负性情绪效应可能存在一定程度的相互抵消, 从而降低了结果的有效性。当然, 两种odd-ball方案中哪种更适用于考察本问题还有待进一步讨论, 此处仅提供两项研究结果不一致的可能原因。第二, Cheng等人(2012)的实验在新生儿清醒或睡眠时均有进行, 而本研究严格控制了被试的状态, 即仅在新生儿的“活动睡眠”阶段(类似于成人“快速动眼睡眠”阶段)采集ERP数据。考虑到MMN/MMR会受到睡眠-觉醒状态的影响(Hirasawa et al., 2002; Zhang et al., 2014), 这也可能是两项实验结果不一致的原因。第三, 由于眼动、体动等运动伪迹, 新生儿ERP数据的信噪比远远低于成人数据, 降低了单次实验结果的可靠性。因此, 我们认为继续进行系列实验才能对“新生儿情绪偏向”问题给出准确的回答。

本文继Mastropieri等人(1999)和Farroni等人(2007)的行为学实验, 首次提供了新生儿情绪加工正性偏向的神经电生理证据。除了直接考察新生儿对正负性情绪的加工, 还有一些研究也从侧面支持了新生儿的正性情绪偏好。例如, 不少研究发现,与“成人用语” (adult-directed speech)相比, 新生儿更偏好“婴儿用语” (infant-directed speech, 一种提高音调、加重重音、语调更欢快的说话方式) (Cooper& Aslin, 1990; Singh, Morgan, & Best, 2002), “婴儿用语”而非“成人用语”可显著激活新生儿的额区(Saito et al., 2007)。另外, 与陌生人的声音相比, 新生儿更喜欢母亲的声音(DeCasper & Fifer, 1980)。这些发现的可能原因之一是儿语和母亲的声音通常表现出更多的积极情绪(Saito, Fukuhara, Aoyama,& Toshima, 2009; Singh et al., 2002), 因此它们可作为正性情绪偏向的间接证据。前文已指出, 虽然“负性偏向”是情绪加工中的一个普遍现象, 但该偏向仅当婴儿发育到6～7月龄之后才能被稳定地观察到,而此前婴儿似乎对正性情绪信息更感兴趣(Vaish et al., 2008)。情绪加工偏好由正性向负性的转变可以通过“范围-频率假说” (range-frequency hypothesis;Parducci, 1995)进行解释。简言之, 新生儿及小婴儿在日常生活中频繁地接收到来自抚养者的积极情绪信号, 习得抚养者的正性情绪线索(例如高兴的声音或表情)与良好照料(拥抱、抚摸、喂食)的联结会使他们从抚养者那里得到更多生理养分和心理抚慰。相反, 此阶段他们暴露在负性情绪环境中的概率极小, 同时由于他们的运动能力不足, 无法主动逃避危险, 即使他们对负性线索加强了关注也并不能获得明显的生存优势。直到6～7月龄之后, 婴儿运动能力快速发展, 他们开始主动探索周边世界,伴随而来的是来自抚养者的逐渐增多的负性提示(例如父母惊恐的表情或呵斥), 婴儿此时需要对这些负性信息进行更快和更准确的加工(例如Grossmann et al., 2005; 2010; Hoehl & Striano, 2010; Peltola et al., 2009), 从而使自己免受或少受伤害。因此, 婴儿出生后先表现出对情绪加工的正性偏向, 之后再发展为负性偏向, 这对人类早期的发育和发展具有重要作用。认识此情绪加工的发展规律有利于我们制定更科学的育儿方案, 同时可帮助我们及早发现情绪和认知发育有障碍的患儿(例如自闭症患儿)。

总结来说, 本研究试图回答两个问题：新生儿能否区分不同种类的情绪？他们对情绪信息的加工是否存在正性或负性偏向？实验采用了经典的odd-ball范式以及偏差和标准刺激反转的odd-ball范式, 在三个block中分别考察高兴、愤怒、恐惧三种语音诱发的MMR。两项实验的结果一致证明,新生儿大脑可自动辨别正性与负性情绪语音, 但尚不能将愤怒和恐惧两种负性语音区分开来。更重要的是, 高兴语音比两种负性语音诱发了更大的MMR幅度, 这一结果从神经电生理的层面证实了新生儿对情绪语音加工的正性偏好。我们认为出生后的这种正性偏好是符合进化规律的一种认知模式, 它可以帮助人类在宫外发育的最早期获得更多的食物和抚养者的关爱。

新生儿情绪性语音加工的正性偏向——来自事件相关电位的证据*