薛紫炫 耿立波 杨亦鸣
人类的言语交际活动常常受到噪声的干扰,绝对安静的言语交际环境是不存在的。噪声下的言语感知研究有助于学者探究实际生活中的言语交际现象,具有明确而重要的意义。从临床角度来说,噪声下的言语测听(speech audiometry)能更真实地反映听者的言语识别能力,不仅能有效地评估听者的听力水平和助听设备的功能,同时有利于言语加工障碍等疾病的早期诊断和干预。但目前噪声下言语感知的神经机制尚不明确,它不仅依靠于人类听觉系统和认知功能的完整性[1],还与学习、记忆、联想、思维、经验等高级功能密切相关(梁之安,1999)。本文在大量神经电生理研究的基础上,从噪声与噪声掩蔽的定义、噪声下言语感知的特性、噪声下言语感知的影响因素三个方面对噪声下听觉言语感知的研究进展进行综述。
学界对噪声并没有给出统一的定义,不同研究领域对噪声的界定各有侧重。物理学将噪声定义为“发声体做无规则振动时发出的声音”;声学将“那些杂乱无章、时断时续、忽大忽小的声音”称为噪声(吴宗济等,1989);生理学则将一切妨碍人们正常休息、学习与工作的声音统称为噪声(Sato等,2008);心理学及社会学将噪声概括为人们不需要的声音,如建筑工地中机器运作的声音、教室外的车笛声、孩子的哭声等[2];从语言学的角度,所有影响听者识别和理解目标声音的声音刺激均可算作噪声(Shield等,2008)。总而言之,噪声是一个较为主观的概念。
1960年,美国标准协会将声音掩蔽定义为“由于一个声音的出现而导致另一个声音的听阈提高的过程”。噪声干扰听者对目标声音的感知就是一种声音掩蔽现象,也被称为噪声掩蔽(Watson等,2005)。假设某纯音的频率为1 000 Hz,正常人在声压级为3 dB时就可以听到该纯音,那么可说1 000 Hz纯音的听阈为3 dB,当同时出现70 dB的噪声时,必须将纯音的声压级提升至84 dB才能保证1 000 Hz的纯音被人耳听到,该1 000 Hz纯音的听阈提高了81 dB,则可说70 dB的噪声对1 000 Hz纯音的掩蔽值为81 dB。据此可得,噪声降低了听觉器官对目标纯音的敏感性(Martin等,1997)。相比之下,言语包含语音、语义、语法等信息,加之连续语流自身的不稳定因素,噪声对言语感知的掩蔽情况更为复杂,其神经机制是学者们研究的重点。
人类能够有效地进行语音感知,一方面依赖于完整且正常的听觉系统和认知功能[3],另一方面依赖于言语信号本身所包含的外冗余度(extrinsic redundancy),即上下文语境中的语义线索、语境线索、副语言特征线索等语言线索[4]。二者相互协助,帮助听者在噪声条件下进行言语加工。
2.1听觉系统与认知功能 人类的听觉皮层主要由一个中心初级区域组成,包括Brodmann 41和42、颞横回(HG)等区域,中心初级区域被多个非主要区域围绕,包括Brodmann 22、颞平面(PT)等区域。听觉中枢能够利用不同的线索从混合的声音流中区分出来自不同声源的信息,再将来自于同一个声源的信息整合成一个声音流进行加工[5]。听觉神经对线索的利用是多方面的,可根据位置、时间以及频率等不同参数进行自我调节以分辨不同的声源[6]。因此,听力损失在很大程度上会影响噪声下的言语识别[7]。
对于噪声下的言语感知加工,听者也经历了从分离(segregating)到整合(grouping)的加工过程。在神经层面上,这一过程大致可概括为两条通路:与语义提取和转换相关的腹侧通路、与感觉运动整合及产出相关的背侧通路。听觉皮层的信息经由感觉运动层面传至言语运动系统,生成发音动作或言语动作预期,下行投射至感觉运动界面,与上行而来的语音听觉表征进行匹配,在这一过程中,与言语产出相关的皮层言语运动系统通过预测和反馈的回路来代偿和调节言语知觉[8]。言语的生成分析假设(analysis-by-synthesis)认为言语运动系统只在噪声等不利条件下才会生成言语运动预期,且言语运动系统的激活与SNR呈倒U型曲线关系,在中等强度的信噪比条件下,言语运动系统能够发挥最大程度的代偿效应[9]。
研究表明人脑中有特定的脑区负责处理噪声条件下的言语加工。功能性磁共振成像(fMRI)研究发现颞上回对人类语音有强烈的双侧激活,但当语流数量增加而要求听者对目标声音进行选择性反应时,左前颞叶激活最显著,主要位于双边颞上回(superior temporal gyrus, STG)和颞上沟(superior temporal sulcus, STS);Scott等[10]将语音噪声条件与复杂的非语音基线(如旋转语音)进行比较,发现选择性反应沿着STS向前延伸,就偏侧性而言,这些反应的振幅在左半球更高、更稳固[10]。研究还指出腹侧和背侧前额叶皮层以及后顶叶皮层的激活情况与SNR水平相关(level-dependent),SNR越小,激活越显著。此外,随着噪声水平的增加,语义通达和发音加工增加,表现为左前额叶腹侧皮层和辅助运动区(SMA)激活增加[11]。
2.2言语的外冗余度 人脑对语音信号的加工可笼统地分为感知和理解两个过程。感知阶段可将言语信号分析为音素、音节、词、词组、分句等不同的等级层次单元;理解阶段主要从各种语言形式中获取语义信息以了解说话人的目的,这些过程涉及语言结构线索、语义线索、语境线索、副语言特征线索以及韵律特征线索等;这些线索被称为“冗余信息”,存在于语言的每一个层面上(潘长江,1986)。
不同语言单元包含的冗余信息量不同,研究认为冗余信息量的增加会降低言语的不确定性(Miller等,1947)。一般认为双音节词比单音节词包含更多的冗余信息,在人脑的词库中,与双音节词声学特征相似的词汇数量比单音节词少,所以在噪声条件下听者对双音节词的声学特征辨别、信息提取及加工均易于单音节词,受噪声掩蔽的程度较单音节词小(何星,2000)。而对于词组和短语来说,其聚合和组合关系等句法冗余、词与词之间的语义关系等都可以起到预测和消除歧义的作用。如“bread and butter”、“iron and steel” 等词项为表示整体概念的并列结构,“knife and fork”、“watch and chain”等词项表示配套事物,这些词项经常一起出现,听者可根据其中一个词语预测另一个词语的出现。句子层面的冗余信息更为丰富和复杂,几乎可以包括所有类型的冗余信息,这些冗余信息帮助听者进行语义选择和词语预测[12]。以句子层面的语义冗余为例,单词“ball”包含“球”、“舞会”等不同的义项,但在句子“The ball I attended last night was wonderful.”中,由于动词“attend(参加)”的语义限定,“ball”在此句中便只表达“舞会”的意思。
噪声下的言语感知对外界变量较为敏感,噪声类型、目标信号类型、信噪比、任务设置、个体因素等均会对噪声掩蔽效应产生影响,这也是造成相关研究结果产生分歧的原因之一。本文立足于实验室研究,从实验设计本身出发例举了噪声类型、刺激信号类型、信噪比三个主要影响因素。
3.1噪声类型 早期的噪声掩蔽研究多使用人工合成的无意义的声音,这类研究主要探究噪声的物理特性,如响度、强度、频谱时间特性、信噪比等。白噪声(white noise)是一种在整个频域内功率谱密度分布均匀的噪声,听感类似沙沙声[13];言语谱噪声(speech spectrum-shaped noise)是一种与目标语音长期平均频谱相匹配但不包含言语信息的稳态噪声,它的形成基于语料库,是在一定数量的句子的基础上产生的,其频谱范围能覆盖大多数语言频率[14];嘈杂噪声(babble noise)是指包含多个来自不同声源的声音[15]。
当前研究更多考察来自自然语言的言语噪声(speech noise),这就引发了言语噪声掩蔽与非言语噪声掩蔽的对比研究。Leibold等[16]和Buss(2013)比较了受试者在言语谱噪声条件与言语噪声条件下听辨“辅音+元音”结构的表现,结果发现在言语噪声条件下,受试者需要更高的信噪比;Jamie等[17]要求受试者对实验中的三种掩蔽条件的难易程度进行评定,包括言语谱噪声条件、两个说话者的噪声条件以及六个说话者的噪声条件,结果显示包含两个说话者的噪声条件被认为最困难,而言语谱噪声条件最容易。由此可见,相较于白噪声,言语噪声对言语信号的掩蔽程度更大。
首先,从声学层面分析,不同噪声具有不同的谱时特征。白噪声是一种功率频谱密度为常数的随机信号,其频谱能量在时间的横轴上分布得均匀且稳定,时间包络或频谱变化上的波动非常小,从而只能产生有限的掩蔽效应;相比之下,言语噪声尤其是多人谈话噪声在时间包络和频谱特征上均存在变化,在线性坐标上能量分布不均匀,因此掩蔽效应更强。此外,言语噪声的频谱与目标语音的长时平均频谱非常接近,这增加了噪声与目标语音在频谱特征上的辨别难度(Studebaker等,1994)。
其次,从掩蔽机制分析,白噪声与言语噪声的差异本质上反映了能量掩蔽(energetic masking, EM)与信息掩蔽效应(informational masking, IM)的机制差异。能量掩蔽是指噪声与目标声音在时间包络和频谱特征上重叠,噪声屏蔽或覆盖了特定时频段的目标声音[18],导致目标声音的全部或部分信息无法被听者接收,语音编码加工受阻,即能量掩蔽的本质是噪声的能量干扰了目标声音的能量[19];信息掩蔽则发生在噪声和目标语音都听得见的情况下,噪声占用了目标语音加工所需的认知和心理资源,资源竞争导致听者识别目标语音的能力降低,即信息掩蔽本质上发生在高级的神经加工层面[20],由噪声的内容信息对心理资源的占用引发。研究认为纯音产生能量掩蔽,言语噪声能够产生能量掩蔽与信息掩蔽的叠加效应,不仅在掩蔽程度上大于纯音,且涉及言语加工中的认知加工。
上文提到信息掩蔽的本质是噪声与目标语音对心理认知资源的竞争,然而产生竞争的原因尚不明确,这也导致信息掩蔽效应的性质问题成为一个争论热点;其中影响较大的为内容干扰假说(interference-by-content hypothesis)与过程干扰假说(interference-by-process hypothesis)。前者认为噪声与目标语音共享感知或者二者在语音、语义空间等方面的相似性均可导致信息掩蔽,且目标语音和噪声在声学属性、语音特征、语义内容等方面越相似,掩蔽程度越大[19];后者则认为听者对包含可理解信息内容的言语噪声产生自动认知加工,这一过程和目标语音的加工使用了相同的加工过程,因而导致认知资源被分散[21]。前人实验发现,相关研究存在分歧的一个重要原因是未能全面考虑各种变量对噪声掩蔽的影响,如噪声类型、言语噪声的熟悉度、目标语音的类型、实验任务、受试者的语言背景等,这些都是后续研究必须注意的问题。
3.2目标信号的类型 目标信号的变化可能改变噪声掩蔽的性质及程度。首先,纯音信号与言语信号的比较是探究噪声下言语信号加工特性的重要方法,二者差异明显;其次,言语加工具有其内部复杂性和层次性,不同语言单元的听觉加工过程激活不同的神经机制网络,当前研究主要关注噪声条件下的音节感知,噪声对句子和语篇理解的掩蔽研究较少,且不同语言单元的比较也应作为研究的重点。
首先,对比纯音信号与言语信号的实验结果表明当目标刺激为音节等语音信号时,掩蔽类型或噪声类型在皮层处理中能够起到更为重要的作用,例如:Billings等[22]发现当目标信号为500 Hz的音调时,言语噪声与非言语噪声条件诱发的脑电波形振幅之间无显著差异,但音节/da/在言语噪声下诱发的脑电波形较非言语类噪声条件发生了显著的退化。言语能力的下降并不一定伴有听敏度的改变,纯音感知能力正常与否并不等同于言语听辨能力的好坏。有患者对声音的感受正常,但对语音的认知可能存在异常,因此某些中枢病变表现为纯音听阈正常,但言语测试得分低[17]。
其次,当目标信号为不同语言单元时,噪声下言语感知的属性也可能受到影响。除声学特征、谱时特征的差异外,冗余信息量的多少也是一个重要因素。胥科等[7]指出即使噪声导致听者不能完全辨别目标句中的每一个音节,听者也仍然能够通过语义、语法、语境等已获取的信息理解该句子的含义。随着冗余信息量的增加,噪声的干扰会相对减小。
个体在对语句进行加工时,能够从上下文语境中获取冗余信息构建语义预期。语义预期是指将长期记忆存储的语言知识应用于输入的语言以促进语言理解的能力,通过限制言语输入的可能候选词项,帮助听者维持语音的在线处理和理解。当输入语音的谱时特征被噪声模糊甚至被掩盖时,句子包含的语义、语境、结构及韵律等信息能够帮助听者构建语义预期,语义预期通过限制言语输入的可能候选词项,帮助听者维持语音的在线处理和理解[23]。因此,噪声条件下句子感知加工较词语等语言单元会表现出更大的稳定性。
3.3信噪比 噪声干扰言语谱时特征,增加言语信息的处理难度,表现为听者言语识别的正确率随信噪比增加而下降[14]。皮质神经元密切跟踪噪声水平,掩蔽水平与噪声水平成正比,掩蔽水平增加导致相似幅度的掩蔽阈值变化,因此,噪声水平的增加必须与相同幅度的信号增加相匹配以维持神经反应,从而帮助听者从竞争声音中提取感兴趣的信号[24]。
首先,当噪声掩蔽强度等于或大于目标刺激时,皮层神经反应的时间和幅度会受到显著影响。Whiting等(1998)系统地研究了宽带噪声(broadband masking noise, BBN)对语音/ba/和/da/诱发的皮层事件相关电位(ERPs)N1、N2、P3的影响。10例听力正常的成人通过按键反应区分安静或宽带噪声(BBN)下的语音/ba/和/da/,刺激通过Oddball范式呈现,当语音设置为65 dB SPL,BBN设置为 50、60和70 dB SPL,当语音设置为80 dB ppe SPL,BBN设置为60、70和80 dB SPL;结果显示BBN掩蔽条件下ERP波幅和行为辨别力较安静条件下显著降低,同时只有当噪声掩蔽强度等于或大于语音刺激强度时,ERP波幅和行为辨别力降低的情况才会发生。
其次,诱发电位的波形振幅随信噪比增加而增加,潜伏期随信噪比增加而减少。P1-N1-P2复合波是噪声掩蔽过程中较为重要的脑电成分,其形态受信噪比驱动。Billings等[25]让15例听力正常年轻成人分别在安静和连续噪声环境(分为5个等效信噪比)下听60 dB和75 dB的1 000 Hz的声音,并记录皮层听觉诱发电位,结果显示当提高噪声水平或降低信号水平使信噪比降低或变得不利时,P1-N1-P2复合波形态会退化,潜伏期更长,振幅更小[26]。
信噪比的数值设定是噪声掩蔽实验的关键。高信噪比条件下的噪声容易被听者忽略,产生掩蔽释放现象,所以高信噪比环境下表现出的某些效应并不稳定;低信噪比条件更能真实地反映噪声掩蔽的属性,一方面,低信噪比环境下,语音特征参数的稳定性会急剧下降;另一方面,低信噪比加大了听觉系统和人脑筛选信息的难度。相关研究将低信噪比的范围设置在-10到20 dB之间,而-10到10 dB范围内的信噪比是学者尤为关注的;如:人声识别系统一直致力于克服噪声的干扰,传统的人声识别系统在信噪比较高的环境中取得了较好的识别结果,当信噪比降到20 dB以下时,稳定性便有所下降,当降到10 dB及以下时,模型的识别率已经大幅度下降。
噪声下的听觉言语感知加工是一个从分离到整合的过程,听觉中枢系统从多个语流中筛选出想要的言语信息进行加工,在这一过程中,背景噪声对目标语音产生掩蔽效应。噪声掩蔽的性质和程度受噪声类型、目标信号类型、信噪比等因素的影响,但这方面的研究并不全面,学者们一直期望能够模拟现实生活中的听觉信息感知或言语交际场景,以语音为载体的言语信号,尤其是句子、篇章等语言单元必将是日后噪声掩蔽研究的着力点,这也是现有研究的不足之处。此外,前人研究重视噪声的声学属性,忽略了与言语加工相关的认知因素的影响,如:言语噪声对目标语言的干扰处于语音层面还是语义层面、受试者的语言背景及言语噪声的熟悉度对噪声掩蔽效应的影响等问题都未深入探究,这就导致噪声掩蔽研究的语言学意义较弱,需要深入地探究。