李彬,张翠玲
运用耳语进行听力检查是一种在国外普遍采用的听力检查方法[1]。耳语时声带基本闭合不振动或者偶尔不规则振动,气流从气声门擦出,形成“咝咝”类噪音。由于发音机理的差别,耳语在声学上的表现与正常发音明显不同[2-3]。耳语的声学能量很低,但共振峰频率、摩擦能量分布等区分元音辅音的重要语音信息特征仍清晰可辨。听话人亦可以借助这些信息听辨辅音[4-5]。音调音高的声学表现如时长音强等在耳语中也有存留[6],但声调发音和听辨都较难区分[7-10],因此也有研究提出假设,汉语声调的次要语音特征在耳语中保留并加强[9-11],以助声调区分。
纵观我国相关理论和临床研究,我们发现耳语测听法不普及[12],进展比较缓慢[13],只是近年来针对普通话人群的研究才逐渐开始增多[14]。由于声调在普通话中区别语义,而耳语又恰恰缺失这一重要语音特征,那么要有效利用耳语测听法则必须首先对声调在耳语中的表现有清晰了解。因此,本文提出分析对比普通话声调在耳语和正常发音下的声学特征,冀以找出缺失区分音高的主要特征时,声调语言的其它哪些特征会发挥补偿作用。具体研究问题为:耳语时声调能否保持对立区分?具体表现在哪些声学特征上?相比正常发音有哪些异同点?耳语声调听辨是否困难?
1.1 一般资料 收集发音人2名,一男(26岁)及一女(30岁),均为普通话二级水平。参加听写的听音人有10位,均讲普通话,为在读研究生,平均年龄(28.0±1.5)岁,女6位,男4位,报听力正常。
bīnbīwbínbíwbǐnbǐwbìnbìw
图1“bi”的语谱图(上),音强曲线(下)
下标n代表正常语音,下标w代表耳语
1.2 方法 本研究设计分为两个部分:声学参量分析和耳语听辨。第一步声学分析测量耳语并与正常发音对比,以确定耳语声调的区别性特征。第二步听写测试耳语声调的正确辨识度。①录音材料:普通话单音节字,起始音为不送气双唇爆破音/p/,后接元音为/i/或/a/,此开音节组合在普通话中四个声调均可配合且有意义。由此得到八个字:逼bī、八bā,鼻bí、拔bá,比bǐ、把bǎ,毕bì、爸bà。另有两个干扰项,即以塞音/f/或/s/为起始音的单音节字。将所有字分别组双音节词,如老爸, 老八等,并放入承载句“我不会写___这个字”。听写测试使用的汉字列表与声学分析中的材料相同,由单字和词组组成,例如逼、鼻、笔、毕,老爸、老八等,成对出现。②录音采样:录音在隔音棚完成,发音人分别采用正常发音和耳语发音将全部字、词、句用普通话各读3遍。录音时,麦克风距离发音人唇边约15cm。采用记忆卡式数字录音机(Sony)记录,采样率为44.1 kHz,精度为16bit。③听写材料:使用女发音人的录音,包括其耳语和正常发音。首先让听音人浏览列表并确认无生字,然后让其戴耳机听写目标字或词。所有10位听音人均听写共两组测试材料(均来自数字化的录音材料):第1组为单字听辨,要求写出汉字或至少写出声调;第2组为听辨词组,如鼻尖、笔尖等。④声学分析测定指标:利用Praat 5.1.43进行声学分析[15]。测量的声调声学参数为:a.声调时长;b.音强;c.元音第一至第四共振峰的频率。声调时长为元音稳定段,即从辅音到元音过渡结束处开始到图谱上可视共振峰基本消失。音强和共振峰频率均取自元音稳定段内10个平均分布的点(包括起始和结束两点在内),以其为中心,节选20ms时段自动提取参数值(高斯窗口,窗长5ms)。
对耳语和正常语音的声学谱图比较观察,耳语音强相对正常语音明显减弱,而其元音的声学特征(如共振峰形态)与正常语音相似。其次,正常声调间时长上的差异在耳语中也有类似表现,单字中更为明显。第三,正常发音的声调轨迹和音强曲线在耳语中仍有保留。见图1。
2.1 时长 声调原始时长个体差异较大,为系统比较,我们计算分析了归一化时长,即声调原始时长与所在字时长的比值,并对结果分声调、语境进行单因素方差分析(组间因素为发音方式)。耳语单字的声调归一时长均较正常发音长,但差别不明显。耳语词组中第二、三声较正常发音显著变长(P<0.01)。见表1。
声调语境正常耳语第一声单字91.50±1.6992.00±2.69词组94.07±1.5895.56±1.34第二声单字89.83±1.4591.60±2.94词组85.12±2.6694.14±0.94a第三声单字95.00±0.7095.00±0.87词组82.25±1.1594.25±0.94a第四声单字91.25±0.9492.67±0.58词组89.75±1.5892.75±1.03
与正常发音比较,aP<0.01
2.2 音强 对比耳语与正常语音的音强,耳语的平均音强比正常发音显著减弱(F=425.25,P<0.001)。正常声调间的音强差异显著(F=5.079,P<0.01),而耳语时差异扩大(F=72.962,P<0.001)。这些差异来自第三声和第四声,其中第三声平均音强低于其它三个声调,而且耳语时的差别更大(正常发音:P<0.05,耳语:P<0.01)。而第四声平均音强最高,但与其他声调的差异只有在耳语时才显著(P<0.01)。见表2。
声调正常耳语第一声58.28±1.5637.29±3.20a第二声57.45±2.3343.02±5.08a第三声52.22±4.7434.17±5.99a第四声58.50±3.1146.76±4.60a
与正常发音比较,aP<0.05
2.3 共振峰值 由于男发音人的元音共振峰极不明显,因此未列入此项分析。我们测量了女发音人元音/i/和/a/的第一至第四共振峰(F1、F2、F3、F4),提取32个点(4个声调×2个元音×2个发音人×2个发音方式)的频率值。对比正常发音,耳语时元音共振峰低频值升高而高频值降低,绝大多数变化显著[均P<0.05,不显著的为元音/i/的第三声的F3(P=1.00)、元音/a/在第二声的F3(P=0.585)和第三声的F4(P=0.724)]。/i/和/a/的变化规律又有差别:耳语元音/i/的F1提高,F2~F4降低;而耳语元音/a/的F1、F2提高,F3、F4则降低。见图2,3。
图2 女发音人元音i共振峰图示(Hz)
图3 女发音人元音a共振峰图示(Hz)
2.4 听写测试 10位听音人戴耳机听写目标字词或至少写出声调。所有听音人都很清楚可能出现的汉字,也明确听写的任务和目的,但是单字听辨中所有人的正确辨识率都未达到51.5%。随后继续听辨正常发音下的同一批汉字,所有人的正确辨识率均超过97.0%。由此可见,耳语听写正确率极低绝非听写汉字造成,而是发音方式影响其听觉辨识。耳语下听写词组的正确率也均未超过40.5%,但随后的正常发音下同一批词组的听写正确率为95.0%。
正常发音时普通话声调主要以基频变化来区别,但耳语却缺少这一重要特征,因此本文分析对比了耳语和正常发音下声调的时长、声强和元音共振峰,冀以找出耳语下发挥补偿作用的特征及其效果。首先,与正常发音不同,耳语各声调在单字和词组内时长近似,表明耳语下协同发音减弱,不同语境下声调都保持单字状态。其次,耳语音强较正常明显减弱,但变化幅度不同,因此耳语声调间的差异反而扩大。第三,元音共振峰在耳语时低频升高而高频降低,正常发音下共振峰与声调无直接关联,但耳语时声带保持闭合,同时其它发音器官协同配合,从而改变声道形状长度,因此影响了元音。总之,耳语下声调首要特征缺失会激发补偿机制而改变其它声学特征。但听写测试结果表明耳语下如果没有丰富的语境提示,仅凭借声学特征的补偿变化仍无法区分声调。
我们的研究对进一步了解言语治疗和康复有一定的临床启示。首先,声调区分在耳语时调动并加强了次要声学信息,那么在言语恢复训练或者声调辨别训练时,可以给予时长和音强等其他辅助辨音因素作为患者的训练提示。其次,耳语听力检查法作为一种在国外普遍采用的听力检查方法,似乎在我国并没有得到广泛应用。我们的发现可以为评估耳语检查法在普通话人群中的可行性提供参考,为我国听力检查的发展提供新的思路。
[1] Pirozzo S, Papinczak T, Glasziou P. Whispered voice test for screening for hearing impairment in adults and children: systematic review[J]. BMJ, 327(7421) :967-967.
[2] 张翠玲, 张红兵, 曹巧玲. 耳语伪装语音的声学研究[J]. 中国刑警学院学报, 2005, 4: 43-46.
[3] Tartter VC. What's in a whisper[J]? Journal of the Acoustical Society of America, 1989, 46: 468-470.
[4] 张翠玲. 法庭语音技术研究[M]. 北京: 中国社会出版社, 2009,293-310.
[5] Ito T, Takeda K. Itakura F. Analysis and recognition of whispered speech[J]. Speech Communication, 2005, 45(2): 139-152.
[6] Heeren W, Heuven VJ. Perception and production of boundary tones in whispered Dutch. In ISCA (Ed.), Proceedings of Interspeech[M], Brighton, 2009, 2411-2414.
[7] Abramson A. Tonal experiments with whispered Thai. In A. Valdam (Ed.), Papers on Linguistics and Phonetics in Memory of Pierre Delattre[M]. The Hague: Mouton,1973,31-44.
[8] Miller JD. Word tone recognition in Vietnamese whispered speech[J]. Word, 1961, 17(1):11-15.
[9] Li B, Guo Y. Mandarin Tone Contrast in Whisper. In ISCA (Ed.), Proceedings of the Third International Symposium on Tonal Aspects of Languages[M], Hong Kong, 2012,26-29.
[10] Liu S, Samuel AG. Perception of Mandarin lexical tones when F0 information is neutralized[J]. Language and Speech, 2004, 47(2): 109-138.
[11] Kong YY, Zeng FG. Temporal and spectral cues in Mandarin tone recognition[J]. Journal of the Acoustical Society of America, 2006, 120(5): 2830-2840.
[12] 郗昕. 言语测听的历史与现状[J]. 中国听力语言康复科学杂志, 2005, 2(1): 20-24.
[13] 李剑挥, 郗昕, 冀飞, 等. 一组汉语普通话双音节测听词表的等价性分析[J]. 中华耳科学杂志, 2010, 8(1): 75-75.
[14] 张华,王靓,王硕,等. 普通话言语测听单音节词表的编辑与初步等价性评估[J]. 中华耳鼻咽喉头颈外科杂志, 2006, 41(5): 341-345.
[15] Boersma P, Heuven V. Praat, a system for doing phonetics by computer[J]. Glot International, 2001, 5(9/10): 341-345.