吴 倩,王 蓓
(中央民族大学 中国少数民族语言与古籍研究所,北京 100081)
语篇韵律边界的声学参数受到多种因素的影响,例如,句法结构[1-3]、语篇结构[4-6]、语速[7-8]、边界前后句子长度[1-2, 9-10]以及语调结构[11-12]等。边界声学参数还会受到说话者[7, 13-14]、语篇类型[14]等因素的影响。除此之外,也有研究发现,韵律边界的声学表现在男女发音人之间存在一定的差异[14]。
关于句子长度对无声停顿的影响,已经有许多研究。以往的研究表明,边界前后的句子越长,边界处的无声停顿越长[1-2, 9, 11]。Krivokapi[11]通过严格控制的实验,研究了句子长度及韵律结构对停顿的影响,结果表明,边界前后的句子长度对停顿都有显著的调节作用,且不仅靠近边界的句子长度会影响停顿的时长,距离边界较远的句子的长度也会起作用。另外,边界前后的第一个韵律短语和第二个韵律短语的长度都会影响停顿时长。Zvonik和Cummins的研究发现,边界前后的句子长度对边界处停顿的影响是独立的[9]。同时,他们指出较小的停顿(<300ms)一般只会出现在边界前后韵律短语少于10个音节的时候,当停顿超过300ms时,韵律短语的长度与停顿则没有显著的线性关系[9]。一种对句子长度对停顿的影响的解释认为句子越短,朗读时需要的准备时间也越短,停顿也相应越短[1]。
话题转换方式是影响边界声学参数的另一个重要因素。以往的研究发现,在话题转折情况下,停顿时长和起首音高都会明显增加[6, 15],而话题延续和话题精述之间则没有显著差异[6]。Smith[6]沿用Nakajima和Allen[15]对话题转换方式的分类方法,从语篇中句子间的连接和过渡方式出发,把话题转换方式分为不同的类型,例如,话题延续(topic continuation)、话题精述(topic elaboration)、话题转折(topic shift)和言语行为延续(speech-act continuation)。Smith[6]的实验结果显示,相对于话题精述,在话题转折条件下,停顿时长显著增加且边界前最后一个呼吸群的语速明显变慢,边界前音节延长量显著增加。
Yang[16]等人研究了汉语中话题结构和句法结构对边界处音高的影响。她们发现句法结构对边界处的音高没有显著影响,但是话题结构的影响是显著的,主要表现为边界后的起首音高在话题转折时高于话题延续。
除了上面提到的语言本身的结构外,韵律边界的声学表现为不同的发音人之间也存在着较大的差异。Fant[14]的研究结果表明,不同的发音人之间,句内停顿存在较大差异,但句间停顿差异较小。另外,还有研究发现,男性更倾向于运用音高来标记语法边界,而女性则使用停顿或是边界前音节延长来标记边界[17]。
除此之外,不少研究关注韵律边界不同声学参数之间的相关性。一些研究发现边界前音节的时长和停顿之和随边界等级提高几乎是线性增长[18]。还有研究指出无声段的长度与前音节的时长是相互补偿的,而无声顿长度与后音节高音点、低音点的重置程度是相互增益的[19]。
在以上这些研究中,Krivokapi[11]运用了系统控制的实验语句,其他研究则大多是基于语料库统计和观察的结果,而语料库中停顿时长的分布非常离散。王蓓等[4, 20]对语料库研究发现,语调短语间的停顿可以从20ms到800ms (Mean=408, SD=194)。语料库的研究无法解释影响停顿时长的因素。关于话题转换方式对停顿时长的调节作用,Smith[6]做了比较系统的实验性研究,但其研究中所用的是长篇语料,对话题转换方式没有进行控制,且只报告了2位发音人的结果,2位发音人的结果还存在不一致的地方。
有关句子长度和话题转换方式对边界处声学参数的影响已经有许多研究,但是,这两个因素是如何共同起作用的,仍然没有实验性的研究。本文沿用Nakajima和Allen[15]对话题转换方式的分类方法。该定义的一个优点是,比较容易确定不同话题条件的操作性定义。本文将研究三种相对容易确定的话题转换方式,考察话题延续 (topic continue),话题精述 (topic elaboration),话题转折(topic shift)这三种话题转换方式,同时设计了两种句子长度,试图解决以下三个问题。
(1) 句子长度和话题转换方式是如何对边界处声学参数共同进行调节的;
(2) 边界处不同声学参数之间存在怎样的关系;
(3) 男女发音人在标记韵律边界上是否有差异。
这些研究结果不仅可以加强对语言产生机制的理解,也将有助于语音合成中韵律模型的构建。
实验选择了由两个句子组成的小语篇,控制了后一个句子的长度(长和短)和两个句子间的话题转换方式(延续、精述和转折)。这里,句子话题采用Lambrecht[21]提出的“关于(aboutness)”的概念,在这里都是句子的主语。本文参考Nakajima和Allen[15]对话题转换方式的分类,对其进行了更明确的界定。话题延续是指前句整体作为后句的主语,后句没有独立的主语;话题精述指后句对前句的话题做进一步论述,后句的主语改变了,但和前句的主语有较强的语义关联;话题转折则指前后句话题没有任何明显的关系,两句的主语没有直接的语义关联。
在每种话题条件下,后边的句子又分为长句和短句,其中长句是在短句的基础上在第4个音节后增加修饰词,这样保证边界后的4个音节在长、短句两个条件下都是相同的。为了考查边界前后声调对音高重置的影响,本实验选用两组基本语篇,使其边界前后的声调分别为阴平+阴平和去声+上声。实验语料见附录1。这样,一共有2(语料组)×3(话题转换方式)×2(句子长度)=12个语篇。另外,为了测量边界前延长量,设计了8个控制句,使实验材料中边界前的最后一个词出现在控制句中,且位于非边界的位置。录音时还选用了18个小语篇作为填充语料,这些语篇的句式和长度都不同于实验材料。这样,每位发音人朗读38个小语篇,重复5次。
考虑到焦点的位置有可能影响边界声学参数,同时考虑到发音人朗读语篇接近新闻播音风格,避免朗读得过于平淡,要求发音人在朗读中注意强调文本中标记出来的词。在不同的话题转换方式和句子长度条件下,该词均位于第二个句子的句中位置。
20位发音人参加了实验,男女各半,都是中央民族大学的学生,年龄在18到25岁之间。发音人均来自北方,普通话标准,没有任何听力或言语障碍,参与实验得到少量报酬。
录音在中央民族大学语音实验室完成,所用的麦克风型号为Rode NT1-A,声卡型号为Presonus Firebox,通过CoolEdit 2.0语音软件录音,直接在DELL电脑中保存成WAV文件,采样率为22 KHz。
录音前,先请发音人熟悉材料。录音时,请发音人以自然的方式朗读语料,接近新闻广播风格,中等语速。如果朗读出现错误,发音人重新朗读语篇。每位发音人重复5遍,每遍的语料顺序都随机排列。
所有声音文件都用语音分析软件Praat进行分析。借助Xu(2005~2011)[22]的Praat脚本文件,由本文第一作者对所有的音节边界和声带振动周期进行人工校对。并且,用该脚本文件自动提取各音节的音高最大值、最小值和平均值,以及音节时长和句间的停顿时长,并保存为文本文件。
边界前延长量是实验材料中第一个句子的最后一个词的时长与控制句子中该词时长的差值。高音点和低音点的音高重置分别计算音高最大值和最小值在边界前后两个词中的差值。
20位发音人在三种话题转换方式和两种句子长度条件下的停顿时长的平均值如图1所示。在三种话题条件下,长句的停顿均长于短句(长句: 368ms, SD=112;短句: 340ms,SD=119)。另外,长句和短句中,从话题延续到话题精述,到话题转折,停顿时长均呈增长趋势(延续: 324ms, SD=113; 精述: 361ms, SD=111; 转折: 379ms, SD=135)。
图1 不同话题转换方式和句长条件下的停顿时长
分别以句子长度和话题转换方式为自变量,对停顿时长进行两因素重复测量方差分析,结果显示,句子长度(F(1, 19)=31.387,p<0.001)和话题转换方式(F(2, 38)=5.42,p<0.01)都存在主效应,且两因素之间不存在交互作用(F(2, 38)=2.298,n.s.)。后效检验表明,话题延续条件下的停顿时长小于话题精述和转折,话题精述和话题转折条件下的停顿时长没有显著差异。
值得注意的是,在这里虽然句子长度和话题转换方式对停顿时长均有显著的调节作用,但是不同条件间停顿时长的平均值相差仅在30~50ms左右。另外,各条件下的停顿时长也相对离散,标准差都在110ms左右。也就是说,停顿时长还可能受其他许多因素的影响且有比较大的随机性。
图2显示的是20位发音人在不同的话题转换方式和句子长度条件下边界前词的时长延长量的平均值。在这里计算的是边界处的词的时长与控制句中该词时长的差值。控制句中目标词是在句中位置。
从图2中可以看出,在各实验条件下,边界前的词时长都有延长(10~15ms)。但是,延长量在各条件间相差不明显。两因素重复测量方差分析表明,话题转换方式和句子长度对边界前延长量的影响都不显著(句长: F(1, 19)=0.714,n.s.;话题: F(2, 38)=1.07,n.s.)。
如果这两个因素对边界前的词的延长量作用不显著,那么对词中的任何一个音节的延长量也不会有显著的影响。
首先,需要指出的是,在话题延续条件下,第二个句子的首词为副词,但是另外两个话题条件下的句子都以名词开头,它们对音高重置的影响是不对等的。因此,这里只比较了话题精述和转折条件下的音高重置。
图3和图4分别呈现了边界处高音点和低音点在不同的话题转换方式和句子长度条件下的重置程度。话题转换方式和句子长度两因素重复测量方差分析结果见表1。
图3 不同话题转换方式和句长条件下高音点的重置
图4 不同话题转换方式和句长条件下低音点的重置
结合图3和图4及表1中的统计结果,可以看出,话题转换方式和句子长度对高音点和低音点的重置都是有主效应的,且不存在交互作用。具体表现为: 长句的音高重置大于短句,高音点平均相差0.7st,低音点相差0.4st。话题转折条件下的音高重置比话题精述在高音点上增加0.7st,低音点上增加0.6st。
表1 话题转换方式和句长对音高重置影响的统计结果
注:*表示p<.05,**表示p<.01,***表示p<.001.
在不同的话题转换方式和句子长度条件下,停顿时长与边界前延长量之间的相关如表2所示。在话题延续和话题精述条件下,停顿时长和边界前延长量之间存在较小的负相关(平均为r=-0.2)。但是,在话题转折条件下,两参数之间的相关不显著。这些结果在长句和短句中都成立。
表2 停顿时长与边界前延长量的相关系数(r)
表3显示了停顿时长与高音点、低音点音高重置度之间的相关性。从表中可以看出,高音点的重置程度与停顿时长有较弱的正相关(平均 r=0.21)。而低音点的重置度与停顿时长的相关性更小,仅在话题延续条件下存在显著的相关性。此结果在长句和短句条件下都存在。
表3 停顿时长与音高重置度的相关系数(r)
总之,停顿时长与边界前音节延长存在较弱的负相关,与音高重置呈较弱的正相关。
话题转换方式和句子长度对边界声学参数的影响,男女发音人之间可能存在差异。图5为10位男性和10位女性发音人在所有条件下5次重复的停顿的频次分布图。从图5可以看出,相较于女性发音人,男性发音人的停顿分布比较集中,且相对较短。男、女发音人的平均停顿时长分别为329ms (SD=80.8)和379ms (SD=147.5)。单因素方差分析结果显示,该差异显著(F(1, 118)=5.208,p<0.05)。
图5 男、女发音人的停顿时长分布
表4显示了男女发音人的停顿时长与高音点和低音点重置程度之间的相关系数。如表4所示,对于女性发音人来说,停顿时长和音高重置度呈正相关,但是,在男性发音人中,两参数之间基本没有显著的相关。另外,停顿时长和低音点的相关不十分稳定。
表4 男、女发音人停顿时长与音高重置度的相关系数(r)
综上结果,男性发音人与女性发音人在使用不同声学线索标记韵律边界时存在一定的差异。相较于男性发音人,女性发音人更倾向于运用停顿时长和音高重置两种声学手段来标记话题转换方式。
本文通过严格控制的语音实验,研究了话题转换方式和句子长度对边界声学参数的影响。实验结果表明,话题转换方式和句子长度对停顿时长和音高重置都有调节作用,且两者间没有交互作用。但这两个因素对边界前延长量都没有主效应。
停顿的时长会随着边界后句子长度的增加而增长,这跟先前的研究结果[1-2, 9, 11]是一致的。Zvonik和Cummins[9]的研究中指出,停顿时长在300ms以上时,句长和停顿时长间不存在线性关系。本研究中句间的停顿时长基本在300ms以上,但仍发现了句长对停顿时长有稳定的影响,只是这种影响并非是线性的。我们发现,在平衡了其他因素后,句长对停顿的影响是有限的,仅在30~50ms之间。这个差异很可能在感知上是不起作用的。该结果支持了Ferreira[1]提出的,句长对停顿时长的影响主要是发音准备的需要这一解释。
关于话题转换方式对边界声学参数的影响,以往的研究发现,在话题转折情况下,停顿时长会明显增加[5-6],且起首音高更高[15-16],在本研究中也得到了一致的结果。需要指出的是,不同的话题转换方式条件下,各个声学参数存在差异,但差异较小。话题转折与话题精述相比,边界处的停顿时长平均增加了18ms,高音点的重置增加了0.74st。这与Wang和Xu[23]的结果是一致的。他们也发现了句子间的话题效应是非常有限的,在普通的发音人中新话题对音高的提高只有0.5st左右。Wang[24]等人对语篇的研究中则发现了更大的话题效应(1.6st 左右),该效应在专业发音人中可以达到3.5st。可见,话题效应与语篇的大小,以及发音人是否受过专业朗读训练等因素有关。
另外,在不同的话题转换方式和句子长度条件下,边界前音节延长在男女发音人中都没有表现出任何差异。这与Smith[6]的结果不同,在她的研究中发现,话题转换时的边界延长量大于话题延续。两个研究中计算边界前音节延长最的方法是类似的,不同的结果可能是由语言本身的特点引起的。以往对汉语的研究中也发现韵律短语和语调短语间的边界处时长延长量没有明显差异[4, 20]。
本研究比较重要的发现是,句子长度和话题转换方式对边界声学参数的影响是平行的,两因素之间不存在交互作用。这表明,这两个因素的作用并不是包含性的,而是累加式的,且它们可能是由不同的加工机制引起的。句长效应更可能是基于底层生理机制的需要,边界后句子越长,说出句子前则需要更多的准备时间[1]。而话题效应,更多的是语言表达层面的表现,说话者通过声学手段表现不同的话题转换方式,以便听话者能够更好地理解话语。对数据的进一步分析中,我们还发现了女性发音人的话题效应比男性更加稳定,各话题条件间的差异也更大。这也从另一个侧面反应了女性在朗读时可能对文本的语言结构更加敏感。句长效应在男女发音人中都稳定地存在。
本研究还考查了不同声学参数之间的相关性。总体来讲,停顿时长与边界前音节延长存在较弱的负相关,与音高重置则呈较弱的正相关。这与杨玉芳[18]和钱瑶[19]等人的研究结果是一致的。只是,在这里各声学参数的相关较弱(在0.2左右),且主要出现在女性发音人中。可见,说话者会相对独立地运用不同的声学参数表现边界的变化。特别是男性更倾向于选择一种声学手段来表现话题转换方式或是句子长度的变化。相比而言,女性发音人则更擅长于同时使用多种声学线索标记韵律边界。但是不同声学参数的相关性是有限的,也就是说,一种声学参数的作用很难用另一种声学参数替代。边界前音节延长、音高重置和停顿时长在标记韵律边界时所起的感知作用以及对语言信息的传达作用也都是不同的。对韵律边界处各声学线索所起的感知作用还有待于更进一步的研究。
本研究主要得到以下主要结论。
(1) 话题转换方式和句子长度对停顿时长和音高重置有显著作用,但对句末音节延长没有主效应。并且,话题转换方式和句子长度对边界声学参数的影响不存在交互作用。
(2) 停顿与音节延长存在负相关,与音高重置则存在着正相关。
(3) 相较于男性发音人,女性发音人更倾向于用停顿时长和音高重置两种声学手段来标记话题转换方式及句子长度的变化。
以上结果表明,句子长度对边界声学参数的调节作用更多是发声机制,而话题转换方式的调节作用则属于语言交流层面。
感谢许毅博士和Fred Cummins 博士对本文提出的宝贵意见。感谢“海天瑞声科技有限公司”郝玉峰博士在语音标注过程中的大力帮助,感谢丁启璠同学为语音的切分和标注所做的工作。感谢两位匿名审稿人所提的诸多宝贵意见。另外,本文的部分结果发表在第十一届全国人机语音通讯学术会议论文集中。
附录1语料
1. 第一组语料(边界前后声调为“阴平+阴平”)
[话题连续]
强冷空气袭击南方,多次迫使学校停课。
强冷空气袭击南方,多次迫使市内所有学校停课。
[话题精述]
强冷空气袭击南方,公路多处严重结冰。
强冷空气袭击南方,公路多处连续数日严重结冰。
[话题转折]
强冷空气袭击南方。京沪高铁正式开通。
强冷空气袭击南方。京沪高铁近日全线正式开通。
2. 第二组语料(边界前后声调为“去声+上声”)
[话题连续]
大量民工涌入城市,有望推动户籍改革。
大量民工涌入城市,有望推动大中城市户籍改革。
[话题精述]
大量民工涌入城市,保障机制全面启动。
大量民工涌入城市,保障机制大范围内全面启动。
[话题转折]
大量民工涌入城市。网络产业迅速发展。
大量民工涌入城市。网络产业最近两年迅速发展。
[1] F Ferreira. Effects of length and syntactic complexity on initiation times for prepared utterances[J]. Journal of Memory and Language,1991,(30): 210-233.
[2] F Grosjea. The patterns of silence: Performance structures in sentence production[J]. Cognitive Psychology,1979, 11: 58-81.
[3] 王永鑫,蔡莲红. 语法信息与韵律结构的分析与预测[J]. 中文信息学报,2010,24: 65-70.
[4] 王蓓, 杨玉芳,吕士楠. 语篇中大尺度信息单元边界的声学线索[J]. 声学学报,2005,3: 177-193.
[5] M Swerts, R Geluykens. Prosody as a marker of information flow in spoken discourse[J]. Language and Speech,1994, 37: 21-43.
[6] C L Smith. Topic transitions and durational prosody in reading aloud: Production and modeling[J]. Speech Communication,2004,42: 247-270.
[7] A Butcher. Aspects of the speech pause: Phonetic correlates and communicative functions[C]//Proceedings of Institut fur Phonetik. Kiel: Arbeitsberichte, 1981.
[8] J Fletcher. Some micro and macro effects of tempo change on timing in French[J]. Linguistics,1987,25: 951-967.
[9] E Zvonik, F Cummins. The effect of surrounding phrase lengths on pause duration[C]//Proceedings of the Eurospeech, Geneva; Geneva, Switzerland, 2003.
[10] E Strangert. Pausing in texts read aloud[C]//Proceedings of the XIIth International Congress of Phonetic Sciences, Universit de Provence, 1991.
[11] J Krivokapi. Prosodic Planning: effects of Phrasal Length and Complexity on Pause Duration[J]. Journal of Phonetics,2007, 35: 162-179.
[12] 胡伟湘, 徐波,黄泰翼. 汉语韵律边界的声学实验研究[J]. 中文信息学报,2002,16: 43-48.
[13] E F Goldman. Experiments in Spontaneous Speech[M]. London and New York: Academic Press, 1968.
[14] G Fant, A Kruckenberg, J B Ferreira. Individual variations in pausing. A study of read speech[C]//Proceedings of the Fonetik 2003, Ume University, 2003.
[15] S Nakajima, J Allen. A study on prosody and discoursestructure in cooperative dialogues[J]. Phonetica,1993,50: 197-210.
[16] X H Yang, Y F Yang. Effects of topic structure and syntax on boundary pitch variations in Standard Chinese[C]//Proceedings of the Speech Prosody, 2012.
[17] Y Samuelsson. Gender effects on phonetic variation and speaking styles a literature study[C]//Proceedings of Department of Linguistics,Stockholm University, 2006.
[18] 杨玉芳. 句法边界的韵律学表现[J]. 声学学报,1997,22: 414-421.
[19] 钱瑶, 初敏,潘悟云. 普通话韵律单元边界的声学分析[C]. 第五届全国现代语音学学术会议论文集. 北京: 清华大学出版社, 2001: 70-74.
[20] 王蓓, 杨玉芳,吕士楠. 汉语语句韵律层级结构边界的声学分析[J]. 声学学报, 2004,29: 29-36.
[21] K Lambrecht. Information structure and sentence form: topic, focus and the mental representations of discourse referents[M]. Cambridge University Press, 1994.
[22] Y Xu. Prosody Pro.praat. [DB/OL]. http://www.phon.ucl.ac.uk/home/yi/ProsodyPro/S, 2005-2010.
[23] B Wang, Y Xu. Differential prosodic encoding of topic and focus in sentence-initial position in Mandarin Chinese[J]. Journal of Phonetics, 2011,39(4):596-611.
[24] B Wang, Y Xu, J Xu. Prosodic realization of discourse topic in Mandarin Chinese:Comparing professional with non-professional speakers[C]//Proceedings of the ICPhS, Hong Kong, 2011.