普通话声调调素的时长实验

2015-12-17 02:31:59冯青青

长春理工大学学报(社会科学版) 2015年8期

关键词：首调阴平阳平

冯青青

（盐城师范学院文学院，江苏盐城，224002；南京师范大学文学院，江苏南京，210097）

普通话声调调素的时长实验

冯青青

（盐城师范学院文学院，江苏盐城，224002；南京师范大学文学院，江苏南京，210097）

文章用实验方法研究普通话声调调素的时长，探讨弯头降尾与原始时长的关系、可懂度与各调素的关系、自然度与边缘调素的关系、普通话四声调素时长关系等。证明普通话声调由三个调素组成，“不等值调素说”成立；得出核心调素影响语音的可懂度、边缘调素影响语音的自然度等结论。

普通话；声调；调素；时长

林华（1998）提出调素理论，认为“调素”是最小声调单位，它可以表示音高，也可以表示音长；普通话中一个调素的相对音长为所在音节相对时长的三分之一，普通话的单字调就由三个调素构成，用H、M、L三个符号表示［1］。但这只是关于调素说的理论阐释，缺乏实验论证。刘俐李（2004）在调素理论的基础上，提出了“不等值调素说”，认为调素可分核心调素和非核心调素，两者调长不相等；但不等值调素说需要实验来证实或证伪［2］。石锋等（2006）用实验方法对北京话单字音声调进行了统计分析，得出各调类的声调特征点［3］。石锋只研究出各调类的稳定段和动态段，对于各段之间的时长关系没有研究。

一、实验方案

从《普通话水平测试实施纲要》所附光盘中选择实验样本，共十二个，分别为：依、遗、以、议；淤、鱼、语、寓；阿、吴、舞、物。在Audition软件中切音。设置切音差值为10ms，所有切音都在波形图上进行。每个样本切两次，切音顺序不交叉，第一次是从前向后切，第二次是从后向前切。为了能够精确感知到变化开始的地方，头10次切音每次切掉10ms，保留剩下的部分。从第11次开始，每次切掉20ms，保留剩下的部分。通过以上切音方法，得到各个样本的刺激数量为：“依”24、“遗”29、“以”34、“议”18；“淤”19、“鱼”28、“语”36、“寓”17；“阿”20、“吴”28、“舞”33、“物”18。

本实验选择10位受试者，他们都是语言学专业的研究生，普通话水平等级在二级甲等及以上，有男有女，无听力和说话上的任何毛病，之前也没有参加过这种实验。在听辨实验前告知他们实验目的及听辨时需要注意的内容。实验地点在语音实验室。把刺激放给受试者听，每个刺激放3遍，中间有短暂停顿，一组刺激放完后有3秒时间供选择，在预先设计的听辨表里打“√”。听辨表有四项内容：“变化开始”“变化结束”“是否可懂”“是否自然”。

听辨实验分两部分：首先听从前面切音得到的刺激：（1）从前往后播放刺激，把原始音（命名为0）和每次切音得到的刺激对比播放，听辨三项内容。当感知到某个刺激和0相比有变化，就作为“变化开始”的标志，在相应的框内打“√”；当感知到某个刺激完全不像原来的声调，就作为“变化结束”的标志，在前一个刺激的框内打“√”。同时判断这些刺激自然度，当感知到某个刺激听起来不像自然发出的语音时，在“是否自然”一栏相应的框内打“√”。（2）从后往前播放刺激，听辨“是否可懂”，判断这些刺激的可懂度，当感知某个刺激不是原来的音（已经听不懂）时，在本栏后一个刺激的框内打“√”。然后听从后面切音得到的刺激，也分两个阶段进行：先从前往后播放刺激，听辨三项内容；再从后往前播放刺激，听辨另一项内容，听辨方法同上。

二、时长统计

梁之安（1965）研究普通话单元音的识别率与音节长短的关系，当一个音节达到60ms及以上时，附在主要元音上的声调信息很容易被感知与辨认；当一个音节短至8-13ms时，声调信息就感知不到［4］。因此，可以把8-13ms的时长作为参照点，认为人在感知声调时存在着8-13ms的差异，具体地说，两个受试者在听辨同一项内容时，可以允许他们选择的刺激相差8-13ms。本实验设置的切音差值有10ms和20ms两种，10ms低于13ms，所以本实验默认刺激误差的数值为20ms。这个值就作为统计时的参照，以被选择的中心刺激左右20ms浮动为统计范围。为了有效地处理“听辨结果”中的数据，特作如下规定：

（1）以受试者选择最多的刺激为中心，向两边浮动20ms作为统计范围；

（2）当出现两个中心刺激时，比较它们的统计范围，以范围内包含最多受试者的那个中心刺激作为目标进行统计；

（3）求出统计范围内数据的平均值，这个平均值就是样本在测试项中的有效值。

根据上面的规定，我们对“听辨结果”中的数据逐条统计。计算过程可以用下面公式表示：V=A *a+B*b+C*c+D*d+E*e/a+b+c+d+e（V表示所求项目的平均值；ABCDE表示被选刺激项与切音差值的乘积；abcde表示选择某个刺激项的受试者人数）。计算结果采取四舍五入法，保留整数部分，单位是毫秒。各测试项的时长统计数据如下。

三、时长分析

本文把开始发音到首调素开始处时长定义为弯头段时长，把首调素开始处到首调素结束处时长定义为首调素时长，把尾调素开始处到尾调素结束处时长定义为尾调素时长，把尾调素结束处到发音结束处时长定义为降尾段时长。

表1 测试项时长数据统计表

（一）弯头、降尾与原始时长的关系

林茂灿（1965）研究普通话声调的音高特性，将音高曲线分为“弯头段”“调型段”和“降尾段”，并指出“弯头段”和“降尾段”不起区别声调的作用，“调型段”音高模式起着区别普通话四声的作用［5］。从实验数据可以看出，在弯头时长方面普通话四个调类的关系如下：阳平＜阴平=上声＜去声。在降尾时长方面普通话四个调类的关系如下：上声＜阳平＜阴平＜去声。而对每个调类来说，弯头和降尾的时长并不是完全相同的：阳平调弯头和降尾一样长，阴平调和去声调降尾长一点，上声调弯头长一点，但是从各调类弯头和降尾总的平均值来看，它们的时长很接近，弯头占了原始时长的12.3%，降尾占了原始时长的12.7%。所以在研究声调的时候，可以将音高曲线的两端各去掉12%，剩下的部分作为承载声调信息的调型段。

（二）可懂度与各调素的关系

当从前面切音时，阴平调样本首调素终止点平均值为165ms，而阴平调样本可懂度的平均临界值为206ms。经过计算，阴平调样本中调素平均时长为57ms。可以得出：165＜206＜222（165+57），也就是说，把阴平调样本的弯头部分和首调素全部切除以后，阴平调样本还是能够听得懂；当切掉一部分中调素以后，阴平调样本就听不懂了，所以，首调素在辨别阴平调时所起的作用很小，而中调素对于辨别阴平调起了非常重要的作用。以此计算，阳平调、上声调和去声调的首调素与可懂度的数值关系分别为：269＜273＜318（269+49）、219＜224＜415 （219+196）、121＜150＜169（121+48）。可以认为，切掉它们的弯头部分和首调素，不影响对它们的感知；当切掉一部分中调素后，会导致这些样本听不懂，所以，首调素对于辨别这些声调样本起的作用不大，而中调素对于辨别这些声调样本起了非常重要的作用。还可以发现，在阳平调和上声调中，只切掉一点中调素就会影响到它们的可懂度；而在阴平调和去声调中，要切掉一部分中调素才能影响到它们的可懂度。这是因为阳平调是高升调，上声调是低降升的曲折调，首调素和它后面部分的差别相对较大，把首调素切掉，很容易使它们听起来不是原来的调类，所以可懂度的临界值与首调素的终止值相差不多；而阴平调是高平调，去声调是高降调，首调素与它后面部分的差别不太明显，去掉首调素，它们还能够听懂，因为它们保持了原来的调型，只有当切掉一部分中调素以后才听不懂，因为时长对于感知声调起了非常重要的作用。

当从后面切音时，阴平调样本尾调素终止点平均值为131ms，可懂度的平均临界值为175ms，可以得出：131＜175＜188（131+57）。以此计算，阳平调、上声调和去声调的尾调素与可懂度的数值关系分别为：179＜187＜228（179+49）、206＜209＜402 （206+196）、121＜140＜169（121+48）。观察阴平、阳平、上声和去声调样本可懂度临界值和尾调素终止处值之间的关系，可以认为：切掉降尾部分和尾调素，这些调类样本还能够听懂；当切掉一些中调素以后，这些调类样本听不懂。所以，当从后面切音时，尾调素对声调的可懂度辨识作用不明显，而中调素对于辨别声调起了非常重要的作用。

表2 弯头、降尾统计表

根据各调素在辨别声调时所起作用的大小，可以把它们分为两级：辨别声调有重要作用的中调素属于核心一级，称为“核心调素”；辨别声调作用不明显的边缘调素（首调素和尾调素）属于非核心一级，称为“非核心调素”。据此，声调内部的构造模型可表示为：

图1

（三）自然度与边缘调素的关系

当从前面切音时，阴平调样本的弯头部分平均时长为42ms，首调素从42ms处开始。阴平调样本自然度的平均临界时长为43ms，也就是说，当前面切掉43ms的时候，阴平调听起来不自然。阳平调样本的弯头部分平均时长为53ms，自然度的平均临界时长为47ms，也就是说，当弯头部分还没有完全切除，阳平调听起来已不自然。自然度的临界值只比首调素的起始点少了6ms，可以近似地认为，切到首调素时阳平调样本听起来不自然。上声调样本的弯头部分平均时长为75ms，自然度的平均临界时长为79ms，略大于首调素的起始值。也就是说，当上声调样本的弯头部分切完后，刚切到首调素上声调样本听起来不自然。去声调样本的弯头部分的平均时长为43ms，自然度的平均临界时长为46ms，两者只相差3ms，可以认为刚切到首调素去声调样本听起来不自然。可以看出，虽然自然度的临界值和首调素的起始值并不绝对重合，但它们之间的差距都小于人对音节时长感知的最小阀值。

当从后面切音时，阴平调样本的降尾部分平均时长为49ms，尾调素的范围从49ms处开始，而自然度的平均临界时长为54ms，只比尾调素的起始值多了5ms。也就是说，刚切掉一点尾调素，阴平调样本听起来不自然。阳平调样本的降尾部分平均时长为53ms，自然度的平均临界时长为48ms，比尾调素的起始值少了5ms。也就是说，快切到尾调素时，阳平调样本听起来不自然。上声调和去声调样本的降尾部分平均时长分别为61ms和48ms，自然度的平均临界时长分别也是61ms和48ms，自然度的临界处与尾调素的起始处重合。也就是说，刚把降尾部分切完，上声调和去声调样本听起来不自然。可以看出，上声调和去声调样本自然度临界值与尾调素的起始值完全对等，阴平调和阳平调样本两者之间有5ms的差距，小于人对音节时长感知的最小阀值，可以近似地认为阴平调和阳平调样本自然度临界处和尾调素起始处对等。

（四）普通话声调调素时长关系

调型段时长是原始时长减去弯头和降尾的时长，从表中可以看出普通话四个声调的非核心调素和核心调素的比例关系。对于阴平调样本来说，首调素的时长最长，其次是尾调素，最短的是中调素，时长比例大约是2.2∶1∶1.4。边缘调素与中调素不等长，边缘调素是非核心调素，中调素是核心调素，非核心调素与核心调素不等长，且非核心调素要长于核心调素。结果还表明，阴平调的首调素和尾调素时长总和小于调型段的平均时长，还有57ms的中调素段，阴平调应该包含三个调素。

对于阳平调样本来说，首调素的时长最长，其次是尾调素，最短的是中调素，时长比例大约是4.4∶1∶2.6。边缘调素与中调素时长差别很大，并不等长，因此阳平调中非核心调素与核心调素不等长，且非核心调素长于核心调素。虽然边缘调素的时长很长，但它们的总和仍小于调型段的平均时长，还有49ms的中调素，所以，阳平调也包含三个调素。

表3 普通话声调调素时长统计表：（单位ms）

对于上声调样本来说，中调素的时长最长，两个边缘调素的时长几乎相等，时长比例大约是1∶1.4∶1。两个边缘调素虽等长，但与中调素相比还是不等长的，因此上声调中非核心调素与核心调素不等长，且核心调素长于非核心调素。中调素的时长比边缘调素还长，两个边缘调素时长的总和远没有达到调型段的时长，所以，上声调也包含三个调素。

对于去声调样本来说，首调素的时长最长，尾调素的时长稍短一些，中调素的时长最短，时长比例大约是1.6∶1∶1.5。虽然两个边缘调素时长接近相等，但与中调素相比是不等长的，因此去声调中非核心调素与核心调素不等长，且非核心调素长于核心调素。两个边缘调素的时长总和仍小于调型段的平均时长，所以，去声调也包含三个调素。

从表3及实验数据的分析中可以得出：普通话各声调的调型段都包含三个调素，即首调素、中调素和尾调素；各调素的时长与它们占调型段的比例不相同。边缘调素的时长与中调素的时长不相等，阴平调、阳平调和去声调的边缘调素长于中调素，上声调的中调素长于边缘调素，因此非核心调素与核心调素的时长不相等。林华（1998）把一个声调的三个调素平分，认为各调素等长［1］；刘俐李（2004）认为组成声调的各个调素并不等长［2］；本文的结果也说明普通话声调的调素不等长。

本文先对10位受试者的听辨结果进行统计分析，建立普通话声调内部构造模型。然后统计声调各个组成部分的时长数据，计算它们的比例关系，得出的结论有：弯头和降尾分别占音节原始时长的12%左右；普通话各声调的调型段都包含三个调素；根据调素在辨别声调时所起作用的大小，可区分核心调素与非核心调素，边缘调素是非核心调素，中调素是核心调素；核心调素与非核心调素不等长，“不等值调素说”成立；边缘调素对语音的自然度影响较大，中调素对语音的可懂度影响较大。

［1］林华.“调素”论及普通话连读变调［J］.中国语文，1998 （1）：31-39.

［2］刘俐李.汉语声调论［M］.南京师范大学出版社，2004：134.

［3］石锋，王萍.北京话单字音声调的统计分析［J］.中国语文，2006（1）：33-40.

［4］梁之安.单元音的识别率与音节长短的关系［J］.声学学报，1965（1）：20-23.

［5］林茂灿.音高显示器与普通话声调音高特性［J］.声学学报，1965（1）：8-15.

H116

2013年度盐城师范学院教授博士基金项目“汉语普通话调素实验研究”（13YSYJB0102）；第56批中国博士后科学基金面上资助项目“苏北方言语音的现状及历史演变研究”（2014M561678）；2014年度江苏省教育厅高校哲学社会科学研究一般项目“《徐氏类音字汇》研究”（2014SJB713）

冯青青（1984-），男，博士，讲师，研究方向为实验语音学。