汉语普通话前响二合元音共振峰模式的异质性表现*

2019-08-29 08:23:32王萍

语言科学 2019年3期

王萍

南开大学文学院天津 300071

提要文章对《汉语语音数据库》中102位北京人所发的汉语普通话前响二合元音/ai/、/ei/、/u/、/ou/的共振峰模式进行了大样本的统计研究。结果表明，普通话的前响二合元音的内部表现并不是完全同质的，而是存在不同程度的变体和变异。其中，/ai/、/u/均包含三种共振峰模式，/ou/包含两种共振峰模式，/ei/只有一种共振峰模式。二合元音/ai/、/u/、/ou/中均不同程度地存在单元音化的现象，而且主要出现在青少年中。

1 引言

汉语普通话的复合元音是由两个或三个元音构成，其发音特点是从一个元音的舌位逐渐滑动到另一个元音的舌位，舌位、唇形要逐渐变动，自然连贯，形成整体；从发音的响度来看，主要元音的发音口腔开口度最大，声音最响亮，持续时间最长，其他元音发音轻短或含混模糊。通常，人们把复合元音分为二合元音和三合元音两大类，其中根据主要元音的位置不同，二合元音又分为前响二合元音和后响二合元音两类。

国内外学者对于二合元音的研究成果较为丰富。吴宗济和曹剑芬(1979)在声学元音图中得到了汉语二合元音的动态曲线。曹剑芬和杨顺安(1984)选取男、女4位北京人所发的自然语言里的零声母字作为实验材料，对北京话里13个复合元音的动态特性进行了细致的量化分析。杨顺安(1986)提出了一种复合元音的指数式动态模型，能将普通话的13个复合元音的音色变化描述为几个目标值之间的动态运动。曹剑芬(1994)以普通话语音声学参数数据库中15个人的零声母音节的声学参数为基础，重点解析了/u/、/ou/的频率特性随时间而协同变化的行为及其相关结构方面的异同，并给出相应的统计参数和相关的时频协变模式。贺宁基(1985)利用听感的方法证明，二合元音感知的时间阈值及其滑动段的共振峰变化率这两个参数之间存在补偿关系。Hongmo(1986)认为复合元音的主要特点是由第二共振峰(F2)确定的，所以以F2为研究对象，并提出复合元音的“截断模型”(trancation model)。Eric(2001)利用声学实验的方法对20位(10男10女)北京发音人普通话复合元音的极点位置进行了测量和统计。Lehiste & Peterson(1961)，Holbrook & Faibanke(1962)和Gay(1968)曾用语图仪对美国英语的二合元音进行过测量和分析，他们将英语的二合元音分为起始段(onset)、过渡段(transition)和收尾段(offset)三段，其中起始段和收尾段大多是长而平稳，发音比较“到位”。

上述研究为我们认识复合元音的表现和性质提供了重要的参考。同时，我们也看到各家对于汉语普通话前响二合元音的共振峰模式存在分歧，焦点主要集中在前响二合元音中是否存在韵腹的稳定段。具体来说，曹剑芬和杨顺安(1984)、吴宗济和林茂灿(1989：99)认为汉语普通话的前响二合元音就是一种共振峰频率不断依时变化的动态元音，不存在韵腹的稳定段。与这种观点相反，贺宁基(1985)认为单发的前响二合元音的共振峰结构可以分为三段：前稳定段，后稳定段，中间的滑动段。而Hongmo(1986)主张前响二合元音/ai/、/au/的主要元音/a/的稳态段的出现不是必须的、强制性的，具有随意性和不稳定性，呈现可能的稳定状态或准稳定(quasi-steady)状态。笔者认为造成以上分歧的原因很可能是由于发音人选择的不同，他们之间会存在一定的个体差异。另外，上述研究主要是基于少数发音人的个案研究，没有进行大样本的统计，所以其研究结果的代表性和普遍性有待商榷。

针对前人研究中存在的分歧和不足，我们对《汉语语音数据库》(1)《汉语语音数据库》是由美国学者Robert Sanders和石锋教授合作完成。目前该数据库共包含102位发音人，他们都是土生土长的北京人。该数据库分别在2005年和2006年进行了两次语料采集工作，第一次语料采集的发音人包括了各个年龄层，第二次语调采集的发音人主要是20岁以下和20-29岁两个年龄层，所以该数据库中青年人的数量较其他年龄层偏多。中102位北京人所发的韵母为前响二合元音/ai/、/ei/、/u/、/ou/的字音的共振峰轨迹进行了测量、分类和计算，期望从大样本统计的角度来全面揭示普通话前响二合元音的共振峰模式，进而对前人的积疑给予一定的补充和解释，使我们的认识更加清晰完整。

2 声学实验和统计分析的步骤及程序

2.1 发音样品的选择

我们在《汉语语音数据库》中选取了4个以普通话前响二合元音/ai/、/ei/、/u/、/ou/为韵母的单字音作为实验语料，而且它们的声母尽量选择零声母，为了保证音色的稳定，声调均为阴平调。实验语料的字音分别为“哀”[ai55]、“杯”[pei55]、“熬”[u55]、“欧”[ou55]。每个元音共有102个取样(每个元音共有102位发音人)，我们共得到102×4=408个有效样品。

表1 发音人性别、年龄分布

20岁以下20-29岁30-39岁40-49岁50岁以上合计男23147448女82868454总计105910158102

2.2 声学实验中声学参数的提取

我们以praat语音分析软件为工具来提取元音的共振峰数据，其中包括元音的前三个共振峰：F1、F2、F3。具体来说，在praat平台上运行事先编写好的脚本程序，对语音样本的声学测量采取等时长提取，即无论字音的长短，其韵母部分的共振峰曲线均被等分为10份(共振峰曲线不包括辅音和元音的过渡段)，最后得到11个测量点的共振峰数据，声学单位为赫兹(Hz)。

2.3 共振峰数据的统计分析

我们以SPSS22.0为统计工具，对共振峰数据进行统计计算。在统计计算之前，利用茎叶图法检查整体数据中是否存在离群值，对于测量失误造成的离群值进行校正，对于个体差异造成的离群值予以剔除，这样能够保证数据的整体客观性。因为男、女的生理差异使得共振峰数值的差异显著，所以本文对于男、女的共振峰数据分别进行计算和统计。

3 前响二合元音/ai/、/ei/、/u/、/ou/共振峰模式的统计表现

每个前响二合元音均得到11个测量点(每个测量点包括F1、F2、F3三个维度)的数据，102位发音人的4个前响二合元音共计11×102×3=3366个测量点的数据。然后将声学分析得到的所有数据输入SPSS统计软件，根据共振峰轨迹的实际表现进行分类(分类结果将在下文详细说明)，(2)分类主要参考声学和听感两个标准。关于稳定段的确定，声学上，共振峰曲线(F1、F2和F3)的走势比较平稳，听感上能判断出较为明显的单元音段。虽然稳定段的频率也不是完全稳定的，也会有起伏，但是与真正的过渡段相比，这种起伏并不是规律性的上升或下降，而是无规则的高低变化，而且变化的幅度比真正的过渡段小很多。分别计算出每个元音每个类别下男、女的平均值。最后以时间(t)(归一化)为横轴，以频率(Hz)为纵轴，分别做出每个元音的共振峰模式图。

3.1 /ai/的共振峰模式的统计表现

3.1.1 /ai/的三种共振峰模式的声学表现

根据102位发音人的实际表现，普通话/ai/的共振峰走势可以归纳为以下三种(见图1)：1)图1a，/ai/只由一段构成，即/a/和/i/两个目标元音的过渡段，以下简称/ai/1；2)图1b，/ai/由两段构成，即/a/的稳定段+/ai/的过渡段，以下简称/ai/2；3)图1c，/ai/的共振峰走势平稳，接近直线，听感上接近单元音[]，以下简称/ai/3。

图1 /ai/的三种共振峰走势图

为了能够更加直观地表现/ai/3的单元音化倾向，我们将/ai/1和/ai/3放在同一张声学元音图中来看它们的对比表现，同时，我们将/a/、/i/、/u/三个顶点元音统计计算后的平均值(102位发音人按照男性和女性分开统计)也放在图中，作为声学位置的参考点，见图2。

图2显示：无论男性和女性，都可以清楚地看到/ai/1从韵腹/a/到韵尾/i/的舌位动态变化轨迹，只是与单元音/i/相比，韵尾/i/发生了舌位不到位(undershoot)的现象。而/ai/3的数据分布相对比较集中，从相对位置来看音值比较接近单元音[]。

从共振峰性质来看，/ai/可以归为两大类：1)复合元音，/ai/1和/ai/2，其中/ai/1的出现频率较高，是主体，/ai/2的出现频率较低，是变体。2)单元音，/ai/3已经单元音化为[]，可以看作独立的一类。

图2 /ai/的声学元音图

3.1.2 /ai/的三种共振峰模式中F2的参数表现

Lehiste & Peterson(1961)、Gay(1968，1970)、Kent & Moll(1972)、Manrique(1979)考察了不同条件下二合元音F2的变化率，将F2的频率变化(声学层面)和舌位移动(生理层面)作为表现二合元音特征的两个重要参数，并且确认F2的变化率是表现二合元音的重要声学特征参数。Hongmo(1986)通过协同发音的实验也证明，复合元音的主要特点是由F2确定的，不是F1和F3。基于此，我们对/ai/的三种共振峰模式中F2的频率跨度、时长、斜率等参数分别进行了统计，具体结果见表2。

表2 /ai/的三种共振峰模式中F2的参数表现(3)频率跨度=[11个测量点中起点的频率值-终点的频率值的差值]；总体斜率=[11个测量点中起点的频率值-终点的频率值的差值] /总体时长；过渡段斜率=[过渡段的起点频率-过渡段的终点频率] /过渡段时长，这种计算方法与Gay(1968)、贺宁基(1985)提到的“共振峰变化率”的测量标准和计算方法是一致的，两位学者都认为“共振峰变化率”是二合元音感知中最稳定、最重要的参数；/a/段斜率=[/a/段的起点频率-/a/段的终点频率] //a/段时长；a/段和过渡段的确定主要依据三维语图中共振峰曲线、音强曲线，同时结合听音。下文中/u/、/ou/、/ei/中各项参数的计算方法同理。

/ai/1/ai/2/ai/3频率跨度(△Hz)782846130总体时长(ms)294303304总体斜率(Hz/ms)2.662.790.43过渡段时长(ms)294165过渡段斜率(Hz/ms)2.664.49/a/段时长(ms)138/a/段斜率(Hz/ms)0.77

表2显示，频率跨度，/ai/3最小，与/ai/1、/ai/2分别相差652Hz、716Hz；总体时长，/ai/1、/ai/2和/ai/3相差不大；总体斜率，/ai/1和/ai/2比较接近，/ai/3显著小于/ai/1和/ai/2；过渡段斜率，/ai/2大于/ai/1，差值为1.83，这是由于/ai/2的过渡段时长较短，要在相对较短的时间内迅速完成从/a/到/i/的舌位转变，而/ai/1的过渡段较长，所以其舌位的变化相对平缓；/ai/2的/a/段斜率(4)Ainsworth(1972:648-651)用合成元音所做的元音识别实验表明，过长的元音(500ms)以及过短的元音(50ms)，识别率都有所下降。梁之安(1965)通过研究发现，当元音音长在60ms以上时，识别率一直保持在95%以上的水平，当音节长度短于60ms时，识别率随音长变短而下降。本文中，/ai/2的/a/段时长为138ms，大大超过了50-60ms这一听觉识别的最短长度，而且/a/段的斜率为0.77，与/ai/3的总体斜率较为接近，但大大小于/ai/2的过渡段斜率。所以时长和斜率两方面能够充分证明，/ai/2中/a/稳态段在声学层面是真实存在的，与听感的判断结果是一致的。/u/2中/a/的稳态段的判断标准与此相同。和/ai/3的总体斜率较为接近，二者相差0.34。频率跨度和总体斜率两项参数是/ai/3单元音化的重要表征。

图3 /u/的三种共振峰走势图

图4 /u/的声学元音图

表3 /u/的三种共振峰模式中F2的参数表现

/u/1/u/2/u/3频率跨度(△Hz)33946591总体时长(ms)315430315总体斜率(Hz/ms)1.081.080.29过渡段时长(ms)315295过渡段斜率(Hz/ms)1.081.50//段时长(ms)135//段斜率(Hz/ms)0.17

3.3 /ou/的共振峰模式的统计表现

3.3.1 /ou/的两种共振峰模式的声学表现

根据102位发音人的实际表现，普通话/ou/的共振峰走势可以归纳为两种(见图5)：1)图5a，/ou/由/o/和/u/两个目标元音的过渡段构成，以下简称/ou/1；2)图5b，/ou/的共振峰走势平稳，接近直线，听感上接近单元音[o]，以下简称/ou/2。

图5 /ou/的三种共振峰走势图

下图6为/ou/的声学元音。图6显示，男性和女性， /ou/1均表现为从韵腹/o/到韵尾/u/的舌位动态变化轨迹，相对于单元音/u/，韵尾/u/发生了舌位不到位(undershoot)的现象。/ou/2的数据分布相对集中，相对于顶点元音/a/、/i/、/u/，其音值比较接近单元音[o]。

图6 /ou/的声学元音图

3.3.2 /ou/的两种共振峰模式中F2的参数表现

/ou/的两种共振峰模式/ou/1、/ou/2中F2的参数表现(参数的计算方法和/ai/一致)如下页表4所示。从表4可以看出，频率跨度，/ou/1显著大于/ou/2，二者相差249Hz；总体时长，/ou/1和/ou/2相近；总体斜率，/ou/1显著大于/ou/2，二者相差0.89。与/ou/1相比，频率跨度和总体斜率是/ou/2单元音化的重要表征。

表4 /ou/的两种共振峰模式中F2的参数表现

/ou/1/ou/2频率跨度(△Hz)32071总体时长(ms)286308总体斜率(Hz/ms)1.120.23

3.4 /ei/的共振峰模式的统计表现

/ei/的共振峰模式只有一种，即由/e/和/i/两个目标元音的过渡段构成。参见图7和图8。

图7 /ei/的共振峰模式图

图8 /ei/的声学元音图

图7表现出/ei/的F1、F2和F3的共振峰动态轨迹，F1的起点到终点为渐降的趋势，F2和F3的起点到终点为渐升的趋势，其中F2的升幅更为明显。图8显示，女性和男性的/ei/从韵腹/e/到韵尾/i/的舌位由低到高，由后到前的变化轨迹；/ei/的F2频率跨度为713Hz，总体时长为286ms，总斜率为2.49。

4 前响二合元音/ai/、/u/、/ou/的异质性共振峰模式在不同人群中的分布

4.1 /ai/的三种共振峰模式在不同人群中的分布

/ai/的三种共振峰模式在男性、女性中的分布情况见下页表5；/ai/的三种共振峰模式在不同年龄层的分布(5)表格中的数字为每种共振峰模式的实际人数，括号中的数字是占各自年龄段总体的百分比值。下表8和表10的情况与之相同。因为本文选取的各年龄层的发音人数量不平衡，其中20-29岁的人数最多(57人)，50岁以上的人数最少(8人)，所以为了去除发音人数量的不平衡对结果造成的影响，我们对百分比值的计算方法进行了一定的调整，调整后的结果能够科学地反映每种共振峰模式的分布情况和趋势。具体来说，将每个年龄层作为一个整体，即100%，然后分别计算/ai/的三种共振峰模式在各年龄层的百分比值。/u/、/ou/的百分比计算方法与/ai/相同。见下页表6。

表5显示，/ai/1所占比例最高，为61%；/ai/2和/ai/3的比例接近，分别为21%和18%；男性/ai/1比例和女性相近，二者相差3%；男性/ai/2和/ai/3的比例分别低于女性9%和4%。

表5 /ai/的三种共振峰模式在男性和女性中的分布

男女占总体的百分比/ai/1(/ai/由过渡段构成)33(32%)30(29%)61%/ai/2(/ai/=/a/的稳定段+过渡段)6(6%)15(15%)21%/ai/3(/ai/的共振峰走势接近直线,音值接近单元音[æ])7(7%)11(11%)18%

表6 /ai/的三种共振峰模式在不同年龄层的分布

20岁以下20-29岁30-39岁40-49岁50岁以上/ai/14(33%)33(58%)5(50%)14(93%)7(88%)/ai/22(17%)17(30%)1(10%)0(0%)1(12%)/ai/36(50%)7(12%)4(40%)1(7%)0(0%)

表6显示，/ai/1出现在20岁以下至50岁以上全部5个年龄层，比例逐渐递增，其中40-49岁和50岁以上两个年龄层的百分比高于20岁以下55%-60%；/ai/2出现在20岁以下、20-29岁、30-39岁、50岁以上这4个年龄层；/ai/3出现在20岁以下至40-49岁这4个年龄层，20岁以下的数值最高，40-49岁的数值最低。/ai/的共时变异现象在各年龄层呈现以下分布趋势：/ai/1主要出现在40岁以上的中老年人群，/ai/3的单元音化现象主要出现在39岁以下的青少年人群，/ai/2在各年龄层中均有数量不等的分布(40-49岁除外)。

4.2 /u/的三种共振峰模式在不同人群中的分布

表7 /u/的三种共振峰模式在男性和女性中的分布

男女占总体的百分比/u/1(由韵腹//到韵尾/u/的过渡段构成)33(32%)32(31%)63%/u/2(/u/=//的稳定段+过渡段)0(0%)1(1%)1%/u/3(共振峰走势接近直线,音值接近单元音[ɔ])15(15%)21(21%)36%

表8 /u/的三种共振峰模式在不同年龄层的分布

20岁以下20-29岁30-39岁40-49岁50岁以上/u/17(58%)34(60%)5(50%)12(80%)7(88%)/u/20(0%)0(0%)1(10%)0(0%)0(0%)/u/35(42%)23(40%)4(40%)3(20%)1(12%)

4.3 /ou/的两种共振峰模式在不同人群中的分布

/ou/的两种共振峰模式在男性、女性中的分布情况见表9。

表9 /ou/的两种共振峰模式在男性和女性中的分布

男女占总体的百分比/ou/1(由韵腹/o/到韵尾/u/的过渡段构成)32(31%)41(40%)71%/ou/2(共振峰走势接近直线,音值接近单元音[o])16(16%)13(13%)29%

表9显示，/ou/1的比例为71%，/ou/2的比例为29%，/ou/1显著高于/ou/2，二者差值为42%。/ou/1，女性的比例大于男性9%，/ou/2，男性的比例略高于女性3%。

/ou/的两种共振峰模式在不同年龄层的分布情况见表10。

表10 /ou/的两种共振峰模式在不同年龄层的分布

20岁以下20-29岁30-39岁40-49岁50岁以上/ou/16(50%)37(65%)8(80%)14(93%)8(100%)/ou/26(50%)20(35%)2(20%)1(7%)0(0%)

表10显示，/ou/1出现在20岁以下至50岁以上全部5个年龄层，而且百分比值随着年龄层的增加逐渐上升，其中最低值(20岁以下)和最高值(50岁以上)相差50%；/ou/2只出现在20岁以下至40-49岁这4个年龄层。与/ou/1正相反，百分比值随着年龄层的增加逐渐下降，其中最低值(40-49岁)和最高值(20岁以下)相差43%。以上说明，复合元音/ou/1的比例呈现随年龄层增加而不断上升的趋势，50岁以上的人群达到了100%；/ou/2的单元音化现象正相反，即随着年龄层增加而逐渐减少，50岁以上的人群为0%。从总体的百分比值来看，/ou/2显著小于/ou/1。

5 结语

本文对《汉语语音数据库》中102位北京人所发的韵母为前响二合元音/ai/、/ei/、/u/、/ou/的字音的共振峰动态轨迹进行了大样本的统计研究，从定量的角度对它们的统计特性给予较为精确的描述，根据量化表现，从定性的角度对其进行分类分析。结果表明，汉语普通话的前响二合元音，其内部的表现并不是整齐划一、完全同质的，而是存在着不同程度的变体和变异；不同元音的复杂程度不尽相同，其中/ai/、/u/的表现最为复杂，均包含三种共振峰模式，/ou/的复杂程度居中，包含两种共振峰模式，/ei/的表现最纯粹，只有一种共振峰模式。

前人对于汉语前响二合元音是否存在韵腹的稳定段这一问题是存在分歧的。研究表明，韵腹的稳定段只出现在/ai/、/u/两个二合元音中，而且只出现在少数发音人中，比例较低。具体来说，/ai/2的出现人数为19人，占总人数(102人)的19%，/u/2的出现人数为1人，占总人数的1%。所以，相对于单纯由过渡段构成的复合元音共振峰模式(/ai/1和/u/1)的代表性主体，它们只能被看作是一种边缘性的变体。这与Hongmo(1986)的研究结果有相同之处，即认为汉语普通话前响二合元音/ai/、/u/的主要元音/a/，其稳态段的出现不是必须的、强制性的，具有随意性和不稳定性。但是由于Hongmo(1986)所涉及的发音人数量较少(只有6位男性北京发音人)，所以对于这种不稳定性和非强制性的程度和表现并没有给出明确的量化数据。可以说，本文从大样本统计的角度对于/ai/、/u/中带有/a/稳定段的出现频率以及相关参数均给出了具体的量化数据，这可以看作是对前人研究的推进和深入。

吴宗济和林茂灿(1989：99)按照复合元音的性质将其分为真性和假性两大类。真性复合元音是指两个目标元音在语图上各自有较长的稳定段，两个目标值之间的过渡段却显得较短；假性复合元音有两个目标位置，从元音共振峰模式上看，它们处在滑动中，一般很少有稳定段，只有后响二合元音的后一元音有可能存在稳定部分。例如，瓦语和藏语阿里方言段中的二合元音是真性的，汉语普通话的二合元音是假性的。从本文的统计结果来看，汉语普通话的前响二合元音，/ai/、/u/的复合元音形式(/ai/1和/ai/2，/u/1和/u/2)假性占据主流，但假性之中也包含少量的真性；/ou/(/ou/1)、/ei/的复合元音形式全部为假性元音。总的来看，普通话前响二合元音的复合元音形式(单元音化的变异形式除外)以真性为主，同时伴有少量的假性，而且韵腹的舌位越低，共振峰曲线的动程越大(/ai/)，真性的出现频率越高。当然本文的结论只是基于普通话，还需要其他语言或方言的进一步证明。

综合来看，本文通过统计性的研究归纳出汉语普通话前响二合元音/ai/、/ei/、/u/、/ou/的共振峰模式的异质性表现和类别，并通过考察它们在不同性别、不同年龄层的分布情况，揭示出这些共时变异现象的特点和规律。另外，由于本文选取的各年龄层的发音人数量不平衡(20-29岁青年人较多，50岁以上的中老年人较少)，所以对于这种共时变异之中是否蕴含着历时变化的方向和趋势的问题，还有待今后增加和均衡各年龄层的数量后继续深入考察。