孙锐欣
(华东师范大学 中文系,上海 200241)
基于声学特征的阳声韵元音鼻化程度的计算研究
孙锐欣
(华东师范大学 中文系,上海 200241)
在以鼻音为韵尾的音节中,元音可能会受韵尾的鼻音影响而带上鼻化音色,该文在对阳声韵韵母声学特征物理分析的基础上提出了阳声韵元音鼻化程度的计算方法。利用元音鼻化段时长和鼻化元音共振峰带宽构建的一个三维向量作为描述鼻化元音的依据,把这个向量的模作为元音鼻化程度的标度。经过实验和计算,我们发现前鼻音韵母中的元音的鼻化程度比较低,标度均值0.410,而后鼻音韵母中的元音的鼻化程度比较高,标度均值0.718,在所有阳声韵中,韵腹是高元音的阳声韵元音鼻化程度最高的。
阳声韵结构;鼻化元音;共振峰带宽
语音,从说话人口中传出之后是以物理形式存在的,通常的形式是空气的振动,这种振动又可以被拾音设备转换为电信号,实现远距离传播或者长时间存储。物理形式的语音最终会被人耳接收,经过一系列生理和心理过程后被听话人感知和理解。从说话人一方来看,语音音响(speech sound)的产生是发音器官的组织构造和运动的结果,语音音响的声学特征都可以找到相应的发音原理,很多问题通过研究者的自我体验即可解决,因此语音生理研究引人瞩目,也取得了丰硕的成果。但是不可否认的是,儿童在获得母语的过程中,既不需要研究成人的发音过程,也不需要成人的发音指导,他们仅仅凭借语音音响就能获得母语的发音技能。另一方面,成年人之间的言语交际无须面对面地观察对方的发音动作就能听清对方发出的语音。这说明语音音响中包含了丰富的语音属性信息,值得深入研究,而语音学研究的一个重要方向就是通过对语音音响的量化研究揭示语音生理动作或者语音感知结果跟语音音响的声学特征的关系。本文预期解决的问题就是探索汉语音节语音声学特征中跟韵母鼻化程度有关联的因素。
本文欲研究的“鼻化”(nasalization)是指元音的鼻化,即在邻接鼻辅音的发音影响下,音节中的元音发音时软腭可能下降打开鼻腔通路,引入鼻腔共鸣,带上鼻音音色[1]。而“鼻化程度”是指元音音素鼻化之后携带鼻音音色的程度。汉语音节中,韵母以鼻音作为韵尾的是阳声韵,无韵尾或者以元音作为韵尾的是阴声韵,以塞音作为韵尾的是入声韵,汉语普通话中已经没有入声韵了。在无鼻音声母的音节中,元音是否鼻化直接跟韵尾相关,阳声韵跟阴声韵相比,应该有较为显著的鼻化音色。然而这个说起来简单的特征,从鼻化音色的载体来说,主要问题是阳声韵中位于鼻辅音之前的元音音素*本文的“元音音素”秉持这样的观点: 认为单元音和复合元音都是一个元音音素,即[a]、[i]、[u]之类是在音段持续的时间内音质保持稳定的一个元音音素,而[ia]、[ua]、[iau]之类的是在音段持续的时间内音质持续变化的一个元音音素。是否携带鼻化音色;从阳声韵韵母的鼻化音色的持续时间来说,主要问题是在声母是非鼻辅音的情况下,韵母的鼻化音色是否贯通整个韵母;从鼻化音色的物理标志来说,主要问题是鼻化音色的关联因素有哪些,以及这些因素如何量化。
对“元音+鼻辅音”结构中元音音质的物理研究大体有两种思路: 一种以语音声学特征为基础,观察语图中鼻音音质的特异性;另一种是在语音音响之外引入气流检测环节,用鼻腔通路的气流作为鼻化音色的参照条件。在以语音声学特征为基础的研究方面,P Delattre[2]指出元音鼻化的主要表现是第一共振峰能量降低;G Fant[3]则根据物理原理指出鼻化会在声腔的共振系统中引入零点;P Ladefoged[4]有个总结性言论,他指出鼻化元音最显著的特征是第一共振峰有消失迹象,同时伴随的特征是在第一共振峰和第二共振峰之间出现一个“鼻音共振峰”。国内学者方强和李爱军[5]发现元音鼻化后在250Hz附近出现弱的鼻音共振峰,在1 000~2 000Hz频段内出现几个弱能峰;孙锐欣[6]则研究了鼻化元音频谱高频段的表现。在利用气流研究鼻化元音方面,冉启斌[7]使用气流计研究鼻音,取得了一些实验数据。另外,艾斯卡尔·艾木都拉[8]从实验语音学角度探析了维吾尔语鼻音的声学特征。
在鼻化元音声学特征的分析方面,前人的研究有筚路蓝缕之功,尤其是鼻音传递函数的零点理论很有创见,鼻化元音的声学特性,如共振峰能量降低之类的表现,都跟零点有关。所谓的零点和极点,都是声道传递函数经拉普拉斯变换后在s域中的特性,如果对s域中的传递函数进行部分分式展开,可得H(s)=A(s)/B(s),则极点就是分母B(s)取零值的点,零点就是分子A(s)取零值的点。一般来说,语音信号分析常用虚轴上的拉普拉斯变换,即傅里叶变换,变换之后的结果是频率的函数,极点给出了系统的固有频率,是元音信号共振峰的来源。声道一端的输入信号是声门波,近似于三角波,其频域波形近似于一个随频率升高而单边下降的直线;声道另一端输出的是经声道调制后的语音信号,在声道频域传递函数的极点fpolar处的输出函数Y(fpolar)=X(fpolar)H(fpolar)的包络线会出现极值,据此可以测量共振峰。但是零点的情况就复杂了,一方面频域输出函数Y(f)在传递函数的零点fzero处会有取值为0的输出;另一方面输入函数X(f)取0值的时候也有取值为0的输出,事实上,X(f)会出现周期性的取0值的情况,这样一来检测极点的算法对于零点来说不再有效。另外,从更一般的情况来说,回到拉普拉斯变换的s域中去,系统的零点不一定在虚轴上,这样的话在频域中检测零点会枉然无获。P Ladefoged[9]也指出常用于计算共振峰的LPC算法不适用于鼻化元音。遗憾的是,目前未见有效的能自动检测语音信号的零点的算法。
前人研究的另一个说法是鼻化元音存在“鼻音共振峰”,在已知元音鼻化的情况下搜寻第一共振峰和第二共振峰之间的额外的共振峰,似乎能够解决鼻化元音的声学特征问题,但是人的听觉系统为什么没有把“鼻音共振峰”感知为决定常规元音(D元音)的共振峰呢?也就是说,在不知道是否是鼻化元音的时候,为什么不把频率比F1高的最近的共振峰认定为F2呢?显然,这里存在循环论证。B S Rosner 和J B Pickering[10]指出感知系统在做出识别之前不会主动把紧邻的两个共振峰认定为一个元音共振峰和一个鼻音共振峰,更可能的情况是认定为常规元音的两个不同的共振峰,因此鼻化的前元音更可能被识别为一个非鼻化的后元音。从语图的实际情况来看,在F1之上存在似有似无的深色区域,但是LPC的计算结果却否定了“鼻音共振峰”的存在。实际上,鼻化元音的语图上显示的很多“峰”,可能只是能量分布改变后的视觉影像,并非有语音感知价值的线索(cue)。
关于鼻化元音,还有一种“反共振峰”说法,认为鼻腔通路是反共振峰的来源,实际上反共振有偶发性,并且,典型的反共振作用发生时,质点处于相对静止的状态,难于检测。综合以上分析,基于语音音响的鼻化元音声学特征分析需要转换思路,寻找有效的分析依据。
为了挖掘有效的鼻化元音声学特征分析依据,不妨做几个实验,首先是观察一下北京话韵母a、an、ang的时域波形*实验材料为一中年男性的北京话语料,后面的实验同此。所有作为实验材料的音节的声母均为非鼻音声母,同时,在实验时切除声母,保留韵母。,见图1。从时长来说,a的时长最短,为0.189s;ang的时长次之,为0.224s;an的时长最长,为0.247s。还可以发现,跟ang相比,an的特别之处在于韵母最后的2/5部分是常规的鼻辅音,而ang的鼻辅音音段则只占据韵母最后的1/4部分。同时,鼻音韵尾的时域波形有比较明显的特异性特征,其正弦波复合度[11]明显降低,波形比常规元音的波形简单。从听感方面来说,an的元音部分的鼻化音色不明显,而ang的元音部分带有明显的鼻化音色,但是鼻化音段在时域波形中看不出特异性特征,因此有必要到频域内观察。
图1 北京话a、an、ang的时域波形图
图2是北京话韵母a、an、ang的语图。语图的本质是短时傅里叶变换。由于傅里叶变换是对时间的积分,因此变换之后的结果中失去了时间信息,这样一来我们就无法知晓某个频率成分出现的时刻了,而短时傅里叶变换则可以保留时间信息。以语音实验软件Praat所呈现的语图为例,其计算语图的默认窗口长度是5ms,对每个5ms的音段做一次傅里叶变换,其结果作为这5ms内任意时间点的频域分析结果,把多个5ms的窗口串起来,就能达到保留时间信息的目的*在Praat中语图图像和共振峰图像的默认参数设置是不同的,语图的窗口长度默认是5ms,共振峰图的窗口长度默认是25ms。两个图像同时显示在一张图上,容易让人忽视二者参数设置的差异。。需要指出的是,在语图显示的时候,如果进行傅立叶运算的时间间隔小于5ms,重叠部分的时域数值将被重复使用。
从图2可以看出,阳声韵在韵尾处的“鼻音音段”*图2中的“鼻音音段”和“共振峰弱化段”都是示意性的,非精确的标注,定量数值在后文中给出。已经看不出明显的元音共振峰了,在Praat中检测共振峰的算法对鼻音段的计算结果也明显不同于有元音共振峰存在的音段,主要表现是邻近时刻的元音音段的共振峰频率相差无几,而鼻音音段经共振峰检测算法提供的疑似共振峰频率差异较大,且算法提供的疑似共振峰数量也减少了。另一方面,在“鼻音音段”之前的一段元音音段是较为明显的“共振峰弱化段”,这一段的特点是共振峰能量降低,同时,an和ang中的“共振峰弱化段”的时长也不相同,an的“共振峰弱化段”的时长比ang的短。这个“共振峰弱化段”有可能作为鼻化元音声学特征的参照物。
图2 北京话韵母a、an、ang的语图
为了明确“共振峰弱化段”跟鼻化元音声学特征之间的关系,可以利用两个简单的实验来确认这种关系。第一个实验是在共振峰的非弱化段听不到明显的鼻化音色,而在共振峰弱化段则可以听到明显的鼻化音色。第二个实验是对共振峰弱化段的声音,分别利用带通滤波器截取保留第一或第二共振峰信息的信号,这样的信号依然可以听出鼻化元音的音色。这两个实验说明共振峰弱化是鼻化元音的一种声学特征。也正因如此,我们可以用一种全新的方法,即通过分析共振峰的弱化程度来研究阳声韵韵母中元音的鼻化程度。
如前所述,在非鼻音声母的阳声韵音节中,韵尾辅音之前会出现共振峰弱化段。一般来说,在频域中一个频率成分越明显,其带宽就越窄,而一个频率成分越模糊,其带宽就越宽。用单一正弦函数sin(ω·t)*ω是角频率,它跟频率的关系是ω=2πf。跟冲击函数δ(t)的时域和频域性质的对比研究可以发现带宽的意义。图3是简单的正弦波和冲击波的时域和频域波形,对于只有单一频率f1的正弦波sin(2πf1·t)来说,其频域波形在频率f1处出现峰值,而且带宽十分狭窄;对于有丰富频率的冲击波δ(t)来说,其频域波形在所有频率上都有相等的模值,因此就某一具体的频率来说,其带宽近乎于无限宽广。总之,对于信号中的某一频率的波来说,其带宽说明了该频率分量在信号中的显著程度,带宽越窄,则该频率越显著,信号的能量也越集中于该频率,带宽越宽, 则该频率越不明显, 承载的能量也越少。特别地,如果在频域中某些频率的模值为0,则信号中没有这些频率的分量,不必探究其带宽。
图3 正弦波和冲击波的时域和频域波形
既然带宽跟特定频率信号的能量承载能力有关,那么鼻化元音中存在的“共振峰弱化段”就可以使用共振峰带宽来表征其共振特性。共振峰带宽越窄,说明共振峰越明显,共振峰附近的频率分量被分配的能量越多;共振峰带宽越宽,说明共振峰越不明显,共振峰附近的频率分量被分配的能量越少。经过进一步的实验,可以研究共振峰带宽的一些性质。图4是北京话a和an的共振峰带宽图示(实线是第一共振峰带宽,虚线是第二共振峰带宽),可以发现常规元音a的共振峰带宽均不超过200Hz,而an的共振峰带宽则有大幅度的起伏,尤其是在鼻音音段,出现较大的检测值。如果将an的带宽检测值跟听感结合,会发现共振峰的带宽检测值在鼻化元音音段有大幅偏离非鼻化元音音段的共振峰带宽均值的情形,可以据此把共振峰带宽测量值以及鼻化时段的长度作为厘定元音鼻化程度的依据。由于音节本身的时长较短,因此相对于音节时长来说鼻化过程不是瞬间完成的,而是存在过度性,因此第一和第二共振峰的带宽的大幅变化不是同时发生的,所以很难说清鼻化开始的确切时刻,因此在第一和第二共振峰中,只要其中有一个带宽有大幅度变化便可以此作为鼻化元音开始的时刻。而鼻化元音的结束时刻以语图上共振峰消失时刻为准。
图4 北京话a和an的共振峰带宽图示
北京话中共有阳声韵韵母16个(an、ian、uan、üan、en、in、uen、ün、ang、iang、uang、eng、ing、ueng、ong、iong),分别对它们做实验,通过共振峰带宽测定它们的元音的鼻化程度。
5.1 实验设计
实验的工具使用通用的语音实验软件Praat,实验参数(指Praat中的“settings”里面的各项参数)采用Praat的默认设置。由于阳声韵中元音的鼻化不一定贯穿整个韵母元音,因此根据Praat提供的共振峰的数量、频率以及带宽的情况决定常规元音音段、鼻化元音音段和鼻音音段,记录相关的时间段数据、频率和带宽数据。
5.2 实验数据
由于实验数据较多,使用三个表格呈现数据。表1是阳声韵各部分的时间关系数据,表2是阳声韵中鼻化元音音段的共振峰和带宽数据。
表1 北京话阳声韵各部分的时间关系数据
表2 北京话阳声韵中鼻化元音音段的共振峰和带宽数据
续表
5.3 鼻化元音音段鼻化程度的表征
根据实验结果,可以用三个参数来表征鼻化元音音段的鼻化程度,即TNV/TF(设为PNV)、B1/F1(设为PB1)和B2/F2(设为PB2)。图5是利用这3个参数呈现的16个阳声韵鼻化元音模式图。对于图5有如下说明: (1)为了便于给图中的点标注韵母所以把16个阳声韵分成两组,第一组的韵腹是a,其余归入第二组;(2)为了便于呈现图中的点,所以两组三维视图的视角不同,但是坐标轴的设置是相同的;(3)为了比较阳声韵跟阴声韵的区别,图中同时呈现了a、i、u、ü作为参照。
图5 基于3个参数的鼻化元音模式图
用来表征阳声韵中鼻化元音的3个参数可以用一个向量v来表示,v=[PNVPB1PB2]。我们不妨用向量v的模*本文中向量v的模的计算公式为SQRT(PNV2+PB12+PB22),此处SQRT为求平方根。作为度量阳声韵中鼻化元音鼻化程度的标度,根据向量v的设定,理论上v的模的取值在区间[0, 1.732]上。表3是依据向量v的模的大小排序的阳声韵,可以看出虽然eng的鼻化程度最低,且ong的鼻化程度最高,但是总体来说,前鼻音韵母中的元音的鼻化程度比较低,标度均值0.410,而后鼻音韵母中的元音的鼻化程度比较高,标度均值0.718。
表3 依据向量v的模的大小排序的阳声韵
根据表1、表2和表3中的数据,并参照图5,可以发现北京话阳声韵声学特征的一些特点:
第一,从结构方面来看,北京话的阳声韵中鼻音韵尾占有较高的比重,鼻音音段时长占韵母时长的比例均值是0.377,超过了音节时长的1/3,而鼻化元音音段时长占占韵母时长的比例均值是0.138,说明北京话阳声韵的鼻音韵尾是真实存在的,而阳声韵的音响特质的重要来源是鼻音韵尾而不是韵母中的元音鼻化的音色。相比而言,前鼻音韵母中的鼻音音段时长更长,比例均值达0.403。以“三”为例,其发音十分接近于“[san]”,而不是“[sãn]”。正是由于鼻音韵尾对阳声韵的鼻音音质贡献比较大,所以在带有韵头的阳声韵中由鼻音韵尾引起的元音鼻化作用只影响到韵腹部分的元音音段。根据这些特点,在汉语母语和二语教学过程中,对于鼻音韵母的教学放在发好韵尾辅音上,会有较好的教学效果。
第二,从功能方面来看,根据阳声韵中鼻化元音音段跟鼻音音段的配比关系,两种类型的音段呈现出互补性。即元音鼻化程度低的阳声韵中鼻音音段的时长相对较长,前鼻音韵母即如此(鼻化标度均值0.410,鼻音韵尾占韵母时长比0.403);而元音鼻化程度高的阳声韵中鼻音音段的时长相对较短,后鼻音韵母即如此(鼻化标度均值0.718,鼻音韵尾占韵母时长比0.138)。这一特点提示我们思考北部吴方言咸山摄韵尾消失的历程,不会是鼻音韵尾突然消失,而是大致经历了这样的历程:
第三,从鼻化程度方面来看,前鼻音韵母中的元音的鼻化程度比较低,后鼻音韵母中的元音的鼻化程度比较高。进一步,韵腹是高元音的阳声韵元音鼻化程度最高: ong[u]的鼻化度1.150、ing[i]的鼻化度1.056、iong[y]的鼻化度0.943。另一方面,这一结果可以印证这一事实,即普通话的前鼻音韵母中元音的鼻化程度低说明了其发音过程中元音音素跟后续的鼻音音素是较为明显的两个发音动作,而后鼻音的鼻化程度高,说明了其发音过程中有用鼻化元音代替元音+后鼻音的趋势。这一结论的意义表现在三个方面: (1) 为有效地指导不区分前后鼻音的方言区人民学习普通话提供教学依据;(2) 为历史语言学的语音演变研究提供演变动因的参考依据;(3) 从听觉角度来说,为探索阳声韵感知的线索提供参考指标。
除了上述整体性特点,韵母ing的音质构成也值得讨论。虽然汉语拼音方案把“兵青明星英”之类音节的韵母记为ing,并注明其发音为[i],然而在语言实践中,我们能明显感觉到北京话中的“英”不是单纯的“[i]+[]”结构。有一种说法认为ing的实际发音是[i],如果这种说法成立,那么由于韵头不受韵尾的鼻化作用影响,因此ing中元音的鼻化情形应该接近于eng[],但是本文的实验发现ing跟eng中元音的鼻化情形存在较大差异。从图5可以看出,韵母eng中的鼻化元音持续时间很短暂,鼻化效果也很弱,该韵母实际上已经接近于成音节的而韵母ing中鼻化元音持续时间较长,鼻化效果也较强,韵腹部分不是后元音,实际结构接近于]或者]。
[1] Crystal D. 现代语言学词典[M]. 北京: 商务印书馆, 2004:235.
[2] Delattre P. Les Attributes Acoustiques de la Nasalite Vocalique et Consonantique [J]. Studia Linguist. 1954,8,103-109.
[3] Fant G. The Acoustic Theory of Speech Production [M]. Paris: Mouton, 1960.
[4] Ladefoged P. Phonetic Data Analysis [M]. MA: Blackwell Publishing, 2005:135-137.
[5] 方强, 李爱军. 普通话鼻化元音的研究[C]//第六届全国现代语音学学术会议论文集, 2003.
[6] 孙锐欣. 普通话鼻音韵尾的实验分析与矫正训练[C]//第三届全国语言文字应用学术研讨会论文集, 2004.
[7] 冉启斌. 汉语鼻音韵尾的实验研究[J]. 南开语言学刊, 2005,2:37-44.
[8] 艾斯卡尔·艾木都拉. 从实验语音学角度探析维吾尔语鼻音的声学特征[J]. 中文信息学报, 2012,26(1)110-118.
[9] Ladefoged P. Phonetic Data Analysis [M]. MA: Blackwell Publishing, 2005:137.
[10] Rosner B S, Pickering J B. Vowel Perception and Production [M]. Oxford:Oxford University Press, 1994:165.
[11] Clark J, Yallop C. 语音学与音系学入门[M]. 北京: 外语教学与研究出版社, 2000:215-219.
An Acoustic Study of Nasalized Vowel in Nasal Coda Syllables
SUN Ruixin
(Department of Chinese Language and Literature, East China Normal University, Shanghai 200241, China)
The vowel in a nasal coda syllable will become a nasalized one. The issue is how to measure the degree of being nasalized. This paper puts forward a method based on the bandwidth of formants and the duration of nasalized part of the vowel after a deep acoustic analysis of the speech sound. We find that the nasalized degrees of vowels in alveolar nasal syllables are less than that of vowels in velar nasal syllables. The degree of the former is 0.410 and the latter is 0.718. The top degree lies in the high vowels, which are easy to be nasalized.
the structure of nasal coda finals, nasalized vowels, the bandwidth of formants
孙锐欣(1972—),博士,讲师,主要研究领域为语音现象的实验和计算研究、吴方言区的社会语音学研究。E⁃mail:soonrx@sina.com
1003-0077(2015)01-0049-08
2012-04-26 定稿日期: 2012-10-10
教育部人文社会科学研究项目(12YJC740089)
TP391
A