陈小莹,艾金勇,于洪志
(1. 西藏民族学院 信息工程学院,陕西 咸阳 712082;2.西藏民族学院 图书馆,陕西 咸阳 712082;3.西北民族大学 中国民族信息技术研究院,甘肃 兰州730030)
藏语拉萨话单音节嗓音声学参数分析
陈小莹1,艾金勇2,于洪志3
(1. 西藏民族学院 信息工程学院,陕西 咸阳 712082;2.西藏民族学院 图书馆,陕西 咸阳 712082;3.西北民族大学 中国民族信息技术研究院,甘肃 兰州730030)
该文对藏语拉萨话单音节的嗓音特征进行了实验研究,实验首先对藏语拉萨话单音节进行语音标注,然后根据语音标注的位置信息,利用对应的程序提取音节结构中的元音和辅音的嗓音声学参数,对基频、开商和速度商分别统计分析,并做了显著性分析。实验结果表明不同元音和辅音的嗓音参数与发声方式以及其在音节中位置有关,元音和音节结构的不同会显著影响开商和速度商的值,但对于基频数据的影响并不显著。同时嗓音参数之间也存在一定的关联性,即基频和开商、速度商之间是反比关系,开商和速度商之间是正比的关系。
拉萨话;嗓音特征;基频;开商;速度商
随着语音信号处理技术的发展,嗓音发声的研究在许多不同的学科得到了迅速的发展。对不同语言嗓音的研究,一直都是语音学、信号处理和生理学等学科研究的热点。在面向语言学的嗓音研究领域,中国的民族语言和汉语的发声类型得到了比较深入的研究[1-2]。藏语历史悠久,使用人口众多,是我国一种主要的民族语言。利用现代语音学的研究方法对藏语的嗓音进行研究,建立嗓音声学参数数据库,对语音学、言语工程和信号处理方面都有着重要价值[3-4],笔者曾对安多方言和卫藏方言的元音嗓音参数进行了一些前期的实验研究,并得到了一些有意义的结论[5-6],但是由于研究对象不够系统,因此难以形成较为完善的结论,鉴于此,本文分别从元音和辅音两方面研究分析嗓音声学参数的特征,以期获得更多有意义的结果。
2.1 实验材料
本项目以《藏语简志》中的音系为基础[7],参照《新编藏文字典》和《藏汉对照拉萨口语词典》,并按照文献[8]中拉萨话音系的归纳结果,整理得出满足不同音节结构的单音节共计3 547个,对同一音节结构的单音节尽量选择其中的常用词作为实验文本,最终编制形成实验所需的录音材料。
2.2 信号采集和预处理
实验中录音人为拉萨本地人,发音清晰,无嗓音方面的病史,藏语言文字基础扎实。信号录制在中国民族信息技术研究院的专业录音室进行,采集语音和嗓音的双通道信号,设定语音采样频率为40kHz,其中语音信号通过麦克风采集得到,嗓音信号通过喉头仪采集得到[9]。
由于在信号录制的过程中,采集的嗓音常伴随有噪音,所以信号录制后首先需要对嗓音信号进行降噪处理。本文对嗓音信号先采用小波分析方法进行降噪预处理,经过预处理后的嗓音信号提取出的参数能更准确真实地反映藏语拉萨话单音节嗓音信号频域和时域的信息。
2.3 语音标注
语音文件录制结束后,我们首先要对藏语拉萨话单音节进行语音学和声学上的标注[10-11]。本文标注采用的是北京大学语音乐律分析平台下的wavefinal软件[12]。
图1 藏语拉萨话单音节[e]的标注图
2.4 参数提取
语音文件标注后,利用美国KEY公司Real-Time EGG Analysis 5138软件进行嗓音参数的提取。提取的嗓音参数包括基频(F0)、开商(OQ)和速度商(SQ)。提取的参数以.txt默认文本格式保存[4]。
根据研究对象,单元音的嗓音声学参数可以直接提取。对于整个音节而言,根据语音标注的位置信息,利用MATLAB编写对应的程序,提取嗓音声学参数。
2.5 参数时间归一化处理
藏语拉萨话的单音节的时长是不一致的,为了对比不同时长音节的嗓音参数数据,提高数据分析的科学性,提取出的嗓音声学参数需要进行时间归一化处理。基于此文中利用MATLAB程序将基频、开商和速度商数据集合调整为等距离的15个点提取,使得所获取的数据在时间上具有可比性。
实验中对藏语拉萨话单音节嗓音声学参数主要是基于音素层面的,通过对单元音构成的音节(V)、元音带辅音声母构成的音节(CV)、元音带辅音韵尾的音节(VC)和元音前后均有辅音存在的单音节(CVC)四种音节结构中浊音的参数统计分析的。鉴于清辅音发音的时候对于声带振动的影响极小,而嗓音的特征表现主要由声带振动引起[1],所以文中重点研究的是浊辅音和元音的嗓音特征。其中音节结构中的辅音(C)指的是浊辅音。实验中所涉及的元音是指拉萨话中常用的[a]、 [i]、 [u]、 [e]、 [o]五个元音。在辅音参数分析部分,主要考虑浊辅音的参数变化情况,将浊辅音按照发音方式分成鼻音、边音、颤音和半元音四类进行分析,为了消除其他因素影响,所有浊辅音均与元音[a]搭配。
3.1 基频数据分析
3.1.1 元音基频数据分析
图2描述的是特定调值下,不同的元音在四种音节结构中的基频分布图。其中音节结构中的辅音为相同发音部位和发音方法的浊辅音。通过图例数据可以看出在四种不同音节结构中,元音的基频数据变化趋势基本一致。音节结构CVC的元音同时受到前后浊辅音的影响,其基频变化明显不同于其他三种音节结构。而音节结构VC和CVC中所有元音的基频比单一元音发生时元音的基频值有所提升,CV结构基本符合这一规律,只是元音为[i]时略有降低。但总体而言,这些都说明元音相邻的辅音的生理特性使得元音基频值也受到影响,从而使得发音人在发声时共鸣腔受到的影响增大。
图2 元音基频数据图
3.1.2 辅音基频数据分析
四种不同发音方式的浊辅音基频数据平均值、最大值和最小值统计结果见表1。
表1 辅音基频数据表
表中数据显示辅音基频范围在110Hz~160Hz之间,其中颤音与元音相连接时其基频最小,最大的为鼻音,这也表明了鼻音发声时响度更大。数据表明,基频与辅音自身的发声方式有一定的联系。
3.2 开商数据分析
3.2.1 元音开商数据分析
通过图3可以看出: 开商均值集中在57%~65%之间,变化幅度不大,开商值比较稳定。在四种不同音节模式中,不同元音开商数据的曲线走向基本上是一致的。这说明不同音节结构中元音开商受影响较小。和单元音开商值相比较,CV结构中辅音声母会相应的提升元音的开商值,VC结构中辅音韵尾会相应的降低元音的开商值, CVC结构中元音的开商数据和其他音节相比较可以看出辅音韵尾对元音的影响要大于辅音声母。
图3 元音开商数据图
3.2.2 辅音开商数据分析
四种不同发音方式的浊辅音开商数据平均值、最大值和最小值统计结果见表2。
表2 辅音开商数据表
开商表明的是声门开启时间所占的比例。表中数据显示辅音开商范围在56%~61%之间,其中颤音与元音相连接时其开商最小,最大的为鼻音,这与基频数据的表现形式基本一致,数据也表明了浊辅音发声时声门的开启时间在整个发声周期中所占比例最大。
3.3 速度商数据分析
3.3.1 元音速度商数据分析
通过图4我们可以看出,速度商均值集中在190%~332%之间,变化幅度较大。在不同音节结构中,元音速度商的变化趋势基本是一致的。从图中还可以看出辅音声母会降低元音的速度商的值,而韵尾则会提升元音的速度商,综合CVC的数据,还可以推测辅音韵尾对元音速度商的影响更大一些。和基频以及开商值一样,元音速度商值也受自身生理特性舌位和唇形影响。
图4 元音速度商数据图
3.3.2 辅音速度商数据分析
不同发音方式的浊辅音速度商数据统计情况如表3所示。
表3 辅音速度商数据表
速度商描述的是声门打开的动作与声门关闭动作两者所占用时间的比例关系。表中数据显示辅音速度商范围在210%~265%之间,其中半元音与元音相连接时其速度商最小,最大的为鼻音,这与基频数据的表现形式基本类似,数据也表明了浊辅音发声时嗓音的开启时间远远大于其关闭所占用的时间。
3.4 嗓音参数之间的显著性分析
前面关于元音和辅音嗓音参数之间的差异只是直观观测得到的一些结论。为了更进一步研究嗓音参数之间的影响关系,又对所有的数据按照不同分类进行了显著性分析。
3.4.1 元音嗓音参数的显著性分析
为了更好地了解元音和结构的不同对于元音嗓音参数的影响,文中以元音和不同的音节结构为因变量分别对元音的基频、开商和速度商进行了双因素分析,分析结果如表4、表5和表6所示。所有分析均设置置信水平为0.05。由于用于检验音节结构因素的P值为0.29大于置信水平,所以音节结构的不同对于基频的影响是不显著的,同样可以得到结论即元音的不同对于元音的基频数据变化影响也是不显著的。表5和表6中由于P值均小于置信水平,所以音节结构和元音的不同会造成开商和速度商的显著性变化,而开商和速度商主要描述的是声门开启的时间之间的比例关系,因而可以推断音节结构和元音的不同可能导致在发声方式上会有所改变。
表4 基频数据方差分析表
表5 开商数据方差分析表
表6 速度商数据方差分析表
3.4.2 辅音嗓音参数的显著性分析
辅音嗓音参数的分析主要考察的是不同的发音方式之间的关系。文中主要进行的是以辅音为因变量的单因素方差分析,其中置信水平也设置为0.05,结果得到关于基频、开商和速度商的P值均小于置信水平,因而对于嗓音参数的影响是显著的,这是综合的结果。由于有四种发音方式,之后又进行了Post-Hoc进行了检测,以检测不同发声方式之间的差异是否显著。结果鼻音和边音、鼻音和半元音之间差异不显著,鼻音和颤音、颤音和边音、颤音和半元音、边音和半元音之间均有显著的差异。
3.5 嗓音参数之间的关系
在分析嗓音参数之间关系部分,根据已有的研究结论,作嗓音声学分析及电声门图数据统计时,元音[a]的嗓音分析参数指标的敏感度更高,因此实验中选择元音[a]作为分析样本[14-15]。图5、图6和图7分别描述了基频、开商和速度商之间的相互关系。
图5 基频和开商关系图
图6 基频和速度商关系图
图7 开商和速度商关系图
上述三幅图反映了速度商、开商和基频之间的比例关系,我们对每组数据均做了多项式趋势线,根据图示可以发现,随着基频数据的提高,其开商的数据会逐渐减小,基频和开商之间存在反比关系。同样基频和速度商之间的数据通过双坐标轴显示,两者也是互为反比关系,基频数据的提升会使速度商变小。另外通过图示可以发现,速度商和开商二者之间存在正比关系。而开商和速度商分别反应的是谐波能量和共振峰能量的大小,说明了基频数据的变化也会在一定程度上影响发声时谐波和共振峰的能量。
文中通过实验语音学的方法对藏语拉萨话单音节嗓音声学参数基频、开商和速度商进行了研究,并进行了显著性分析,总结整理出关于嗓音信号的规律表现: 1)元音相邻辅音的生理特性会使得元音基频值变大。2)辅音声母会提升元音的开商值,辅音韵尾会降低元音的开商值,但是辅音韵尾对元音开商值的影响要大于辅音声母的影响。3)辅音声母会降低元音的速度商,而辅音韵尾会提升元音的速度商,其中辅音韵尾对元音速度商的影响更大一些。4)通过显著性分析发现,音节结构和元音的不同可能导致在发声方式上会有所改变。辅音的嗓音参数中,鼻音和边音、鼻音和半元音之间差异不显著,鼻音和颤音、颤音和边音、颤音和半元音、边音和半元音之间均有显著的差异。5)三种主要参数之间,基频和开商之间存在反比关系,基频和速度商之间也是互为反比关系,速度商和开商二者之间存在正比关系。
这些规律反映出藏语拉萨话在发声形态上的一些差别,对于语音信号的进一步处理提供了数据支撑,而且对语音学、言语工程和信号处理等不同领域的相关研究都有一定的推动作用。本文对藏语拉萨话嗓音声学参数研究还处于探索阶段,如何通过嗓音研究来量化不同的嗓音发声类型和不同人的嗓音特性是下一步要继续研究的重点和难点。
[1] 孔江平.论语言发声[M].北京:中央民族大学出版社,2001:1-3.
[2] 吴宗济,林茂灿.实验语音学概要[M].北京:高等教育出版社,1989:34-44.
[3] 孔江平.语言发声研究及相关领域[C]//第五届全国现代语音学学术会议论文集.北京: 中文信息学会,2001:1-8.
[4] 瞿霭堂,金效静.藏语方言的研究方法[J].西南民族大学学报,1981,03:76-84.
[5] 陈小莹,华侃等.藏语拉萨话元音单音节嗓音声学参数分析[J].语文学刊,2010,15:66-67.
[6] 陈小莹,陈晨等.基于EGG信号的安多藏语元音嗓音特征研究[J].西北民族大学学报,2010,1:20-23.
[7] 金鹏.藏语简志[M].北京: 人民出版社,1983:7-16.
[8] 于洪志,高璐等.藏语机读音标SAMPA_ST的设计[J].中文信息学报,2012,26(4):66-72.
[9] 胡阿旭.基于气流气压信号的汉语普通话声韵母研究[D].兰州: 西北民族大学硕士学位论文,2010.
[10] 图雅.关于声学语音学研究方法的几个问题[J]. 内蒙古大学学报,2004,06:94-98.
[11] 吴宗济.实验语音学与语言学[J].语文研究,1981,01: 11-16.
[12] 尹基德.汉语韵律的嗓音发声研究[D].北京: 北京大学博士学位论文,2011.
[13] 杨阳蕊,李永宏等.言语声学参数分析系统设计[J].西北民族大学学报,2009,01:37-41.
[14] 蔡青.元音声样的选择对嗓音声学分析及电声门图检查的影响[D]. 武汉: 湖北医科大学硕士学位论文,2000.
[15] 侯丽珍,韩德民等.嗓音检测中元音声样的选择[J]. 听力学及言语疾病杂志,2002,01:16-18.
Acoustic Analysis of Monosyllabic Voice of Lhasa Tibetan
CHEN Xiaoying1, AI Jinyong2, YU Hongzhi3
(1. School of Information Engineering, Tibet University for Nationalities, Xianyang Shaanxi 712082,China; 2. Library of Tibet University for Nationalities, Xianyang,Shaanxi 712082,China; 3. Northwest University for Nationalities,Chinese National Language Information Technology,Lanzhou,Gansu 730030,China)
This paper describes an empirical study on the voice characteristics of Lhasa Tibetan words. Based on the annotation of the monosyllabic voice in Tibetan Lhasa dialect, the acoustic parameters in of vowels and consonants are then extracted, followed by a statistical analysis of the pitch, open quotient and speed quotient. The results show that the voice parameters of different vowel and consonant are affected by the vocal style and the syllable position, and different vowels and syllables structure will affect the open quotient and speed quotient value.
Lhasa dialect; characteristic of phonation; F0; open quotient (OQ); speed quotient (SQ)
陈小莹(1983—),硕士,实验师,主要研究领域为实验语音学。E⁃mail:ajycyt@126.com艾金勇(1983—),硕士,馆员,主要研究领域为藏文信息处理。E⁃mail:ajy0529@126.com于洪志(1947—),博士生导师,教授,主要研究领域为藏文信息处理。E⁃mail:yuhongzhi@hotmail.com
1003-0077(2015)03-0184-06
2013-06-27 定稿日期: 2014-08-28
西藏自治区专项资金项目(13BYY001);中国民族语言文字信息技术实验室开放基金课题(2012KF013);藏语方言的孤立词识别技术研究(11myz05)
TP391
A