古力努尔·艾尔肯,祖丽皮亚·阿曼,地里木拉提·吐尔逊
(1. 新疆大学 信息科学与工程学院,乌鲁木齐 830046;2. 乌鲁木齐职业大学 信息工程学院,乌鲁木齐 830002)
维吾尔语三音节词中元音和谐的声学特征分析
古力努尔·艾尔肯1,祖丽皮亚·阿曼2,地里木拉提·吐尔逊1
(1. 新疆大学 信息科学与工程学院,乌鲁木齐 830046;2. 乌鲁木齐职业大学 信息工程学院,乌鲁木齐 830002)
该文从提高语音合成自然度的实际需求出发,首次从实验语音学的角度从《维吾尔语语音声学参数库》中统计出了333个三音节词,其中再筛选了93个全和谐词和半和谐词,并对其元音的宽带共振峰模式、共振峰值、音高、时长和音强等韵律参数进行了统计分析,归纳了其共振峰、音高、时长和音强分布特点来考察元音和谐的基本声学特征,总结出了一些重要的规则和结论,为参数式或波形拼接式语音合成系统中调整合成前的元音和谐问题提供了重要的参考依据。
三音节词;元音和谐;声学分析;语音合成;维吾尔语
维吾尔语元音和谐的声学分析既是语言学语音学研究的重要内容,又是语言合成的一项基础性研究。元音和谐指的是元音在语音结构上的彼此搭配关系。从发音特征的角度,一般认为现代维吾尔语的元音和谐有两种类型: 部位和谐和唇状和谐[1]。无论是部位和谐还是唇状和谐都是前音节元音的特征决定后续元音的特征,元音和谐的特征按照固定的方向进行扩散[2]。
维吾尔语的元音和谐研究已有了较长的历史,例如,探讨了维吾尔语语音和谐规律,包括维吾尔语元音在前后方面的和谐,唇状方面的和谐,元音变位现象。还有论述了宽带共振峰模式、共振峰值(F1,F2)、元音和谐的动态发音特征及元音和谐的声学元音图中的分布特点来分析元音和谐的基本声学特征[3]。但是,因采用方法及数据量的限制和缺乏实验语音学的支持,到目前为止,未能彻底解决维吾尔语元音和谐研究中的声学问题。这严重影响着维吾尔语教学、科研和言语声学工作。
近几年来,随着语音学和计算机技术的发展,维吾尔语语音合成技术取得了巨大的进步。目前波形合成为技术的语音合成技术已经可以合成出清晰度、可懂度较好的语音。然而,在合成语音的自然度方面仍需进一步提高。为了进一步地提高语音合成的自然度,本文从实验语音学的特点出发,对维吾尔语元音和谐的声学表现及语音学特征,共振峰、音高、音长和音强等诸多要素在维吾尔语固有词里的分布模式、分布规律以及它们对元音全和谐与元音半和谐的影响进行深入的研究。通过排除语法、句法、语用、语境等方面的干扰,探讨共振峰、音长、音高和音强等诸多要素在现代维吾尔语单词中的分布模式,为高自然度维吾尔语音合成技术的研究提供重要的规则参考。
2.1 三音节词的来源
维吾尔语属于阿尔泰语系,是一种黏着型语言,在音系上有自己的元音和谐律[6]。本文利用中国社会科学院民族学与人类学研究所语音研究室和新疆大学多语种信息技术重点实验室语音信息处理研究室共同承担的教育部、国家语委民族语言文字规范标准建设及信息化项目的研究成果《维吾尔语语音声学参数库》,统计出了333个三音节词,再筛选了93个三音节和谐实验词,其中47个全和谐词和46个半和谐词。
2.2 三音节词的录音及声学参数提取
《维吾尔语语音声学参数库》建设过程中,邀请了两名维吾尔族主持人进行录音,男女各一人,年龄30~40岁,每个单词朗读两遍,用IBM R51型笔记本电脑和与之匹配的外置声卡,在中国社会科学院民族学与人类学研究所标准录音室里录音。利用Praat语音分析软 件[7]提取了全和谐和半和谐词的
声学参数,如每个音节和每个元音的时长(单位: 毫秒 ms);每个音节上采集三个点(起始点、转折点和结束点)作为音高目标值(单位: 赫兹 Hz);每个音节上采集最强的点作为音强目标值(单位: 分贝 dB)。元音前四个共振峰F1-F4测量在元音目标位置上,元音目标位置是共振峰模式典型,能量强的部分(单位: 赫兹 Hz)。
为了更全面地了解元音和谐的声学特征,通过讨论确定了要考察分析的对象: 首先,把三音节和谐词分成全和谐词和半和谐词两类,并分别对其(词首音节、词中音节、词尾音节)进行了统计,其中全和谐词有四种类型,半和谐词有两种类型,即后-后-后(圆/不圆)式全和谐词(记为HHHY/HHHBY)的声学特征,前-前-前(圆/不圆)(记为QQQY/QQQBY)式全和谐的声学特征,后-后-后式半和谐词(记为HHH)以及前-前-前式半和谐词(记为QQQ)的声学特征。最后,分别从它们的时长、音高、音强和共振峰分布模式来进行元音和谐的声学特征分析。
表1 HHHBY式全和谐词的参数
表2 HHHY式全和谐词的参数
表3 QQQBY式全和谐词的参数
表4 QQQY式全和谐词的参数
表5 HHH式半和谐词的参数
表6 QQQ式半和谐词的参数
在以上表格中,所列的数据是研究元音和谐声学特征必不可少的参数。其中,元音时长表示语言持续的时间, 一般以毫秒 (ms) 或秒(s)为单位; 对
于音高特征,人们习惯用“音高”来区分音的频率高低(单位: 赫兹 Hz)、其计算方法为: 首先,每个音节(词首音节,词中音节,词尾音节)上采集三个点(起始点、转折点和结束点)。其次,分别对其进行统计分析,最后计算出每个音节的平均值就是表格中的音高值;每个音节上采集最强的点作为音强目标值(单位: 分贝 dB)。音高和音强都是音的物理属性,音高是音的高低,决定于物体振动的频率,例如,简谱用1234567再加高音点低音点来表示不同音高的高低,从视觉上我们一眼就能看出乐谱中音的高低;音强是音的强弱,决定于物体振动的幅度,振动幅度大则音强,反之则音弱[8]。在以上分析的基础上,我们可以进一步研究两组发音人元音和谐词的元音时长、音高、音强和共振峰分布模式,以便找到其一般规律。
3.1 元音时长分布模式
图1~6为两位(1男1女)维吾尔族主持人朗读的三音节元音和谐词中元音时长(平均值)的分布模式示意图。图中可以看出,在HHHBY式全和谐词元音时长分布模式中, 无 论 是男性还是女性的词末元音时长值比非词末元音的均要高(依次分别为词尾>词中>词首);而词首、词中和词尾音位置女性的元音时长值明显高于男性;在HHHY式全和谐词时长分布模式中,词首、词中和词尾位置上女性的时长值均比男性高,女性时长值分布特征为词尾> 词首>词中,而男性的时长值分布特征为词首>词尾>词中;HHHY式全和谐词时长分布特征与QQQY式全和谐词的特征基本上类似,唯一不同之处是QQQY式全和谐词中,女性词首时长值均大于男性。无论是HHH/QQQ式半和谐词(男/女)元音时长分布模式中,词末音节元音的时长值始终比非词末音节元音的时长值要长;QQQBY式全和谐词的时长分布模式也有同样的性质。由此得到的一般规律是前音节元音的特征决定后续音节中元音的特征,元音和谐的特征按照固定的方向进行扩散。
图1 HHHBY式全和谐词的时长分布模式
图2 HHHY式全和谐词的时长分布模式
图3 QQQBY式全和谐词的时长分布模式
图4 QQQY式全和谐词的时长分布模式
图5 HHH式半和谐词的时长分布模式
图6 QQQ式半和谐词的时长分布模式
3.2 音高分布模式
图7 HHHBY式全和谐词的音高分布模式
图8 HHHY式全和谐词的音高分布模式
图9 QQQBY式全和谐词的音高分布模式
图10 QQQY式全和谐词的音高分布模式
图7~12为两位(1男1女)维吾尔族主持人朗读的三音节元音和谐词中元音音高(平均值)的分布模式示意图。由图可知, QQQBY/HHHBY式全和谐词元音音高分布模式是: 无论男性还是女性都先低后高再低,即“L-H-L模式”;音高分布特点是词首音节平稳,词中音节呈上升趋势,词尾音节呈下降趋势,音高曲线的落点低。QQQY/HHHY式全和谐词的音高分布特征与QQQBY/HHHBY式全和谐词的音高分布特征相异;因此可以看出,和谐词的变化规律是按照固定的方向进行扩散,即词首音节到词尾音节由下往上、 三个音节呈往上趋势。QQQ/HHH式半和谐词(男/女)变化呈现出先低后高再低的特征,即呈抛物线状,音高曲线的落点高。通常情况下成年男声的基频分布在90赫兹到120赫兹,成年女声的基频主要分布在200赫兹到240(甚至更高),上图中也证明了这一点。
图11 HHH式半和谐词的音高分布模式
图12 QQQ式半和谐词的音高分布模式
3.3 音强分布模式
图13 HHHBY式全和谐词的音强分布模式
图14 HHHY式全和谐词的音强分布模式
图15 QQQBY式全和谐词的音强分布模式
图16 QQQY式全和谐词的音强分布模式
图17 HHH式半和谐词的音强分布模式
图18 QQQ式半和谐词的音强分布模式
图13~18为两位(1男1女)维吾尔族主持人朗读的三音节元音和谐词中元音音强(平均值)的分布模式示意图。由图可以看到,在HHHBY式全和谐词音强分布模式中,男性的音强分布模式是: 词尾>词中>词首;而在女性的音强分布模式中,词尾音节与词中音节的音强值均等,同时都强于词首音节,其分布模式为: 词尾=词中>词首。在QQQY式全和谐词音强分布模式中,无论是男性还是女性的词末元音音强值比非词末元音的均要强(依次分别为词尾>词中>词首);QQQ式半和谐词音强分布特征与QQQY式全和谐词的特征基本上类似。在QQQBY/HHHY式全和谐词音强分布模式中,男性的音强分布模式是: 词尾>词中>词首;而在QQQBY式全和谐词(女)中,词中音节与词首音节的音强值均等,其分布模式为: 词尾>词中=词首;在HHHY式全和谐词(女)中词中音节的音强值略强于词尾音节,其分布模式为: 词中>词尾>词首;HHH式半和谐词的音强分布特征类似于QQQBY式全和谐词的分布特征。由此可得到的一般规律是无论全和谐词还是半和谐词,元音的[+前]或[-前]特征是维吾尔语元音和谐的基本特征,唇状和谐特征只是舌位和谐的伴随性特征。
音长、音强和音高问题是分析元音和谐的主要声学关联物,它们的分布模式因语言而异[9]。为了客观而更准确地研究维吾尔语三音节词元音和谐(全和谐词与半和谐词)的声学特征,我们在宽带语谱图上测量每个元音共振峰稳定段的共振峰值,求出每个音节元音样点共振峰值的平均值,并对男/女共振峰平均值进行比较。其结果分别见图19和图20。
图19 全和谐词的共振峰分布模式
图20 半和谐词的共振峰分布模式
共振峰和舌位问题是声学语音学的基本理论问题,很多学者从不同的领域(生理,声学,听觉)出发研究了这个问题[10]。图19的结果显示三音节全和谐词中,男声各音节的元音共振峰F1~F4值都小于女声。其中,QQQBY式全和谐词与HHHBY式全和谐词的各元音共振峰F2值分别在1 500和1 950以上;在圆唇元音参与构成的QQQY式全和谐词与HHHY式全和谐词中,各音节元音共振峰F2值都在1 200和1 850以上。由此得到一般规律是圆唇对F2值有降低作用,而对F1,F3和F4值的变化规律不明显。图20的结果显示,QQQ式半和谐与HHH式半和谐词中女声的共振峰值一直高于男声,而男女声的共振峰F1值均在650以下,共振峰F2值在1 750以下,共振峰F3值在3 200以下。这表明F1频率增加同开口度相关,频率值越高开口度越大,频率值越低开口度越小;F2与圆唇度有关,频率越低舌位越后,频率越高舌位越前;F3和F4值变化不明显。
本文首次对维吾尔语固有三音节词的元音全和谐和半和谐词的特征进行了声学分析,统计归纳了其自然节奏模式(音长分布模式、音强分布模式和音高分布模式),另外从研究三音节全和谐和半和谐词的共振峰值变化特点几方面来考察了元音和谐的基本声学特征,首次从实验语音学角度论证了“维吾尔语的元音和谐以元音的前或后特征为和谐特征”的传统说法,得出了如下结论:
由元音时长分布模式我们可知,无论是男性还是女性时长值词末元音比非词末元音均要高,元音和谐的特征按照固定的方向进行扩散的特征。音高分布模式特点说明,半和谐词具有典型的“L-H-L”模式(低-高-低);QQQY/HHHY式元音全和谐词的变化特征与QQQBY/HHHBY式元音全和谐词的变化特征不同,和谐词的变化规律按照固定的方向进行扩散。音强分布模式说明,无论是全和谐词还是半和谐词,元音的[+前]或[-前]特征是维吾尔语元音和谐的基本特征,唇状和谐特征只是舌位和谐的伴随行特征,并且三音节全和谐词和三音节半和谐词的均值起伏不大,并且在62dB到74dB之间。而共振峰特点是每个音节内的共振峰相对稳定,具有明显的单元音共振峰特征,这表明元音和谐中每个音节内的元音发音时发音器官处于相对稳定状态。此方面的研究不仅对语音合成技术提出了更高的要求,而且说明提高自然度仍然是语音合成技术的当务之急。
[1] 哈力克,吾麦尔.基础维吾尔语[M].乌鲁木齐:新疆大学出版社,1997: 86-88.
[2] 易斌.现代维吾尔语元音和谐形式及其特点[J].民族语文,2006(2): 51-53.
[3] 易斌.现代维吾尔语元音的实验语音学研究[M].北京:中国社会科学出版社,2012: 92-93.
[4] 阿力木江·托乎提.维吾尔语语音和谐规律处理及其软件设计[D].北京:中央民族大学,2007年.
[5] 赵相如,朱志宁.维吾尔语简志[M].北京: 民族出版社,1985: 16-21.
[6] 魏玉清,张吉生.维吾尔语元音和谐的自主音段分析[J].语言科学,2011,10(5): 511-517.
[7] http://www.fon.hum.uva.n1/praat/[DB/OL].
[8] http://zhidao.baidu.com/question/183890099.html.
[9] 祖丽皮亚·阿曼,艾斯卡尔·艾木都拉.维吾尔语双音节词韵律特征声学分析[J].中文信息学报,2009,23(5): 104-107.
[10] 鲍怀翘,阿西木.维吾尔语元音声学初步分析[J].民族语文,1988,5: 4-13.
古力努尔·艾尔肯(1988—),博士研究生,主要研究领域为实验语音学。E-mail:2219658263@qq.com祖丽皮亚·阿曼(1980—),硕士,讲师,主要研究领域为实验语音学。E-mail:281363669@qq.com地里木拉提·吐尔逊(1958—),学士,教授,主要研究领域为实验语音学。E-mail:tursundilmurat@gmail.com
欢迎订阅《中文信息学报》
《中文信息学报》( Journal of Chinese Information Processing )是全国一级学会——社团法人中国中文信息学会和中国科学院软件研究所联合主办的学术性刊物,创刊于1986年10月,现为双月刊。2007年改版为大16开,每期126页,由商务印书馆出版,成为商务印书馆期刊方阵中的期刊之一,清华大学印刷厂印刷。
《中文信息学报》是我国计算机、计算技术类83种刊物中的中文核心期刊。主要刊登中文信息处理基础理论与应用技术方面的高水平学术论文,内容涵盖计算语言学(包括语音与音位、词法、句法、语义、语用等各个层面上的计算),语言资源建设(包括计算词汇学、术语学、电子词典、语料库、知识本体等),机器翻译或机器辅助翻译,汉语和少数民族语言文字输入输出及其智能处理,中文手写和印刷体识别,中文语音识别及文语转换,信息检索,信息抽取与过滤,文本分类、中文搜索引擎,以自然语言为枢纽的多模态检索,与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究,与语言计算相关的语言学研究等。也刊登相关综述、研究报告、成果简介、书刊评论、专题讨论、国内外学术动态等稿件。
读者对象主要是从事中文信息处理的研究人员、工程技术人员和大专院校师生等。
《中文信息学报》(国内统一刊号: CN11-2325/N;国际统一刊号: ISSN 1003-0077)国内外公开发行,国内定价每期30元,全年180元;海外US$50/年(平邮)。
国内发行处: 《中文信息学报》编辑部
国外发行处: 中国图书进出口总公司 100020 北京88-E信箱
1. 邮局汇款
收款单位: 《中文信息学报》编辑部
地 址: 北京8718信箱 《中文信息学报》编辑部
邮政编码: 100190
收 款 人: 《中文信息学报》编辑部
2. 银行转账
开户银行: 工商行北京市分行海淀西区支行
户 名: 中国中文信息学会
账 号: 0200004509014415619
《中文信息学报》编辑部
地 址: 北京海淀区中关村南四街4号7号楼201房间
电 话: 010-62562916 010-62661046
电子信箱: jcip@iscas.ac.cn
Acoustic Analysis of Vowel Harmonious in Tri-syllabic Uyghur Words
Gulnur Arkin1, Zulpiye Aman2, Dilmurat Tursun1
(1. College of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046, China;2. College of Information Engineering, Urumqi Vocational University, Urumqi, Xinjiang 830002, China)
A statistical analysis is carried on 93 complete/incomplete vowel harmonious words chosen from 333 tri-syllabic words in Uyghur Language Acoustical Database. It is focused on the basic acoustic features of tri-syllabic complete/incomplete harmonious words including the broadband resonance peak mode, resonance peak value, vowel duration, vowel pitch and the sound intensity. The rules and findings are of great importance for adjusting vowel harmony in synthesis sub-procedure of parametric or waveform concatenation based speech synthesis system.
tri-syllabic word; vowel harmony; acoustic analysis; speech synthesis; uyghur language
1003-0077(2015)04-0199-08
2013-07-19 定稿日期: 2013-07-19
国家自然科学基金资助项目(61063023)
TP391
A