康方言—德格话SAMPA_KT设计

2016-11-02 06:43陈小莹
智能计算机与应用 2016年3期
关键词:国际音标德格藏语

陈小莹

(西藏民族大学信息工程学院,陕西咸阳 712082)

康方言—德格话SAMPA_KT设计

陈小莹

(西藏民族大学信息工程学院,陕西咸阳712082)

本文通过收集整理藏语德格话的音系,归纳出对应的音系特征,依据SAMPA的设计原则并参照汉语和藏语的国际音标,最终设计并实现了藏语德格话机读音标系统。藏语机读音标的设计可以为藏语语音工程的实现打下坚实的基础,可以真正地实现文音转换功能。

藏语;德格话;机读音标;SAMPA

1 机读音标系统

1.1机读音标系统概述

机读音标SAMPA(Speech Assessment Methods Phonetic Alphabet)是1987-1989年间欧洲的ESPRIT(欧洲信息技术研究开发战略计划)开发的一种计算机可读的音标系统,该系统采用拉丁字母、数字以及其它简单、易于输入的键盘符号组合形式来替代目前国际音标中的各种特殊符号。当今世界上各种语言的语音数据库都使用该符号系统,使得计算机在输入国际音标时更加方便,同时也能便捷地表示出各种复杂的国际音标符号。但是每一种语言的音标都有各自的语言版本,不同版本之间的SAMPA表并不能完全兼容,因此SAMPA表还不能表示出所有语言的国际音标。针对SAMPA表的这一缺陷不足,1995年伦敦大学的语言学教授提出并设计了X -SAMPA,这是一种可以代表所有国际音标的单一代码表,而且是在SAMPA的基础上完成扩充,并可以用ASCII字符表示国际音标的所有符号[1]。由此,SAMPA即已成为一个在国际音标基础上可以表示世界上各种语言的机读音标系统。目前,SAMPA已广泛应用于欧洲的主要语种以及日语等东亚语言。国内的汉语、粤方言和台湾的“国语”也顺应潮流相继设计了SAMPA方案,在一定程度上推广了SAMPA的应用。同时,众多语音工作者也开始对SAMPA展开研究探讨,其研究成果在嗓音医学和计算机语音教学等方面也获得了诸多可观应用[2]。

本文在汉语普通话的机读音标设计方案的基础上,设计了一套藏语德格话的计算机可读的SAMPA_KT机读音标系统,并实现了藏语到SAMPA_KT的转写。与藏语的国际音标或拉丁字符转写比较,藏语的SAMPA_KT转写具有可以方便地利用键盘直接键入SAMPA标记、而且SAMPA_KT可以解决拉丁形式缺少的字符和添加各类附加符号的变体等优点。

1.2机读音标系统设计原则

SAMPA的设计初衷是为了使计算机在尽可能保证语言本身音系的基础上,更为了方便地对国际音标进行表示和描述。基于这一研究目的,SAMPA设定了具体原则[3]:

1)SAMPA必须遵循语言本身,并依据实际语言的国际音标进行设计。若在SAMPA字符中包含着国际音标中的特殊字符,将直接使用,否则就尽量采用符合SAMPA规则的关联符号予以代替;

2)对于相关语言系统中已经成型的SAMPA内带有的一些附加符号,也应尽量采用;

3)设计时,要兼顾呈现整体的系统性以及与其它语言的相通性。

在设计藏语机读音标系统时,输入的藏文字符首先要在遵循其本身国际音标的基础上,转换成对应的国际音标;其次,再对比汉语和藏语的国际音标。两者音标一致部分若遵循X-SAMPA标记原则,直接利用汉语机读音标系统SAMPA _SC来标记藏语拼音;两者国际音标不一致部分,则采用简单化原则,利用定义的简单符号进行标记。不同的藏语方言,虽然文字相同,但是发音却各有不同,因此不同方言区的SAMPA码即需要进行分别单独设计。具体设计流程如图1所示。

图1 德格话单音节SAMPA_KT设计流程图Fig.1 De Ge single syllable SAMPA_AT Design flow chart

2 德格话SAMPA_KT设计

由于汉语语音的研究已趋于成熟,而且藏语和汉语有许多相通的地方,所以藏语和汉语之间存在相似关系,藏语属于汉藏语系,2种语言的亲属关系可以通过同源词(包括部分语法词)的比较得到佐证[4]。如此,即可利用成熟的汉语语音技术来推进和拓展藏语语音研究。利用汉语拼音的机读音标SAMPA-SC来设计藏语拼音的机读音标SAMPA-KT。通过对照汉语和藏语的国际音标,发现汉语和藏语的国际音标有一部分是一致的,为此以国际音标为参照,将两者的国际音标一致的部分,直接利用SAMPA-SC来标记藏语拼音;两者国际音标不一致的部分,则采用简单化原则,利用定义的简单符号进行标记。对输入的藏语拼音字母,获得其国际音标,然后与汉语拼音的国际音标比较,相同的部分直接采用SAMPASC标记,不同的部分则按照简化原则,利用未使用的键盘符号予以标记。对于不同的藏语方言,虽然文字相同,但是发音并不一样,因此根据藏语方言的国际音标来设计其对应的SAMPA,设计方法相同。

2.1声母设计

德格县位于四川省西部,隶属于四川省甘孜藏族自治州,地理上位于西北部,是康巴方言区有名的文化古城,因此德格话也可认为是康方言区比较通用的语言。由于康方言使用的地区大多处在交通不便的山区,山川阻隔,并且与外界交流很少,这就使得学者对康方言的考察和研究相对而言远未成熟。

德格话音位系统中有较多的单辅音声母,包括43个单辅音音位,其中有清浊对立的塞音、塞擦音、擦音和鼻音,还有边音和半元音。在德格话中也存在清化鼻音的现象,德格话中有7个复辅音声母,复辅音也有nc型和hc型2种。具体地,nc型是鼻音与b、d、g、dz、dʐ、dʑ组合构成,hc型复辅音声母为次浊复辅音hj。德格话中以元音起头的音节都有喉塞声母存在,但是由于不具有区分意义,通常将其归作零声母处理[5]。声母转换设计如表1所示。

表1 德格话单辅音声母的SAMPA_KT转换表(部分)Tab.1 De Ge single consonant initials SAMPA_KT translation table (part)

在德格话单辅音声母SAMPA_KT设计部分,基本上采用键盘上可以直接输入的符号,其它难以用键盘输入的国际音标,直接使用和国际音标相近的且未使用过的键盘符号来标记。并且尽可能依据国际音标,采用X-SAMPA类似符号,如此则不易引起音位混淆。在设计德格话的SAMPA_KT系统时,只需要对尚未描述的语音现象进行设计,比如德格声母中的喉塞音/ʔ/需要参照X-SAMPA类似符号设计为键盘上的/?/。

2.2韵母设计

德格话中有8个单元音韵母、6个鼻化韵母和11个包含塞音韵尾的韵母,合计25个韵母,德格话中不存在复合元音[6]。韵母转换设计如表2所示。

表2 德格话辅音韵尾韵母的SAMPA_KT转换表(部分)Tab.2 De Ge complex consonant initials SAMPA_KT translation table(part)

德格话中单元音韵母是/ɑ/的机读音标采用符号“/a/”表示,其余基本元音的符号设计与其它方言区基本一致。韵母中存在带塞音韵尾的韵母同样可分2部分进行设计,而后将对应的方式组合即可,SAMPA_KT其它符号的转换基本上与拉萨话相似。另外,德格话中也存在鼻化元音和长元音,其SAMPA_ KT由附加符号SAMPA加上单元音SAMPA组成。复合元音的SAMPA_KT分别由对应的单元音SAMPA组合来表示。

2.3声调处理

康方言区声调的分化时间较晚,且声母和韵母简化程度也不一样,因而只能简单划分为2个高调类和2个低调类。但是声调类型并不稳定,而且不同区域差异较大,所以本项目对此未作更多考虑。

3 结束语

本文选取德格话作为藏语康方言区的代表,通过归纳整理德格话音系特征,在遵循SAMPA的原则下,参照XSAMPA以及汉语成熟的SAMPA_SC系统完成了藏语德格话SAMPA_KT系统的设计。藏语机读音标的设计可以为藏语语音工程的实现奠定良好基础,可以真正实现文音转换功能。同时也为藏语韵律特征研究、语音合成以及语音识别等语音工程领域研究提供科学依据。

[1]于洪志,高璐,李永宏,等.藏语机读音标SAMPA_ST的设计[J].中文信息学报,2012,26(4):66-72.

[2]张家騄.汉语普通话机读音标SAMPA-SC[J].声学学报(中文版),2009,34(1):81-86.

[3]维基百科.X-SAMPA[EB/OL].[2014-11-02].http://zh. wikipedia.org/wiki/X-SAMPA.

[4]格桑居冕.藏语方言概论[M].北京:民族出版社,2002.

[5]金鹏.藏语简志[M].北京:人民出版社,1983.

[6]胡坦.藏语(拉萨话)声调研究[J].民族语文,1980(1):22-36.

Kang dialect words dege SAMPA_KT design

CHEN Xiaoying
(School of Information Engineering,Tibet University for Nationalities,Xianyang Shanxi 712082,China)

Through the collection of the phonetic system of the Tibetan dege,the paper sums up corresponding phonetic feature.After that,according to the principles of design of SAMPA and with reference to the international phonetic alphabet of Chinese and Tibetan,the paper furtherly designs and implements the Tibetan dege phone read phonetic system.Tibetan machine read the phonetic alphabet design can lay a solid foundation for the realization of Tibetan speech engineering,which can truly realize the text to speech function.

Tibetan;Dege dialect;machine readable phonogram;SAMPA

TP391

A

2095-2163(2016)03-0015-03

2016-04-12

西藏自治区科技厅项目(2015ZR-14-19)。

陈小莹(1983-),女,硕士,实验师,主要研究方向:实验语音学。

猜你喜欢
国际音标德格藏语
浅谈藏语中的礼仪语
国际音标和汉语拼音之间的关联
星星
漫画
藏语拉达克话的几个语音特征
自然拼读法和国际音标在英语教学中的应用比较
索德格朗
藏语地理分布格局的形成原因
初中英语国际音标教学模式初探
《栴檀瑞像传入中国记》的回鹘语与藏语译文