面向语音合成的藏语同音字研究*

2022-04-22 09:17尼玛珠杰拉巴顿珠
西藏科技 2022年3期
关键词:同属同音字藏语

尼玛 珠杰** 拉巴顿珠

(1.西藏大学信息科学技术学院;2.省部共建西藏信息化协同创新中心,西藏 拉萨 850000)

0 引言

随着信息处理的快速发展,藏文信息处理也取得了长足的发展,本文重点研究字—音转换方法。在藏语连续语音中存在语音音素不集中,且音素定义不够统一、数据分散等问题,出现了合成的语音不自然、不流畅等情况,例如,“”在以往的语音合成当中给这9 个字的音素各不相同,导致合成结果一直并未达到实用效果。藏语语音合成中,目前很少有研究音素定义不统一对语音合成造成的影响,而字—音转换是语音合成系统前端文本分析的重要模块,因此,如何解决音素统一问题成为语音合成系统不得不解决的问题。

目前,国内外英语、汉语等语言中的同音字研究相对成熟,已经在语言教学、语音合成研究等中得到了很好的使用效果,而目前极少有针对藏语同音字的深度研究,只有在部分文献中曾简单提到了关于藏语同音字的存在,如周季文编著的《藏文拼音教材》[1]中指出,若藏文字符附加在后加字和后面时,该音节字的读音不发生变化,例如藏文音节字和和它们的主要区别是音节字是否存在再后加字,但音节字和是否存在再后加字对音节字的读音没有变化,因此两个音节字称作为同音字。若虚词加在没有后加字的音节后面时,在发音上起的作用与后加字相同,例如为同音字。后加字在发音上起的作用完全相同,例如为同音字。若下加字加在别的字母下面在发音上无作用,例如为同音字。若带有上加字时,发音无变化,例如为同音字。若带有上加字的再带有前加字(只有)时,发音无变化,例如为同音字。另外,嘎玛曲珍等编著的《藏文拼音与精要语法教材》[2]中指出:(1)加了下加字后,读音实际上与相同,即:这四组都是同音字。(2)音高不送气的基字加下加字后,皆变为音高不送气的卷舌音,即为同音字,高音送气的基字加下加字后,均变为高音送气的卷舌音,即为同音字,低音送气的基字加下加字后,皆变为低音送气的卷舌音,即为同音字。经过文献查阅,目前除了以上2 篇教材中初步提出了藏文类似于其他语种也存在同音字,并简单分析了同音字的出现形式外,没有针对藏语同音字的深入研究及相关统计结果。另外,以上2 篇教材及相关文献中至今为止仍没有界定藏语同音字的概念,以及未展开同音字的结构分析、数据统计等工作。

随着藏语语音合成的深入研究及语言本身的不断发展,藏语同音字的深入研究成为至关重要的一项基础性工作,包括藏语同音字概念的界定、结构分析、字库的建立及统计等工作。故本文针对目前藏语语音合成过程同音字的处理需要,对藏语同音字的概念、字的结构、统计等方面进行了较为深入的研究。

1 藏语同音字相关概念定义

在本小节主要定义本文涉及的三个概念,分别为同音字、基础字、音素三个概念,并分析在同音字构成规律和同音字判别方式中起到的作用。

表1 藏语基础字类别及实例

18738 个藏字集合是按照以上作为基础字而产生的,同样同音字也是208 个基础字上产生的[4]。基础字是构成同音字的一个基本要素,是判断同音字和音素的基础。

定义2:音素是构成音节的最小单位或最小的语音判断单元,例如这四个音节的基字、后加字相同,因此这四个音节由两个辅音字母音素和四个元音音素组成。这四个音节的元音、后加字相同,因此这四个音节由六个音素组成。“”(西藏)这两个音节由五个音素组成。在判断同音字时,音素是最基本的判断要素,例如这些同音字中,这五个字的音素为,音素相同读音相同,而前加字、上加字、下加字对读音无影响,不作为音素处理[5]。

定义3:藏语同音字是指发音部位、气流强弱、声调、音素都相同的不同形状或不同字符序列组成的字或音节,例如等。藏语同音字以阳性字、中性字、准阴性字、极阴性字的差别来区分同音字读音。在藏语语音中,不管同音字的字符个数多少,只要音素相同其读音相同。由于同音字的音素相同,在语音合成前端文本分析中同音字的音素标记规范一直是不可或缺的一项基础工作,且音素标记规范程度决定训练数据的稀疏问题,也就是直接影响合成训练模型的结果。故对相同音素的同音字给定相同的音标是本文的研究重点,例如相同音素的同音字给定拉丁或国际音标情况如表2 所示。

表2 相同音素的同音字标记音标实例

根据上述读音分析结果,在藏语连续语音合成的文本标注过程中,将把所有同音字给出同一个读音标记或者音素标记,例如:藏语句子“”的标注结果为“kla cha klatsi ga klo.kla ma kla med kla srog dang.Rkang pi'kla sha ra kla yin”,在句中“”“”和“”三个音节为同音字,故最终读音定义为“kla”的相同读音标记。

2 藏语同音字发音构成规律

在此按照藏语语音理论体系和语音合成的角度,研究藏语一般同音字构成规律和特殊同音字规律,每个大类规律研究中主要包括基础字音素构成规律及类别定义、音节音素构成规律及类别定义。

2.1 藏语一般同音字构成规律

以下七类根据藏语传统文法“字性组织法”中的阳性字、中性字、准阴性字、极阴性字的差别来区分同音字构成规律。

2.2 藏语同音字特殊规律

以下二类同音字构成规律与一般同音字构成不同,在此作为特殊同音字的情况进行处理。

2.2.2 在实际藏语文本中经常出现藏文音节与梵音转写藏文构成同音字的情况,藏文文本中使用普遍的梵音转写藏文有等。在此作为特殊同音字的情况进行处理,如:。

3 藏语同音字统计

3.1 一般同音字的统计

根据(2.1)同音字构成情况分析,将藏语同音字共分为七种不同的规律。在此一是完成了同音字的统计,二是研究了同音字的分类,并定义了相应的音标,具体分析情况如下:

表3 同属的同音字(部分)

表3 同属的同音字(部分)

表4 同属的同音字(部分)

表4 同属的同音字(部分)

表5 同属的同音字(部分)

表5 同属的同音字(部分)

表6 同属的同音字(部分)

表6 同属的同音字(部分)

表7 同属的同音字(部分)

表8 同属的同音字(部分)

表8 同属的同音字(部分)

表9 同属的同音字(部分)

表9 同属的同音字(部分)

3.2 特殊同音字的统计

根据(2.2)藏语同音字的特殊结构分析,将藏语同音字共分为2 种不同的类型,其具体分类中所收集及统计结果如下:

表10 “基础字加后加字和黏着词”同属的同音字(部分)

表10 “基础字加后加字和黏着词”同属的同音字(部分)

3.2.2 “梵音字符”结构的同音字,构成该类同音字的梵音字共有14 个。共收集统计到14 个同音字,部分同音字的统计情况如表11 所示。

表11 “梵音字符”同属的同音字(部分)

4 总结与展望

根据以上藏语同音字的统计和分析结果得出:在藏语中除了几个特殊的字外,藏语同音字以不同的字性来判断其读音,在此同音字分为一般同音字和特殊同音字,一般同音字可以分为7 种不同大类,特殊同音字可以分为2 种不同的大类,其中每个大类又根据不同的音素划分为不同程度的小类,小类也就是同一个音素构成的同音字,并最终对每个小类定义了拉丁转写和国际音标的读音标记,一般同音字以18738 个藏字为依据,将归类为2539 类(不同音素的字)同音字和341 个无同音字,特殊同音字还需要进一步统计,因此特殊同音字的统计数据无归类在18738 个藏字中。

本文针对目前在藏语语音合成前端语言模型中较为突出的音素统一问题展开了深入的研究,研究的内容遵循了藏语传统文法,结合藏语本身特有的语音特点,深度分析了藏语语音结构,以及在藏语语音合成中同音字的发音规律,较为全面的统计及分析了藏语同音字的发音归类问题,并收集整理了较大规模的藏语同音字,为进一步分析和处理藏语语音合成前端语言模型提供了有力素材。藏语虽然具有很强的语言规律,但由于藏语本身的复杂性及语音结构的不确定性,信息处理用藏语语音结构分析过程中仍遇到很多难以解决的困扰,总结出来规律难以覆盖藏语语音合成中出现的所有情况。在今后。的科学研究工作中继续加大对同音字发音规律的研究,完善藏语同音字数据的统计,并测试总结出来的同音字规律在实际语音合成中的具体表现。

猜你喜欢
同属同音字藏语
浅谈藏语中的礼仪语
藏语传统辞书词目编排法探析
当代女性藏语长篇小说《花与梦》中女性成长主题研究
悬置、隐藏与冒犯:松太加“藏语电影”中的“作者”话语变奏
耳听为虚 慎辨为实
同音字 我会分
同音字
耳听为虚,细辨为实
承认两岸同属一中是开启台湾幸福的密码