一个面向藏族学生双语教学的汉藏语料库建设

2023-11-24 11:02梁青青周小燕赵春艳
关键词:藏族人藏语声调

梁青青,周小燕,赵春艳

(兰州文理学院 传媒工程学院,甘肃 兰州 730000)

我国是多民族国家,除汉族外,藏族是人口众多的少数民族之一,在我国约有七百万人口(2016),主要分布在西藏自治区、青海省、四川省西部、云南迪庆和甘肃甘南等地区.生活在这些少数民族地区的人们,藏语是他们的主要语言[1].国家为了民族统一和共同发展,目前正在积极推广普通话.《国家中长期教育改革和发展规划纲要(2010-2020年)》中第九章民族教育的第二十七条指出:大力推进双语教学,全面开设汉语言文学课程,全面推广国家通用语言文字[2].因此,面向藏族学生的双语教学对于提高他们的普通话水平尤为重要.然而,藏族人的普通话发音容易受到其母语发音习惯的影响,总会带有一些固定类型的错误发音,这就需要有专业教师对其普通话发音进行针对性的纠正.这种方式费时费力,效率也不高.随着语音信号处理技术的不断成熟以及智能语音技术的快速发展,计算机辅助语言学习系统(Computer Aided Language Learning,CALL)[3]用于藏族学生的普通话发音评估越来越受到人们的青睐.构建一个适用于藏族学生普通话发音评估的语料库是其应用的基础.关于藏语信息技术方面的研究起步较晚,资源也相对缺乏.根据知网查询发现,已有的成果有:西北民族大学藏文信息处理研究所设计的安多藏语语音合成语料库;中国社会科学院民族学与人类学研究所、西藏语委、新疆大学和西南民族大学共同完成的“藏、维、彝民语语音参数数据库”;西藏大学藏文信息技术研究中心的“面向藏语声纹识别的语料库”[4].这些数据库主要用于语音合成和语音识别,大部分还处于语料收集和研究阶段,而且现有的语料库也未涉及普通话声韵调发音特征和藏语声韵调发音特征的差异.因此,本文以甘肃地区藏族学生在双语教学中学习普通话发音为研究内容,先从语言学角度对比分析藏语和标准普通话的发音特征,归纳总结出藏语语者普通话的发音特征,在此基础上进行文本设计和语音录制,构建合适的语料库.进一步对录制的音频文件进行分层标注:短语层用汉字标注;音节层用汉语拼音标注;利用计算机可读音标(Speech Assessment Methods Phonetic Alphabet,SAMPA)来标注音素层;用调值来标注声调信息,最后,将所有标注信息写入.TextGrid文件中.

1 语料库设计

在设计文本语料库的过程中,需要科学地设计语料内容,用尽量少的语料覆盖语言的所有发音现象.藏族人在说普通话时容易受到母语的影响,说出的普通话具有明显藏腔藏调.由于藏语和汉语在结构上具有相似性,所以采用汉语中拼音的构成,即声母、韵母以及声调的概念来比较分析藏语语者的普通话语音特征.本文结合藏族小学的课本,从声母、韵母以及声调上对比藏族学生的普通话与标准普通话的差异,归纳出藏族学生易混淆的声韵调,进行文本语料的设计.

1.1 汉藏双语的发音特点

汉语是音节型语言.汉语拼音有23个声母,24个韵母,每个汉字的拼音都有声母(零声母)、韵母和声调.声母起辅音作用.韵母由单元音或者元音与辅音构成,可以分为单韵母、复韵母和鼻韵母.声调分为阴平、阳平、上声和去声.

藏语和汉语属于同一个语系,并且藏语也是音节型语言.目前藏语方言主要分为3类:卫藏方言(拉萨话)、康方言(德格话、昌多话)和安多方言,本文以卫藏方言中的拉萨藏语为研究对象.藏语和汉语不同,藏语是由字母组合形成的文字,每个字母都有自己的发音,字母的组合实际上就是音与音之间的拼合,所以称之为拼音文字[5].

1.2 藏语和汉语的主要区别

1.2.1 声母发音特征的区别

根据拉萨藏语声母系统来进行分析,藏语和普通话共享20个声母,如表1所列.除此之外,藏语和普通话还有其特有的声母,如表2所列.通过对比发现藏语相对普通话多出4个声母,但藏语声母系统缺少清擦音f[f]和h[x],藏族人通过借用其他音来发这两个音[6].例如,有时会将f[f]音发成[ph],有时会用藏语声母中的[h]来匹配普通话中的h[x],或者用浊擦音[]来发h[x].赵金灿[7]在调查中发现,藏语中的送气声母在双音节词中的后位会变成不送气,这个习惯导致他们学习普通话时声母被替换.因此,藏族人在学习“c”“z”“s”“ch”“zh”“sh”时会遇到较大困难,在普通话声母中还容易混淆p[ph]-b[p]、t[th]-d[t]、k[kh]-g[k]、c[h]-z[]、ch[h]-zh[].

表1 藏语和普通话共享的声母

表2 藏语和普通话各自特有的声母

1.2.2 韵母发音特征的区别

藏语和普通话共享11个韵母,具体情况如表3所列,藏语34个特有韵母如表4所列.从表中可以发现,藏语和普通话的韵母差异比声母系统大.藏语中特有的鼻化元音是普通话中没有的,但是藏语中缺少了普通话中的复元音.另外,丰富的辅音韵尾是藏语韵母区别于普通话的另一个主要特征.

表3 藏语和普通话共享的韵母

表4 藏语特有的韵母

根据赵金灿等人的调查显示,藏族人在学习普通话时,容易发生偏误的韵母有:①把o[o]发音成 u[u];②普通话中的e[],在藏族人中容易发成[ɛ],藏族人容易出现舌位的错误;③藏语中没有儿化音,因此,藏族人在在带儿化音的词中儿化音常常发音为零声母;④藏语中因缺乏普通化的ou[ou],常常与[u]混淆;⑤藏族人在学习an[an]、ang[ɒŋ]时容易将两者混淆;⑥藏族人在学习en[n]、in[in]时也极易出错.

1.2.3 声调发音特征的区别

藏语和普通话一样都是声调语言,不同的声调可以表达不同的语义,也可以表达不同的语法功能.对于声调的研究通常会用“五度值记调法”来表示不同的调音[8],藏语和普通话的调型调值如表5所列.

表5 藏语和普通话的调型调值

通过对比发现,普通话的阴平调值高于藏语的高平调,二者的调值略有差异;普通话的去声和藏语的高降调在调型和调值上都一样.这两种语言的差别在升调和曲降调,普通话的阳平是中升调,而藏语是低升调,藏语调值整体比普通话要低.普通话的上声调值是214,属于中降升调,而与其对应的藏语调值是132,属于是低升降调.从调值可以发现,普通话的上声是先降后升,而藏语的是先升后降,二者差异较大.因此,藏族人学习普通话声调的难点主要在于阳平和上声.

1.3 文本语料设计

本文主要从藏语和普通话在声母、韵母和声调上的主要差别出发来设计文本语料库.由于双语教学语料库既能对小学生普通话发音进行纠正,也能用来研究藏语的语音分析、韵律建模、语音转换和语音合成等,因此,该语料库应满足以下条件:

(1)应尽可能覆盖汉语普通话中所有由声母、韵母和声调组合而成的音节;

(2)藏语音节中的浊辅音和辅音韵尾在日常发音中经常被简化,进而会给藏族学生学习普通话发音造成一定影响.因此,在构建文本语料库中需要重点考虑对这种情况的覆盖;

(3)需要考虑声调发生变化的情况,例如:由两个三声的字组成词时,第1个字通常会变为二声;一些词语及句子中存在声调变成轻声的情况.

基于以上条件,结合小学阶段的科学课教材,通过对比普通话和藏语在声韵母、声调、语调、节律、语速等方面的异同,设计面向藏族学生学习普通话的双语教学文本语料[9],语料库要包含单字、词组和连续语句.单字要包含藏语和普通话里面所有的声韵母组合以及不同声调组合;词组需要包含所有不同声调组合的词语;连续语句要包含陈述句、祈使句、疑问句等不同句型.最后,我们构建单字500字、双字词1 000词、三字词400词和语句800句4种藏语的文本语料.以下为设计的4种藏语的文本语料实例.

2 语音语料录制

选择甘南州以普通话为主要教学语言的合作第一小学的藏族学生录制藏语,录制藏语的学生既会说藏语,也会说普通话,录制普通话的汉族学生只会说普通话.最后,从一到六年级,每个年级挑选10名学生,5名藏族学生和5名汉族学生,共60名学生,其中男生28名,女生32名,录制全部文本语料.

所有的语音语料都是在专门的录音环境中通过专业的录音设备录制的.录音设备采用高保真话筒和外置声卡,保证音频采集质量,利用笔记本电脑安装的CoolEdit软件进行音频录制.录音过程中CoolEdit软件可以实时显示语音波形,根据波形幅值大小的变化来保证录音人最佳音量和语速,这样可以最大限度避免反复录制,保证录音质量.最后录制好的语音语料以单声道、16位采样精度、44.1 kHz采样频率保存为WAV格式的文件.从录制的具体内容来看,首先录制了单字,单字简单,录制时不易出错;然后录制了双字和三字,词语在朗读的时候会有变调的情况,需要录音人仔细斟酌;最后录制了语句,语句较长,需要把控好语速和语调.

录音的音频总时长大约为8 h,为了使用方便,后期通过专门的音频软件CoolEdit对所有的音频文件进行编辑切分,并保存为对应的文件.对于单字、二字词和三字词,根据字数分类,分别保存为对应文件;一个语句保存为一个文件,并按照类别进行编号.

3 数据集标注

普通话和藏语都是音节作为最小发音单位,阅读、分析也都以音节为单位,因此要将双字词、三字词和句子切分成单个音节,标注出每个音节的起止位置,得到每个音节的时长.普通话和藏语每个音节的基本发音都由声母、韵母和声调决定,根据这些语音特征,本文采用国际上通用语音标注软件Praat,对语料库进行标注[10].其标注分为5个层级:第1层为line,表示汉字标注;第2层是pinyin,是语音针对汉语拼音的标注;第3层为Phone层,利用国际上通用的机读音标方案SAMPA来标注音素;第4层为mistake层,标注可能的发音偏误信息;第5层为tone层,标注声调信息.

汉语具体标注的实例如图3所示,具体标注说明如表6所列.

图3 汉语标注实例

表6 标注符号说明示例

对标注过的语料编写脚本程序,将标注好的内容按照和语音文件一一对应的关系写入.TexGrid文件,里面包含了标注的所有层级信息.最后通过Praat软件自动提取基频值和共振峰,以供后续分析使用.

4 结语

本文主要介绍了如何构建一个面向藏族学生在双语教学中学习普通话发音评估研究的语料库.从语言学角度对比分析藏语和标准普通话的发音特征,归纳总结出藏语语者普通话的发音特征.基于此设计文本语料,录制语音语料.用Praat软件对录制好的语音语料进行5层标注,并将其独立保存为.TextGrid格式文件,获得该语音信息的相关特征.所构建的语料库既可以用来研究藏语计算机辅助发音系统设计,也可以用来进行藏语的实验语音学研究.今后将会从覆盖性、全面性、质量和可重复使用性等指标,对该语料库进行评估.

猜你喜欢
藏族人藏语声调
声调符号位置歌
浅谈藏语中的礼仪语
声调歌
汉藏语及其音乐
到拉萨途中
坐着轿车学声调
单韵母扛声调
藏语拉达克话的几个语音特征
藏族人为何能适应缺氧环境?
藏族人为何能适应缺氧环境?