韦 韧
(中国社会科学院 民族学与人类学研究所,北京 100081)
在语音数据库建设方面,我国近30年的成果显著。如中国科技大学、中国科学院声学研究所、中国社会科学院语言研究所联合建立了《汉语语音识别资料库》,中国社会科学院语言所还建立了《现代汉语自然口语语料库》《自然对话语料库》《现代汉语方言自然口语语料库》;中国科学院自动化所建立《旅游咨询口语对话语料库》和《旅馆预定口语对话语料库》;北京语言大学建立《汉语中介语语音语料库》;香港大学和香港理工大学联合建立《香港广州话语音资料库》以及台湾建立的《高山语语音语料库》等[1]。这一系列语料库的建立为语言学的进一步研究提供了大批量语料,也积累了技术经验,为研究成果提供了客观依据。
与汉语方言相比,藏语语音数据库建设方面的成果相对来说就少得多。藏语拉萨话语音声学参数数据库收集了733个藏语拉萨话单音节,并分析归纳出4个数据群,分别是声母(辅音)数据群、核心元音数据群、鼻音数据群和声调数据群。数据库还设置了三个功能,包括排序检索功能、统计分析功能和绘图功能[2]。安多藏语语音合成语料库包含1万个词汇,这些词汇是从各类电子词典和电子文本中选择获取[3]。藏语单音节声学参数数据库收集了囊括藏语三个方言的约10万词条,共整理归纳出约6 000个音节,并对音节进行穷尽性录音、标注国际音标、归纳音节类型。与此同时,在整理、归纳与分析音节结构的基础上,设计和建立了包含39项声学参数的藏语单音节声学参数数据库[4]。
在藏语语音识别和语音合作研究方面,讯飞科技有限公司与西藏大学等单位合作,搭建了藏语语音识别和合成的技术框架,在书面藏文的文读语音识别和合成方面做了大量的工作。
但是藏语语音识别的基础工作还比较薄弱,尤其是在藏语方言土语语音资源建设方面,还远远不能满足当前语音识别的要求。
中国境内的藏族使用藏语作为他们的民族语言,藏语的使用范围较广,遍布整个藏区,较集中的使用地区有西藏自治区、青海省、四川省甘孜藏族自治州及阿坝藏族羌族自治州、甘肃省甘南藏族自治州、云南省迪庆藏族自治州。根据谱系分类,藏语归属于汉藏语系藏缅语族藏语支。藏语有三个方言,分别是卫藏方言、安多方言和康方言。卫藏方言的标准音是拉萨话,使用范围在西藏自治区拉萨市以南。安多方言的使用范围在青海省藏区、四川省阿坝藏族羌族自治州和甘肃省甘南藏族自治州。康方言的使用范围在西藏自治区拉萨市以北、云南省迪庆藏族自治州、四川省甘孜藏族自治州和青海省玉树藏族自治州。
藏语方言语图标注库存储了藏语方言的字、词及句的文本、音频及元数据等其他属性信息。藏语方言语图标注库依靠自然语音数据,采集自然语音,并对语音进行标注,为语言学的本体研究和语言学信息化技术服务。藏语方言语图标注库建设可以分为两大部分:一是藏语方言数据的建设,包括语料编制、语料采集、语料标注。二是数据库的建设,包括数据库的结构框架设计、数据管理。具体分为以下四个阶段:①数据库设计;②语料采集;③语料标注;④数据库使用和维护。
语图是在计算机上绘制输出的语音频谱图,语图能直观表达出语音的各项声学特征。语料库是采集到的自然语言材料数据库,原始语料需要经过分析和处理后才能成为计算机能识别、并且能分析利用的资源。这个分析处理的过程即是标注。
文本语料的选择编制和语料标注的可靠性是藏语方言语图标注库构建中的重难点。语料的收集途径要求真实、客观,收集的方法要求科学。文本语料在设计时,要充分考虑到所挑选的文本具有代表性,以保证语料库数据可以全面囊括自然语言特征。按照这个选取标准和选取方法构建出来的语料库既全面又没有冗余。语料标注采用荷兰语言学家开发的Praat软件,进行切音标注,绘制语图。如果只用一人进行手工标注,无法确保切分标注结果的准确性,如果雇佣多人进行手工标注,短时间内又无法找到大批量的专业标注人才。如果雇佣的标注人员专业知识不扎实,切分标注结果的准确性得不到保证。解决上述两种情况的对策办法,一是在工作开始前开展集中培训,提高手工标注切分人员的专业知识,以减少因人的主观倾向性产生的误差;二是增加手工标注切分人员数量,同一语料分配给多个人同时处理后,再统一汇总,以保证标注切分结果的准确率。
藏语方言语图标注库的建立可以系统地记录保存藏语方言语音,对语料进行科学的切音标注,绘制出语图。内容上主要包括语料录音整理、语音自动标注、语图标注数据库的建库三个方面,在研究方法上选择定性研究和定量研究相结合,语料的选取原则、切分、标注与分析属于定性研究,语料的收集、数据库建设属于定量研究。首先,在藏语三个方言分布区域内依据制定好的语料选取原则,选择多个语料数据采集点,内容分为字、词、句、篇章。所采用语料从目前已建好语料库中选取,再到各采集点选择合适的发音人,采取发音人一对一地调查录音。想要创建一个全面标准的藏语方言语图标注库,语料的客观性和代表性是最根本的要求。因此,调研人员需要有较强的调研能力,必须具有丰富的田野经验,熟悉语料采集的整个流程,能够熟练操作录音设备和电脑软件,具有善于沟通交流的能力。调研人员还要有很强的专业知识,能够快速核对语料,发现问题及时就地解决,以节约人力和时间成本。语料的切分、标注通过Praat软件完成。具体的操作步骤:①将文本语料转写成国际音标。②使用软件自带的自动标注功能对语料进行初次标注。③专业标注人员核查,对已经自动标注过的语料进行二次标注,对标注错误或不合理的地方进行手动调整。④将所有文本语料、录音材料和语图标注数据集合成数据库系统,以方便后续研究的调用。
为建设数据库所开展的语料采集工作有利于保护藏语方言,并且在语音数据库建设中提出的一些方法和理论对创建其他少数民族语言语音数据库是一个有利的参考。藏语方言语音数据库的创建过程中,需要运用语言学、应用语言学和计算机语言学学科知识,是社会科学和自然科学的交叉结合。该数据的建成不仅限于为藏语的语言学研究提供包含语音、词汇、语法三方面的基础材料,还为藏族文化、历史地理和风俗习惯提供了文字证据。同时,发挥了一个示范作用,推动社会科学和自然科学的交叉运用研究。藏语方言语图标注库是一种重要而必需的资源储备,是自然语言处理工作的前提准备和必要环节,只有创建了一个全面准确的熟语料数据库,才能有效地开展藏语的语音识别与合成、藏文文本自动翻译和人机交互技术等工作,对国家安全具有直接的应用价值。