杨 健,李海光,张晓玲
(1.大理大学数学与计算机学院,云南大理 671003;2.大理大学学生工作处,云南大理 671003)
白族是中国主要少数民族之一,主要居住在云南省大理白族自治州,其民族语言白语分大理(南部),剑川(中部),碧江(北部)3种方言。语言基本词汇一致度很高,但发音存在地区差异,使得差异大的地区之间初次通话比较困难。由于种种原因,白族语言一直没能形成全民族通用的文字表达,而大多数白族文学艺术作品、民族风俗和文化习俗都是靠语音传播,口耳相传延续。在当今全球化的经济文化冲击下,随着汉语普通话的进一步普及,越来越多的白族青少年不愿意学习和传承本民族语言,白语和其他少数民族的语言一样面临着消亡的危境。此外,大理白族自治州各地方区县的白语发音各有特点,甚至不同县域的白语不能相互理解,这对白族语言的保护和民俗文化传承延续造成极大困难,同时也对大理民族地区教育、经济和旅游产业发展形成一定的阻碍。
让计算机能够识别少数民族语音,进而建立少数民族语音资源和语料库,是保护和传承民族文化的非常重要的手段。已有研究面向白语语音识别问题〔1〕,然而没有白语专门的大规模语音语料库存在。白语没有自己的文字,因此进行语言学研究时,只能借助语音及其翻译结果。对白语建立文本语料库只能借助其他语言翻译或是拼音∕国际音标标注方式,对民族语言资源的保护效果有限,且难以将实际的大规模语言发音资料应用于白语研究。针对上述问题,本文思考建立大规模白语语音语料库,同时基于语言学研究需求建设相应分析接口。内容主要包括:首先介绍目前白语语言学及语料库建设研究现状,然后提出白语语音语料库的系统结构,并针对白语语音语料采集和存储提出相应的解决措施,针对白语语言学研究问题提出建设语言学分析接口方法。最后,对本文工作进行总结并提出展望。
1.1 语料库研究在语料库和语言资源库建设的理论研究上,国内外学者已有较多的成果,例如刘岩对中国少数民族濒危语言语音语料库的建设进行了分析,认为这类语料库的特点和作用、工作步骤及建库过程中遇到的难点与汉语或非濒危语言语音数据库有所不同,并分析了建库的困难〔2〕。柳欢从建库的背景与状况、原则与方法、问题与对策等方面提出了如何在少数民族地区建立双语语料库的意见和建议〔3〕。在语料库建设的应用研究方面,新疆大学、内蒙古大学、西藏大学和西南民族大学的研究者分别从事了维吾尔语、蒙语、藏语和彝语的语料库建设研究,并取得一定成果。
在语料库建设的标准化研究上,国际民间协作组织——开放语档联盟(Open Language Archives Community,OLAC)针对语言资源数字网络化立档制定了一整套技术标准和建议性文件。这些文件对于制定我国濒危语言有声语言资源建设的语料类型标准、语言编码标准、数据格式标准和内容描述规范,有重要的参考借鉴价值。
1.2 白语语言研究和语料库建设在白语的语言结构∕功能相关研究上,国内学者从单个语素到构词法再到特定功能词的使用方面都有较多的研究成果,例如对剑川白语语素no的研究〔4〕,对鹤庆白语构词法的研究〔5〕,以及对白语中的否定词和否定表达式及否定标记的特征与来源进行研究〔6〕。在白语语音发音及语法规律分析上,也存在有较多研究成果,例如利用HTK工具构建HMM模型来实现白语语音识别〔1〕,对白语中具有拟声现象词汇的文化信息进行解析〔7〕,对白语南部方言中来母关系词声母的读音进行分析,从历史层次角度探索其来源〔8〕。
语料库建设方面,徐琳、赵衍荪等编著的《白语简志》提出了白语的分类系统,并从多个角度对白语进行了介绍,对白语语料库建设方面有积极的指导作用;王锋主持了中国社科院重点项目“白语方言词汇语料库”;还有大理州白族文化研究所编撰,徐琳主编的《大理丛书·白语篇》等著作,都对白语研究和语料库建设起到积极的推动指导作用〔9〕。
然而,不像藏语蒙语等有长期使用文字的语言,其语料库建设开展较为容易,需要借助于计算机信息处理技术的白语语音语料库建设仍然处于起步状态,目前还没有较为大型的面向完整句子的语音语料库存在。在大数据等信息技术分析和应用上,以白语语音为研究对象,并利用模式识别、统计学和数据分析方法对白语开展研究的案例还较少。
为了建立具有代表性的语音语料库,本文建立的孤立词语音语料库主要参考《大理丛书·白语篇·卷三》〔9〕中所列方言词汇表进行录制采集,该方言词汇表以1957年白语调查词汇材料为基础,又根据经济文化发展的实际情况进行了增删修改,共收录词汇2 897个。同时,本文建立的语音语料标注参考该书所列白语的声韵母及声调标注方法。
语音语料库与文本语料库最大的不同是面向的语料不是文本,而是语音数据,因此语料采集、存储和预处理都有所不同,具体体现在:
(1)采集方式不同。文本语料库的文本来源较多,采集起来也较为容易。而语音语料库为了获得语音数据,就需要在日常的语言使用中进行录音。常用方法可以采用电话录音或是从包含语音的影视作品中截取。为了使得语音语料数据更加准确,还可以使用专门的录音设备进行录制。由于白语在不同地域上发音有所不同,为了获取这些差异性,就要求语音数据较为准确,外部噪音较少,所以,本文采用的是以专业录音笔在安静环境下开展录音的方式。
(2)存储方式不同。不像文本语料只需要进行文字的存储,语音语料库中的主体是语音文件,这些文件需要良好的存储组织结构和检索方法。在具体实施时,不但要存储原始语音文件路径,还需要存储经过预处理(例如降噪)后的文件路径。此外,为了有效开展语言学研究,还需要存储对应语音的语料标注结果。对于白语语音语料库来说,不但要存储原始语音和降噪后的语音,还要存储语音对应的含义(汉语释义)和对应的语言表示符号(拼音或国际音标标注符号及音调等)。
(3)预处理方式不同。文本语料采集后以文字形式存在,而语音语料则以语音数据的形式存在,因此在语料加工和预处理上也有所不同。在获得初始语音语料数据后,需要对这些数据进行相应的分段标记,不但包括词语单位、词性、句法、语义等内容,还需要针对语音数据的特殊性进行额外标记,例如在录音文件的前后静音处、连续语音的词间隔处的静音标记,以避免这些静音阶段对后期语音识别和自动标注模型的生成造成影响。此外,还需要原始语音的降噪处理,减少外部噪音对语音分析的影响。对于白语来说,由于没有对应文字,需要将语音用某种语言符号进行表示,尽量减少歧义和二义性,从而不影响后面的语音分析和语言学研究。
3.1 语料库系统总体结构一个面向语言学研究和应用的完整的白语语音语料库应当包含语音资源库建设、语料库语音数据的预处理、语料库建设等几个层次。语音资源搜集除了使用对话录音的方式,还可以考虑建立移动应用或通过网络采集的方式,白族语音档案也是数据来源之一。采集后的音频数据需要进行预处理,包括背景去除降噪,目标语音的提取和纯化,内容含义识别,语音构成四要素的提取和定量化表示。经过处理后的语音数据已经有了具体内容的表示,成为在统一的低噪音背景下的语音资料。这些大量的语音资料存储在以云计算为基础的存储设备上,形成语音资源库。在语音资源库基础上,充分利用语音识别、语义标注,建立白语语音语料库及模型库,用以存放大量的白语语料资源和用于语音识别的模型表示。在建成的语料库的基础上,基于语料库表示和建设技术,结合关系数据库系统结构,可以构建语料库应用系统,提供语言学研究和其他应用研究的语音语料的汇集、查询、处理和提取功能。整个语音语料库系统设计的总体框架见图1。
图1 总体框架图
3.2 语料库系统的数据结构一个完整的语料库系统不应当只包含有语料的存储和查询功能,还应当为语言学研究和语言应用系统的开发提供辅助的工具,因此,本文提出的白族语音语料库系统在数据存储上包含了如下几个方面。
(1)原始语音资源库,保存了原始的录音数据及其相关信息,主要包括:录音文件,语音释义,录音来源(录音者的地域信息、年龄、性别、工作单位),录音环境,录音时间等。
(2)降噪语音资源库,是将原始录音文件经过数字化降噪处理后得到的语音资源,主要应当记录的信息有:降噪后的语音数据,语音释义,语音数据对应的标注(声∕韵母及声调标注、词标注)。
(3)语音模型库,保存有从语音降噪预处理到连续语音识别和语音合成的一系列经过机器学习得到的模型资源。这些模型资源分别根据不同的应用接口采用文本或二进制的格式进行保存,主要包含有下列模型:语音降噪模型,孤立词识别模型,连续语音识别模型,声母∕韵母字典,孤立词字典,自动标注模型,隐马尔科夫识别网络模型(Hidden Markov Model,HMM),基于深度学习算法的语音特征学习模型。
上述的资源库部分结构性较强的信息可以采用关系数据库系统进行保存,例如原始语音资源的基本信息。然而,部分资源无法使用关系数据库系统进行保存,只能采用关键词对应文件的方式以文件形式进行保存,例如下面的HTK语音识别库中的对于一个具有6个状态的提取了39维梅尔频率倒频谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征的HMM模型的定义:
~o <VecSize> 39 <MFCC_0_D_A>
~h"proto"
<BeginHMM>
<NumStates> 5
<State> 2
<Mean> 39
0.0 0.0 0.0...
<Variance> 39
1.0 1.0 1.0...
<State> 3
<Mean> 39
0.0 0.0 0.0...
<Variance> 39
1.0 1.0 1.0...
<State> 4
<Mean> 39
0.0 0.0 0.0...
<Variance> 39
1.0 1.0 1.0...
<TransP> 5
0.0 1.0 0.0 0.0 0.0
0.0 0.6 0.4 0.0 0.0
0.0 0.0 0.6 0.4 0.0
0.0 0.0 0.0 0.7 0.3
0.0 0.0 0.0 0.0 0.0
<EndHMM>
类似于语音文件,这些模型文件也需要在数据库中建立查询和使用的链接路径。
语料库标注是对语言进行多维、多层面分析的基础,语料库的有效利用很大程度上有赖于语料库标注的层次和质量,语料库分析则有赖于计算机环境的支持〔10〕。为了充分发挥白语语音语料库在语言学研究中的作用,必须要设计好供其他计算机应用程序调用的语料库的外部应用接口。
4.1 语料库的通用接口白语语音语料库最基本的功能就是能够提供语音语料的查询接口。由于白语没有自己的文字,因此只能以其他语言文字(如汉语)作为查询的关键字入口。由于在数据库中存储了语音语料的释义,可以利用这些释义作为关键字查询比较的字段。此外,由于是面向口语语音的,在查询结果显示上也与文字语料库不同,需要采用音频播放控件来播放相应的语音。
此外,语料库用于传统语言学分析的另一个功能就是对语料的使用频度进行估计。在语料库建设初期,可以参考其他语言的已有的词的使用频度并结合语料释义与之进行匹配而形成白语语音预料的使用频度。如果实施了增量式的语料更新措施,还需要构建相应的算法,以便于对相应的词频进行实时的或是定期的批量更新,从而使得词频统计数据能够逐渐贴近实际使用情况。
4.2 面向语音识别和语音合成应用接口建立白语语音语料库的另一个重要目的是进行白语语音识别和语音合成应用的研究。语音识别的传统方法是将语音的原始频域和时域信号进行采样、分帧,并以帧为单位提取语音信号的特征描述,根据特征描述建立音素、孤立词或是连续语音的识别模型,而这种识别模型通常以HMM模型来表示。自2011年,深度学习在语音识别问题上获得巨大成功以来,新型的语音识别框架引起研究者的注意。本文研究以此为基础,提出面向语音识别和语音合成应用的接口,建立的框架见图2。
图2 语音识别和语音合成应用接口
4.3 增量式的语料库更新语料库在只有初始语料的情况下,受到语料规模的限制,并不能完全反应出语言使用的真实情况,如果语料库能够根据时间的推进不断进行语料的补充,则反映出来的语言特征将越来越贴近语言本身。本文设计了如下的增量式语料库更新框架(见图3)和相应算法,分别针对孤立词和连续语音。当有新的语料进入系统后,对整个系统进行更新。
图3 增量式语料库更新
语料(词)的使用频度是进行语言学研究时需要的一个重要参数,本文设计的框架中,初始频度将根据其他大型文本语料库进行初始化,当有新的词(如果是连续语音,则需要分词)进入系统后,对词的使用频度进行更新,然后使用更新的频度对语音识别模型进一步优化。假设增加的语料中,引用了某词一次,则更新后的该词使用频度按下式进行更新:
其中,Fnew和Fold分别表示该词的更新后的使用频度和更新前的使用频度,而Nold表示该词在原有语料库中出现的次数。在更新完词的使用频度后,该词在语料库中的总次数Nnew也需要更新:Nnew=Nold+1。这是针对更新语料中包含了一次词条使用的情况,若进行批量的词条更新,则相应的公式也很容易能够得出。
作为中国较大少数民族白族使用的民族语言,白语没有对应的文字,且受到日益增强的外部经济文化的影响,处于日益消亡的境地。充分利用计算机技术,建立白语语音语料库是保护民族文字和促进民族文化进一步发展的重要举措。本文对白语语音语料库建设中涉及的语料采集存储和预处理问题进行了阐述和解决,并提出白语语音语料库的系统结构。同时,面向语言应用的两大方面:语音识别和语音合成,提出在语音语料库基础上相应应用程序接口的建设问题,同时给出了增量式语料库更新方法和语料频度更新公式。下一步的工作将在系统结构分析的基础上,充分利用数据库技术、深度学习技术和多种语音识别工具,建立大规模白语语音语料库并建设语音应用接口系统。
〔1〕张令通.基于HTK的白族语音识别方法〔J〕.大理学院学报,2013,12(10):27-32.
〔2〕刘岩.关于中国少数民族濒危语言语音语料库的设计〔J〕.中央民族大学学报(哲学社会科学版),2006,33(4):133-136.
〔3〕柳欢.试论少数民族地区“双语语料库”的建立〔J〕.中国校外教育旬刊,2013(28):3.
〔4〕吴福祥.白语no33的多功能模式及演化路径〔J〕.民族语文,2015(1):3-22.
〔5〕段泗英.白语的句法手段构词法浅析:以鹤庆白语为例〔J〕. 安徽文学月刊,2014(5):128-129.
〔6〕张军.白语方言否定标记的特征与来源〔J〕.大理学院学报,2012,11(7):39-44.
〔7〕王丽梅.白语的拟声现象初探〔J〕.教师教育论坛,2012(2):43-45.
〔8〕王锋.白语南部方言中来母的读音〔J〕.民族语文,2013(3):56-62.
〔9〕大理白族自治洲白族文化研究所.大理丛书·白语篇〔M〕.昆明:云南民族出版社,2008.
〔10〕黄昌宁,李涓子.语料库语言学〔M〕.商务印书馆,2007:14-15.