基于互信息和T检验值的白语数字化保护研究

2020-09-10 07:22施洪贞李顺良罗新磊
关键词:互信息中心词白族

施洪贞,李顺良,罗新磊

(云南民族大学 电气信息工程学院,云南 昆明 650500)

白语目前被视作为无文字少数民族语言的代表之一,是“洱海文化”的主要载体.近年来白语汉化现象越来越突出,主观上讲大理白族生性包容开放,积极吸收汉文化和周边少数民族的文化;客观上讲历史上政权更迭,不同民族文化交织,使得大理白语汉化现象由来已久[1-4].2008年周锦国等[5]在白族人口比例最大的大理剑川县(白族占总人口91.43%)抽样调查,发现2 000个白语基本词中有107个汉语借词.2013年罗递等[6]在剑川县民族中学调查白语使用情况,在汉文化的影响下,普通话的主导地位已经深入白族学生的心里.2012年赵金灿等[7]在大理市和鹤庆县选取了3个白族聚居的村落,总计86户430人,其中白族人数420,对以上人员进行白语使用情况调查发现,不会方言的仅占12.3%,不会普通话的占43%.2015年张万君等[8]在剑川石龙村小学调查儿童白语使用情况,数据显示参与调查学生中只有44.4%的学生喜欢说白语也喜欢听别人说白语.张颖等[9]在大理周城村对495名村民进行问卷调查发现,在汉文化和旅游业影响下,越来越多的村民开始学习汉语甚至英语,白语能力逐渐衰退,主要表现在数词量词、计量单位等不常用的词汇.以上学者的调研已经证实白语弱化、汉化,多语混用现象在大理已经十分普遍.然而,白族的文化习俗、民族风俗、大量的文学艺术作品绝大多数依靠白语口耳代代相传流传至今.因此作为白族文化的重要载体,白语的保护和传承需要各方的努力.

早年间,人文社科学者对白语的保护做了大量工作,著有《白族文字方案》(草案)、《白文拼音读本》、《白汉词典》对白语的传承和保护功不可没.近年来,李超[10]提议由政府主导从大众传媒、白语师资、白语传习所等方面给白语传承提供基础保障.杨健等[11]建立了面向语音识别和语音合成应用的白族语音语料库.通过检索中国知网发现,目前白语的研究主要围绕语系、语音、使用情况等方面,而探索白语数字化保护的文章相对较少,因此本文基于赵衍荪、徐琳编著的《白汉词典》,从数字化方面探索白语传承和保护.

本文利用最新的OCR技术,将《白汉词典》转换成机器可读字典(machine readable dictionary,MRD),建立基于拼音方案的白语文本语料库,使用计算语言学中的MI值和T值计算白语词项搭配的可靠性,发掘白语中的常用典型词项搭配和低频固定搭配,为机器翻译的搭配词典做准备,有序推进白语数字化传承工作.

1 语料库的来源

根据黄建华等[12]对词典宏观结构研究结论,《白汉词典》属于双语词典中外向型的教学词典,该词典系统地将白语词素(或称语素)立为词目,并且在收词立目、词目编排方面应充分考虑外族读者的特殊需求.林明金等[13]的研究表明词典的词目、义项、例证、附录、词源、注释、插图提供了充分的民族文化信息,尤其文化注释可以增大双语词典的文化信息,《白汉词典》较为完整地收录了大理白族语言,对白语的推广和传承有不可替代的作用,同时也是研究白族文化的重要资料.这是本文选择《白汉词典》作为研究对象的重要因素.词典的部分节选如下图1所示:

可以看出词典中的白语词目(head word或entry)由中括号标注,一个空格之后是对应的汉语翻译,如汉语翻译中出现注释用圆括号加以区别,冒号之后是白语和汉语例句.一词多义由①②等加以区分.但是,词典中并不是所有的词目遵守这个规则,有些词目仅有翻译,没有例句.

为了更好的了解词典的微观结构,本文利用python统计了白语词条、汉语翻译、白语例句、汉语例句的数量,结果如表1所示,由于一词多义使得汉语翻译词条多于白语词条;白汉例句数量相同;本文利用最新的OCR技术将词典转换成机器可读字典(MRD)之后,还邀请了若干白族同胞对RMD进行校对,确保文本的正确性,词典微观结构分析也再次证实了文本的可靠性.

表1 《白汉词典》微观结构

2 互信息(mutual information,MI)和零假设T检验值(T值)

基于可靠的文本语料,本文重点研究白语中的词项搭配强弱.在机器翻译系统中,强搭配词项不能仅仅依据句法和语义的规律进行逐字逐句地翻译.双语(或多语)搭配词典是机器翻译系统必不可少的配置.Bali等[14]提出词项搭配的辨别在很多研究领域中扮演非常重要的作用,比如在文本挖掘、自动摘要、机器翻译以及信息检索等方面,词项搭配的强弱判决直接关乎到系统的最终性能.目前计算语言学中常用互信息(mutual information,MI)和零假设T检验值(T值)定量分析词项搭配强弱.

2.1 互信息(mutual information,MI)

MI值用于测量中心词(node word)和其搭配词之间的相互关联程度(association strength).Metzler等[15]将词项间的依赖关系分为顺序依赖关系,独立依赖关系,全依赖关系.顺序依赖假设相邻词项间存在依赖关系,并且依赖关系是顺序依赖,中心词的出现能给搭配词的出现带来一定的信息量;独立依赖关系指2个词的出现时完全独立的;全依赖关系指两个词项完全依赖,同时出现.另外Church等[16]认为使用MI还可以定量分析语言中的各种有趣现象,比如医生/护士这种实词与实词之间的语义关系,动词和介词之间的词汇-句法共现偏好等.

根据信息论,互信息MI(x,y)定义为2个单词的联合概率P(x,y)与边缘概率P(x)和P(y)进行比较.即:

(1)

假如x和y2个单词有强关联性,联合概率P(x,y)将远大于边缘概率P(x)和P(y)的乘积,则I(x,y)≫0;假如x和y2个单词是弱关联性,那么P(x,y)≈P(x)P(y),则(x,y)≈0.在语言学中,当2个语言成分不能在同一个环境中出现,即处于互补分布,假如x和y是互补分布,那么P(x,y)≪P(x)P(y),I(x,y)≪0.

在独立依赖关系中有:

(2)

在全依赖关系中有:

(3)

2.2 零假设T检验值(T值)

然而Stubbs[17]提出MI值并不是处处可靠,当中心词与搭配词的共现频数较小或搭配词在语料库中的总频数相对较小时, 一般认为小于5,MI值的判别就失去参考意义.为了解决这类问题,在计算时需要考虑中心词与搭配词的共现频数和搭配词的独现频数,在计算语言学里,T值可以被用于判断词项组合关联度的置信度[16].

根据T检验统计理论, 假设两词项为x和y,在某语料库中联合概率为P(x,y),边缘概率为P(x)和p(y),那么两词项间的T值定义为:

(4)

3 实验和结果

3.1实验设置

本文语料来源于赵衍荪、徐琳编著的《白汉词典》,该词典于1996年4月由四川民族出版社出版,本文采用最新的OCR技术将纸质的《白汉词典》转换成机器可读字典(Machine Readable Dictionary, MRD).在此基础上借助于语料检索工具AntConc和不同的算法进行语料分析.参数设置方面,在进行语料检索时主要包含2个参数,分别控制检索定长、方向.Collier[18]提到“中心词±4”作为词项搭配研究的定长(Span),目前已经得到许多语料库语言学家的认可.因此本文定长选取2,4,左右2个方向分别检索.

3.2 实验结果分析

冯跃进[19]等认为:一般而言,MI值越大,说明中心词x对搭配词y的出现的影响就越大.本文选定语料库的最高频次词”zix”为中心词(node word),依次向左、右分别以定长4,2检索中心词的所有搭配词(collate),即2L,4L,2R,4R共4次检索.以定长为2向左(2L)检索语料库时,得到中心词zix的搭配词共有843个,其中MImax=5.37,MImin=-2.81;以定长为4向左(4L)检索,发现”zix”共有1 200个搭配词,其MI∈[6.37,-1.64].以定长为2向右(2R)检索语料库时,共计有879个搭配词,其中MImax=6.37,dMImin=-2.38;1以定长为4向右(4R)检索时,”zix”共有1186个搭配词,dMI∈[6.95,-0.94].表2、表3展示了中心词”zix”与部分搭配词y的MI值,其中f(y),f(x,y)分别是搭配词的独现频数以及中心词和搭配词的共现频数.

以向左检索为例,2L检索中,MI(det,zix)=3.66;4L检索中,MI(det,zix)=4.29;中心词加”zix”结尾是白语中一种最典型的合成词方式,”det”的意思“豆子”,加”zix”结尾可以构成有关豆子的各种合成词,例如:”det cel zix ”(豌豆),”det xinl zix”(蚕豆),”det kol zix”(豆瓣儿),”det let mox zix ”(干蚕豆叶的第一苗,可煮汤).以向右检索为例,2R检索中MI(zix,yvnx)=4.29; 4R检索中MI(zix,yvnx)=4.56;”zix yvnx”(子女),”zix seit yvnx sort”(儿有女小),在白语合成词中,在名词后面加”zix”(子),”yvnx”(女)使名词具有可爱、可憎、被人蔑视等含义.例如:”yil zix guanl yvnx”(小衣服儿),”cux zix marx yvnx”(草芥,如青草稻草那样卑微).

表2 左检索中心词”zix”与部分搭配词y的MI值

表3 右检索中心词”zix”与部分搭配词y的MI值

通过以上的例子可以看出,通过互信息(MI)可以有效地找到白语中的常用典型合成词,这将是将来实现白汉机器翻译的第1步,然而进一步观察2L,4L,2R,4R 4次检索中,MI(xiaot,zix)=MImax.2L=5.37,MI(zvtx,zix)MImax.4L=6.37,MI(zix,heinl)=MImax.2R=5.37,MI(zix,heinl)=MImax.4R=6.95,互信息最大的4个词组,并不是常见的词项搭配,只能看成是某一专业领域的固定搭配.造成这种现象的原因正是中心词与搭配词的共现频数较低,或者搭配词独立出现频次较低.

由于MI值和T值之间存在着1种互补关系,综合使用MI值和T值分析词项搭配更有意义,从统计学的角度看,T值等于1.65是判别两词项搭配是否有意义的最低临界值,然而Church等[16]提出将T值的阈值提高到2.15将更有利于判别词项搭配强弱.另外Church等[20]通过大量实验发现,MI值大于3的词项搭配可靠性更好,因此根据Church等的成果,将MI值和T值的组合分成以下4种情况:

1)MI<3且T<2.15时,中心词与搭配词的组合不是常见搭配;

2)MI≥3且T≥2.15时,中心词和搭配词的组合可以被视为常见典型的词项组合,

3)MI≥3且T<2.15时,如果满足搭配词的在语料库中出现频次较低,或者是中心词与搭配词的共现频次较低的情况,这样的词项组合可能是谚语、专业术语等固定表达方式,而不是常用搭配.

4)MI<3且T≥2.15时,这种情况往往搭配词是语法词,任何一门语言语法词属于常见词项,与语料中的其他词项共现的频率较高,故这样的词项组合互信息较低.

将中心词”zix” 根据上述分类进行统计得到表4,可见第1类随机搭词项搭配占比最高,第2类常见典型词项搭配占比最少,但是共现频率较高;第3类属于不常见的固定搭配,共现频率较低.第4类属于语法词项搭配.第2类和第3类的词组就可以收录到机器翻译系统的搭配词典,提高翻译准确率.另外,表4的第2列和第3列的小差值是由于第3类词项搭配不计高频项造成的.

表4 MI值和T值的4种组合

4 结语

本文梳理了白语变迁的历史和研究历史,再将《白汉词典》转换成机器可读字典(machine readable dictionary,MRD),建立了白语的拼音语料库.再从MI值和T值2个角度分别计算了中心词与搭配词的关联性和置信度,利用MI值和T值的互补性,建立了词项搭配分类模型来计算中心词与搭配词的搭配强弱,从定量分析和实验结果可以看出,本文方法可以有效的从语料库中找出中心词的常见搭配和固定搭配,为白汉语言机器翻译迈出坚实的一步,这很大程度上也推进了白语数字化保护和白语传承,同时对于其他少数民族语言的数字化保护,本文的研究也是一次有意义的尝试.

猜你喜欢
互信息中心词白族
白族扎染技术的传承与发展
Why I ride
云南省鹤庆县白族本主庙及演剧活动考论
中国云南大理白族女子头饰文化研究
基于改进互信息和邻接熵的微博新词发现方法
基于互信息和小波变换的图像配准的研究
俄汉语定语对比
基于互信息的图像分割算法研究与设计
发挥学生主体作用 提升复习效率
基于改进SIFT与互信息的异源图像匹配