利用词性标注语料库自动推断维吾尔语词缀变体的研究

2016-12-21 12:07阿布都哈力力·阿布都热依木邹帅余长江
电脑知识与技术 2016年28期
关键词:词根词缀

阿布都哈力力·阿布都热依木+邹帅+余长江

摘要:即对词根和词缀以维吾尔语语法为基础,作出语法和词汇定义,通过现代信息处理事业广泛运用的机器学习方法,计算词缀和词根聚合概率,将概率意义为主,自动推断文本中的单词聚合失误和符合词根的词缀自动选择原理。

关键词:维吾尔语词法分析;词根;词缀;语音和谐律;MeCab-uyghur

中图分类号:N945.23 文献标识码:A 文章编号:1009-3044(2016)28-0171-03

1 背景

维吾尔语在内的阿勒泰语系语言中词根与词缀相互聚合时,词根和词缀含有的元音和辅音之间存在相互限制和被限制关系,此种现象通称语音和谐律(1999.竹内.现代维吾尔语)。现代维吾尔语共有32个字母,其中有8个元音,24个辅音。元音按发音位置分为前元音、中元音、后元音。

语音和谐律一个词根粘附的词缀有选择性和若干种变体。例如:符合汉语中“向”词的与格维吾尔语中有着“?a, qa, g?,k?” 等4中变体。这些变体根据跟前的独立词在内的元音和辅音类型选择。即举例“bazar”这一词,由于该词属于尾部由响音结尾的舌面前元音,连接开头由响音开始的舌面前元音变体“?a”,构成“bazar + ?a =bazar?a”。词缀不仅按照词根元音和辅音类型选择,有时在词缀的影响下词根语音发生变化。例如:“imla+ing=imlaying”是以元音结束的词连接以元音开头的词缀时中间将会加上辅音,“bar+ip=berip”是以元音开头的词缀对词根产生压力,将会引起语音的弱化,“orun+i=orni”是以元音开头的词缀影响词根的元音引起元音的减音。由于记录维吾尔语的文字属于有声文字,以上变化也在文字直接表达。

2 目前信息化处理情况

上述语音和谐和变化现象在书面语发生的比较明显。有些人在书面材料上把语音拼写,影响意念的正确表达。这些问题此前未突出明显,但在信息技术上属必须解决的重要问题。

至于信息技术领域如何解决以上问题,主要采取两种方法。其一,对词根和词缀未作出任何语法或词汇范畴定义的情况下,分别作为单位编写词典,自动聚合方法。虽通过这个方式所形成的词库能解决错字问题,但无法解决像没有语音和谐律的汉语等语言与维吾尔语之间机器翻译系统和词典中的一对一问题(UyghurEdit, n.d.)。其二,将词根和词缀的构形作为一个单词编入词典的处理方法。虽方法简单,维吾尔语的词缀为数较多,文本中的聚合情况复杂,无法将全部构形编入词典。

在这里我们要提出不同与上述方法的另一种方法。即对词根和词缀以维吾尔语语法为基础,作出语法和词汇定义,通过现代信息处理事业广泛运用的机器学习方法,计算词缀和词根聚合概率,将概率意义为主,推断文本中的单词聚合失误和符合词根的词缀自动选择原理。

3 词性标注和处理方法

用维吾尔语形态分析工具Mecab-uyghur 把给予的文章分成单词和词缀。

3.1 语音的和谐类型的处理

首先把词根和词缀分为合适的部类,并人工匹配语音和谐律的单词大义上归属于和谐类型范畴。第二阶段,区别元音和谐类型,辅音和谐类型,元音和辅音和谐类型等三个类型。

语音的和谐法列入到1至3的表格里,词法形式表示词根的语法形式。 词根和词缀类型进一步细化到下一列词典形里。作为附加信息, 词音和谐类型列入下一个列里。词根和词缀的元音和辅音作为一个和谐因素列入到下一个相对应的列里。 最后, 与词音和谐法无关的部分标记为Null.

3.2 语音的变化类型的处理

将语音变化大义上归属于语音变化类型范畴。作为小分类分别为语音弱化类型,语音増音类型,语音减音类型等三个类型。

语音的变化规律列入到4至6的表格里,其中语音上有变化词语的词典型和本文形分别列入到词典形该列里。语音的和谐法作为一个附加信息列入到下一列里,而词根的结束语音和附加词的字首语音作为一个影响语音变化规律的因素列入到一个列里。最后要列入语音的变化原因。

4 实验

4.1 计算方式

本研究上我们使用维吾尔语词法分析Mecab-uyghur系统。Mecab-uyghur系统是由日语的开源词法分析系统Mecab添加维吾尔语词典及语法规则开发演变而来,此系统具体使用方法及其他情况不在此做详细说明;Mecab-uyghur 系统的计算方式:以最小开销法,利用了单词的产生权重,以及连接权重这两个概念。单词的产生权重是从语料库出现的单词频度获取,连接权重是从语法概念获取。

4.2 训练

把上述介绍的语法范畴用于传统语言学词类的附加识别因素(区别性特征), 并通过人工匹配建立1万句的词性标注语料库。

利用Mecab-uyghur训练法,获取单词的产生权重、语法范畴的连接概率。此连接概率是通过维吾尔语语法作为基础作推断。

5 测试

为验证上述方法的准确性及可靠性,利用在训练阶段推断出的模型,将词根与词缀分别进行聚合,例如:bazar + ?a =bazar?a,bazar + qa =bazarqa, bazar + g ?= bazarg ?, bazar + k ?= bazark ?;将此四种词型利用Mecab-Uyghur系统进一步分析,具体分析结果如下图所示:

bazar?a,bazarqa, bazarg ?, bazark ?从左到左开始读取,从词典里面获取有记录的词典序列。上图为分解图,其中方框内的蓝色数字表示该词的产生权重,红色数字表示连接权重,连接线上的咖啡色数字表示该文法段和它的左端文法段的连接权重。

由上图可知,bazar?a 这一个序列,bazar 的产生权重为10,?a 的产生权重为40," ?a 词缀-和谐类型-前元音-清辅音"的连接权重为200。在四种序列中第一个序列的总共成本是10+700+40+200=950;第二个序列的总共成本是10+4500+38+150=4698;第三个序列的总共成本是 10+6000+70+250=6330;第四个序列的总共成本是10+4000+29+190=4229;这些序列里第一个序列的成本最小。因此,正确的是第一个序列。

6 结束语

论文主要阐述利用传统语言规则及现代信息技术处理方法将维吾尔语词根与词缀聚合的办法。以多次试验举例验证了此猜想的正确性,以上举例为其中以典型案例,此方法的研究证实不仅为维吾尔语和其他语言的机器翻译、词典学开辟了一条先河,而且为维吾尔语正字法的校对工作提供了基础。

参考文献:

[1] 吐尔逊·卡得. 维吾尔语柯坪土语研究[D]. 北京: 中央民族大学, 2011.

[2] 祖木拉提·阿扎提. 多语环境下伊犁维吾尔族人群语言使用状况调查研究[D]. 新疆: 新疆大学, 2012.

[3] 木哈拜提·哈斯木. 从来源方面来看维吾尔语方言词的特点[J]. 新疆大学学报:哲学社会科学版, 2005(1).

[4] 李经纬. 试论现代维吾尔语方言词的类型及其对划分方言的意义[J]. 语言与翻译, 1986(3).

[5] 陈宗振. 维语方言研究的回顾与展望[J]. 语言与翻译, 2000(4).

[6] 杨雅婷, 马博, 王磊, 等. 维吾尔语语音识别中发音变异现象[C]// 第十一届全国人机语音通讯学术会议论文集(一). 2011.

[7] 杨雅婷, 马博, 王磊, 等. 多发音字典在维吾尔语方言语音识别中的应用[C]//第十一届全国人机语音通讯学术会议论文集(一). 2011.

[8] 杨雅婷, 马博, 王磊, 等. 维吾尔语语音识别中发音变异现象[C]//第十一届全国人机语音通讯学术会议论文集(二). 2011.

[9] 杨雅婷, 马博, 王磊, 等. 多发音字典在维吾尔语方言语音识别中的应用[C]// 第十一届全国人机语音通讯学术会议论文集(二). 2011.

猜你喜欢
词根词缀
藏在英文里的希腊词根(二十四)
藏在英文里的希腊词根(二十三)
藏在英文里的希腊词根(二十二)
藏在英文里的希腊词根(十八)
藏在英文里的希腊词根(九)
从网络语“X精”看“精”的类词缀化
词尾与词缀的区别研究
释西夏语词缀wji2
试析否定词缀在汉维语中的不同表现
类词缀与词缀的共性特点分析