吾兰·努鲁别克 热木土拉·麦麦提 艾斯卡尔·艾木都拉
摘要:哈萨克语是组成结构复杂的黏着性语言,哈萨克语词干提取词缀提取对哈萨克语信息处理领域具有很重要的意义。从哈萨克语粘着性特点出发,哈萨克语词干词缀的构成规则而且和统计模型特点结合,以N-gram语言模型为主框架,根据哈萨克语的构词约束条件,提出了N-gram语言模型的哈萨克词干提取模型。实验结果表明,N-gram语言模型对哈萨克词干的准确提取是有效的,该模型的词干级准确率达到了72.34%。
关键词:哈萨克语;形态;词干提取;N-gram模型;词缀
1概述
哈萨克语属于黏着性语言,根据黏着性语言特点,哈萨克语的构词和形态都是以词根,词干缀接不同的词缀来实验语言功能和语言意义。每个词的组成结构和语法意义的表示都是依赖于不同词缀的连接,因此每个词缀都有着独立的语法意义和结构意义,词缀不仅改变词根的词义,也會改变一个词在整个句子中的作用。每个词干连接不同的词缀,就会产生不同的新词,正确切分哈萨克语词干和词缀能够正确表示其词类词性和语法关系。
由于哈萨克语中同形异义词数量比较多,对词干的准确提取带来困难,这导致哈萨克语词干提取歧义现象。
设计并实现一个有效的哈萨克语词干提取是必要的,对哈萨克语信息处理技术具有很重要的意义。在哈萨克语词干提取方面,古丽拉·阿东别克等在2007年提出了哈萨克语词干提取方法,在2008年采取双向全切分方法结合词法分析实现了词干的提取。2011年达吾勒提出了基于规则的哈萨克语词干提取方法。2012年江阿古丽·哈依达尔利用有限状态自动提取哈萨克语单词词干。但目前为止,哈萨克语词干提取研究都是以规则的方法为主,这方法缺少可移植性,无法移植到新的语料,因此本文根据哈萨克语黏着性特点和词干词缀的连接关系,利用统计的方法对哈萨克语单词进行统计和分析,提取了N-gram语言模型为主框架的哈萨克语词干提取方法。
2哈萨克语词干词缀结构
2.1哈萨克语词法特点
哈萨克语属于黏着性语言,构词和构形结构上词根,词干连不同的词缀来形成语法功能和结构功能。通过不同词缀的缀接形成不同的词形和词义。因此每个不同的词缀意味着不同的语法意义。由于哈萨克语有大量的词缀,则形成的单词就不同,因此对哈萨克语来说,正确切分哈萨克语词干和词缀才能够揭示词性和语法的内在关系。
做哈萨克人名识别实验过程中,意识到词干提取的重要性和必要性,受到提取词干需要大量的时间和精力,因此要研究哈萨克语词干提取很必要。哈萨克词干提取技术处于待研究状态,在机器翻译,信息检索等领域中词干提取技术起很大的作用,因此本文提出基于统计的哈萨克词干提取方法。
哈萨克语中词与词之间以空格分割,哈萨克单词由词干和附加成分来组成的,附加成分指的是前缀和后缀。哈萨克语单词的形成形式是:Prefix+Stem+Suffix1+Suffix2+…+Suffixn
Suffix1+Suffix2+…+Suffixn为复合词缀,Prefix为前缀,可以看出词干缀接最少一个词缀,最大达到八九个词缀,因此后缀给词干带来很多的变化。哈萨克单词中附加成分的累加体现不同的语法意义和形态。