维吾尔语的N-gram语言模型研究

2011-12-31 00:00:00张亚军
电脑知识与技术 2011年17期


  摘要:针对基于维吾尔语的N-gram模型统计数据稀疏问题造成统计模型识别性能降低,研究针对政府文献和报告领域的语料进行了1到3元文法统计,采用加法、线性插值、Witten-Bell和Kneser-Ney平滑算法进行了约束。结果表明,本实验中Kneser-Ney平滑技术可以大大降低统计维吾尔语的N-gram模型的困惑度。
  关键词:语言模型;平滑算法;困惑度;维吾尔语-汉语双语语料
  中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)17-4177-03
  Research of Uyghur N-gram Model
  ZHANG Ya-jun
  (Changji Coll