摘要:针对基于维吾尔语的N-gram模型统计数据稀疏问题造成统计模型识别性能降低,研究针对政府文献和报告领域的语料进行了1到3元文法统计,采用加法、线性插值、Witten-Bell和Kneser-Ney平滑算法进行了约束。结果表明,本实验中Kneser-Ney平滑技术可以大大降低统计维吾尔语的N-gram模型的困惑度。
关键词:语言模型;平滑算法;困惑度;维吾尔语-汉语双语语料
中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)17-4177-03
Research of Uyghur N-gram Model
ZHANG Ya-jun
(Changji Coll