张志强 张太红 刁琦 董峦
摘要:音字转换是汉语言信息处理的一个重要方面,在语音识别、汉语拼音输入等方面都有广泛的的应用。本文首先回顾了词树的理论知识,然后对词树进行求解,最后对词树进行剪枝,随之,对产生的多音字进行处理。基于上面的理论,提出了一种基于语言模型实现音字转换的高效解码算法,这种算法涉及到零概率重估、路径剪枝和多音字处理等多项技术,实验结果表明这种算法可以达到97.78 %的准确率,与以往的算法相比,效果比较显著。
关键词:语言模型;n-gram 模型;音字转换
中文分类号:TP391.1 文献标识码A
引 言
语言模型(Language model)[1]是语音识别系统(speech recognition system)[2]的一个重要组成部分。语言模型,通常可分为基于统计的语言模型(Statistical language model)和基于规则的语言模型(Rule based language model)两大类。在现在的技术条件下,基于统计的语言模型(Statistical language model)处于主流地位,具体是通过对大量的语料进行统计[3],获得词与词之间相互连接信息,为评价一个词串是否有意义提供基础依据。
统计语言模型中,n-gram语言模型是公认的研发设计代表[4],因其结构相对简单,而且易于构建与应用。但是,在实际运用n-gram语言模型时,却会不断发现,由于训练语料稀疏而引起了一定的零概率问题[5]。而采用本文提出的算法,仿真实验结果表明对解决这一问题则呈现出优质有效的运行效果。本文即针对这一课题内容展开分析论述。