房敏
摘要:最大分词方法是一种基于统计的分词方法,一个待分割的字符串有多种分词结果,最大概率分词的原则是将其中可能性的最大的那个词语作为该字符串的分词结果。本文主要围绕最大概率分词法,详述了最大分词法的算法思想,并且对算法的性能进行分析。
1 现有分词方法概述
汉字的表达式以字为单位的,但是在自然语言处理中,词是最小的,有意义的语言成分。中文分词就是将没有分割标志的字符串转化为具有实际意义的词串。由于汉字自动分词在文本分类,信息检索,信息过滤,文献自动标引,摘要自动生成等中文信息处理中的关键技术,故对分词算法的研究是十分有必要性的。
现有的分词方法主要可以分为以下四类:基于字符串匹配的分词方法,基于理解的分词方法,基于统计的分词方法和基于语义的分词方法。
2 简述最大概率分词方法
随着近年来大规模语料库的建立,机器学习方法的蓬勃发展,基于统计的中文分词方法逐渐成为了主流分词方法。最大概率分词是一种最基本的统计分词方法,假设Z=z1z2…zn是输入的汉子串,W=w1w2…wn,是与之对应的可能的词串,那么,汉语自动分词可以看作是是概率P(W|Z)的最大的词串。
3 最大概率分词算法
1)得到一个待分词的字符串,按照从左到右的顺序取出全部候选词 w1,w2…wn
2)在所建立的語料库中查找每个候选词的概率P(wi)
3)计算每个候选词的累计概率(累积概率为前一个节点的累积概率与该节点的概率的乘积的最大者),同时保存得到每个候选词的最佳的左邻词。
4)按照动态规划的方法依次计算每个词的最大累积概率,直到找到尾词wn。
5)从wn开始,依次找寻其最佳左邻词,并按照从右到左的顺序依次输出这些词汇,即S的分词结果。
4 算法示例
对“结合成分子时”从左到右进行扫描,统计每个候选词的累计概率值,并且记录其最佳左邻词。
5 算法性能
最大概率法能够发现切分歧义,但是很大程度上取决于统计语言模型的精度和决策算法,而且需要大量的标注材料。
参考文献:
[1]自然语言处理基本理论和方法[M].哈尔滨工业大学出版社,2013.8.
[2]基于最大概率分词算法的中文分词方法研究[J].科技信息,2010
[3]李家福,张亚非一种基于概率模型的分词系统[J].系统仿真学报,2002,14(5):544一550.