沈静
浅析中文分词方法
沈静
(漳州职业技术学院计算机工程系,福建漳州363000)
中文分词是中文文本挖掘和信息处理的基础环节,而中文文本挖掘首先面临的是中文的分词问题。中文分词的方法主要有基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法三种,第一种分词方法简单、快捷,但对词典的完备性要求很高;第二种充分利用文本信息,但完备性较差;第三种还处于理论研究阶段。本文对现有的三种中文分词方法进行了研究和对比。
中文分词; 文本挖掘; 歧义切分
中文分词就是由计算机在中文文本的词与词之间加上分界符。从表面来看它相比句法分析、语义分析等阶段的难度要小,但却是中文信息处理过程中最基础、关键的步骤。
中文信息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。中文文本最小的组合单位是字,而最小的信息单位却是词,但中文文本中词与词之间没有天然的分界符,所以在中文信息处理中,首要的任务就是“词处理”,即中文分词。
1.1中文分词的意义
中文分词是中文信息处理的基础,也是智能化中文信息处理中的关键步骤。中文信息处理是一门用计算机对中文(包括口语和书面语)进行转换、传输、存储、分析等加工的科学[1]。中文信息处理涉及字、词和句三个层面的处理,每个处理阶段都紧扣上一阶段。从语言构成上来讲,字是最小的构成单位,而词才是有意义的基本语言单位。字处理简单,技术已经比较成熟,但是词处理还有待进一步发展。所以在中文信息处理中,只有先确定了词,才能进一步到短语划分、概念抽取及主题分析等后续阶段。中文不同于西文,词与词之间没有明显的间隔(空格),而中文的语法约束又不规范,且变化多样,这都决定了中文分词的困难性。
中文分词在中文信息处理中具有重大的意义,它直接影响到中文信息处理及其相关领域的长远发展。英文文本跨越了分词阶段,在词的利用上更直接、完善,因而在词相关的应用领域(如信息检索、机器翻译、中文校对系统、语音输出、主题分析等)发展中都比中文快,也展示了夺目的应用前景。中文信息处理要想赶超英文在信息领域的发展,就必须先通过分词这道难关。
1.2中文分词的发展与应用
目前,中文信息处理技术落后于西文处理技术,除了因为它起步稍晚,最主要还是因为它还未完全攻克分词这道难关。中文异于西文的行文特点使得许多西文的处理方法不能直接应用于中文处理,而汉语本身的复杂性,以及对“词”的不标准定义更加剧了中文分词的困难性。
作为中文信息处理的核心和汉语自然语言理解的基础,中文分词技术在很多现实应用领域(汉字输入法、中文信息检索、信息过滤、自动摘要、自动分类及自动摘要,知识管理、中文文本的自动校对、机器翻译、内容数据挖掘、汉字识别与汉语语音识别的后处理、自动分类、汉语语音合成,中外文对译、以句子为单位的汉字键盘输入、汉字简繁体转换等)中都占据着很重要的地位[2-5]。要快速发展国内计算机信息处理技术,还要引进国外先进的计算机信息处理技术,都急需解决中文分词的问题。
已经研究出来的中文分词方法主要有三大类:基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法[6]。
2.1基于字符串匹配的分词方法
基于字符串匹配的分词方法,也称为基于词典的分词法,这种分词方法都依赖分词词典,根据词典构建方式的不同,又分为机械分词法和特征词库法两种。
(1)机械分词方法
机械分词法利用一个具有充足词量的词典,把待切分文本按照一定的算法与词典中的词条进行匹配,当有字符串与词典中的某个词条匹配成功时,就把它当做词标记出来。
机械分词的算法有多种。按照匹配字符串的长度来分,有最长匹配算法和最短匹配算法;按照匹配的方向来分,有正向匹配法和逆向匹配法;按照是否对词性做标注来分,有单纯分词法和分词与标注一体化法。但无论按哪种标准来分类,分词的准确性都高度依赖词典的完备性。
机械分词法的特点是:算法简单、易于实现、但分词的准确性高度依赖于词典的完备性,无法识别未登录词汇;当词典越来越完备时,还要采取措施提高分词效率;最关键的是,无论采取何种匹配算法,都存在歧义切分的问题。
(2)特征词库法
特征词库法主要用于分词的预处理阶段,先建立一个包含各种具有切分特征的词的特征词库,然后根据特征词库中的词条把待切分文本切分成若干个尽量短的字符串,最后再用机械匹配算法对每个字符短串进行进一步的细分。
特征词库法基于充分的汉语语言知识:汉语中存在数量有限的形态标志,如连词、虚词、词缀(包括前缀和后缀)和重叠词等,它们在中文文本中使用的频率较高,可以利用事先建立好的特征词库把它们先切分出来。特征词的选取需要深入研究汉语的构词法则和构形法则等,对于那些不合常规法则的特例,也要全面地考虑和预计,采用有效方法加以处理。
机械分词法和特征词库法都依赖词典的完备性,且只注重了词的组成形式,忽略了相邻词的词性和词义必须符合的约束关系(即语法和逻辑),这些约束关系都影响着分词的正确性,也需要在分词思想中加以考虑。同时,都需要解决未登录词汇的识别和歧义切分问题。
2.2 基于统计的分词方法
基于统计的分词法又称为统计取词法,它不依赖外部词典,这种分词方法认为:词从本质上来讲是若干个字的组合,但又不像排列组合那样具有任意性,只有那些组合在一起有使用意义的才能称之为词,某种字符串出现的频率越高,那么它是词的可能性也就越大。所以,在正式分词之前,先计算出语料库中所有可能是词的字符串,并构成一个词典;然后再选择某种机械分词算法利用前面构建好的词典进行分词。这种分词方法的分词过程和基于字符串匹配的分词方法一致,关键在于词典的构建思路不同。例如曾田日、王晋国[7]就提出并实现了基于统计的云搜索分词算法。
由于不依赖传统的词典,基于统计的分词方法相较于基于词典的分词方法,对未登录词汇的识别率得到很大提高,但这也要求未登录词在语料库中出现的频率超过一定的阈值。当前,常用的基于统计的分词实现方法有互信息模型、N元统计模型、隐马尔科夫模型、最大熵模型等。
2.3 基于理解的分词方法
基于理解的分词方法是一种理想化的分词方法,它像人工智能的一样,希望机器能模拟人对句子的理解思路来分词。相应地,需要先人工定义句子的语法并输入计算机;然后,计算机判断待切分语句的句型并模拟人对句子的理解方式进行切词。在这种分词方法中,需要同时启动句法分析、语义分析和分词处理三个功能模块,前两个模块所得的信息可以帮助处理分词模块中的歧义切分。相应地,这类系统包括三个基本部分:
(1)分词系统,进行词语的切分;
(2)句法语义系统,对待处理语句进行语法、语义分析;
(3)总控部分,协调分词系统利用句法语义分析系统生成的句法和语义信息,来处理分词中的切分歧义。
要模拟人脑的分词过程,首先要把各种汉语语言基础知识编译成机器可以直接读取的形式,机器像人脑一样存储了大量的语言基础知识后,再以机器学习的方式进一步上升到理解、分词的阶段。实际上,汉语语言的复杂性使得语义、语法等很难完全规律化,而机器学习也尚未发展到应用阶段,因此,这种理想中完美的方法的实现还需要时间。
在现有的三类中文分词方法中,基于字符串匹配的分词法中的机械分词法目前的发展最成熟、使用也最广泛。百度和google搜索引擎的实现都以该方法为基础。
目前最成熟,应用最广泛的几种机械分词算法有:正向最大匹配法、逆向最大匹配法和最少切分法。
(1)正向最大匹配法[8],先准备一个完备的词典(可以直接导出某种输入法的词库),把词典中的词条按照一定规则(如长度、首字符的音序等)进行排列;分词时,将待切分文本按正向顺序(即从左到右的顺序),与词库中的词条进行匹配。如果有长度为M字符串与词典中的词条匹配成功,就把该词切分出来,然后后移M个字符串继续进行匹配;否则,从待切分字符串的下一个字的位置继续进行匹配,直到匹配成功。
(2)逆向最大匹配法,它的基本思路与正向最大匹配算法相同,只是把待处理文本的处理方向改为反向(即从右到左),这种逆向扫描的方法较之正向匹配法可以一定程度的提高分词的准确率。梁南元对正向最大匹配法和逆向最大匹配法进行了分词结果统计,数据表明:正向最大匹配法的错误率为1/169;逆向最大匹配法的错误率为1/245[9]。
(3)最少切分法,这种方法认为,在处理一个句子时切分的词最少时,分词准确度比较高。但相应地,分词的精度也会下降。该方法一般都用于分词的预处理阶段,例如,利用特征词库把文本预切成汉字短串,再使用其他分词方法进行更细致的切分。
在中文文本挖掘与信息处理中,我们首先遇到的就是中文的分词问题,目前主要有三大类中文分词方法:基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法。其中,基于字符串匹配的分词方法最成熟,使用最广泛,分词算法研究成果也最多,如:正向最大匹配法、逆向最大匹配法、最少切分法等,在此基础上,很多学者还提出了改进算法以提高分词效率,解决分词歧义和未登录词的识别问题;基于统计的分词方法利用待处理信息本身生成词典,进而完成分词;而基于理解的分词方法是最人性化的分词方法,但目前还处于研究阶段。
在互联网发展迅猛的今天,中文分词发挥着越来越重要的角色,但其算法复杂,实现困难,今后的研究将继续朝着分词速度和精度的提高,未登录词的识别和歧义切分方向发展。
[1] 刘迁, 贾惠波. 中文信息处理中自动分词技术的研究与展望[J]. 计算机工程与应用, 2006(3): 175-182.
[2] Wu Z. M., Tseng G. Chinese text segmentation for text retrieval: achievements and problems[J]. Journal of the American Society for Information Science, 1993, 44(9): 532-542.
[3] Wu Z. M., Tseng G. ACTS: An automatic Chinese text segmentation system for full text retrieval[J]. Journal of the American Society for Information Science, 1995, 46(1): 83-96.
[4] Nie J. Y., Brisebois M. On Chinese word segmentation and word-based text retrieval[J]. Proceedings of International Conference on Chinese Computing, 1996: 405-412.
[5] Sun M. S., Lin F. Z. Linguistic processing for Chinese OCR&TTS[J]. Proceedings of the 2nd International Conference of Virtual Systems and Multimedia, 1996: 27-42.
[6] 郭伟, 于中华. 基于延迟决策和斜率的新词识别方法[J]. 四川大学学报: 自然科学版, 2007, 44(3): 519.
[7] 曾田日,王晋国. 基于统计的云搜索中文分词算法[J]. 西北大学学报, 2015(4): 568-572.
[8] 吴旭东. 正向最大匹配分词算法的分析与改进[J]. 科技传播, 2011(20): 164-165.
[9] 梁南元. 书面汉语自动分词综述[J]. 计算机应用与软件, 1987(3): 44-50.
(责任编辑季平)
Chinese word segmentation method research
SHEN Jing
(Zhangzhou Institute of Technology, Zhangzhou 363000, China)
Chinese word segmentation is the foundation of Chinese text mining and information processing, and also the first problem faced in text mining. Chinese word segmentation methods mainly include word segmentation method based on string matching, word segmentation method based on statistics and word segmentation method based on the understanding, the first word segmentation method is simple, fast, but the dictionary completeness asked too much; The second make full use of text information, but poorer completeness; The third is still in the theoretical research stage. In this paper, the existing three methods were studied and compared in detail.
Chinese word segmentation; text mining; ambiguity segmentation
TP391.1
A
1673-1417(2016)03-0045-04 doi:10.13908/j.cnki.issn1673-1417.2016.03.0009
2016-05-15
沈静(1982—),女,陕西汉中人,讲师,硕士,研究方向:数据挖掘、信息安全。