基于Python的中文分词技术探究

2021-01-08 02:16史国举

无线互联科技 2021年23期

摘要：中文分词属于自然语言处理技术子集，对中文分词技术的研究由来已久，文章基于Python结巴分词，从概述、分类、方法、挑战、应用及现状等对中文分词技术进行探究，旨在抛砖引玉，以供借鉴。

关键词：分词;中文分词;Jieba;自然语言处理

1 中文分词技术的概述

在汉语语言学界，“词”这一概念一直是个缠绕不清、不可逾越的问题。“词是什么”（词的抽象定义）和“什么是词”（词的具体界定），这两个基本问题迄今为止还没有得到一个权威、明确的表述，很难找到能引起大众共鸣的词表。众所周知，相对于以英文为代表的拉丁语系语言，英文使用空格作为自然的分隔符，而中文由于继承了古代汉语的传统，词与词之间并无分隔[1]。而在现代汉语中则以双字或多字占多数，一个字再也不等同于一个词，如果把字作为分词的最小单位，它的粒度太小，不能表达完整的意思，而句子的粒度太大，承载的信息太多，很难重复使用。通俗地说，中文分词就是由机器在中文文本中的词和词之间自动添加分界线，是中文信息处理的基础，是自然语言处理（NLP）的子集，其实质就是划界。

2 中文分词技术的分类

经过近30年的探究，中文分词从提出到现在，已经提出了很多方法，如规则分词、统计分词和混合分词。但至今还没有推出一套很好的中文分词系统。规则分词是最早出现的一种分词方法，主要通过人工建立词库，按照一定的方式进行匹配切分，操作简单，效率高，但是难以处理新词。在统计机器学习技术兴起的今天，只有把统计机器学习应用到分词任务中，形成统计分词，才能更好地应付诸如新单词发现等特殊情况。但在实际应用中，单纯的统计分词也存在着缺陷，即对语料质量的过分依赖，因而更多地采用二者结合，即混合分词。

3 中文分析技术的方法

研究表明，现有的分词方法主要有3种类型。

3.1 基于字符串匹配的分词方法

字符串匹配的分词方法（又称为“机械分词法”），就是用待分析的汉字符串与一个“足够大”的机器词典来匹配，如果在词典中发现了某个字符串，就会匹配成功。常见的有正向最大匹配法、反向最大匹配法、最小分割法、双向最大匹配法等。

3.2 基于理解的分词方法

其基本思想是在分词时进行句法、语义分析，并利用句法和语义信息处理歧义。其基本结构分为3个部分：分词子系统、语义子系统和总控部分。分词子系统在总控部分的协调下，可以获取与词、句等相关的句法和语义信息，从而对分词歧义进行判断，即模拟人对句子的理解过程，这种分词方法需要许多语言知识和信息，鉴于汉语知识的广泛性和复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

3.3 基于统计的分词方法

在分析了大量已分词文本的基础上，利用统计机器学习模型学习词汇切分的规则（机器训练）[2]，从而得到未知文本的切分。比如最大概率分词方法、最大熵分词方法等。随着大规模语料库的建立以及统计机器学习方法的研究和发展，基于统计的中文分词方法逐渐成了主流方法[3]。

4 中文分词技术的挑战

随着时代的发展，中文分词技术应运而生，它在很大程度上满足了人们对自然语言处理的需求，解决了人类与计算机通信的一些障碍。但是，中文分词技术在分词规范、歧义切分、新词识别等方面也存在诸多困难。

4.1 分词规范

在中文语言中，词的概念不清楚是最大的难题。词语的组合和界定十分模糊，这是一项复杂而庞大的工作。虽然现在已出现了一些标准，但在实际操作中难以运用，所以目前还没有合理的可操作的理论和标准，导致中文分词出现了很大的困难。

4.2 歧义切分

在文本中的字符串，如果基于句子的字面意思进行理解，最终产生多种不同的理解方法。据调查，中文的歧义字段占中文总字数的比例略少于1%，其中词法歧义字段为84%，句法歧义字段为11%，语义歧义字段为3.5%，而语用歧义字段仅为1.5%。从以上数据可以看出，中文分词是有望能够实现的，但对于词的切分难度还是很大。歧义切分现象是分词中不可避免的现象，是自动分词中一个比较棘手的问题，处理歧义切分字段的能力将严重影响中文分词的准确性。

4.3 新词识别

新词的识别就是对未登录词的识别，所谓未登录词是指系统词典中没有收录的词。例如人名、地名、公司名等专属名词以及各类术语、缩略词等，无法把这些词全部收录到词典中去，但这些词经常会在局部文本中大量出现，所以这些词语让机器去识别困难是非常大的，识别这些新词也是分词的一个重要任务和评价分词的重要指标。

5 结巴中文分词的技术

Python的结巴分词，其分词功能强大且安装方便，可以进行简单分词、并行分词、命令行分词[4]，当然它的功能也不止于此，目前還支持停用词、关键词提取、词性标注、词位置查询等，其算法是基于隐马尔可夫模型。下面以自然语言处理（NLP）分词的经典语句：“结婚的和尚未结婚的”为例，来分析结巴分词的3种模式分词。

精确模式：尝试最精确地切割句子，适合文本分析。其精确模式分词结果为：结婚/的/和/尚未/结婚/的。

完整模式：在句子中扫描所有可能变成成词的词语，速度很快，但无法解决歧义。其完整模式分词结果为：结婚/的/和尚/尚未/未结/结婚/的。

搜索引擎模式：在精确模式的基础上，再对长词进行切分，提高召回率，适合用于搜索引擎分词。其搜索引擎分词结果为：结婚/的/和/尚未/结婚/的。

6 中文分词的应用

中文处理技术与西文处理技术相比，还存在着较大的差距，很多西文处理方法无法被中文直接采用，主要原因在于中文需要分词这一工序。中文分词技术属于自然语言处理技术的子集，中文分词是其他中文信息处理的根基，因此，对中文分词技术在机器翻译、智能问答、文摘生成、舆情分析、知识图谱等应用方面的探究是一个漫长的过程[5]。

6.1 机器翻译

计算机能把一种语言翻译成另一种语言，如百度在线翻译，能把汉语翻译成英语、日语、韩语、德语等其他国家语言。

6.2 智能问答

计算机能够正确回答输入的问题。在电商网站中，智能问答具有非常现实的价值，比如代替人工担任客服，有许多基本而重复的问题，其实都不需要人工客服，通过智能问答系统可以过滤掉大量的重复问题，让人工座席更好地为顾客服务。

6.3 文摘生成

计算机能够准确归纳、总结并产生文本摘要。通过使用机器学习技术，计算机可以自动地从文献中提取摘要信息，从而全面、准确地反映文献的中心内容。这种技术可以帮助人们节省大量的时间，并且更加高效。

6.4 舆论分析

计算机能够判断和识别当下舆论的导向，可以帮助分析当前的热点话题，分析传播途径和发展趋势，对于不良的舆论导向能够进行有效的控制。

6.5 知识图谱

知识点相互连接而成的语义网络，是表示知识发展过程与结构关系的一系列不同的图形，用可视化技术描述知识资源及其载体，并对知识进行挖掘、分析、构造、绘制和展示，将其联系起来。

7 国内自然语言研究的现状

从20世纪90年代开始，国内自然语言研究进入了快速发展的时期，一系列系统开始大规模商业化，自然语言的研究内容和应用领域也在不断创新。当前对自然语言的研究主要包括基础研究和应用研究，其中语音和文本是其中的两个重点。基础研究主要涉及计算机、语言学、数学等学科，与之相关的技术有消歧义、语法形式化等。应用研究主要集中在应用自然语言处理的领域，如资料检索、文本分类、机器翻译等。在国内，由于对于机器翻译这一基本理论的研究起步较早，是任何应用的理论基础，因此，语法、句法、语义分析等方面的基础研究一直是研究的重点，而近年来随着网络技术的发展，对智能检索的研究也逐渐升温。今后，数据科学与语言科学融合成为必然趋势，神经语言学、语料库语言学、数据语言学、语言智能等在人工智能领域将成为关注的焦点。

8 结语

本文从中文分词技术的概述、分类、方法、挑战、应用及现状等方面进行探究，并在Python环境下实现中文分词。尽管中文汉字博大精深，但随着科技的发展和人工智能化的发展，对中文分词技术的探究不断深入，相信今后一定能开发出高质量、多功能的中文分词算法，推动自然语言理解系统的广泛应用。

[参考文献]

[1]曾小芹.基于Python的中文结巴分词技术实现[J].信息与电脑，2019（18）：38-42.

[2]祝永志.基于Python的中文结巴分词技术实现[J].通信技术，2019（7）：1615-1619.

[3]孙铁利.中文分词技术的研究现状与困难[J].信息技术，2019（7）：187-192.

[4]白宁超.Python数据预处理技术与实践[M].北京：清华大学出版社，2019.

[5]涂铭.Python自然语言处理实战：核心技术与算法[M].北京：机械工业出版，2018.

（编辑王雪芬）

A probe into Chinese word segmentation technology based on Python

Shi Guoju

（Bijie Radio and Television University， Bijie 551700， China）

Abstract：Chinese word segmentation belongs to the subset of natural language processing technology. The research on Chinese word segmentation technology has a long history. Based on Python stuttering segmentation， this paper explores Chinese word segmentation technology from the overview， classification， method， challenge， application and status quo， aiming to throw a brick to attract jade for reference.

Key words：word segmentation; Chinese word segmentation; Jieba; natural language processing

作者簡介：史国举（1985— ），男，贵州毕节人，讲师，本科;研究方向：大数据分析。