基于Python的中文分词技术探究

2021-01-08 02:16史国举
无线互联科技 2021年23期
关键词:自然语言处理分词

摘 要:中文分词属于自然语言处理技术子集,对中文分词技术的研究由来已久,文章基于Python结巴分词,从概述、分类、方法、挑战、应用及现状等对中文分词技术进行探究,旨在抛砖引玉,以供借鉴。

关键词:分词;中文分词;Jieba;自然语言处理

1 中文分词技术的概述

在汉语语言学界,“词”这一概念一直是个缠绕不清、不可逾越的问题。“词是什么”(词的抽象定义)和“什么是词”(词的具体界定),这两个基本问题迄今为止还没有得到一个权威、明确的表述,很难找到能引起大众共鸣的词表。众所周知,相对于以英文为代表的拉丁语系语言,英文使用空格作为自然的分隔符,而中文由于继承了古代汉语的传统,词与词之间并无分隔[1]。而在现代汉语中则以双字或多字占多数,一个字再也不等同于一个词,如果把字作为分词的最小单位,它的粒度太小,不能表达完整的意思,而句子的粒度太大,承载的信息太多,很难重复使用。通俗地说,中文分词就是由机器在中文文本中的词和词之间自动添加分界线,是中文信息处理的基础,是自然语言处理(NLP)的子集,其实质就是划界。

2 中文分词技术的分类

经过近30年的探究,中文分词从提出到现在,已经提出了很多方法,如规则分词、统计分词和混合分词。但至今还没有推出一套很好的中文分词系统。规则分词是最早出现的一种分词方法,主要通过人工建立词库,按照一定的方式进行匹配切分,操作简单,效率高,但是难以处理新词。在统计机器学习技术兴起的今天,只有把统计机器学习应用到分词任务中,形成统计分词,才能更好地应付诸如新单词发现等特殊情况。但在实际应用中,单纯的统计分词也存在着缺陷,即对语料质量的过分依赖,因而更多地采用二者结合,即混合分词。

3   中文分析技术的方法

研究表明,现有的分词方法主要有3种类型。

3.1  基于字符串匹配的分词方法

字符串匹配的分词方法(又称为“机械分词法”),就是用待分析的汉字符串与一个“足够大”的机器词典来匹配,如果在词典中发现了某个字符串,就会匹配成功。常见的有正向最大匹配法、反向最大匹配法、最小分割法、双向最大匹配法等。

3.2  基于理解的分词方法

其基本思想是在分词时进行句法、语义分析,并利用句法和语义信息处理歧义。其基本结构分为3个部分:分词子系统、语义子系统和总控部分。分词子系统在总控部分的协调下,可以获取与词、句等相关的句法和语义信息,从而对分词歧义进行判断,即模拟人对句子的理解过程,这种分词方法需要许多语言知识和信息,鉴于汉语知识的广泛性和复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

3.3  基于统计的分词方法

在分析了大量已分词文本的基础上,利用统计机器学习模型学习词汇切分的规则(机器训练)[2],从而得到未知文本的切分。比如最大概率分词方法、最大熵分词方法等。随着大规模语料库的建立以及统计机器学习方法的研究和发展,基于统计的中文分词方法逐渐成了主流方法[3]。

4 中文分词技术的挑战

随着时代的发展,中文分词技术应运而生,它在很大程度上满足了人们对自然语言处理的需求,解决了人类与计算机通信的一些障碍。但是,中文分词技术在分词规范、歧义切分、新词识别等方面也存在诸多困难。

4.1  分词规范

在中文语言中,词的概念不清楚是最大的难题。词语的组合和界定十分模糊,这是一项复杂而庞大的工作。虽然现在已出现了一些标准,但在实际操作中难以运用,所以目前还没有合理的可操作的理论和标准,导致中文分词出现了很大的困难。

4.2  歧义切分

在文本中的字符串,如果基于句子的字面意思进行理解,最终产生多种不同的理解方法。据调查,中文的歧义字段占中文总字数的比例略少于1%,其中词法歧义字段为84%,句法歧义字段为11%,语义歧义字段为3.5%,而语用歧义字段仅为1.5%。从以上数据可以看出,中文分词是有望能够实现的,但对于词的切分难度还是很大。歧义切分现象是分词中不可避免的现象,是自动分词中一个比较棘手的问题,处理歧义切分字段的能力将严重影响中文分词的准确性。

4.3  新词识别

新词的识别就是对未登录词的识别,所谓未登录词是指系统词典中没有收录的词。例如人名、地名、公司名等专属名词以及各类术语、缩略词等,无法把这些词全部收录到词典中去,但这些词经常会在局部文本中大量出现,所以这些词语让机器去识别困难是非常大的,识别这些新词也是分词的一个重要任务和评价分词的重要指标。

5 结巴中文分词的技术

Python的结巴分词,其分词功能强大且安装方便,可以进行简单分词、并行分词、命令行分词[4],当然它的功能也不止于此,目前還支持停用词、关键词提取、词性标注、词位置查询等,其算法是基于隐马尔可夫模型。下面以自然语言处理(NLP)分词的经典语句:“结婚的和尚未结婚的”为例,来分析结巴分词的3种模式分词。

精确模式:尝试最精确地切割句子,适合文本分析。其精确模式分词结果为:结婚/的/和/尚未/结婚/的。

完整模式:在句子中扫描所有可能变成成词的词语,速度很快,但无法解决歧义。其完整模式分词结果为:结婚/的/和尚/尚未/未结/结婚/的。

搜索引擎模式:在精确模式的基础上,再对长词进行切分,提高召回率,适合用于搜索引擎分词。其搜索引擎分词结果为:结婚/的/和/尚未/结婚/的。

6 中文分词的应用

中文处理技术与西文处理技术相比,还存在着较大的差距,很多西文处理方法无法被中文直接采用,主要原因在于中文需要分词这一工序。中文分词技术属于自然语言处理技术的子集,中文分词是其他中文信息处理的根基,因此,对中文分词技术在机器翻译、智能问答、文摘生成、舆情分析、知识图谱等应用方面的探究是一个漫长的过程[5]。

6.1  机器翻译

计算机能把一种语言翻译成另一种语言,如百度在线翻译,能把汉语翻译成英语、日语、韩语、德语等其他国家语言。

6.2  智能问答

计算机能够正确回答输入的问题。在电商网站中,智能问答具有非常现实的价值,比如代替人工担任客服,有许多基本而重复的问题,其实都不需要人工客服,通过智能问答系统可以过滤掉大量的重复问题,让人工座席更好地为顾客服务。

6.3  文摘生成

计算机能够准确归纳、总结并产生文本摘要。通过使用机器学习技术,计算机可以自动地从文献中提取摘要信息,从而全面、准确地反映文献的中心内容。这种技术可以帮助人们节省大量的时间,并且更加高效。

6.4  舆论分析

计算机能够判断和识别当下舆论的导向,可以帮助分析当前的热点话题,分析传播途径和发展趋势,对于不良的舆论导向能够进行有效的控制。

6.5  知识图谱

知识点相互连接而成的语义网络,是表示知识发展过程与结构关系的一系列不同的图形,用可视化技术描述知识资源及其载体,并对知识进行挖掘、分析、构造、绘制和展示,将其联系起来。

7 国内自然语言研究的现状

从20世纪90年代开始,国内自然语言研究进入了快速发展的时期,一系列系统开始大规模商业化,自然语言的研究内容和应用领域也在不断创新。当前对自然语言的研究主要包括基础研究和应用研究,其中语音和文本是其中的两个重点。基础研究主要涉及计算机、语言学、数学等学科,与之相关的技术有消歧义、语法形式化等。应用研究主要集中在应用自然语言处理的领域,如资料检索、文本分类、机器翻译等。在国内,由于对于机器翻译这一基本理论的研究起步较早,是任何应用的理论基础,因此,语法、句法、语义分析等方面的基础研究一直是研究的重点,而近年来随着网络技术的发展,对智能检索的研究也逐渐升温。今后,数据科学与语言科学融合成为必然趋势,神经语言学、语料库语言学、数据语言学、语言智能等在人工智能领域将成为关注的焦点。

8 结语

本文从中文分词技术的概述、分类、方法、挑战、应用及现状等方面进行探究,并在Python环境下实现中文分词。尽管中文汉字博大精深,但随着科技的发展和人工智能化的发展,对中文分词技术的探究不断深入,相信今后一定能开发出高质量、多功能的中文分词算法,推动自然语言理解系统的广泛应用。

[参考文献]

[1]曾小芹.基于Python的中文结巴分词技术实现[J].信息与电脑,2019(18):38-42.

[2]祝永志.基于Python的中文结巴分词技术实现[J].通信技术,2019(7):1615-1619.

[3]孙铁利.中文分词技术的研究现状与困难[J].信息技术,2019(7):187-192.

[4]白宁超.Python数据预处理技术与实践[M].北京:清华大学出版社,2019.

[5]涂铭.Python自然语言处理实战:核心技术与算法[M].北京:机械工业出版,2018.

(编辑 王雪芬)

A probe into Chinese word segmentation technology based on Python

Shi Guoju

(Bijie Radio and Television University, Bijie 551700, China)

Abstract:Chinese word segmentation belongs to the subset of natural language processing technology. The research on Chinese word segmentation technology has a long history. Based on Python stuttering segmentation, this paper explores Chinese word segmentation technology from the overview, classification, method, challenge, application and status quo, aiming to throw a brick to attract jade for reference.

Key words:word segmentation; Chinese word segmentation; Jieba;  natural language processing

作者簡介:史国举(1985— ),男,贵州毕节人,讲师,本科;研究方向:大数据分析。

猜你喜欢
自然语言处理分词
基于伪标注样本融合的领域分词方法
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
基于组合分类算法的源代码注释质量评估方法
面向机器人导航的汉语路径自然语言组块分析方法研究
词向量的语义学规范化
汉哈机器翻译中的文字转换技术研究
HowNet在自然语言处理领域的研究现状与分析
论英语不定式和-ing分词的语义传承