中文信息处理中自动分词技术的研究与展望

2015-05-30 15:14郭淑妮
科技创新与应用 2015年25期
关键词:研究

摘 要:当前人们在工作和学习中需使用中文信息处理技术获取自己需要的资源,基于人们需求不断增加,必须提升人们搜索资源的效率,提升中文信息处理相关技术,让中文信息处理与时俱进,满足人们实际需求。中文信息处理包含多种关键技术,为提高信息处理能力必须多种技术同时发挥作用。中文信息处理自动分词技术是信息处理技术瓶颈,文章就文信息处理自动分词技术展开研究。

关键词:中文信息处理技术;自动分词技术;研究

21实际是电子信息时代,计算机在人们生活中占据重要地位。中文是我国第一语言,中文信息化处理在计算机中应用能够有效满足人们对信息的需求。中文信息处理主要对中文进行转换、传输、存贮、分析等加工目前我国虽然在中文信息处理方面取得一定进步,但某些关键技术仍旧有待完善,自动分词技术就是其中之一。

1 自动分词技术的研究现状及面临的困难

随着人们对中文信息处理技术要求不断提升,中文信息处理自动分词技术已经成为影响信息处理的关键技术之一。因此,必须对自动分词技术深入研究,分析其现状及存在的问题。

自动分词技术研究目前已经取得一定成效,一些比较实用的自动分词技术已经被应用,这些分词技术在精确度以及分词速度上已经能够满足人们一些基本需求,但在一些特殊需求上仍需要进一步提升精确度和分词速度,当前自动分词技术面临的问题主要有以下三点:

(1)中文一些词语概念难以界定,很多词语具有多重意思;(2)未登录词的识别;(3)歧义切分字段的处理。

我国上世纪90年代制定的《现代汉语分词规范》中明确规定了一些分词原则,与分析相关操作可根据该规范展开。进行分词前需制定标准化、实例化的分词词表,并在实践中不断进行修改完善,该词表制作存在一定难度。

我国词典虽然处于不断完善过程中,但其必然存在最大容量,而中文内涵是无限的。因此,必然有一些词汇没有被收录到词典中,尤其是一些新产生的词汇在词典更新前往往无法从词典中搜索到。因此,必须建立标准化分词词表并不断进行完善,持续改进。

汉语难以实现自动分词功能,究其原因是汉语语义多样性引起的,不同中文从不同角度理解便可得出不同结论,且传统中文信息传递主要以书写为主。因此,无论如何分词都难以消除中文分词歧义。中文信息处理中自动分词技术已经成为自动分词技术实际运用的最大障碍,相关专家学者必须针对该问题结合当前先进算法提升自动分词技术,解决歧义切分字段的处理。

2 歧义字段的定义及分类

中文句子经常会出现多种切分出现多种语义的状况。中文处理信息技术汇总将这种状况称之为歧义字段,一般可将其分为交集型歧义字段、覆盖型歧义字段、多义型或组合型。

交集型歧义字段:举例来说,假设A、B、C分别代表字串,该字串由一个或多个子串组成,即其中A、B、C可自由分割,此时若出现字段中A、B、C均为分词表中对应的词,则将其称之为交集型歧义字段。例如对于“美国会”这一交集型歧义字段,可将其且分为“美/国会”以及“美国/会”两种结果。调查表明,中文信息处理中交集型歧义字段在歧义字段中占据比例约为85%,解决交集型歧义字段问题是中文信息处理重中之重。

覆盖型歧义字段:若A、B代表一个或多个子串组成的字段,将其分段为A、B、AB等均为分词表中的词。此时AB则被称为覆盖型歧义字段,例如“把手”可分为“把/手”,均可独立作为分词,“十/分”也是覆盖型歧义字段。一般情况下覆盖型歧义字段在中文信息处理中遇到几率不高,一旦出现便会造成中文信息处理故障,因此需慎重对待。

3 中文自动分词算法分类

3.1 基于机械匹配的中文自动分词算法

机械匹配算法基本思想是先建立词库,将所有可能出现的词纳入其中,如需处理给定汉字串S,则按照某种特定分词原则将其与词库中某些分词相匹配。如果S中分割的子串本身是词则继续对其进行分割,直至最后剩余部分为空;如果S中分割的子串本身不是词则取S子串进行匹配。机械匹配算法仅依靠分词进行匹配,因此在系统实现上以及操作上较为简单,针对某些基本中文信息处理有一定成效,目前已经得到广泛应用。

根据每次匹配时优先考虑长词还是短词可将机械匹配算法分为最大匹配法和最小瓶匹配法;根据分割匹配汉字串是是正向还是反向又可将其分为正向匹配法和反向匹配法。

3.2 基于统计语言模型的中文自动分词算法

随着网络时代到来,越来越多学者都认识到网络电子文本是重要自动分词资源,利用相关手段在电子资源库中直接获取需要的知识在未来必将成为自动分词重要组成部分,基于统计语言模型的中文自动算法在这样的环境下诞生了。

基于统计语言模型分词算法基本思想是对分词在中文汉字相邻位置出现概率的可信度进行统计,将相关统计信息作为分析依据。

4 自动分词技术展望——人工智能技术的中文自动分词方法

人工智能技术就是利用智能系统具备的神经网路以及专家系统进行中文信息处理自动分词功能,以实现中文信息处理自动化。该种算法的主要思想是利用智能系统模仿进行语言识别。

神经网络分词算法是模拟人脑进行分词处理以及数值据算的一种智能算法,该算法主要将知识隐式方法输入神经网络并存储,通过系统自学及训练修改的方式达到有效分词效果。专家系统分词算法主要指从模拟人脑出发将知识分词看做推理过程,将汉字串按照语法、语义、句法等从结构上分离开来。

5 结束语

中文信息处理技术在过去一段时间获得长足发展,已经能够满足人们对中文信息处理基本需求,从长远角度来看为更进一步促进中文信息发展必须度仍旧存在的问题进行深入分析探讨,中文信息处理自动分词技术是其中关键一环。因此,必须对其展开深入研究,使其适应时代发展需求。

参考文献

[1]贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2012(5):56-59.

[2]梁南元.书面汉语自动分词系统[J].语言文字应用.2011(3):98.

作者简介:郭淑妮(1981,12-),女,山东威海人,硕士研究生,内蒙古民族大学计算机科学与技术学院,研究方向:中文信息处理,语音识别。

猜你喜欢
研究
FMS与YBT相关性的实证研究
2020年国内翻译研究述评
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
关于辽朝“一国两制”研究的回顾与思考
EMA伺服控制系统研究
基于声、光、磁、触摸多功能控制的研究
新版C-NCAP侧面碰撞假人损伤研究
关于反倾销会计研究的思考
焊接膜层脱落的攻关研究