一种消歧框架信息技术研究

2016-05-14 22:11刘金辉
数字技术与应用 2016年7期

刘金辉

摘要:随着互联网上海量文本的涌现,自动文本处理已经成为一项重要的研究课题。为了正确地处理汉语文本,必须对其中的歧义词汇进行消歧。本文给出了一种基于多种语言学知识的词义消歧框架。结合《同义词词林》,抽取歧义词汇的上下文中的多种语言学知识作为消歧特征,使用贝叶斯模型来确定它的语义。同时,将自动消歧结果应用于检索引擎、机器翻译系统和文语转换系统。

关键词:歧义词汇 词义消歧 上下文 消歧特征 贝叶斯模型

中图分类号:TP391.2 文献标识码:A 文章编号:1007-9416(2016)07-0092-01

1 概述

词义消歧是指使用计算机自动地确定歧义词汇在上下文环境中所具有的真实含义。目前,词义消歧是自然语言处理领域中的一个基础性研究课题,它对信息检索[1]、机器翻译[2]和文本处理具有重要的支持作用。随着互联网的快速发展,网络上涌现了大量的自然语言文本,迫切需要开发高质量的自然语言文本处理工具。而词义消歧则是提高自然语言文本处理质量的关键性技术。目前,词义消歧方法主要分为3类:有监督的词义消歧、无监督的词义消歧和半监督的词义消歧[3]。

在歧义词汇的上下文中,蕴藏着不同类型的语言学知识,诸如:词形、词性、句法、长度和语义信息。本文利用这些不同类型的语言学知识来为词义判别过程提供指导信息。同时,使用词义消歧结果来改善相关文本处理系统的性能。

2 基于多种语言学知识的消歧框架

本文综合利用了歧义词汇上下文中的词形、词性和语义信息,结合贝叶斯模型给出了一种汉语词义消歧系统的框架结构,如图1所示。

在这一框架中,主要包括以下模块:汉语分词模块、汉语词性标注模块、语义类别标注模块和消歧特征提取模块。汉语词性标注模块的作用是:为每个汉语单词添加词性标注。语义类别标注模块的作用是:查阅《同义词词林》,根据出现频度来标注汉语词汇的语义类别。消歧特征提取模块的作用是:提取左、右词汇的词形、词性和语义类别作为判别特征。词义消歧模块采用了贝叶斯模型,其输入是消歧特征分量出现的概率,输出结果是该歧义词汇的语义类别。词义消歧过程如公式(1)所示。

(1)

对于待消歧的歧义词汇而言,共包含n个语义类别:S1, S2, …, Sn。在贝叶斯模型中,主要包括两个参数:语义类别出现的先验概率P(Si)和语义类别-特征向量出现的后验概率P(Si|Feature)。

以该框架为基础,可以实现一个面向Web的汉语词义消歧系统。系统分为客户端和服务器两个部分。客户端利用JSP语言来实现,使用Myeclipse作为开发工具。采用了Tomcat服务器。所实现的系统可以视为一个B/S结构,词义消歧系统部署在服务器上。

3 词义消歧框架的应用

互联网上存在着海量的汉语文本信息。要想从网上找到感兴趣的文字资料,必须采用检索引擎。但是,常用的检索引擎都是利用关键字匹配的方式来检索汉语文本。在这一过程汇中,使用了字符串匹配的方法,没有考虑到关键字的语义信息。其检索的精确率受到了一定程度的影响,经常会得到大相径庭的检索结果。首先,使用该汉语词义消歧系统来确定查询关键字的语义类别。然后,采用该汉语词义消歧系统来确定检索到的文本中的关键字的语义类别。最后,根据查询关键字的语义类别,检索引擎可以自动地选出用户所需要的汉语文本资料,这将大大地提高检索的性能。

随着对外贸易的快速发展,汉语资料的翻译工作变得越来越繁重。单纯依靠人来完成翻译工作,将消耗大量的人力、物力和财力。因此,很多翻译任务需要借助机器翻译系统来完成。在翻译转换之前,使用该汉语词义消歧系统根据上下文来确定歧义词汇的语义类别,将会大大地提高机器翻译系统的译文输出质量。同时,将会降低人工编辑自动译文输出结果的工作量。

在人们的日常生活中,文语转换技术已经越来越普及了。在很多智能手机和幼儿识字学习机上,都安装了文语转换软件,将文本信息变为语音信号朗读出来。目前,文语转换所面临的一个难题是难以对文本句子实施正确地词汇切分,所朗读出来的语音很生硬,经常会出现断句的错误。在词汇切分之后,使用该汉语词义消歧系统根据上下文来确定歧义词汇的语义类别,纠正自动分词结果中的错误。这将会大大地改善语音朗读的效果。

4 结语

目前,词义消歧是自然语言处理领域中的一个研究热点。本文介绍了国内外现有的词义消歧方法。对于输入的汉语句子,分别进行分词处理和词性标注处理。查阅《同义词词林》来提取词义消歧特征,结合贝叶斯模型来确定歧义词汇的语义类别。给出了基于多种语言学知识的词义消歧框架及其实现方案。同时,使用该词义消歧系统来改善检索引擎、机器翻译系统和文语转换系统的性能。

参考文献

[1]张霖,张宇航.基于粗糙本体的信息检索[J].信息化建设,2015,11: 246~246.

[2]宋柔,葛诗利.面向篇章机器翻译的英汉翻译单位和翻译模型研究[J].中文信息学报,2015,29(5):125~135.

[3]全昌勤.基于语料库的汉语词义消歧方法研究[D].华中师范大学,博士学位论文.2005.