藏文词性自动标注中歧义问题处理方法研究

2013-07-20 02:34羊毛卓玛
计算机工程与应用 2013年24期
关键词:藏文歧义信息处理

羊毛卓玛

青海师范大学民族师范学院,青海海南 813000

藏文词性自动标注中歧义问题处理方法研究

羊毛卓玛

青海师范大学民族师范学院,青海海南 813000

1 引言

藏文词性自动标注是藏文信息处理技术中的一项基础性课题,它的研究成果不仅为机器翻译、搜索引擎、网络信息安全等诸多领域的研究奠定基础;也是藏文信息后续句法分析、语义分析及篇章分析必不可少的前提条件。藏文词性标注的研究是自然语言理解智能化的一项重要工作。因此,研究和实现藏文词性自动标注系统具有重要的理论意义和实用价值。

藏文词性自动标注的重点和难点是词性歧义问题的处理,即兼类词的处理问题。所谓兼类词在理论上指的是有些词具有两类或两类以上词的句法分布特征,这些词将属于不同的词类,简称兼类[1]。兼类词是影响藏文词性自动标注的关键因素,也是自然语言处理中难以解决的棘手问题及语法界存在争论的焦点问题。据对藏文中常用的词典《藏汉大辞典》[2]、《新编藏文词典》[3]和《藏文动词词典》[4]合并去重后精选七万余词条完成词性标注统计,其中兼类词有23 623个,约占总词数的32.36%。据对12万余字的人工标注语料统计,兼类词出现词次为60 481个,约占语料总词数的49.17%。数据表明:在藏文中兼类词数量较多,且常用词兼类现象严重。这给藏文词性标注及藏文信息处理后续的工作带来了一定的难度。所以藏文词性标注的关键是解决兼类词问题。该文在基于HMM统计方法[5]的基础上提出了符合藏文语法规则实用于藏文词性标注的词性排岐处理方法。有效地提高了藏文词性标注正确率。

2 藏文中兼类词现象

在藏文中,词性的兼类现象普遍存在,尤其是常用词的兼类现象给藏文词性标注带来了很大困难。在12万余字的标注语料中对藏文兼类词特点及现象作了具体的分析。比如(例子来源《藏汉大辞典》):

根据对文中使用的词库和语料的统计,藏文中兼类词的分布情况如表1~表3所示。

表1 藏文兼类词现象统计

表2 藏文兼类词所占比例

表3 藏文中兼两类词示例

从表2数据可知,藏文兼类词中,兼两种词性的兼类词占多数,所占比例如表3(本文采用的词性标记集[6])。

通过以上分析可以发现:藏文本中兼类词的数量较多,尤其常用词的兼类现象严重,对后续句法分析造成直接的影响。随着藏文信息处理的不断研究,尤其是机器翻译正在深入研究,兼类词是一个无法回避的重点和难点问题,词性是一个词的最重要的语法信息,如果一个词的词性无法确定,句法分析就无法进行,如果一个词赋予错误的词性,将导致严重的句法分析错误,所以,兼类词的处理在自然语言处理中有至关重要的意义。

3 藏文词性标注中歧义问题的处理

3.1 词缀造成的词性歧义问题

藏文本中后接成分(文献[7]中有详细介绍)具有较高出现频率且组词能力极强,引用范围也广,又不能一一收入词典。在藏文词性自动标注处理中出现了“词缀单切”现象。导致了标注结果的正确率下降。该文结合藏文语法知识特点解决了藏文词性自动标注中藏文后接成分的处理问题。

图1 专职词识别流程图

图2 形容词识别流程图

3.2 词的义项功能造成的词性歧义问题

规则处理的基本思想是利用上下文框架规则描述在特定的语境下一个多类词到底应标上什么词性标记,这里的语境包括词语信息、词类信息甚至还有某个词语的特征信息[8]。

藏文中虚词出现的频率很高且兼类现象严重。多数虚词具有严格的语法规则与上下文关联,根据此特点,可以设置规则完成对其排岐处理。

图3 “”等识别流程图

具体算法实现如下:

(1)读取文本,进行分词;

(3)查兼类词库JLDictionary,如果找到转(4);否则转(6);

(6)标记为未登录词(暂不研究);

(7)赋予兼类词库FJLDictionary中相应的词性;

(8)标注为名词n;

(9)输出结果。

4 实验结果

本文以藏文文学、民俗、网页新闻,五省区中小学藏文教材为取材,整理后精选12万余字语料完成人工标注,作为统计数据的来源,分析了藏文词性标注中兼类词的特点,并提出了解决兼类词的方法。为了更好地评价藏文词性自动标注的性能,本文采用词性标注正确率=(标注结果正确词数/语料总词数)×100%进行计算。实验结果如表4所示。

表4 藏文词性自动标注算法比较结果

本文提出的算法使藏文词性标注正确率在原有的基础上提高了1.83%,证明了本文算法的实用性。

5 结束语

藏文自动词性标注中词性歧义问题的解决对藏文词性自动标注正确率起着重要的作用。本文通过藏文词缀归并后标注等规则结合统计方法处理了藏文中出现频率高的兼类词排岐处理,提高了藏文词性自动标注的正确率,为进一步研究藏文信息处理后续的句法分析、语义分析、篇章分析奠定了基础。

[1]黄德根,张丽静.规则与统计相结合的兼类词处理机制[J].小型微型计算机系统,2003(7).

[2]张怡荪.藏汉大辞典[M].北京:民族出版社,1993.

[3]编写组.新编藏文字典[M].西宁:青海民族出版社,2005.

[4]李永昌.藏文动词词典[M].北京:民族出版社,2005.

[5]羊毛卓玛.藏文词性自动标注系统的研究与实现[D].拉萨:西藏大学,2012.

[6]扎西加,欧珠,高定国,等.信息处理用藏语词类标记集规范[S].拉萨:西藏大学工学院,2007.

[7]羊毛卓玛,高定国.藏文自动分词中未登录词处理方法研究[J].计算机工程,2012(18).

[8]周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995(3).

[9]格桑居冕.实用藏文文法教程[M].成都:四川民族出版社,2004:258-270.

Yangmo Droma

School of National Teachers,Qinghai Normal University,Hainan,Qinghai 813000,China

Tibetan language Part-Of-Speech(POS)tagging is the subsequent parsing of Tibetan language information processing. POS tagging is an essential foundation work for semantic analysis and text analysis.POS ambiguity problem solving is the key to Tibetan POS tagging,is also one of the difficulties in the Tibetan automatic POS tagging.This paper analyzes and studies POS ambiguity problem in the Tibetan POS tagging,and puts forward a method of solving POS ambiguity problem suitable for Tibetan grammar rules.Experiments prove that this method on speech disambiguation in the Tibetan POS tagging has achieved better results and has definitely increased the accuracy of the Tibetan POS tagging.

Tibetan information processing;affix;Part Of Speech(POS);automatic tagging;Part Of Speech disambiguation

藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究,提出了符合藏文语法规则实用于藏文词性标注的解决词性排岐方法。实验证明:该处理方法在藏文词性自动标注中对词性排岐方面有较好的效果,使藏文词性标注正确率有了一定的提高。

藏文信息处理;词缀;词性;自动标注;词性排岐

A

TP311

10.3778/j.issn.1002-8331.1204-0294

Yangmo Droma.Study on method of solving ambiguity in Tibetan part of speech tagging.Computer Engineering and Applications,2013,49(24):135-137.

国家自然科学基金(No.61063015);教育部“长江学者与创新团队发展计划”藏文信息技术创新团队项目(No.IRT0975)。

羊毛卓玛(1978—),女,讲师,主要研究方向:藏文信息处理。E-mail:yangmaozhuoma@163.com

2012-04-17

2012-07-25

1002-8331(2013)24-0135-03

CNKI出版日期:2012-08-08http://www.cnki.net/kcms/detail/11.2127.TP.20120808.0938.010.html

◎图形图像处理◎

猜你喜欢
藏文歧义信息处理
东营市智能信息处理实验室
基于Revit和Dynamo的施工BIM信息处理
西藏大批珍贵藏文古籍实现“云阅读”
eUCP条款歧义剖析
黑水城和额济纳出土藏文文献简介
地震烈度信息处理平台研究
CTCS-3级列控系统RBC与ATP结合部异常信息处理
English Jokes: Homonyms
藏文音节字的频次统计
现代语境下的藏文报刊