“蒙古语名词语义信息词典”的开发与应用

2015-04-21 08:43海银花那顺乌日图
中文信息学报 2015年3期
关键词:内蒙古大学蒙古语词条

海银花,那顺乌日图

(1. 内蒙古大学 蒙古学学院,内蒙古 呼和浩特 010021;2. 内蒙古大学 蒙古学学院,内蒙古 呼和浩特 010021)



“蒙古语名词语义信息词典”的开发与应用

海银花1,那顺乌日图2

(1. 内蒙古大学 蒙古学学院,内蒙古 呼和浩特 010021;2. 内蒙古大学 蒙古学学院,内蒙古 呼和浩特 010021)

2009年至今,“蒙古语名词语义信息词典”(以下简称为“名词语义词典”)通过几年的开发目前词典基本成形,并且有了显著的新进展。其新进展主要体现在词条的扩充、属性字段的增添及其初步应用。该文概要介绍“名词语义词典”的研发过程,实例说明这部词典的新进展和初步应用情况。

蒙古语名词;语义信息词典;开发;应用

1 引言

“蒙古语语义信息词典”是基于“蒙古语语法信息词典”研发的一部面向蒙古语语句自动处理的语言知识库。它以数据库文件形式收录5.7万个词条,不但给出每个词语所属的词类、语义分类、近义、反义、同形等基本语义属性之外,而且以义项为单位详细描述了它们的各种语义搭配限制和配价信息。无论是基础研究还是应用开发,它是一部基于蒙古语词汇的语义属性描述体系,为满足计算机语义自动分析、词义消歧等更深层次的语言信息处理提供形式化语义知识。整个词典的研发进程包括如下内容:

(1) 充分表示蒙古语词语语义关系和语义层次的词语语义分类框架体系及其相关标记集,它是面向语义分析和语义生成的蒙古语词语语义属性描述体系。主要包括七项大类、198项子类的名词语义分类体系及其标记集;六项大类、217项子类的形容词语义分类体系及其标记集;以及五项大类、121项子类的动词语义分类体系及其相应的标记集。

(2) 描述每个词语翔实语义信息的“名词语义信息词典”、“形容词语义信息词典”和“动词语义信息词典”等蒙古语三大词类的知识库,其各自囊括的信息量和信息总量计算如表1所示。

(3) 针对该词典是一部尽可能从多角度、多层次上描述现代蒙古语常用词语语义特征的知识库这一特点,开发了“蒙古语同形词知识库”、“蒙古语多义词词典”、“蒙古语连接形式知识库”等三个辅助库[1]。

表1 “蒙古语语义信息词典”信息量计算表

(4) 集语法信息与语义信息于一身的语言知识库管理平台。为了更好地管理并补充和完善蒙古语语言知识库中的词条及语法、句法、语义信息的统一性和完整性,管理平台对各个资源库设计了若干个MDI子节点窗体,分别实现了添加、修改、删除、查询、浏览和校对等功能和一系列连贯操作。

本课题是已有国家自然科学基金项目的原有成果“蒙古语语法信息词典”的继承和延伸。譬如,“名词语义词典”14 105词条的直接来源为语法信息词典“名词分库”的原有词条[2],“形容词语义词典”的11 025余词条是通过 扩 充 语法信息词典“形容词分库”的7 600余词条而获取的[3]。词典管理平台集成语法信息和语义信息的同时具备了对于语法信息词典和语义信息词典均可进行科学的管理和维护功能[4]。

2 “名词语义词典”的开发

2.1 语义分类体系及其标记集

我们充分利用有关蒙古语词语语义分类前人研究成果,借鉴和参考英语、汉语等其他语言的词语语义分类体系的同时,根据名词的基本词汇语义把蒙古语14 105个常用名词进行语义分类。整个语义分类体系包括事、物、智慧、时间、空间、动作、度量等七个大类,198个子类,具有九个层次,如图1所示。有关名词语义分类体系另有一篇文章详述[5]。由于该分类体系是针对“名词语义词典”的开发而研制,所以词典库中的“大语义类”和“子语义类”等两个属性字段的取值来源于该分类体系。

图1 蒙古语名词语义分类体系及其标记集样本

2.2 语义属性描述

“名词语义词典”数据库中填置了22个属性字段及其相应的取值。我们把22种语义属性信息可以归纳为“连接信息”、“基本语义信息”、“语义分类信息”、“搭配规则信息”和“配价信息”等五种大类,其各自囊括的属性字段如表2所示。

表2 语义属性类别表

词典数据库中设制的属性字段名称和取值翔实说明如表3所示。

表3 属性字段名称和属性取值说明

续表

图2 “名词语义词典”数据库样本

3 新进展

3.1 词条的扩充和整理

我们通过以下两个步骤把词典词条从原有的14 105条扩充成18 000条。

3.2 属性字段的增加

目前我们在词典数据库中增添的属性字段及其属性值说明如下所述。

表4 “名词语义词典”中的一价名词配价信息描述样本

3.3应用价值

“名词语义词典”中的语义属性在蒙古语多义词义消歧、同形异义词的辨别、短语结构关系判定以及语义角色的标注等各个层面都提供形式化语义知识。例如,以蒙古语作为目标语的机器翻译系统中“名词语义词典”判断哪些词是多义词的方法是通过“义项”、“同形”、“大语义类”、“子语义类”等四个字段中的任何一个内容可以说明当前的词条是否一个多义词。当同一个名词的多个义项属于不同语义类时,它们在句子中所受到的搭配限制也有所不同。其中可以利用“大语义类”、“子语义类”、“释义”、“价量”和“价质”等字段在生成目标语言过程中对当前多义词进行消歧,从多义词的不同译法中挑选最合适的一个译词来提高译文质量。

由于该词典处于开发完后的初步阶段,尚未进入全面的应用或产品化阶段,所以下面我们只能以两个实例来说明该词典已开始逐步投入应用这一进展情况。

(1) 蒙古语名词短语语义角色的统计分析研究[8]中应用“名词语义词典”的“词语”、“大语义类”、“子语义类”等三个字段,通过标注蒙古语5 107个简单句进行语义角色标注,统计分析7 646条名词短语充当语义角色情况,归纳出813条名词短语的语义角色识别规则,其具体方法步骤如下:

1) 构建名词语义角色分析库的基础上,统计分析名词短语语义角色结构特征,例如,“存在”(0rs)的语义角色由NPd,NPs,Ne1, Ne2等形式表现,其实例为{{{{SAYIN Ac HELE-TEI Ne1}NPd {MAGV Ac J0HIYAL Ne1}NPd}NPdrs {BAYI/JV Ve2 B0L/0/N_A Vz2}VPs}VPu.W.}S等。

2) 统计分析名词短语语义角色中心词的语义分类,例如,“存在”(0rs)的中心词对应于“Nh,Nbba111,Nbba112,Nbba21,Nbba22,Nbbu1,Nbbu21,Nbbu22, Nbhv,Nv,Nu,Nc”等名词语义分类。

3) 识别“存在”(0rs)语义角色规则有R1-R10条,其第一条规则为:

R1 NP0rs-Ne2|Ne1+Ve1+Ne2

﹤Nsubcat﹥=Ne

﹤Morph﹥=0

﹤Nsem﹥=Nvt|Nbba1112

﹤Vsubcat﹥=Ve2

﹤Vsem﹥=VHA0R

﹤Valent﹥=0rs

(2) 蒙古语从比格形式名词的语义角色辨析研究[9]探索名词的语义分类和谓词语义分类的相互匹配和约束条件时应用“名词语义词典”的“子语义类”字段,归纳出从比格形式名词的294个语义角色辨析模型。该项研究以“现代蒙古语20万词级语料库”为基本语料,分析带有从比格形式名词的例句,归纳出识别名词在句中扮演的语义角色的规则。例如,“MINV JIRUHE TVNG HUCU/TEI TUGSI/JU MANGNAI-ACA HOLOSO CIHIGLEBE.”例句的语义角色辨析模型为“ERHETEN+ACA+UILEDHU UILE=EGUSBURI”,该模型表示“人的器官+ACA+主动动词=来源”,即“Nbba12+Fc40+VHOUI=egs”。

4 结论与展望

我们运用现代语义学的理论和语义分析技术,从格关系、语义场理论、配价理论等方面着手开发了“名词语义词典”。众所周知,语义信息词典是翔实描述每个词语的各种语义属性,它需要大规模语料库或大量语言事实。但是,在目前我们所开发的“1000万词蒙古语语料库”尚未投入应用的前提下,仅仅依靠“100万词现代蒙古语语料库”和26万词双语语料库等资源无法满足开发和加工该词典的实际需求。针对这种情况,课题组只能采取利用诸多面向人理解的纸质版辞书或资料,一边开发基础语料,一边利用这些语料开发语义信息词典的方法。这样需要大量的时间,同时需要很大的人力投入。另外,运用格语法和配价理论深入、翔实地描述和分析名词的语义关系和语义属性尚需很多理论方面的探索,并且通过语言工程的验证,调整和完善该词典库,从理论高度进行归纳已成为该项研究的下一个任务。

[1] 那顺乌日图.蒙古语语言知识库的建立与应用[J].中文信息学报,2011,25(6):163-165.

[2] 海银花.面向信息处理的蒙古语名词语义研究[D].内蒙古大学博士学位论文.2010.

[3] 包志红.蒙古语语义信息词典形容词分库的构建[D].内蒙古大学硕士学位论文.2010: 23-24.

[4] 呼日乐吐什.蒙古语语言知识库管理平台的设计与实现[D].内蒙古大学硕士学位论文.2010.5.

[5] 海银花.面向信息处理的蒙古语名词语义分类体系[J].内蒙古大学学报(哲社蒙文版),2012,41(4):79-88.

[6] 布林特古斯.蒙古语熟语大辞典[M].内蒙古: 内蒙古教育出版社,呼和浩特,2000.

[7] 《蒙古语词典》编纂组.蒙古语辞典[M].内蒙古: 内蒙古人民出版社,1997:641.

[8] 伊好斯白音.蒙古语名词短语语义角色的统计分析研究[D].内蒙古大学硕士学位论文.2012.

[9] 陈红霞.从比格形式名词的语义角色辨析研究[D].内蒙古大学硕士学位论文.2012.

The Construction and Application of the Semantic Information Dictionary of Mongolian Noun

Yinhuahai1, Nasun-urt2

(1. The Institute of Mongolian Studies, Inner Mongolia University, Hohhot, Inner Mongolia 010021, China; 2. The Institute of Mongolian Studies, Inner Mongolia University, Hohhot, Inner Mongolia 010021, China)

“The Semantic Information Dictionary of Mongolian Noun” (“The Dictionary” hereafter) has come into its basic form since 2009. The progress is reflected by the expansion of its entries, the increase of its attributes, and its practical application in various systems. This paper introduces the development of this dictionary, and discusses these new progress and preliminary application of “The Dictionary”, with examples.

mongolian noun; semantic information dictionary; construction; application

海银花(1981—),博士,讲师,主要研究领域为蒙古文信息处理。E⁃mail:haiyh2008@163.com那顺乌日图(1959—),教授,博士,博士生导师,主要研究领域为蒙古文信息处理。E⁃mail:mgnasun@imu.edu.cn

1003-0077(2015)03-0190-06

2012-11-09 定稿日期: 2013-01-17

国家自然科学基金(60873084);国家社科基金(12CYY062);国家自然科学基金(61032008)(与清华大学合作项目);内蒙古大学高层次人才引进科研启动项目(710067)

TP391

A

猜你喜欢
内蒙古大学蒙古语词条
基于端到端的蒙古语异形同音词声学建模方法
《闲隙》
靳双双、赵娇作品
内蒙古大学文学与新闻传播学院
——高建新教授
利用简单的公式快速分隔中英文词条
提高翻译水平对年轻一代蒙古语广播工作者的重要性
“守望相助在美好家园”全区蒙古语原创歌曲演唱会精彩上演
首届蒙古语RAP专场演唱会——“无线内蒙古MONGOL RAP之夜”
施旖旎作品