维吾尔语框架语义角色标注标记集研究

2013-04-14 08:04阿里甫库尔班吾买尔江库尔班房鼎益
中文信息学报 2013年2期
关键词:论元库尔班维吾尔语

阿里甫·库尔班,吾买尔江·库尔班,房鼎益

(1.西北大学信息科学与技术学院,陕西西安710127;2.新疆大学信息科学与工程学院,新疆乌鲁木齐830046;3.新疆大学人文学院,新疆乌鲁木齐830046)

1 引言

框架网络(FrameNet)是一个基于语料库的、运用框架语义学的理论,以框架为基础并使其词汇意义在其中彼此连接的语义网络[1]。基于国内外框架语义网构建技术的兴起和发展趋势,我们参考英语FrameNet工程和CFN工程的体系设计思路,结合维吾尔语源语言的框架语义描述体系,探索了词一级的维吾尔语框架语义网络(Uyghur FrameNet,简称UFN)构建技术和建设方法[2]。目前UFN的句子标注工作是对给定的句子、目标词及其框架,标注目标词的各个直接从属成分所承担元素的类型,并标注该短语(或词)的短语类型和句法功能。短语类型标注就是标注框架元素所在的整个短语的句法性质。句法功能的标注是只有做目标词的框架元素成分才标注。因此,在对词一级的维吾尔语框架语义网络构建过程中,研究、制订和规范维吾尔语框架语义角色的语义类型,语义领域和标记符集、短语类型(TP)和标注符号集、句法功能(GF)的标注符号集就成为一项很重要的基础工作。希望此项研究成果为维吾尔文信息处理、框架语义自动标注及维吾尔语机器翻译提供一种参考。

2 目标词及维吾尔语词性标注标记

UFN语义标注与英语FrameNet工程、汉语CFN工程一样,其基本结构是由一个框架承担词和若干框架元素组成的语义结构。在以维吾尔语源语料为事实依据的基础上建立的框架库和词元库,是由各个框架中出现的属于名词、形容词、动词、量词和副词等不同词类的常用词元构成,它们是标注工作的着眼点,称之为目标词。目标词是要标注的目标词元,目标词根据标注需要事先给出,用tgt(target)作为标记。

维吾尔语词类标注,是给语料库中的每个单词指派一个词类或者词汇类别标记的过程,通常这种词类的符号是特定的符号,标记通常标在每个单词之后,中间用斜线隔开。研究过程中,我们参考英语或汉语的词性标注研究成果,同时着眼于维吾尔语自身的特点,从维吾尔语词类的分布特征及句法属性入手,对维吾尔语词语分类体系中的12个词类的分布特征,根据形态变化、面向信息处理的现代维吾尔语词语分类体系及其标记集,初步制定了《现代维吾尔语词性标注标记集》共1 003个标注符号。具体内容参考文献[3-4]。

3 维吾尔语框架语义角色及标注标记集

框架网络中框架元素是以具体的框架为基本描述单位而加以区分和确定的,因此,没有一个明确的框架元素总表,只能根据具体框架具体分析,它的数量已经超出了我们以往熟悉的格语法、配价语法所提供的语义角色类型。框架网络包括若干个语义领域,每个领域又包括若干个框架,每个框架由若干个语义角色来定义。语义角色是任何语言的语义层中都有的现象。语义角色有不同的称呼,其中包括题元角色、语义格、论旨角色等。基于这样的认识,Fillmore从格语法进一步走到了框架网络。框架网络主要包括框架概念、框架的参与元素以及框架和框架之间的关系。每个框架都由一组框架元素(Frame Elements)组成。框架元素是一个框架的参与者和支撑者,是带有某种语义角色的论元。由于各种框架元素(即论元)与动词之间的语义联系有所不同,因此,Fillmore在框架网络中也区分了核心框架元素(核心论元)和非核心框架元素(非核心论元)[5]。

语义角色的划分是个十分复杂的问题,不仅涉及到动词的语义特征,而且与论元的句法位置和句法实现方式有关。同一个动词的论元,因其句法实现方式的不同,可能会担当不同的语义角色。目前UFN课题组已就维吾尔语名词、形容词、动词、量词和副词等4 252个词元构建了402个框架,无论任何一种目标词,在语义和句法层面作为特定的论元时与动词发生联系,就可根据这些论元与动词的关系区分不同的语义角色。当然,这些论元的句法功能也是划分语义角色的依据之一。由于语言之间千差万别,各语言当中语义角色的数量、语义特征及其在句法平面上的表现形式等方面的差异,可能出现各种各样的特殊情况。

在UFN中,每个框架中要列出该框架所有的元素,要对每一个元素所充当的语义角色进行简明的描述,并附有相应的示例。目前UFN课题组已对2 700个词元完成了例句标注,共标注了1.85万个例句的框架语义信息。UFN构建的框架中出现的核心和非核心元素总计5 225个(含重复出现),取消重复出现的框架元素后只有710个元素,其根据语义领域(Semantic Field)分为11大类、52类不同的元素,对分类的52类又分为核心和非核心元素;此次分类对以往的分类进行了修正,对它们分别赋予标记符号集和元素背景颜色着色集,如表1所示[6-7]。赋予颜色保证了同一种框架中不出现同一种颜色,又保证了同一个元素在不同的框架中用一种颜色来着色,保证了一致性和可读性。

表1 维吾尔语框架语义角色及标注标记集

续表

续表

4 维吾尔语短语及标注标记集

我们也从框架语义信息处理的角度探讨了维吾尔语的句子结构。维吾尔语两个以上的词按照一定的语法关系和语义关系组成的单位叫短语。在UFN标注中“短语”是广义的概念,短语类型标注就是对框架元素所在的整个短语的句法性质进行标注。UFN中定义的短语类型和标注标记集如表2所示[8-9]。

表2 维吾尔语短语类型及标注标记集

续表

5 维吾尔语句法功能(GF)及标注标记集

UFN中的句法功能指的是某一个特定的框架元素或短语相对于目标词的句法功能,即在框架元素或短语与目标词所构成的句法关系中,该元素或短语所起到的句法功能。在句子当中能够承担句法功能的成分(框架元素或短语)才能被划入标注范围,在并列或从属成分之中的某个成分在句子中不能充当特定的框架元素时,一般不标注该成分的句法功能。为满足以上要求制定如表3中的句法功能标注标记集[9]。

表3 维吾尔语句法功能标注标记集

6 结论

本文对维吾尔语源语言的框架语义知识库的语义角色的分类和标注标记符集、短语类型和标注符号集、句法功能的标注符号集的研究内容进行了初步探讨和尝试。在此研究内容基础上,今后将进一步深入开展对维吾尔语框架语义角色自动标注技术,以及维吾尔语框架语义角色基础上的句义理解计算模型的研究,为基于句义理解的信息检索,问答系统、信息抽取和机器翻译提供基础服务。

[1] 郝晓燕,刘伟,李茹,等.汉语框架语义知识库及软件描述体系[J].中文信息学报,2007,21(5):96-100.

[2] 阿里甫·库尔班,吾买尔江·库尔班,等.维吾尔语框架语义知识库的概念设计[J].中文信息学报,2010, 24(4):114-118.

[3] 阿里甫·库尔班,吾买尔江·库尔班.面向信息处理的维吾尔语词语分类体系及标记研究(Ⅰ)[J].新疆大学学报(自然科学汉文版),2009,26(4):476-481.

[4] 阿里甫·库尔班,吾买尔江·库尔班.面向信息处理的维吾尔语词语分类体系及标记研究(Ⅱ)[J].新疆大学学报(自然科学汉文版),2010,27(1):106-112,116.

[5] 刘开瑛,由丽萍.汉语框架语义知识库构建工程介绍名[C]//中文信息处理前沿进展.中文信息处理二十五周年学术会议.北京:清华大学出版社,2006:64-71.

[6] 邵艳秋,穗志方,吴云芳.基于词汇语义特征的中文语义角色标注研究[J].中文信息学报,2009,23(6):3-10.

[7] 袁毓林.语义角色的精细等级及其在信息处理中的应用[J].中文信息学报,2007,21(4):10-20.

[8] 哈米提·铁木尔.现代维吾尔语语法·形态学[M].北京:民族出版社,1987.

[9] 力提甫·托合提.从短语结构到简单方案—阿尔泰语言的句法结构[M].北京:中央民族大学出版社,2004.

猜你喜欢
论元库尔班维吾尔语
甲氨蝶呤联合米非司酮治疗异位妊娠的疗效观察及护理
浅析维吾尔语表可能语气词
村民库尔班·依明脱贫记
维吾尔语助动词及其用法
统计与规则相结合的维吾尔语人名识别方法
基于深度学习的维吾尔语名词短语指代消解
基于依存树距离识别论元的语义角色标注系统
库尔班大叔骑着毛驴去北京