米热吉古丽·热扎克,阿里甫·库尔班
(新疆大学信息科学与工程学院,新疆乌鲁木齐830046)
框架语义知识库(简称框架网)是继信息检索和机器翻译之后在信息处理领域新兴的一项在线词库工程,具有语言研究及语言处理的多种用途.“框架”(Frame)作为一个语言学术语,是指人们理解语言时激活大脑已有的认知结构,这种认知结构是通过词语反映的[1].维吾尔语框架语义知识库(Uyghur FrameNet,简称UFN)是将Fillmore的框架语义学作为理论基矗 以伯克利FrameNet和汉语CFN工程设计体系思路为参照,结合维吾尔语源语言的框架语义描述体系,以配价作为基本描写法,依真实语料为事实依据的词一级的维吾尔语语义词汇资源.构建UFN中,需要从真实语料库中抽取包含将要描述词元的例句,为例句标注以及这些例句的配价模式进行深入研究,UFN课题组面临了符合基于阿拉伯字符的UFN相应的计算机辅助软件工具开发.软件工具将要从标注语料库中自动地生成两个报告:一个报告是“词元标注报告”(Annotation by LexUnit Report),另一个报告是“词条报告”(Lexical Entry Report).这两个自动生成的报告有助于维吾尔语自然语言处理研究人员和语言学家进一步深入研究.鉴于这种认识,本文围绕获取这两个报告设计问题进行了前期研究.
目前UFN中例句标注与英语FrameNet、汉语CFN的例句标注工作原理一样,针对给定的例句、目标词及其框架,对目标词的各个直接从属成分所承担的框架元素、短语类型和句法功能这三个层次进行标注.短语类型标注就是标注框架元素所在的整个短语的句法性质.句法功能标注是只有做目标词的框架元素成分才标注.我们围绕下面例句来讨论例句标注对象和任务.
(今天对应届毕业生进行了两个小时的培训.)
从上述分析可知,例句标注对象为目标词、框架元素、短语类型、句法功能和零碎成分.
目标词是例句中能够激起框架的词或短语[2],UFN中名词,形容词,动词和副词都可以承担目标词.一般用tgt(target)标记来标注.
框架元素是框架的参与者和支撑者,是带有某种语义角色的论元.框架元素根据它们与框架关系的紧密程度分为两种:核心(core)框架元素和非核心(noncore)框架元素.核心框架元素是一个框架在概念理解上的必有成分,它们在不同的框架中数量和类型不同,显示出框架的属性.非核心框架元素并不显示框架的个性,可以出现在多数框架中.
构建UFN语料库中发现与英语框架语料库一样,在UFN语料库中有些核心框架元素不是谓词的依存成分,这种框架元素称为零形式框架元素(Null Inatantiation,简记为NI),也称为零形式.零形式由核心框架元素缺失引起的[3,4].核心框架元素缺失的现象可分为两类情况,即允许缺失的语义实体类型和对所缺失论元的解释类型[5].前者是由特定的词项或句法结构缺失引起的零形式,即结构零形式(Constructional Null Instantiation,简记为CNI),后者是由例句中论元的解释缺失引起的零形式,分为有定零形式(Definite Null Inatantiation,简记为DNI)和不定零形式(Indefinite Null Inatantiation,简记为INI)两种.下面分别探讨上述的三种零形式.
1.2.1 结构零形式(CNI)
结构零形式(CNI)适用于任何有着合适的能用于被动语态语义信息的谓词[5].UFN中,结构零形式包括以下几种情况,被动句中施动者的缺失,祈使句中主语的缺失,独立动名词和动词不定式中主题的缺失
1.2.2 有定零形式(DNI)
UFN中有定零形式(DNI)是指缺失的框架元素一定在语篇的上下文语境中或理解维吾尔语例句中可
1.2.3 不定零形式(INI)
UFN中,不定零形式(INI)允许缺失的是潜在的不及物动词,如喝)等.这样动词缺失对象的语义类型是通过不及物动词的最基本的解释来理解.如例句:(她已经三天没吃)中动词缺失的对象很可能是一顿饭.如,例句(他已经停止喝)中动词“喝”的缺失对象可能是一种酒精饮料,也可能是某种药液.从上述标注例句中的目标动词的基本解释中可以得出,缺失的对象很可能是某种技能或思想方面的教育或培训.
维吾尔语中两个以上的词按照一定的语法关系和语义关系组成的单位叫短语.UFN标注中“短语”是广义的概念.UFN中短语标注时对框架元素所在的整个短语的句法性质进行标注.本文有关维吾尔语短语类型划分和使用的标注标记集以参考文献[6]为依据.上述例句成分担任时间短语、形容词短语、名词短语、名量词短语等.
UFN中句法功能是指在框架元素与目标词所构成的句法关系中,该框架元素所起到的句法功能.句法功能的标注是只有框架元素才能被划入标注范围,例句中不能充当框架元素的成分,一般不标注该成分的句法功能[6].上述例句中例句成分由担任目标词的状语担任定语.
语义角色标注中除了框架元素以外还有其他成分的标记,包括支撑词(supp)和透明成分(null).这种成分在例句中虽然没有承担任何框架语义角色也没有具体的意义,但是在句法上(不是语义上)与目标词有隐含的语法关系.在例句中支撑词或透明成分用supp或null标记来标注.
构建UFN中对每个词语的每个义项都要描述,获取其语义和句法结合的可能性,也就是它的配价,需要以框架语义学为理论基础以带有语义标注信息的语料库的支持.从语料库中抽取带有语义标注信息的例句,需要利用计算机辅助标注例句中语义信息.例句中语义信息通过人机交互式的手工标注以及自动地对标注结果加以组织,排列和整理而得到.人机交互式的标注工具是抽取带有语义标注信息例句的有效手段,从一定程度上可以减轻标注人员的负担并且还可以辅助检查标注结果的一致性等问题.
UFN中例句标注参考英语FrameNet和汉语CFN的例句标注,设计了与UFN自身特点相适合的人机交互式例句辅助标注系统.UFN例句辅助标注系统的功能结构如图1所示.
图1 维吾尔语框架语义例句辅助标注系统的功能结构图
UFN例句辅助标注模块主要完成针对一个例句,确定一个词元和该词元所属框架,根据预定的标注标记集合,交互地标注目标词的各个直接从属成分所承担的元素类型,并标注该元素的短语(或词)的短语类型和句法功能等三种信息.这三类信息对词元库自动生成及其框架元素的句法实现方式和词元的配价模式的统计提供数据.UFN例句标注过程如图2所示.
UFN例句辅助标注,首先从UFN语料库中抽取包含将要标注词元的例句并从中挑选能够例示我们所要分析的具有某种给定意义的词元的例子.维吾尔文字符隶属拼音字母,对所选的例句进行按字母字符切分,字符切分目的是确定标注成分的边界.其次,采用人机交互的方式通过鼠标拖动操作进行词性标注,确定将要标注例句的目标词之后,选择目标词的开始和结束点,并用Target标记来进行标注,然后对例句中选择目标词的直接从属成分的开始和结束点,根据预定的标注标记集[7,8]对其进行框架元素、短语类型和句法功能的标注.标注中有些例句成分没有短语类型和句法功能,只与目标词有隐含的句法关系,这种成分用supp或null标记来标注.有些例句中会出现核心框架元素缺失的现象,这时在例句接尾处用相应框架元素左边的下拉列表中选择DNI或CNI等标记来进行标注.最终,例句的所有标注信息以HTML格式储存到数据库中.例句的标注规范如下:
{
其中“w”为待标注的词(或短语),tgt(target)为目标词,FE为框架元素,PT为短语类型,GF为句法功能,OTHER为零碎标记,即不充当框架中所定义的语义成分,如支撑词、透明成分等.
图2 例句标注工作流程
通过上述的维吾尔语框架语义例句标注的设计,UFN的词元库自动生成.词元库主要针对每一个词元,描述词元的每一个词义以及该词元的例句标注报告.词元词义的描述根据该词元隶属的框架范畴内描述和定义,因为维吾尔语中的词汇歧义现象分布很广,涉及到各主要的词类,而且,不同的歧义都有很强的特异性,不易发现一般性的规律.隶属于某一特定框架的词元在词义上保持唯一性,词元所支配的框架元素的短语类型及句法功能句法特点,以及目标词的语义搭配模式的不同,因此UFN词元库生成模块主要完成词元标注报告和词条标注报告.词元标注报告针对每一个词元,记录词元所在义项的具体含义以及该词元的例句标注报告.例句标注报告包括各个框架元素的句法功能抽取以及目标词的语义搭配模式的统计和演示.
图3 句法功能抽取工作流程
图4 配价模式抽取流程
2.2.1 句法功能标注信息的抽取设计
框架元素的句法功能是框架元素相对于已给定的目标词所起到的句法功能.框架元素的句法功能标注设计信息已给定框架的一个框架元素在某一个词元的已标注好的例句中出现的次数,以及该框架元素作为某种短语类型和句法功能出现的次数.具体处理过程如图3所示:
2.2.2 配价模式信息的抽取设计
配价模式对于自然语言处理是非常有价值的研究内容,因为配价模式反映词元的句法语义特性.UFN构建过程中对每个词元(lexeme)的各个涵义都要详尽地描述之外,还要词元与框架元素(包括核心元素、非核心元素和同用非核心)的组合方式进行统计分析,也就是它的配价.配价反映了该词元的语义和句法的各种结合能力[9].配价不仅能够为UFN单词的释义,标注例句、多种索引方式以及各个框架元素的句法、语义特征的说明,最能体现UFN的整体结构和核心内容等.具体处理过程如图4所示:
UFN例句标注器的开发工具是Microsoft Visual Studio2005 C#,Microsoft SQL Server 2005.标注器的标注界面如图5所示,标注界面分为四个工作区:工作区①是词元列表显示区,涵盖框架名称列表和其框架元素列表;工作区②是显示包含词元“”的例句;工作区③是标注所选的例句和标注层次;工作区④是为标注层次提供字符切分,框架元素、短语类型、句法功能、其他标注标记集的标注功能的区.
图5 标注界面
标注人员从工作区①中选择将要标注的词元,在工作区②中显示包含该词元的例句列表,标注人员从例句列表中选择语义搭配模式和句法实现方式尽量多样的例句.被选中的例句按字符流形式显示在工作区③中,工作区③包含目标词层、框架元素层、短语型层、句法功能层、零碎成分层、例句层和词性层7个层次.标注界面的具体操作过程为:通过鼠标拖动选择例句中目标词的直接从属成分,然后在工作区④中选择框架元素、句法功能、短语类型、其他和词性相应的标签来填充工作区③中的各个层次.
UFN课题组定义的短语类型及标注功能界面如图6所示.上述框架中框架元素大多数情况下表现为主语或宾语,担任框架元素的例句成分大多数情况下承担状语或定语.
图6 短语类型
图7 句法功能
我们通过访问词元报告和词条报告来检查例句标注的结果以及不同配价模式.每个词元报告中主要显示了框架元素表和包含该词元的所有例句.词元的词元报告如图8所示,图中工作区①是词元所属框架的框架元素,这称为框架元素表,工作区②中展示了词元的标注的例句列表.
图9所示的是词元的配价模式统计报告.该报告包含两部分内容,工作区①中显示每个框架元素在标注例句中出现的次数及其句法实现方式的统计内容.比如,包含框架元素的例句有12个,其中在6个例句中此框架元素担任名词短语(当宾语),在6个例句中担任代词短语(当主语).通过鼠标点击链接显示的示例个数会显示有关标注例句.从这些标注的例句中可以看出框架元素的句法实现方式.
图9工作区②是词元的语义配价的可能性.在给定例句中通过配价的可能性我们表示了框架元素的语义和句法实现方式.比如,有两个例句中框架元素担任名词短语,DNI任名词短语,担任时间短语、名词短语.通过鼠标点击链接的数量演示相关标注例句的句法和语义的详细信息.
图8 词元标注报告
图9 词条报告
本系统是针对构建UFN例句标注而设计,为获取词元的语义搭配模式和框架元素的句法实现方式,对现有的例句标注体系做进一步的精化的一种尝试.在维吾尔语语义框架网络的自动构造中起到很好的促进作用.设计中仍然存在一些不足,这些将在以后的使用过程中逐步得到改善.