基于新闻语料库的越南语框架语义标注研究

2013-04-23 06:16
中文信息学报 2013年6期
关键词:越南语知识库例句

林 丽

(解放军外国语学院,河南 洛阳 471003)

1 引言

越南是中国的重要邻国,在当前信息呈海量爆炸型增长的背景下,针对越南语的海量信息处理也日益凸显其重要性。其中,网络新闻方面的需求尤为突出。如何有效利用现代语言学和信息技术发展成果深入研究越南语网络新闻文本的知识表示、知识获取对于及时、准确地追踪和发现信息具有重要意义,是一个值得关注和投入的课题。

目前制约自然语言信息处理发展的重要“瓶颈”之一就是计算机对自然语言的语义理解。自然语言的语义分析和内容信息的理解,离不开语义知识库的支持,它是帮助计算机了解人类语言的一个媒介和手段,也是让计算机逐渐智能起来的物质前提。可以说,词汇语义知识库是自然语言信息处理领域中的核心工程之一。不论是使用基于规则的方法还是基于统计的方法,信息提取和检索、词义排歧、机器翻译、自动文摘、自动问答系统的研究终究都离不开词汇语义知识资源基础上的语义分析。

在目前的研究条件下,越南语—汉语机器翻译难度非常大。这一方面由于机器翻译理论发源于欧美,而作为源语的越南语属于意合型语言,缺乏形式化标记,难以实现高精度的句法语义分析,另一方面,越南也缺乏相关理论和实践上的积累,可以借鉴的资源很少。相比之下,信息抽取可以说是自然语言理解技术和实际应用相折中的产物,其目标是对文本的有限理解,只关心特定领域,特定类型的信息。事实上,对海量文本进行信息挖掘离不开高质量的事件内容分析技术,而这些技术的开发又需要高质量的事件语义标注资源支持。“大规模”、“覆盖面广”的语义知识库若能够描述一种(或多种)语言的全部词语,覆盖普遍的语义领域固然十分理想。然而,适用于普遍领域的语义知识库构建还存在着大量的基础问题需要解决,试图将这样的通用词典直接应用于实用系统,似乎还欠成熟。相比之下,针对某些特定领域展开细致深入的探索研究,用以解决社会需要解决的实际问题,在一定程度上更具现实意义。

本文的研究目标是结合越南语语言特点进行框架语义研究,构建一个具有一定规模的越南语南海新闻领域框架语义知识库,为信息抽取,尤其是事件抽取提供事件语义资源,同时也为今后完整地建构越南语军事领域框架语义知识库和进行越南语-汉语机器翻译研发奠定基础。

2 越南语相关研究现状

3 研究目标与工作流程

本研究以框架语义学为理论基础,以框架语义学理论指导下的FrameNet和我国山西大学、上海师范大学等机构合力共建的汉语框架网络(Chinese FrameNet,CFN)为重要参考,以框架语义分析方法为研究手段,以越南语军事新闻语料库为研究范围,目标为探索越南语框架语义分析方法、构建越南语南海新闻框架语义知识库、服务于越南语—汉语信息处理,尤其是针对越南语南海新闻文本的信息抽取。

具体研究目标是系统研究越南语南海新闻动词词元,建立“词元库”;借鉴先贤研究成果,对词元进行语义分类,构拟出领域框架体系;细致描写各框架通用核心框架元素和通用非核心框架元素,建立领域“框架元素库”;在系统描写的基础上,开发例句辅助标注工具,对真实文本语料进行框架语义标注,构建例句库;研究各类语义框架的句法实现规律和规则;并在此基础上进行具体应用探索。技术路线如图1所示。

越南语框架语义知识库构建部分是工作的重点,过程具体如下:

(1) 采集目标词元。对领域语料进行词频统计,将语料中出现的高频动词抽取出来作为“待选词元集”;

(2) 通过领域专家的审阅,对待选词元进行归类,拟构出大致的框架体系,然后扩充各个框架的词元集合;

图1 越南语框架语义知识库技术路线图

(3) 我们根据特定语义框架的场景并结合实际语料,参照FrameNet中相应的框架式所设立的框架元素,在分析越南语句法语义结构的基础上,为每一个框架确定核心框架元素和非核心框架元素并进行详细地描写;

(4) 从语料库中抽取包含该词元的句子,并按照其义项选择句子加以示例;对所选的句子进行框架元素标注;

(5) 汇总框架元素标注结果,显示每个词元在组合上的可能性,即“配价描述”。

现阶段,我们并不致力于描述越南语南海新闻语料中所有出现的词语,而是以满足当前应用需要为准,按照词频和领域专家知识优先的原则,先期进行实验。之后当扩大语料范围时,再相应地增加新的词语描述。

4 研究进展与应用探索

4.1 语料库构建与文本预处理

由于我们开展的研究面向新的语种、新的领域,考虑到时间和人力的局限,将在已建成的“越南语军事新闻语料库”(规模: 99M,约13 500篇)中抽取出数量相对有限、重要性突出、时效性强的“南海新闻语料库”(目前规模: 4.28M,899篇)作为研究的对象和语料来源。主要来源为越南国防网*http://quocphong.vn/、越南人民军队网*http://www.qdnd.vn/qdndsite/vi-VN/43/Default.aspx、越土报网*http://www.baodatviet.vn/、BBC越南新闻*http://www.bbc.co.uk/vietnamese/等。

4.2 越南语南海新闻动词词元库构建

我们对899篇越南语南海新闻分词后进行词频统计,得到17 870个词项,从中选取高频(10次以上)动词855个作为“待选词元集”。经过领域专家的审阅后,参照汉语南海新闻语料库对待选词元进行了释义。统计结果如表1所示。

表1 越南语南海新闻语料库高频动词词表(节选)

续表

4.3 领域框架体系构建

语义框架是对场景类型的图式呈现,FrameNet中的框架选取主要依据语料库内容。新的框架通常是从已有框架中的多义词的其他意义衍生出的。就某一领域而言,概念较为零散、缺乏系统全面性。

可以说,语义分类和框架体系的构建都不是一蹴而就的,而是一个“之”字形的探索过程。随着我们对待选词元的分类和分析不断深入,框架体系也会面临一系列的合并、压缩、调整,最终才可能形成一个较为完整和合理的领域框架体系。

4.4 领域框架元素库构建

图2 越南语框架语义知识库框架构建界面

框架元素描写分为“名称”、“缩写”和“说明”三个部分。“名称”用汉语描述、“缩写”尽量使用和FrameNet一致的英文表达,“说明”为越南语释义。这种描写方式既保证了研究的通用性,也拓展了其实用性。

4.5 框架语义标注与例句库构建

例句标注以框架库为基础,给定一个词元,自动从语料库中抽取出相应例句,切换到该词元所属框架,分框架元素(Frame Elements, FE)、短语类型(Phrase Type, PT)和句法功能(Grammatical function, GF)三个层次进行标注,同时关注未登录命名实体的识别和标注。例句标注界面如图3所示。

以例句(1)为例,标注结果如下:

图3 越南语框架语义标注界面

俄罗斯即将将首艘隐形潜艇交付给越南。

英文标签标注结果:

其中: del表示deliverer;tgt表示target;goa表示goal。

中文标签标注结果:

从标注结果来看,其信息模式抽象程度还是比较高的。我们计划在手工标注的例句达到一定的规模以后,把基于规则的方法和机器学习的方法结合起来尝试对真实文本进行语义角色的自动标注。

4.6 词元配价模式与核心依存图

框架网络资源包含了大量的词汇搭配信息,其中标注的例句可以显示句法语义联系方面的信息。配价模式统计需要在完成一定规模的例句之后才能实现。具体的配价模式统计表以例句(1)为例展示如下:

表2 例句(1)配价模式统计表

但事实上,框架网络项目的中心工作不是关注语义合成原则本身,而是关注为了信息抽取而在框架网络语料运用的相关项目中发展出来的原则(Mohit and Narayanan, 2003)。Fillmore(2004)指出,核心依存图(Kernel Dependency Graphs,KDGs)就是从框架语义资源中抽取出来的新的资源,是FrameNet服务于信息抽取的有力工具。通过抽取句子中最凸现的核心依存图,能够发现其所在篇章段落的语义线索。在特定文件中得到确认的KDGs能够作为一种标志以显示该文件特定段落的主题事件及其基本主张。

KDGs由多个词项的结构化的串构成,每个这样的串都包含一个“控制项”(governor)(如动词短语的核心动词)以及它的所有“依存项”(dependents)的词汇核心,每个依存项的词汇核心在其相对于控制项的语义角色方面都做了标注。用“槽-填充项”(slot-filler)的术语讲就是,一个KDG的核心唤起一个以分支标签命名的“槽”的结构,而这些“槽”的“填充项”就是依存项的词汇核心。

以例句(2)The puppy drank the milk(小狗喝奶)为例,所属框架Ingestion(摄取)的核心依存图如图4所示*该例引自俞士汶,黄居仁(2005)46页。。

图4 Ingestion(摄取)框架核心依存图示例

4.7 事件抽取应用探索

事件抽取(Event extraction, EE)是信息抽取领域一个重要的研究方向。下面分别以简单句和复杂句为例讨论框架语义标注在越南语南海新闻事件抽取中的应用。

简单句即一个句子只包含一个目标词。如例句(3)。

2012年,俄罗斯卖出了150亿美元的武器。

英文标签标注结果:

其中: slr表示seller; tgt表示target;Mny表示money;Gds表示Goods。

中文标签标注结果:

抽取流程如下:

(1) 选定触发词为: < tgt= bán >;

(2) 构建信息模式: < slr >< Mny >< Gds >;

(3) 硬性约束条件: 信息模式中< slr >和< Gds >框架元素为必有,< Mny >框架元素为可有;

(4) 根据框架层级和关系以及框架元素,人工建立抽取规则如下:

{ Type=出售者: < slr >;Type=交易金额: < Mny >;Type=货物: < Gds > }< slr >< tgt= bán >< Mny >< Gds >。

复杂句中的目标词超过1个。如例句(4)所示。

根据目前的例句标注设置,一个例句中只能按照一个目标词的框架元素、短语类型及语法功能进行标注,对于多个目标词同时存在的情况,受空间维度的限制,只能分多个句子分别进行标注。由于框架网络可以生成核心依存图,这使得复杂句中的语义关系变得“有据可循”。标注流程如下: 首先识别出句中的目标词,并确定其所属的语义框架。处理结果如下:

例(4)生成的核心依存图如图5所示。在该图中,目标词被表示为黄色背景的节点及其依存项。节点由..三个部分组成。指向依存项的箭头标注了框架元素名称。紫红色高亮显示部分为命名实体。虚线框中的目标词出现在定语或状语中。虚线箭头表示有语义关系,但不能直接抽取,在抽取规则中以圆括号表示。

抽取规则如下:

(4) { (Type=卖方: < Seller >);Type=商品: < Goods >;Type=买方: < Buyer > }(< Seller >) < tgt= bán >< Goods > cho < Buyer >;

图5 越南语复杂句的核心依存示意图

5 总结与展望

针对越南语军事新闻的框架语义研究有着客观的迫切需求,但碍于相关研究的滞后,目前尚无较有规模和体系的成果。本文在总结越南相关研究现状的基础上尝试构建越南语框架语义知识库,运用框架语义标注方法抽取特定事件信息,初步探索了框架语义分析方法在越南语文本中的应用。

目前,越南语框架语义知识库尚处于起步阶段,已构建框架16个,手工标注例句约500句。本研究的理论基础相对扎实,但实践方面各项资源准备尚不够充分,尤其是越南语框架语义标注的规模还远远不够。因此,我们所希冀的结果是我们在理论方法上的探索能有所裨益,实践方面将继续加大力度进行拓展,以期为今后的自动标注和机器学习打下较为厚实的基础。

[5] 周岭顺. 汉语移动域框架语义分析[M]. 北京: 社会文献出版社,2012.

[6] 郭丹丹,刘伟. 汉语框架网络数据库例句辅助标注系统的设计与实现[J]. 科技情报开发与经济,2010, 032: 98-102.

[7] 俞士汶,黄居仁. 计算语言学前瞻[M].北京: 商务印书馆,2005: 9.

[8] 刘开瑛. 汉语框架语义网构建及其应用技术研究[J]. 中文信息学报, 2011,25(6) : 46-52.

[9] Mohit, Behrang, Srini Narayanan. Semantic extraction with wide-coverage lexical resources[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology: companion volume of the Proceedings of HLT-NAACL 2003—short papers-Volume 2. Association for Computational Linguistics[C], 2003: 64-66.

[10] Fillmore, Charles J., Josef Ruppenhofer, Collin F. Baker. Framenet and representing the link between semantic and syntactic relations[C]//Proceedings of Frontiers in linguistics 1, 2004:19-59.

[11] Fillmore, Charles J., Christopher R. Johnson, et al. Background to framenet[J]. International journal of lexicography, 2003, 16.3: 235-250.

[12] Ruppenhofer, Josef, et al. FrameNet II: Extended theory and practice[DB/OL]. 2006. https://framenet.icsi.berkeley.edu/fndrupal/the_book

猜你喜欢
越南语知识库例句
汉语近义词辨析知识库构建研究
纳苏彝语越南语亲属称谓特征及其文化内涵异同研究
融合边界信息的越南语名词短语深度学习识别方法
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
汉-越语量词的语序对比研究
好词好句
好词好句
好词好句
卫星状态智能诊断知识库设计方法
好词好句