多民族语言本体知识库构建技术

2011-06-28 06:27赵小兵邱莉榕赵铁军
中文信息学报 2011年4期
关键词:民族语言信息处理知识库

赵小兵,邱莉榕,赵铁军

(1. 中央民族大学 信息工程学院,北京 100081;2. 国家语言资源监测与研究中心 少数民族分中心,北京 100081;3. 哈尔滨工业大学 教育部-微软语言语音重点实验室,黑龙江 哈尔滨 150001)

1 前言

我国是一个统一的多民族国家,55个少数民族中的53个民族都有自己的语言文字。这些语言文字与本民族生存发展息息相关。2009年国务院发表《中国的民族政策与各民族共同繁荣发展》白皮书中指出: “为了使少数民族群众共享信息化时代的成果,国家采取各种措施促进少数民族语言文字规范化、标准化和信息处理工作的健康发展。”

本体(Ontology)[1]是对共享概念的正规、明确的表述。本体始于哲学概念,90年代初被引入人工智能后,作为一种能在语义和知识层面上描述信息系统的概念模型建模工具[2]。

基于语义的本体库是实现跨语言信息检索、信息抽取、自动翻译等智能信息处理应用的重要基础,是智能文本信息处理的重要环节。为人们所熟知的本体库中文《知网》HowNet[3],是一个较为完整的以语言知识为基础的中文本体知识库。目前,《知网》已成为许多自然语言智能处理系统的基础资源。

本体构建需要描述语言共性和个性信息。大量的语言研究说明,不同语言除具有个性差异外,还有共性因素。语言共性研究认为,语言间存在某种共同的普遍规律,称为“普遍语法”。为蒙、藏、维、哈、朝等民族语言以及汉语、英语构建统一标准的本体库,对于多民族语言智能信息处理应用将起到积极地推动作用。

目前,多民族语言,除汉语外,均缺乏或没有本体知识库建设。进行统一标准和接口的多民族语言语义本体知识库的创建,意义主要表现在:

(1) 从技术方面看,将促进民族语言信息处理(Ethnic Language Processing)技术的发展,探索出一套把被充分研究的语言的处理技术转移到被较少研究的语言上移植方案,使自然语言处理(Natural Language Processing)技术的应用更加广泛。

(2) 从科技发展方面看,本项目实施为多民族语言的智能信息处理应用提供重要的基础支撑。

(3) 从社会价值方面看,通过多民族语言信息技术服务于多民族的信息沟通和交流,将增强民族地区网络信息安全,有利于促进民族团结、构建多民族和谐社会。

本文首先介绍了多民族语义本体库的构建思路,创建方法,详细描述多民族语言知识本体库包含内容。介绍多民族语言共性知识库中词汇语义知识的表示和抽取,各民族语言特有语法知识的表示和抽取等技术。

2 相关工作

20世纪90年代初期,国际计算机界举行了多次关于本体的专题研讨会,本体成为包括知识工程、自然语言处理和知识表示在内的诸多人工智能研究团体的热门课题,其主要原因在于本体使人与人、人与机器、机器与机器之间的交流建立在共识知识的基础上。目前中英文自然语言处理领域,已经有很多语义本体的研究成果,其中最突出的是WordNet和HowNet。

英文本体WordNet[4]的词汇包括名词、动词、形容词、副词和功能词。每个词(更确切地说是词的一条意项)是一个网络节点。节点之间通过“同义关系”、“反义关系”、“上位关系”、“下位关系”、“部分—整体关系”、“形态关系”等联系在一起。目前,WordNet已经分别建立了名词、动词、形容词和副词的四个相互独立的语义网络,包括约十万多个词项。

中文本体HowNet[3]是揭示概念与概念之间以及概念所具有属性之间的关系为基本内容的常识知识库,从1996年研发至今,已有汉语词项96 744条,多家科研单位研发基于HowNet知识表示的信息处理技术。但目前,查新还没有查到民族语言信息处理研究中,关于语义本体表示层面的相关研究内容。基于语义的本体知识库在文本处理、信息抽取、基于文本的数据挖掘、自动翻译中都有广泛的应用,合适的本体知识库将成为文本自动处理中的一个重要环节。

总结多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,发现各民族语言之间的异同;研究和实现基于词汇语义的、包括汉语、英语、及多种少数民族语言在内的多民族语言语义本体的表示理论与方法,构建统一标准、统一接口的多语言语义概念本体知识库,将会为多民族语言的智能信息处理应用提供重要的基础支撑,加快民族语言信息处理的进程。

3 多民族语言知识库构建

本文将多语言知识库的建设作为研究的重点,为多语言信息处理的关键技术和应用研究提供更好的支持。为了实现上述目标,表达各民族语言的语义知识的多语言语义本体库和各民族语言语法知识库都是不可缺少的,拟构建的多民族语言知识库将这两种知识库融合在一起。

3.1 多民族语言本体知识库

与通常单语本体知识库不同,由于各民族语言间存在着一些共性的概念,如一个汉语词与其在其他语言中的译文对应同样的语义概念,同一概念在不同语言中具有相同的语法功能(比如动词同时需要施事者和受事者,或动词可接双宾语),且其常见搭配词可以在语义概念上一一对应。因此,多语本体知识库需要保存各民族语言在语法和语义上的一些共性信息,从而体现各语言的词汇在语义概念上的对应性,各语义概念在不同语言中语法行为的某种相似性,以及各语义概念之间的关联。这些共性知识可用于解决翻译和跨语言检索中的词义消歧,提供翻译模板辅助调序和目标语生成等问题。表示语言共性知识的本体库使用语义概念作为基本词条(在本体库中称为元素)。

国家水资源管理系统 以水资源管理业务为重点,覆盖中央、流域、省(自治区、直辖市)、地市和县区五级水资源管理机构,以水源、取水、输水、供水、用水、耗水、排水等水资源开发利用主要环节的监测,以及大江大河行政边界控制断面、地下水超采区监测为基础,以国家电子政务外网和国家防汛指挥系统骨干网为依托,以水资源业务应用系统为核心,支撑国家水资源管理体系的工作业务平台和决策支持环境。

在这一过程中,有一个反复迭代、逐步求精的过程,而这种迭代体现在自动建立HowNet语义本体知识库需要用到一系列不同语言的分词词性标注工具的自动分析结果,而使用语义本体知识库和语义相似度分析可以解决分词词性标注过程中的一些歧义消歧现象,提高分词词性标注的性能。

多语言语义本体知识库构建模型见图1。

图1 多语言语义本体知识库

3.2 语言本体创建

本体结构(Ontology Structure)是一个四元组O:={C,R,Hc,Rel };其中C(Concept)表示概念集合,R(Relation)表示关系集合;Hc表示概念层次,即概念间的分类关系(Taxonomy Relation);Rel表示概念间的非分类关系(Non-taxonomy Relation)。本文以概念和概念的层次分类为基础,适当增加概念之间的联系与推理,作为多民族语言语义本体的体系结构。本文借鉴《知网》的知识定义,结合在多民族语言信息处理当中的应用,确定本体库的结构。主要包含以下内容:

① 基本属性

a) 语义编码 b) 上下位元素 c) 词类信息

② 概念属性

a) 义原 b) 搭配概念

在设计该本体库结构中,充分考虑了扩展性因素,并将信息处理需要用到的信息尽量并入该本体库当中,作为元信息以最大化地辅助其他信息处理过程。

④ 语法知识库

各民族语言也具有自己的特性知识,充分利用这些信息对机器翻译调序、目标语言生成和跨语言信息检索都有重要意义。这部分语言的特性知识一般表现在语法层面,因此本体知识库需要另一个部分——各民族语言特有的语法知识库作为补充。

蒙藏维语和汉语语法知识库结构:

词法信息: 词类,变格,变元等信息,时态、人称、数等信息;

句法信息: 句式或次范畴化信息,主谓宾等信息。

⑤ 为了自动建设包含上述多语言共性知识和各民族语言语法知识的知识库,本课题还需要完成两个任务: 一是为知识库的每种词条设计属性结构,使每种词条的结构能够充分表达其对应的知识,并使其易于应用;二是在获得合理的知识库结构的基础上,从语料库中通过统计或规则的方法学习每一词条的各种属性的取值。

3.3 语义本体概念的词典扩充

语义本体的创建是耗时耗力的艰苦工作,需要语言学家、知识工程师和信息处理人员合作完成。目前的语义本体的创建,有手工创建和自动生成两种策略。手工创建本体人工工作是主体,最多增加一些本体创建的辅助工具,以方便和加快概念和关系获取的过程。完全手工创建的本体一般规模较小,无法应付海量的知识源。自动策略一般采用有监督或无监督的机器学习技术从文本语料中自动获取概念和关系,人工干预程度较低。

为了自动构建描述多民族语言共同特点的本体知识库,我们首先需要一个具有较高准确率和覆盖率的双语词典。对于一个翻译系统,这样的词典也可以有效地提高翻译的准确性。然而,当前的民族语言和汉语之间的双语词典还不能很好地覆盖语料库中的文本。其主要原因如下: 首先,这些词典是手工建立或只在一定规模语料之上建立起来的,这些语料并不能很好地覆盖所有的领域,因此有些词(比如领域专业术语)不会在词典中出现;而且当某个词具有一词多义现象时,具有领域偏置的词典可能会漏掉一些解释。第二,未登录词问题,其中有很大一部分是专有名词,如人名、地名、机构名、时间日期等,这些专有名词除了时间、日期可以通过规则进行翻译,其他词语在翻译中往往并无直接的规律可循。还有很多新词需要收入词典。

解决上述问题的一个方法是在已有词典和语料的基础上,进行词典的自动扩充,包括根据上下文对齐关系扩充新词,以及采用特定方法识别术语和名实体并找到其对应的翻译等方法。目前,关于自动词典扩充的研究还不完善,且多民族语言的现有数据缺乏对齐语料、部分语言数据量很小等特点,现有的方法并不符合多民族语言信息处理的现状。因此需要提出针对多民族语言词语级信息处理的词典扩充方案。为了建立一个适用于翻译的双语词典,我们需要对以下问题进行研究:

① 在现有词典的基础上,根据上下文的共现信息进行逐步扩充。在词典扩充的过程中,可能会出现三种情况,第一,对应的双语端词语都是新词;第二,双语端词都在词典中出现,但词典中不包含两者的对应关系;第三,双语端有一端在词典中出现,另一端是新词,如一词多义现象和一词多译现象。其中第一、二种情况需要根据双语上下文共现一致性进行词典扩充,第三种情况可以利用单语言端上下文共现一致性进行同义词的挖掘。

③ 词典会随着新语料的加入而不断增长,且新词当中名实体类型出现的频率最高。词典不断增长的问题使得词典扩充不可能一次性被解决,因此为了解决以上问题,我们将采用一种在线扩充方法,在当前词典的基础上,不断地从新语料中抽取新的对应关系加入到词典中,实现词典的不断更新。

4 总结

语义本体是共享概念模型的显示的形式化规范说明,其目标是将杂乱无章的信息源转变为有序易用的知识源。本文描述了建设统一标准、统一接口的多民族语言本体知识库的思路,及需要研究的若干问题,例如: 多民族语言中共有概念的一般表示与各民族语言特有的事物表达方式的规律,基于词汇语义的、包括汉语、英语、及多种少数民族语言在内的多民族语言语义本体的表示理论与方法等。

语义本体知识库的构建是文本自动处理的一个重要环节,跨语言信息检索、信息抽取、自动翻译等领域中都有广泛的应用,具有极大的研究价值。

[1] Neches R, Fikes R E, Cruber T R,et al. Enabling Technology for Knwledge Sharing[J]. AI Magazine, 1991,12(3):36-56.

[2] Borst W N. Construction of Engineering Ontologies for Knowledge Sharing and Reuse[D]. PhD thesis, University of Twente, Enschede, 1997.

[3] 知网[OL]. http://www.keenage.com/.

[4] WordNet[OL]. http://wordnet.princeton.edu/.

[5] 戴庆厦.中国少数民族语言研究60年[M].中央民族大学出版社,2010.1.

[6] 江荻.现代藏语动词的句法语义分类及相关语法句式[J].中文信息学报,2006,20(1): 37-43.

[7] 罗秉芬,江获.藏文计算机自动分词的基本规则[M].中国少数民族语言文字现代化文集,民族出版社,1999.

[8] 陈玉忠,李保利,俞士汶,等. 基于格助词和接续特征的藏文自动分词方案[J]. 语言文字应用,2003,2(1):75-82.

猜你喜欢
民族语言信息处理知识库
东营市智能信息处理实验室
基于Revit和Dynamo的施工BIM信息处理
三元互动下的德宏民族语言舆情探究
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
中国民族语言的标准与数字化
地震烈度信息处理平台研究
CTCS-3级列控系统RBC与ATP结合部异常信息处理
浅谈如何有效地实施农牧区藏语文双语教学
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究