李楠楠,李永胜,刘 涛,赵金梅,宫东海
(1. 西北大学 城市与环境学院,陕西 西安 710127;2. 中冶地集团 西北岩土工程有限公司,陕西 西安710119;3.京山县国土资源勘测规划设计院,湖北 京山 431800)
地理信息分类是对地理信息进行有效组织和管理的前提,为地理信息的共享、集成和互操作提供基础。现有地理信息分类大都采用传统的信息分类结构,利用自然语言表达地理领域知识,难以形式化地表达地理信息概念之间错综复杂的关系。框架语义学把词义、句子意义和文本意义统一用“框架”进行描述,一个“框架”表示一个认知结构,有利于对同一概念形成统一的认知。本文基于框架的语言思想,结合地理信息概念的本体属性,提出一种基于框架语义的地理信息概念分析方法,并以部分水系地理信息概念为例对此方法进行了可行性分析。
框架语义学是美国语言学家Fillmore[1]提出的一种研究词语意义和句法结构意义的理论方法。该方法试图理解一个言语社团为何会创建一个范畴并以词语来表达它,同时通过背景知识的描述,来解释这个词语的意义[2]。而作为人类认知构建的一种手段,框架为词在语言中的存在及话语的使用提供了背景和动力[3]。框架语义学把词义、句子意义和文本意义统一用“框架”进行描述,框架是跟一些激活性语境相一致的一个结构化的范畴系统,一个“框架”虽然表示的是一个认知结构,但它的意义在于这个认知结构的各个部分是和词语挂钩,为语言理解服务的[2]。
从1997年开始的由Fillmore亲自主持的FrameNet工程[4]就是建立在框架语义学基础之上的计算机字典编纂工作。本文用于地理信息概念本体分析而建立的地理信息概念“模版”就是借鉴FrameNet数据库中的框架库。FrameNet数据库包括框架库、词汇库和例句库,其中框架库就是词语义项的语义框架及框架元素的细致描述,内容包括框架的定义描述;框架元素的基本定义描述,多数定义带有例句说明;该框架所涉及的词元;框架和框架之间的关系。其中,框架元素根据它们与框架关系的紧密程度分为核心框架元素和非核心框架元素。核心框架元素是一个框架在概念理解上的必有成分,它们在不同框架中的类型和数量不同,显示出框架的个性;非核心框架元素并不显示框架的个性,可出现在多数框架中。
自从本体这一哲学概念被引入到计算机科学领域中,已经在人工智能、计算语言、数据库理论等领域发挥着特殊的作用。本体作为某个领域的概念化已经被广泛接受,同时,本体也可使用多种方法进行建模、分析和推理。为了便于人和机器、机器和机器之间的交流与合作,任何概念化都得借助于一种定义良好的语言进行描述,并且基于这种描述可进行推理,包括对描述进行分析以及得到有用的结论。近年来,学者们提出了各种不同的本体表达、描述语言及形式化方法[5],其中有一种基于框架的本体描述语言。
框架的概念最早在1975年被美国著名人工智能学者Minsky[6]用来解释某些心智方面的活动。当用它来表示有关事物的知识时,不仅可以表示事物各方面的属性,而且可以表示出事物之间的类属关系、事物的特征和变异等,因此该概念在识别、分析、预测事物及其行为方面有很大用处[2]。
框架的基本思想是:任何事物的状态、属性、发展过程和相互关系往往有一定的规律性,即依照一定的“模版”,可以把各领域、各类事物的“模版”事先总结出来,存于数据库中。当要认识一个新的事物时,可根据对这个新事物的初步印象,从数据库里取出一个与它最相近的“模版”来,实行“自顶向下”的匹配。如果匹配成功,则“模版”中存放的属性就可向我们提供有关此新事物的知识;如果匹配不成功,则寻找原因,重新在数据库中提取一个更能与新事物匹配的“模版”,或修改刚才那个匹配得不太成功的“模版”,直到最后求得一个令人满意的解答为止。
由此可见,框架理论是描述对象属性的一种数据结构[5]。在框架表示法中,框架被看成是知识表示的基本单元。不同的框架之间可通过属性之间的关系建立联系,从而构成一个框架网络,充分表达相关对象间的各种关系。其特点是善于表示结构性知识,具有良好的继承性,不仅减少了框架网络表示知识的冗余,而且较好地保证了知识的一致性。一个框架由若干个被称为槽的结构组成;每一个槽又可根据实际需要分为若干个侧面。一个槽用于描述对象某一方面的属性;一个侧面用于描述相应属性的一个方面,每一个方面又可给出具体的约束条件,如图1所示。
在典型的框架系统中,构造算子用来将框架的类组织成分类结构。在该结构中,每个框架连接到一个或者多个父框架。通过分类关系,一个类可看作是其超类的特殊化。分类中的子类从它们的超类中继承如槽定义、默认值等特征。框架系统的一个重要特征是位于类层次顶部的信息是固定的,可为个体框架提供具体的默认值。框架中每个槽的值都被从它们祖先继承而来的默认值所填充,而不是空值;这些默认值可被更适合具体情形的值所替代。
由于框架理论是描述对象属性的一种数据结构,在运用框架对地理信息概念进行分析时,地理信息概念的属性便成了关键要素之一。由于地理对象的特殊性,必然导致地理信息拥有不同于其他信息的独特性与复杂性。人们通常借助概念来理解复杂的过程或事物。概念是人们用于认识和掌握自然现象之网的扭结,是认识过程中的阶段[7]。
目前,我国地理信息概念来源主要包括国家现有的基础信息数据分类、地形图图式规范、交通技术规范、土地利用现状分类、地理学辞典和现代汉语大词典等。《国家基础地理信息本体关键问题研究》一书中对这些标准和规范进行了简单的分析与比较[7],可以发现:①地理信息分类标准随着时间的发展,要素中类也可能会发生一定的变化,进而使得子类所包含的范围发生变化,如“国土基础信息数据分类与代码GB/T 13923-92”与修订后的“基础地理信息要素分类与代码GB/T 13923-2006”相比,要素大类和要素中类都有所变化;②分类标准和规范具有专题性,即由于领域不同而导致对同一类地理信息进行分类的出发点不同,如基础地理信息分类多从管理等级上对道路要素进行分类,而交通技术规范则是以道路的宽度、车道及车辆行驶速度等技术信息作为分类依据;③对地理信息概念的定义缺乏统一规范的文字描述,这是由于概念语义描述的歧义性[7]所致,由于地理信息概念的描述大多是基于自然语言的,这些描述与人们的经验知识和背景相联系,因此,用同一术语表达的地理概念含义不尽相同。
概念语义的描述有多种方法,属性枚举是一种容易理解且有效的方法。所谓属性枚举就是一种将概念的属性列举出来描述概念语义的方式,用概念拥有的每个属性来刻画概念,通过满足或具有这些属性特征的表象表达概念的内涵。亚里士多德认为,每个概念或种类都与一定的属性或性质关联,而这些定义的属性足以确定对象所属的相关外延[8]。但是地理信息的复杂性决定了其概念属性的繁杂性,许多非本质的属性对于地理信息概念的分析而言是冗余属性,地理信息概念的本体属性才是属性枚举法中提高概念语义分析效率的关键。
文献[9]在分析本体层次[10,11]的基础上对空间信息的语义特征进行过系统归纳,将语义特征归纳为:物质(部分-整体层次)、形态(形态层次)、大小(形态层次)、功能(功能层次)和等级(社会层次),该研究对地理信息概念的本体属性具有很好的借鉴作用。文献[7]和文献[12]以“基础地理信息要素分类与代码GB/T 13923-2006”中相关的概念为研究范围,在分析语义描述的歧义性和语义表达方式的基础上,提出形式本体的概念化作为排除语言背景干扰的有力手段,将地理信息的本体属性明确抽取出来,为地理信息的概念语义描述提供了可靠的方法。文献[7]中还提出了地理信息概念的本体属性提取应遵循的几项规则,并以此为基础,结合基础地理信息概念的含义,综合考虑地理概念的特点,按照一般顶层本体的组织原理,将国家基础地理信息概念的本体属性归纳为空间性、时间性、物质性、目的/功能、成因、对象及量度,各类本体属性又可以按多种方式进一步细分,并可以继续给出具体的约束条件。图2是本体属性之一空间性的简单结构图。
将图2与图1对比,可发现两者结构的相似性。各种本体属性对应于框架结构中的属性槽,本体属性的进一步细分恰好就是槽的若干个侧面,对侧面也可给出具体的约束条件。前者是一种本体描述语言的理论基础结构,后者是概念本体属性的体系结构,两者结构的相似性可以使地理信息概念的语义描述与其本体表示更好地结合。
在框架语义学理论指导和基于框架的本体语言思想启发下,应该对地理信息概念具有2方面的认识:地理信息概念不仅作为对地理信息的抽象与概括而具有地理对象的本体属性,还作为一种领域词汇且一般均为名词而具有语言学的名词化特征。以这2个方面为出发点,从语言学角度结合框架语义学理论对地理信息概念进行分析。鉴于地理信息概念本体属性体系结构与框架结构的相似性,本文试图借助框架的基本思想来建立地理信息概念“模版”,一方面通过地理信息概念本体属性枚举法在一定程度上解决概念语义描述的歧义性问题,另一方面为地理信息概念的本体表示提供合适的结构基础以提高本体表示的效率,从而在所建立的地理信息概念“模版”中实现地理学和语言学的本体结合。
从语言学角度来看,地理信息概念作为词语借助框架语义的分析可得到非常细化的语义角色描述,并显示出词语的个性;从地理学角度看,地理信息概念是地理信息的抽象与概括,我们关注得更多的是其代表的地理对象的属性(特别是本体属性),表现为概念语义的属性。针对地理信息概念语义描述的歧义性问题,对地理信息概念的分析以概念的本体属性为基础,以框架理论思想为指导,结合框架语义学,构建了地理信息概念的分析模版。该模版借鉴了FrameNet框架库的内容,并结合地理信息概念的地理学特征进行了相应改动,改动后框架内容包括:
1)框架名,即地理信息概念名,本文主要以“基础地理信息要素分类与代码GB/T 13923-2006”中相关的概念为研究对象。
2)定义,即对地理信息概念的语义描述,来源于国家基础地理信息要素数据字典。
3)核心框架元素,是一个框架的支撑者,地理信息概念框架的支撑者应该由地理概念的本体属性组成。前文中提到将国家基础地理信息概念的本体属性归纳为空间性、时间性、物质性、目的/功能、成因、对象及量度[7],但并不是任何一个概念必须同时具有这一系列的本体属性,这里的核心框架元素就是指与框架名所指概念相对应的本体属性,本体属性的判断与确定可参见文献[12]。
4)附加框架元素,即本框架概念可能附加的属性约束,通过附加属性可形成新的概念。
5)子概念,即以框架名所指概念为基本概念衍生而来的复合概念,如河流加上时间属性约束形成的“常年河”、“时令河”,加上空间属性约束形成的“地面河流”、“地下河段”等。因为地理信息概念一般均为名词,所以复合概念一般为“形容词+名词”[7],这项内容在一定程度上反映了该框架下属子框架的信息。
6)框架-框架关系,包括父框架和子框架,反映该框架地理信息概念在地理信息分类中所处的位置。
下面以水系地理信息概念中的“河流”和“沟渠”为例,简要分析该模版的特点。
表1 “河流”概念框架
表2 “沟渠”概念框架
通过表1和表2可以看出,地理信息概念分析模版的主体支撑者由地理信息概念的本体属性组成,加强了地理信息概念语义描述的明确性,并且自然地理要素(如河流)的时空属性更加重要,人工要素(如沟渠)则更注重其功能用途。通过附加框架元素可大概地分析该地理信息概念可能存在的子类,有利于提高地理信息概念模版对新的地理信息概念词汇进行匹配的适用程度。子概念和框架-框架关系分析都能反映该地理信息概念在分类体系中所处的位置。以框架理论为基础,地理信息概念本体属性为支撑者的框架模版,在对地理信息概念的语义分析方面以及新概念匹配方面都具有一定的可行性和有效性。
本文在框架语义学的理论指导和基于框架的本体描述语言思想启发下,以框架理论为整体基础,将地理信息概念的本体属性作为主要支撑,从语言学的角度结合框架语义学构建地理信息概念模版,在一定程度上实现了地理学和语言学的结合。同时,地理概念本体属性体系结构与本体表示框架语言结构的相似性也为地理信息概念语义描述和本体表示的有效结合提供了基础。通过对水系地理信息概念“河流”和“沟渠”框架模版的具体分析,表明该模版对地理信息概念的分析具有很好的效果,该分析方法具有一定的可行性。但是,由于人们认知的差异性,不同专业领域对同一地理概念的本体属性的理解会有所不同,从而影响地理信息的共享与互操作。如何在地理信息概念分析模版的构建中实现属性认知的统一,还有待进一步研究。
[1]Fillmore C J. Frame Semantics and Nature of Language[J].Annals of the New York Academy of Sciences,1976,280:20-32
[2]王晓庆. 基于框架语义的中文本体学习研究[D].青岛:中国海洋大学,2008
[3]潘艳艳. 框架语义学:理论与应用[J].外语研究,2003(5):14-18
[4]Johnson C, Fillmore C,Wood E, et al. The Frame Net Project: Tools for Lexicon Building[R]. Berkeley: International Computer Science Institute, 2001
[5]程钢. 基于OWL的地名本体构建和推理机制研究[D].武汉:武汉大学,2008
[6]Minsky M. A Framework for Representing Knowledge[C].The Psychology of Computer Vision, New York, 1975
[7]王红,李霖,朱海红. 国家基础地理信息本体关键问题研究[M].北京:科学出版社,2011
[8]汪子嵩. 亚里士多德关于本体的学说[J].中国社会科学,1981(3):41-53
[9]杜清运. 空间信息的语言学特征及其自动理解机制研究[D].武汉:武汉大学,2001
[10]Borgo S,Guarino N,Masolo C. Stratified Ontology: The Case of Physical Object[C]. ECAI-96 Workshop on Ontological Engineering, Budapest, 1996
[11]Guarino N. Some Organization Principle for A Unified Toplevel Ontology[C]. Working Notes of AAAI Spring Symposium on Ontological Engineering, Stanford, 1997
[12]李霖,朱海红,王红,等. 基于形式本体的基础地理信息语义分析——以陆地水系要素类为例[J].测绘学报,2008,37(2):230-242