全球地表覆盖信息语义目录服务共享

2019-09-05 08:48石海博孙亚琴顾和和徐生磊
测绘通报 2019年8期
关键词:数据模型本体检索

石海博,孙亚琴,顾和和,徐生磊

(中国矿业大学环境与测绘学院,江苏 徐州 221116)

地表覆盖信息是自然资源管理、气候变化分析、地理国(世)情监测等相关地学领域的重要基础数据和关键参量[1- 3]。相关学者为了实现全球地表覆盖信息的有效共享做了许多研究工作,如文献[4]中借助开放地理空间信息联盟(Open Geospatial Consortium,OGC)目录服务规范构建了地表覆盖元数据共享系统,文献[3]中提出建立一个全球地表覆盖资源共享的基础设施,但都仅从元数据共享的角度进行分析和研究。

随着地表覆盖信息共享领域研究的不断深入,元数据的不足也逐渐凸显。由于元数据缺乏语义描述能力和逻辑推理能力,不能很好地解决地表覆盖信息中常见的语义异构问题,相关人员在进行地表覆盖资源发现时,无法获得匹配度较高的有效信息,并且检索到的相关资源数量较少。综上,本文在研究本体理论知识的基础上,将本体技术与传统OGC目录服务相结合,即在元数据层基础上添加了本体层。针对目前缺少统一的地表覆盖专用元数据标准,本文以国家地理信息元数据标准为原型,结合地表覆盖信息及其应用特点进行相应的元数据扩展,构建地表覆盖元数据模型;随后通过网络本体语言OWL和UML映射,构建地表覆盖元数据本体模型;并利用Lucene全文索引技术和本体查询语言SPARQL,借助于Jena语义解析工具包实现语义查询功能;最后通过语义目录服务原型系统的开发和构建,促进多源异构的全球地表覆盖资源有效共享。

1 地表覆盖信息共享现状分析

现阶段地表覆盖资源整合主要通过元数据互操作实现,元数据目录服务是目前实现地表覆盖信息集成和共享的重要手段。但从地表覆盖共享领域研究现状来看,单一的元数据目录服务存在以下问题:

(1) 作为地表覆盖信息集成和共享的前提,在进行资源发现时,由于用户认知的概念和现实世界的概念与系统模型定义的概念间存在语义异质导致所查找到的信息与需求信息不符,容易造成误用,这一点在地表覆盖领域内尤为明显[5]。

(2) 目录服务仅针对统一的元数据模型(标准),在地表覆盖领域,各组织机构在所发布的地表覆盖共享平台中使用的元数据标准不一,利用传统的元数据交换方式,对不同标准间具有多词同义现象的元数据项,难以进行有效的语义互操作。

(3) 传统地理信息目录服务检索方法一般是利用关键词词形匹配的方式进行信息检索,忽略了语义信息,但是自然语言语义灵活多变且具有多义性,检索结果与需求信息往往有一定偏差。

除了在地表覆盖领域,在其他地学领域中也会出现上述类似问题,为此相关学者在各自领域内引入了本体概念,并做了一些研究工作[6- 8]。但目前地理信息领域本体的构建并不完善,难以提供完整的语义支持,而在地表覆盖领域中对于本体的研究,更是寥寥无几。基于此,本文引入本体技术,将其应用在地表覆盖信息共享的实际解决方案中。

2 地表覆盖语义目录服务

2.1 语义目录服务的提出

鉴于OGC目录服务更适合构建分布式异构环境下可扩展和可集成的目录应用并具有Web服务全部特性,本文借鉴了OGC的CSW(catalog service for the web)规范[9],结合本体技术形成了地表覆盖语义目录服务参考模型,如图1所示。

OGC目录服务参考模型主要包括应用端、目录服务、元数据库和其他资源服务。其运行原理为:用户通过接口与目录服务进行交互,目录服务从本地元数据库、其他资源服务或另一目录服务调取资源来响应用户请求。

语义目录服务参考模型则在OGC目录服务参考模型基础上增加了本体服务,即用户与目录服务进行交互时,首先通过本体推理机制扩展查询内容,使用户不仅可通过知识扩展精确查询所需资源,而且可以获得更多的相关地表覆盖信息。

为了实现地表覆盖语义目录服务,至少需要包括3种核心要素:①符合CSW接口规范;②统一的地表覆盖元数据模型;③地表覆盖元数据本体模型。

2.2 地表覆盖元数据模型

目前,国内外通用的地理信息元数据标准主要有3种:FGDC(美国联邦地理数据委员会)研制的CSDGM(数字地理空间元数据标准);ISO(国际标准化组织)发布的ISO 19115系列;GB/T 19710—2005(国家地理信息元数据标准,下文称为国标)。在地表覆盖领域,全球范围内还没有统一且完善的元数据标准。

为了满足相关人员对地表覆盖数据和服务有效共享和便捷应用的迫切需要,本文以国标为原型结合地表覆盖信息及其在应用中必要的资源特点,严格依据扩展规范,设计了地表覆盖元数据模型[10]。为了保证兼容性,采用和保留了国标中能够对地表覆盖信息进行描述的包结构,并对包中相关的类进行了必要的特化和修改。重点在标识包和内容包中增加了相应的元数据项(类和属性)对地表覆盖信息进行描述,包括地表覆盖数据在处理和应用过程中密切相关的辅助信息、算法模型和各类地表覆盖服务。

由于国标主要针对矢量数据,为了对地表覆盖辅助信息中影像数据全面描述,本系统借鉴了ISO 19115—2中对遥感影像的描述[11]。在对服务资源描述时,主要依据我国近期发布的地表覆盖信息服务标准[12]。除修改标识和内容信息包外,对其他包中的元数据类和属性也作了细微改动,如地表覆盖领域字符集多为英文和中文,删除字符集代码中多余的拉丁字母项。总体而言,本文设计的地表覆盖元数据模型具有以下特点:

(1) 针对地表覆盖信息相关资源特性进行设计,符合目前全球地表覆盖领域有效共享及热点应用需要。

(2) 增加了必要的元数据项,对地表覆盖相关辅助信息、算法模型进行详细描述,特别是算法模型,几乎涵盖了其所有的储存形式和来源。

(3) 提供了对各类地表覆盖信息服务的详细且实用描述,使用户能够快速发现、正确理解并合理应用这些信息服务。

(4) 与国家和国际上的元数据标准相兼容,确保与其他平台不同元数据标准间交换和互操作的便捷与畅通。

2.3 地表覆盖元数据模型本体构建

2.3.1 地表覆盖元数据本体建模

通过上述地表覆盖信息共享现状分析和元数据模型设计,并结合目前地表覆盖共享领域发展需求,本文提出了地表覆盖元数据本体模型,如图2所示。

从图2中可以看出,本文将地表覆盖元数据本体看作为一种领域本体,它被分为数据子本体、算法模型子本体、辅助信息子本体及服务子本体,下一层次的子本体同样也可以称为应用本体。各应用本体再往下细分,最终表示为各类地表覆盖资源,在本体模型中最重要的是各元数据项、属性和类之间横纵交织的语义关系。

本文针对地表覆盖信息特点,参考文献[13]提出的目前应用广泛的五元组结构,与地表覆盖元数据模型相对应,进行了相应的地表覆盖元数据本体形式化表达,描述如下

〈OLC〉=〈CLC,PLC,RLC,ALC,ILC〉

(1) CLC(Concept_LandCover):表示对地表覆盖元数据进行分类描述的概念的集合,在地表覆盖元数据模型中借助元数据类、代码表和枚举实现了地表覆盖信息的抽象和归类,将这些元数据类、代码表和枚举进行提取并整合,就形成了本体中的概念集合。

(2) PLC(Property_LandCover):表示对本体中的概念进行描述的属性集合,在地表覆盖元数据模型中元数据元素作为描述元数据类的属性,在本体概念中,这些元数据元素可以直接转化为本体中的属性概念,包括对象属性和数据属性。

(3) RLC(Relationship_LandCover):一方面表示用来描述本体中概念与概念之间、属性与属性之间相互关系的集合,如“instance- of”(表示概念与概念实例间的关系),简单来说即概念或属性之间的横向关系的集合。另一方面可以将关系上升到本体的层次,如可以借助“equivalentXxx(Xxx包括Class、Property,下同)”和“sameAs”等关系,提取出与地表覆盖元数据模型进行互操作的元数据标准(如FGDC、ISO 19115、基础地理信息数字产品元数据等)中具有相同语义的元数据,并利用本体的关系对其进行表达,从而实现了语义层次上不同元数据标准之间的互操作。如国标中的“EX_地理边界矩形”(EX_GeographicBoundingBox)与CSDGM中Bounding_Coordinate是同一含义,利用equivalentClass可以有效地对其关系进行等效表达,那么用户在使用关键词“地理边界矩形”进行资源发现时,也能到搜索到CSDGM中的边界坐标。

(4) ALC(Axion_LandCover):表示在本体中概念和属性上的限制与规则的集合,借助这些限制与规则可以对地表覆盖信息实现更加清晰的表达。

(5) ILC(Individual_LandCover):表示地表覆盖领域内的概念实例的集合,在地表覆盖元数据本体中基于元数据类的概念的实例就是描述具体地表覆盖数据集的元数据值,基于代码表的概念实例就是表中的内容项。

2.3.2 地表覆盖元数据本体形式化表达

考虑到OWL对领域知识定义的完备性及其良好的扩展性,本文选用W3C推荐的网络本体语言OWL的子语言OWL DL对地表覆盖元数据模型进行建模。

通过上文对地表覆盖元数据本体形式化表达的描述,借鉴文献[14]中本体映射方法及文献[15]中UML和OWL映射规则,结合地表覆盖元数据模型中的数据字典,给出元数据元素与OWL语言对应关系见表1,数据类型与OWL语言对应关系见表2。

表1 OWL语言与元数据元素对应关系

表2 OWL语言与数据类型对应关系

在确定地表覆盖元数据模型中元素和数据类型与元数据本体建模语言OWL的完整映射关系后,依据映射规则,利用Protege本体建模工具建立地表覆盖元数据本体,并利用Protege的可视化工具,截取本文构建的元数据本体中MD_内容信息部分,如图3所示。

3 共享原型系统开发与语义检索试验

本文采用Java编程语言并参考CSW3.0服务规范在Eclipse开发工具中进行了原型系统的开发[9],对于语义检索的实现则采用Pallet推理机。本体的引入能够提高多源异构地表覆盖资源检索的查全率,但由于概念解析量的增大,传统数据库Like模糊查询机制已经不能满足需要,因此本文在高级检索中应用了Lucene全文检索工具。

3.1 系统功能结构

系统采用传统Brower/Server三层架构并依据上述CSW规范的参考模型进行架构设计,自顶而下分别为应用客户端、目录服务层、信息存储层和分布式全球地表覆资源层,如图4所示。

整个系统运行流程如下:用户发出关键字检索请求,Lucene分词器会对关键词进行分词处理,分词经过语义交互机制,通过本体查询语言SPARQL和Jena工具包查询OWL中与分词语义一致的概念集合(OWL为Protégé创建的元数据本体经过Pallet推理机进行推理后生成本体模型)。这样就扩大了与关键字相关的地表覆盖检索范围,不仅增大了与关键字相关的地表覆盖数据量,而且提高了搜索到的资源相关性,有效促进了全球地表覆盖信息的共享。

除了进行地表覆盖信息发现外,各类用户可以通过目录服务的基本功能对地表覆盖信息进行管理、发布和获取,并能够通过服务接口与其他分布目录服务和站点进行全球地表覆盖数据、服务交互,进行地表覆盖资源发现、数据处理分析和应用、在线数据验证和在线制图等。

3.2 原型系统开发

在上述理论和技术的指导下进行原型系统开发,本地数据库使用的是PostgreSQL关系数据库,用来储存元数据和用户信息,目前系统仍处于试验阶段,数据库中主要包括部分全球和区域地表覆盖数据、生态地理分区数据、专题数据等,以及少量影像数据,另外还有一些常见的地表覆盖数据算法和服务,如变化检测算法、数据剪切服务等,数据量总计约4千多条。除此之外通过API(application programming interface)与GEOSS、ArcGIS等其他站点的元数据服务建立连接,能够进行相应的资源检索和发现。原型系统的开发可以为接下来建立成熟且功能完善的全球地表覆盖信息共享平台奠定基础。

3.3 语义检索试验

为了进行语义检索试验,在系统中添加了普通检索模块,即不经过语义交互机制,直接利用关键字全文检索工具进行的检索。其界面分布与高级检索一致,仅缺少时间和空间范围的限定功能。

鉴于外源平台提供的API会出现网络波动,不可控因素较多,为了增强语义检索的对比性,在进行检索试验时仅访问本地数据库。另外由于普通检索中没有时间和空间的限定功能,在高级检索中同样不进行限定。

在普通检索和高级检索功能模块的输入框中输入关键字“水体”,在高级检索中出现的信息如图5所示。共检索到356条记录(在本地元数据库中与“水体”相关的元数据约206条),查全率几乎100%。从图5中可见,第一个元数据条就是想要的水体元数据信息,并且语义检索对于不同元数据模型描述的水体元数据条目位于查询结果的前列,另外356条记录中还包括一些服务和算法。

若使用关键字全文检索工具进行查询,所查询到的数据量为89条,少于数据库中水体相关数据量的50%,第5位才为匹配的元数据,有些关联度不是很高的元数据条目中会在前列出现,普通检索结果如图6所示。

通过对比可以明显看出,语义检索结果的查全率和查准率要优于普通关键词检索。资源找不到、查不准,以及数据缺少语义关联,是实现地表覆盖资源充分共享的障碍。本文提出了地表覆盖语义目录服务,将元数据和本体紧密联系在一起,实现地表覆盖资源有效共享服务,并通过语义检索试验验证了其实用性。

4 结 语

OGC目录服务对网络中分布式信息资源的组织、管理和访问提供了良好的支持,但由于全球地表覆盖信息资源海量、庞大且地表覆盖信息存在复杂的语义异构现象,普通检索方式需要用户仔细从海量的资源中筛选出所需的信息,耗费了大量时间和精力。本文构建的地表覆盖语义目录服务,克服了普通关键字检索的弊端,为地表覆盖信息的智能检索提供了语义支持,大大缩短了用户获有效信息的时间,促进了全球地表覆盖资源共享。

本文构建的地表覆盖语义目录服务仍有一些不足,这也为下一步工作指明方向:①人工本体建模的方式繁重,有些项之间语义关系不能准确描述,有必要借助本体建模新技术来构建完善的本体库;②地表覆盖元数据本体、属性和概念相互之间语义关系较为单一,但客观世界中各项之间关系是错综复杂的,有必要针对语义关系作进一步研究;③语义检索试验样本数据量较少,没有做到真正的随机性检验,试验结果虽有一定的参考性,但不能作为检索精度评判依据,随着海量地表覆盖资源的不断涌入,接下来需要进行多次试验。

猜你喜欢
数据模型本体检索
基于MFI4OR标准的本体融合模型研究
基于区块链的微网绿电交易数据模型研究
眼睛是“本体”
CNKI检索模式结合关键词选取在检索中的应用探讨
基于Pro/E 的发射装置设计数据快速转化方法
瑞典专利数据库的检索技巧
2019年第4-6期便捷检索目录
英国知识产权局商标数据库信息检索
经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型
专题