高等学校开放数字资源的本体构建和利用

2020-07-26 14:19轩旭
科技创新与应用 2020年22期
关键词:知识共享数字资源

轩旭

摘  要;文章通过对于语义Web技术的理论基础、结构层次和框架的分析,比较不同技术的特点,并给出了语义Web数字资源整合总体框架和流程。根据数字资源的不同类型,利用本体、语义网服务和搜索引擎,提出分布式的数字资源整合方案,实现了主要数据类型的资源共享。探讨了从OWL模型到UML模型之间的转换,并对如何利用语义Web进行开发,提出应注意的问题和相应的解决措施。

关键词:语义Web;数字资源;知识共享

中图分类号:G25          文献标志码:A         文章编号:2095-2945(2020)22-0014-04

Abstract: Through the analysis of the theoretical basis, structure and framework of semantic Web technology, this paper compares the characteristics of different technologies, and gives the overall framework and process of semantic Web digital resource integration. According to the different types of digital resources, a distributed digital resource integration scheme is proposed by using ontology, semantic web service and search engine, and the resource sharing of main data types is realized. This paper discusses the transformation from OWL model to UML model, and puts forward some problems that should be paid attention to and corresponding solutions to how to develop with semantic Web.

Keywords: semantic Web; digital resources; knowledge sharing

1 背景和需求

语义Web 是下一代互联网发展的核心技术之一,数字资源的日趋丰富是推动网络向智能化和自动化方向发展的重要动力。语义网赋予知识具体的形式,使它具有计算机可读性,以及对知识库进行方便的集成和推理。语义Web本身是一个数据网,通过对数据进行各种方式的描述,以便形成具有遵守特定语法和语义的上下文,即具有相互关联的语义。数据资源由于需要特定的存储方式,呈現出表达形式的多样性,结构化程度不一。而对大量的资源的查询,为获得更为准确和针对性的结果,就需要对各种数据进行整合和组织,使之能体现知识的内在联系,让知识的表达完备和清晰。语义Web具有以数据为中心的组织特征以及对知识库的推理能力,成为对资源进行组织的一种有效方式。

Web由国际化联盟机构W3C进行管理,根据Tim Berners-lee等人的定义:“语义Web不是另外一个Web,它是现有Web的延伸,其中信息被良好的定语了含义,从而使计算机可以更好地协同人工作。”语义Web提供了在应用、企业和社区之间数据共享的通用框架。语义Web搜索技术和语义服务技术是两项正在发展的远未成熟的技术,都已经有了不同程度的实现。语义Web搜索实现了语义标注的索引以及基于标注本体和知识库的推理,能够检索出内容对象并给出明确的关系。语义Web服务通过富含语义的服务信息可以为服务加入计算机可读性,便于服务的自动的发现、组合、协商和调用,便于数据资源的利用,不仅包括服务而且包括数据。

2 不同形式数据资源的发现和利用方式

当今教育、科研、图书馆数字资源存在大量的重复建设,由于各种标准和应用平台之间的不兼容,本应相互关联结构完备的知识却是以点的或碎片的形式提供给应用者。原因在于当前的检索技术仅是以关键词作为检索词,无法清晰理解语言的含义,并进行必要的推理。通过语义Web能够把数据资源公开到网络上,形成具有语义的知识内容,便于搜索和利用。语义Web上的数字资源的表达的方式多种多样,通过语义Web对信息进行信息的整合,以一个整体的视角来看,即是通过语义Web的本体技术,利用标注、搜索和语义网络服务组合,把传统数据资源转换为具有一定语义的能够通过Web访问的数据资源知识库。语义Web能够使用导航、搜索或检索的方式访问资源,对知识进行有效的组织,并可以进行进一步的推理和利用。导航简单明了地利用可视化的方式显示资源的位置和它们之间的联系,搜索可以访问分布于不同位置的资源存储,而检索可以进行完备和准确的查询。传统数据包括网页、数据库、多媒体等内容。不同的数据都可以利用分布网络的形式,通过超文本链接的方式组织起来。对于Web的内容,通过在网页中嵌入语义或添加标注充实已有的网站,使网页的内容之间的关系明确,易于人类或者智能代理的理解和利用。各种数据库的集成,需要利用语义Web技术提供的多种映射功能集成各种知识,以面向特定应用程序的本体作为知识模型和应用程序之间的接口,完成跨领域的信息交换。对于多媒体内容以及文本中的实体的处理,现在仍以手工分类整理为主,采取文本处理的方法,用关键词、创建时间或者特定的元数据等进行标引,成本较高。检索大多局限于多媒体的外部特征方面,而发展方向应是基于内容的检索。基于内容的检索是对多媒体对象的内容及上下文语义环境所进行的检索,既能对以文本为代表的离散媒体进行检索,也可以对声音、图像、视频等连续媒体进行检索。其内容包括物理层、逻辑层、语义层三个不同层次。例如图像的颜色特征、纹理特征、性状特征属于物理层,图像对象的空间位置和相互关系属于逻辑层,而语义层是图像表达的意识。通过引入本体和语义标注,为多媒体的深处理提供了新的方法,尤其在多媒体的语义层面。从原始数据到跨领域的信息共享,需要利用本文提到的不同的方法。

3 引入数据资源到语义丰富的知识库

以下从两个方面对构建知识库进行说明:(1)语义Web信息整合的基本内容和框架结构。(2)通过本体技术进行整合的原理、过程和方法。

3.1 语义Web信息整合的基本内容和框架结构

语义Web的基础是数据表示、查询和应用规则一组标准。语义Web解决的问题主要在于:将Web数据转化为计数机可以理解的形式;提供一种构建领域知识的模型;不同领域的信息交换。主要技术包括资源描述框架RDF,用于构造的RDFS,以及用于构建和描述的Web本体语言OWL。RDF定义三元组形式的数据模型,在语义网中,信息被表示成陈述的断言集合,每一个陈述由三部分组成:主语、谓语和宾语。RDFS是一种面向资源描述框架的词汇表语言,用语义一致的公共词汇集合对RDF中使用的资源和属性,表达RDF信息的含义。OWL是面向Web的本体语言,它扩展了RDFS的词汇表,引入了更多的约束,可进行推理过程,是更高层级的语言。三者之间体现一种进化的关系。

Tim Berners-lee 在2000年提出最初的语言Web层次模型,其后随着语义技术的发展,该模型不断完善。通过UNICODE和URI层,支持语义Web上的对象和资源标识;XML及命名空间层,支持创建结构化的XML文档和在Web上交换文档;RDF和RDFS 层、本体层两层给出基本数据模型和各种资源的关系;逻辑层和证明层提供公理和推理规则,进行演绎和证明;信任层提供信任机制。

大多数的语义Web的框架结构都是一组工具的集合,通常包括3种基础组件:存储、推理和访问。存储组件是RDF陈述的知识库,如Sesame、jena存储系统。推理组件是推理引擎,如Racer、Pellet等。访问组件是查询搜索的应用程序处理器。语言、框架和模型通过抽象规范化标准找出兼容的解决方案。

3.2 通过本体技术进行整合的原理,过程和方法

为了利用传统数据,首先要做的就是把不同形式的数据转化为以RDF描述的本体方式;然后对不同领域本体进行转换,使领域本体对准(Ontology alignment),将数据引入到领域知识模型中,形成知识库;最后通过Web和各种接口访问分布的知识库。转换这些数据的方法正是本文讨论的重点内容。数据资源主要有如下几种:数据库、XML描述的文档、网页、文本、多媒体,不同的形式决定了转化为本体的复杂程度,而且结构化程度的不同程度决定了向本体转换的深度和颗粒度程度。按照数据的结构化程度,可以把数据分为结构化数据,即可以用二维表结构来逻辑表达实现的数据:存储在数据库里的数据;半结构化数据:就是介于完全结构化数据和完全无结构的数据之间的数据,它一般是自描述的,数据的结构和内容混在一起,没有明显的区分,能用树或图的模型表示。包括HTML文档、XML文档和各类报表等;非结构化数据:声音、图像、视频等多媒体文件。转换这些数据的方法正是整合资源的重点内容。根据结构化程度不同,把数据转换为RDF格式主要有以下几种方式:

3.2.1 对结构化的数据-数据库数据的转换

对于数据库和其它数据规范程度较高、数据量大的數据处理,是语义Web的重要任务,RDF和OWL与关系数据库一样,都适用于对实体-关系模型中的信息进行建模,可以把数据库的表和列映射到本体的类和属性上。目前已有多种工具(如D2RQ、SquirrelRDF)把关系数据库中数据转换为虚拟的RDF图,作为一个SPARQL查询的端点被访问,或直接从SQL结果生成RDF,也可以制定一个流式的写RDF文件接口程序,进行大批量的转换。

3.2.2 对于半结构化数据的转换

(1)基于XML格式的数据转换。网络上有海量的XML数据资源可以使用,XML是树形结构,每个节点包含节点的属性和子节点,XMLschema用来表示文档中节点的数据类型和预期节点,而RDF三元组的图结构是表示使用属性联结资源的陈述。由于将结构和属性转换为资源和关系很难找到通用的方法,所以要作具体考虑。从XML转换到RDF需要较多的方法和步骤。利用可扩展样式表语言转换XSTL是一种常用的方式。它首先生成用于影射的模版,然后将源文档进行解析,按路径对XML文档树的节点进行匹配,处理节点的结构和取值,生成对应的RDF文档。这种方法的好处是可以把转换的配置保存在程序的外部,当源文档发生变化时,并不需要对程序作新的改变。

(2)对任意的Java对象的转换和数据公开。Java Reflection API允许对任意对象进行操作,首先推断该对象是哪一个类的实例,随后得到这些类的信息,包括属性名称、修饰符和合属性,然后为每一个对象生成类型信息、属性和值的信息,最后进行序列化成输出流,存储为RDF文件。由于很多数据形式能够通过不同的方式最终转换成Java数据对象。如以下两种方式都可以进行XML到Java对象转换,a.通过JAXB(Java Architecture for XML Binding简称JAXB)产生Java类的集合,XML文档的节点被表示成protected类型的成员变量,然后把XML中的数值编出(unmarshal)到对象中,产生Java对象(图1)。b.或者利用文档对象模型DOM解析XML文档,然后将其装载在Java对象中,所以这是一种一般化的方法。

(3)对于RDFa和各种微格式解析和转换。RDFa是一个W3C推荐标准,用于在XHTML网页中插入嵌入式语义。微格式是整合到XHTML网页中的支持语义表述性表达式的XML标签,是基于词汇的集合。要将它们抽取到语义Web应用程序中,需要相应的解析器来处理,通过正确解析后便可以用来构建RDF文档。对于RDFa而言,它本身已经是RDF格式,所需关注的只是如何从网页抽取。

3.2.3 对于非结构化数据的转换

多媒体文件对于人类是很容易理解的,而计算机对图像、图片、视频、音频、文本文档、地图等数据类型的理解十分困难。通过Web标签系统,用户可以对Web中的数据块、图像、视频加标注,增加对Web内容的支持。但是标签仅仅是一些单词或短语,除自身的含义外,无法提供给计算机可以识别的语义,毕竟非结构化的文本无法很好的描述非结构化的数据。如果在实现过程中,利用语义标签标注的方法,就可以把各种非结构化数据转化为结构化的语义标注描述的数据,产生相应的RDF文件。此方法是通过在一个本体中对标签进行定义,形成一个标签本体,对标注词汇集和本体的标准化,进而产生用户可以用来标注的语义标签,为数据提供了无歧义的语言描述。

猜你喜欢
知识共享数字资源
价值网络关系结构跃迁中知识共享模式演变
西部独立学院教师知识共享现状与对策研究
基于ISM和AH的虚拟社区知识共享影响因素研究
信息自由与版权法的变革
美术教科书使用应把握的几个视角
图书馆员新角色
高校数字资源云服务平台的建设研究
高职校企合作模式下的知识共享激励机制研究
图书馆与出版企业数字资源共享的环境因素分析
“经管之家”用户知识共享及社会资本影响因素调查研究