面向企业需求的数字信息资源整合及信息集成服务平台的设计与实现

2015-09-21 11:00陈立华德州学院图书馆山东德州253023
图书馆理论与实践 2015年10期
关键词:本体服务平台检索

●陈立华(德州学院图书馆,山东德州253023)

面向企业需求的数字信息资源整合及信息集成服务平台的设计与实现

●陈立华(德州学院图书馆,山东德州253023)

信息整合;服务集成;服务平台;企业需求

解决数字信息资源整合和服务集成的机制、管理和技术问题,探索网络环境下企业信息需求导向的信息集成服务平台的系统构建、功能选择、用户需求等.

1 企业信息集成服务平台功能集成化设置

基于信息资源整合与信息门户集成设计的企业信息服务平台建设,目的是运用集成管理理念,把分属各行业体系的信息资源进行整合,原先独立运行的管理体系通过集成融合为有机的运作整体,在技术层面上提供统一的用户检索界面和信息服务平台.

1.1整合信息资源

信息资源的整合是对多样、分散的信息资源进行汇集并提供结构组织和逻辑引导.通过本体语义关系将元信息进行描述,方便企业用户检索利用.面向企业需求导向的信息资源整合首先从数据库及数据结构进行整合,通常包括数据准备、数据挖掘、知识评估及表达.[1]其集成过程是将资源信息元数据输入平台数据库,经过合并查重后在同一平台上提供检索服务,从根本上解决了各类信息资源孤立、异构等问题,实现信息资源应用服务的统一,使信息集成服务上升到一个新高度.

1.2实施技术协同

面向企业需求导向的技术协同是基于资源整合和服务集成的信息服务平台建设的关键.技术协同的目的在于通过统一的操作界面,为企业用户定制个性化的服务功能,实现多个信息资源共享.技术协同并没有改变各信息资源元数据的源码结构,是通过数据接口实现元数据的互操作,[2]例如,中国科学图书馆管理的"中国科学文献管理系统",把各科学图书馆馆藏资源以不同深度的文献身份整合在一起,用户可以通过运行元数据的互操作实现OPAC检索,在身份的确认下直接查看文献全文.技术协同的意旨在于促进异构资源的深层次交融关联,并提供符合用户个性定制服务功能实现对多个信息资源系统的透明访问与检索,从而在技术上解决了内容重复、互不关联、彼此孤立的信息资源的统一问题.

1.3形成服务集成

服务集成的目的在于提高整合信息资源的利用率,并且在衡量信息服务平台效果中主要标准在于基于信息资源整合的集成服务功能产生的效益.服务集成必须遵循信息服务的业务规范,以企业对信息的实际需求为导向,实施调整信息资源整合内容和服务方式,实现信息资源、人力资源、服务技术资源的共享,达到信息资源与行业信息服务有机结合的目的.

2 企业信息集成服务平台的系统构建

面向企业需求导向的集成服务平台以数字技术和网络技术为支撑,基本组成元素有计算机软硬件、信息资源、信息资源整合与服务集成应用软件、面向企业服务的信息用户.图1为包含各组成元素的集成服务平台结构图.

图1 面向企业需求导向的集成服务平台结构图

本结构图分三个层面.

第一个层面是环境层.环境层是保持信息服务平台常规运行的基础,包括网络化设备、服务技术和组织管理.第二个层面是信息资源层.信息资源层内的资源建设应体现多样化、异构性的信息资源彼此依存和彼此补充.实施建设时要明确资源共享的程度、具有扩展采集信息资源范围的潜力、信息深加工和深处理的能力,使信息组织具有足够的深度和广度,以满足企业用户的各种需求.第三个层面是信息管理层.信息管理的目的在于集合分布的资源,进行整合并深度挖掘,构建基于企业内容的平台数字信息来源库,为企业用户群发布信息和提供集成服务功能.在集成服务平台界面上,具有信息资源检索、元数据信息来源、学习研究、策略研析等集成式功能模块,实现基于平台管理的集成服务模式的操作.实施集成服务平台界面流程,可以根据检索策略从网络上查询、检索信息,对实际采集的信息进行去重和分词操作,对检索词进行权重赋予,从而形成词语类化,以实现基于某一聚类的分布式信息发布.

3 企业信息集成服务平台功能分析

根据企业信息集成服务平台的层面结构,设计平台功能框架(见图2).

图2 企业信息集成服务平台功能框架

(1)分布、异构的信息资源以本体形式进行语言描述并封合为统一的界面,将描述和封合的规范内容登记于公共元数据系统,以发布形式转换至集成服务系统,支持基于本体语言描述的各类信息服务系统互操作,实现个人定制、检索、评议等功能.

(2)元数据本体描述系统通过规范方式实施各类元数据的登记,支持数据的个性化检索和长久性管理,支持资源检索请求方对元数据的链接、分析与检索.元数据本体描述是分布的,可以分别对某类元数据进行描述、登记,系统本身也作为服务对象在集成服务登记系统中登记.

(3)集成服务登记系统支持各个信息服务系统的语言描述和逻辑结构,支持对描述信息的登记、组织管理和检索输出,支持资源检索请求方对元数据的挖掘与分析.服务登记系统可以是分布的,可对某类或某部分功能模块进行登记,本身也作为信息元素被登记或被开放检索.

(4)集成信息门户根据企业用户群的需求向导对异构的各信息服务系统的资源和各类服务进行整合,并依据服务流程进行数据链接,将检索结果显示在用户桌面上.集成信息门户可以运用集成服务登记系统中的模块管理功能搜寻信息资源数据,通过服务定制功能调制和集成,其本身也作为服务系统被登记,可被资源检索请求方所检索和分析.

(5)组织协调机制遵循逻辑规范原则,支持对各个登记系统的分析、搜寻,协调元数据本体描述系统与集成服务登记系统之间资源与服务选取的链接、分析、嵌套与输出.组织协调机制中的诸多功能,如服务流程设置、数据转换、链接分析等也可以作为资源检索提供方被登记和检索.

4 信息服务系统的本体描述

元数据的本体描述是一种开放描述.各信息服务系统中的元数据是在开放状态下规范方式的描述,包括资源集合(各类图书馆、互联网站)、知识(分类法、叙词表)、管理(用户控制、产权管理、协议)、服务(数据交换、检索输出)等.信息服务系统的语言描述主要是元数据功能的本体语言描述,其系统功能结构包括概念生成器、本体生成器、RSS解析器等主要组件,如图3所示.

图3 元数据本体语言描述系统功能图

系统通过对信息资源的语义分析形成领域概念和组织形成,通过概念生成器和本体生成器生成具有概念语义关系的领域本体.集成信息门户通过领域本体的语义映射功能对各组件进行分类设置并获取相关意义的检索词,进而通过RSS解析概念生成RSS种子. RSS种子本身具有解析功能,可解析信息资源元数据获取组件内容.用户通过个性化检索要求,定制对应的集成信息门户组件,实现个性化定制服务检索.

4.1领域概念的产生

择取DOAJ中主题为Digital Resources的相关论文20篇作为分析对象,运用Stanford Parser对论文进行分析统计,根据分析情况产生关于Digital Resources的相关概念.

4.2概念格形式下领域本体的产生

利用Stanford Parser对相关论文中有关Digital Resources的主体概念和属性概念进行提取和处理,获取到了OA Journal Database、Publisher Journal Database、Indel&Abstract Datdbase、Publisher Journal Repository等概念属性,得到了beFree、beOpenAccess、Authorize、by Web、Periodicity、Fulltext、E-only等组织形式.在概念格的形式下构建领域本体,本体生成器完成这项工作.本体生成器通过基于OWL的语义表述,实施概念映射本体,生成领域本体.

(1)类群映射.把概念格中一个属性映射为本体中一个对象,通过概念的属性内涵和外延范畴进行概念背景解析,建立相应的本体类.[3]在映射过程中,需要通过人工方式对生成的本体类进行修订.映射标准为:层次最高的概念描述为"Database Resources",自动映射为"Concept_1".

(2)层面映射.层面映射是通过语义分析,运用谓词来揭示概念之间的各种关系.所获得的OAJournalDatabase、PublisherJournalDatabase、Indel&Abstract Datdbase、Publisher Journal Repository等所有概念属性与上位概念Database Resources是上下位关系,关系描述谓词是"rdfs:subClassOf".在OWL语言描述中, E-journal是Database Resources的具体化标识符号.

(3)关联映射.概念在组织形式下的属性到领域本体下属性的映射,即把be Free、be Open Access、Authorize、by Web、Periodicity、Fulltext、E-only等组织形式映射为领域本体.

(4)领域本体的生成.通过以上三种类型的映射,即可生成概念格式下的语义概念,也可生成谓词描述概念关系的领域本体实例.

(5)领域本体映射信息表的建立.在形成一定数量的信息资源语义分析统计的境况下,建立概念生成的叙词词典.将获取的概念与叙词词典依据词频建立映射词典,成为映射信息表.其功能是本体搜索转变为应用数据源的关系型数据库检索.

4.3RSS解析

企业用户根据需求进行个性请求,在集成门户界面中输入主题词语,平台集成服务登记系统依据其模块控制功能,运用SPARQL(Simple Protocol And RDF Query Language)进行概念语义查询,分析和输出与用户请求具有语义关联的检索条件.

语义关联的检索条件生成后,通过领域本体映射信息表把检索条件转化成若干关系型数据库的SQL语句,[4]实现对各信息服务系统中信息资源的检索.同时,检索结果可以通过RSS生成RSS种子,通过集成信息门户实时将检索结果推送给用户.

5 集成登记系统服务

集成登记系统服务是一种分布服务,把各个信息服务系统视为一个对象整体,集中对检索界面、模块功能、数据流向、注册协议进行描述.集成登记服务机制利用XML语言对整体信息系统进行规范描述,实现元数据的登记与检索,通过注册协议支持信息资源的调用,[5]具有互操作的管理功能.这种分布服务的代表是Web Services Architecture、ebXML.下面以Web Services Architecture分布服务体系为例说明集成登记服务机制与功能(见图4).

图4 Architecture分布服务体系机制与功能说明图

(1)网络中分布、异构的各个信息服务系统以规范的SOAP协议通过远程控制程序传输数据单元进行互操作.在这种XML传递消息方式下,任何一个信息服务系统既为服务请求者也为服务提供者.

(2)运用WSDL描述语言对各个信息服务系统的操作机制、数据流向、元数据类型、注册协议等集成方式和网络方位进行描述,形成一个XML管理文件,[6]用来建立和管理装在集成信息门户的服务系统的标准界面.

(3)这种基于XML的Web描述文件以直线管理的方式,指令信息服务提供方提供搜索引擎搜寻或在集成服务登记系统中登记,并通过电子邮件或FTP文件传送信息资源给信息服务请求者.

(4)Web描述文件通过UDDI公共登记系统进行登记,同时并行登记其他信息,支持以规范描述方式对描述服务文件和相关信息的检索.

(5)在SOAP的支持下,信息服务请求方通过服务定制选择合适的Web信息服务模块,可以直接向信息服务提供方实施OAI搜索或检索公共服务登记系统.

(6)信息服务请求方、提供方通过集成服务登记系统进行信息传递,是基于SOPA协议下的捆绑于HTTP上的服务方式.为此,集成后的信息服务门户可以在万维网上顺利实施功能操作,而且通过WSFL等开放式描述语言实施服务流程中的角色、功能及数据格式和流向控制等语言描述,从而支持业务管理来调用和集成多个信息服务系统.

分布服务体系本身可以优化和扩展,由简单的信息服务登记和搜索扩展到不同类型、层次的元数据规范描述、检索输出,进一步还可扩展到应用业务内容的开放描述和对各个信息服务系统资源的调用、配置.[7]在网络信息服务业,分布服务形式多样:OAI系统具有元数据开放搜索、检索和提供增值服务等功能;SDLIP组织协议基于查询界面语言描述,实施对异构信息服务系统进行封合;STARTS协议以SOIF格式的形式对元数据源、检索输出格式进行描述,支持用户终端对检索系统类型进行选择、对检索结果进行整合.可以说,分布服务体系建立在网络规范描述上,有利于信息服务系统方便地接入和灵活地调用,有效地实施分布、异构的信息服务系统的集成和集成信息门户的功能展现.

[1]张文德.信息资源整合系统与技术研究[J].现代图书情报技术,2003(6):72-73.

[2]Van de Sompel H,Beit-Arie O.Generalizing the OpenURL Framework beyond Reference to Scholarly Works:TheBison-futeModel[J].D-LibMagazine, 2001(7):31-37.

[3]滕广青,毕强.基于概念格的异构资源领域本体构建研究[J].现代图书情报技术,2011(5): 7-12.

[4]张宗仁,杨天奇.基于自然语言理解的SPARQL本体查询[J].计算机应用,2010(12):3397-3400.

[5]De Maio C,et al.Ontology-based Knowledge Structuring:An Application on RSS Feeds[C]//Proceeding of the 2nd Conference on Human System Interactions, Catania.Piscataway,NJ,USA:IEEE Press,2009: 464-470.

[6]Hong H S,Colomb R M.Ontology Mapping Between Heterogeneous Systemsfor Semantic Web[J].Journal of Korea Information Science Society,2004,1(1): 25-32.

[7]Emathieu.Posh[EB/OL].[2011-12-05].http:// sour-ceforge.net/mediawiki/posh/index.php?title=Poshdocumentation.

G250.73;254.97

B

1005-8214(2015)10-0107-04

陈立华(1970-),男,管理学硕士,德州学院图书馆副馆长,副研究馆员,研究方向:信息集成与资源管理.

2014-12-21[责任编辑]徐娜

猜你喜欢
本体服务平台检索
打造一体化汽车服务平台
眼睛是“本体”
江苏省一体化在线交通运输政务服务平台构建
论基于云的电子政务服务平台构建
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
基于云计算的民航公共信息服务平台
基于本体的机械产品工艺知识表示
专利检索中“语义”的表现
专题