●李朝阳,覃凤兰,莫济江(岭南师范学院,广东湛江524048)
异构分布环境下我国图书馆信息资源共享技术模式研究
●李朝阳,覃凤兰,莫济江(岭南师范学院,广东湛江524048)
[关键词]网络环境;信息资源共享;技术模式
[摘要]网络环境下,要实现异构的、分布式的图书馆信息资源共享,就必须有强大的技术支持。文章基于对我国各类型图书馆联盟网络的调查,分析了我国图书馆信息资源共享加工技术、存储技术和服务技术,指出了目前存在的几个重要问题,构建了我国图书馆信息资源共享技术模型。
基于文献分析和对CALIS、CADLIS、CADAL、CASHL、NDCNC、NSTL、CSDL、Chinainfo、32个区域性高校图书馆信息资源共享联盟、23个区域公共图书馆信息资源共享联盟和4个区域性科研图书馆联盟的调查,发现网络环境下信息资源共享技术模式问题复杂、让人迷惑,且目前研讨也缺乏系统性。这里,我们想围绕异构的、分布式的信息资源共享技术梳理来分析问题,理清思路,阐明理念。
著名信息资源管理专家霍顿提出,信息生命周期管理[1]是信息运动的自然规律,即经典6阶段模型——“创建、采集、组织、开发、利用和清理”。用信息学科语言描述即信息的创建、描述、组织、长期保存、互操作和服务等相关技术过程。其中,信息的加工、存储和服务是关键技术。
1.1信息资源共享数据加工技术
一种为达共享目的,依托安全可靠的存储设备和管理工具,按统一的描述、管理和加工规范,对信息资源进行创建、描述和组织的技术。如在网络环境下,即将信息资源加工成计算机可识别的二进制文件。[2]其技术体系包括:内容创建,即利用具有计算机、光学字符识别仪、扫描仪、相机或录像机等设备创建数字化信息资源;信息编码,分为基本字符编码、图像色彩编码和特殊信息编码;数据格式,有文本、图像、音频、视频、WAP等格式;对象标识与描述,分对象标识、对象描述或元数据、术语或主题词、机构描述和对象封装等。同时,我们也关注部分重要的元数据,这些元数据可参见张晓林等《数字图书馆标准规范的发展趋势》一文中的详细阐述。虽然共享加工技术体系和元数据格式标准已确立,但应该减少人为设置的技术障碍。
1.2分布异构存储技术在信息资源共享中的应用
DAS是一种直接与主机系统相连的存储设备,其本身是硬件的堆叠,不带有任何存储操作系统,服务器起存储转发作用。[3]以服务器为中心,存储设备通
NAS采用直接与网络介质连接的专有设备实现数据的存储,这些设备分别配有IP地址,客户机通过充当数据网关的服务器对其进行存取访问。文件共享是其基本应用,同时还具有备份容灾、网络打印、多媒体文件共享、媒体服务器、web服务器、FTP服务器、itunes服务器、动态DNS、下载服务器等优秀而强大的功能。典型的网络服务有DHCP、DNS、FTP、Telnet、WINS和SMTP等。NAS是部件级的存储方法,它的重点在于满足工作组和部门级工作机构迅速增加存储容量的需求,整个构架以数据为中心来设计。[4]这为分布异构地点的信息资源共享提供了拓展物理空间的可能。
FC-SAN是一种早期的SAN,是基于存储容量的爆炸性增长而研发的,侧重于数据的快速、高效和可靠传输。通过一些专门的硬件(FC卡、FC信道卡、FC交换机等)和软件(驱动和存储管理软件)支持SCSI和IP协议。FC-SAN通过光纤通道(FC)而并非通过标准的网络拓扑连接到一群计算机上,在该网络中提供多主机连接。[5]FC-SAN的结构允许任何服务器连接到任何存储阵列,这样不论数据存放在哪里,服务器都可直接存取。服务器通过光纤信道卡,连接光纤交换器,再连接后端的存储设备,[2]更高的宽带可使音视频等大容量数据传输更为迅速。
IP SAN-NAS是一种混合存储方式,既可连接IP网络也可连接SAN网络。它将分布存储的众多硬盘内容通过以太网连接映射到客户端上,并在客户端上实现T级别的分区,大大提高了资源利用率。客户端可以直接存取服务器内的信息资源,实现直接浏览目录、直接检索和直接获取,使共享变得方便。
IP SAN-iSCSI是最近流行的网络存储技术,它在以太网技术发展的基础上融合了NAS和SAN的优势,通过TCP/IP网络传送SCSI命令,使iSCSI接口的存储设备直接连接互联网,构成IPSAN,利用TCP/IP网络传送原用区域网传送的SCSI数据块。iSCSI打破了FC 和SCSI的距离限制,使多台服务器享有后端存储设备资源,将SCSI连接设备由8或16个扩充到更多。简单地说,iSCSI可以实现在IP网络上运行SCSI协议,使其在诸如高速千兆以太网上进行路由选择。[6]
1.3分布异构共享服务技术在信息资源共享中的应用
分布异构信息资源共享联盟服务技术可分为门户系统、文献服务系统、子项目应用系统及其他应用系统等。基于信息资源的分布性、异构性、独立性和复杂性特点,[7]主要分析了以下共享服务技术。
CORAB体系结构是OMG提出的,可在分布式和异构环境中的软硬件应用程序之间进行互操作。OMG制定OMA参考模型,由请求对象代理ORB(核心部分)、对象服务、公共设施、域接口和应用接口组成。信息资源共享采用这一模型,构建成信息资源层、访问接口层、请求服务代理层、对象通信服务层和网络传输层的共享模型。信息资源层管理分布异构的信息资源库,根据服务代理层的服务请求,查询和调用信息资源;访问接口层利用接口描述语言(IDL)和应用程序编程接口(API)调用SQL命令,实现对信息资源共享数据库和应用系统的连接和操作;请求服务代理层通过ORB实现客户端和服务器之间的信息交互,识别和定位信息资源对象、处理连接、传送数据和请求通信所需;对象通信服务层按IIOP和HTTP协议实现数据信息等对象间的通信,按传输对象的协议数据单元PDU提供对象间的信息发布、定位和请求;网络传输层按TCP/IP和IPX/SPX协议通过操作系统和传输介质对数据进行传输和控制。
目前,网络系统的发展趋势是大型的、不确定的分布式系统,软件系统也随着用户需求、操作系统、网络结构和网络流量等外在环境的变化而频繁更改,软件工程由“算法+数据结构”,发展为“构建开发+基本体系的构建组装”模式。[8]多Agent应用Simon有限性理论[9]的理念,每个Agent之间既独立又互联,多个Agent通过协议协同完成用户提交的单个A-gent不能完成的复杂任务,实现对数据的访问、挖掘,提高用户访问异构数据库的效率,提升系统的扩展性和灵活性。用户向服务器发送请求,本地Agent通过分析,将其转化为标准数据访问请求提交给通信Agent;通信Agent首先在本地查找,如找到请求所需就将其返回给本地用户,如不能就继续和其他网络地点的Agent进行交互查找并返回用户所需。这就将原本由图书馆员进行的文献传递获取工作,换成了读者自我读取共享数据库信息资源,极大提升了共享的可能性,如,国内读秀、百链、珠三角数字图书馆联盟等共享数据库和共享联盟。
五层沙漏结构、开放网格服务体系结构和Web服务资源框架三种网格结构较为流行。五层沙漏结构根据结构内组成部分与共享资源的距离,将共享资源的操作、管理和使用功能分散在构造层、连接层、资源层、汇聚层和应用层中。构造层可以计算资源、实现存储系统、展现目录、导航网络资源以及传感;连接层实现通信并提供单一登陆、代理、安全认证等功能;资源层实现对单个资源共享操作,如初始化、监视、操作、审计及计费;汇聚层协调多资源共享,提供目录服务、协同调度、代理、数据复制、协同服务等功能;应用层提供资源管理、数据存储和资源发现等服务。Web service能使运行在不同机器上的不同应用无需借助附加的、专门的第三方软件或硬件,就可交换数据或集成,用于开发分布式的互操作应用程序。
VPN技术由隧道技术、加密技术、密锁管理技术、使用者与设备身份认证技术组成。隧道技术是其核心,主要有IPSec VPN和SSL VPN两种隧道协议。IPSec VPN多用于局域网内客户端和点对点间的安全接入,安全性好,对IP应用透明、性能高、灵活稳定、易扩展、互通性强,但是,必须安装和维护客户端软件;SSL VPN多用于网络远程接入,内嵌于浏览器,适用于任何操作系统、简单、即装即用、安全。信息资源共享中多采用集成这两种技术的网关,利用VPN在公共网络中通过加密手段建立一个专用虚拟通道,任何遵循隧道协议的外部数据流都可以由隧道安全接入内部IP,访问内部网络信息资源,实现信息资源在公共网络中共享。VPN技术使信息资源共享的安全性得到极大提高,可以容易地实现异地IP的认证获取。
P2P是一种分散的、分布式的资源管理模型,系统中的任何节点之间都能通过直接交换信息进行信息和服务的共享,最根本的思想就是网络中的节点既可以获取其他节点的资源和服务,又是资源和服务的提供者。用户可以直接控制和共享资源,这使得用户能以更方便快捷的方式参与信息资源共享。[10]P2P技术主要实现分布式存储、分布式检索、实时通信和共享服务等功能,实现数据、音视频等多格式信息资源共享。
1.4分布异构的CADLIS
CADLIS分为中心层、子项目服务层和参建馆本地层。体系涉及到接口技术、检索技术、传输技术、馆际互借技术、信息交互技术、参考咨询技术、分布技术、长期保存技术和应用技术等(见表1)。主要采用支持HTTP协议和HTML语言的web浏览器技术、统一检索协议ODL METS、OAI、OAI-PMH、OAIS、 Z39.50、Z39.83、ISO10160、ISO10161、openURL、PORTLET、SAML、MQ、DRM、CALIS-OID、GIRD、FTP、VPN、WEB services、统一认证、统一计费、日志与统计等相关技术。
表1 CADLIS体系中三个层面及主要技术标准
2.1存储设备选择标准混乱
为存储项目最佳实施,在信息资源共享中利用DAS、NAS、FC-SAN、IP SAN-NAS、IP SAN-iSCSI等技术的存储器中必须考虑成本、数据传输速度、扩展性、系统访问存储方式、系统性能开销、安全性、集中管理支持度、备份效率、网络传输协议等问题(见表2)。
表2存储共享技术比较
由于参与馆在人员及技术水平上的差异,技术欠缺的参与馆就很难用战略规划的眼光选择合适的存储器。为解决这种情况,共享组织的管理机构应该成立一个技术小组,统一负责平台的开发和维护,制定技术发展规划,设计平台整体框架和技术标准,承担对联机编目中心和各参与馆的技术支持,选择硬件、软件产品和技术合作伙伴,组织和承担项目设计、开发、测试、维护、培训、推广、服务、外包和管理,为平台提供全方位的技术解决方案和技术服务。[11]
2.2访问接口标准不统一
典型数据库访问接口技术大致经历了ODBC、DAO、RDO、OLEDB、ADO的发展过程。ODBC最大的优点是以统一的方式对所有关系数据库进行操作,如SQL Server、Oracle等。ODBC本质上是一组数据库访问API,由一组函数调用组成,核心是SQL语句,此后的所有数据库接口技术都支持它。DAO是业务逻辑层与数据资源层之间的一种面向对象的接口技术,主要适用于单系统应用程序或小范围本地分布,访问桌面数据库和Access数据库时性能最优。RDO在访问ODBC兼容数据库时,具有比DAO更高的性能,而且比ODBC更易使用,但在访问JET或ISAM数据库方面受到限制。OLEDB提供统一的数据访问接口访问各种数据源,这使得应用程序可以使用同样的方法访问各种数据,而不用考虑数据的存储地点、格式和类型。ADO提供一种面向对象的、与语言无关的应用编程接口,它将OLEDB的面向C++的复杂接口封装起来,形成一个应用程序层次的界面,用OLEDB与数据库通信,大幅减少了数据库访问量,操作简便。
由于早期的Access、MS-SQL Server、Oracle、Informix等数据库开发的内容一时很难改变,所以,在其访问接口技术选择上,易用性、运行性能、扩展性、能否访问非关系数据库、访问的技术层次以及技术特点都要综合考虑(见表3)。
表3访问接口技术比较
2.3信息安全得不到足够的重视
近年来,病毒和黑客攻击越来越频繁,特别是在云计算日益流行的情况下,业务外包对信息资源安全的影响越来越大,一旦信息资源被销毁,可以说打击是致命的。所以,共享异构、分布式的信息资源要十分重视信息安全。保护信息资源,简单来说就是要在服务器环境层面定时升级系统,web层面注意上传功能的过滤,禁止执行脚本程序等,需要按序做到:(1)设定用户权限。大多关系数据库的账号和密码是通用的,可支持对多级别数据库的访问,因此要确定用户存取信息资源的权限级别。(2)定义视图。限定用户访问范围,通过视图机制把需要保密的数据对无存取权限的用户隐藏起来。(3)数据加密。保护数据在上传和下载过程中不被窃取和修改,但采用何种加密算法、需要多高的安全级别、各算法之间如何协作需要综合考虑,不以牺牲系统性能为代价。(4)操作管理和故障恢复。通过日志记录和数据恢复应对系统自发故障,保证数据和操作的一致性和完整性。分布式信息资源管理系统要在各自服务器上执行,系统日志文件中要对每一节点操作的重要程序数据进行复制,以备在发生故障时进行数据恢复。(5)数据库备份、恢复与远程容灾备份。计算机可能因为磁盘故障、软件故障、灾害及人为破坏等而出现问题,一旦发生就可能造成数据丢失。因此,定期做好数据库的备份,以保证在系统故障时,数据库能还原到最近的正常状态,将对系统造成的影响降到最低。在条件允许的情况下可建立远程容灾备份,建立数据存储于异地的多个副本。(6)审计追踪制度。是指系统设置相应的日志记录,特别是对数据更新、删除、修改的记录,以便日后查证。日志记录的内容可以包括操作人的名称、使用的密码、用户IP地址、登录时间、操作项目等。如发现系统的数据遭到破坏、可以根据日志追究责任、或者从日志记录中判断密码是否被盗,以便修改密码,重新分配权限,确保系统的安全。[12]
2.4人才培养和技术创新制度欠缺
通过对近200项涉及网络环境下图书馆信息资源共享相关技术的统计,发现这些技术中95%以上由国外研究人员提出,仅有如CALIS-OID等极少数为国内首创。虽然利用成熟技术没错,但只引进而不加以吸收创新,就没有进步和发展。特别是在我国,各共享的参与馆技术水平参差不齐,因此在共享中要引入人才培养和技术创新联盟机制,加强各成员馆之间的技术协作和人才交流;加强多层次的馆员队伍培训;组建高技术业务团队;运用联盟的技术平台,选派技术领头人,组织各种培训班和专题讨论会,进一步促进各成员馆各项业务的合作开展。[13]
在图书馆信息馆资源共享分级分层体系中,建立中心级别、子项目级别和基层级别的分级体系,建立门户层、服务层、资源层的分层体系,通过网络联盟方式实现信息资源共享过程中,要注重各级别、各层次系统之间的兼容性和技术开发。基于以上理念,建立我国图书馆信息资源分级分层技术模型(见下图)。
网络基础。包含硬件设施基础和应用软件基础,主要利用CORAB、AGENT、WEB service、VPN、P2P 和GRID(基于ChinaNET、CERNET、CNCNET、CSTNET、ChinaGBN、CEBsat、CATV、CBT等网络平台)等技术。
图 我国图书馆资源共享分级分层技术模型
资源层系统。包含本馆资源、第三方资源和区域资源。本馆资源又包括一般资源、特色馆藏和自建馆藏;第三方资源包括数据库商提供的数字期刊、数字图书、音视频资源和其他类型信息资源;区域资源包括区域联合目录、期刊目次、特色库、论文库或其他类型信息资源。通过信息编码的元数据对信息资源进行描述,并以相应的格式加以存储,主要利用DAS、NAS、FC-SAN、IPSAN-NAS和IP AN-ISCSI等技术。
服务层系统。包括门户上各种集成的联盟应用系统和本馆应用系统。联盟核心集成应用系统有资源调度系统、馆际互借系统、联合仓储系统、分布式参考咨询系统和版权保护系统等。本馆系统除了联盟的核心应用系统外还有联合目录系统、基础服务系统、外包服务系统(第三方服务系统)和教学参考系统。
门户层系统。联盟综合门户集成了统一检索系统、统一认证系统、统一计费系统、网络导航系统和读者管理系统。另外,这些系统要和校园门户、校园认证中心达到兼容,本馆门户也应该能实现联盟门户的基础功能。
可以通过ODBC、DAO、RDO、OLEDB和ADO等接口技术实现各级别、各层次系统数据库调用和通信的无缝对接。
[1]Horton FW.Information resources management[M]. London:Prentice-Hall,1985:16.
[2]吴建华,等.文本数据格式标准分析报告[R].北京:中国国家图书馆,2003(8):5.
[3]奉国和,高波.网络环境下信息资源共享技术研究[J].图书与情报,2008(4):48-53.
[4]Garth A,Gibson.Network-attached storage architecture[J].Communication of the ACM,2000,43 (11):37-45.
[5]CASETTIC,et al.TCP West-wood:Bandwidth Estimation for Enhanced Transport over Wireless Links [C]//ACMMobicom.2001:287-297.
[6]张立,徐学雷.iSCSI技术在数字图书馆中的应用研究[J].现代图书情报技术,2005(9):14-16.
[7]毕强,朱亚玲.实现网络信息资源共享及其技术研究[J].图书馆论坛,2005(6):196-199.
[8]孙吕爱,等.软件体系结构研究综述[J].软件学报,2002(7):1228-1237.
[9](英)Michael Wooldridge.多Agent系统引论[M].石纯一,等译.北京:电子工业出版社,2003.
[10]徐树维,齐惠颖.P2P在图书馆用户信息资源共享中的应用[J].图书馆理论与实践,2009 (10):74-76.
[11]李朝阳.信息资源共享平台组织体系与管理规范探究[J].情报理论与实践,2012(7):21-25.
[12]刘建伟.安全审计追踪技术综述[J].信息安全与通信保密,2001(7):37-39.
[13]沈嵘.技术联盟:高校图书馆数字化建设的新方向——以浙江省高校数字图书馆联盟建设为例[J].图书情报工作,2010(5):71-74.
[收稿日期]2014-11-25[责任编辑]刘丹
[作者简介]李朝阳(1982-),男,图书馆学硕士,馆员,研究方向:信息资源管理、数字图书馆;覃凤兰(1970-),女,教育学硕士,研究馆员,研究方向:知识管理、图书馆服务、数字图书馆;莫济江(1982-),男,计算机硕士,研究方向:图书馆管理自动化、数字图书馆。
[基金项目]本文系教育部人文社会科学研究规划基金项目“高校图书馆数字资源绩效评价研究”(项目编号:12YJA870018),岭南师范学院人文社科研究规划基金项目“基于帕累托最优的图书馆数字信息资源共享模式研究”(项目编号:QW1310)的研究成果之一。book=89,ebook=95过电缆(通常是SCSI接口电缆)直接连接服务器,通过I/O总线将请求直接发送到存储设备,在局域网中多支持IPX/SPX协议,因特网中多支持TCP/IP协议。
[文章编号]1005-8214(2015)12-0088-05
[文献标志码]A
[中图分类号]G250.72