林 洁
(福州大学,350002)
起源于20世纪的因特网技术,在21世纪的第一个十年迎来一次巨大变革。这个变革的起点就是云计算的诞生和广泛运用。云计算是一个新的科技概念,它本质上是一种分散式运算的新应用。我们可以简单地将整个网络看成一大片云朵,而所有的互联网使用者都连接到这朵云。只要网络使用者透过这朵云,就能方便地存取设备、咨询及服务,而云计算也必须在安全、快速、便利的前提下完成这样的功能。云计算彻底颠覆了传统的网络操作模式,它是一种概念的延伸,在任何地方只要通过电脑和网络,就能完成一般性的工作。云计算虽然看起来很深奥,但这种运算模式已广泛运用于搜索引擎、购物网络、防火墙异常监测及大型网络数据储存服务等。商业搜索引擎巨头“谷歌”和“百度”,购物网站“亚马逊”和“淘宝”,防火墙“卡巴斯基”以及“安卓”手机系统,都是云计算运用的成功案例。近年来,图书馆界对云计算也表现出极大的热情,2009年 OCLC[1]宣布即将推出“Web级协作型图书馆管理服务”,此举表明云计算也将在图书馆领域广泛应用。
如果将云计算模式引入数字图书馆建设中,由于云计算使用的是虚拟资源,因此不受距离远近的限制,不必购买大量的服务器,只要通过云端连接网络,就可以在公共系统中实现高效稳定的访问服务,此举不仅可以大幅降低成本,减少人员的投入,还能实现世界级数字图书馆资源的共享。本文以云计算的概念、服务模式和优越性为切入点,探讨将云计算引入数字图书馆的可行性,并提出随后可能会产生的问题,期望可以为数字图书馆的构建和发展提供参考。
云计算是通过网络将庞大的运算处理程序自动拆分成无数个较小的子程序,再交由多功能服务器所组成的庞大系统,透过搜寻与运算分析之后,再将处理结果传回给使用者端[2]。美国国家标准技术局定义云计算是一种概念模式[3],依据使用者的需要透过网络去链接共享的资源(如网络、服务器、储存器、应用程序和应用服务),可以使用最少的管理而达到迅速的配置与发布。
它是一种通过因特网提供软件的模式,厂商将应用软件统一部署在云计算服务器上,客户可以根据自己实际需求,通过因特网向厂商订购所需的应用软件服务,按订购的服务多少和时间长短向厂商支付费用,并通过网络获得厂商提供的服务。使用者不用再购买软件,而改成向服务供应商租用Web-base的软件,且无需对软件进行更新维护,服务提供商会通过因特网全权管理和维护软件。除了云计算服务供应商所提供的商用SaaS应用之外,有些厂商还提供企业个性化订制服务应用。其代表就是 Google应用程序,Microsoft OfficeLive,Facebook 等[4]。
它是厂商将云端服务器的应用开发及部署平台开放给使用者,使用者可以自行部署应用程序、自行使用撰写程序,但不管理或控制云端设备,包括网络设备、服务器等。该平台一般包含资料库、中介软件及开发工具,利用此服务,使用者可以只凭借一部手机就可以完成很多过去要在个人电脑上完成的工作。典型的平台服务参与者为Google App Engine,Windows Azure 等[5]。
厂商将基础设备(IT系统、资料库)等整合起来,再分租给使用者。Issa构架出一个具规模的资源中心,提供客户所需要的储存空间、服务器、网络设备等基础资源,并负责这些资源所需的维护、电力与空调等环境的持续运作,使用者可以有别于传统自行购买相关设备而改租用的方式取得资源,并依据云端资源的使用量来进行付费。这些服务器、存储空间及网络设备都是企业专属的硬件设备,存在于Issa供应商提供的一种虚拟化平台中。如IBM TSAM (IBM Trivoli Service Automation Manager)、AWS(Amazon Web Service)等[6]。
传统的数据中心无法兼顾资源的利用率和高效能,多数数据中心的资源利用率在15%以下。而在云计算平台中,资源使用率可达89%以上,降低了资源闲置率。对云服务的使用者来说,将IT服务外包给云服务供应商,可使其在设备上的投资本金降到最低,从而节省成本,降低财务风险。当这些IT设备和业务外包出去时,云计算相关技术可自动化管理这些软硬件,同时云服务供应商也会负责维护和监管,使用者可以大幅降低管理支出[7]。
图1 云计算的服务模式关系图
云计算技术将大量的计算放置在互联网环境下执行,使得大量的计算工作从个人电脑和服务器转移到互联网。在云环境下,不但可以借助云计算强大的计算能力减少使用者获得结果的时间,同时可以降低数据中心的负荷。云计算就像我们生活中经常接触到的自助餐厅,检索服务是客人所需要的菜品。在云环境中,客人可在自助区自己寻找到适合的菜点,而不需要直接向厨房提出要求,从而解决了传统的“用户—大型服务器”互联中,用户需求集中,大型服务器负荷过大的困扰[8]。
兼容性一直是困扰互联网发展的难题,它不但限制了用户在不同平台间的流动,也限制了不同平台间的信息共享。举例来说,一个用户在进行信息获取的过程中,需要在不同的平台上注册数个身份,从而获得相应的权限来进行自己的获取行为。这样用户很难进行跨平台工作,同时每个平台也增加了大量无用的客户信息。云计算则可以很好地解决这个困扰,因为它拥有良好的跨平台兼容性。例如“网易”和“新浪”作为中国最大的两个门户网站,通过使用云计算技术,便可做到用户跨平台的交互。在云计算应用之前,两个门户网站的用户是相互独立的,即网易用户只能注册使用网易平台,而新浪用户也只能注册使用新浪平台。在云计算应用之后,用户可以使用网易用户名,直接在新浪注册并拥有新浪原用户的所有权限。
数字图书馆建设过程中,资金需求量大,资源闲置和数字资源无法共享等问题层出不穷。而云计算在这些方面拥有明显优势,它可以最大程度地优化已有资源,节省数字图书馆建设和运营成本,还能共享不同数字图书馆的资源,因此将云计算引入数字图书馆建设将大有裨益。
数字图书馆具有相当庞大的数据信息量,以传统服务器为中心,采用磁盘阵列技术的存储架构,在信息资源储存共享、数据盘扩充、访问速度上都存在明显缺陷。因此,依靠传统技术储存信息的数字图书馆发展受到很大影响。在云计算环境下,可以利用虚拟化的存储设备提供近乎无限的存储空间,并且随时进行更新,从而满足数字图书馆日益增长的海量数据存储需求。云计算的虚拟存储技术甚至可以做到数字内容永久存储。
例如,美国国会图书馆 NDIIPP项目和DuraCloud宣布,他们将联手发起一个为期一年的试验计划,检验利用云技术进行数字内容永久存取的情况。NDIIPP项目的最终目的就是利用云技术,将多种形式的数字资源,如地理空间信息、视听资料、图像和文本等,通过虚拟存储技术永久保存于互联网之中[9]。因此,拥有海量存储能力的虚拟存储系统是数字图书馆发展的重要保障。
数字图书馆会产生大量的信息资源流通,这些数据常常达到PB(Petabyte)的规模,这需要图书馆服务器具备海量信息处理能力。例如,数字图书馆多媒体数据存储格式的转换、大量信息的扫描识别、资源数据库的索引倒排等[10]。如果仅以高性能大型计算机为平台处理海量信息,不仅需要耗费巨资采购大型计算机,而且在以后的维护和管理上都会产生较多问题,这样就需要消耗大量的人力、物力资源,同时一旦信息处理工作进入空白期,这些计算机的闲置就成了一种资源的浪费。
云计算可以依靠其联网处理信息资源的能力,以较低的成本进行信息资源的计算处理和分析。目前最流行的处理方式是Google公司推出的一款Map-Reduce编程模型。它可以产生大量数据集,将核心思想和要执行的问题拆解成Map(映射)和Reduce(化简),先通过Map程序将数据分割成不相关的分块,分配给大量计算机处理,达到分布运算的效果,再通过Reduce程序进行结果汇编,输出开发者需要的结果[11]。除此之外,云计算可以通过建立虚拟服务器的形式,进行多云计算连接,直接忽略物理位置为用户提供运算服务。这样,用户只需要一个可以连接互联网的端口,就可以得到想要的服务。
在云计算环境下,不同数字图书馆可以分别构筑信息数据中心,而不用担心无法共享信息资源。这既可以保障数字图书馆的信息需求,也可以简化数字图书馆建设工程,降低运营成本。不同用户可以通过云计算环境下的虚拟服务器和统一访问接口,实现同时获得不同图书馆的资源。同时,不同数字图书馆也可基于云计算的虚拟服务器,将异构分布环境下不同来源的信息资源进行统一整合,以达到信息资源共享,并且做到优化配置智能管理,从而提高图书馆信息资源利用效率。
例如,中国高等教育文献保障系统(CALIS)最初以联合目录数据库为基础,以高校为主要服务对象,开展联机合作编目、编目数据批量提供、编目咨询与系统培训等业务,经过一段时间的发展,建立了完善的联机编目系统[12]。随着云计算作为新技术引入CALIS,两者相结合开发出新数字图书馆云服务平台。这一平台可以将互联网上不同的数字图书服务平台整合成统一的服务体系,通过资源分配和管理,达到数字资源高度共享。
这是云计算的最大优势,不管用户以何种电脑或其他便携装置,如智能手机、平板电脑、笔记本电脑,只要使用者可以连接互联网都能够享受到数字图书馆服务。云计算环境下的数字图书馆将众多资源放置在互联网中,而非传统意义上的自有大型服务器上。在开放的网络环境下,用户只需连接到互联网,就可以远程登录任何数字图书馆,从而提高数字图书馆自身信息资源利用效率。
云计算的优势似乎无与伦比,然而我们也必须用理性的态度来看待云计算带来的技术革新浪潮。虽然每一家云计算方案供应商都强调使用加密技术来保护数据,但在云环境下,数据安全问题、用户隐私、版权纠纷等图书馆数字化的核心问题仍然应当引起我们的重视。
数据安全对图书馆来说至关重要。馆藏资源、电子文献资源和流通数据一旦丢失,对于图书馆而言都是巨大的损失。尽管很多学者认为云计算提供了安全可靠的数据存储空间,但数据安全问题一直是云计算的主要问题之一。所以,在云计算引入数字图书馆的过程中,图书馆管理者需要对法律法规和因特网保密工作有充分的了解。
将云计算引入数字图书馆领域之后,不但数字图书馆本身的数据安全需要重视,用户的隐私同样需要引起相关部门注意。在使用数字图书馆跨平台检索时,仍然需要用户进行注册,此时用户难免会将自己的隐私资料发送到互联网之中。在云计算环境下,用户隐私也储存在互联网上,不可避免地同样有泄漏和被盗的风险。
虽然数字图书馆和云计算结合后可以给众多读者提供优秀而便捷的信息服务,但是版权问题仍然会贯穿数字图书馆发展的始终。唯一可以避免大量纠纷产生的方法,就是在图书馆数字化过程中,不但要引入云计算这样的先进技术,还需要签订大量的授权协议,从而保证在云计算时代不会因为版权纠纷扰乱数字图书馆发展的步伐。
数字图书馆是图书馆事业发展的必然方向。引入先进的云计算进行资源优化配置,提高信息管理服务质量,是数字图书馆建设中较为合理的选择。而云计算作为先进的运算模式,还处于应用的初级阶段。如果想将云计算应用于数字图书馆领域,势必要对其优劣势进行全面而客观的分析。利用云计算的技术优势可以降低数字图书馆建设过程中的资源消耗,但出于安全考虑必须订立大量的技术协议和服务协议,构建新的管理体制,以保证数字图书馆的和谐发展。
[1] OCLC News releases.OCLC announces strategy to move library management services to Web scale[EB/OL].http://www.oclc.org/news/releases/200927.htm.2012-03-01.
[2]ABI research.Mobile Cloud Applications:Weights and the Apps Dilemma for Smart phones,Netbooks,Media Tablets,and Connected Mobile Devices[EB/OL].2012-03-01.http://www.abiresearch.com/research/1003385.
[3]Peter Mell,Timothy Grance.The NIST Definition of Cloud Computing(Draft)[R].NIST Special Publication 800-145(Draft),2011:1-7.
[4]虞 为,陈俊鹏.基于本体的云计算文献管理模式研究[J].情报杂志,2011,30(2):147-151.
[5] Decandia G,Hastorun D,Jampani M,Kakulapati G,Lakshman A,Pilchin A,Sivasubramanian S,Vosshall P,Vogels W.Dynamo:Amazon’s Highly Available Keyvalue Store[C].In Proceedings of Twenty-first ACM SIGOPS symposium on Operating Systems principles,ACM PressNew York,USA,2007:205-220.
[6] Abramson D,Buyya R,Giddy J.A Computational Economy for Grid Computing and Its Implementation in the Nimrod-G resource Broker[J].Future Generation Computer Systems,2002,18(8):1061-1074.
[7]陈 滢.云端策略:云端计算与虚拟化技术[M].台北:天下杂志出版社,2010.42-60.
[8]杜海宁.基于云计算的图书馆海量数据存储研究[J].图书与情报,2010,(3):99-101.
[9]中国国家图书馆,中国国家数字图书馆.美国国会图书馆和DuraCloud发起试验计划——利用云技术进行数字内容永久存取的情况[EB/OL].http://www.nlc.gov.cn/yjfw/2009/0803/2009-9.
[10]王 平.云计算关键技术在数字图书馆中的应用研究[J].情报资料工作,2010,(5):52-56.
[11]郭本俊,王鹏,陈高云,黄 健.基于MPI的云计算模型[J].计算机工程,2009,35(24):84-86.
[12]费希娟.Calis条件下高校图书馆文献资源的共建[J].长春师范学院学报(自然科学版),2011,30(3):177-179.