翁建华
(浙江海洋学院图书馆,浙江 舟山 316004)
现代信息技术的高速发展,高校图书馆已从传统的图书馆转向了数字化图书馆,图书馆数据存储正面临着诸如空间、安全、访问速度和管理等问题,数据存储模式的更新是现代数字图书馆的必然趋势。随着Amazon、Google和IBM公司相继推出云计算的概念,意味着IT业正式迈进了“云时代”,“云”概念已迅速渗透到了各个商业领域,并给企业带来了良好的经济效益。在这样的环境下,作为信息资源中心的高校图书馆,利用云技术来解决数字资源存储问题,不失为一种崭新的、较为理想的方法。
浙江海洋学院图书馆[1]近年来在数字化建设方面做了很大的努力,目前已拥有CNKI中国期刊全文数据库、CNKI优秀博硕士论文、中文科技期刊数据库、万方数字资源、人大全文数据库、国研网、读秀学术搜索、超星电子图书、Scopus文摘库、EBSCOhost、SpringerLLink 电子刊、Springer电子书、World Scientific 电子书、NowPublishers、ProQuest学位论文库、Encyclopedia of Ocean Sciences等30余种中外文数据库镜像。除了以上这些数字资源外,还有自建的海洋、水产特色数据库。2005年,图书馆投入使用汇文文献信息服务系统,使传统的业务数据数字化,同时随书光盘的数量也在逐年递增。目前,总存储容量约达20个TB,每年以约3TB的速度扩容,见表1。随着学校的发展,图书馆数字资源的种类越来越多,数据量也越来越庞大,数据的介质故障、病毒感染、黑客入侵、自然灾害以及人为过失等安全性问题日益突显,每年存储设备的扩容,也给图书馆造成了较大的经济压力。因此,可靠有效的存储环境才是高校图书馆数字资源长期保存的基础保障。
表1 浙江海洋学院图书馆数据存储概况
图书馆数据存储模式经历了几代更新,从上世纪70年代初期的单一硬盘存储和磁带备份,80年代C/S模式的出现使得数据存储分布化,到90年代后期的RIAD存储技术,20世纪末存储技术的发展进入“存储网络(Storage Network)”时代。目前主流存储技术主要是外挂式存储(如图1所示),即DAS、NAS和 SAN。
图1 主流网络存储
直连式存储,也可以称作服务器附加存储,存储介质与服务器直接相连,其I/O请求直接发送到存储设备,并且不带有任何存储操作系统,具有低延迟、高带宽和低成本的特点。但是DAS的优点也成为其发展最大的瓶颈,数据的I/O读写和存储维护管理都需要依赖服务器上的操作系统才能进行,诸如数据备份和恢复均要占用服务器一定的资源,因此用户的日常数据备份需选择业务系统不繁忙时进行。显然,对于7×24小时图书馆数字资源服务是不合适的。
网络接入存储,采用TCP/IP、ATM及FDDI等网络技术,通过网络交换机连接到服务器,作用类似于文件服务器,其系统结构见图2。NAS在LAN环境下,可以实现异构平台下的数据共享,如NT和UNIX平台的数据共享,同时具有较好的可扩展性。虽然NAS在存储性能上比DAS有了很大的提高,但是NAS本身受限于网络的带宽,随着数据存储容量的增大,容易给网络带来数据服务和数据管理的双重负担,并且NAS后期的扩容成本较高。
图2 NAS系统结构
存储区域网络是一种高速专用网络,通过专用网络设备(如光纤)提供服务器和数据存储设备之间的连接。SAN经过多年的发展,存储带宽已经达到4Gbps,其系统结构如图3所示。SAN具有海量数据易共享性、配置的灵活性、设备互联的高速可靠性等优点,但同样存在着实施和管理成本过高的局限性。
图3 SAN系统结构
中国电子学会云计算专家委员会给云计算(Cloud Computing)作出了如下的定义:云计算是一种基于互联网的、大众参与的计算模式,其计算资源(计算能力、存储能力、交互能力)是动态、可伸缩且被虚拟化的,以服务的方式提供[2]。这种新型的计算资源组织、分配和使用模式有利于合理配置计算资源并提高其利用率,促进节能减排,实现绿色计算。而云存储是云计算概念延伸的产物,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统,其结构模型见图4[3]。EMC中国研发中心总经理范承工博士认为,应该把云存储看成一种服务,云的概念就是通过服务的形式来满足客户需求[4]。
图4 云存储系统的结构模型
综观国内外云存储的应用情况,可谓“祥云一片”:2011年3月29日美国亚马逊公司宣布推出数字内容云存储服务;苹果公司紧锣密鼓地准备推出同类服务;2010年5月,Google发布了 Google Storage for Developers,2011年 5月,Google宣布完全开放Storage存储;2010年7月,阿里巴巴集团董事会主席马云在“小网商大梦想”网货交易会论坛发表主题演讲上透露,公司未来将加大在云计算、云存储上的投入。显然,云存储给高校图书馆开启了存储新纪元,从而让图书馆在云时代中获益。
4.2.1 数据存储海量化
数字图书馆的数据每年以惊人的速度增长,特别各类学术数据库需要不断更新以供学校师生查阅和研究,传统的存储架构因其扩容性差已不能适应海量数据的存储,图书馆有限的设备经费更不能去追求高端的存储设备。云存储采取并行扩容的架构,可以实现存储完全虚拟化,支持数十PB级的容量及强大灵活的扩展性,从而缓解了图书馆持续增长的数据存储压力。
4.2.2 核心数据安全化
经权威机构分析,硬件问题、系统问题、人为错误是引起数据丢失的3个主要原因。目前馆内的数据都放在本地服务器上,服务器的种类、型号、规则不一且分散存储,常有负载不均衡的现象,导致整体存储效能和备份效率的瓶颈。如果说商业的数字资源(比如CNKI镜像数据)因各种原因一旦丢失时还可以向数据商购买的话,那么图书馆的原始业务数据一旦丢失,将无法再生,图书馆也就意味着从此“瘫痪”,后果不堪设想。因此图书馆核心数据的安全备份和远程容灾是刻不容缓的问题。在云存储模式下,通过集群应用、网格计算或分布式文件系统等功能,将云中各种不同类型的存储设备集中协同工作,有效确保海量数据的安全性。
4.2.3 设备耗能低碳化
云存储模式被称为“绿色的商业模式”,微软一项新研究表明,拥有约100个用户的小型商务,如果将商务应用从实地服务转向云计算,将节约超过90%的净能量和碳消耗[5]。图书馆每年要投入大量的资金来购买存储设备,是学校能耗量最大的部门之一。云存储的虚拟化技术提高了硬件利用率,不仅在节能方面绩效显著,而且在管理上也极大为方便灵活,节省了图书馆的人力资源。
4.2.4 资源共享扩大化
高校图书馆的数字资源的共享起步较晚,2010年底,浙江省高校数字图书馆(ZADL)正式开通,标志着在学术资源区域性共建共享方面迈向了第一步,但是馆藏的雷同、数字资源的重复购买和建设问题依然严重。吉林医药学院图书馆的于秀芬教授在《基于云存储架构的随书光盘镜像服务器构建探讨》[6]一文中,首次对利用云存储将现有的图书馆随书光盘资源有机整合作了探讨。云存储将各种资源放入一个“云池”中,用集群存储架构对数据进行集中存储与调用,不同终端之间可以无障碍共享。显然,这给图书馆资源共享范围的进一步扩大提供了可能。
云存储作为一种崭新的技术,已经成为国内外业界的新贵。《中国云存储服务报告,China Cloud Storage Services Report》显示,在未来的5年,中国云存储服务市场的年复合增长率将达到103%[7]。在Web2.0的驱动下,图书馆的存储模式也将面临全新的变革,云存储显然是一种理想选择。当然,任何事物都是机遇和挑战并存,图书馆应根据自身存储的特点和需求,量身定制,选择合适的“云”。
[1] 浙江海洋学院图书馆门户网站 [EB/OL].2011-02-05.[2010-09-11].http://61.153.216.111/tsg/html/tsggk/15.html.
[2] 中国电子学会云计算专家委员会网站[EB/OL].2011-02-05.[2010-05-28].http://www.ciecloud.org/.
[3] 看图识云全面解析云存储的网格架构.[EB/OL].2011-02-05.[2010-03-17].http://storage.it168.com/a2010/0316/861/000000861567_2.shtml.
[4] EMC范承工:“五大支柱”为云计算保驾护航.[EB/OL].2010-12-25.[2009-05-11].http://www.cnsoftnews.com/show_news.asp?newsid=5452.
[5] 硅谷动力网站.[EB/OL].2010-12-25.[2010-11-06].http://www.enet.com.cn/cio/.
[6] 于秀芬,张曾昱.基于云存储架构的随书光盘镜像服务器构建探讨.2001(2):72-75.
[7] Springboard:未来五年中国云存储服务年均增长103%.[EB/OL].2010-12-25.[2010-07-30].http://www.cbismb.com/articlehtml/20148700.htm.
[8] 陶蕾.“云”下的图书馆网络存储探讨.图书馆学研究,2010(7):66-69.