●马晓亭 a,陈 臣 b(兰州商学院 a.信息工程学院;b.网络中心,兰州 730020)
随着云计算技术的成熟,建设安全、可靠、经济、高效的云图书馆成为数字图书馆发展的必然方向。云存储技术是支撑云图书馆的关键技术,如何利用集群应用、网格技术和分布式文件系统等技术,通过应用软件将云数据中心建设成为一个多设备、多应用、多服务协同工作的高效云图书馆集合体,按用户需求为访问者提供云虚拟化、个性化和可定制的数据存储和业务访问服务,是提高云环境下图书馆数字用户满意度的前提。
与传统数字图书馆相比,云图书馆有先进的云计算与云存储技术支撑,云系统具备较高的计算、存储效率,安全的运营环境与强健的自身鲁棒性。但云系统处于不安全的网络环境中,云系统的复杂性、云业务的多样性、非法用户的恶意攻击行为,对云图书馆云数据存储的永久性、可靠性、高效性、真实性带来严峻挑战。
本文针对云环境下数字图书馆云存储策略性能要求和云图书馆业务特点,结合云计算与云存储技术标准与行业规范,从云系统可扩展性、支持协同共享、支持备份和迁移、建设与运营经济性等几个方面出发,提出了一种具有技术前瞻性及符合标准化、规范化的新的数字图书馆云存储方案。[1]
云计算与云存储在资源管理上具备高效性特点,可以动态、灵活地根据用户服务需求对资源动态进行扩展和分配,使云图书馆在建设和管理上更高效、经济、安全、稳定,更有利于支持数字图书馆各项云服务及增值业务的开展。
与传统的数字图书馆存储业务相比,云图书馆所保障的用户数和数字资源规模海量倍增。传统数字图书馆通常采用DAS(直连式存储)和SAN(光纤存储区域)存储方式,随着云环境下数字资源存储数量及并发数据不断增大,存储性能受网络与系统I/O传输瓶颈制约而降低。
云图书馆通过租赁云空间建立存储系统。云存储空间位于世界不同地域,云存储系统采用集群技术、P2P技术和网格技术,允许云存储中心通过增加存储服务器和存储节点对存储系统进行扩容。云系统通过高效的并行调度策略为处于世界不同地域的数字用户指定合适的目标存储服务器,使得云图书馆存储服务器总体负载均衡,在确保云图书馆用户访问效率的基础上达到较高的存储利用率。此外,云存储实现了资源的集中监控和动态管理。云图书馆所有的云应用存储空间可根据云业务和云用户需求任意伸缩、实时调整,避免了由于存储空间长期空闲而造成的资源浪费。[2]
云图书馆存储虚拟化,就是为云图书馆存储区域主机逻辑创建、划分、管理物理存储资源的过程。云图书馆用户和其它云租户共享同一个云空间,所有云用户无法在物理逻辑上做到真正隔离。因此,对云图书馆用户而言,云数据安全性及独立性受到一定影响。通过存储虚拟化技术,将云图书馆一个或者多个存储介质(如硬盘、RAID)集合在一个存储池中整合、管理,与其它云租户做到云数据逻辑隔离,并按照云业务类别和用户服务需求进行分配。存储区域网络可根据云图书馆数据中心存储需求,以增加异构存储服务器数量方法实现分布式存储,用户以统一模式通过访问虚拟化后的用户接口实现存储能力的扩展。[3]
为确保云用户安全、可靠地访问云图书馆虚拟空间,除通过虚拟方式对物理存储区域安全隔离外,新用户访问云图书馆存储空间前,必须经过安全认证并获得证书。对于一些云图书馆核心数据和用户隐私数据,当数据存储到云存储系统时必须加密,确保非法用户截获后无法破译。在数据管理模式上,采用级层管理模式。图书管理员按照权限级别管理业务数据,用户和云服务提供商则不能未经允许访问。同时,可根据服务内容和业务量采用合理的协议和存储管理模式,尽可能减少开启服务器和硬盘的次数,以降低服务器和硬盘的能耗。[4]
传统的数字图书馆存储介质以磁盘或磁带库为主,具有存储效率低与异地备份成本高的缺点,系统进行硬件升级时往往要求中断数字服务。云图书馆数据存储中心分布于世界不同地域,通过虚拟化技术将存储设备逻辑划分为不同的存储区域,将所有存储设备划分为整体资源池统一管理维护,形成一个多存储设备、多应用、多服务协同工作的共享存储虚拟架构,并保证逻辑分区与存储设备之间的安全隔离与数据可靠传输。
因此,云图书馆存储区可根据业务特点与用户需求执行安全、高效的存储与备份策略。借助于高效的云传输网络,管理员可进行云图书馆服务与用户的创建、发布、执行和管理,轻松、高效地实现云存储设备和存储区域网络间的协同工作与资源共享,有利于图书馆云数据安全保存和存储系统间的负载均衡。当发生不可预测的数据灾难、云存储区域及网络故障、系统数据迁移升级及对存储架构进行更改时,确保云存储区域数据安全与云服务的高效性与不间断性。[5]
云图书馆不需要建立自己的数据中心,按照业务和用户服务需要向云服务提供商购买云存储服务,并根据用户云存储空间实际需求动态扩展、灵活配置。由于不用购买云存储基础设施,云服务提供商负责对存储设备与系统进行管理和维护,不但提高了云图书馆数据中心管理效率,而且降低了云图书馆建设与运营、维护成本。
云图书馆存储应用中的安全主要由认证服务、数据加密存储、安全管理、安全日志和审计组成,通过对云图书馆用户访问控制服务实现用户身份认证、授权,防止非法访问和越权访问。云图书馆根据用户级别赋予不同的权限,用户只能依据权限对特定文件、数据进行访问、下载、修改等操作。而管理员只能对云图书馆进行用户管理、数据备份、热点对象迁移,而不能访问云用户加密了的私有数据和空间。因此,可采用去耦合技术将底层物理设备与上层操作系统、软件分离,在降低能耗的同时提供存储资源动态共享和灵活扩展的能力。[6]
在云图书馆网络基础架构中,可采用虚拟HIPS(基于主机的入侵防御系统)、支持虚拟化技术隔离的防火墙。依据用户权限将用户映射到不同的虚拟化用户组中,每个虚拟化组拥有独立、统一的安全控制策略和独立的操作权限,对云图书馆进行管理、维护、浏览、下载等操作。云图书馆和其它云用户共享同一云服务器时,要确保不同用户运行的操作系统、应用软件、存储数据在逻辑上完全隔离,不能被其他虚拟化系统引擎所访问,才能保证不降低云主机计算与存储性能的情况下,每个云图书馆客户虚拟机系统、虚拟化软件、虚拟平台之间通信的安全,保证多个虚拟平台之间切换、数据传输、数据同步的安全。[7]
和其它存储系统相比,云存储系统自身具备较安全的防护体系,具有更少的安全漏洞和更高的安全环节。但是,云图书馆存在于不稳定的网络环境中,数据的安全性问题贯穿于云存储架构的各个层次,复杂的基础设施资源与较高的用户服务要求对维护数字信息永久性和真实性提出较高要求。加强对云存储设备与海量数据激增、存储区域复杂、安全防范成本上升、非法用户入侵、数据结构错误、数字资源备份与数据迁移安全等不利因素的管理,是图书馆实现云服务安全、可靠、高效、稳定的前提和保证。此外,系统自身的复杂性与服务多样性对其工作效率与可靠性产生较大影响。因此,安全性是云图书馆存储系统建设首要考虑的问题。[8]
云图书馆具有系统用户数量庞大,并发存取海量数据及云业务类型多的特点。如何在复杂、不稳定的环境中提高云系统基础设施资源的利用效率和数据库用户访问效率,确保安全、高效、准确、全面地存取数据,是图书馆云存储方案设计考虑的重要因素。
云图书馆数据库中存储有大量的重复数据与冗余数据。通过对重复数据有效删除,以及采用数据压缩、虚拟化整合及有效存储策略的方法,减少云数据存储空间占有率,可提高云数据存储的速度和数据管理效率。同时,加强云图书馆系统虚拟化管理、配置、操作流程的标准化、自动化水平,使云虚拟系统具备自动检测云图书馆IT基础架构变化,能够按需求实现最佳操作实践、最优业务流程、优先级自动配置及系统自我修复,实现服务的最优化交付。[9]
云存储区域网络是云存储基础设施间数据传输的基础,是云数据中心对存储区域设备监管、控制的平台,存储区域网络的安全和健壮性关系到云数据存储的安全和效率。随着云计算与存储技术的发展,云计算与云存储基础设施能够满足云数据安全、高速读取的要求,但云存储区域网络数据传输能力是制约存储区域性能的主要因素。因此,要加强云存储区域网络传输高效性、安全性、健壮性、冗余性的建设,消除云存储区域网络这个影响云存储区域整体性能的瓶颈因素。
自我管理、自我复制、自我修复、自我平衡是云图书馆存储区域可操作性和智能化的判定标准。根据云图书馆业务类型和用户需求,系统管理员应制定高效的管理策略,由系统根据策略和运行条件自动执行,确保系统时刻处于最优化状态。此外,文件系统执行数据检查的校验和判定,确保用户发送数据与存储中的数据一致性,减少原始数据远程高速传输的误码率。[10]
文件系统应根据云用户访问和系统存储特点,对数据存储分散操作,最大限度减少存储热点,确保平衡存储。云存储系统还应具备智能化的业务自动部署能力,做到网络启动、自动加载、故障自动报告和零配置、零中断的软件升级,自动智能故障判断与告警处理。为了加强管理员决策的科学性,还应进行软件使用频率、信息容量、分组统计等数据统计,为云图书馆管理员决策提供数据支持。
云图书馆是一个利用存储虚拟化、集群存储和SAN+NAS等技术,由网络设备、存储设备、服务器、应用软件、公用访问接口、接入网、和客户端程序等多个部分组成的存储区域系统,通过应用软件来对数字用户提供数据存储和云业务访问服务。在数字图书馆云存储方案设计上,系统组织架构、数据优化、安全管理是云存储方案重点考虑的问题,也是关系到云存储平台安全、可靠、高效、经济的关键因素。[11]
按照云存储平台整体架构可划分为4个层次,自底向上依次是存储层、基础管理层、应用接口层以及访问层。云存储系统的4层结构模型如图1所示:
图1 数字图书馆云存储系统结构模型
4.1.1 云图书馆存储层
云图书馆数据存储中心位于世界不同地域,通过广域网、互联网或者FC光纤专用网络将位于不同地域的存储设备互连,形成统一的云存储系统资源池。通过虚拟化技术屏蔽掉底层的硬件差异,采用统一的管理逻辑和接口,进行存储设备的逻辑虚拟化管理、多链路冗余管理以及硬件设备的状态监控和故障维护,以资源池的方式整体对外提供服务。
存储设备可以是FC光纤通道存储设备、NAS、iSCSI等IP存储设备,也可以是SCSI或SAS等DAS存储设备。采用基于对象的分布式存储,为应用层在线存储、备份提供专用文件访问接口,实现对文件和目录的标准操作并提供存储空间,为云图书馆海量用户提供安全、高性能、易扩展的存储与备份需求。[12]
存储设备之上是存储设备管理系统,可以执行存储设备的存储虚拟化管理、存储集中管理、状态监测与控制、维护升级等操作,提供面向服务的分布式存储系统数据管理操作。
4.1.2 云图书馆基础管理层
基础管理层是云存储最核心和最难以实现的部分。应用接口层通过基础管理层集群系统、分布式文件系统和网格计算等技术,控制多个存储设备协同工作,以资源存储池方式为用户提供最优化的数据存储、访问服务。
云存储系统通过集群文件系统实现后端存储设备的集群工作,通过系统控制单元和管理单元对整个存储系统进行管理,并对数据的分发、处理结果进行反馈。利用CDN(内容分发网络)、数据加密技术、P2P数据传输技术和数据压缩技术提高云存储效率,降低数据传输带宽和存储空间需求。采用数据加密技术保障数据存储和传输过程中的安全性,即使非法用户截获数据也无法还原。数据备份和容灾技术可保证当不可预测的数据灾难发生后,可通过远程云存储系统中的备份数据进行还原,保证云存储数据库自身的安全和稳定。[13]
4.1.3 云图书馆应用接口层
云图书馆应用接口层通过集群、分布式文件系统和网格计算等技术,实现图书馆云存储系统多个存储设备之间的协同工作,确保云存储系统整体以最优化策略和效率为用户提供云图书馆个性化服务。
云图书馆强大的云计算、云存储与网络传输性能,支持为用户开展传统数字图书馆不可比拟的个性化云服务。云图书馆可以根据实际业务类型,开发不同的应用服务接口,满足云图书馆基于网络的跨平台协议二次应用程序开发,为用户提供不同的应用服务。云用户通过网络接入云数据中心,经云认证系统身份用户认证和权限分配后,享受云数据中心提供的各种云个性化服务。[14]
4.1.4 云图书馆访问层
基于存储层、基础管理层和应用接口层的支持,云用户不用考虑存储区域底层硬件设施类型、数据和用户管理策略、网络与软件接口等情况,授权用户可通过标准的公用应用接口来登录云存储系统,根据用户业务需求享受云存储提供的简单透明服务。
图书馆云用户根据个人需求定制特色服务,使用相应的应用软件享受不同的云服务。通过获得云图书馆存储服务授权,调用标准API(应用程序编程接口)就可以申请所需的存储空间,享受云存储上的各种应用服务。比如云图书馆数据中心安全视频监控平台、IPTV和视频点播应用平台、用户云空间网络硬盘平台、云系统远程数据备份应用平台、联合虚拟参考咨询系统、在线存储与备份系统、特色库等系统的数据存储及访问控制接口等。[15]
云图书馆存储区域网络拓扑结构如图2所示:
图2 云图书馆存储区域网络拓扑结构图
根据云图书馆的规模和服务类型特点划分,云图书馆存储中心可分布于公共云、社区云和私有云之上。根据用户服务规模和地理位置分布特点,可建立至少两个以上地理位置相距较远的数据中心,确保图书馆云用户能够高效访问及云图书馆数据存储、备份安全。
存储设备由存储设备管理服务器负责管理,可以实现对存储设备的存储虚拟化管理、存储集中管理、状态监测与控制、维护升级等操作,提供面向服务的分布式存储系统数据管理操作。云图书馆存储区域上层为公共云,支持云用户通过广域网访问云存储区域。广域云的服务器包括广域管理器、广域云存储节点等。中间层为社区云,按照云图书馆存储中心所处的地理区域(如省、地区等)来划分。服务节点包括区域云管理器、区域云存储节点。对于技术成熟、拥有特定用户的云图书馆可以建立私有云,私有云按小的地理区域划分,可运行于广域网或局域网,用户限于区域内的人员,服务节点包括本地管理器、私有云存储节点。图书馆云用户依次按照就近访问原则、网络连通性能与传输性能原则、云存储中心工作效率原则顺序判定需要访问的云存储中心,确保云图书馆存储中心以最优服务效率及最佳网络传输性能为用户服务。[16]
云图书馆存储中心系统架构由云存储区域前端网络和云存储区域后端网络两部分组成,如图3所示。
图3 云图书馆存储中心系统架构
4.3.1 云存储区域前端拓扑结构
云存储区域前端拓扑由防火墙、高速交换机、认证服务器、用户认证数据库和网络加速器组成。防火墙是将存储区域网络与互联网安全隔离的屏障,可避免黑客通过互联网络对云存储区恶意攻击,同时也阻止存储区域网络内部用户对外网的非法链接。认证服务器通过对用户合法身份进行认证,并按照用户级别授权,允许用户通过高速的“前端”以太网络进行读取服务,对云存储区域进行云应用程序使用及云资源的访问与存取操作。当云存储区域网络并行访问用户数量过多时,网络加速器对所提供的服务进行优化,提高云数字图书馆服务质量。[17]
4.3.2 云存储区域后端拓扑结构
云存储区域后端拓扑由应用集群服务器和云存储节点设备组成。应用集群服务器需要有强大的处理器和内存,负责整个系统元数据和实际数据的管理和索引,提供超大容量管理,实现后端存储设备的高性能并发访问和数据冗余存储等功能,确保支持多用户对云存储节点设备的并发读、取操作。此外,记录并分析云用户的数据访问日志,提高云图书馆用户读写数据的效率。管理员也可以监视系统运行情况,管理系统用户和制定各项管理策略等。[8]
云存储节点系统采用高性能应用存储设备,可内嵌云存储系统访问协议包、存储节点认证许可等。设备采用高密度磁盘阵列设备,每套设备通过存储区域网络高速接入到云存储系统中,进入云存储池后再对存储空间进行分配。对数据存储可实现多副本、多物理设备分别保存,当容量或带宽需要扩展时,可通过增加存储节点来实现,并根据实际需要在线进行系统扩容。[18]
云计算与云存储作为高科技时代数字图书馆建设的重要技术,为新时期云数字图书馆建设与服务提出了新的理念。特别是云存储技术在数字图书馆中的应用,解决了影响云图书馆海量数字资源存储高效性、保密性、快捷性、共享性的问题,为数字图书馆云服务的开展提供了有力保障。本文从云图书馆存储区域建设存在的实际问题和云用户需求出发,提出了一种新的数字图书馆云存储应用系统方案,优化了云存储区域基础设施管理策略及网络传输性能,提高了云图书馆海量数据存储的效率、安全与数据整体读取能力,有较强的工程应用价值。
[1]马军,等.基于CDN和P2P的分布式网络存储系统[J].计算机应用与软件,2010,27(2):50-52.
[2]王国平.图书馆网络中心各存储技术的应用研究[J].图书馆论坛,2009(18):255-257.
[3]刘立坤,等.CorsairFS:一种面向校园网的分布式文件系统[J].西安交通大学学报,2009,43(8):43-47.
[4]李勇军,代亚非.对等网络信任机制研究[J].计算机学报,2010,30(3):390-405.
[5] CACHINC,etal.Trusting thecloud [J].ACM SIGACT News,2009,40 (2):455-461.
[6]张敬亮,等.蓝鲸文件系统中元数据与数据隔离技术 [J].计算机工程,2010,36(2):28-30.
[7]王庆波,等.虚拟化与云计算[M].北京:电子工业出版社,2009.
[8]吴吉义,等.基于Kademlia的云存储系统数据冗余方案研究 [J].电信科学,2011,27(2):68-73.
[9]赵培.云计算技术及其应用[J].中兴通讯技术,2010(4):9-11.
[10]冯丹.网络存储关键技术的研究及进展[J].移动通信,2009(11):32-35.
[11]刘鹏.云计算[M].北京:电子工业出版社,2010.
[12]陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009(5):1337-1348.
[13]杜海宁.基于云计算的图书馆海量数据存储研究[J].图书与情报,2010(3):99-101.
[14]孙健,贾晓菁.Google云计算平台的技术架构及对其成本的影响研究[J].电信科学,2010(1):38-44.
[15] Googledocs Online Documents,Spread sheets,Present[EB/OL].[2010-06-02].http://docs.google.com.
[16]陶新权,等.计算在图书馆中的应用[J].大学图书馆学报,2010(2):55-57.
[17]金文新.高校图书馆存储系统的构建及其数据安全和备份方案研究[J].情报资料工作,2009(1):40-43.
[18]严庄.高校数字图书馆存储整合研究[J].图书馆学研究,2010(2):34-36.