一种基于新型存储的数字图书馆分布式大数据存储架构

2015-09-08 07:52陈臣
现代情报 2015年1期
关键词:数字图书馆分布式大数据

陈臣

[摘要]图书馆数据是一种典型的天数据,大数据管理是目前图书馆面临的一个复杂问题。为了解决传统关系型数据库在海量数据存储和访问效率中存在的瓶颈问题,本文提出了一种基于新型存储的数字图书馆大数据分布式存储架构。该存储架构具有良好的可扩展性、容错性和存储性能。

[关键词]数字图书馆;分布式;大数据;存储架构

DOI:10.3969/i.issn.1008-0821.2015.01.019

[中图分类号]G250.76 [文献标识码]A [文章编号]1008-0821(2015)01-0100-04

当前,随着读者阅读需求和用户服务保障模式的发展,图书馆数据环境呈现Volume(海量)、Variety(多类型)、Velocity(生成快速)和Value(高价值)的4V特点,图书馆已进入大数据时代。大数据时代,数据与劳动力、服务资本和科学技术一起,已成为图书馆服务生产力的重要组成部分。因此,如何有效采集、存储、管理与分析数据,成为关系图书馆科学决策、降低服务成本、保证服务质量和增强读者阅读活动满意度的关键。

维基百科将“大数据”定义为无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。面对复杂、海量、多类型和级数增长的大数据资源,传统数据存储系统的存储效率、容量、可扩展性和设备生命周期使用效率,已不能满足图书馆大数据采集、存储、处理、分析和决策的需求。因此,图书馆只有结合大数据环境特点和读者服务决策需求,以增强读者QOs(服务质量)保障和用户服务能力为目标,才能设计出满足图书馆大数据采集、处理、分析和决策的存储系统。

1.图书馆大数据环境特点与数据存储需求

1.1传统存储系统已不能满足大数据存储、计算、分析和决策的需求

大数据时代,图书馆数据源多样且数据总量海量,数据类型呈现结构化、半结构化及非结构化数据共存的复杂特征,管理类型单一、结构化关系型数据的传统存储系统,无法满足海量、复杂大数据的存储需求。其次,伴随大数据总量的快速递增,传统的SNA(存储区域网络)的网络传输带宽,已成为数据向网络存储节点和计算节点传输的瓶颈,严重影响了大数据网络存储、计算和决策的效率。第三,图书馆大数据服务模式可能会需要对数据进行反复的过滤、融合、价值提取、迁移和计算。因此,要求存储系统能够为大数据应用提供统一或者兼容性强的读写接口,以及高效的数据存储与读取支持。第四,大数据应用要求存储系统采用基于多存储介质的分层存储架构,可为不同数量、热点、读写速度和安全需求的数据提供存取服务。

1.2云存储不能完全满足大数据的存储需求

伴随云计算技术的发展与应用,图书馆可通过租赁云服务商服务的方式,为读者提供安全、高效、经济、便捷的云阅读服务。但是,随着大数据环境复杂度和大数据应用需求的增长,云存储已不能完全满足图书馆大数据的存储需求。首先,读者阅读活动的安全性是决定用户阅读愉悦感的关键因素。此外,读者的阅读历史记录、个体位置信息、阅读社会关系和阅读需求等信息,是图书馆发现读者需求、预测阅读服务模式、评估用户阅读活动满意度的重要依据。如果将此类数据存储在由第三方管理的云空间中,可能会由于图书馆丧失对数据的控制权而导致读者隐私被侵犯,影响读者大数据阅读的安全性和可靠性。其次,大数据阅读服务要求通过对读者行为数据的即时分析,准确掌握读者阅读需求和阅读方式的变化趋势,进而实现个性化服务策略的精确、实时调整。而图书馆对存储于云空间数据的超长时间存储、定位和下载,则会影响图书馆读者个性化服务决策与内容推送的实时、有效性。第三,随着大数据总量的级数增长,日益增长的云存储服务和数据网络传输费用,也是影响图书馆大数据阅读服务投资收益率的重要因素。

1.3大数据存储总量呈现级数递增

伴随可穿戴技术的发展,利用可穿戴设备的软件支持以及数据交互、云端交互的强大功能,提高读者对外界的感应与信息获取能力,是图书馆增强读者个性化阅读效率和满意度的重要方式。图书馆大数据来源主要包括可穿戴阅读设备记录数据、服务器监控数据、传感器网络采集数据、读者行为数据和读者位置数据等,此类数据可达到PB级的数据规模,并呈现几何级增长态势。因此,要求存储系统具备海量存储和可无缝平滑扩展的能力,避免存储孤岛现象发生。其次,图书馆大数据库拥有庞大的文件数量,大数据存储系统对文件系统层累积元数据管理的有效性,是关系大数据文件快速查找、定位准确性,以及图书馆大数据分析、决策实时性的重要问题。第三,为了增强读者阅读服务的安全性与可靠性,图书馆会对读者阅读服务过程的关键设备和重要数据进行备份。这些大数据信息具有分布式、多类型和大流量的特点,要求存储系统至少分配拟备份数据量一倍以上的存储空间。因此,如何实现关键数据的安全、统一备份,是大数据存储系统面临的一个严峻挑战。

1.4大数据分析要求存储系统高效、即时和可扩展

大数据时代,图书馆数据管理目标应将传统的以数据存储为中心,转变为以数据应用为中心。因此,图书馆在大数据存储系统建设中,应坚持计算平台靠近存储系统部署的原则,通过降低大数据资源向计算单元应用程序数据传输的延迟,提高大数据计算、分析和决策的效率。其次,读者大数据阅读活动具有突发和不可预测的特点。如何准确、实时地对读者需求变化进行分析、判断,并实现广告的准确投放和服务推送,是提高读者阅读满意度的关键。因此,要求图书馆大数据存储系统可支持并发的数据流,并具备较高的10Ps(每秒进行读写操作的次数)性能。第三,大数据存储系统的存储资源利用率、不间断工作时间、低延迟性、主存性能和大数据管理算法的科学性,也是大数据存储系统构建应关注的重要问题。

1.5图书馆大数据存储的可控性与成本问题

大数据时代,分布式存储系统采用可扩展的系统结构,依靠多台存储服务器共同分担存储负荷。同时,利用位置服务器定位存储信息,具有高效、可靠、可用和可扩展的特点,是图书馆大数据存储系统构建采用的主要模式。面对海量、复杂、多变和非结构化的数据环境,为了增强分布式存储系统大数据定位的准确性、用户访问效率、易用性和可控性,存储系统应采用基于文件属性和内容的数据访问方式。增强数据的表意性和查询、存储、下载效率。其次,在分布式存储系统的设计中,还应关注存储系统存储能力、长期存储有效性、系统结构复杂度可控性、系统建设成本、运营成本和能量损耗等问题,通过自动精简配置、快照和克隆等技术手段,提高存储系统的持久性、智能性、可靠性和可控性。第三,大数据存储系统应采用数据压缩、重复数据删除和自动精简配置等技术,精简大数据存储系统应存储的数据总量。此外,还应采用相应的绿色存储技术,精确控制磁盘介质运行状态和读写速度,通过减少活动磁盘的总量来降低系统存储能耗,并延长存储介质的使用寿命。endprint

2.图书馆大数据分布式存储系统架构的设计与管理

2.1图书馆大数据分布式存储系统架构的设计

大数据时代图书馆存储系统的设计,应坚持分布式存储系统与计算系统相融合的原则,增强大数据存储对大数据决策的服务保障能力。数据中心传统以计算为中心的服务模式,应实现以数据为中心的服务模式转变。

本文设计的图书馆大数据分布式存储系统如图1所示。

该存储系统由若干个小型数据库存储从节点组成。为了降低数据库建设成本和保证数据存储效率,每个小型数据库应将闪存做为内存与磁盘之间的缓存,在大幅度提高数据读取速度的前提下,减少数据存储对磁盘的写操作次数和存储能耗。位于同一个小型数据库中的存储从节点,由本地存储节点控制器管理存储从节点数据的存储任务,并负责若干存储从节点之间存储负载的均衡。而本地计算控制器负责从若干个存储从节点之中调取本地计算所需的数据,控制完成本地的数据计算任务。存储主控节点负责管理图书馆所有的大数据存储从节点控制器,实时对所有的存储从节点进行监控、管理、检测和控制,当某个从节点发生故障或者存储负载过重时,由主存储主控节点控制完成该存储从节点数据和工作负载的迁移。并行计算主控节点负责管理所有的本地计算控制器,负责向所有的本地计算控制器发送计算任务和回收数据计算结果,通过有效管理和调度整个集群中的本地计算控制器,完成并行化程序的执行和数据处理。此外,控制每个从节点尽可能地对本地节点上的数据进行本地化计算。该系统可花费较低的成本部署在图书馆传统存储系统之上,具有较高的大数据计算、存储效率和数据容错特性,能够保证管理员在不了解存储系统分布式结构底层细节的情况下,实现大数据资源的高速存储、运算、分析和决策。

2.2图书馆大数据存储系统的管理策略

2.2.1实现大数据存储的虚拟化管理

首先,在大数据存储系统建设中,图书馆应依据当前读者大数据阅读服务对存储系统的容量需求,以及读者未来阅读活动对存储需求的增量,制定详细的系统扩展方案,确保存储系统可根据大数据结构、存储环境、服务负载和存储对象,完成存储系统容量、结构和存储模式的实时、动态扩展。其次,在存储系统的构建中,图书馆应基于“软件定义存储”技术完成存储系统的自动分层和精简配置,将结构化、半结构化和非结构化数据统一存储到+大的虚拟化逻辑存储系统中,实现异构存储空间的动态分配与管理。同时,应依据不同大数据资源在数据存储安全性、效率、可控性和成本的差异,执行相应的大数据存储策略,自动将数据放在恰当的存储层中。第三,图书馆还应利用闪存等新型存储介质快速、低延迟的特性,构建大数据临时公共存储池,实现对实时分析、计算、交换和整合数据的“弹性”存储,避免大数据的过度往返迁移。

2.2.2大数据存储应满足图书馆大数据实时分析需求

大数据实时分析,是指图书馆利用大数据技术对海量数据进行高效、快速的分析,以期达到近似实时的效果,及时的反映数据的价值和意义。图书馆通过对相关大数据的价值挖掘和分析,可即时掌握读者的阅读需求变化,是图书馆精细、动态调整用户管理和服务策略重要途径。

在大数据实时分析过程中,存储系统的响应效率、速度和数据传输延时是决定数据实时分析有效性的关键因素。因此,大数据存储系统的构建可采用固态盘SSD(SolidState Drives)作为主存的扩展架构,以直连式存储(DAS,Direct Attached Storage)的方式通过SCSI接口或光纤通道,直接连接到大数据的计算、分析平台,确保大数据分析过程安全、高效、快速、便捷。而对于分析时限要求不高的异步大数据分析,可采用多存储模块或节点横向扩展的方式,将Hadoop(一个能够对大量数据进行分布式处理的软件框架)运行在集群的不同节点上,由多个存储模块或节点分担存储负荷,以大数据并行分布式处理的工作方式完成异步大数据分析任务。

2.2.3大数据存储的安全管理

为了保护大数据安全,阻止黑客对大数据的非法访问、窃取和篡改,图书馆通常采用防火墙隔离和网关对访问者身份认证的方式,有效审核访问者的身份并限止访问权限。但是,传统Ⅱ环境下的防火墙隔离、网关认证与安全审计模式,无法有效管理来自图书馆内部用户对大数据资源库的访问行为。此外,图书馆内部的不同部门,对所属大数据资源的安全需求、访问者身份控制、开放性、访问效率和经济性有不同的要求。因此,对于具有较高迁移性、共享性和融合需求的大数据资源,图书馆应采用构建公共大数据存储池的方式,通过对存储资源池添加必要的用户身份认证和访问权限控制,来确保内部大数据资源访问安全、高效、经济和可控。其次,数据备份是图书馆灾难恢复和数据可用性保证的重要措施。图书馆可将读者隐私数据、服务数据、系统日志数据和系统配置信息等机密数据,通过冗余备份的方式分别存储于两个以上的不同存储节点上,并设置相应的管理策略确保主数据库数据丢失、损坏和不可用时,可通过数据的自动恢复、重传和任务转移机制,确保大数据存储安全和存储服务不间断。第三,在大数据库建设中,图书馆在加强存储系统运营成本控制和存储经济性的前提下,还应确保存储系统具备强大的容错软件管理能力,可实时对存储系统进行故障监控、重复数据删除和存储功能自动恢复。

2.2.4大数据存储前应对数据进行过滤、分类和整合

大数据时代,以数据为中心、分布式存储和上下整合的存储架构,是图书馆大数据存储系统的主要特征。为了进一步提高大数据存储的效率和系统可控性,图书馆在构建科学大数据存储架构的前提下,应加强对大数据资源的过滤、分类和整合。

首先,图书馆应通过对大数据资源的过滤、处理和整合,在大幅降低大数据存储资源总量和迁移频率的前提下,提高大数据资源的价值密度和可用性。其次,应实现大数据存储系统与计算系统的融合度,将图书馆的大数据存储系统、分析系统、数据挖掘与整合系统、决策系统整合为—个大的系统,在一个统一系统中实现数据的存储、管理、分析和决策,避免数据在不同的子系统之间过度装载、迁移。此外,还应坚持就近部署的原则,将大数据存储系统就近部署在计算系统傍,通过降低数据迁移、传输延迟来提高大数据的决策效率。第三,大数据存储系统应坚持基于流动数据架构的存储管理模式,主动、智能、精细化和可扩展地实现对大数据资源的存储管理,在降低大数据应用对存储资源池容量需求的前提下,提高大数据存储效率并降低存储成本,增强大数据存储对图书馆决策、服务的支撑力。

3.结束语

伴随大数据时代的来临,图书馆数据环境呈现海量、多类型、生成快速和高价值的4V特点,传统的数据存储系统已不能满足大数据阅读服务对数据存储容量、性能、业务连续性和数据生命周期管理效率等方面的需求。大数据存储的安全性、效率、经济性和可控性,已成为关系图书馆大数据决策科学性和读者服务有效性最为关键的因素之一。为了构建安全、高效、经济、动态和弹性的大数据存储系统,图书馆必须以大数据时代读者阅读需求和大数据决策保障为中心,坚持采用虚拟化存储、并行分布式处理、自动分层、弹性扩展、异构资源整合和全局缓存加速等技术,才能构建安全、高10Ps(每秒读写操作的次数)、低延迟、可靠稳定的大数据存储系统,才能大幅度降低大数据储资源配置、存储管理和数据决策的复杂度,才能为读者提供安全、可靠和基于大数据决策的个性化智慧服务。endprint

猜你喜欢
数字图书馆分布式大数据
基于DDS的分布式三维协同仿真研究
西门子 分布式I/O Simatic ET 200AL