图书馆大数据监护系统的构建——以生命周期理论为视角

2014-12-31 09:14马晓亭兰州商学院信息工程学院甘肃兰州730020
图书馆建设 2014年12期
关键词:监护图书馆资源

马晓亭(兰州商学院信息工程学院 甘肃 兰州 730020)

1 前 言

目前,移动互联网、云计算、物联网、大数据和传感器网络技术飞速发展,图书馆通过对采集的海量读者阅读行为数据、社会关系数据、阅读终端运行数据,以及其他相关监控数据进行实时的处理、存储和分析,可准确预测读者阅读需求和阅读方式的变化趋势,为读者提供安全、高效、经济和便捷的大数据阅读服务。

但是,伴随读者阅读QOS(Quality of Service,服务质量)标准、数据中心系统结构和服务模式复杂度的增长,图书馆数据呈现数据体量巨大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和商业价值高(Value)的4V大数据特性,对图书馆数据的产生、收集、保存、维护、处理和利用的生命周期管理提出了新要求[1]。此外,读者阅读的QOS保证,也要求图书馆的大数据资源可长期保存、维护、管理和二次开发利用。因此,图书馆必须加强对所属大数据资源的监护管理,将工作重点从数据资源的单纯长期保存,转移到以用户服务需求和图书馆服务能力提升为核心,对数据资源的主动、持续和不间断监护工作上,才能确保大数据资源安全、可控、高价值密度和长期可用[2]。

2 “数据”与“数据监护”的定义

世界权威研究机构和组织依据数据产生、存在、组织和使用方式的不同,给“数据”赋予不同的定义。英国JISC(Joint Information Systems Committee,联合信息系统委员会) 将“数据”定义为“原始的研究数据”[3]。美国NSC(National Science Foundation,国家科学基金)将“数据”定义为“数据是指所有能以数字化形式存储并能以电子方式获取的信息,包括数字、文本、出版物、感应器读数流、视频、音频、算法、软件、模型、模拟、图像等”[4]。大数据时代,依据图书馆服务过程中数据的使用价值、存储方式、应用对象和内容,本文将“图书馆数据”定义为“图书馆在以读者为核心的服务过程中所涉及的图书馆服务系统管理、用户阅读行为、社会关系采集、读者阅读反馈和阅读收益评估、服务器设备和阅读终端运行结果等数字的信息”。

而对于“数据监护”的定义,英国JISC定义为“指在数据的生命周期内,对数据进行评估管理、维护和完善增值,以便于数据在当前和未来被使用”[5]。本文根据读者阅读活动的大数据QOS保证和数据可用性需求,将图书馆数据监护定义为:“图书馆在读者大数据阅读服务过程中,为了保证所采集、存储的大数据资源具有较高的价值密度、可用性、可控性和经济性,根据数据生命周期发展规律,对大数据资源长期开展的管理、评价、选择、注释、加工、重现、组织、完善和存储活动,以确保数据未来可被再发现和再利用”。

3 图书馆大数据监护的内容与需求

3.1 图书馆动态大数据资源监护的内容

图书馆的传统用户服务数据、系统服务器历史监测数据、读者阅读行为历史数据、读者社会关系数据、读者个体特征数据等大数据资源具有较强的动态数据特征。有效实现对此类动态数据的实时动态监控、持续性补充、完善和更新,是保证大数据资源真实、完整、高价值和可用的关键。

首先,图书馆应依据动态数据的类型、结构特点、使用方向和存储方式,通过存档实现数据资源的选择性管理和存储,保证数据在物理特性上安全、正确、完整、可控和可用。其次,图书馆通过数据动态存储方式实现数据的可持续性更新与维护,避免数据因为存储与应用系统技术的革新,以及应用对象、方法和途径变化而不被发现、获取、理解和使用[3]。第三,动态数据监护应广泛调研数据使用者的应用需求、内容、途径和方法,重点加强数据在图书馆不同用户、服务系统和应用过程中的共享,并对重点数据资源的原始内容和补充内容进行标注,避免数据内容被误读和误用。

3.2 图书馆大数据资源面临的安全威胁

大数据环境下,传统的数据安全管理与防御手段,难以满足图书馆大数据服务对数据质量、价值密度、可用性和可控性的需求。

首先,传统IT环境下,图书馆通常以人工安全管理为主,系统服务平台安全管理与监测软件系统为辅,完成用户服务网站漏洞扫描、海量安全数据统计、系统安全状况跟踪和安全事件排队周期处理等,处理过程具有低效、实时性差、周期长和不经济的缺点,不能满足读者大数据服务安全、高效、便捷和低碳的需求。其次,黑客会利用大数据技术对图书馆系统进行安全评估、漏洞发现、权限提升、植入黑链和木马移植等,且利用的大数据新型攻击方法具有计划周密、目标明确、隐蔽性强、破坏力大和持续时间长的特点,大幅增加了非法攻击的成功率和有效性。第三,在大数据时代,图书馆的用户服务系统组织结构和服务模式更加复杂。此外,传统的安全管理与监测系统具有反应周期长、应急响应慢、攻击发现不敏感和安全管理策略效率低的缺点,很难在海量、多用户、多数据类型和数据高速处理的大数据环境中快速发现被入侵目标,不能实时开展攻击源的发现、系统漏洞补丁和病毒检测等活动[6]。

3.3 构建智慧图书馆对大数据监护的需求

依据大数据技术构建智慧图书馆和为读者提供智慧阅读服务,是目前图书馆建设和服务模式变革的一个主要趋势。

首先,在大数据时代,图书馆通过对采集的海量服务系统管理与监控数据、用户行为与社会关系数据、服务终端传输与运行数据,以及其他与读者大数据阅读活动相关的数据进行采集、分析、评估和决策,来准确分析与预测读者的阅读需求、大数据服务有效性、读者群阅读活动舆情监控、读者阅读活动安全与质量管理活动,并为图书馆服务模式与方法变革提供强大的数据决策支持。因此,基于物联网技术的数据采集、传输、管理与应用平台是图书馆大数据监护应关注的重点,图书馆必须加强以读者为核心的大数据服务感知层、传输层、平台层和应用层的数据监护,才能确保大数据监护决策具有科学性、准确性、前瞻性和及时性[7]。其次,为了提高智慧阅读服务的质量标准和有效性,图书馆必须不断增加读者数据采集设备、监控设备、网络数据传输设备、阅读终端设备的数量和密度。这将会导致大数据服务数据量的快速激增,对图书馆的数字信息采集效率、数据智慧存储与处理能力、网络数据传输与转发性能、数据挖掘和发现质量提出较高要求。而数据监控的有效性则是提高数据价值密度,以及缓解系统数据采集、存储、评估、处理和决策压力的有效途径[8]。第三,对大数据资源的有效监护,也是图书馆准确掌握读者群阅读需求和阅读活动舆情变化趋势,将读者服务从以“传统经验”为依据向以“科学大数据”为指导转变的重要途径。

3.4 大数据监护是图书馆数字资源长期保存、优化和完善的保证

随着读者阅读需求和图书馆用户QOS标准的提高,传统IT环境下的数字资源长期保存策略,已不能满足图书馆大数据服务的需求[9]。在大数据时代,图书馆数据管理不仅要求确保数据的安全性、易控性、可用性和经济性,还要求必须依据数据生命周期发展规律,通过数据监护技术对大数据资源的长期存储、管理和应用机制进行优化和完善。

伴随图书馆数据管理与存储技术的发展,如何避免数据在图书馆技术革新和设备更换中被损坏、丢失、无法识别和可用性降低,是长期困扰图书馆数据采集、存储、管理和应用的一个难题。因此,数据监护在保证数据存储长期完整、真实和可控的前提下,还必须将管理重点从数据的被动存储与保护,转换到以大数据资源积极存储与管理、价值发现与挖掘、资源利用和再利用为核心的大数据监护上来。此外,依据大数据资源生命周期发展规律,通过科学构建数据监护模型来实现数据的精确选择、价值评估、数据发表、系统组织和可用性监护等,是数字资源长期保存、优化和完善的必要保证。

4 图书馆大数据监护系统的建设与监控质量保证策略

4.1 大数据监护系统的组织结构

大数据阅读服务要求数据具有较强的科学性、实时可用性、生命周期活动可控性和数据管理动态可维护性。因此,图书馆在数据监护系统的设计中,应坚持数据管理的科学性、有效性和数据可用性相结合,依据读者阅读服务过程中大数据的生命周期发展规律,重点做好数据监护系统在数据采集与处理、数据质量保证、数据的高效与可靠存储策略、数据存储平台可靠性4个方面的建设工作。

以图书馆数据价值提升和读者服务数据可用性保证为目的,本文设计的图书馆大数据监护系统组织结构图如图1所示。

图1 图书馆大数据监护系统的组织结构图

该系统的设计过程依据图书馆大数据的生命周期发展规律和服务对象,在坚持开放、互连、模块化和低复杂度原则的前提下,将系统划分为4个相互独立并具有较强无关性的模块。高层系统模块依靠较低层模块提供的服务支持,最终为读者大数据服务提供安全、高效、经济和可控的数据管理与保障服务[10]。

4.2 大数据的处理流程

首先,图书馆利用服务系统运行监控设备、用户行为采集设备、传感器、网络监测设备等,对涉及服务系统运行、用户服务、用户阅读行为与社会关系等数据,进行数据的发现、采集和数据类型转换等操作。其次,根据数据集的性质、结构、内容、文档的数量和复杂度等情况,为不同的数据集分配相应的数据处理标准,并对数据集进行创建元数据、数据处理、文档处理和发布数据等操作,确保数据完整、标准化、可检索、能共享和易管理,并将最终处理后的数据通过网络系统传输至存储平台保存[11]。

4.3 大数据质量控制

图书馆大数据监护的核心是加强对数据质量的控制,保证数据质量可满足读者阅读和图书馆大数据服务需求。

首先,图书馆应依据服务系统的建设与管理、用户阅读需求与内容、读者服务模式与方法革新、大数据质量保证的标准,制订相应的原数据内容采集、数据内容保留与转让、数据质量跟踪、数据补充与完善等大数据质量保证体系,确保大数据管理过程全面、规范、科学和合理。其次,应将大数据资源完全数据化并匿名处理,对大数据集的数据总量、元数据、数据可用性、元数据完整性、数据保密性、数据格式转换有效性进行监控和检查。同时,在坚持数据定性和定量质量控制方法相结合的前提下,依据数据资源的内容、结构特征、使用途径和质量保证标准,实现数据质量的分级管理与保证。第三,应制订可靠和易执行的大数据库资源备份、保存和继承机制,确保大数据库存储系统与备份系统相互兼容、补充、完善、错误检测和服务转换,保证用户对数据的长期、不间断访问[12]。第四,应聘请第三方权威机构参与到图书馆大数据质量的管理与控制中来。通过对大数据资源的加密、访问权限控制等方式,确保数据在采集、管理、使用与共享过程中,不被非法用户截获、窃取和篡改,并为数据所有者和读者的个人隐私安全提供技术支持。

4.4 大数据保存策略

图书馆大数据保存策略基于下层数据质量控制层的服务支持,为上层可靠的大数据存储平台提供数据的真实性、可靠性、逻辑完整性和可用性保障。

首先,图书馆大数据存储系统应具备较强的智慧管理功能,可高效、自动地实现大数据融合存储、查询、分析和归档的全生命周期管理。同时,应支持对多种设备接口、通信协议和数据类型的结构化与非结构化数据,进行统一存储、归档与分析,避免“数据孤岛”现象发生。其次,管理系统应结构简单和易于控制,可对存储系统硬件设备、软件系统和存储区域网络进行统一的管理。其通过对所采集的存储系统运营状态反馈数据进行性能统计和智能分析,实现系统的自动化精简配置和存储空间的动态分配。第三,大数据环境下,图书馆大数据存储系统通常采取分布式存储节点结构,存在存储介质异构、数据分片和存储资源分配难度大的问题。因此,图书馆应增强基于大数据存储管理算法的科学性,实现大数据资源存储的智能、虚拟化管理[13]。第四,大数据存储平台建设和系统运营过程应加强能耗管理。图书馆在存储系统构建中应尽量使用闪存、PCM(Phase Change Memory, 相变存储器)等低能耗的新型存储介质。同时,还应采用能耗查询优化、数据存储节点负载均衡、能耗均衡的集群存储分配、面向集群的高能效缓冲区置换算法等,实现大数据存储平台的低碳运营和绿色存储[14]。

4.5 大数据存储平台系统建设

首先,为了确保大数据存储过程安全、高效、经济和易控,图书馆可靠的大数据存储平台应采用集群存储系统的模式建设,并将主存储集群存储的大数据资源在备份存储集群上进行冗余备份存储。当主存储集群遭受不可预测的攻击导致服务暂停或者数据丢失时,图书馆则自动将数据存储、查询等待服务切换至备份存储集群上,确保数据存储、访问等服务安全、高效、可控和不间断。其次,存储平台系统应具备对大数据资源的快速索引和高效分析能力,有较强的硬件兼容性和后续横向扩展特性,可根据未来图书馆大数据资源增量和阅读服务对数据存储的性能需求、存储平台的系统性能、存储能力和数据监护能力进行动态扩展[15]。第三,对于复杂大数据的存储,存储平台应根据大数据的安全级别、数据类型、应用模式和访问频率,把存储系统隔离为若干个相互独立的物理空间,保证数据存储过程安全、高效、可控和易于访问。

4 结 语

随着高新技术在图书馆系统建设和用户服务过程中的大量应用,图书馆用户服务过程会即时产生海量的数据。这些数据是图书馆用户服务创新和读者阅读满意度保障的重要战略性资源,同时,也为图书馆用户服务模式决策与方法变革提供可靠的大数据支撑作用。因此,图书馆必须以满足读者个性化阅读需求和提升服务系统保障能力为目标,加强大数据在采集、处理、存储、管理和应用等过程的监护工作,这样才能确保数据资源安全、高价值、可控和易用,才能为读者提供安全、高效、经济、易控和可预测的个性化大数据阅读服务。

[1]杨鹤林. 从数据监护看美国高校图书馆的机构库建设新思路:来自DataStaR的启示[J]. 大学图书馆学报, 2012, 27(2):23-28,73.

[2]钟 声. 大数据驱动的高校图书馆数据监护探究[J]. 情报资料工作, 2014(3):103-106.

[3]Lord P, Macdonald A. Data Curation for E-Science in the UK:An Audit to Establish Requirements for Future Curation and Provision[EB/OL].[2014-09-02]. http://www.jisc.ac.uk/uploaded_documents/e-scienceReportfinal. pdf.

[4]张兴旺. 图书馆大数据体系构建的学术环境和战略思考[J]. 情报资料工作, 2013(2):12-17.

[5]程莲娟. 美国高校图书馆数据监护的实践及其启示[J]. 图书馆杂志, 2012,31(1):76-78.

[6]孟小峰, 慈 祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展, 2013,50(1):146-149.

[7]卫 潇. LOCKSS系统中的数据监护[J]. 图书馆学研究, 2014(1):28-31.

[8]王文联. 嵌入数据监护的图书馆机构库高效运行模式[J]. 新世纪图书馆, 2014(3):36-38,43.

[9]张秋彦. 高校科学数据监护研究[J]. 情报科学, 2013, 31(5):42-45.

[10]姜 山, 王 刚. 大数据对图书馆的启示[J]. 图书馆工作与研究,2013(4):52-54,79.

[11]裴玉香. 高校图书馆数据监护工作初探[J]. 图书馆理论与实践,2013(8):79-81.

[12]White House. Big Data Across the Federal Government[EB/OL].[2013-12-22].http://www. whitehouse. gov/sites/default/files/microsites/ostp/big_data_factsheet.p df.

[13]殷沈琴, 张计龙, 窦 方. 欧洲科学数据监护的标准与实践[J].图书馆杂志, 2013(6):76-80.

[14]杨鹤林. 英国数据监护研究成果及其在高校图书馆的应用:DCC建设回顾[J]. 图书馆杂志, 2014(3):84-90.

[15]夏姚璜. 国外数据监护教育和培训实践及启示[J]. 新世纪图书馆,2013(6):35-37.

猜你喜欢
监护图书馆资源
基础教育资源展示
护娃成长尽责监护 有法相伴安全为重
一样的资源,不一样的收获
儿童监护机器人设计
我国成年监护制度之探讨与展望
资源回收
图书馆
资源再生 欢迎订阅
神奇的太阳
去图书馆