郭雷
摘要:图书馆向来都是新技术应用和普及较快的领域,而云计算和大数据技术的快速发展,更为图书馆领域的服务与应用提供了新的发展方向。因此,在对云计算与图书馆大数据服务理念进行详细说明与介绍的基础上,对现代图书馆管理中所采用的云计算与大数据技术进行针对性分析,给出了基于云计算环境下的图书馆大数据服务体系架构。
关键词:云计算;图书馆;大数据
中图分类号:TB文献标识码:Adoi:10.19311/j.cnki.16723198.2017.33.095
1引言
作为近年来信息化技术和网络技术发展的主要方向,云计算与大数据成为相关领域学者和研究人员所关注的热点。而在图书馆界,对新信息技术的追踪与应用则比较快,该领域的研究人员对云计算和大数据技术在图书馆服务中的重要性已经有了深刻的认识,开始启动面向云计算和大数据应用的图书馆资源建设与服务创新项目。不过,根据现有的研究文献,还未发现在现实的图书馆中采用比较成熟的云计算与大数据技术的例子。所以,本文选择图书馆管理与服务中的云计算应用为研究内容,重点分析与研究图书馆领域的大数据应用与服务实践。
2面向云环境的图书馆大数据服务
2.1研究现状分析
其实,早在2008年,大数据概念就已经诞生,并很快受到各个领域研究人员与学者的广泛关注。而对大数据特征最全面准确的描述则可以概括为:数据大量化、各类更多、数据处理速度大幅提升、具有广泛的应用价值、相关数据的获取与传输更加快速、数据准确性以及处理分析难度大。具体到图书馆界,其对大数据应用的关注程度也非常高,有该领域的研究重点与热点,则主要聚焦在图书馆行业中各类信息的大数据特征提取与内涵分析、图书馆建设中需要重点考虑的大数据技术及其影响、基于大数据的图书馆服务方式的变革与发展,以及图书馆管理与服务中的大数据应用策略研究等。
2.2图书馆大数据的服务实践
在国外的图书馆领域中,最早在实际的图书馆服务中采用大数据理念与技术,并切实应用于实际工作的则为国际知名的哈佛大学。其实,早在2012年,哈佛大学所属的数十所图书馆与分馆,就已经实现了馆藏书目数据、多媒体资料进行整理与共享,并积极向公众开放,广大社会民众都可以通过数字公共图书馆进行下载和使用。正是由于该服务措施的推行,才最終促进了全球范围内,图书馆领域所有馆藏书目信息与数据的关联与开放共享。不仅如此,美国的国会图书馆,更是在本世纪初期,以及政府网站内所收集的数据为基础,通过大量的大数据整理与处理工作,实现了对相关数据的归档整理。而具体到我国国内的图书馆服务领域,真正将大数据技术应用于服务环节的例子还比较少,总体来说处于该研究领域的起步阶段,其中,清华大学图书馆于2013年根据大数据技术发展需求,从数据集成、数据挖掘等层面进行了尝试性研究。
2.3云计算与大数据的关系解释
其实,合为两个内容不同的概念,云计算和大数据存在区别,但也有关联,是一种相互依靠的关系。如果采用比较形象的说法,可以将云计算理论及其技术理解为计算机中的软件操作系统,能够实现对网络中大量闲置资源的虚拟化调度与管理,并在虚拟化的基础上进行优化使用;相应的,则可以将大数据理解为网环境下的数据库系统。可以说,云计算更多地关注数据的处理与计算能力,侧重于对各类架构与方案的解决,以便于能够有效节约信息化系统的实际部署与应用成本;相应的,大数据理论与技术则更多地对数据本身的价值与应用方式感兴趣,主要目标是在对数据进行科学管理与分析的基础上,实现对数据中潜在价值的深入挖掘。不过,云计算与大数据也是互相促进的,特别是在实际的应用中,即为了实现对大数据的深入分析,就可以利用云计算技术,来为数据处理的高效处理以及信息使用与应用提供全方位的保障。
3云计算与大数据环境下的图书馆服务特点分析
3.1便于整合数据资源
大数据环境下,图书馆界可以构建和生成的大数据有多种,如包含了图书、期刊、报纸、全文数据库、媒体数据库多种资源的资源大数据;包含了图书编目、文献交流、参考与咨询等相关的业务大数据,此外,还有与用户相关的数据等。同时,包括了整个行业的相关数据,以及相关的Web站点数据、社交网络数据等多种不同的数据源。所以这些数据,都呈现一种几何增长方式,数据总量异常庞大,且数据类型更加多样,主要以异构化的数据形式而存在,比如半结构化数据与非结构化数据等。利用大数据理念与技术,可以将图书馆界相关的数据存储到网络环境中的云服务器上,构建不同地区、不同类型图书馆资源的数据聚合中心。这样,图书馆工作人员就只要利用网络对云端资源进行管理与操作,且可以在使用过程中,对各类资源进行实时的完善与补充,有效解决大数据普及所带来的一些问题,如数据类型复杂、垃圾数据量比较大、各类资源的分布比较散以及消耗的存储成本较高等。
3.2便于把握用户需求
根据现有的大数据应用理论,用户的各类行为信息都会在信息化系统与社交平台中留下难以消除的痕迹,基于这些痕迹数据,就能够由图书馆管理人员对用户行为大数据进行更加分析的基础上,从更精准的层面对用户的需求进行了解,充分掌握图书使用用户的分布和行为特点,实现对用户行为的准确预测,进而为广大社会用户提供更加鲜明和针对性的个性化服务。不仅如此,还能够以云计算技术的强大计算能力为依托,对图书馆大数据进行更加高效与实时的分析;完成分析过程中,还可以利用云技术将得到的结果导入图书馆各类信息化系统中。
3.3便于扩展服务功能
在大数据理论与技术的推动下,图书馆中所存储的数据与信息资源也就更加多样与丰富,随着图书使用者的需求随着社会发展不断变化,存在于传统图书馆服务领域中的文献借阅、科技查新、项目定题以及参考咨询等,逐渐向云计算与大数据技术支持下的数据挖掘与应用、数据分析、数据可视化等方向拓展,特别是网络高度发展前提下的大数据与云计算技术的充分整合应用,必然会为整个图书馆应用与服务领域的智能化与个性化以及虚拟化提供全方位的技术支撑。而作为图书馆大数据服务中的主要构成,馆藏大数据、用户大数据、业务大数据以及外部资源大数据等在深入分析的基础上,还可以实现对图书馆用户需求与相关业务发展的预测,大幅提高图书馆服务的整体水平,为广大的图书使用者提供性能更优的体验。endprint
4图书馆大数据服务系统架构设计
在对云计算环境中的大数据进行处理中,所采用的方法已经有多种,但基本流程比较类似,可以简单概括为:数据采集、数据导入与预处理、数据存储、数据分析与挖掘、结果可视化呈现等。根据前文中所阐述的云计算特点,本着实现云计算效能最大化的考虑,可对云计算技术与大数据技术支持下的图书馆服务架构进行划分,如图1中所示,可以发现,该架构中包含了多个层次。根据图1中所示,服务架构中的数据存储层,主要解决的问题是数据量与异质异构等综合性问题;而架构中的数据处理层,则对大数据进行快速、高效的处理,数据分析层则实现大数据的深入分析与挖掘。这三个层次之间彼此配合,就可以实现图书馆大数据服务应用的价值最大化。下面对这三个不同的层次进行详细的介绍。
4.1图书馆大数据存储
网络条件下的云存储主要包括两种部署方式,分别是:私有云和公有云。其中,公有云的部署方式,其可扩展性与灵活性也更加优化。实际应用中,可以通过混合式的云存储模式,来实现图书馆大数据的管理,应用效果表明,混合存储方式可以在与图书馆现有的基础性设施进行整合,使得图书馆中大数据的存储效率得到全面提升。具体而言,就是在实现图书馆大数据的存储过程上,针对图书馆经营管理中的各种内部数据,主要通过私有云存储来实现,还可以依托局域网环境的高速传输性能,有效提升所存储的数据在上传、下载与访问过程中的速度;这两种存储模式中的数据中心与公有云服务器之间还可以进行连接。更具体的是,图书馆中所存储的书目数据、各类开放型的数据资源、备份数据等则更倾向于公有云的方式进行部署,而图书馆服务中所积累的业务数据、用户灵气、自建数据库等资源则适用于通过私有云方式来进行存储管理。
4.2图书馆大数据处理
图书馆大数据的存储,主要依托分布式的存储来实现;使得数据处理过程更加复杂;同时,大数据的海量数据特性,也对数据处理的时效性产生了新的要求。所有这些,都是图书馆服务架构中的数据处理層,需要有针对性的进行解决的问题。而运行于传统图书馆领域的自动化管理系统,已经与大数据处理中的各类需求相适应,也就促使云计算成为解决此类问题的最佳途径。比如,在Map Reduce处理技术中,其关键的数据处理方式就是先分后合,其中,Map对应于分解过程,可以将海量的业务数据划分成多个不同的部分或层次,并将其分配到其他处理器完成处理过程。已有的应用实践表明,图书馆大数据中的多种数据分析操作,如资源利用率分析、用户行为分析等,都可以通过Map Reduce来完成计算过程。
4.3图书馆大数据分析
应该重点说明的是,大数据环境下,最重要的资产还是所存储与积累的数据,利用大数据处理、分析与挖掘等综合技术,发现潜藏在大数据中的价值,则成为大数据应用的最终目标。所有的大数据应用的目标都是数据背后所潜在的价值,所以,在很好地解决图书馆大数据的存储与处理环节所存在的问题后,就需要利用高效、准确的大数据分析技术,还获取大数据中所潜在的、有价值的信息与知识。在传统的数据分析方法中,图书馆领域能够加以利用的方法也有多种,如:调查统计、样本分析、文献计量、引文分析、共现分析等,这些分析方法更多地针对结构化的样本数据。不可否认,大数据的分析与处理过程离不开专业技术的支持,而云计算技术则可以满足大数据分析的各类需求。其实,在大数据的分析中,还可以采用混合云技术,就是在对数据的原始分析环节,可通过公有云基础设施还完成;而通过私有云组件,将经过处理后所得到的有用数据与信息存储到图书馆内部,这样,不仅可以保证整个分析过程的高速度,还可以确保数据使用的安全性。在众多对大数据进行处理与分析平台中,Hadoop已经成为应用最广泛的平台,该平台能够在对网络页面浏览日志、操作日志等非结构化的数据,以及包括多媒体文件与社交网络在内的非结构化数据的深入分析,得到潜藏在数据背后的有价值信息;因此,可以利用Hadoop平台中所提供的多种具体方法来实现大数据中非结构化数据的高效处理与分析。
5结束语
其实,在图书馆服务行业,采用云计算与大数据等先进技术实现服务的优化,是一个比较漫长的技术创新与积累过程,还应该构建起实现大数据服务的各项条件,建立起适用于图书馆领域的大数据服务应用与保障机制。本文中,在对云计算与图书馆大数据服务理念进行详细说明与介绍的基础上,对云计算和大数据相关技术与图书馆服务的整合应用进行深入分析,给出了基于云计算环境下的图书馆大数据服务体系架构。
参考文献
[1]何胜,熊太纯,周冰等.高校图书馆大数据服务现实困境与应用模式分析[J].图书情报工作,2015,(22).
[2]董克,陶艳.基于内容挖掘的国际大数据研究主题分析[J].图书情报知识,2016,(01).
[3]李艳,吕鹏,李珑.基于大数据挖掘与决策分析体系的高校图书馆个性化服务研究[J].图书情报知识,2016,(02).
[4]马晓亭.基于用户服务价值的图书馆大数据价值分析与服务质量保证研究[J].图书馆,2014,(05).
[5]王春华,李维,文庭孝.我国图书情报领域大数据研究热点分析[J].图书情报知识,2015,(04).
[6]张兴旺,李晨晖.数字图书馆大数据知识服务体系协同设计研究[J].图书与情报,2015,(03).endprint