【摘 要】大数据数据量巨大,含有大量非结构化数据,具4V特性:大容量、高速度、价值和多类型。大数据环境下图书馆需升级基础设施;进行数据系统化、标准化建设;改变人才制度和管理体制。同时转变观念,突出共享,培养馆员的大数据分析处理能力,为读者提供有预见性的个性化服务。
【关键词】大数据;资源建设;图书馆服务
随着数字图书馆的建立和应用,高校图书馆逐步转向以读者为中心的服务模式。读者访问图书馆的同时产生了海量的各种类型的数据,包括读者行为信息,图书管理日志以及运行监控数据等。这些数据非结构化且较分散,蕴含的潜在价值需要去挖掘。同时不断增长的海量数据对图书馆存储基础设施也提出了严峻的挑战。
一、大数据(Big Data)概念
(一)大数据的提出
信息技术特别是互联网的飞速发展产生了大量数据,一部数字化电影就有数GB,单个数据库可达TB,甚至PB(1024TB)量级。IDC预计到2020年,全球将总共拥有35亿GB的数据量[1]。2011年5月麦肯锡公司发布《Bia Data:the Next Frontier for Innovation》报告,首次提出了“大数据”概念。大数据一般指达到PB量级的各种数据的集合,具有4V特性:容量(Volume)、速度(Velocity)、价值(Value)和类型(Variety)。即数据量巨大;数据处理速度快;蕴含潜在的价值转化;数据类型复杂多样[2]。
(二)图书馆的大数据
高校图书馆在长期的积累下馆藏信息资源已有相当规模,服务理念和模式也几经改变。数字图书馆的发展使数字化数据急剧增长。高校图书馆收集有大量文献信息资源,读者多样且众多,使得图书馆必然面临大数据的产生与存储应用。在数据规模、数据结构、服务模式等多个方面,当前图书馆正面临着巨大的挑战[3]。2012年上海国际图书馆论坛在国内图书情报界首次引入大数据理念。PB级别非结构化数据的处理应用需要发展新的技术和模型,图书馆现有的数据库、数据分析与挖掘技术难以对大数据进行有效的加工处理。大数据是图书馆的挑战同时也是机遇。借助大数据技术实现数据的系统化、标准化建设,可充分利用图书馆馆藏信息资源优势,促进图书馆的良性发展。
二、大数据环境下高校图书馆信息资源建设
(一)升级基础设施
数据信息的产生速度大大超出了我们的想象。大数据数据量巨大、高速、类型多样化的特点,需要对现有存储基础设施进行升级来满足大数据运转要求。服务器计算能力要强,可预留3年左右冗余计算能力,采用SMP服务器并可分布式联机扩展。存储系统应具有热拔插、容错和可扩展能力,如采用SAN存储技术。网络布线以光纤为主干。可扩展性,分布式为重点,设定一定的冗余以应对数据量的增长,满足大数据分析处理、挖掘等运转的要求。
(二)数据系统化、标准化
大数据不仅数据量巨大,还具有非结构化的特点。要对高校图书馆非结构化数据迅速增长的情况给予足够重视。通过完善数据存储系统,构建新的文件系统,实现数据的系统化、标准化建设。在数据利用方面,对现有资源数据,采用回归分析、聚类分析、特征分析等技术进行数据挖掘,充分利用现有数据价值。数据分析中SQL可重复,高度结构化,兼容性好,适用于各种数据库结构,是分析结构化数据的普遍方法。但SQL较繁琐,效率低。分析大容量数据可采用基于分布式架构的Hadoop工具。Hadoop效率高、 扩展佳、可靠并且可容错,应用广泛,是开展大数据分析的较佳选择。
(三)人才制度和管理体制的改变
大数据的有效利用离不开管理制度的支持和人员的引进和培养。大数据是新兴的理念,需要对馆员进行培训来理解什么是大数据,如何认识大数据,如何利用大数据,破除对大数据的神秘感。对大数据的加工利用则需要培养和引进具有扎实的大数据加工处理技术的高素质馆员。在制度上要完善业务流程、转变服务理念以及考评机制,给予大数据相应地位,重视对大数据的开发利用,利用大数据改善读者服务,提高服务效率。
三、图书馆服务的影响
(一)提供个性化服务
大数据时代信息获取渠道的多样化使图书馆地位受到挑战。图书馆馆员应在工作中转变服务方式,牢固树立个性化服务的信念,满足读者差异性需求。同时要通过大数据处理技术分析读者阅读习惯,针对读者个人专业、科研和教学等方面进行需求趋势预测并推送给读者作参考。图书馆咨询服务已不仅局限于查询信息与反馈信息,要求图书馆馆员能够提供综合性强的个性化信息。由图书传递向信息服务甚至向知识服务转变[4]。
(二)转变观念,突出共享
突出互联网思维,转变观念,建立共享意识。高校图书馆由于从属于各个高等院校,一直以服务本校师生为主,普遍缺乏共享意识。首先要明确高校图书馆资源是全社会共有的,理应全社会共享。通过参加高校联盟,开展CALIS和BALIS服务等方式将各自的馆藏资源共享,提高利用率,减少浪费。
(三)大数据处理分析能力培养
经过数字图书馆的建设和应用,信息网络技术的应用实践,高校图书馆馆员的计算机操作技能有了很大提高。但对大数据普遍没有意识,更缺乏利用能力。大数据时代,云计算技术使得数据处理方便高效,从大数据中获取到有用的信息并且充分利用日益重要。对馆员开展定期培训,树立大数据理念,掌握并熟悉数据分析、挖掘工具的使用,利用分析結果有针对性地改进服务,积极主动为读者提供有预见性的个性化服务。
结 语
高校图书馆是人类各类文献信息资源的集中存储中心。信息网络技术产生并广泛应用后,越来越多的数据库、知识库、教育资源向互联网开放,数字资源极大丰富。信息资源获取渠道多元化趋势日益明显,高校图书馆的资源中心地位日趋弱化,高校图书馆要抓住大数据时代的机遇,利用馆藏信息资源优势,积极研究对图书馆大数据的开发利用,牢固树立共享服务观念,更好为读者提供服务,提高信息资源利用率。
作者简介:屈劲风(1970-),男,北京市人,民族:汉,职称:馆员,学历:本科,单位:北京联合大学图书馆,馆员,研究方向:图书情报。
参考文献:
[1]云计算环境下大数据及其智能处理技术[EB/OL].[2013-07-12].http://wenku. baidu.com/view/b20357b065ce050876321384.html.
[2]李鹏云.大数据与图书馆服务[J].农业图书情报学刊,2013,(9):178-181.
[3]刘琼.大数据环境下图书馆面临的影响与挑战[J].理论观察,2013,(8):112-113.
[4]许中华.图书馆员职业道德与职业自觉刍议.信息管理,2009(1).