康春鹏+杜蕊
基金项目:本文系北京高校图书馆研究基金项目“物联网技术在未来图书馆中的应用研究”科研成果之一。
作者简介:康春鹏(1983-),男,讲师,博士研究生,研究方向:信息化理论与实践,发表论文10多篇。•理论探索•
〔摘要〕本文首先分析了“大数据”的概念和特征,然后分析了在大数据时代,图书馆在数字资源建设和各项服务方面将会迎来新的发展机遇,但大数据也会对图书馆的基础设施、馆员素质、读者服务、版权保护、信息安全等方面的发展提出挑战。最后,图书馆必须顺应时代发展潮流,提前制定大数据战略,加大人才的培养和引进力度,更加关注特色资源的建设,引进或者研发数据挖掘和分析的工具,加强用户研究与交互数据的利用,以便让图书馆在新的历史阶段焕发光彩。
〔关键词〕大数据;图书馆;数据分析;数字资源
DOI:10.3969/j.issn.1008-0821.2014.05.009
〔中图分类号〕F2507〔文献标识码〕A〔文章编号〕1008-0821(2014)05-0047-03
The Opportunities and Challenges of Library Based on the Big DataKang Chunpeng1Du Rui2
(1.Library,Beijing Youth Political College,Beijing 100102,China;
2.Cadre Training Office,Beijing Institute of Education,Beijing 100120,China)
〔Abstract〕The concept and characteristics of the big data are analyzed in this paper.In the era of big data,some new development opportunities will not only come to the library in the digital resources construction and various services,but also it can bring great development challenges to the library,such as the information infrastructure of library,the librarian quality,the reader services,copyright protection and information security and so on.Finally,the library must be smooth the trend of the times.Big data strategy should be formulated advancedly.Train the human resource and bring the talented person.Make more attention to the construction of special resources.Introduce or develop the data mining and analysis tools.Strengthen research and user interactive data utilization.Through these measures,it can make the library more and more hommization.
〔Keywords〕big date;library;data analysis;digital resources
大数据(Big Data)是一个继Web20和云计算之后的又一个热门词汇。随着物联网和云计算技术的应用,一个大规模生产、分享和应用数据的时代正在逐步开启,它将给技术和商业带来了巨大的变化,也将会改变我们生活和理解世界的方式。数据如果只是存储起来,那它永远都是一堆没有意义的数字,但是如果利用技术手段重新认识数据价值,全面剖析数据从产生到挖掘,最后被消费的整个过程,只有让数据发出声音,才能让数据为大众服务。因此,大数据的发展,既包括科学问题,也存在产业价值和经济价值问题。
图书馆作为一个知识社会中的信息知识服务中心,近年来,随着物联网等信息技术在图书馆的应用,使得图书馆逐步从一个文献中心转向成了一个数据中心。因此,大数据在图书馆知识集聚、知识创造、知识存储、知识组织和知识服务等方面有着广泛的应用。利用大数据技术去挖掘、识别、组织和分析隐含在读者行为中的结构化、半结构化的数据信息,探寻读者的隐性需求进而改进图书馆的服务,进而达到资源、服务与读者需求的最优化配置[1]。
1什么是大数据
2011年5月,麦肯锡咨询公司(Mckinsey and Company)发布了《Big data:The next frontier for innovation,competition,and productivity(大数据:创新、竞争和生产力的下一个前沿领域)》报告[2],首次提出了“大数据”的概念,即“大数据”是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。该定义有两方面内涵:一是符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;二是不同部门符合大数据标准的数据集大小会存在差别。
如今,随着物联网技术、移动互联网的发展,数据的收集也呈现了井喷,大数据的特征从最早的“3V”(Variety、Velocity、Volume)发展到“4V”(Variety、Velocity、Volume、Value),而如今更是呈现出“4V+1C”(Variety、Velocity、Volume、Value、Complexity)的特点[3]:(1)种类多(Variety),大数据包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式各有不同。(2)容量大(Volume),伴随着多媒体、社会媒体以及物联网的发展,从而带来数据呈现指数级的增长,通过各种设备产生了大量的数据,PB级别是常态。据麦肯锡估计,全球企业2010年硬盘上存储了超过7EB(1EB等于10亿GB,相当于美国国会图书馆中存储数据的4 000多倍)的新数据,消费者在个人电脑等设备上存储了超过6EB的新数据。(3)速度快(Velocity),因为需求的瞬息万变,使得数据处理必须具有时效性和快速性,同时数据分析和处理的模型也必须快速变化。(4)价值高(Value),单条数据并无太多价值,但庞大的数据量蕴含着巨大财富,通过对数据进行融合和分析,会挖掘出很多新的业务信息。(5)复杂性(Complexity),要从海量的数据中提取所需要的信息,处理和分析的过程非常复杂,难度十分大。
如今,数据已经成为可以与物质资产和人力资本相提并论的重要的生产要素。大数据可以发挥重要的经济作用,不但有利于私人商业活动,也有利于国民经济和公民。数据可以为世界经济创造重要价值,提高企业和公共部门的生产率和竞争力,并为消费者创造大量的经济剩余。同样,大数据与图书馆结合也将会对图书馆带来巨大的发展机遇和颠覆性的挑战。
endprint
2文献综述
随着“大数据”概念的提出,“大数据”已经成为国内学术界的一个研究热点。在中国学术期刊网络出版总库(CNKI)中搜索“大数据”,截至2013年10月20可以得到5 077条结果。但是检索“大数据+图书馆”,则只能获得64条相关结果,其中中文核心期刊论文仅为29篇,这从一个侧面说明,大数据的研究在国内图书馆界还只能算是刚刚起步。从这方面来说,研究大数据对图书馆未来的冲击和挑战,尤其显得重要。
在国外,大数据在图书馆的应用研究比国内要早。而国内是从近一两年才开始这方面的研究。姜山(2013)等人认为利用大数据对用户偏好的分析是图书馆提升自身服务的重要手段,可以针对不同读者提供个性化服务,诸如研究动向和研究热点等的变化。但是大数据技术在图书馆的应用中也存在成本和隐私等问题[4]。王天泥(2013)认为大数据带来了丰富的数据资源、专业的数据分析技术、新的解决问题思维方式和广阔的合作视野,重点探讨了大数据时代的数据资源与人才建设两大知识咨询服务发展的驱动因素[5]。郭自宽(2013)等人对大数据管理中的关键技术进行了分析,给出了大数据生态系统在图书馆中的软硬件一体优化集成的综合解决方案[6]。张文彦(2012)认为在大数据时代,图书馆将在数据存储、数据挖掘、数据分析等方面面临着巨大的挑战与考验,复杂数据的处理也将成为大数据时代图书馆发展的主旋律,通过对数据的分析探寻图书馆服务的模式、未来发展趋势[1]。杨海燕(2012)认为大数据会让图书馆的数据处理及服务发生显著变化,从数据中去分析和挖掘其潜在的价值将成为图书馆的主要业务[7]。
3大数据给图书馆带来的机遇
随着大数据的到来,各种数字资源成倍增长,一定会给图书馆的发展带来新的机遇。因此,提前把握好大数据的发展趋势,一定会促进图书馆在资源建设和服务水平上的提升。
31丰富数字资源内容
随着信息技术的发展,图书馆所处的信息环境发生了很大变化。过去很多纸质版的图书资源都被数字化加以存储,如地方志、甲骨文、二十四史、四库全书等资源均已数字化,方便读者使用。资源数字化已经成为大数据时代的基本共识,也是图书馆能够在信息时代继续生存和发展的基本要求。截至2011年底,国家数字图书馆数字资源总量已达5613TB,到“十二五”末,国家图书馆数字资源总量要达到1 000TB,与2010年底的480TB相比翻一番;每个省级数字图书馆可用数字资源量将达100TB,每个市级数字图书馆可用数字资源量达30TB,每个县级数字图书馆可用数字资源量达4TB。
32创新图书馆服务
大数据将在知识服务方面给图书馆服务带来创新。主要用以下几个方面:(1)可以通过对以往数据分析、预测及智能辅助决策技术建立具有自身机构特色的、科学的及使用的风险模型。通过对特定人群读书行为的分析,可以构建数字资源采购及应用评估风险模型,通过这个模型来预测读者喜欢的图书类型,在图书资源采购的时候就能做到有的放矢;(2)通过分析图书馆软硬件资源、信息资源等的状况来建立数字图书馆信息安全风险评估模型,可以用来预测可能发生的网络攻击、软硬件故障、信息服务需求障碍等事故,可以帮助图书馆及早制定相应的应对策略;(3)利用大数据技术构建新型知识服务引擎,如何从海量的数据中找到用户所需要的数据,这就是新型知识服务引擎需求解决的问题。因此,新型知识服务引擎除了一站式搜索引擎以外,还应该具备点对点式的资源及服务推荐引擎、知识服务社区实体(包括用户及资源)行为智能分析引擎、用户知识需求预测引擎及多维度信息资源获取、组织、分析及决策引擎。(4)随着互联网资源的开放和多元化,加上图书馆人才的流失,使得用户逐步弱化了图书馆的价值,用户流失严重。利用大数据技术则可以通过数据了解用户的行为、意愿和需求,更可以利用数据对用户的科研提供帮助,创新服务内容,从而应对图书馆的发展危机[8]。
4大数据给图书馆带来的挑战
大数据在给图书馆带来发展机遇的同时,也会给当前图书馆各个方面带来的冲击及挑战。因此,对大数据带给图书馆读者服务的影响与挑战进行大胆的假设分析与小心论证将十分必要。这种分析为物联网技术在图书馆建设普及之时,提前做好准备与发展对策。
41信息基础设施的挑战
信息基础设施主要决定了图书馆的存储能力和计算能力。在数据存储方面,存储能力的增长远远落后于数据量的增长,数据量及非结构化数据的迅速增加,使得存储及计算规模不得不随之增大,在导致其成本急剧上升的同时,对于计算机集群的维护也带来了挑战[4]。在数据计算能力方面,需要拥有经济高效的存储与计算能力,足以获取、存储和分析TB、PB级别的数据,并拥有足够的智能分析能力来减少数据足迹(如大数据压缩、自动数据分层及重复数据删除等)。总之,不管是高存储容量还是高计算能力,归根到底都是对图书馆软硬件基础设施提出的挑战。
42馆员素质的挑战
馆员作为图书馆人力及智力基础设施,高素质的图书馆员也是图书馆大数据研究及处理最值得期待的挑战之一。由于历史的原因,人员来源的复杂性造成了图书馆员的科学文化素质参差不齐。近年来,虽然这种现象已有所改观,但是很多图书馆还是面临着馆员素质不高或者高素质人才难以留下的难题。随着大数据时代的到来,图书馆的传统服务已经逐步向数据分析、数据挖掘等知识服务方向转移。图书馆数字资源的扩展、服务质量的提升,不仅是对图书馆提出的挑战,也是对馆员素质提出的挑战。总之,人才是大数据时代中未来图书馆的基础,没有人才作为保障,就枉谈“大数据”及“智慧图书馆”。
43读者服务的挑战
大数据时代下读者服务的方式、途径和模式等都会随着技术的进步和用户服务要求的变化而变迁。图书馆的服务策略可以经过大量用户行为数据的采集、组织和分析而得到。因此,这种服务可能更具有针对性,服务手段和方式也会更个性化,可以随着用户的需求和图书馆服务策略的调整而及时变化。未来图书馆在做好文献服务、信息咨询等传统服务的同时,可以向信息处理和数据分析等知识服务方向扩展[9]。
44版权保护的挑战
在无处不数据的时代,如何去鉴定这些数据的版权,是当前面临的一个难题。互联网的精髓是“开放与分享”,但是数字资源的占有、分配、使用权限的控制却分别归属于社会各利益集团。因此,数字资源在图书馆的传播受限于各种专有权,尤其是在大数据时代,图书馆对传播中的数字资源的归属权的有效鉴别不仅是对自身利益的维护,也是对资源生产企业劳动成果的尊重。
45信息安全的挑战
在网络空间,大数据由于其目标大和攻击成本低等因素,使得其容易成为网络攻击的目标,进而也大大加大了隐私泄露的风险。因此,大数据时代应该在软硬件基础设施中要加大对网络安全的投入,建立基于大数据的信息安全风险评估模型,对潜在风险进行预测。同时也要加大对用户信息的保护,大数据时代用户可以更方便的获取自己所需要的服务,但是其个人身份信息、偏好等数据也容易被获取,个人隐私的泄露与滥用的可能性也会增大。
5大数据时代图书馆的应对措施
古人曰:“凡事预则立,不预则废”。大数据时代已经来势汹汹,我们在预见其带来的机遇与挑战的同时,也要心中有数,做好相关的应对措施。笔者认为,应对大数据的到来,应该是一个多方面协调发展和准备的过程,在这个过程中应该有学校的支持和图书馆的努力。其主要应对措施有以下几点:
endprint
51提前制定大数据战略
根据图书馆的发展趋势,制定未来发展的战略规划,一个现代化的图书馆设施可以一步到位,但是科技是发展的,今天很先进的设施,过几年就会落后,因此,在建设规划的时候,一定要注重基础设施的可兼容性和可扩展性。对主要的信息基础设施、服务领域等一定要提前制定大数据战略规划,从而可以协调构建大数据知识服务纲要,探索大数据体系构建模型、业务模型、知识服务模型及技术模型等。
52加大人才的培养和引进力度
对已有人才进行信息素质培训,在思想意识形态、技术、服务理念、服务技能、业务能力、信息素质和信息能力等方面进一步提高,树立嵌入式知识协作、合作交互、服务创新等新型知识服务理念。同时大力引进数据挖掘、数据分析与数据管理方面的人才,为未来图书馆大数据体系构建提供所需智力储备。
53更加关注特色资源的建设
近几年,随着信息文化产业的发展,数字资源种类也越来越多,但是资源的同质化现象也越来越严重,使得不同大学之间的数字资源也逐渐趋于同质化。大数据时代,应该更好地利用数据挖掘、数据组织和分析的技术,围绕本校特色学科优势进行专题数据采集,建立特色数据库,并对其数据实施更新。
54引进或者研发数据挖掘和分析的工具,加强用户研究与交互数据的利用通过用户数据和网络社群数据,建立用户使用偏好模型,从中分析提取有价值的信息,针对不同用户提供不同的服务,提升个性化服务水平,开展跟踪服务、精准服务、知识关联服务,进而可以改进用户体验,提高服务质量。
参考文献
[1]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012,(5):37-40.
[2]Big data The next frontier for innovation competition and productivity[EB/OL].http:∥www.mckinsey.com/Insights/MGI/Research/TechnologyandInnovation/BigdataThenextfrontierforinnovation,2011-05.
[3]大数据时代的特点[EB/OL].http:∥www.5lian.cn/html/2012/xueshu0417/32237.html,2012-04-17.
[4]姜山,王刚.大数据对图书馆的启示[J].图书馆工作与研究,2013,(4):52-54.
[5]王天泥.知识咨询:大数据时代图书馆的知识服务增长点[J].图书与情报,2013,(2):74-77.
[6]郭自宽,张兴旺,麦范金.大数据生态系统在图书馆中的应用[J].情报资料工作,2013,(2):23-28.
[7]杨海燕.大数据时代的图书馆服务浅析[J].图书与情报,2012,(4):120-122.
[8]樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012,(11):63-68.
[9]张兴旺,李晨晖,秦晓珠.构建于廉价计算机集群上的云存储的研究与初步实现[J].情报杂志,2011,(11):166-171.
(本文责任编辑:马卓)
endprint