(兰州商学院图书馆 甘肃兰州 730020)
信息技术的发展与信息设备的普及使用,使得人们日常行为所产生的大量复杂数据都有可能被记录与分析,进而根据深度的智能挖掘分析产生对未来的预测与分析,沃尔玛的“啤酒+尿布”经典案例〔1〕就是从大量的顾客非结构化数据中分析得到的。这类复杂的数据就是大数据,随着其所隐藏的世界越来越被人们所认识和感兴趣,大数据引起了世界的重视,被誉为是未来的石油与黄金,美国政府也于2012年3月29日拨款2亿美元推行“大数据的研究和发展计划”〔2〕,如同乔治·布什将网络信息化上升到国家战略高度一样,奥巴马政府也将大数据上升到了国家战略高度,并将世界带入到大数据时代。在这一时代,复杂数据的产生与保存、分析等将对以信息保存、开发、利用为己任的图书馆服务提出挑战,如何利用大数据技术去挖掘、识别、组织与分析如隐含在用户行为中的结构化、半结构化数据信息,寻找他们的隐性诉求进而改进、拓宽图书馆服务,并对图书馆的服务趋势需求进行预测,达到图书馆资源、服务与读者需求的双向理想控制已成为大数据时代图书馆的研究选题。本文在对大数据带给图书馆的影响与挑战分析基础上,重点对大数据时代图书馆的服务创新进行了分析。
2011年5月,麦肯锡在《大数据:创新、竞争和生产力的下一个前沿领域》〔3〕报告中指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”,首次提出了大数据概念。之后,业界对大数据进行了多个定义,但截至目前还未形成统一,只是对大数据的认识达成了一个共识,即:大数据的“大”不是只代表海量,复杂化、多样化且极具价值也是其属性。为此,IDC总结了大数据具有的“4V”特性,即种类多(Variety)、流量大(Velocity)、容量大(Volume)和价值高(Value)〔4〕。大数据的这些特性也决定了其隐藏的深刻理念,具体如:①数据的深层分析与价值挖掘是大数据时代信息界的主要业务。②数据的形态多样且富有价值。③数据的处理将形成新的产业。
大数据的这些特点与隐含理念,都说明了大数据将改变目前的IT架构,与大数据分析在数据对象、运用技术、价值去向等方面都有许多共同之处的图书馆必将在这一大时代产生巨大的变化。首先,图书馆的服务质量提升需大数据的支持。大数据时代,图书馆间的竞争不仅仅是馆藏资源、建筑空间、服务水平的竞争,大数据的拥有量及对庞大的各类数据的挖掘与分析能力将成为大数据时代的图书馆竞争的一大关键指标,图书馆的发展策略制定将依赖于对大数据的分析与预测。其次,大数据将成为图书馆的核心资产。随着人们对大数据价值认识的日渐首肯与业界对大数据分析技术的日渐成熟,大数据将变得越来越有价值,大量的如读者借阅习惯、服务消费痕迹等能为图书馆的未来发展、服务模式进行趋势分析、发展预测提供支撑的大数据都将成为图书馆的核心资产。再次,大数据处理为图书馆带来机会与挑战。大数据要求图书馆不仅需要通过结构化数据了解现在客户享受了哪些图书馆服务,也更需要利用大量的非结构化数据、半结构化数据在图书馆-用户的服务关系中去挖掘正在发生什么、预测和分析将来会发生什么,以便图书馆找到更好的服务营销模式应对未知的危机及挑战〔5〕。
大数据时代,图书馆的核心竞争力不仅仅是文献数据信息的竞争,多类数据的拥有、融合、挖掘与利用水平才是图书馆行业间竞争的关键因素,加强对多类信息资源的采集与拥有也因此将成为大数据时代图书馆资源建设的一大内容。同时,大数据时代的图书馆服务所需的数据量也是目前拥有的所想象的,这些所需的数据中既有当前图书馆正在建设的文献资源、数字资源、网络资源,也有目前图书馆还无法进行或暂时没有建设的非结构化数据,如用户信息行为数据,这类目前还未完整收集的用户行为等非结构化数据将极具价值,很多的图书馆服务只有对大量的用户数据挖掘、分析才能得出图书馆所需的决策参考。
信息时代,人们的日常信息行为日益频繁,不管是生活还是工作、娱乐、社交,都无法避免地在多种多样的信息系统中留下各种信息行为数据,将这些散落在多个系统间的数据进行整合与分析,会再现一个社会个体的运行轨迹和发展全景,这也就是大数据分析。目前,在素有“印度硅谷”之称的印度班加罗尔已有超过100家以数据分析为主要业务的新型数据公司,如Analytic Edge、Zinnov以及自称是全球最大的专业性数据分析公司的Mu Sigma〔6〕。据印度全国软件与服务企业协会(Nasscom)〔7〕2012年的最新预计,印度大数据行业规模在三年内将达到12亿美元,是当前规模的6倍,同时还是全球大数据行业平均增长速度的2倍。全球大数据行业的规模预计将在3年内从82.5亿美元增至250亿美元。大数据分析的发展前景可谓巨大诱人。
对图书馆来说,在大数据时代要想在激烈的市场份额竞争中争得一席之地,避免边缘化,开展必要的大数据分析服务显得必不可少。图书馆开展的大数据分析服务业务,主要可以有以下几种:首先是图书馆自身建设所需的大数据分析。这类分析一般以图书馆的现有数据位对象进行分析,如读者的借阅方式、行为爱好等,是一种对现有资源的分析与挖掘;其次是客户即读者所需的大数据分析。这类分析业务类似于当今图书馆为企业等客户群体所做的信息情报参考、竞争情报分析,但也有着很大的区别,如对于分析对象数据的不同、分析手段的不同、分析目的的不同等,这类分析业务所依靠的大量数据可能并非图书馆所拥有,从而成为限制该项业务发展的瓶颈,如何解决此类服务的数据问题是突破该瓶颈的关键。
挖掘大数据的价值与隐藏在其背后的世界,简单的定性、定量分析都不能发挥作用,技术工具的作用将得到进一步放大。因此,图书馆对技术、工具的应用需求也将更为迫切,这也对图书馆的技术应用水平提出了新的要求。《大数据:创新、竞争和生产力的下一个前沿领域》报告中不但首次提出了“大数据”的概念,还对大数据的分析技术与工具进行了列举,如目前已为广大图书情报研究者所熟知的聚类分析、数据挖掘、网络分析、可视化分析、数据融合与数据集成等。特别是聚类分析、可视化分析与数据挖掘技术。但这些现有的研究目前仅仅只是针对结构化数据和有限数量的关键词进行聚类分析、共现分析等,并不能真正挖掘大量负责数据的存在与表现形态,更不能通过这些分析去预测未来的可能发展趋势。当然,大量网络社交等信息行为产生的大量非结构化数据、半结构化数据也让许多学者开始思考去采集和利用这些信息,如苏玉照等人〔8〕就认为如果能够采集到Web日志的数据,就能很好地满足发现关联规则、内容分类和用户聚类的需求,从而能提高个性化推荐的精度,进而对定制Web日志的数据模型、过程及方法进行探索。
大数据背景下的图书馆服务,对技术将提出更高的要求,服务的智能化程度也将达到一个新的水准。首先,从图书馆主体本身来看,图书馆应用智能化技术进行自动的高级、复杂的数据收集及处理工作,既能在一定程度上节省大量的人力物力,也能解决人工可能无法实现的工作需求,如对海量信息数据的智能抓取、关键词抽取等,使得节省下来的大量人力去研究图书馆建设的策略与更进一步的智能化投入。其次,从图书馆的服务对象——读者来看,服务内容、手段的智能化程度提高与智能化技术、工具、平台的服务实践,所需的图片、视频、文本等信息将能轻易获取,个体的信息如社交信息、生活数据等大量的非结构、半结构化数据也都能为图书馆的智能化决策提供分析参考。再次,从智能化服务中的知识流通来看,图书馆服务智能化程度的提高不但有利于知识从单个主体拥有向多个主体拥有的流通与传播,有利于隐性知识向显性知识的转变,也有利于知识的发现、挖掘与组织。
图书馆服务是其价值体现的核心,也是其存在的价值与意义所在,技术的发展与社会的进步都为图书馆服务的发展注入了新的活力与动力,图书馆多年来的服务证明图书馆总是能抓住发展机会,满足用户日益增长的文化需求。但大数据时代的来临,带给图书馆的不仅是机会,更是挑战,技术的开发与运用、数据的集成与处理、人才的培养与管理等都是大数据时代图书馆无法回避的问题。今天,图书馆不但面临着极高的大数据跨入门槛,在市场份额竞争日趋激烈的环境中,还面临着极高的管理风险,基础设施、管理体制、发展战略等都是其成功迈入大数据时代的关键因素。因此,图书馆想在大数据时代有所作为,需在对形势有清醒的认识基础上,利用大数据创新图书馆服务,提升图书馆的核心竞争力。
1.高勇.啤酒与尿布:神奇的购物篮分析.北京:清华大学出版社,2008
2.Big Data is a Big Deal.http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.〔2012-06-06〕
3.Big data:The next frontier for innovation,competition,and productivity.http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation.〔2012-08-01〕
4.IBM 公司在大数据领域占有先机.http://it.hilizi.com/server/275232/372589013274b.shtml.〔2012-08-01〕
5.韩翠峰.大数据带给图书馆的影响与挑战.图书与情报,2012(5):37-38
6.印度IT业迎来新生:大数据催生大批分析公司.http://www.chinadaily.com.cn/micro-reading/dzh/2012-10-08/content_7178432.html.〔2012-08-01〕
7.NASSCOM.http://www.nasscom.in/.〔2012-08-01〕
8.苏玉照,牛晓太,赵妍.提高个性化推荐精度的定制Web日志方法.图书与情报,2011(5):66-70