摘 要 论文先分析了大数据在图书馆的应用背景,继而辨析国内相关文献研究的现状与不足,再援引国外信息行业大数据的应用实例,结合国内外图书馆运用大数据的具体实践,对图书馆增值服务做借鉴式分析,最后提出大数据在图书馆增值服务中应用的新思考。
关键词 大数据 图书馆 增值服务
分类号 G252
DOI 10.16810/j.cnki.1672-514X.2017.05.×××
Abstract This paper begins with the analysis of the background of big data applied in library, then states the current situation and deficiencies in domestic related researches. Also, it quotes big data application examples in the information industry abroad, and combines with the practice of using big data in the value-added services in library to make reference analysis. Finally, it puts forward the new thinkings of the application of big data in the value-added services in library.
Keywords Big data. Library. Value-added services.
隨着移动终端、云计算、物联网等新技术应用发展,大数据被越来越多的行业认识和利用,而关于“大数据”的研究也随之成为热点。图书馆界也掀起研究热潮,多以图书馆大数据的特征、涵义、应用范围为基础,进行概念性的评述及策略研究。笔者试图援引国外信息行业大数据的应用实例,结合国内外图书馆运用大数据的实践,“以实例说数据”,对图书馆增值服务进行借鉴式的分析与探索,便于对大数据更具客观性与全面性地认识和应用,以期与业界同仁进行学习和交流。
1 图书馆大数据的应用背景
1.1 图书馆信息变革回溯
从纸本数据采集到结构化数据库的建立,图书馆的“技术革命”经历着数次更迭。几个世纪以来,图书馆人和用户一直用分类法和索引法来存储和检索纸本信息资源。索引是事先设定好的,在信息化初期,它有不可替代的功能,但不可否认在很大程度上也限制了用户的搜索范围和效率。
20世纪90年代,随着计算机数据集成系统的应用,图书馆对文本进行数字化加工,终于解决了卡片目录弊端。经过几十年的发展,信息存储和信息处理能力随着技术和带宽的提高,图书馆在文本等结构化数据的传播和服务方面,与以往相较已不可同日而语。但随着互联网、智能便携终端和云计算技术的发展,数据量以前所未有的速度增长,“大数据”应用而生,图书馆将不可避免地迎来“大数据”时代。
1.2 大数据应用的现实背景
“大数据”并非一个确切的概念,它是指需要处理的信息量过大,超出一般电脑处理数据所使用的内存量,必须改进处理数据的技术。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念[1]8。图书馆界对其特点有过详尽论述,此处不再赘言。笔者认为就图书馆而言,大数据应用的现实背景是“量变”与“质变”,即数据量的剧增和数据结构的变化。
1.2.1 数据的质变与量变
以谷歌为例,每天处理超过24PB字节的数据,处理的数据量是美国国家图书馆所有纸质出版物数据量的上千倍。南加利福尼亚州的马丁.希尔伯特通过对书籍、图片、电邮、照片、视频、游戏、导航等数据增长量和速度的长期研究发现,2007年全世界所有数据中只有7%的模拟数据存储在报纸、书籍、图片等媒介上,其余全部是数字数据;数字数据的数量每三年多就会翻一倍,而模拟数据的数量基本上没有增加[1]11-12。人类存储信息量的增长速度比世界经济增长速度要快4倍,计算机处理速度则是世界经济增长速度的9倍[1]13。这些数据量和结构的变化必将与现实冲突,在拥有海量、参差不齐的数据后,如果无法揭示数据间的相关关系和潜在价值,很多行业的普遍规则和方法将不再适用。
1.2.2 图书馆知识增值服务面临的问题
《大数据时代》作者维克尔指出:“大数据时代的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。[1]”
图书馆目前使用最普遍的数据库查询语言是结构化语言,而适用于传统数据库的结构化数字数据只有5%,剩下的95%的非结构化数据都无法被利用,如网页与视频资源[1]64。这就意味着图书馆面对汹涌而来的图像、视频和音乐等非结构化数据的转化、分析、应用将会停滞不前,导致服务的贬值和落伍。如何转变思维,把控新技术的脉搏,有效利用大数据为服务增值,重塑知识“领跑者”的形象,图书馆界也给予了关注,并在积极思考。
2 图书馆大数据研究的现状与评述
2.1 研究现状与作用
笔者以“图书馆”+“大数据”为检索词,采用系统分析法、文献阅读法,通过检索超星发现学术论文数据库、中国知网期刊全文数据库,对2006年至2016年2月近十年图书馆有关大数据研究的文献进行检索发现,作为新兴的信息技术,大数据在图书馆界的研究2006年初现端倪,从2013年起呈逐年上升趋势,到2015年达到“井喷”状态。图书馆对大数据的研究主要以大数据的基础理论、给图书馆带来的机遇与挑战、对图书馆服务创新的影响、图书馆的应用策略及其他相关问题等作为主题,其发展趋势如图1所示。同时,在对知网期刊全文数据库论文主题统计中显示,应用策略、服务创新、基础讨论、机遇挑战研究及其他分别占比为28%、25%、23%、12%和11%。
我国图书馆对大数据的研究,正如陆静在文中所说,大数据给图书馆所带来的新机遇与挑战,开启了大数据与图书馆服务方式的创新研究,所提出的图书馆应用大数据的策略,可以说对图书馆实施和推动大数据应用,有效开展服务创新提供了崭新思路,对图书馆提升服务有较大的理论价值和现实指导意义[2]。
2.2 研究中存在的问题与不足
总结近年来图书馆界对大数据的研究,虽然研究的论文数量激增,不仅有大数据的单一理论研究,还呈现出视角多样化、多元化态势,开展了多学科的交叉研究,但“重理论、轻实践”的问题突出应用研究比较缺乏。笔者就研究内容发现,目前图书馆界对大数据的研究还存在如下问题:第一,理论架构多有雷同,如诸多文章大幅对大数据的涵义、特征加以描述,其内容照搬前人基础,重复太多;对大数据带给图书馆机遇与挑战的论述,缺少独立的见解;第二,研究多停留于对国内外理论的宏观描述和表面探讨层次,又困于技术力量薄弱,缺乏合理的团队合作研究,没有持续增长性;第三,虽然图书馆界对大数据的研究增长迅猛,但普遍存在理论阐述多,实证实践少的状况。常此以往,会对图书馆学科发展和研究创新产生不利影响。
3 国外信息行业大數据应用实例
在大数据急速增长的进程中,一些企业早已领略它的价值与潜力,如谷歌、百度、网飞、阿里巴巴、亚马逊、腾讯和脸谱等。正是这些成功的行业典范,吸引了众多关注大数据的目光。考虑图书馆运用大数据主要为增值用户服务和促进行业发展,故援引国外相关信息产业的实例,以便明晰图书馆增值服务的效果和目标。
3.1 谷歌:从数字到数据化的发展
2004年,谷歌与全球最大、最著名的图书馆进行合作,试图将所有版权条例允许的书本内容全部数字化,此举方便了全球用户在不受时间和地点限制下查阅,不能不说是个盛举。但问题随之而来,用户需要知道要找的内容在哪本书上,并在浩瀚文字中寻找自己所需要的片断,因为这些数字文本没有数据化,不能通过检索词查找,也不能被分析。只能说谷歌拥有了海量的图像,这些图像还要依靠用户的仔细阅读、多次查找才能转化为有用的信息。
谷歌意识到只有将这些信息数据化,它的巨大作用才会发挥,因此它使用了能识别数字图像的光学字符识别软件来识别文本中的字、词、句和段落,从而将数字化图像转化为数据化文本。谷歌数字图书馆利用它所拥有的图书为数据资源,不仅可以对作者存在争议的书籍进行作品风格鉴定,还可以让学术作假行为无处藏身。
3.2 Face book(脸谱):社交化网络的再挖掘
截止到2015年6月,Face book拥有用户量约15亿[3]。通过上千亿的朋友关系网进行连接,使得Face book的社交网络更加强大。Face book社交平台的成功不仅仅是寻找朋友、建立关系的场所,它直接触摸到用户的关系、经历和情感,更将用户日常生活的无形元素提取出来,转化为数据。在它之前,社会化关系一直被当作信息存在,没有清楚地界定为数据,直到Face book“社交脸谱”的出现。
Face book对数据的进一步挖掘是“喜好”。它每天更新的照片量超过1000万张,用户在此点击“Like”按钮或写评论约有三十亿次,其意义远不是表面上看到的照片分享、上传、个人喜好那么简单,这为Face book挖掘用户信息提供了大量的数据线索;Face book还通过用户社交网络,跟踪用户的“状态更新”,以确定最佳的广告位赚取收入。
3.3 亚马逊:个性化推荐记录系统
亚马逊的销售额三分之一来自它的推荐系统,它记录用户购买过的书籍和浏览过的网页,分析个人爱好,为其提供个性化的服务,推荐具体的书籍。亚马逊总裁和创始人杰夫·贝索斯从一开始就注意从每一个用户身上捕捉大量数据,如他们购买什么类型的书,哪些书他们浏览却没买,浏览了多长时间,哪些书是团购的等等。
但在用户信息量巨大时,依据购买信息样本分析的作用越来越小。于是亚马逊通过Kindle电子书阅读器记录用户反复标注和强调的内容,书商乐意知道读者喜欢哪些段落,从而提高他的销量;作者知道哪些桥段为读者喜欢,以便提高作品质量;出版社则通过这些数据,选择出版更畅销的书籍。值得一提的是亚马逊并没有将数据转卖给书商或出版社。
除此以外,国内众所周知的行业如:百度采集用户的搜索数据,阿里巴巴采集交易与信用卡数据,腾讯采集社交数据等,对其服务的增值乃至企业的成功产生了巨大作用。
4 国内外图书馆运用大数据的实践
2012年美国著名的信息咨询公司(GARTNER)曾描述“大数据的技术目前正处于诱发阶段,进入真正实施及应用推广还需要2-5年”[4]41。可见大数据的处理和应用仍在不断磨合中,但国内外一些研究型、大学图书馆作为“先行者”,就其应用及推进已展开实践工作,具体内容如下:
4.1 资源数据化的长期保存和建设
图书馆的数据资源比较单一,对隐藏着巨大价值的非结构化数据的收集还是空白,但有些图书馆已优先对在某一方面形成了一定规模的、结构比较完整的文献资源特别是原生资源,有系统、有组织地进行开发和整理,如美国国会图书馆的“美国记忆”项目,收集整理了照片、手稿、海报、乐谱、地图、录音、动态图像等记载美国历史文化的特藏。澳大利亚国家图书馆、荷兰国家图书馆等就原生数字资源和特色馆藏进行了长期保存[5]。我国图书馆界也开始注重结构化数据与非结构化数据的收集与丰富工作,如国家图书馆正在将云服务与关联数据结合起来,实现数字馆藏的组织和聚合,以用户需求为导向,建立超大型元数据仓储。改造建成后的数字图书馆的非结构化数据存储量将达到800TB左右[6]。
4.2 基于“个人门户”概念的个性化信息推送服务
通过“个人门户”能将图书馆最快、最有价值的信息聚集起来,真正实现用户的“一站式”个性化体验,国内外多家图书馆正在积极开展此项目。经美国研究图书学会的调查,哥伦比亚大学、加州大学圣地亚哥分校、麻省理工学院、华盛顿大学等都纷纷建立了自己的数字图书馆门户。国内有条件的图书馆也在近几年开展了基于“门户”的个性化服务,如北京师范大学图书馆Metalib+SFX统一检索型数字图书馆门户、北航图书馆搭建的TRS数字图书馆门户等[4]39。新加坡国家图书馆则采用大数据技术对持续增长的大量非结构化数据进行分析,在其门户网站上将读者最感兴趣的信息实行自动推送,目前已完成对“新加坡记忆”特色资源网站上的上万篇文章的文本分析[7]78。
4.3 架构大数据驱动下的特色资源服务平台
大数据作为一种新技术与知识服务的新工具,对其特色资源平台的内容设计、数据收集与存储,知识组织与加工等构建不容忽视。在此方面,国内图书馆以清华大学图书馆为代表,应用大数据技术为读者提供知识服务,在检索平台上综合运用多来源数据,将书、刊、文章等元数据汇聚在一起用于检索,用户通过开放链接技术定位及获取资源。国外图书馆以美国哈佛大学图书馆为代表,率先在国家公共数字图书馆中公开图书大数据并提供下载,内容包括书目数据、音频、图像、手稿等多种类型的非结构化数据,共计一千多万种[7]77-78。
5 大数据环境下图书馆增值服务相关问题探析
上述实例折射出大数据的加工、挖掘、个性化服务等方面的经验和效果,为图书馆增值服务提供了良好的借鉴。笔者在此基础上,结合对实例的借鉴分析,提出一些新的思考:
5.1 技术分析法日益增强且多样化
随着数据量的不断增长,对数据的处理能力也随之增强,大数据的重点是否在技术方面,是计划使用大数据的图书馆一直担忧和探讨的。不少业界人士认为,大数据重点是技术层面的问题,应侧重于硬件和软件,但图书馆在此方面多有欠缺。
对目前规模不等、类型不同的行业使用的大数据分析技术进行回顾和总结,可以发现,起先不同行业在不同领域采用不同分析算法,包括机器学习技术、统计学、图形识别、人工智能、数据库系统等。现在,这些技术均进化成了强大而复杂的大数据专用工具,如解决数据结构多样性的谷歌公司开发的开源式分布系统——Hadoop,它善于处理超大量的数据。
为适应新数据源不断出现的局面,一些行业在大数据应用方面采用多样化的技术分析法:线索与目标优先排序、推介服务、发展成功概率打分、风险建模、用户价值与收益率打分、用户维系与流失预测、产品与服务内容优化、消费意向分析等[8]。分析方式的多样化提示图书馆应考虑和有经验的互联网运营商、大数据服务商以大数据服务平台联盟与共享的方式,借助第三方在咨询、研发、管理和服务方面的经验,为用户提供需求预测、个性化推送、服务定制、阅读风险评估等增值服务。只有这样才能实现人、资源、技术三个要素的智慧交互与融合,才能体现图书馆大数据应用的价值。
5.2 预测能力和个性化服务是核心
随着大数据价值的显现,很多人关心的大数据运用往往与自身相关,比如购物更便捷,观影可以有更多选择性,大数据应用给自身带来更多帮助。其实无论数据量和规模怎么变化,最核心的问题还是要揭示隐藏的规律,即预测用户需要,提供更精准的服务。
图书馆在大数据背景下,若想推出富有创新精神的颠覆性的战略,就必须确立清晰的服务方向:要考虑大数据出现时会发生什么?在做大数据分析前,应了解用户最急迫的使用需要是什么?大数据经分析后,能帮助用户解决什么问题?采取什么措施和方法才最为有效?只有预先洞察到用户对哪些服务感兴趣,会做出什么选择,把握用户做决定的原因和差异,提供个性化服务,才能提升图书馆增值服务。
目前图书馆的服务策略仍采用一种“逆向思维”,在数据化要求下,当务之急是要改变传统的“接收问题—对问题进行查询与分析—提交答案—发送与跟踪”服务流程,遵循大数据的“正向思维模式”: “收集数据—量化分析—找出相关关系—预测需求—提出个性化方案”,主动改变固有的服务方式,满足用户差异性需求[9]。
通过以上方式,图书馆还可挖掘哪些用户属于行动派、哪些用户喜欢分享经验、对服务如何评价等,这将是图书馆增值服务的具体手段和途径。
5.3 大数据的潜在价值和再利用是目标
提取海量数据的价值,使其从庞大的信息库中释放出能量,这是大数据的缩影。通过大数据的应用与分析,许多行业都看到了大数据的潜在价值,极大地刺激他们进一步采集、存储、循环利用数据来寻求更多的利益。
因为社会化利用和私营化对数据的利用更有创新性,其潜在价值也往往通过这些行业的利用来释放,使得大数据的再利用大多带有商业性质。但非营利性数据的二次利用,如美国几大保险公司创立的卫生保健成本协会(Health Care Cost Institute),汇集了50亿张保单,匿名分享这些数据后,发现美国的医疗花费比通货膨胀时增长了3倍多,其中急诊治疗费上涨了11%[1]175。此種再利用目标更明确,运行透明化,且富有社会责任心,值得非盈利的公共服务行业学习。2015年8月国务院(国发[2015]50号)“关于促进大数据发展行动纲要的通知”将“加强数字图书馆、档案馆、美术馆等公益设施建设”与“发展科学大数据、知识服务大数据应用”紧密相联,表明政府对公共文化行业数据应用和治理的决心[10]。
图书馆界从实例与政策两方面印证了图书馆大数据在真空里是没有价值可言的,只有利用大数据来推动实战,并从以往局限于少数象牙塔之中的学术精英圈子,扩大到其他社会机构和政府的决策部门,它的潜力和作用才能释放出来。其次,大数据的应用将会辐射到更多领域,通过对行业重要职能进行优化的方式,实现跨行业的发展。图书馆收集数据固然重要,但要产生有意义的成果,仍需要一个过程,数据化只是过程的一部分,作为公共服务行业在推动数据互动的社会能力和责任感方面,仍有许多上升空间。
6 结语
世界迈进大数据时代,大数据已深刻影响人们的生活、思考和学习方式,对图情界的冲击也将是惊人的,将研究成果运用到图书馆增值服务的实践中是研究的最终目的。鉴于大数据的实用案例分分秒秒都在刷新,因此笔者认为并不存在所谓的“最佳分析模型”或“最佳实践案例”。因水平有限,以上观点难免有偏颇之处,唯希望业界多关注大数据行业动态和应用实践,结合图书馆实际,形成全方位、多层面的理论与实践相结合的研究态势,为图书馆迎接大数据提供良好导向。
参考文献:
[ 1 ] 维克尔.迈尔-舍恩伯格,肯尼思.库克耶.大数据时代[M].盛杨燕,周涛,译.2版.杭州:浙江人民出版社,2013.
[ 2 ] 陆静.我国图书馆界大数据研究评述与展望[J].图书馆杂志,2014(1):20-25.
[ 3 ] Facebook/全球活跃用户数为14.9亿[EB/OL].[2015-08-02].http://mt.sohu.com/20150802/n418019391.shtml.
[ 4 ] 江云,李凤兰.大数据在我国图书馆的应用及推进研究[J].图书馆工作与研究,2014(6):35-41.
[ 5 ] 陈传夫,钱鸥,代钰珠.大数据时代的数字图书馆建设研究[J].图书情报工作,2014(7):40-44.
[ 6 ] 王天泥.知识咨询:大数据时代图书馆的知识服务增长点[J].图书与情报,2013(2):74-77.
[ 7 ] 朱维乔.大数据驱动的特色资源服务平台架构研究[J].图书馆研究,2014(4):77-81
[ 8 ] 大数据时代的中国机遇:专访美国西塞罗集团(CICERO)首席执行官Randy Shumway[EB/OL].[2015-12-22].http://www.cnii.com.cn/informatization/2015-12/22/content_1669513.htm.
[ 9 ] 马娜梅.大数据背景下图书馆知识咨询服务策略[J].图书馆研究,2014(4):90-93.
[10] 国务院关于印发促进大数据发展行动纲要的通知[EB/OL].[2015-09-05] http://www.gov.cn/Zhengce/content/2015-09/05/content_10137.htm.
陶继华 安徽行政学院图书馆信息检索部馆员。安徽合肥,230059。
(收稿日期:2016-05-11 编校:陈安琪)