杜晓国
文章编号:2095-6835(2016)13-0028-02
摘 要:随着计算机技术的发展,很多领域都引入了大数据,以推动其自身发展。传统的图书馆领域也是如此。将大数据应用于图书馆领域,既是一种机遇,又是挑战。简要论述了大数据时代下图书馆的发展情况,以期为日后的相关工作提供参考。
关键词:图书馆;大数据;元数据;传统网络
中图分类号:G250.7 文献标识码:A DOI:10.15913/j.cnki.kjycx.2016.13.028
1 大数据概述
在当今社会,人们对大数据的关注度越来越高,大数据的迅猛发展让图书馆焕发了新的生机。2014年,全球信息交换存储量已超过4.4 ZB。这个数量正在以每年40%的速度快速增长,这意味着大数据时代已经降临。麦肯锡公司最早提出了“大数据”这个概念。2011-05,麦肯锡公司在大数据报告中提出,“数据对社会各个行业和业务职能领域的影响已成为决定因素。”其后,大数据迅速成为社会各行业关注的焦点。哈佛大学知名教授在大数据发展报告中指出,“这是一场涉及技术和文化的、具有挑战性的数据革命,庞大的数据资源使得社会各个领域开始量化进程,科技、政商、卫生、教育等领域都将开始这种进程”。这一变化使得大数据从对因果关系的渴求转变为对相关关系的关注,人们只需了解是什么,而不必探求为什么。这就使人类的思维模式发生了质的变化,也就是人类在认知、社会交往上发生了本质的变化。
截至目前,还没有一个完整、统一的定义来解释什么是大数据。开始,大数据是指待处理的信息量迅速膨胀,在数据处理过程中,一般电脑的内存量已无法满足庞大的信息处理要求,所以,必须改进数据处理工具。大数据究竟有多么大,“互联网的一天”回答了我们。在一天中,互联网的全部信息量刻满2亿张光盘,发出超过3 000亿封电子邮件,谷歌公司每天处理的数据已突破24 PB。这意味着,互联网每天的数据处理量是美国国家图书馆全部纸质出版物所有数据的上千倍。“面簿”是一间创立时间不到10年的公司,每天照片的更新量已经超过1 000万张,人们每天在互联网上点击“like”按钮或写评论30亿次。这为“面簿”公司挖掘用户的喜好提供了有效的数据支持。同时,谷歌YouTube子公司每月接待的访客超过8亿,1 s就会有一段1 h长度以上的视频在上传。Twitter上的数据每年都要翻一番。截至2012年,互联网每天发布的微博数量已超过4亿条,数据量从TB、PB发展到EB、ZB。国际商业机器公司在大数据发展状况研究报告中指出,“在人类文明所获得的全部数据中,约90%的数据是在过去两年产生的。预计到2020年,全球数据规模将达到今天的44倍。”
2 大数据下图书馆遇到的挑战
在数字图书馆时代,图书馆的旧有模式发生了前所未有的变化。在变革的背后,大数据在带来前所未有的时代发展先机的同时也带来了决定性的挑战。
2.1 传统网络结构与“大数据”不相适应
旧有网络结构是垂直结构构架,即用户端→服务器→用户。在大数据时代,信息交换是平行的,即服务器→服务器。在大数据时代,繁杂的数据分布存储在不同的服务器中,当用户发出搜索、查询请求时,信息交换是在服务器之间实现的。传统的网络构架已经不适应大数据时代网络应用的需求。
2.2 数据中心面临巨大的压力
旧有的数据库是利用“ETL”工具将数据从数字资源中分配到数据仓库中管理和存储,然后再整合数据,进一步从数据仓库中读取和分析。大数据时代下的图书馆存储着大量形式多样、内容丰富的数据资源,包括办公文档、图表、报表、视频、音频和图片等。移动、修改这些数据需要消耗大量的人力、物力和财力,而且移动数据会降低读取效率。
2.3 可用数据少
在大数据时代,每天都会产生数量庞大的新数据,但真正能为用户使用的数据相当少。用户面对众多数据,很难准确、快捷地检索到所需的数据资源,而这些数据也无法形成系统的知识源供用户使用。
3 图书馆应对策略
3.1 建立超大型元数据存储
“超大型元数据存储”是有效利用数字图书馆资源的途径之一,它能够满足数据统一整合和一站式检索的要求。在大数据时代,关键的技术问题是大数据的高效率存储与访问需求、对数据库可用性和扩展性的高需求。随着数据库技术和云计算技术的快速发展与应用,复杂、庞大的数据存储需要借助“NoSQL”“MqpReduce”和“Hadoop”等非关系型数据库分析技术,它具有大规模并行处理、简单易用的特点。此外,还可以采用基于云计算的分布式存储技术实现对图书馆数据的有序统一。拥有数以万计大型存储设备的云系统,其存储设备可容纳海量繁杂的数据,实现实时更新,这一技术为图书馆持续增长的数据信息资源处理提供了可靠的技术支持。云计算实现了数字图书馆信息集成和资源互补。云计算通过“一个终端”和“一条网线”在非固定时间和空间获取信息资源,它为图书馆数据信息提供了高层次的虚拟技术和自动化的匹配功能,图书馆服务的用户、企业可以随时随地通过自有终端或其他终端,利用Web实现信息资源的共享。
3.2 非结构优化数据的分析
数据信息技术的发展带动了图书馆深层次的变革。图书馆服务用户必须以“以人为本、尊重人的社会价值和自我尊严”为出发点,倾听用户内心情愫,关心用户现实需要,尊重用户个性化要求,剖析、解读读者显性行为,深度挖掘读者隐性行为。由此可知,对数据的分析和深度挖掘是极其重要的。在图书馆大数据中,等待处理的非结构化数据与读者的兴趣密切相关。目前,普遍采用的是基于内容法和协同过滤法。协同过滤法是目前使用率比较高的方法之一,但是,其中仍然存在数据稀疏、读者兴趣变化、评分真实性和差异性等问题。在具体工作中,依据读者数据信息搭建的个性化读者行为模型,结合以读者行为为基础的协同过滤法发现模型中的规则,从而研究个性化服务值。
3.3 实现知识图谱可视化
大数据中包括海量、繁杂的重要数据信息,通过对其的深层次分析,能从数据中获取相关知识。知识图谱可视化作为图书馆发展的关键服务理念和技术手段,在图书馆大数据复杂异构处理方面有很大的优势。大数据下的图书馆充分利用异构数字资源融合、聚类和重组技术,为公众提供统一的一站式服务。同时,还以物联网、移动通信网和互联网为平台,实现信息资源转向信息层、知识层的深层次服务,以时间轴、地域轴等知识图谱可视化的方式将资源展示给用户,为用户提供可供电视、电脑、手机使用的多种接收终端,从而强化数据分析,实现个性化服务和资源共享。
4 结束语
数据信息的爆炸式增长催生出“大数据”概念,大数据已经渐渐渗透到图书情报工作中,其挑战与机遇是并存的。未来,在大数据时代,互联网将从“网页相联”走向“数据相联”和“知识相联”。大数据技术的应用将是未来图书馆服务创新的重要领域。在大数据的影响下,图书馆出现了崭新的数据管理和处理模式。
参考文献
[1]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9).
[2]李奕.计算机革命与数据价值——2012第二届中国计算机技术大会专题报道[N].中国计算机报,2012-10-15.
[3]于良芝.图书馆学导论[M].北京:科学出版社,2006.
[4]维克托·迈尔·舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2013.
〔编辑:白洁〕