大数据背景下的图书馆信息服务取向

2018-12-31 00:00:00宋晓琴韩德彦寇文静
现代信息科技 2018年10期

摘 要:大数据背景下,图书馆将面临存储海量数据和处理复杂数据等机遇与挑战。大数据背景下图书馆的信息服务取向主要包括信息的集成服务、数据分析与挖掘、新型资源的收集、服务内容的时效性以及服务方式转向移动互联网。

关键词:大数据;图书馆;信息服务

中图分类号:G252.6;G250.7 文献标识码:A 文章编号:2096-4706(2018)10-0033-03

Abstract:Libraries will be confronted with opportunities and challenges such as the storage of massive data and the processing of complex data in the context of big data. In the context of big data,the information service orientation of library mainly includes:information integration service,data analysis and mining,collection of new resources,timeliness of service content,service to mobile Internet.

Keywords:big data;library;information service

1 大数据的诞生

20世纪中叶开始,生物学领域的基因组测试工作大量展开,海量的生物学信息摆在研究人员面前,理解和处理这些数据成为一种挑战。无独有偶,其他学科也面临类似问题,比如宏观的天文学研究和微观的基本粒子研究等,再比如社会科学类的经济学、教育学研究等。为了加强全世界的数据共享,1966年国际数据委员会成立。借助于挖掘、提取等技术手段,以大量的观测、理论、实验和模拟数据等作为研究对象,探究数据中隐藏的内在规律的学科,数据科学随之产生。目前,用数据科学给这一新学科命名还存在争议,例如有人提出也可以称其为数据工程或者数据技术等。但不管怎样命名,以数据作为研究对象的研究已经大量展开。1996年,在日本东京召开的分类国际联合会上,第一次将数据科学用于会议题目——“数据科学,分类和相关方法”。美国普渡大学统计学教授威廉(William S. C.)在2001年最早提出将数据科学作为一门独立的学科,他认为,数据科学是统计学与先进计算对象相结合的部分,并建立了数据科学的6个技术领域:多学科研究、数据模型和方法、数据计算、教育、工具评估、理论。[1]

《科学》杂志在1998年刊登的一篇介绍软件HiQ的论文《大数据的处理程序》中首次使用了大数据(big data)一词。《自然》杂志2008年9月出版了“大数据”专刊,自此“大数据”开始在研究界得到广泛接受与使用。研究者们从生物技术、云计算、信息管理、互联网经济等多方面开始关注“大数据”带来的机遇与挑战,并将“大数据”对未来的影响做出预测。博利耶(Bollier)在2010年指出,计算机存储技术、制造数据的各种设备(如录音机、摄像机、望远镜和交通监控设备)、云计算和服务消费者的各种应用成为大数据生成的几个重要方面,并第一次提出“大数据时代正在出现”的观点。[2]

究竟何为大数据?马尼卡(Manyika)等人认为,大数据本质上仍是数据集合,但其大小已经超出了传统数据库在获取、存储、管理和分析方面的能力。[3]那么,多大的数据集合可以称作大数据呢?目前还没有一个统一的标准,但是普遍认为,大数据的量级应该是“太字节”,即240。大数据的价值在于通过对海量的各种数据的交换、整合、挖掘与分析,可以产生新的知识、新的价值,实现“大知识”、“大科技”、“大利润”和“大发展”。[4]

2 大数据对图书馆的影响

2.1 海量数据的存储

在信息环境中,信息产生与传输的边际成本迅速下降,信息产生的方式也多种多样,存在于各种数据库中的数据量急剧增加。尤其步入大数据时代后,数据的来源和数据制造的机制等都发生了颠覆性的变化,人们日常经济生活的一言一行、一举一动和行为特征等都会生成海量的半结构化和非结构化的数据,数据集合的结构、类型、形态等纵横交错,异常复杂。图书馆作为信息服务的重要场所,面对数量庞大、形态各异的数据,在进行存储、应用时将面临极大的挑战,这不但关乎技术层面难题的解决,也涉及社会层面的考量。然而,图书馆在解决这些难题、挑战的过程中,必然会导致图书馆服务模式、资源建设理念、管理方法和发展方向的转向。在图书馆进行上述转变的过程中,面临两个亟待解决的问题。一方面,虽然目前兴起的云计算解决了海量数据的存储与运算的问题,但同时存在的安全隐患却使用户无法完全信任与依靠,图书馆要解决海量数据存储、计算与数据安全的矛盾,这将决定图书馆在大数据背景下拥有数据的质量与数量;另一方面,现在的数据形态各异方面,大数据对图书馆数据存储的类型与范围有极高的要求,图书馆适应多种类型海量数据的存储与整合将是关键。2007年,世界著名连锁超市沃尔玛通过对消费者购物行为等非结构化海量数据进行分析,发现了“啤酒与尿布”的经典大数据应用案例[6]。因此,图书馆界可以从中得到一些启示,在大数据背景下,图书馆应该从读者、馆员和馆藏等多方面收集数据,不仅应该收集传统的个人身份、借还记录等结构化数据,还要收集用户的搜索行为、浏览方式等非结构化数据,从而发现这些数据之间相关性。

2.2 复杂数据的处理

人类进入信息社会后,信息变得举足轻重,信息、能源与材料也被称作现代社会发展必须的三大支柱。提升普通民众的信息素养、保障大家信息获取的便利与公平,以及推进社会信息化成为一个国家、政府的基本职责之一。1993年,美国政府提出实施“国家信息基础设施”计划[7](National Information Infrastructure,也称“信息高速公路”计划),是美国政府面对信息社会的挑战发动的一场信息革命。该革命使美国得以快速从工业时代步入信息时代,提升了公民的信息素养,触发了信息这个生产要素,促进了信息社会的发展。近年来,我国也陆续发布了一系列信息政策、法规与技术标准,如《国家信息化“九五”规划和2010年远景目标(纲要)》便是我国当时推进社会信息化的行动指南。在政府搭台、社会互动的氛围中,图书馆发挥了极大的作用,图书馆门户网站、特色数据库、数字图书馆建设风起云涌。截至目前,我国的图书馆均基本实现了初步的信息化,[8]但也存在一些突出问题,比如现有图书馆的信息化建设主要是数据库建设,即主要是结构化数据。在大数据背景下,这显然不能满足业界对大数据挖掘与利用的期盼,不能有针对性地为民众提供个性化、即时的信息服务。所以,当下的图书馆应该以需求带动变革,从大量的非结构化数据中挖掘资源,为用户提供复杂数据的处理、分析与定向推送服务。

3 大数据背景下图书馆的信息服务取向

3.1 信息的集成服务

大数据背景下,数据的类型更加多样化,数据集的层次结构更加复杂,必须借助各种工具和方法将收集到的数据整合起来,虽然不同的数据也许分属于各自的数据集,但还是能够按照一定的逻辑关系统一起来,实现数据之间的贯通与分享,使用户能够快速获得所需的数据。事实上,大数据往往分散在不同的网络节点,数据组成的网络信息系统的分布方式形态各异,数据形成的层次结构变化多端。要实现不同数据源数据的有效链接,图书馆需要建设一个集成化的数据存储与传输空间,采用统一公开的访问途径,隐藏不同类型数据的显示差异,方便用户对异构数据进行查询与分析。大数据环境总体上庞大与异构,不同站点之间的数据与组织结构差异很大,图书馆的职责之一就是解决这些不同站点之间数据的差异问题,按照数据不同的应用进行统整、封装和处理。[9]大数据由于其数量巨大,图书馆不宜甚至不太可能采用单独的数据库存储所有数据,而是要采用分布式的数据集成方式,采取各个子库分工协作的方式组织海量的数据,各个子数据库需要采用不同的系统进行信息管理,实现分布式子数据库协作集成体系。

3.2 数据分析与挖掘

大数据时代,图书馆之间的竞争已经不仅仅是拥有信息量的竞争,而更多地体现为不同类型数据的融合、挖掘和应用水平的竞争,图书馆要以用户的需求为中心,提供个性化、精准性和可视化的数据表征。基于机器辅助学习、模式鉴别、高速率计算、可视化、数据挖掘、聚类分析和模型化等功能的高级数据分析技术将越来越在图书馆中发挥重要作用,将实现数据到知识以及知识到实践的转化。[10]图书馆对于大数据的分析与挖掘需要重点做好以下三方面的工作。第一,要让数据彼此之间关联起来。大数据背景下的数据类型多样、结构迥异、分布式储存,数据挖掘与存储的前提就是要在这些数据之间建立关联,便于做深入的分析;第二,要避免僵尸数据。在当下的图书馆数据库中,存在大量的僵尸数据,它们从来没有被使用过,处于休眠状态,而这并不代表这些数据没有价值,而是有待发掘的宝库,让这些僵尸数据活过来是图书馆数据挖掘需要重点关注的方向;第三,抓住高质量的关键数据。要充分利用各种数据挖掘手段,在混沌的、有噪声的、随机的海量数据中鉴别出隐含在内的核心数据。

3.3 新型资源的收集

随着信息技术的进步,大数据环境下越来越多的信息媒体产生。尤其在Web2.0技术的支撑下,允许用户创建彼此可以互通信息内容的公共媒体资源成为大数据的一种重要数据来源,包括用户之间合作的项目(如百度百科)、内容分享社区(如YouTube)、博客、虚拟网络游戏、虚拟现实和社交APP等。这些新兴的数据媒体有别于传统的形式,其以用户为中心,依照用户的兴趣采集、分享和构建数据内容,有些内容也可以是用户原创性的思想与观点。由于公共媒体信息的即时性、可视化和易获得性等特点,人们更愿意选择这些公共媒体作为信息沟通的途径,并逐渐改变社会的集体话语语境。这些分布式的内容、多样的新型数据资源和用户为中心的信息构建体系,为分析公众对某些专题的观点,预测舆情,研究社会热点问题提供了丰富的数据源。大数据环境下的图书馆应该重视利用此类信息,并结合其他类型的辅助数据,形成具有预见性的信息情报服务方式。

3.4 服务内容的时效性

图书馆信息情报的竞争往往体现在时效性方面,大数据环境下,用户往往需要第一时间得到资讯或数据。[11]数据量大只是大数据的特征之一,半结构化或非结构化、实时处理也是其重要特征,大数据如果失去时效性,有时也就意味着失去了其应用价值。大数据背景下的图书馆信息服务更加重视数据的时效性,要实时对数据进行监控,动态把握数据动向,对数据即时进行传输、分析与处理能够为短期行动提供决策支持。[12]动态竞争情报信息一般来源于实践活动中随机生成的、不好测量的、分布式的、处于动态变化中的随机信息。当下许多用户会通过社会化的网络获知资讯,因此对于图书馆提供的信息,用户亦会有较高的时效性要求。支持用户从动态变化的大数据中获得动态竞争、高时效的情报数据,理应成为图书馆信息服务亟待解决的重大问题。

3.5 服务方式转向移动互联网

当下,互联网的重心逐渐从PC端转向移动端,很多人主要通过移动互联网获得信息,移动互联网已经实现无处不在的无缝连接,其在服务方式和信息交流等方面与之前的PC端互联网有较大差别,对大数据背景下的图书馆信息服务产生了重要影响。目前,不少图书馆正在发展移动图书馆,与社会上广泛使用的微信、微博等移动端APP有效地结合在一起,使图书馆与用户的距离日益变近。用户可以不受时间、地点的限制,随时与图书馆展开互动、查询馆藏、预约信息服务、接收信息推送和提交需求计划等,这些移动互联网络资源使图书馆的信息服务更具有针对性与时效性。

参考文献:

[1] Cleveland,W. S.. Data Science:an Action Plan for Expanding the Technical Areas of the Field of Statistics [J].International Statistical Review,2001,96(1):21-26.

[2] Bollier,D..The Promise and Peril of Big Data [EB/OL].https://www.c3e.info/uploaded_docs/aspenbig_data.pdf,2018,4,5.

[3] Manyika,J.,Chui,M.,Brown,B.,Bughin,J.,Dobbs,R.,Roxburgh,C.,Byers,A.. Big Data:The Next Frontier for Innovation,Competition,and Productivity [EB/OL].http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation,2018,3,23.

[4] 涂子沛.大数据 [M].桂林:广西师范大学出版社,2012.

[5] 黎春兰,邓仲华.信息资源视角下云计算面临的挑战 [J].图书与情报,2011(3):23-28.

[6] 高勇.啤酒与尿布:神奇的购物篮分析 [M].北京:清华大学出版社,2008.

[7] United States Patent Trademark Office.Intellectual Property and the National Information Infrastructure The Report of the Working Group on Intellectual Property Rights [EB/OL].http://www.uspto.gov/web/offices/com/doc/ipnii/,2018,2,7.

[8] 郭向东,陈军.甘肃省市县图书馆信息化现状调研与分析 [J].图书与情报,2010(3):83-87.

[9] 毕强.网络信息集成服务研究综述 [J].情报理论与实践,2004(1):21-25.

[10] 刘叶婷,王春晓.“大数据”新作为——“大数据”时代背景下政府作为模式转变的分析 [J].领导科学,2012(12):4-6.

[11] 刘高勇,汪会玲,吴金红.大数据时代的竞争情报发展动向探析 [J].图书情报知识,2013(2):105-111.

[12] 张玉峰,吴金红,王翠波.面向Deep Web的动态竞争情报智能采集策略 [J].情报学报,2008(8):624-630.

作者简介:宋晓琴(1980-),女,甘肃靖远人,馆员,硕士。研究方向:情报学和图书馆学。