关键词:大数据;图书馆;影响
摘 要:文章从大数据给图书馆带来的各种变化出发,提出了图书馆应转变观念、理解大数据理念、制定图书馆大数据管理机制、积极学习大数据相关技术、加强大数据人才培养等建议,以期图书馆能够更加从容地面对大数据时代的到来。
中图分类号:G25 文献标识码:A 文章编号:1003-1588(2014)01-0109-02
作者简介:安宗玉(1987-),河北大学管理学院图书馆学硕士。
关于大数据的概念目前尚无明确的定义,大家普遍认可的定义是“无法在一定时间内用传统软件对其进行内容抓取、管理和处理的数据集合”。而我们可以通过了解大数据的4个特征更好地理解大数据,即规模大(volume)、类型多(variety)、速度快(velocity)、价值性(Value)。目前,关于大数据的实践大多集中于企业如何通过大数据优化其服务,但是大数据之所以备受瞩目是因为它在社会的不同领域都能产生深刻的影响,如:预测疾病爆发、改善教育、评估风险等,大数据对国家治理模式、企业决策、个人生活方式等也将产生巨大的影响。
1 大数据与图书馆
目前,大数据的应用多集中于企业,数据多是交易数据、Web日志、多媒体信息等社交媒体数据,却鲜有提及文献数据。事实上,图书馆所拥有的文献信息完全具备“大数据”的特征,如:数据规模巨大、更新周期短、文献类型多样,载体数字化、语种多样性、内容交叉等,这些数据既有结构化也有非结构化。因此,对于图书馆来说,深刻了解大数据的内涵和特征,清楚数据采集、存储、分析和挖掘流程中的大数据技术,发现大数据对图书馆产生的影响及图书馆该怎样应用大数据成了图书馆亟须思考和解决的问题。
2 大数据时代下图书馆发生的变化
图书馆的宗旨是通过研究用户、组织信息,将有价值的信息传递给用户,以满足用户的信息需求。用户的信息需求是图书馆存在和发展的根本,没有用户的信息需求,图书馆也就失去了存在的理由。在大数据时代下,图书馆的服务对象和目标没有发生变化,只是因为在不同时代下用户需求上升而对图书馆有了更高的要求,这个时候图书馆唯有及时地了解用户新的信息需求,改变信息处理方式及服务策略才能留住已有用户、发展新的用户,优化服务方式和内容,为用户提供有价值的信息。
2.1 用户需求发生变化
从服务的专业化、知识化水平来看,传统的服务都只限于为用户提供数据或信息,而大数据时代下用户更在意图书馆是否能为自己解决具体某一问题。因此,大数据时代下,用户不再满足于图书馆提供整篇的相关文献、资料或其他知识产品,非结构化的数据、学科态势分析、热点分析、关于某一专题不同载体的信息源或进行过加工的知识产品将会更加受用户欢迎。另外,用户之间关系数据、用户与群组、科研小组之间相互关系的数据和信息更是在大数据时代用户需要的信息服务。
2.2 数据规模与类型扩大
当前,数据规模从以前的TB级别跃升到PB级别(P为1,000个T,E为100万个T,Z为10亿个T)。而数据类型也更加的繁多,如:网络日志、音频、视频、图片、地理位置信息等。统计数据显示,世界结构化数据增长率大约是32%,而非结构化数据增长率则是63%,至2012 年,非结构化数据占互联网整个数据量的比例已达到75%以上。大量非结构化数据的出现更是对传统信息处理能力的极大挑战。
在图书馆界,非结构化数据虽然一直存在,但是图书馆对于非结构化数据并不重视,对于非结构化数据的研究基本为零。而在大数据时代,图书馆可利用的非结构化数据包括用户检索关键词、浏览历史、下载数据、流量数据及其博客、微博、移动图书馆等各种社交媒体产生的交互信息等,只有将结构化与非结构化数据相结合进行分析,才能充分发挥大数据的功能,发现其中的价值。
2.3 原有的信息采集模式和方法受到冲击
信息采集是信息处理的第一步,是大数据价值挖掘最重要的一环,其后的集成、分析、管理都基于信息采集。传统的信息采集主要依靠网络蜘蛛或其他网络信息采集软件,这些软件可以以一个或一组指定的URL为浏览起点, 按某种算法进行远程数据的搜索与获取,采集内容一般是期刊、专著、学位论文、电子书、会议报告等结构化的出版物。但是,大数据时代下多类型的数据大多用非结构化数据库来解决,因此,图书馆也必须挑战信息采集模式,重新选择、定义信息源、采集内容、采集频率、采集量、采集工具等。如何依据本机构自身的数据特性,选择合适的、有针对性的采集模式应当成为需要深入探索的话题。
2.4 信息存储能力受到挑战
在大数据时代来临之际,我们面临的挑战还有存储问题。图灵奖获得者吉姆·格雷(Jim Gray)和IDC公司曾预测,全球数据量每18个月翻一番。目前,全球数据的存储和处理能力已远落后于数据的增长幅度。大数据中的大容量通常可达到PB级的数据规模,对于海量数据存储系统扩展能力的要求也会很高。而图书馆的数据存储已不止于结构化的期刊、图书、杂志等,智能手机、平板电脑、社交媒体以及很多的传感器和监控器等非结构化数据来源的不断增加,使得传统的存储方式无力承担。
2.5 信息组织模式发生变化
传统的信息加工是利用一定的科学规则和方法,对信息内外特征进行表征、排序、细化、挖掘、加工整理并归类的信息活动。加工对象主要是文献信息,目的是实现无序信息的有序化与优质化。从服务层级来说,传统的信息组织模式是为用户提供信息服务为目的。
大数据时代下的信息组织模式则是为用户提供个性化、精准化知识服务为目的的。一方面可以对采集、存取的数据进行分析和挖掘,通过深入的分析和挖掘得出具有价值的信息,从而为决策提供支持或者预测事件的发展。另一方面大数据时代图书馆的组织和分析比传统的信息组织更加重视用户信息的分析和挖掘,通过分析用户显性行为和挖掘隐性行为,从而为用户提供个性化、精准化的知识服务。endprint
2.6 信息服务方式和内容发生改变
传统的信息服务模式和内容虽然能够满足用户的基本要求,但在大数据时代,由于信息源和信息处理技术的发展,图书馆的竞争力已不再是其所占信息资源的数量、范围等因素,而是在于所提供的信息产品的信息化、知识化及其基于知识的创新力竞争。用户面对海量的数据资源,很难方便、快捷、准确地检索、利用这些数据,而对于图书馆来说,可以利用各种数据源的数据,如:出版物、科技报告、数据库、机构知识库、社交网站资源等,为用户提供一站式的资源服务,还可提供学科知识服务库、数据管理服务、信息可视化服务等,尤其是在数据管理服务方面大有可为。
3 图书馆应对大数据的策略
3.1 转变观念,理解大数据理念
虽然大数据这一概念已经吵得沸沸扬扬,但仍有不少专家提出质疑,如:“大数据不能包治百病”、“大数据,真的能改变大家的生活吗”。目前,大数据应用也多在商业领域,但具体效果如何,并未得出确切的答案。但是,反思之前的Web2.0、数字图书馆、移动图书馆这些新生事物在开始时总会受到质疑和阻碍,作为传播人类知识文明的图书馆如若再不紧跟时代潮流、转变观念,恐怕难以在未来受到用户的垂青。为了更好地应对大数据的到来,图书馆首先应该做好准备。
3.2 制定图书馆大数据管理机制
首先,要进行内部大数据处理流程规划:数据的采集、数据存取、数据分析挖掘、数据服务连接起来才是一个完整的大数据处理过程。因此,图书馆应该建立统一的数据采集、存取、分析挖掘和应用策略,坚持以用户需求为导向,确保大数据每一环节的有效连接。其次,图书馆作为国家大数据战略中的一环,应与其他图书馆国家大数据战略相吻合,这样才能有助于信息资源的共建共享。
3.3 积极学习大数据相关技术
每一次技术的改变都会对图书馆形成巨大的影响,大数据技术是大数据整个流程的核心,图书馆若想进行深层次分析, 以便更好地从数据中发现知识,就得跟上技术的发展脚步,只有借用新型的技术,通过分析才能获取更多智能的、深入的、有价值的信息。
大数据相关技术主要有数据采集技术、数据存取技术、统计分析技术和数据挖掘技术等几个方面。
在数据采集阶段,图书馆可以使用一些海量数据采集工具,如:Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
大数据存取包括关系数据库、NOSQL(HDFS,HBASE,OceanBase,MongoDB等)、SQL等,基础架构有云存储和分布式文件存储等。其中分布式存储受关注度最高。
数据分析和挖掘工作在大数据处理过程中具有十分重要的作用。传统的数据挖掘对关系型数据,非结构化的、半结构化的数据显得力不从心,而大数据分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
与数据分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,实现一些高级别数据分析的需求。比较典型的算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。这些大数据技术都可以被图书馆应用到学科优势分析、影响力评估、可视化图谱、科技发展态势监测等领域,进而得到更能揭示事物发展本质及规律的知识。
3.4 加强大数据人才培养
IDC认为,大数据相关人才的欠缺将会成为影响大数据市场发展的一个重要因素。而据该机构预测,中国大数据技术与服务市场将会从2011年的7,760万美元快速增长到2016年的6.16亿美元。大数据职位相关的技能主要包括数学、统计学、数据分析、商业分析和自然语言处理,数据科学家应该是复合型人才,能够综合掌控数学、统计学、机器学习等多方面的知识。
目前,图书馆的人才队伍大多由具有图书馆学专业、计算机专业背景的人员构成,为了应对大数据时代,一方面图书馆可以改变招聘方向,引进一些具有统计学背景的复合型人才;另一方面,还可以对原有的员工进行大数据相关技术培训,比如:可以将计算机背景的人员往技术专家方向培训,而对一般工作人员可以进行一些基础的统计、分析、挖掘方法培训。
参考文献:
[1] 维克托,盛杨燕.大数据时代[M].杭州:浙江人民出版社,2013.
[2] 王捷.大数据时代下图书馆开展信息服务的对策[J].现代情报,2013(3).
[3] 王天泥.大数据视角下图书馆的发展对策[J].图书馆学刊,2013(3).
[4] 王天泥.知识咨询:大数据时代图书馆的知识服务增长点[J].图书与情报,2013(2).
[5] 姜山,王刚.大数据对图书馆的启示[J].图书馆工作与研究,2013(4).
[6] 朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013(5).
[7] 吴金红,张飞,鞠秀芳.大数据: 企业竞争情报的机遇、挑战及对策研究[J].情报杂志,2013(1).
[8] 李奕.建立信息管理框架 应对大数据挑战[N].中国计算机报,2012-03-26.
(编校:崔萌)endprint