古珊 吴进琼
【摘要】随着大数据时代的到来,科学数据的产生和积累呈指数级增长,大数据知识服务体系的开发和利用将会是数字图书馆发展必不可少的前提条件。结合数字图书馆资源建设情况和大数据时代图书馆的实际需要,阐述了利用大数据的意义,分析了大数据环境下图书馆所面临的挑战与考验,提出面对大数据,如何强化数字图书馆的发展战略。
【关键词】大数据;数字图书馆;发展战略
1.引言
在云计算、物联网等技术的推动下,全球迈入了大数据时代,数据量正以超乎人们想像的速度极速增长,除了国家和研究机构,全球主要的大型IT公司均对大数据投入巨资,目的是利用大数据为国家治理、企业决策、个人工作及生活提供服务,图书馆的IT同样也面临着大数据信息的冲击,这些问题引起了图书馆界有识之士的普遍关注。
2.大数据基本概念及提出背景
国外,2011年5月,全球知名咨询公司麦肯锡(Mckinseyand Company)发布了《大数据:创新、竞争和生产力的下一个前沿领域》报告,首次提出了“大数据”的概念,并在报告中指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”[1]。2012 年6月,联合国专门发布了大数据发展战略,这是联合国第一次就某一技术问题发布报告。之后,《纽约时报》、《华尔街日报》等对大数据进行了专栏封面介绍,美国政府发布了“大数据研究和发展计划”,并于今年3月29日拨款2亿美元推出的“大数据的研究和发展计划”更是将大数据提升到了全球性战略发展的高度。IBM、EMC、甲骨文、Microsoft 等IT巨头都投入到了大数据的软硬件技术整合、大数据信息处理的技术供应研究开发之中,力求在新一轮的信息竞争环境中占据主动,并抢得战略先机与技术制高点。美国国家科学理事会NSB在其发表的《长期保存的数字化数据集》, 强调数字化数据集对科学研究与教育日益增长的重要性, 以及它们为扩大各类研究参与范围的巨大潜力, NSF应大量增加其对现有数据集与未来增殖数据集的创造、维持和长期保存等研究资助。2011年美国McKinsey Global Institute发布了《Big Data: The Next Frontier for Innovation,Competition and Productivity》的调查报告,指出尽管全球数据飞速增长,但有将近87% 的数据未得到真正利用,许多数据资源并没有形成真正的知识源以供研究人员利用[2-3]。除了国家和研究机构,全球主要的大型IT 商业公司均对大数据技术投入巨资,目的是利用大数据为国家治理、企业决策乃至个人生活提供服务。
国内,中国工程院院士、中科院计算技术研究所首席科学家李国杰就指出大数据将成为信息科技的新关注点,并形成新型交叉学科:网络数据科学。韩翠峰指出,在大数据时代,图书馆将在数据存储、数据挖掘、数据分析等方面面临着巨大的挑战与考验,复杂数据的处理也将成为大数据时代图书馆发展的主旋律,利用大数据技术去挖掘、识别、组织与分析隐含在读者行为中的结构化、半结构化数据信息,寻找他们的隐性诉求进而改进图书馆的服务,达到图书馆资源、服务与读者需求的双向理想控制已成为大数据时代图书馆提高服务体系的组织水平、推动行业发展与制度建设的捷径之一[4]。石薇芬认为,大数据时代,信息社会将逐渐转变为知识社会。未来图书馆形态将从物理图书馆逐渐转变为虚拟、泛在图书馆,服务将呈现“无处不在、无时不在、无所不在”的特点[5]。在此背景下,图书馆行业必须“依靠文献、超越文献”,图书馆服务未来的核心价值,在于解决用户获取知识中的三大问题,即为用户提供高质量的信息资源,帮助用户从海量的信息中迅速找到所需要的信息,并持续不断地跟踪他关注的信息。刘明,李娜介绍了大数据相关背景和科学研究的第四范式——数据范式,分析了在第四范式和大数据趋势中的学术信息交流方式的转变,并以生物医学领域的进展和应用场景为例分析了专业图书馆随之的转变,提出了与大数据相关的专业图书馆观念的转变和人才需求的转变。刘炜等,则对“大”关联数据和“关联的”大数据两类不同的应用进行具体的阐述,对目前采用大数据技术发布关联数据的方法和路径进行梳理,同时对大数据领域应用关联数据技术的进展也做出介绍和点评,展望这两类数据技术在图情领域的发展前景。
3.利用大数据的意义
3.1 利用大数据技术不仅可以通过数据了解用户、行为、意愿、业务需求、知识应用能力及知识服务需求等,甚至可以利用数据对用户的科研创新合作过程及合作交互型知识服务过程将要发生什么进行分析和预测,从而应对图书馆未来所面对的生存危机。
3.2 国内外图书情报领域首例利用大数据技术构建知识服务社区实体(包括用户及资源)行为智能分析引擎就是通过利用大数据分析技术来分析电子书读者阅读习惯和喜好后建立起来的。本课题的研究可以帮助图书馆建立新型知识服务引擎,为广大的读者提供优质的知识服务。
3.3 通过大数据知识服务,有利于高教工作者获悉当今世界的发展趋势,科研动向及教学方向,更好地为学校的教学、科研服务。
3.4 通过分析资源(包括软硬件资源、网络资源、信息资源、服务资源及知识资源等)的状况来预测整个服务系统可能出现的故障,以便及时采取应对措施。
3.5 分析研究数据中科研技术人员的知识结构、基本素养、基本技能,并将此付诸培养计划加以实施,为未来社会提供所需人才。
4.面临的挑战与考验
大数据技术给未来数字图书馆将会带来革命性、创造性、持续性的变化,会对我们熟知的知识服务领域和知识服务体系产生重大的颠覆和创新。
4.1 图书馆工作从管理知识载体向管理知识本身的挑战
传统的图书馆员的工作注重于各种知识载体的搜集、整理、加工和流通,基本上与知识内容关联没有深入关联,如今,知识的内容与载体能够完全分离,图书情报工作者能借助网络和计算机技术,深入到知识内容进行处理,这给图书情报工作提出了更高的要求和考验[6]。
4.2 传统网络架构在大数据时代面临挑战
传统网络的架构设计主要是以用户终端向服务器发出请求,由服务器回应返回结果给终端用户的垂直结构,大数所时代,大量的数据都存储在分布广泛、地域辽扩、不同类型、各行各业的各类服务器中,当用户出请求后,是服务器之间的信息交换,再将结果返回用户的过程,强调的是水平结构的横向服务,传统的垂直网络服务架构已不适应水平网络架构的要求[7]。
4.3 面临非结构化数据的挑战
数字图书馆结构化资源内容非富,结构完整,如电子图书、电子报纸、电子期刊、各类数据库、音频、视频资源、网上资源等海量数字资源;非结构化资源缺乏,如声频、视频、图片等可听可视的数据。
4.4 大数据时代科研的发展要求数字图书馆适应新的需求
现在越来越多的新兴的学科领域是在大数据的基础上建立起来的,提高了从各种大型数据集聚中心提取有用的信息加以利用,并进行有效管理,大数据时代数据更原始、更零散、更复杂,在这些巨量、快速、多样及多变、凌乱、不确定性的数据中存在明显的碎片化特征,包含有很多无用的信息,给数据的存储与分析带来很大的困难,技术支撑尤为重要,是解决大数据的关键问题,对数据的研究起着特别重要的作用,影响着大数据的研究。
4.5 数据巨量增长给计算机存储空间和存储技术的挑战
数据量从TB级跃升至PB级别,甚至更高,传统的集中存储与计算已经无法处理呈指数级增长的速度。
5.面对大数据,强化数字图书馆的发展战略
5.1 图书馆管理者制定大数据的全局战略及局部战略
面对大数据带来的机遇和挑战,图书馆管理者既要从宏观整体考虑,又要从微观的局部设计,进行大数据的角色定位,根据所处的区域、主要的服务对象及特点、服务学科、馆藏特点及特色、人员结构等因素,创建大数据知识服务体系的数字图书馆模型[8]。
5.2 图书馆员在思想意识形态、技术、服务理念、服务技能、专业能力等综合能力进一步提高
在大数据环境下,由于数字图书馆的服务方式是通过分析和捕捉大量数据得来的,因此大数据时代的图书馆服务更具有鲜明针对性,数字图书馆服务手段及服务方式也会因服务策略的改变而调整,要强化网络文献资料的优化配置,实现文献资料综合服务;大数据时代使用了超大型数据库、个人模式识别、网络分析及数据研究等技术,数字图书馆要在服务理念、服务方式、服务途径、服务规模、服务技能、专业技能等都要有相应的改变,创新思维方式;创建不同类型的图书馆资源类别,分享更多的网络服务;基于概率统计和回归分析的时间序列法、线性回归法等方法,应用到数字图书馆信息处理以及服务上,成为数字图书馆服务的一大亮点,为社会机构、政府、企业提供所需的数据分析、数据挖掘服务[9]。
5.3 构建数字图书馆大数据知识服务体系及平台
从管理架构、环境架构、技术架构、专业架构、知识架构、信息架构、安全架构、战略战术架构、协作联盟架构、合作服务架构等探索大数据下数字图书馆信息知识服务体系和平台的建设,充分发挥数字图书馆在教学和科研的作用。
5.4 建立数据挖掘及发析研究机构
发达国家的大数据图书馆是比较成功的案例,为此,我国的数字图书馆也应该向着发达国家看齐,构建与国际接轨的数字图书馆服务系统,不仅从深度,更要从广度收集信息,挖掘稳含的有用信息,并对这些信息分析研究,得出结论,为我所用。加强核心技术的开发以及与电子商务的结合,同时考虑数字科研、教育理念及数字政务的结合,在发挥数字信息资源服务功能的同时,集成数字信息资源与数字信息系统,不断开发数字信息资源,实现与国际接轨,实现数字图书馆的可持续发展。
5.5 进行关联发析,开展预测服务
尽可能地收集完整数据、综合数据和全面数据,在数据的“大”模式下,应用数学计算方法对这些电子数据进行统计分析,探索研究,挖掘出数据背后相关联的关系,从而预测某一事件、事情发生的概率。具体到数字图书馆中,传统的文献计量学研究在大数据技术的应用下得到极大地拓展它的研究范围。从以往描述性研究扩展到评价、预测性的研究,创造性地开展新型数字图书馆服务项目。
6.结语
随着大数据时代的到来,科学数据的产生和积累呈指数级增长,高校数字图书馆作为社会中储存信息知识、提供信息服务的信息中心,必须主动利用这些变化来进行战略性创新,未来国家的核心竞争力将很大程度上依赖将数据转化为信息和知识的速度与能力,要保持科学研究的领先地位,国家决策者和科学研究者必须高度关注大数据,要保持高校数字图书馆的发展,必须加强数字图书馆发展战略的研究,把大数据前提下的知识服务充分运用到数字图书馆的发展战略之中,我们用数据来记录这个世界,再通过研究数据去发现这个世界。
参考文献
[1]金松昌,杨树强,樊华,等.面向大型关键业务的Hadoop云计算平台数据安全策略研究[J].信息网络安全,2012(8):90-93.
[2]刘细文,熊瑞.国外科学数据开放获取政策特点分析[J].情报理论与实践,2009(9):5-9,18.
[3]樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68,77.
[4]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012,(5):37-40.
[5]石薇芬.大数据时代的图书馆信息服务[J].社科纵横(新理论版),2013(2):269-270.
[6]刘炜,夏翠娟,张春景.大数据与关联数据:正在至来的数据技术革命[J].现代图书情报技术,2013(4):2-9.
[7]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013(5):9-13.
[8]张兴旺.图书馆大数据体系构建的学术环境和战略思考[J].情报资料工作,2013(2):12-17.
[9]胡海鹰.大数据趋势下数字图书馆的服务与创新策略[J]情报资料工作,2014(4):27-29.
作者简介:
古珊(1964—),女,广西国际商务职业技术学院图书馆副研究馆员,研究方向:文献资源管理与服务。
吴进琼(1963—),大学本科,广西大学图书馆副研究馆员,研究方向:电子文献资源管理与服务。