□崔 芳
2012 年被大卫·芬雷布称为“大数据的跨界年度”[1],从此,我们进入了大数据时代。据陆静对中国知网和OCLC Article First 数据库所做文献统计,研究大数据的文献经过10 多年的发展,于2012 年出现一个飞跃: 从2011 年的41 篇猛增到当年的324 篇,2013 年更多达819 篇,“大数据” 成为IT界、企业管理界和图书情报界的热门话题[2]。 2013年9 月30 日的中共中央政治局第九次集体学习,听取了对大数据发展情况的讲解。各行各业都在探讨大数据时代给本行业的发展能带来哪些机遇或者威胁,都希望在大数据时代到来之际,能够及时抓住机遇、规避风险,乘势而上加速发展。图书馆行业也不例外。高等院校图书馆、社科院图书馆、国防科技信息学会等系统召开了专题研讨会;据文献统计, 图书馆界发表有关大数据的论文,2012 年有4篇,2013 年达21 篇[3]。 “大数据”也正在成为我国图书馆界研究的热点话题。
高校图书馆虽然有自己特有的任务和定位,但在大数据时代到来之际,面临所有图书馆需要应对共性的问题。 依笔者管见,我国图书馆界的当务之急是:通过学习大数据理论实现观念、知识和技术的更新,通过馆藏数字化工程和网络数据搜集建设新型资源,开展切实可行的大数据读者服务探索。
与传统图书馆实现自动化、 数字化进程相类似, 我国图书馆要跟上大数据时代的前进步伐,首要任务是虚心学习大数据理论。我们要学习大数据首倡者的有关论著,学习对大数据的推广做出重要贡献的研究者的成果,学习走在前列的先进国家图书馆同行们在大数据领域的有益探索和实证应用;弄清楚大数据的概念内涵、 大数据的标志性特征、大数据区别于纸质文献的特性,从而确立起大数据概念体系、思维观念、行为模式;学习有关大数据的各种知识,比如数据和大数据的科学概念,大数据为什么被称为“破坏性技术”“颠覆性力量”,数据与文献、信息、知识的区别与联系,数据与数字的联系与区别, 大数据与传统意义上的数据的联系与区别,数字化阅读与阅读数据化、数字化服务与服务数据化、 管理信息化与管理数据化的联系与区别,如此等等。了解与大数据有关的各种计算机及其通信技术,例如Hadoop 和MapReduce 等数据管理处理技术,大数据智能识别、传感与适配技术,大数据知识服务模式、体系架构、资源分类及平台标准规范,大数据知识服务全生命周期过程中的虚拟化接入技术,大数据知识服务交易模型研究、质量评价体系、支持多元化可视化大数据知识服务终端交互技术等[4]。只有完成了这样的知识结构更新,图书馆人才能领到进入大数据时代的通行证。
在大数据研究先行者看来,大数据“最初,这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具”,“这导致了新的处理技术诞生,……。 这些技术使得人们可以处理的数据量大大增加[5]”。 “这种对大量的人机数据进行捕捉、存储和分析,并根据这些数据做出预测的能力,就是我们所说的大数据。”[6]由此,可以看出,大数据有三种含义: 一是说由于信息技术的高速发展,使得能够采集、存储、长期保留的数据越来越多,即指海量数据; 二是说处理分析数据的能力越来越强,处理速度越来越快,处理成本越来越低,即指高新技术;三是说人们有能力根据采集、存储的数据,进行分析挖掘处理并做出预测, 即指数据驾驭能力。维基百科称“大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集”,这说明它持第一种观点。 权威的IT 研究与顾问咨询公司Gartner、 美国国家科学基金会等的界定与此大同小异,均认为大数据与“海量数据”、“大规模数据”的概念一脉相承[7]。总之,业界对于什么叫大数据, 迄今为止尚未得出一个普遍认可的定义。这就提醒我们,必须持续关注国内外有关大数据的研究动向。
大数据的特征, 几乎是所有探讨大数据的论文必提的问题。 其中,文献介绍说,大数据有四个主要特征,业界取其英文首字母概括为四个“V”:Volume指数据体量巨大, 从TB 级别跃升到PB、ZB 级别;Variety 指数据类型繁多, 包括流行的网络日志、视频、图片、地理位置信息等;Value 指价值密度低,如视频在连续不断的监控过程中可能仅仅一两秒是有用的数据;Velocity 指处理速度快, 基本上贯彻一秒定律,从而与传统的数据挖掘技术有本质区别[8]。
关于大数据的复杂性, 也是普遍关心的问题。与大科学时代纸质文献的复杂性不同, 大数据的复杂性呈现三个维度:一是数据类型复杂。例如在网络上,既有数据库、图书、期刊、报纸,又有邮件、微博、论坛、社交短文本;既有文字,又有图片、声频、视频,给文本挖掘带来很大困难。二是数据结构复杂。大数据包括结构化数据、半结构化数据和非结构化数据,而且主流形式是非结构化数据,它组织很凌乱、信息噪声大,为数据的存储和分析造成很大困难。三是数据模式复杂。数据类型的多样化、非结构化的数据等因素,导致数据内在模式以指数形式增长[9]。
所谓大数据思维观念,首先是指数据采集意识的更新,不仅要从馆藏等容易搜集数据的地方采集数据,更要从最不好办的地方采集数据。 数据是构成大数据的根基, 没有计量和记录就不可能有数据,也就没有大数据。读者进入图书馆的所有行为,以及在线上与图书馆交流互动的所有行为,都是有价值的信息,都是值得采集的数据,均应进行计量和记录。 长期以来,每一个图书馆都重视数据的采集。例如,每天访问图书馆的读者人数、借阅数量、图书平均周转天数、办借阅证数量等等。这些数据对图书馆的服务绩效、 服务质量评价乃至管理科学决策均具有重要的意义,一定要保证数据真实可靠。
其次,大数据思维观念要求我们提高数据采集水平。 不能满足于数据怎样采集方便就怎样采集,而应当使图书馆的全部业务和管理工作在完成自动化之后,逐渐从数字化走向数据化。这主要包括:图书馆的馆藏文献的数据化, 图书馆的地理方位、内部的空间结构的数据化, 图书馆工作人员之间、工作人员与读者之间、读者与读者之间的沟通数据化,图书馆的采编、入库、流通借阅等工作的数据化。
第三,大数据思维观念要求我们坚持数据应用导向。 一是做好现有数据的挖掘和再利用,例如多年积累的自动化系统数据、读者服务数据等;二是完善数据收集的顶层设计,使数据能更好地揭示其相关性,做好预测;三是努力在现有数据与相关数据之间建立联系。 在数据化过程中,要关注图书馆工作产生的全部数据,而不是其中的部分数据。
在向数据化转型升级的过程中,传统图书馆的读者服务并非无所作为,我们可以开展基于数据挖掘分析的服务和管理创新,开展基于数字阅读行为数据分析的服务优化以及尝试基于文献内容处理分析的知识服务。
虽然当今的图书馆尚未掌控真正有价值的“大数据”,一般情况下也不考核经济效益、不适合像企业那样考量投入产出,但是,同为财政拨款的事业单位,国家投入了同样多的资金,在不同的管理团队、不同的服务团队手中却产生了不同的社会效益和经济效益。在大数据技术群的帮助下,图书馆效益的客观评价成为可能,这就为通过数据挖掘分析,提升图书馆的服务效能和管理效能提供了可能性。
有助于服务创新和管理创新的数据挖掘分析,起码有以下三类:一是对读者个人的成长进步进行数据跟踪分析。大数据技术对全部读者的信息可以全部存储,并长期保留,这样就能了解读者的成长轨迹,从而对图书馆的人才培养效益做出评价。 二是跟踪分析读者阅读利用的全部书刊文献,为每一位读者建立个人阅读数据库,同时对每一位读者发表文章、出版著作、获得专利等科学产出的数据进行系统采集。分析读者利用书刊文献和获得科学成果这二者之间的关联性,就能获得其创作、创新、创造方面的有用数据。 综合全体读者的数据,就可得出图书馆在创作、创新、创造方面的效益数据。三是分析挖掘读者个人数据库, 分析挖掘读者所在行业、产业的相关数据库,了解读者的阅读行为与相应产业发展的相关性,从而预测图书馆知识信息服务对当地产业发展的贡献度。
且以读者个人数据库为例展开讨论一下。建立读者数据库后,从读者身份证的信息,可以了解其家庭位置、年龄、性别分布;从文献、出版数据库,可以了解读者发表文章、出版著作情况;从读者的阅读习惯,可以了解读者的偏好等等。这样,图书馆就能通过分析上述数据来确认每一位读者所关注的图书种类,使得图书馆有可能对读者提供更加精准的贴身服务,包括推荐读者不了解的相关馆藏,真正做到为书找读者,使图书馆的书籍借阅率得到提高;根据读者数据库提供的信息,通过QQ、微信等方式将每一次新进的书及时地通知相关读者,使新书能尽早地发挥作用,产生效益;通过分析读者行为数据,了解读者喜好,从而调整图书馆布局,美化阅读环境,优化工作流程,让读者享受到更高质量的服务。
总之,通过对图书馆相关效益的综合分析,不仅能有效掌握图书馆对经济发展、 社会进步的贡献度,进一步增强政府对图书馆投入的决心,而且能为图书馆改进自身管理提供很好的决策参考,从而为图书馆的“数据化”发展创造更有利的条件。 例如,上海市通过2012 年中心图书馆借阅类目分析, 得出该市读者喜欢阅读的书籍,依次为文学作品、史地著作和工业科学; 基于数据分析, 上海图书馆于2013 年初推出“读者悦读账单”的“读者阅读报告”创新服务。[10]
除图书馆集成管理系统积累的书目数据、读者数据以及读者借阅行为数据外,开展数字阅读行为数据的采集、挖掘和分析,探索数字阅读服务的规律性,也是当前图书馆迎接大数据时代、实现服务优化应当做好的一件大事。
近二三十年里, 我国图书馆采购了各类书目、文献数据库以及电子书、报、刊资源,开展了包括全国文化信息资源共享工程在内的大规模的数字阅读服务。 采集、挖掘和分析好读者在数字阅读平台上的行为数据,必定能改进图书馆的数字资源提供服务。这就有赖于与数字资源供应商开展合作。如果能整合分析本馆读者在所有采购数字资源平台上的阅读行为,并且与图书馆集成管理系统所采集的阅读行为数据开展交叉分析, 就有望改善馆藏方针和资源建设策略,提供更加个性化的阅读服务。据文献报道,复旦大学图书馆已经在开展类似的探索[11]。
公共图书馆不仅应当做好对本馆读者的数字阅读行为数据采集和分析工作,还可以利用文化部全国文化信息资源共享工程这个统一平台来做这项工作。通过国家中心、省级分中心、基层中心组成的网络开展协作,逐步采用大数据技术,采集、挖掘和分析用户在共享工程服务平台留下的行为数据,将对图书馆开展数字阅读服务、提高全国文化信息资源共享工程和本馆的数字资源服务提供很有用的决策依据。 同样,高校图书馆除对本馆读者开展网上阅读行为数据采集和分析外,还可以通过中国高等教育文献保障系统(calis)这一协作平台,来开展读者利用数字资源行为模式、行为习惯、阅读喜好等规律的探索,以提高高等院校图书馆的读者服务水平和科学管理水平。
大数据既对图书馆的知识服务能力和知识服务机制形成较大的冲击,又能帮助图书馆建立和完善新的知识服务模式,提高图书馆的学科知识服务能力和水平。 核心是利用已有的Hadoop、MapReduce 等数据管理处理技术、 大数据智能识别传感与适配技术、大数据知识服务模式等技术,分析用户借阅流通数据、 馆藏书目数据和电子数据库、无线射频识别数据、社交网络交互数据、移动互联数据以及各种传感器数据, 对文献内容进行处理分析,抓取有用的知识和关联关系,经过知识重组,再提供给需要的读者。
1.图书馆可以开展用户流失分析,应对生存危机。 由于多媒体的冲击,图书馆服务的价值受到质疑,出现了读者流失现象。 借助大数据技术分析用户需求数据,不仅可以了解读者的信息行为、需求意愿和知识运用能力,还可以深度挖掘其在交互型知识服务过程中的潜在需求数据,开展针对性更强的服务,吸引住读者群体。
2.图书馆可以建立更加智能、灵活的知识服务社会网络。 通过分析各种数据资源的状况,从结构化和非结构化数据资源中抓取有用知识和关联关系等,完善新的知识服务方式。例如,作为“大数据研究和发展计划” 重要组成部分的美国国家医学图书馆,正在集成生物学及内部信息,以创造能整合和交换医疗保健和生物医学研究数据的方法和工具。 而清华大学图书馆在数据集成和数据挖掘两方面进行探索,尝试在大数据环境下从元数据仓储中提取关键词等信息,分析关键词走向,分析作者与合作者的关系,建立以人为中心的知识关联网络[12]。
3.图书馆可以建立基于大数据技术群的知识服务导航机制。 在自动化集成发展阶段,图书馆已经建立了各种知识服务导航机制。 现在,应当尝试利用大数据技术来优化甚至重建这种新型的知识服务导航机制。这种导航机制主要包括用户知识需求预测导航、多维数据资源的组织和分析导航、用户信息行为智能分析导航、学术资源搜索导航、数据资源的推荐服务导航等[13]。
“大数据”对图书馆的影响将是多方面的,并且将越来越巨大和深刻。图书馆不仅要继续履行传统的四项社会职能,保存传递各种经馆员分析整理的纸质文献数据,还将承担起保存传递各种磁介质云所存储的未分析整理的数据,使人和计算机能够通过数据云而公开获取。 面对大数据时代的到来,图书馆要高度重视大数据对图书馆的影响,提高大数据意识、培育大数据思维。 要充分认识图书馆数据化对当地的经济社会发展所具有的不可替代作用,努力消除事业单位员工缺乏竞争压力、从而缺少数据化动力的不利因素, 先人一步做好顶层设计,积极采集分析挖掘数据,在大数据时代发现机遇并引领图书馆健康发展。 与此同时,要重视大数据人才队伍建设,背靠大数据时代,要加快馆藏资源的数字化进程并积极开展各种创新型服务,同时探索数据化图书馆的发展路径。
[1][6][美] 大卫·芬雷布著, 盛杨燕译. 大数据云图——如何在大数据时代寻找下一个大机遇[M].杭州:浙江人民出版社,2014:41.
[2][3]陆静.我国图书馆界大数据研究评述与展望[J].图书馆杂志,2014(1):20-25.
[4]张新娜.大数据时代智慧图书馆建设路径分析[J].图书馆研究,2014(1):9-13.
[5](英)维克托·迈尔-舍恩伯格,肯尼思·库克耶著.盛杨燕,周涛译.大数据时代——生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013:8.
[7][9]刘琼.大数据背景下图书馆服务体系创新与重构[J].信息技术,2014(6):55-56.
[8]容春琳.公共图书馆应用大数据的策略研究[J].图书馆建设,2013(7):91-95.
[10][11]陈超.图书馆如何迎接大数据时代[J].图书馆杂志,2014(1):4-7.
[12]曹磊,等.大数据:数字世界的智慧基因[N].文汇报,2013-11-08(12).
[13]樊伟红,等,图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68,77.