陈国兰
〔摘要〕大数据时代已经来临,大数据也给高校图书馆带来了机遇和挑战,文中结合大数据的背景,首先介绍大数据的定义和思维,接着分析了图书馆可利用的大数据来源,以及带给图书馆的价值,最后探讨了如何利用大数据构建新型的知识服务体系,期望能够为未来的图书馆知识服务创新体系提供理论参考。
〔关键词〕大数据;大数据知识服务;高校图书馆;大数据思维
大数据是继Web2.0,云计算等技术之后,近两年IT界最为流行的关键词。2008年9月,Nature推出《大数据》专刊,通过“the next Google”、“Data wrangling”、“Distilling meaning from data”等多篇文章,全方位介绍了大数据问题的产生及对各个领域的影响,首次将“大数据”这一概念引入科学家和研究人员的视野。全球知名咨询公司麦肯锡把大数据称作一种全新的资产类别,可以创造巨额财富。许多国际上著名的IT巨头像IBM、微软、谷歌、HP、SAS等纷纷加入大数据的研究行列,通过收购相关的大数据软硬件技术平台,力求在大数据时代取得更加主动的信息竞争环境,利用大数据成为公司新的经济增长点。
大数据技术不仅受到产业界热捧,在学术界也引起了广泛的研究和探讨。在大数据时代,数据只是作为一种生产要素,要想变成商品,创造价值,还需要对其进行数据分析,从中提取出有用的知识和情报。图书馆作为一个资源和情报提供部门,大数据技术必然会对传统的图书馆咨询服务造成强烈冲击。
OCLC的《Research Libraries,Risks,and Systemic Change》[1]研究报告指出,价值质疑、技术障碍、人员队伍无法适应未来挑战等重大问题已经严重困扰着图书馆,高校教职工已经逐步弱化了图书馆存在价值,用户流失异常严重[2],2010年,美国联机计算机图书馆中心的一项调研显示,正撰写论文的大学生查找资料已首选网络搜索引擎;30%的大学生遇到难题待解,不再到图书馆找书,而是把难题贴到网上寻求答案。像Web2.0,云计算技术一样,每一次新技术的应用,都会带动图书馆的变革,需要图书馆转变服务职能。大数据技术对图书馆来说是拐点还是终点?图书馆界能否在大数据时代抓住机遇,利用大数据技术应对图书馆未来所面对的生存危机,挽救图书馆在资源共享与数据分析中的颓势,是我们所有图书馆人需要深思的一个问题。
本文结合大数据的时代背景,首先介绍大数据的定义和思维,接着分析了高校图书馆可利用的大数据来源,以及带给图书馆的价值,最后探讨了如何利用大数据构建新型的知识服务体系,期望能够为未来的图书馆知识服务创新体系提供理论参考。
1何为大数据
1.1大数据定义
尽管“大数据”这个词直到最近才受到人们的高度关注,但早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。
维基百科和百度百科对大数据的定义很类似,都称“大数据”(Bigdata)为巨量数据,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯[3]。
维克托·迈尔—舍恩伯格和肯尼斯·克耶编写的《大数据时代》中提出:“大数据”的4V特点:Volume(数据量大)、Velocity(输入和处理速度快)、Variety(数据多样性)、Value(价值密度低)[4]。这些特点基本上得到了大家的认可,凡提到“大数据”特点的文章,基本上采用了这4个特点。
关于“大数据”有许多种定义,这种差别取决于你是一位计算机科学家,还是一位金融分析师,抑或是一位为风险投资人推销一个概念的企业家。多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力,而这个数据集在数量、速率与种类上持续扩大。就大数据而言,真正重要的是它能做什么。先且不论我们如何把大数据界定为一种技术现象,大数据分析那多元而广阔的潜在用途将面临一些关键性的问题,即我们的法律、伦理与社会规范在大数据时代是不是有足够的能力保护个人隐私和其它价值。前所未有的计算能力与持续的改进能力为我们的生活带来了可能是先前从未预料到的发现、创新与进步。
纵观多方定义,笔者对大数据的概念理解总结如下:(1)“大数据”拥有海量数据,但绝不是有很多数据就叫大数据;(2)大数据是一种数据分析方式,与传统数据分析方式有着本质上的不同;(3)大数据的特点是“关注相关性,不关注因果”,这是大数据最核心的东西;(4)大数据采用的是统计的方法;(5)大数据主要是结合人工智能进行机器的自动数据挖掘;(6)大数据主要是用来作预测的。而不是象一般的数据分析,只是分析出历史情况和现状,未来还是要靠人去预测,大数据则是直接告诉你未来的结果。
1.2大数据思维
维克托·尔耶·舍恩伯格在《大数据时代:生活、工作与思维的大变革》[4]中最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
大数据既是一种技术,更是一种思维。在了解了大数据的概念后,我们还需要了解大数据技术的哲学基础或内在逻辑,即大数据思维。目前大数据技术好多还处在研究阶段,还不能进行广泛的应用,但我们可以学习大数据思维,做好相关基础工作。在大数据时代来临之际,图书馆应该借助大数据思维创新其信息服务模式、扩大信息服务范围和提高信息服务质量,同时也可为其他社会组织提供大数据源和创造信息价值[5]。endprint
在舍恩伯格的《大数据时代》,重点讨论了关于大数据的3个思维变化:(1)不是随机样本,而是全体数据;(2)不是精确性,而是混杂性,尤其是大数据的简单算法比小数据的复杂算法有效;(3)不是因果关系,而是相互关系。
文献[5]把大数据思维总结为规律性、无偏性、关联性和开放性4个特征。并结合“图书馆立方”项目为例,探讨了大数据思维在图书馆的应用。图书馆要想利用大数据提升我们的服务,首先要从思想观念上对大数据有较清晰的认识。笔者认为图书馆要开展大数据服务,需要对以下问题进行反思和探讨:
(1)图书馆哪些数据属于大数据的范畴,可以被用来分析和预测?图书馆人在面对“可能是机会的数据”时,有没有清醒的认识?这个意识必须贯穿大数据的收集、整理、分析及预测各个阶段。
(2)图书馆有哪些大数据来源,这些数据来源有无延续性?获取的数据来源具有的价值是否符合人力、物力、财力的投资回报?
(3)图书馆如何利用大数据?图书馆拥有的大数据量在不断的大幅度增加,但是能够从中分析的数据比例却在不断降低。如何利用数据之间的关联性,使用大数据分析技术从众多的半结构化和非结构化数据中挖掘出隐藏在数据背后的价值?进而为图书馆的服务模式、未来发展趋势提供分析与预测。
2大数据与图书馆
2.1图书馆大数据的来源
图书馆大数据的来源也呈多样化特征,除了传统的电子图书、期刊、论文数据库等结构化数据资源外,还包括以下大量的非结构化信息资源:
2.1.1智能设备数据
像RFID数据信息,装有RFID图书的信息,可以自动实现资源的跟踪和分析;像门径系统,保留有大量读者的进馆出馆信息,可以帮助我们根据读者的来馆时间,做好相应的人员配备。提供更好的服务。
2.1.2物联网数据
可以通过在图书馆不同位置或环境中放置传感器,来对所处的环境和资源进行数据采集,通过长时间积累,可以产生巨大的数据量,有助于我们分析图书馆的使用情况,优化资源配置。
2.1.3互联网数据
随着社交网站的普及应用,这部分数据的产生速度超过以往任何一个传播媒介,由于参与用户众多,且数据中包含用户丰富的情感特征,是图书馆服务的一大评价指标来源。另外像OPAC读者的检索记录、数据库读者的访问记录等一些用户行为数据,也包含着读者丰富的信息。是图书馆大数据的重要组成部分。
2.1.4科研共享数据
高校图书馆作为一个科研服务中心,需要构建科研数据共享平台。科研数据是指数字形式的研究数据,包括在研究过程中产生的能存贮在计算机上的任何数据,也包括能转换成数字形式的非数字形式数据,如调研结果、神经图像、实验数据、传感器读取的数据、遥感勘测数据、来自测试模型的仿真数据等[6]。科研数据是研究过程中重要的研究成果,包含着巨大的研究价值。长期以来,高校虽然有丰富的科研数据,但是往往局限于本课题组、本单位使用,没有经过有效的整理和建库共享,造成了科技资源的极大浪费。因此科研共享数据是图书馆需要重点收集的一个大数据来源。
2.1.5移动互联数据
随着高校移动图书馆的普及,图书馆可以利用移动互联技术,获取大量读者访问数据,从而分析读者的使用习惯、阅读倾向等,进而帮助我们开展有效的分析、预测其知识服务需求。
2.2大数据带给图书馆的价值
大数据的价值在于可以通过人工智能、计算机科学、数学统计、信息技术等多个交叉学科的大数据技术的应用来挖掘找到隐藏在大数据背后的世界。笔者认为目前图书馆利用大数据的价值主要包括以下几方面:
2.2.1为资源采购提供决策支持
通过读者使用资源的交互数据,像图书浏览、借还记录、数据库访问、下载记录等,可以有效的评估读者对各种资源的使用情况,通过较集中的访问历史可以预测读者关注的热点,从而为资源采购部门提供决策支持,对需求大的未购买资源增加订购,而使用率不高的资源可以减少或取消订购,从而让有限的资金购买更适合读者需要的资源。
2.2.2为读者提供个性化服务
图书馆里包含有大量读者个人使用图书馆的记录,通过读者的咨询记录、借阅记录、数据库访问记录、检索记录、下载记录等用户使用图书馆资源的所有足迹,同时可以结合读者的专业,及其教务部门提供的个人选课信息、成绩情况等,可以分析读者的兴趣点、服务诉求、学科需求。从而把适合的资源向其主动推送,为读者提供个性化服务,实现图书馆由被动获取转为主动服务的职能转变。通过不断地主动为用户进行探测性的推荐服务,持续性地获取用户的反馈信息,从而对其服务需求进行修正,提高个性化服务的可靠度和精度。
2.2.3为学科提供研究方向及热点变化
图书馆可以利用大数据对学科进行聚类分析、热点预测、网络分析、可视化分析、引文分析、知识关联分析等技术构建学科的知识图谱,从宏观上分析相关学科领域的研究方向和热点,为科研人员特别是新进入研究领域的学者,以及面临选题困难的硕士生、博士生大幅度的提高研究、学习和创新的效率,让他们可以节约文献调研的时间,迅速地洞察学科领域的研究进展,确定自己的研究方向。
2.2.4为科研人员提供学术共享环镜
高校科研人员在长期的科研活动中,通过观测、探测、试验、调查等科学手段积累了大量的科学数据[7],这是高校宝贵的数据财富。图书馆有义务采集这方面的数据,同时利用科研人员相同或类似的资源需求,为相同学科或研究方向的科研人员构建虚拟社区,形成学术交流圈,共享科研数据,创造良好的学术共享环境。
3如何构建新型知识服务体系
3.1开发大数据资源建设平台
数据是图书馆利用大数据平台分析的基础,因此首先必须建设图书馆的大数据资源库。大数据资源建设包括数据资源的获取、组织和管理:endprint
3.1.1数据资源的获取
上节已经介绍了图书馆大数据除了自身的馆藏数据外,还包括动态的RFID数据、传感器数据、用户访问数据、用户网络数据、科研共享数据、移动互联数据等。为了得到这些不同来源的非结构化数据,图书馆必须攻克针对大数据源的智能识别、感知、适配、传输、接入等技术,开发自己的数据收集平台,收集跟用户知识服务需求相关的所有有价值的数据。
3.1.2数据资源的组织
无序、分散的数据不论规模多么巨大,只要没有建立数据之间的关联,没有进行数据分析与挖掘,其价值都很难发挥出来[8]。因此对数据应该像图书馆的馆藏一样进行有效组织,采用关联技术,将数据整合成数据网。另外对于海量的数据资源,可以借鉴国外对网络资源的分级管理经验,像伯克利数字图书馆分为档案级、服务级、镜像级、链接级4个级别;加拿大国家图书馆则分为档案级、服务级与链接级3个级别[9],我们可以将图书馆的大数据根据不同服务对象的服务需求分为基础级、服务级、学科级与研究级,以便于日后我们从不同的数据源进行大数据分析。
3.1.3数据资源的管理
图书馆的大数据资源包括结构化、半结构化和非结构化数据。结构化数据是指可以利用传统的关系型数据库进行管理,而海量的半结构化和非结构化数据需要新的表述方法,更高效的处理技术。以Hadoop 为代表的HDFS文件系统和Google公司提出的MapReduce模型将结构化、半结构化和非结构化数据有效管理变为现实[10]。同时要注意数据的生命周期,需要不定期的对数据进行整理,把新的数据进行维护归档,过期失效的数据及时剔除。
3.2学会使用大数据分析工具
有了大数据资源,图书馆还需要利用大数据技术从海量、异构的数据中发现有价值的知识。大数据技术,实际上就是借助各种大数据分析工具来对数据进行分析预测。近年来,国内外越来越多的图书馆借助资源发现系统实现数据的分析、发现和预测。像Primo系统允许用户在馆舍内搭建SOA架构的服务系统,同时也支持以云计算方式向图书馆用户提供服务,因此得到了全世界图书馆的广泛应用。还有完全基于云计算的EDS和Summon也是国际上比较有影响的知识发现系统。
以上提到的发现系统都是国外系统,对中文知识发现效果较差,因此国内也出现了像超星发现、智立方、FIND+等知识发现系统。笔者所在的学校已经开通了超星发现系统,从使用的情况上看,可以较好的实现数据资源的整合,对海量的文献实现知识关联。但其主要针对图书馆的馆藏数字资源进行一站式检索,在学术文献的深度知识挖掘方面还有待加强。图书馆员可以结合其他的数据挖掘软件像Citespace、LiterMiner等可视化文献分析工具,来绘制科学知识图谱,有助于了解和预测科学前沿和动态,挖掘开辟新的未知领域。
3.3加强多部门的互助合作
图书馆大数据的来源除了自购资源和图书馆内部数据资源外,还包括像科研共享数据、学生选课成绩信息等外部的数据资源。为了获取这些数据,提供更全面的知识服务,图书馆需要加强与其他部门间的合作。
科研数据管理涉及数据组织、数据存储、数据保护、数据共享等不同的环节,对于很多科研人员来说还是比较新的事物。为了更好地为科研人员提供数据管理服务,国外大学图书馆纷纷探索开展科研数据管理教育工作,通过开展专题研讨会、培训课、在线教育等方式对科研人员进行科研数据管理意识、知识和技能的培训[11]。同时图书馆还需建立专门的科研数据的存储库,便于科研人员可以长期方便地进行存储、管理。
为了较全面掌握读者的信息,提供个性化服务,也需要与其他部门合作多种渠道获取数据。像澳大利亚卧龙岗大学图书馆开展的“图书馆立方”项目[5],就是与该校绩效指标管理中心(PIU)合作,将学生的图书馆使用记录与绩效中心的学生成绩、选课记录等进行关联,这样一方面可以评估图书馆使用情况对学生成绩的影响;另一方面也能为学校的教学活动提供信息反馈。
3.4建立新型知识服务引擎
知识服务成为新时期图书馆与其他类型信息机构进行角逐的领域,如何将知识服务推进到一个新的高度,成为图书馆人为之奋斗的新目标。知识服务引擎是在知识服务的基础上,结合引擎的高度搜索功能,快速地实现用户知识需求的满足[12]。它与搜索引擎不同,其检索结果是经过智能加工的知识而非简单检索词匹配的信息,它是深度解决用户问题的知识管理系统。读者可以将其知识需求或需要解决的问题进行搜索,该系统能够根据其拥有的知识库对用户的问题或需求进行智能地分析、整理,将相应的知识或解决方案直接反馈给用户。同时为了使反馈的形式更加直观、具体,可以使用知识图谱、可视化技术等有效的知识映射方式来对结果进行关联。
大数据的知识库、大数据存储技术以及大数据分析技术为图书馆构建新型知识服务引擎提供了可能。图书馆可充分利用知识服务引擎系统为用户提供“界面更友好,服务更具体”的知识服务。另外用户也可以根据自己的知识需求进行个性化定制、同时对提供的服务内容进行用户评价,提出具体的使用意见,方便图书馆员调整服务策略,改进知识服务引擎的框架体系,实现用户
和图书馆的互利双赢。基于大数据构建的知识服务引擎,将使得图书馆真正实现角色转变,从信息提供者转变为知识提供者,更好的应对大数据的危机与挑战,为自身在大数据时代争得一席之地。
4结语
毋庸置疑,大数据时代已经来临,高校图书馆要构建新型的知识服务体系,需要数据+技术+思维三管齐下。第一由于数据的异质、异构的特性,图书馆需要解决大数据的可表示性、可处理性、可融合性及可靠性4个关键问题[13]。第二是大数据技术的应用,图书馆需要一批会灵活使用大数据分析工具的数据分析师,需要从关注资源技术、图书馆技术转变为关注知识技术和用户技术,从劳动力密集服务转变为方法、工具与计算密集型服务[2]。最后比资源、技术更重要的是要实现观念的转变,即具有大数据思维。相信在不久的将来,图书馆将陆续步入大数据时代,尽管图书馆有资源的优势,但在技术方面的劣势将是图书馆开展大数据服务的一大挑战,图书馆如何扬长补短,避免自己地位边缘化,将是每一个图书馆人必须深思的一大问题。endprint
参考文献
[1]James Michalko,Constance Malpas,Arnold Arcolio.Research libraries,risks,and systemic change[OL].http:∥www.oclc.org/research/publications/library/2010/2010-03.pdf,2011-11-15.
[2]张晓林.研究图书馆2020:嵌入式协作化知识实验室?[J].中国图书馆学报,2012,(1):11-18.
[3]http:∥baike.baidu.com/subview/6954399/13647476.htm?fr=aladdin[EB].
[4]维克多·麦尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.
[5]和婷.大数据思维对图书馆信息服务工作的启示[J].图书馆建设,2014,(1):64-68.
[6]李晓辉.图书馆科研数据管理与服务模式探讨[J].中国图书馆学报,2011,(5):46-52.
[7]沈志宏,张晓林,黎建辉.Open CSDB:关联数据在科学数据库中的应用研究[J].中国图书馆学报,2012,(5):17-26.
[8]孙卓.基于大数据构建图书馆知识服务引擎研究[J].图书馆学研究,2013,(18):48-51.
[9]曹霞.高校图书馆非结构化大数据的D-SFSD管理模式研究[J].图书馆学研究,2014,(1):57-60.
[10]张兴旺.图书馆大数据体系构建的学术环境和战略思考[J].情报资料工作,2013,(2):12-17.
[11]鄂丽君.国外大学图书馆的科研数据管理教育[J].情报资料工作,2014,(1):101-105.
[12]孙卓.基于大数据构建图书馆知识服务引擎研究[J].图书馆学研究,2013,(18):48-51.
[13]秦晓珠,李晨晖,麦范金.大数据知识服务的内涵、典型特征及概念模型[J].情报资料工作,2013,(2):18-22.
(本文责任编辑:马卓)endprint