桂罗敏
(上海大学 图书馆,上海 200072)
纵观图书馆学史,从阮冈纳赞的图书馆五定律[1],到IFLA、ALA、ALIA、CLA所宣称的图书馆核心价值[2],无不体现着图书馆用户的核心地位。尽管现代科技的高速发展改变着图书馆的功能,但“一切为了读者”依旧是图书馆不变的宗旨。然而,面对各种信息的海量涌现,信息获取手段的层出不穷,高校图书馆又该怎样为用户提供服务?对于高校图书馆来说,除了引入新技术和新方法之外,当立足于本校用户的需求,制定适当的策略,提供有效的服务。
那么,如何获知本校用户的需求?这是图书馆真正需要面对的难题。目前的高校图书馆在资源建设、信息服务技术方面都有很大改观,但在获取用户需求的方法和途径方面则是变化缓慢,跟不上时代步伐。传统方式有其不可替代的功能,但若不能及时地了解用户需求,势必会影响到图书馆资源的合理配置,也会影响到用户对图书馆的信任度。为了更好地服务用户,高校图书馆需要拓展思维,整合传统和现代技术,在用户需求获取方面,寻求更有效的途径和方法。
从理论到实践,高校图书馆从未停止过对用户需求的探索和研究,目前所采用的主要方式有需求征询、抽样调查、嵌入式服务等等。在实际工作中,这几种方式各有优势和不足。
用户需求征询,是目前使用最普遍的方式,由图书馆向用户征询意见和需求。具体包括很多形式,比如,图书馆门厅常设实体咨询岗、图书馆网页专设在线或邮件咨询、馆长信箱或读者意见栏、业务部门的互动专栏等。这些途径的最大优点是直接和便捷,但缺点也显而易见,由于这种形式需要用户主动向图书馆表达需求,大多数用户可能不愿意花费时间做评论,或者即使愿意表达也不甚明确。这就导致图书馆所能收集到的用户直接表达的需求信息来源不稳定,数量也非常有限。
抽样调查是对用户的有意向的主动询问和交流。调查者将需要获取的事实,分解为更为细小的变量和指标,抽取特定的样本人群,通过问卷或访谈收集相关数据[3]。比如,北京大学图书馆2012年通过问卷对读者需求进行调查,发现了高校不同读者群体对图书馆的不同态度[4]。
用户抽样调查的优点是可以把控整个过程,且所获信息相对比较全面和客观,但也存在不少问题:一是有主观导向性。在预先设计调查问卷时,难免掺入研究人员的主观意志。二是缺乏个体性。因为抽样调查关注整个群体的需求,调查的大部分是普遍性问题,对个体的特殊需求较难涉及。三是成本较高。抽样调查需要耗费较大的人力和财力,周期也较长。
所谓嵌入式服务,就是图书馆服务人员通过虚拟和物理的途径,进入用户群体,站在用户角度制定策略,提供个性化服务。嵌入式服务因其弥补抽样调查存在宽泛和无个性的缺陷,在图书馆备受青睐。目前大家所采用的主要方法有:与学院、学术团队或个人建立长期合作关系;进入课堂了解学生需求;进入课题组参与科研过程;建立互动平台与用户交流等等。清华大学、上海交通大学和厦门大学等高校的图书馆,在嵌入式学科服务方面积累了大量理论和实践经验。[5]
与抽样调查偏重整体相比,嵌入式服务最大优点是能够对用户需求进行精细化研究,但是嵌入式服务同样存在不少弊端。一是投入成本高,收益小。为了与某学术领域用户深入对话,学科馆员往往需要花费大量时间和精力去熟悉相关学科,尽管如此,却依然很难保证让该学科领域的用户满意。二是服务面窄。学术发展导致学科越来越细化,图书馆服务人员只能在众多的研究领域选择极小部分相对地深入跟踪。[6]
目前,大数据作为热门议题,受到社会各个领域的关注。大数据并非只是一个时尚名词,而是改变我们生活、工作和思维的新型理念。无论什么行业,都将主动或被动地纳入大数据进程。目前,国内的图书馆用户需求获取途径受制于传统思维方式,需要以大数据的思维来拓展相关研究,将图书馆学引领到新途径之上。
大数据概念诞生于20世纪80年代,2009年之后才真正在互联网信息技术行业流行起来。所谓“大数据”是指一种数据集合,其一般被概括为4大特征:数据规模大(Volume)、数据类型多(Variety)、数据处理速度快(Velocity)、数据价值密度低(Value),即所谓的4V 特性[7]。
大数据并不仅仅是巨量的数据,而是创造新价值的源泉。各个不同的领域都有着爆发式增长的数据量,比如,人们在互联网上发布的信息,用户网络行为生成的数据,全世界无数工业设备、汽车、电表上的数码传感器,随时测量和传递的有关位置、运动、震动、温度、湿度乃至空气中化学物质变化的数据信息。这些数据的规模已不能以T,而需要以P、E、Z来计量。人们在收集储存数据的同时,发现这些巨量数据不仅提供信息,在经过专业化加工处理后还会产生出意想不到的“增值”意义。随着大数据事务的深入和扩展,从医疗保险到银行业,从商业销售到政府管理,甚至教育和文化,都将从数据的“增值”开发中获得巨大利益。哈佛大学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”[8]
其实,大数据还不仅仅意味着创造新价值,它还带给社会一种新的思考方式和生活态度。被誉为“大数据时代预言家”的维克托·迈尔-舍恩伯格认为,社会的本质是数据,一切皆可量化,一切皆是数据。[9]97-120从我们自身到环境中的一切信息都可以作为数据予以记录、分析,世界是一个可以预测和把握的世界。
大数据是个新兴概念,但大数据相关理论和技术很早就在许多领域推广和应用。作为信息服务的前沿领域,图书馆更是首当其冲。
图书馆领域虽非以大数据理论技术为研究重点,但实际上围绕大数据技术开发利用的研究成果相当丰厚。我们可用有关大数据技术的发文量予以证明。在CKNI的图书情报学科范围内,以大数据的相关技术概念为主题词获取论文数量:以“数据库”为主题词,获得相关论文6 593篇,内容涉及数据库技术、专业数据库、特色数据库等等。以“数据挖掘”为检索词,获得相关论文330篇,其中最早的是1999年《情报杂志》增刊上的一篇文章[10],探讨数据挖掘技术在数据库系统中的使用。之后,有较多文章探讨数据挖掘在图书馆业务中的功用,例如顾倩关于图书馆个性化服务的探讨[11], 近年则偏重于挖掘技术具体案例,例如刘军用决策树算法来分析读者的阅读偏好[12]。另外,以大数据技术概念为检索词亦获得不少的论文,如“元数据”有2 106篇,“云计算”有867篇,“关联规则挖掘”有161篇,“可视化技术”有128篇,“数据聚类”有109篇,等。[13]
可以说,图书馆领域较早关注并涉足大数据技术的应用和开发,这些丰厚的理论成果是对图书馆尤其是用户研究领域的有力支撑。
在探讨大数据思维如何应用于图书馆用户需求获取之前,有必要先厘清大数据对于高校图书馆用户需求研究的必要性和可能性。
1. 引入大数据思维的必要性
众所周知,信息服务业竞争激烈,高校图书馆面临严峻的生存挑战。电子期刊数据库和联机电子图书馆的新产品,以良好的个性化服务,便捷的操作界面,吸引着高校信息用户。高校图书馆因为不能满足用户日益增长的需求而导致用户流失。而更令人担忧的是,信息开发商们在争夺用户的同时,同样争夺着用户的需求信息资源。他们将用户的各种信息储存、开发,用以进一步提升其产品。
高校图书馆要改变这种被动局面,唯一可走之路是针对自己的用户群体,开发他人无法取代的服务项目,这一切必须依赖于对本校用户需求数据资源的掌握和利用。和自然资源、人力资源一样,数据也是一种资源[14]。不少服务性企业在将对已有的用户信息和数据进行分析之后,改变经营策略,成功营销。同样道理,每个高校拥有各自独一无二的用户需求资源,如能尽早地对这些用户需求数据资源进行挖掘和利用,将大大提升高校图书馆的工作效能,为图书馆服务开拓出新的天地。如果漠视用户信息数据资源的存在,将使得图书馆长期处于被动和尴尬的境地。
2. 引入大数据思维的可能性
有人认为,大数据技术要求拥有巨大的数据容量,而高校图书馆的服务对象只有几千上万人,与Google、亚马逊每天亿万计的浏览量,是小巫见大巫,根本谈不上大数据。这是一个认识误区。
首先,从数据量上看,因为高校图书馆用户并非固定而是流动的,每年有老生毕业新生入校,几千位新生便是图书馆的新用户。经年累月,其用户数据的容量也是惊人的。其次,大数据的数据容量是个相对数量。随着科技的发展,人们对数据容量的认识和要求都在飞速变化,今天的数据量对于明天来说只是一小部分。再次,用户需求的数据有无限细化的可能。对于一个图书馆用户,与图书馆发生联系,便产生了需求。比如,进入图书馆之前,他的需求是找某本书,或者寻找某问题的答案;进入图书馆空间后,他需求服务人员的微笑,需求检索界面的便捷流畅。这些需求可以再进一步细化,比如他需要获得一本什么书、他是否具备足够的寻找技能,等等。关于需求的探究可以被不断深入细化,这样所获取的用户需求数据容量将是无法估算的。
总之,高校图书馆拥有足够的用户需求信息和数据有待开发。随着用户与图书馆之间互动深度和频度的拓展,在一切皆可以成为数据的理念下,大数据更加注重如何更为细致地认识、挖掘数据之间的联系。
以大数据思维开拓用户需求获取方式,是对原有思维模式的改变。维克托·迈尔-舍恩伯格曾在他的论著中提炼了大数据的主要思维特征[9]27-94,笔者以此为参照,归纳出大数据思维下的图书馆用户需求获取方式的几个特点:
1. 研究对象从抽样到全体
在技术受限的时代,人们以抽取随机样本来推测全体,从小数据中获得模型,尽管存在不可避免的偏差,却是无奈之举。一直以来,图书馆通过抽样调查研究来获取高校用户群的需求状况,并为降低偏差而扩大样本容量,而随着用户群复杂程度的增加,抽样难度愈来愈高。在大数据时代,高超的数据收集和处理能力,使得全体成为样本,分析与某事物相关的所有数据,统计偏差越来越小。我们无需面对面询问用户每周造访图书馆的次数,只要技术到位,计算机可以忠实地记录所有用户与图书馆的任何互动行为。
2. 追求效率降低成本
在数据收集量较小的时代里,为了保证结果的准确性,对每一个测量点上的数据追求精确,但由于将精力过于集中在个体上,未必能获得明显的效率。图书馆用户抽样调查往往耗费不菲,而且周期越长投入成本越高。图书馆的嵌入式服务希望获取精准的深度信息,往往将服务力量集中于几个教师,所获取的大部分数据却很难应用于整体。大数据时代强调的是数据的完整性和混杂性,不重视某个数据的精准,而是追求能否快速地获得一个事物的大概轮廓及其发展脉络,追求以低成本获得高效率。大数据让图书馆全面迅速地获取各类用户信息,大大降低人力和物力的耗费。
3. 寻求相关而不是因果
在信息量较小的时代,人们偏向于以因果关系来推理和判断事件之间的联系,一般是找出事件发生的起因,揭示其内部的运作机制来预测走向。比如,图书馆发现工具书阅览室读者入室量下降,分析原因是用户已经偏向于使用电子版工具书,得出的结论是专设实体工具书阅览室没有必要。在大数据时代,随着掌握信息的全面,事件之间将呈现出更多的相关关系而不是简单的因果关系,大数据技术则提供快速寻找现象间相关性的能力。比如,通过数据分析得出时间点或者气候与图书馆用户咨询量有着相关关系,由此通过建立一个关联模型,以时间或气候来预测咨询接待量,随时调整咨询人员的数量布设。大数据的相关关系分析法快速准确,而且不易受偏见的影响。
用户需求信息资源的大数据开发利用,除了改变原有思维,更为重要的是如何将新思维转化到实践中去解决具体问题。这是一项庞杂的系统工程。本节就目前国内图书馆大数据实践现状做简要分析,并提出相关的建议。
有学者认为,思维所包含的价值往往需要外在形式结构来体现,当大数据的思维被应用到某个组织中,也将引起组织结构的变革[15]。高校图书馆引入大数据的思维模式,必然也需有相应的结构变动。
传统图书馆的结构一般由业务决策层、资源建设、读者服务、技术、情报等部门分别承担统筹决策、建立馆藏、一般服务、技术支持、深度服务的功能,其基本结构如图1所示:
图1 传统图书馆组织结构
在这个结构中,各个职能部门基本自成体系、各司其职;部门之间的合作任务,则由业务决策层协调安排。
在大数据思维指导下,围绕用户需求研究,图书馆职能和结构需要做出调整,其简易结构如图2所示:
图2 大数据思维下的图书馆组织结构
数据部是图书馆的智囊部门,其基本职能是收集和分析数据,为各个业务管理层提供决策支持。具体内容包括:收集信息,建立数据库,制作模型,分析用户需求,为管理层和各个业务部门提供决策依据。日常工作中,数据部除了为管理层服务,也与图书馆各个部门频繁互动,指导各业务部门的数据汇总,并对其日常业务提供数据模型和决策帮助。数据部人员素质要求较高,既要懂得数据分析知识,又要熟悉图书馆业务,同时还要具备良好的沟通能力。
从理论上讲,大数据的完整流程需要一系列步骤:获取、存储、组织、分析、决策、评估,以及可视化和利用[16]。根据目前高校图书馆的现实状况,眼下的重点应放在用户需求数据获取上。
1. 构建本校特色数据仓库
如前所述,在数据开发利用上,无论是技术还是人力,高校都不能与专业信息开发商相提并论,高校图书馆的立足点在于围绕用户需求,建立有本校特色资源的数据仓库。所谓数据仓库是一种来自多数据源的数据长期存储形式,用于支持管理决策。通常有一定主题并在某种一致模式下存放。[17]它与眼下高校都在营建的机构库有同也有异。机构库存储由某个或多个学术机构人员创造的学术成果,供机构内外用户共享,而数据仓库所储存的数据内容和类型更为复杂,它用于部门制定服务策略时提取所需数据之用[18]。
特色数据仓库数据的来源,一是由本馆设备和系统采集的数据;二是本校其它部门提供的数据资源。作为面向师生的服务部门,图书馆可与科研、教务部门及各学院建立起信息交流渠道,系统性获取本校用户的相关数据,如本校的研究领域教师科研项目的立项情况、课程设置等即时信息。
2. 扩大数据采集源头
物联网技术主要包括射频识别技术(RFID)、传感器技术、无线通信技术、计算机网络技术等多种技术,这些技术的使用将对图书馆的环境、用户、资源等进行全方位的感知,是未来智能图书馆的发展方向。近年来,射频识别技术已在高校图书馆渐渐得到推广,跟踪、记录每本图书刊物的流通和使用情况,成为获取用户需求信息的重要来源。
除了改造用户需求获取技术,如何利用好已有技术也是一个重要问题。比如开发射频识别技术,要重点考虑如何与数据采集工作相结合。另外,需要以敏锐思维在可能产生数据的地方设立数据监测点,比如让自助复印机记录下用户复印频度等的信息,可能有助于文献采购策略的制定。图书馆可让每个功能部门发挥数据收集的主动性,以获取更丰富、更全面的用户数据。
3. 采集用户需求数据追求广度和深度
数据无处不在,关键是如何从广度上和深度上去感知和把握。在信息时代,用户需求的特性、类型、形式等日益多样。以基于互联网上的互动平台、RSS、微信、博客以及微博,是用户表达需求的途径,也是图书馆获取用户需求数据有效采集渠道。图书馆可让专门人员负责在网络渠道上捕捉各种有关于图书馆用户的需求信息。
用户需求数据并非都是显而易见的,需要深度分析才能获取。比如某图书馆要建数据模型监测某软件的使用流量,在分析历年流量数据后发现,某些时间段会周期性出现高峰。经深度分析后获知,该现象与校研究生部规定的毕业论文开题时间有关,在开题之前的时间段里,该检索系统将出现研究生用户的使用高峰。此例中,开题时间和周期是容易被忽略的隐形因素。对于研究者来说,用户需求数据更多是隐秘的,不易发现的。借助大数据的挖掘功能可挖掘出隐性知识、规则和关联,但更需研究人员花更多的时间和精力深入分析,细心缜密地推敲和判断。
[参考文献]
[1] [印]阮岗纳赞. 图书馆学五定律[M]. 北京:书目出版社,1988:1-10.
[2] 王东艳. 图书馆核心价值研究综述[J]. 情报资料工作, 2009(7):27-31.
[3] 袁方. 社会研究方法教程[M]. 北京:北京大学大学出版社,1997:128-131.
[4] 赵飞. 高校读者群体需求差别研究——以北京大学图书馆2010年读者需求调查为例[J].大学图书馆学报,2012(4):76-82.
[5] 黄琴玲. 面向国际化院系的嵌入式学科服务创新实践与特色——以上海交通大学图书馆机械动力学科服务为例[J]. 图书情报工作,2012(11):69-71.
[6] 艾春艳,等. 读者参与的高校图书馆学科服务新模式探讨[J] . 大学图书馆学报, 2011(5): 70-72.
[7] 马建光. 大数据的概念、特征及其应用[J].国防科技,2013(4):10-15.
[8] 常政.爆发:大数据时代的人类行为模式[N].中华读书报,2013-01-16(18).
[9] [英]维克托·迈尔-舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2012.
[10]石冰.信息检索中的数据挖掘技术[J].情报学报,1999(增)(3):103-106.
[11]顾倩.数据挖掘应用于高校图书馆个性化服务的探讨[J].图书馆杂志,2013(8):63-65.
[12]刘军.数据挖掘在读者阅读需求偏好研究中的应用[J].图书馆论坛,2012(5):89-93.
[13]桂罗敏.基于麦肯锡核心概念的国内图书馆大数据技术研究状态量化描述[J].图书馆界,2014(4):57-60.
[14]李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012(8):8-15.
[15]姜奇平.大数据的时代变革力量[J].互联网周刊,2013(1):34-37.
[16]张兴旺.图书馆大数据体系构建的学术环境和战略思考[J].情报资料工作,2013(2):12-17.
[17]韩家炜.数据挖掘的概念与技术[M].北京:机械工业出版社,2012:14-16.
[18]张静.大学机构库构建过程中的关键问题研究——以西安交通大学机构库为例[J].现代情报,2011(6):138-140.