〔摘要〕通过介绍高校图书馆用户行为概念和类型,以及图书馆多种智能设备生成的数据以“数据孤岛”的形式存在的现状,提出依托大数据技术构建信息服务平台,并设计多个功能模块,挖掘、分析用户行为数据,感知用户需求,满足用户全生命周期信息需要,最后对大数据环境下图书馆信息服务工作提出几点建议。
〔关键词〕用户行为;大数据时代;数据挖掘;信息服务平台;全生命周期
DOI:10.3969/j.issn.1008-0821.2017.01.024
〔中图分类号〕G252〔文献标识码〕A〔文章编号〕1008-0821(2017)01-0127-04
〔Abstract〕By introducing the concepts and types of user behavior in university libraries,and describing the situation that the data obtained through different sources of smart equipment were highly isolated,the paper studied the method of constructing information service platform respectively by big data technology,designing multiple functioning modules,investigating the data of user behavior,understanding users needs,satisfying users lifetime information requests,and finally brought up several critical suggestions on how to improve library information service under big data era.
〔Key words〕user behavior;big data era;data mining;information services platform;lifetime
當今社会是知识经济与网络化的时代,互联网上各类信息种类繁杂,百度、谷歌等互联网搜索引擎工具给予用户获取信息的便利的同时,也带给高校图书馆越来越大的压力。为了进一步拓展信息服务的空间,将用户牢牢地吸引在图书馆的周围,分析研究用户行为特点是当前高校图书馆迫切需要认真对待的一项重要工作。因为,随着社会的发展,用户逐渐成为决定图书馆存在的关键因素,没有用户“光临”的图书馆将失去存在的意义,图书馆要生存和发展,就必须提供优质的服务以满足用户的需求[1]。本文就图书馆依据大数据技术融合多源数据,挖掘分析用户行为数据,增强感知用户信息需求的能力,有针对性提供信息服务等工作阐述相关的一些理念和建议。
1高校图书馆用户行为分析的现状
1.1用户行为及数据类型
1.1.1用户行为表现形式
高校图书馆是为学校教学和科研工作提供信息资源保障与信息服务的学术机构,其信息资源建设与服务也是紧紧围绕着教学和科学研究等需求开展工作,广大师生用户在教学、科研以及专业课学习等方面对信息资源具有持续的需求。互联网技术的发展不仅充实了图书馆的信息资源,而且拓宽了用户方便快捷地获取信息的途径。信息环境的变化使得用户的信息习惯、信息获取方式都发生了新的变化[2],用户行为不仅仅局限于图书馆信息资源,部分用户行为也会涉足互联网,面对网上参差不齐的各类资源查找自己需要的信息。在这样的背景下,图书馆迫切需要通过智慧化的信息技术,敏锐洞见用户行为出现的新变化和新特点,通过用户行为感知其信息需求,利用自身专业优势提供相应的服务。所谓用户行为是指用户为解决某种问题或实现某一特定的信息需求,在外部作用刺激下对事实、数据、观点等信息及其获取方式表现出的获取、查询、交流、传播、吸收、加工和利用信息的行为[3]。用户行为一般有以下两种表现形式:一是网下行为,即用户在图书馆内各个阅览区域浏览、查找、借阅图书,或直面馆员咨询其它信息资源等事项;二是网上行为,即用户通过网络(利用学校或图书馆有线网络/移动网络)登录数字图书馆网站或互联网,在线咨询、浏览、检索、讨论、留言、发布(图片、视频)信息、下载相关电子信息资源等信息需求行为等活动。
1.1.2存储的数据结构类型
在信息存储技术和网络通讯技术日新月异的大环境下,高校图书馆正经历全方位的数字化建设,作为图书馆的知识服务门户,数字图书馆众多信息智能设备每天都在持续不断地“创造”出惊人的数据,这些数据中既包括书目数据、报纸期刊数据、用户借阅书刊数据等结构化数据,也包括用户在网站浏览发表的评论、上传的图片、音乐、视频,以及用户使用的网络设备种类、数量、使用人员的位置、移动轨迹等半结构化和非结构化数据,这些数据总量以实时、迭代的方式不断增长。图书馆已然成为“名副其实”的数据中心,图书馆的“大”数据时代已经到来,虽然单个图书馆所累积的数据总量远没有达到业界谈论的大数据规模,但是,图书馆累积数据总量不可小觑,其中仍然包含着许多高价值的信息,它对高校图书馆建设与发展将发挥着不容忽视的重要作用。
1.2用户行为数据分析与利用面临的问题
许多高校图书馆由于受到自身技术能力的限制,没有实现全部数据源有效的融合与利用。信息化智能设备生成的多源数据绝大多数都是以“数据孤岛”的形式存在着。分散存在的不同规模、不同结构的数据源中蕴含着丰富的“高价值”、彼此相关联的用户行为数据[4],本可以通过信息技术的进步感知用户的需求,由于服务意识以及技术手段都没有与时俱进地采取相应措施有效整合多源数据,以致使许多“高价值”的信息被图书馆“忽略”掉了,信息需求与服务之间的互动似乎出现脱节,图书馆信息服务模式与手段没有随着信息技术的进步和用户信息需求的变化而随之有效地改善与提高。在面对用户个性化信息需求特征更加显著的情况下,图书馆信息服务工作必须建立在敏锐洞察用户信息需求行为变化的能力的基础之上,并及时做出灵活有效的专业信息资源传递。数字图书馆与大数据的融合是大势所趋,将数字图书馆纳入大数据的环境下进行研究和建设,依托大数据技术,构建智能化信息服务平台,挖掘与分析用户行为数据,针对用户开展个性化信息服务具有重要现实意义。
2大数据环境下高校图书馆信息服务平台架构研究
2.1构建信息服务平台的目标
在大数据时代构建高校图书馆智能信息服务平台,其目标是在图书馆现有的结构化数据信息服务系统及服务模式的基础上,依托大数据技术整合图书馆所有智能设备收集的相关数据,归纳用户行为数据,诸如用户在图书馆行进路线、停留位置与时间、浏览借阅书刊、咨询事项或在网络上检索、阅读、下载等所产生的网络日志、会话信息、评论信息、搜索查询记录等全部结构化和非结构化数据进行收集、储存、挖掘、发现、分析和应用,实时感知用户的信息需求,利用图书馆馆藏信息资源和互联网上的信息资源优势,提炼加工符合用户需求的信息,并通过各种方式向用户提供个性化信息服务,满足用户全生命周期信息需求,使用户真正感觉到高校图书馆是其不可或缺的知识宝库,增加用户对图书馆的“黏度”。高校图书馆大数据挖掘分析系统架构见图1。
2.2高校图书馆智能信息服务平台研究
高校图书馆智能信息服务平台的设计要求是在充分分析用户需求行为数据后即时开展相应服务,服务平台应该具有开放性,层次结构简单特点。本文提出了一种大数据环境下高校图书馆智能信息服务平台构建体系架构,如图2所示。该图主要描述了大数据智能信息服务平台中所涉及的功能模块[5],其中包含:行为数据池模块、行为数据整理模块、行为数据分析模块、用户行为特征模型、用户行为长期跟踪服务模型[4]、信息资源加工模块、服务信息推送模块、信息服务质量反馈模块。
2.2.1用户行为数据共享池模块
行为数据共享池模块是高校图书馆智能信息服务平台的最底层。高校师生的信息行为数据分散存储在图书馆不同的智能系统中,通过大数据技术将各种数据资源汇聚起来。在汇集的所有数据中捕获全部可用的数据,以高度并行的方式组织和提取数据,将数据转换为易于分析的内容并快速载入到用户行为数据共享池中,实现结构化数据、半结构化数据及非结构化数据的存储、交换,并将相关数据传递到行为数据整理模块。
2.2.2用户行为数据整理模块
行为数据整理模块对接收过来的数据进行规范化处理。具体是采用分布式的技术框架(Hadoop)[6],对非关系型数据进行异质性分析处理(NoSQL),通过 “数据清洗”、“数据转换”等净化处理后实现数据平滑聚集、数据概化等方式将数据转换成适合数据挖掘算法要求的数据形式[7],为多维度的用户行为数据分析提供基础保障。
2.2.3用户行为数据分析模块
行为数据分析模块对接收过来的数据进行实时检索、知识及语义分析、智能挖掘等操作,对数据挖掘后的相关数据进行分析、筛选、多维度数据抽取及递归,发现用户行为习惯,找出其中规律,根据用户的信息行为特征,将用户细分为不同的数据粒度,以识别不同用户之间相似的信息行为及相同用户在不同时间段差异性的信息需求行为[8]。通过对这些数据进行分析,得到数据分析结果,一方面将结果导入到用户行为特征模型库;另一方面将分析后的数据传递到信息资源加工模块。
2.2.4用户行为特征数据模型
用户行为特征数据模型是通过收集、分析到的用户行为数据中的统计和语义特征,将其概括为抽象的数据特征模型库,为用户的信息需求行为分析以及后续信息资源加工提供依据。该特征模型随着用户行为数据的出现新的变化后,将对已有模型进行局部调整或修正,形成新的特征数据模型。
2.2.5用户行为长期跟蹤服务模型
用户行为长期跟踪服务模型是汇集用户长期行为习惯与特征,预测性分析用户信息需求类型与研究方向,建立用户在学校工作或学习信息需求“全生命周期”服务跟踪数据模型。所谓用户信息需求“全生命周期”是指从图书馆与用户建立一定的信息需求与服务关系开始到这种需求与服务关系的最后终止的全过程[9]。长期跟踪服务数据模型可以按用户类型,如教师、本科生、博硕研究生及其它人员分类,也可以按用户专业学科分类,主要目的是长期(即用户在学校工作或学习期间)为该类型用户信息服务提供依据。
2.2.6信息资源加工模块
信息资源加工模块获知用户的实时信息需求后,根据高校专业设置情况,针对用户不同的信息需求,依据用户行为特征数据模型和用户行为长期跟踪服务模型相关数据,利用馆内丰富的信息资源和互联网上单位及其它联盟图书馆的信息资源数据进行相关信息分类、重组、提炼、归并操作后,实现信息资源与用户的精确匹配。对于已经匹配成功案例,系统将其纳入用户行为长期跟踪服务模型库中,使该服务模型不断加以丰富与完善。
2.2.7服务信息推送模块
服务信息推送模块依据用户信息需求行为方式的差异进行有针对性的信息精准推送。推送模块采取四种信息推送方式:一是用户与馆员面对面借阅相关书籍或查询电子资源时,系统会在较短时间内,依据用户实时位置,通过馆员向用户推荐其需要的信息;二是当用户通过传统桌面网络系统使用图书馆查询信息或咨询、讨论问题时,推送模块根据数据分析的结果,将信息资源推送到用户所使用的桌面电脑中;三是当用户使用智能移动设备查询信息或咨询问题时,系统会根据用户的移动终端位置及终端系统类型,及时向用户发送其需求信息,如推送信息量超大,超出移动终端处理能力,推送模块会指定用户去附近的空闲计算机下载相关数据;四是当用户在图书馆馆舍以外的某个区域查询信息或咨询问题时,系统会根据用户个人注册信息,将信息资源推送到其E-mail信箱内。
2.2.8信息服务质量反馈模块
用户在接收相关服务信息后,可以自愿通过信息服务质量反馈模块对服务信息质量进行点评。用户评价结果可作为服务平台内用户行为长期跟踪服务模型进行适当修正与完善的依据。随着反馈信息的积累,这些反馈信息又可以回溯到行为数据分析模块中,协助工作人员修正数据挖掘分析算法,并进一步更新完善用户行为特征模型,使今后用户个性化服务更加精准化,更进一步提高个性化信息服务平台的服务效果。为鼓励用户积极参与用户评价,图书馆可对热心进行评价的用户进行适当“奖励”,力求提升用户信息需求与图书馆服务良性互动水平。
3大数据环境下高校图书馆信息服务工作的建议
3.1信息服务工作要具有大数据思维
近年来,大数据技术的快速发展深刻改变了人们的生活、工作和思维方式。利用大数据技术储存、融合、挖掘、分析用户行为数据,图书馆信息服务工作也必须要有大数据思维。因为在现代信息社会,当图书馆拥有海量即时数据时,得益于大数据技术的突破性发展,图书馆可以更加方便、快捷、动态地获得用户有关的所有数据,提升了图书馆从数据中获取有价值信息的能力,以点带面不再是图书馆追求的主要目标,信息服务思维方式要从样本思维转向总体思维。大数据技术在高校图书馆的应用要求馆员也必须要具有大数据思维,这是对传统的小数据管理思维进行有效拓展,即由资源管理向数据管理思维拓展,从而使馆员能够更加全面、立体、系统地认识总体状况,这样反而可以在宏观层面拥有更好的知识和洞察力[10]。
3.2建立并完善用户行为长期跟踪服务模型库工作
依托大数据技术将多源数据充分地进行融合,经过深入分析、挖掘出数据背后的用户行为规律特征,将其概括为抽象的用户行为长期跟踪服务模型,进而为用户信息需求“全生命周期”的信息服务提供依据,这项工作是各个高校图书馆要认真对待的一件大事。随着学校专业学科的发展变化,结合用户行为数据的新变化对已有模型进行局部调整或修正,形成新的用户行为数据分析模型,或者直接提出符合新时期的用户行为新模型[11],实现图书馆对用户个人的精准定位与服务,这将对图书馆信息服务能力的提升具有重大意义。
3.3以学科馆员队伍建设为纽带带动整体服务能力提高在大数据环境下,由于用户的信息需求呈现出越来越个性化的趋势,图书馆用户服务面临着科学研究对象多样化,科研需求专业化,科研交流精细化和科研数据共享化的挑战[12],所以图书馆必须要真正建立起一支专业能力强的学科馆员队伍,构建学科知识共享服务体系,学科服务的模式要由简单的联络服务向直接支撑科研过程的深度服务转变;学科服务的内容要由提供文献检索、培训、咨询服务向知识管理与知识服务转变;学科服务的场所要由馆内服务向融入教学一线、嵌入科研过程转变;学科服务的方式要由学科馆员个人能力向学科馆员团队以及学科馆员与用户的团队协同转变,最终提升大数据环境下图书馆信息服务的生命力。通过学科馆员队伍建设,带动其他馆员业务素质和服务能力的提高,这对图书馆有效地开展信息服务起着至关重要的作用[13]。
3.4建立大数据环境下图书馆信息资源分析保障系统在大数据技术快速发展的社会环境下,高校图书馆面临着前所未有的数据量和数据分析需求,不同来源的数据融合与分析保障系统是构建图书馆挖掘、分析用户信息行为的重要保障。数据资源分析保障系统应该是系统化、综合化的资源体系和管理体系,各个高校图书馆都应该参与其中,力争实现自上而下的全国中心、地区中心、省中心、成员馆和数据图书馆基地的服务体系。在信息技术进步引领下,将多源数据充分地进行集成,将各种类型的信息资源进行有效整合,可形成图书馆信息资源建设与用户信息行为研究的良性互动[14]。
參考文献
[1]李宇佳,张向先,张克永,等.用户体验视角下的移动图书馆用户需求研究[J].图书情报工作,2015,(3):90-96.
[2]谭丹丹.基于读者到馆行为分析的图书馆服务优化策略[J].图书工作与研究,2011,(1):110-115.
[3]胡昌平.现代信息管理机制研究[M].武汉:武汉大学出版社,2004:124-132.
[4]李艳,吕鹏,李珑,等.基于大数据挖掘与决策分析体系的高校图书馆个性化服务研究[J].图书情报知识,2016,(2):60-68.
[5]李善青,赵辉,宋立荣,等.基于大数据挖掘的科技项目查重模型研究[J].图书馆论坛,2014,(2):81-83.
[6]杜鑫.基于大数据分布式技术架构在上网行为分析中的解决方案[J].广西通信技术,2014,(3):14-17.
[7]谭磊.大数据挖掘[M].北京:电子工业出版社,2004.
[8]栾旭伦.大数据环境下高校图书馆个性化信息服务系统研究[J].图书馆学刊,2014,(8):118-121.
[9]应维云,覃正,李秀,等.面向客户全生命周期价值的客户行为分析决策支持研究[J].情报杂志,2008,(7):19-22.
[10]中国社会科学网.大数据带来的四种思维[EB/OL].http:∥www.cssn.cn/shx/shxbjtj/201501/t201501261492088.shtml,2016-07-28.
[11]官思发,孟玺,李宗洁,等.大数据分析研究现状、问题与对策[J].情报杂志,2015,(5):98-104.
[12]张宏.我国高校图书馆大数据研究现状分析[J].图书馆工作与研究,2016,(7):46-50.
[13]王捷.大数据时代下图书馆开展信息服务的对策[J].现代情报,2013,(3):81-83.
[14]官思发,朝乐门,等.大数据时代信息分析的关键问题、挑战与对策[J].图书情报工作,2015,(2):12-18.
(本文责任编辑:孙国雷)