周 欣 陆 康
(南京晓庄学院图书馆,江苏南京211171)
基于图书馆数字资源访问系统的读者行为数据挖掘研究
周 欣 陆 康*
(南京晓庄学院图书馆,江苏南京211171)
通过分析读者在图书馆数字资源系统的行为日志数据,可以准确的挖掘出读者的真实需求,更好的为读者提供个性化服务。文章先介绍了读者行为分析在图书馆行业的研究现状,以及对读者行为挖掘的研究意义,然后介绍了对读者在数字资源访问系统中的访问日志数据进行数据采集、数据挖掘的方法,构建了读者行为分析系统模型。
图书馆;数字资源;数据挖掘;读者行为;日志分析;聚类分析
信息时代的到来,传统的图书馆向数字图书馆转化,图书馆员的服务方式和内容也在向信息化方向转变,由传统的借阅服务及信息咨询服务,转化为以网络平台为主的信息化服务[1]。图书馆的数字资源建设,其资源的利用率有多高,如何对数字资源进行评估,读者的满意度如何,读者究竟需要什么样的数字资源,如何为读者提供更优质的数字化服务?这些问题都是图书馆所需要关注的。
图书馆是文献资源保障部门,是为读者提供优质文献资源相关的服务。有学者指出,数字图书馆网站是否成功的关键之一是能否提供个性化的信息服务[2]。现在网站门户的个性化服务已经不能够满足读者的需求,原因是多方面的,其中最主要的原因就是互联网尤其是移动互联网平台的普及,每个读者都有自己钟爱的互联网平台,例如学科博客、微博、微信等。本文从读者的资源行为入手,对读者通过对数字资源访问,得出读者的资源需求信息,通过数据挖掘技术,从中提取出读者服务与资源建设的相关的数据信息,分析读者的学科访问轨迹以及资源需求,从学科建设角度进行有针对性的向读者提供个性化的推送服务,最终向读者推荐对其有用的信息,提高读者对图书馆的信息需求满足率。
1.1 图书馆读者行为分析
互联网给读者提供了资源获取的多条途径,读者资源获取的方式也呈现多元化。图书馆对读者利用图书馆的行为需要重新进行评估。例如虽然读者到馆的人数逐渐降低,但是这种情况并不代表读者都不利用图书馆,数字资源等其他方式也是利用图书馆的一种方式。在互联网环境下,图书馆的服务模式和服务理念也需要进一步的更新。图书馆的资源建设与平台建设急需重新评估,图书馆的个性化服务也必须通过对读者的资源需求进行调整。读者的资源行为信息的获取是当前图书馆必须掌握的数据之一。
由于海量的读者行为数据以不同形式存储在不同的计算机中,同时不同的读者行为数据都存在于不同的系统中。如果未建立统一的数据分析系统,使蕴藏在其中的大量信息无法得到有效的利用,图书馆员无法为读者提供高质量的服务。如何将这些数据信息转化为知识表示,为学科建设提供更好的学科服务,为读者提供更好的信息服务,将是图书馆的工作重点。近年来图书馆为了更好的为读者服务,越来越多的学者开始研究读者的行为分析,以“图书馆”和“行为分析”为关键词在CNKI上面搜索,得到178条结果,其中硕博士论文23篇,期刊类论文155篇。论文发表的统计信息如图1所示。从图1中可以看出,在图书馆相关学者们对读者行为分析的关注,呈逐年上升的趋势。
图1 CNKI关于“图书馆行为分析”的论文发表数量
有许多学者开始关注于面向读者提出针对性的服务,例如,陈雅等学者提出利用Web日志分析技术来实现图书馆个性化[2],陈臣提出基于大数据的图书馆个性化服务用户行为分析研究[5]。也有许多学者研究读者行为的数据挖掘,例如,于徽提出数据挖掘在图书馆用户行为分析中的应用研究[6],王伟提出基于数据挖掘的图书馆用户行为分析与偏好研究[7],周伟等提出基于数据挖掘和读者行为分析的图书馆荐书系统的研究与设计[8],但是这些研究大都是基于图书馆纸质馆藏的读者行为研究,本文是针对图书馆数字资源访问系统的读者行为数据挖掘研究。
1.2 商业行为分析的成熟应用
商业的访客信息行为分析,已经被广泛运用到网上购物中,系统可以对用户访问网页的页面进行分析,向用户进行相关内容的广告推送服务,例如:亚马逊、淘宝、苏宁易购等商业网站。商业网站的个性化商品推荐与图书馆对读者的知识服务有相似的地方,表1展示了淘宝商品推荐与图书馆知识服务的相似之处。很多的购物网站为了吸引购买者的注意,都会将读者近期的搜索主题词记录下来,以便于为购物者及时的推荐想要购买的东西,增强用户的购物体验。例如淘宝的“淘宝足迹”,将用户浏览过的商品在手机客户端或者网站页面上进行展示。如何将这一功能加以开发利用,并运用到图书馆对读者的知识服务上,将读者的历史搜索记录展示给读者,针对读者的历史访问信息进行深层次的数据挖掘,有针对性的向不同类型的读者周期性的推送学科信息或读者感兴趣的信息,是图书馆技术部门所需要考虑的问题。根据这个思路,建设相关的系统对读者的行为进行分析,是提升图书馆服务的一个重要方法。
表1 淘宝商品推荐与图书馆知识服务的相似之处
1.3 对读者行为研究的意义
高校图书馆在资源建设过程中,数字资源经费的比例逐年提高,原因是多方面的,第一,资源的数字化程度越来越高,其价格也不断增高;第二,读者利用资源的方式逐步向数字资源转变。高校图书馆对于资源建设费用的投入普遍很高,数字资源的经费比例也逐年提高。传统的图书馆管理信息系统暂时还不能对数字图书馆的资源有效管理,尤其是流通中读者借阅的模块只能统计出读者对纸质图书的需求,无法统计读者对数字资源的需求。因此,分析读者对数字资源的使用行为,挖掘读者在数字资源访问系统的行为信息,找出最频繁出现的关键词序列,发现不同类别用户的阅读爱好、学科方向,找出读者的学科资源需求规律,以便运用智能推荐系统,向读者提供个性化的资源推荐提供依据,或者找出具有相近需求的读者后相互推荐资源的下载信息等。分析读者的资源需求倾向,图书馆可以根据读者资源需求,进行资源推送服务。
1.3.1 提升服务质量
通过定性分析和定量研究相结合,分析和预测读者在数字资源平台上行为,深化科研服务,为读者提供针对性的信息推送,构建优化的信息环境给读者提供更好的服务。1.3.2 优化数字资源建设
通过对读者检索及下载内容的分析,结合学校重点学科发展的方向,来调整数字资源建设和采购的方向。根据读者的下载行为来统计数字资源的利用率,可以优化数字资源的建设方案,达到将资源经费合理化应用的目的。
1.3.3 提高数字资源利用率
通过数字资源利用率信息,有针对性的对不同的数字资源进行宣传和组织培训,使广大读者充分了解和利用图书馆的数字资源。做到资源的合理化利用,提高资源的利用率,避免数字资源的浪费。
1.3.4 提升图书馆的智能化服务
分析读者使用数字资源的行为,定期为学科院系提供统计信息或最新学科资讯,构建学科与图书馆之间默契的合作关系。
2.1 图书馆数字资源访问系统
为了方便读者的信息需求,很多高校图书馆都建设或者购买了图书馆电子资源访问系统,将图书馆所有的数字资源访问汇集到一个系统或者平台中管理,方便读者访问或下载。为了使读者在校园网内或校外都能方便快捷的访问图书馆的数字资源,提高图书馆的服务水平以及数字资源的利用率,同时也更好的为教学和科研提供服务,各个图书馆都相继开通了数字资源访问系统。数字资源访问系统的一般做法是校内可以通过IP地址直接访问,而校外需要安装客户端,或者与图书馆文献服务系统进行接口对接,输入用户名和密码,可以访问图书馆的数字资源。很多高校的做法是与数字化校园的一卡通对接,实行读者一卡通实名认证系统,使用统一的入口来访问图书馆的数字资源。
南京晓庄学院与汇文文献系统相结合,数字资源访问系统与OPAC对接,通过OPAC的用户名和密码进行校外资源的访问。OPAC的数据信息同时与校园一卡通对接,每个校内读者访问数字资源时都使用统一的一卡通账号,账号信息存储读者的院系、联系方式等,方便数据的统计及消息推送。
由于读者对图书馆数字资源的使用都集中在“电子资源访问系统”的平台上,因此,可以通过此系统服务器上的读者访问日志进行数据搜集和深层次的数据挖掘,获取读者在电子资源访问系统的访问检索及下载信息。
2.2 构建模型思想
要想有针对性的向读者推荐学科信息或知识信息,首先要对读者在数字资源访问系统上的海量搜索行为进行采集;存储每个读者的历史搜索记录,了解每位读者的真实需求,为每位读者建立独有的读者信息挖掘库;然后根据这个信息库对每位读者的搜索记录进行读者行为分析,使用数据挖掘聚类算法,找到其合适的读者类型,最终为读者推荐合适的学科信息。
图书馆数字资源读者行为分析数据挖掘系统建立在MySQL或者Oracle数据库上。读者通过一卡通账户登录图书馆数字资源访问系统,进行数据检索、浏览或下载行为,在服务器上生成读者行为日志文件。本文的目的是对读者访问图书馆数字资源的行为进行分析,具体到读者常用的数据库、检索关键字、下载的文章以及读者的检索行为习惯等。具体的系统结构模型如图2所示。
对日志的处理和数据挖掘过程为:
(1)日志获取,从图书馆数字资源访问系统服务器上采集要分析的读者日志文件;
(2)对日志文件进行预处理,如日志解析、日志清洗、日志过滤,处理过的逐句保存在日志分析系统服务器的MySQL数据库中,形成读者信息挖掘库;
(3)对读者信息挖掘库的数据进行数据挖掘建模分析,采用聚类算法,并将分析结果保存在相应的数据表中;
(4)按照聚类分析的结果,将读者分为不同的类型,根据结果生成各种形式的报表,将学科信息呈现给读者,信息服务部门按照读者类型针对不同的读者有针对性的对其推送学科信息。
系统的设计思想,主要根据网络数据的采集,即对读者在各种系统中的行为日志进行采集,分析其资源行为的内容,研究其学术动态。系统的主要工作是将读者行为信息,通过技术手段采集,减少人为参与的因素,使得获取的数据信息更加客观公正,同时保证数据的全面性和完整性。
3.1 读者行为的数据采集
本文的目的是对图书馆数字资源访问系统的用户进行行为分析,因此,要收集图书馆数字资源访问系统的用户访问数据。获取数据的方法有很多种,两种主流的数据获取方法是网络爬虫和开放API平台。这两种方法都可以通过计算机程序快速准确地得到所需数据[6]。本文是针对Web使用记录挖掘,使用的方法是基于读者访问日志的用户行为分析方法。
当用户访问图书馆的数字资源访问系统时,系统会在后台记录下读者的每一步操作日志。例如读者选取的是哪个数据库、输入的检索词、点击的链接、下载了文章或电子书等都可在读者的访问日志里面记录下来。读者的访问日志客观的记录了读者的各种行为操作,通过对这些日志内容进行层次的挖掘,可以发掘出读者的真实需求情况。
本文对读者的行为采集是基于汇文公司构建的“南京晓庄学院电子资源授权访问系统”,数据抓取采用直接对服务器上的访问日志文件进行分析过滤。日志处理步骤如图3所示。记录读者的日志信息包括:访问数字资源的日志信息,访问或者下载信息内容,访问URL内容和访问时间等。
图2 图书馆数字资源读者行为分析数据挖掘系统结构模型
图3 读者日志获取
3.2 数据预处理
由于日志文件本身是一个非结构化的文本文件,而且数据量庞大,页面复杂,缺乏统一的结构特点,因此,在数据分析之前有必要进行预处理,将从非结构化的数据中提取结构化的数据。数据预处理是根据挖掘的目的,对原始Web日志文件中的数据进行提取、分解、合并,最后转化为适合进行数据挖掘的数据格式,并保存到关系型数据库表或数据仓库中,等待进一步处理[9]。传统的数据预处理主要包括数据清洗、用户识别、会话识别和路径补充等几个阶段[10]。数据的预处理提高了数据挖掘模式的质量,可以降低算法实际运行所需要的时间。
从系统中抓取的读者访问日志包括用户IP地址、用户ID、用户请求访问的URL页面、请求方法、访问时间、传输协议、传输的字节数、错误代码、用户代理等属性。电子资源访问系统设计的日志文件同时也记录了每个读者的访问页面、访问时间、检索词、检索内容、下载内容等。实验采用的是一个小型的日志解析工具,直接对日志文件进行解析,把解析到的数据存储到MySQL或者Oracle数据库中。数据库中存储的内容包括访问时间、原IP地址、目的IP地址、资源名称、请求站点URL地址、下载内容、检索内容、用户ID等。
数字资源访问日志文件主要记录读者的访问、检索、下载记录等。数据呈现部分采用网页调用模板进行数据统计和分析。数据库存储读者访问日志记录如表2所示,包括访问、检索及下载信息。
表2 读者访问日志记录表
3.3 数据挖掘——聚类分析
Web数据挖掘是对用户访问Web时的访问记录进行数据挖掘,当前的Web数据挖掘主要有分类、聚类、关联规则和序列等Web日志挖掘算法[7]。聚类算法是一个将数据集划分为若干组或类的过程,使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象则不相似,即“物以类聚”。相似或不相似的度量是基于数据对象描述属性的取值来确定的。
用聚类算法对图书馆读者行为进行数据挖掘,发现读者共同的爱好、兴趣、规律和趋势,对于图书馆个性化服务,数据对象的组织、存储,信息资源的分布、分类、索引、检索等有重要作用,聚类要经过多次才能得到一个理想的结果[8]。可以将读者按照其在网站上检索的关键字,将其分为不同的学科,以便图书馆员为不同学科的读者进行个性化的服务,提高读者的满意度。
采用K-means算法用于Web用户数据挖掘,可以快速发现网络用户的兴趣特征,进而对群体用户的兴趣特征进行聚类分析,发现用户的兴趣所在,有助于后期有针对性的对用户进行内容推荐[11]。实验模拟参照文献[12]中第七章的一个案例中的部分思想,先对读者活跃程度进行分析,将读者按照活跃程度划分为5个等级。针对活跃等级高的读者,通过对读者检索词及下载内容的分析,希望从中获取关于读者的某种兴趣爱好或学科方向。
实验拟采用K-means算法对读者群体进行聚类分析。假设训练样本集合为D:{x1,x2,…,xn},其中xi=(xi1,xi2,…,xir)是r维实数空间的向量,n表示数据点个数。KMeans聚类算法首先将训练样本集划分为k个聚类,对于每个聚类中心以外的样本点分别计算到各聚类中心的距离,将数据点划分到最近的聚类中心所代表的簇中,然后重新计算每个聚类的聚类中心。这个过程讲过多次重复迭代,直到满足终止条件为止,算法的好坏在一定程度上依赖于初始聚类中心的选取。
表3 K-means算法描述
4.1 数字资源的统计分析
对读者在图书馆数字资源访问系统的访问行为进行采集和预处理,可将数据直观的通过报表呈现给图书馆员,服务人员可以统计到常用数据库的访问量、下载量排行等。图4是南京晓庄学院某1个月内数字资源的访问情况。
有了读者访问数字资源的原始数据,同样可以统计到某一种资源的访问趋势、某个读者的访问趋势以及数字资源的汇总统计等。对数字资源的访问情况进行统计可以直观的看出资源的利用率,以此可以优化资源的采购方案,节省采购经费。也可以根据资源的利用情况有针对性的对读者开展培训,提高数字资源的利用率。
图4 某段时间内数字资源下载量统计
从图4中,可以分析出2015年6月份的数字资源访问统计信息,例如CNKI的访问量较高,其次是202.119.47.6,这是维普的IP地址,再次就是万方数据的访问等。数字资源访问的统计分析,减少了人为因素对资源利用的参与,其结果具有较高的客观性和准确性。
4.2 活跃读者学科信息推送
通过系统可以直观的看到读者的检索明细,以及下载明细,同样也可以直观的统计到读者在某段时间内的下载量排行(如图5所示)。应用数据挖掘算法对读者在图书馆资源管理系统上搜索或下载进行分析之后,将读者按照兴趣、偏好和学科方向分为不同的读者类别。学科馆员可以定期通过邮箱或者手机等其他途径向读者推送信息。由于此系统涉及到的功能较多,用到的聚类分析算法相关知识具有很强的理论性,本文的实验暂时只对少量数据样本进行处理。目前已经完成的工作有对读者行为数据的采集和处理,读者行为信息的展示,及对读者的日志查询和简单的分析。
4.3 读者资源访问数据展示
读者访问数据的展示,主要是读者检索内容和下载内容的。可以对读者在数字图书馆的检索内容进行数据分析,其结果运用于资源建设和评估,如图6所示。从中可以看出,读者在各个时段的检索内容都可以准确获取,将这些信息汇聚分析,可以得出读者的研究内容和方向,资源建设需要时刻了解这样的数据信息,检索内容同时也反映了部分读者的需求信息。系统可以获取读者资源行为数据,其意义是智能化图书馆建设的一个组成部分。
图5 某段时间内活跃读者下载量排行
系统的组成主要从技术角度,对读者的资源行为进行分析,资源行为也反映了读者的需求内容。图书馆围绕读者服务,及原始数据的获得,从技术角度获取,减少人为参与的因素,是未来发展的趋势,技术的手段可以减少人力资源投入,其结果更加公正客观,同时资源建设工作也必须在技术手段的支持下进行不断改进,图书馆的特色资源服务才能体现出其智能性。
图6 读者访问检索内容获取
本文对读者行为数据挖掘研究的前提条件有两个:一是图书馆先建立完善的数字资源整合系统或数字资源整合平台,读者访问图书馆资源时都从同一个入口进行访问。二是数字资源访问系统与校园一卡通对接,而且系统中的读者E-mail
或手机联系方式要及时更新,读者进行实名认证访问,才能根据系统的访问日志信息跟踪到每一位读者。由于笔者在人工智能的学习能力有限,数据挖掘算法还需要进一步商榷和完善。图书馆对读者的用户行为进行数据挖掘后,可以针对读者开展多种多样的个性化服务。例如,可以根据读者的兴趣、偏好和学科方向,对呈现给读者的网页内容或结构布局进行个性化的调整,允许读者自己添加感兴趣模块,或者对数据资源进行评价等。也可以将用户在系统中的历史记录展示给读者,给用户提供相关的浏览提示和帮助。图书馆数据分析系统,主要目的是建立读者与图书馆之间的桥梁,使图书馆与读者之间的信息对称,让图书馆时刻了解读者所需,从而建立适合读者的服务机制,使读者更好的体验到图书馆所提供的服务。
[1]陆康.基于媒体平台效应的图书馆网络服务研究[J].现代情报,2015,35(4):128-133.
[2]陈雅,谭华军,郑建明.图书馆个性化服务中的Web日志分析技术研究[J].图书馆杂志,2011,(7):43-46,54.
[3]陆康.网络行为读者需求分析运用探讨[J].现代情报,2015,35(5):94-97,104.
[4]刘慧.基于网络行为的图书馆数字资源评价方法研究[J].现代情报,2015,35(2):62-66.
[5]陈臣.基于大数据的图书馆个性化服务用户行为分析研究[J].图书馆工作与研究,2015,(2):28-31.
[6]于徽.数据挖掘在图书馆用户行为分析中的应用研究[D].北京:北方工业大学,2009.
[7]王伟.基于数据挖掘的图书馆用户行为分析与偏好研究[J].情报科学,2012,(3):391-394,418.
[8]周伟,汪少华,杨云.基于数据挖掘和读者行为分析的图书馆荐书系统的研究与设计[J].图书情报研究,2014,(4):38-44.
[9]宋莹,沈奇威,王晶.基于Hadoop的Web日志预处理的设计与实现[J].电信工程技术与标准化,2011,(11):84-89.
[10]马瑞民,李向云.Web日志挖掘中数据预处理技术的研究[J].计算机工程与设计,2007,(10):2358-2360.
[11]罗森林,马俊,潘丽敏.数据挖掘理论与技术[M].北京:电子工业出版社,2013.
[12]张良均.数据挖掘实用案例分析[M].北京:机械工业出版社,2013.
(本文责任编辑:孙国雷)
Data Mining on Reader Behaviors Based on Library Digital Resource System
Zhou Xin Lu Kang*
(Library,Nanjing Xiaozhuang University,Nanjing 211171,China)
The paper accurately achieved the actual acquirements of readers and provide better personalized service for readers by analyzing the behavior log data of library digital resource system.Firstly,the progress of the research on reader behaviors was introduced.Secondly,the meaning of the reader behavior data mining was described.Finally,the method for data acquisition and data mining in the digital resource system for readers in digital resource visiting system was introduced,and the reader behavior analysis system model was constructed.
library;digital library;data mining;reader behavior;log analysis;clustering analysis
10.3969/j.issn.1008-0821.2016.01.010
G250.71
A
1008-0821(2016)01-0051-06
2015-06-15
南京晓庄学院青年专项“基于信息觅食理论的数字图书馆学科服务模式研究”(项目编号:2013NXY84);南京晓庄学院图书馆科研创新团队建设项目“图书馆数据分析机制与平台建设”(项目编号:T201504)研究成果之一。
周 欣(1984-),女,助理馆员,硕士,研究方向:图书馆系统应用与开发。
陆 康(1983-),男,系统技术部副主任,馆员,硕士,研究方向:数字资源建设与评估,数字资源平台应用与开发,发表论文24篇。