基于R的图书馆用户借阅行为数据挖掘研究

2017-05-10 07:24侯松霞
创新科技 2017年2期
关键词:数据挖掘

侯松霞

[摘 要] 本文针对图书馆数据低效利用的现状,采用了基于R的数据挖掘技术对图书馆借阅数据进行了深入挖掘,以期发现这部分数据所隐含的价值。通过数据挖掘从借阅数据中探索其中隐含的规律,并将挖掘出的规律信息进行实际应用,从而实现数据挖掘对数据中价值的发现和高效利用。

[关键词] R;图书馆用户;借阅行为;数据挖掘

[中图分类号] TP311 [文献标识码] A [文章编号] 1671-0037(2017)2-91-6

Data Mining Study of Library Users' Borrowing Behavior based on R

Hou Songxia

(Tianjin Transportation Vocational College, Tianjin 300112)

Abstract: The article aims at the status of inefficient use of library data, adopts R based data mining technology, and deeply evacuates the borrowing data of library, hoping to find the implied values of the data. In order to complete the efficient use of the value of the data by data mining, we explore the implied laws of the borrowing data by data mining and apply the mined laws into practical application .

Key words: R; library users; borrowing behavior; data mining

1 引言

评判一个图书馆服务水平的基本标准应当是借阅者的借阅需求满足情况。为尽可能满足借阅者的借阅需求,图书馆需要在馆藏文献管理及对借阅者提供个性化服务两个方面做出努力。因此,需要通过对用户借阅行为进行深入的数据挖掘,得到更加接近真实的用户需求情况。通过对用户的借阅兴趣、借阅习惯进行分析总结,在预测未来的借阅行为的基础上,发挥图书馆对用户的引导教育作用。

2 图书馆用户借阅行为分析数据特点

图书馆的服务对象主要可以分为:教师和学生。根据专业的不同,又可以进一步细分,如学生用户可以进一步細分为理工类学科与人文社科类学科等。显然,各类用户群对信息的需求层次差异很大,同一用户群中不同专业的用户信息需求也存在较大差异[1]。图书馆用户的学科专业性非常明显,信息需求主要集中在与专业领域紧密相关的专业文献上,不同专业的用户需求差异十分明显,可以根据挖掘数据的结果进行分析,将书籍的摆放位置和书籍的数量进行调整,而相同专业的用户也具有相近的兴趣度,可以通过数据挖掘技术对各个用户的借阅行为数据进行挖掘,并对挖掘结果进行专业性的分析,针对各个用户的相似性开展大量的个性化服务。

3 挖掘过程

3.1 数据挖掘目标的确定

本文数据挖掘采用R语言,其目的是根据图书馆用户借阅行为的数据来得到用户的借阅习惯、借阅特点等,最终实现对馆藏文献的优化管理及对借阅者提供个性化服务[2]。挖掘工作的重点应该是分析并获取:1.用户类型及各自类型的借阅特点;2.不同种类图书的利用率。

3.2 数据获取

在用户利用图书馆的资源过程中会留下诸如读者基本信息、借阅历史、检索历史等大量的有价值信息,这就是我们进行数据挖掘的数据来源,通过对用户信息和借阅历史的挖掘来得到我们需要的信息。

3.2.1 读者信息。读者的具体身份信息作为数据挖掘中的一项基础数据。主要用来为用户分类、借阅行为分类聚类提供信息,由于数据量庞大,在预处理时需删掉无用的数据,保留本次挖掘所需数据,如用户编号、专业、性别属性,如表1所示,本文针对某图书馆近几年的图书借阅情况进行挖掘。

3.2.2 书目信息。书目信息与用户信息类似,是所有馆藏书目的一个数据库,主要包括书目名称、书目编号、出版社、所属类别、类别编号、馆藏位置、入馆时间、下架时间等属性。通过预处理后,所选择的有效数据如表2所示。

3.2.3 读者借阅记录。读者借阅历史记录主要包含了借阅的目标信息(书籍数据)、时间信息及连接信息(编号数据),如表3所示。其中目标信息的主要组成部分为书籍的属性信息;时间信息的主要内容包含借阅书籍的起止时间信息;联系信息主要内容为用户编号等起联系作用的信息[3]。但是这三种信息不应该被撕裂开来,而应该是呈相互关联、缺一不可的关系。在这里主要为方便叙述将其分为三类:

第一,目标信息。目标信息是进行聚类分类的重要核心数据,主要通过用户编号与用户信息进行连接从而进行数据挖掘。在此只截取数据中书名及图书编号等数据进行概化后用于数据挖掘;

第二,时间信息。时间信息对于数据挖掘的主要意义是进行时间序列的分析,其主要内容包括借阅时间、归还时间等;

第三,联系信息。联系信息则为用户编号等起联系性作用的数据。这部分信息是利用数据挖掘技术获取图书馆文献利用状况的关键,通过对它们的统计、归类、分析有助于了解书刊的使用情况并进行预测分析同样需要通过基于属性的归纳算法进行数据概化。最后得到的主要属性有图书主题、图书编号、借阅时间段、借阅时长。

3.3 数据预处理

从图书馆得到的用户数据往往十分杂乱,结构化进行的并不完全,而且存在大量的无效信息。因此需要对其数据进行预处理。

经过预处理后的数据结构如表4所示。

3.4 挖掘过程

根据指导图书馆实现其馆藏文献优化目标及给借阅者提供个性化推荐的目标,对具体的挖掘任务进行分配。根据借阅行为的主体及客体,我们将挖掘分为三个大的环节[4]。首先是对整体数据的大的挖掘,即得出高频借阅者和高频书籍,通过这一步骤的挖掘,我们会对于整体的数据结构有直观的理解。其次是对馆藏文献的挖掘。对文献的挖掘,要考虑时间要素、优质资源、待下架资源这三方面的信息。最后是对于借阅者的需求信息的挖掘,其目的是挖掘出读者的不同需求。

3.4.1 據概览。通过对多个数据集的联立(merge()函数)得到了数据的整体情况。经过对预处理数据进行简单的统计,其中借阅记录10 342条,借阅者编号(人数)3 321个,图书编号4 032个。如图1所示。

然后对数据中的用户和书目进行统计,发现国际经济与贸易,金融学,成教院,信息管理与信息系统,计算机科学与技术和数学与应用数学专业的同学借阅量最多,然后将所有出现次数前5的单位单独导出,作为后续分析中的重点挖掘对象。同理导出被借阅书籍最多的种类,作为向学校推荐加强馆藏建设的重点内容。如图2所示。

3.4.2 挖掘文献使用规律

图书馆的文献被借阅情况,其往往表现出一定的规律性。

第一,对时间要素的挖掘

在时间序列上,往往表现在特定时间的某种类型书籍被大量借阅,而突然增大的借阅量必然会影响图书馆的服务质量。所以通过对时间要素的挖掘,我们可以对图书馆在借阅量增加的时候对图书馆的工作情况进行适当的调整。如图3所示。

经过观察发现数据集中在2011年的11月,因此时间序列上以天数为划分标准,然后利用table()函数及plot()函数来绘制出不同月份图书借阅量的图表。以便于直观地对借阅量的月度变化进行掌握。通过对图书馆不同月份借阅量的对比,我们可以根据图4看出,在该月,图书借阅量随着时间变化呈现出明显的规律性变化,整体呈现出波动性变化。再结合周度记录的图表图5,可以得出图书馆的借阅活动相对高峰期出现在每周的周二前后,并且在周五前后将出现一个较明显的低落,经过分析后判断出这种规律性变动,主要是因为学校在课程安排以周为单位。很多同学会在新的一周开始时接到教师安排的新的学习任务,为了满足专业性的知识需求,会在周一之后开始去图书馆借阅书籍,这直接导致了周二前后借阅高潮的出现。在经过一周的学习后,面对即将到来的周末,由于周末休息时间较长,部分读者利用周末安排了外出游玩等社交休闲活动,因此借阅热情减退,这也导致了周五前后的借阅量低潮的出现。

第二,对优质资源的挖掘。图书馆中存在着大量的优质资源,这些优质资源常常处于被借阅的状态,但是在实际流通中其表现出的流通率却并不高,因为这些资源经常被同一用户反复借阅[5]。这就为我们挖掘出这一部分优质的资源埋下了巨大的障碍,因为既不能单纯以流通率来判断(部分书籍可能因为封面设计吸引眼球而被频繁借阅,但质量并不足够优质),也不能单纯以被借阅时长来判断(部分书籍被借走但却长期停留在书架上)。

因此,在筛选出优质资源时需要考虑多个参数的影响:a.平均借阅时间;b.被借阅次数;c.重复借用率。在这三个参数都满足阈值的记录时应该基本满足优质资源的标准。但是,因为这种筛选方法在阈值这个门槛上将大量的新进书籍排除在外,所以还需要再进行重新考虑。为寻求更合适的筛选方法,我们可以通过聚类分析的方法来进行初步的探索(即对新进书籍与历史书籍进行聚类分析)。

第三,对待下架资源的挖掘。在获取了优质资源目录的同时,我们还需要对图书馆中的陈旧资源进行清理,以避免部分类新购进书籍因为书架资源有限而无法陈列出来。对待下架资源的挖掘需要考虑两方面的因素:1.新增加的书籍数量,这是驱动对待下架资源挖掘的动力;2.文献的被借阅量,这是评判一本书籍是否需要下架的主要因素。

因为文献使用的量是动态变化的,所以通过数据挖掘对历史数据的分析,获取平均上架数量对于图书馆的优化馆藏排架结构十分重要。新增书籍的数量可以通过书目记录信息获得,而流通数量可以通过以下方式获得:首先利用往年相同时期的流通数量变化情况,特别是在高校图书馆,由于院系课程进度的原因,会出现周期性学生大量借阅同类书籍文献的现象,利用这一已知规律,可以很方便地来推算当前流通数量。当然这有一个前提,就是该类书籍必须具有这种周期性变化,在这里可以使用回归分析、时间序列分析的方法来获取这些规律。当某类图书不存在周期性借阅起伏时可以利用其回归曲线的变化趋势来分析,如果曲线历来比较平稳,说明这类书籍的在馆率比较稳定,而如果偶然出现一次高峰,我们可以向上文一样通过关联挖掘获取其当时借阅量突增的原因。

第四,挖掘用户特点。通过对借阅者与借阅记录的联合挖掘,可以得出大量的用户需求信息,而这些需求信息,是指导图书馆实现其馆藏文献优化目标及给借阅者提供个性化推荐的重要指导。要实现对这些联合信息的挖掘,我们需要频繁使用到关联规则的挖掘,因此在此进行较为具体的描述。我们主要采用的是购物篮分析(Market Basket Analysis)[6]。购物篮分析是通过顾客购物时的篮子内的商品所显示的信息来研究顾客的购买行为,通过这些信息,可以了解到不同顾客的不同需求以及需求的原因,从而得到一定的规律。主要的目的在于找出什么样的东西应该放在一起,并藉由这些规则的挖掘获得利益与建立竞争优势。这种思路对于我们进行图书的个性化推荐具有重要参考价值。我们可以通过对借阅者借阅记录中的书籍进行汇总,进而形成每个借阅者的“数据篮子”,然后对众多的“数据篮子”进行汇总,通过apriori算法,对其进行相关性的挖掘,然后对形成的关联规则进行排序,将其中联系性较强的数据进行推广利用,主要的目的在于推断借了某本书的人还会借阅哪本书,并藉由这些信息来实现对读者的个性化推荐。

关联规则的挖掘包括两个阶段的工作,首先是对于资料的整理,因为一般的数据集需要经过整理符合其算法的需求才可以进行下一步的输入处理。在此过程中,主要利用as(transactions,数据集名称)函数将一般性的数据转换为购物篮类型的数据。如图6所示。

其次,就是具体的关联过程。是从资料集合中找出所有的高频项目组,在图书馆用户行为数据挖掘中,使用关联规则挖掘技术,对数据库中的纪录进行资料挖掘,首先必须要设定最小支持度与最小信赖度两个门槛值。符合此需求的关联规则将必须同时满足以上两个条件。最后,再由这些高频项目组中产生关联规则,若经过挖掘过程所找到的关联规则(如「专业,书目类别」),满足设定最小支持度与最小信赖度两个门槛值,将可接受该关联规则。因此,今后若有某读者已確定某一相关要素,则图书馆将可推荐该读者借阅某一类书籍。如图7所示。

在对整体数据进行关联分析之后,又对不同类别数据(如金融系等)进行了多次重复性关联之后[7],我们得出很多的结论,如通过对整体数据挖掘发现借阅计算机类图书的读者往往会再借阅一些文学性的书籍,而对管理学专业的挖掘表明,管理学学生的借阅内容范围往往十分广泛,不易形成关联规则(支持度往往不高),这些结论对于图书馆的馆藏内容进行优化就具有比较明显的作用,而且根据得出的具体关联规则,还可以在进行图书推荐时针对不同院系的学生进行相对个性化的推荐。

4 结语

因为本次挖掘完全依赖数据驱动,只是根据数据内容上挖掘出需要的规则,所以源数据的准确性完全决定了本次挖掘准确性,但是部分的数据挖掘过程因为数据量太小,仅为几百条,所以进行个性化推荐的挖掘中得出的结论可能会受此影响。与此同时,我们只是对源数据进行了挖掘,对于源数据的准确性并未深究,所以,本次挖掘结果并不一定与实际情况吻合。通过数据挖掘这一工具,我们得到的用户模型必定与事实存在着一定的差异。因此,将模型与实际情况进行验证,并进行适当的调整应当是提高挖掘结果准确性的一种重要思路。

参考文献:

[1] 李贤虹.基于数据挖掘的读者个性化信息服务系统的研究与设计[D].南昌:南昌大学,2009.

[2] 谭云江.基于数据挖掘技术的高校图书馆读者行为研究[J].图书情报工作,2012(S).

[3] 艾金勇.图书馆读者借阅行为的关联规则挖掘研究[J].情报探索,2017(1):40-43.

[4] 陈静荣.图书借阅分析系统的数据挖掘技术[J].农业图书情报学刊,2017(2):69-72.

[5] 陈洁.数据挖掘在高校图书馆服务中的应用探析[J]. 大学图书情报学刊,2016(2):53-57.

[6] 陈丽芳.基于Apriori算法的购物篮分析[J].重庆工商大学学报(自然科学版),2014(5).

[7] 郝海涛.关联规则的数据挖掘在图书馆系统中的应用[J].信息通信,2016(6):74-76.

猜你喜欢
数据挖掘
近十年国内教育数据挖掘领域的应用技术分析
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘技术在物流企业中的应用
数据挖掘过程模型及创新应用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
电子政务中基于云计算模式的数据挖掘研究
数据挖掘创新应用
数据挖掘的系统构成与发展趋势