基于Clementine的图书馆用户借阅行为的挖掘研究

2017-05-31 07:20侯松霞
创新科技 2017年3期
关键词:数据挖掘

侯松霞

[摘 要] 本文利用Clementine软件和数据挖掘技术,对高校学生的借阅记录进行分析并挖掘建模,最后挖掘得到更深层次的数据,从而为图书馆管理者提供决策依据,帮助完善高校图书馆的服务功能。

[关键词] 借阅行为;数据挖掘;Clementine

[中图分类号] TP311 [文献标识码] A [文章编号] 1671-0037(2017)3-79-3

Mining Study of the Library Users Borrowing Behavior based on Clementine

Hou Songxia

(Tianjin Transportation Vocational College, Tianjin 300112)

Abstract: This article analyzes the college students' borrowing records and mines to establish models using Clementine software and data mining technology. The deep data obtained after final mining guides the decision of library's manager, and helps complete the service function of colleges' library.

Key words: borrowing behavior; data mining; Clementine

1 引言

随着网络和计算机数据库技术的飞速发展和在各个领域的广泛应用,现代图书馆正在向着信息化和数字化的方向转变。近些年来,我国加大了对图书馆的投资力度,图书馆的数据库不断更新、存储设备不断扩大,网络环境进一步优化、服务器更加强大。在这种环境下,利用数据挖掘技术可以更好地对图书馆资源进行重组、汇集、抽取和预测;能够更方便快捷地从互联网上采集和转换信息和数据,为图书馆发展提供更好的决策支持,为读者提供个性化服務[1]。数据挖掘技术可以指导图书信息资源的采集。我们可以对图书借阅记录进行数据挖掘,其后能够得到读者借阅图书的使用频率表,然后再对读者进行分类,同时对适合不同类别的读者的图书资源进行聚类,从而快速准确地获得订书目录。馆藏图书数据库(OPAC系统)是图书馆纸质文献资料数据的存储系统,编目员每天对它进行维护,并及时输入各种图书的数据。如果对这些数据进行挖掘可以有针对性地制定馆藏策略,有目的地决策图书馆的建设方向。

2 图书馆流通数据分析与清洗

2.1 流通数据结构

目前图书馆系统主要有四种数据挖掘模式[2]:①关联规则模式:关联规则模式的数据挖掘过程包括两个环节:一是在大量的信息中找出高频项目;二是通过分析这些高频项目发现其中的关联规则。②聚类模式:聚类模式的作用手段是将分析对象划分成相对同质的组群来进行统计分析,又称为数值分类或者是分类分析,它是基于数据的相似性来收集和分类数据的。③决策树模式:决策树模式属于分类方法中很有代表性的一种。它是基于离散函数值的逼近方法。决策树过程包括两个阶段:一是处理数据,根据归纳算法产生规则以及决策树;二是根据生产的规则和决策树来分析新数据。④贝叶斯模式:贝叶斯模式属于一种统计学方法,它是利用概率统计的方法来进行数据的分类。这种方法使用简单、分类迅速、准确率高,应用比较广泛。

图书馆借阅的基本业务数据[3]包括:读者证号、读者姓名、流通日期、读者条码、图书条码、题目、索书号等等。接下来将通过数据挖掘分析探究不同的读者借阅的图书类型之间有什么关联,借阅的行为是否有一定的规律,能否根据规律制定一些针对性的服务。

2.2 预处理

根据需要,从数据库中抽取书目信息表(biblios,对应的是图书馆每一种图书的marc信息),图书信息表(holding表),图书借还记录表(LOG_CIR),读者信息(READER)。分别对每个表进行预处理删减掉无用项目。

3 挖掘过程

3.1 建立数据源视图

在clementine中[4],建立数据源是挖掘服务器与数据库建立了访问链路,建立数据源视图是选取了数据库中相关表、字段[5]。

Biblios表对应的是图书馆每一种图书的Marc信息,holding表对应图书馆每一册馆藏图书的信息,与biblios表通过bookrecno字段关联,log-cir表对应图书借还记录表,通过读者条码data2字段和图书馆条码data3字段分别和reader表rdid字段、holding表barcode字段关联,reader表对应读者信息,通过读者证号rdid与log-cir关联。图1是各数据表的关联结构图。

3.2 建立图书馆借阅数据挖掘的模型

根据借阅者自身性别及借阅书籍特点进行分类。分析借阅者的特征,更加方便提供个性化服务。数据源:书目信息表(biblios,对应的是图书馆每一种图书的marc信息),图书信息表(holding表),图书借还记录表(LOG_CIR),读者信息(READER)。通过这些数据建立关联,最终得到由于不同性别读者借书的种类,或者说借阅某种书籍的人都是什么性别的读者。

使用K-Means聚类算法代入数据,K-Means聚类过程是:①聚类数目K的制定。在K-Means聚类中应首先给出需聚成多少类。聚类数目的确定本身并不简单,既要考虑最终的聚类效果,也要考虑研究问题的实际需要。聚类太大或太小都将失去聚类的意思。②K个初始类中心点的确定。各类特征的典型代表是类中心。聚类数目K指定后,还需继续确定K个类的初始类中心点。聚类收敛的速度取决于初始类中心点指定的合理性。常用的初始类中心点的指定方法有:随机选择法、选择经验法、最小最大法。③聚类将依据最近原则进行。依次计算每个样本点到K个类中心点的欧式距离,并按照与K个类中心点距离最近的原则,将所有样本点分派到最近的类中,形成K个类。④K个类的中心点再次确定。同时重新计算K个类的中心点。中心点如何确定呢?它的原则是:顺次计算各类中所有数据点变量的均值,这个均值点就作为K个类的中心点。⑤判断是否已经满足终止类聚的条件。如果没有满足则应返回到第3步,不断重复上述步骤,直到满足迭代终止条件为止。聚类终止的条件通常有两个:一是,迭代次数,如果当前的迭代次数等于指定的迭代次数时,类聚终止;二是,类中心点偏移程度。本次确定的各类中心点距上次类中心点,偏移量中的最大值如果小于指定值时,聚类终止。如果适当增加迭代次数或合理调整中心点偏移量,就能够有效克服初始类中心点指定时可能存在的偏差。上述两个条件中任意一个满足则结束类聚。

女生、男生聚类分析结果见图2、图3:

图2 女性读者聚类分析数据 图3 男性读者聚类分析数据

通过以上聚类分析,可将借阅者分为四个类型,每个类型的区别主要是性别的影响。

女生:

第一类型,经济学院经济类37.56%的读者,借阅分类号K(历史地理)等书籍。

第二类型,经济学院56.03%,广播电视新闻学42.2%的读者,借阅分类号D(政治、法律)53.45%的书籍。

第三类型,信息学院31.15%,数学类22.95%的读者,借阅分类号G(文化、科学、教育、体育)90.16%的书籍。

第四类型,信息学院100%,数学类44.74%的读者,借阅过分类号为K(历史、地理)64.47%的书籍。

男生:

第一类型,管理学院100%,工程34.62%的读者,借阅过分类号为K(历史、地理)53.85%的书籍。

第二类型,商学院65.85%,工商管理39.02%的人,借阅过分类号为K(历史、地理)80.49%的书籍。

第三类型,经济学院100%,经济类55.42%的读者,借阅过分类号为K(历史、地理)51.81%的书籍。

第四类型,信息学院86.11%,数学系36.11%的读者,借阅过分类号为K(历史、地理)41.67%的书籍。

3.3 用户图书馆借阅数据挖掘的结论

通过以上数据分析可得到图书馆借阅数据挖掘的结论:借阅某类图书是分读者类型的,每个种群主要特征是不同性别的读者,分别来自不同的学院和不同的专业;得到借阅数据的主要类型也不相同。根据这些特征,我们可以按照不同的学院或者专业以性别为分类基础,为不同的读者推荐不同的书籍,便能得到读者的认证,从而能更快更好地为借阅者提供借阅服务。

通过以上研究也可以看出现在大学生的借阅习惯存在的问题:借阅的书籍更多的是偏向于自己学科内需要的,对于自己学科外所涉及的内容都鲜有人关注,这是近年来大学图书馆普遍存在的现象,大学生更多倾向于目的性更强的快餐式阅读,而不太喜欢涉及其他阅读方式。

图书馆管理者应多使用数据挖掘等方式去改变图书馆的管理方式,使这些原本看起来毫无作用的借阅数据变得更加有实际意义,能通过这些数据更好地挖掘图书馆的潜在价值,同时也能激发大学生的借阅热情,改变现在大学图书馆借阅情况过于偏激的现状。

4 结语

要确保模型的有效性和完整性,在今后的研究中应注意:一是研究前多次进行数据挖掘的可行性分析,数据挖掘需要大量的统计,需要前期大量的准备工作,在数据挖掘之前,一定要做好可行性分析,要有目的性的去进行挖掘;二是注意挖掘数据的更新,数据挖掘是一个持续性工作,随着数据不断地增多,应该进行及时更新,然后再去完善之前的模型。

参考文献:

[1] 郭淑红,徐玉梅,刘钊.基于数据挖掘的高校图书馆个性化图书推荐服务研究[J].电子世界,2017(4):44-45.

[2] 朱正红.数据挖掘应用于高职院校图书馆个性化服务的探讨[J].信息与电脑(理论版),2016(17):125-127.

[3] 陈静荣.图书借阅分析系统的数据挖掘技术[J].农业图书情报学刊,2017(2):69-72.

[4] 郝海涛.关联规则的数据挖掘在图书馆系统中的应用[J].信息通信,2016(6):74-76.

[5] 艾金勇.圖书馆读者借阅行为的关联规则挖掘研究[J].情报探索,2017(1):40-43.

猜你喜欢
数据挖掘
近十年国内教育数据挖掘领域的应用技术分析
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘技术在物流企业中的应用
数据挖掘过程模型及创新应用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
电子政务中基于云计算模式的数据挖掘研究
数据挖掘创新应用
数据挖掘的系统构成与发展趋势