【摘要】高校的信息化建设是我国社会信息化建设的重要领域之一,是全面提高教学质量与科研能力的重要举措。高校图书馆是培育高质量人才不可或缺的一环,其信息化的建设程度一定程度影响到大学生整体素质的培养水平。本文基于数据挖掘中的分类技术和挖掘算法,通过关联分析找出数据库中隐藏的关联网:一方面,运用关联规则,找出具有强关联的书目;另一方面,运用分类技术确定形成多个风格兴趣不同读者群,将读者群中查阅次数较多的书目进行推荐,从而建立图书馆个性化推荐模型。
【关键词】大数据 数据挖掘 个性化推荐
一、引言
高校学校信息化建设是我国社会信息化建设的重点领域,是全面提高教学质量与科研能力的重要举措。但是在图书馆数字化服务建设中存在一些急需解决的问题,例如如何提高图书馆的管理水平和服务效率,如何促进大学生更高效的利用图书馆资源等。因此,为了解决这些问题,我们需要通过数据挖掘进行个性化推荐,使得其对用户需求能做出科学,客观,可靠的判断。为此,我们确定了“基于数据挖掘的高校图书馆个性推荐模型研究”专题。本研究运用数据挖掘的挖掘算法和分类技术建立高校图书馆个性化推荐模型,一方面可以提高图书馆的管理水平和服务效率;另一方面,促进大学生更高效的利用图书馆资源。
二、基于数据挖掘的数字图书馆个性服务体系构建
(一)数据准备
面对图书馆大量的借阅信息和学生个人信息,从中筛选出适用于数据挖掘应用的数据。对数据进行预处理,并确定将要进行的数据挖掘类型。将数据进行转换,转换为一个分析模型。研究通过数据挖掘中的分类技术和挖掘算法,针对图书馆已存在借阅记录中借书类型、作者类型以及学院专业等数据类型特征进行归类,建立数据源。通过关联分析找出数据库中隐藏的关联网:一方面,运用关联规则,找出具有强关联的书目;另一方面,运用分类技术确定形成多个风格兴趣不同读者群,将读者群中查阅次数较多的书目进行推荐,从而建立图书馆个性化推荐模型。最后,对模型进行实测,将数据导入数据挖掘结构。利用问卷形式反映用户体验,针对存在的问题对模型进行进一步改进,优化挖掘结构。
(二)数据挖掘技术
对挖掘数据库应用关联分析等数据挖掘技术,得到读者的借阅习惯、兴趣模式和阅读趋势等,从而建立读者借阅行为模型。例如:通过对读者的借阅日志进行关联分析,可以发现读者借阅一类图书同时的其他借阅行为和图书文献之间的关联。然后,计算这种关联规则的支持度和置信度,从而建立借阅模式。需要强调的是:挖掘数据库是动态的,它是根据读者行为或兴趣的改变而自动进行数据修改。
针对数据类型进行归类,建立数据源。同时,根据图书馆数据特点,通过关联分析找出数据库中隐藏的关联网,建立模型。对关联规则Apriori算法和分类技术进行优化。对挖掘结构进行改进优化。数字图书馆个性化服务体系,即通过系统的服务方式和策略设计,满足读者多样需求,使得讀者以最小投入获得最为切合的信息资源的服务过程。因此,抑郁数据挖掘的数字图书馆个性化服务体系的构建必须以大量,真实有效地数据信息为基础和前提,即基础数据库的积累与建设至关重要。
数据挖掘过程:首先是原始信息的用户特征的提取和收集;其次数据的预处理和转换,依靠维变换减少变量书目,分类构建数据仓库等;之后确定目标,开展数据挖掘;数据挖掘应根据相应的目标和数据特点选择计算方式;最后,结果分析与调整,对数据挖掘结果进行合理解释和适当的评价。
(三)数字图书馆个性服务体系构建
利用Clementine数据挖掘软件中的导出节点,可以根据借阅数据的“各分类图书的结余数量”字段创建“各分类图书的借阅数量”标志新字段,将已借阅的个分类图书的借阅数量小于3为假,大于3为真,并建立数据挖掘模型如图1所示:
(四)借阅数量的聚类挖掘
图书馆内有大量的借阅数据,通过对读者的借阅数量进行聚类分析,可以观察到那些读者借阅频率高,那些读者借阅频率低。下面根据系统数据,运用K-means聚类算法进行数据挖掘。采用K-means算法对读者借阅数量进行数据挖掘,设置聚类个数为3,。分别外活跃读者、一般读者和较小借阅者,结果显示第二类读者群借阅需求比较大,可以根据聚类结果加大流通图书的最大册数,提高图书流通性。对于第一类读者,可以进一步进行数据挖掘借阅兴趣,进行个性化推荐。
三、关联聚类
选取借阅次数排前50位的图书进行关联挖掘,先利用网络节点初步判断各分类图书的关系紧密度,根据产生的关联规则的多少,最终确定6为网络阀值取值。
该挖掘主要是通过设定支持度、置信度的阀值,计算各类图书之间的关联程度的大小,从而发现图书之间的潜在关联度。若两图书之间支持度、置信度大与给定阀值,表明借阅两图书之中的任意一本的读者有一定的可能性去借阅另一本,因此我们像借阅其中任意一本的读者推荐另一本图书,这样可以提高图书的利用率。关联规则的实施有两个步骤:第一找到所有支持度大于最小支持度的项集,称为频集;第二从第一步中找到频集中产生期望的规则,通过图3进行数据挖掘,得到关联规则。本文选取支持度大于2%和置信度大于15%的记录,结果显示,各项置信度都没有超过50%,说明得出的关联规则强度不够,对推荐效果有所影响。从以上实验我怕们可以看出,最小支持度和最小置信度的选址会影响导出规则的数量,定的太高,可能得不到规则,而太低则规则不可靠。
参考文献
[1]王咸伟,李克东.基于Web的远程网络教学系统开发的关键技术[J].上海师范大学学报,2000,12(11):50-56.
[2]HAIN?J.Neural?Networks?A?Comprehensive?Foundation[M].影印版.北京:清华大学出版社,2001:600-622.
[3]范斌.基于Web服务的分布式数据挖掘系统研究[D].武汉:武汉理工大学计算机科学与技术学院,2004.
作者简介:朱一凡(1994-),男,安徽合肥人,安徽大学经济学院2016级硕士研究生,研究方向:经济统计学。