基于VOSviewer的关联规则在图书馆应用中的分析

2021-02-14 08:24李华群
信息记录材料 2021年12期
关键词:数据挖掘关联个性化

李华群

(河南理工大学图书馆 河南 焦作 454003)

1 引言

随着智慧图书馆的发展和建设,用户的知识需求和服务需求不断提高,如何提高图书馆的服务质量,是图书馆行业需要认真思考和研究的问题。图书馆读者数据日益增加,面对庞大、不完全、冗余的数据,应从中挖掘找出隐藏的规律,来指导图书馆业务发展。近年来,众多学者将数据挖掘技术应用于图书馆中,尤其是关联规则挖掘技术,通过对流通借阅数据进行关联规则分析,发现可以从中找出不同读者的个性化借阅特征,有助于我们了解读者的阅读习惯和知识兴趣需求,不仅可以为图书馆的馆藏建设、采访决策、学科建设提供参考依据,还可以有针对性地对读者提供个性化的图书资源推荐,提高图书馆整体服务水平。因此有必要对关联规则在图书馆的应用进行进一步的研究和探析,本文将利用文献计量学方法,借助VOSviewer可视化分析工具,将现有的国内有关关联规则在图书馆应用的文献进行梳理分析,厘清并总结出目前研究主题、研究方向,得出未来研究方向的启示,为后续的关联规则应用于图书馆相关研究提供参考。

2 数据来源和研究方法

本次研究以中国知网(CNKI)为数据源分两次检索,分别是主题=图书馆And主题=关联规则,和主题=图书馆 And 主题=Apriori,共检索出568篇期刊文章(检索日期为2021/4/15),通过手工筛选,剔除168篇关联性不大的文章,共保留400篇有效期刊文章进行分析。由于VOSviewer在聚类技术、图谱绘制等方面有独特的优势,本文使用该工具对400篇文章从发表时间和关键词分布上进行着重分析,通过目前已研究的态势来分析得出未来研究的方向和趋势,为今后的研究提供参考。

3 研究态势分析

3.1 发文时间分析

将关联规则在图书馆中的应用研究文献发文量依照时间分析见图1,从下图可知相关研究从2003年开始,第1年只有1篇,2005年上升至8篇,关联规则应用到图书馆领域被更多的学者认可和关注,2006年开始急剧上升,到2012年发表了48篇,经过近10年的研究对关联规则在图书馆的应用研究热度达到顶峰,研究更加深入和广泛,并一直持续到现在。虽然最近这10年整体相关发文量有下降趋势,但一直保持20篇左右的发文量,热度依然不减,说明此相关研究对图书馆工作仍具有积极的实践意义。

图1 历年来关联规则在图书馆中应用研究文献时间分布

3.2 关键词分析

关键词是作者从论文中提取出反映文章主要内容的词,在较大程度上代表了文章的研究热点,将通过可视化软件工具来分析得出集中的研究主题。从CNKI中导出文献信息选择Refworks格式导出txt文件,由于不同作者对意思相同或相近的关键词表述不一致,先将同义词进行手动合并处理,如数据挖掘、数据挖掘技术合并为数据挖掘,个性化服务、个性化信息服务、个性化合并为个性化服务,Apriori、Apriori算法合并为Apriori算法。

再打开可视化分析软件Vosviewer,将处理后txt文件直接导入到该软件,选择关键词的共词聚类分析,将出现频次3次以上(含3次)的关键词生成聚类标签图谱,以Network Visualization视图表示出来见图2。节点与字体的大小取决于该节点的权重,节点间的连线表示节点之间的共现关系。从图2可知,“数据挖掘”“图书馆”“关联规则”“Apriori算法”“个性化服务”等关键词出现次数较多,完全是与关联规则应用到图书馆中相关研究内容相符。该图中依照节点不同颜色、节点连线不同颜色将整个知识图谱分成10个聚类,每个颜色代表一个类别。通过整理、去除一些边缘数据,研究主题主要列为5大类,见表1。

图2 关联规则相关研究关键词聚类可视化图谱

表1 研究主题及对应的关键词

4 研究主题分析

4.1 数据挖掘

数据挖掘,又称为数据库中知识发现,它是从随机的、有噪声的、模糊的大规模数据集合中抽取出潜在的、有价值的、新颖的知识。整个数据挖掘过程包括数据选择、数据预处理、数据转换、数据挖掘等主要步骤,数据挖掘技术包含关联规则、聚类分析、分类分析、预测、时序模式等技术。图书馆中存在着大量的读者借阅书籍信息及读者行为数据,但这些数据本身不能反映出读者的借阅倾向,而这些数据挖掘技术可以对图书馆的读者借阅信息数据给出相应的分析模式,可以挖掘出有用的、有意义的、潜在的隐藏数据来指导图书馆的工作。

刘军[1]对图书馆文献系统中相关的流通信息表、读者信息表、文献信息表进行数据预处理,利用数据挖掘中关联规则和决策树分类方法量化、挖掘、识别读者需求,为个性化的读者决策采购提供了科学化过程。张钰莎[2]对图书馆借阅信息进行数据清理、数据转换、数据集成等预处理后,应用关联规则和序列模式进行数据挖掘,得出优化图书馆人力资源配置的方法,且给出了图书布局和新书购买的参考意见。王蕾[3]利用K-means算法对流通数据进行聚类分析,依照借阅图书类别进行聚类成九类,并对聚类结果进行行为分析,不仅提供了馆藏空间改造的建议,为读者提供差异化、多样化服务,还为决策者提供情报信息。

4.2 关联规则

关联规则作为数据挖掘领域里的一个重要组成部分,就是根据已经发生的事务数据库去寻找数据项A和数据项B同时发生的概率,从而判断数据项A和数据项B之间的关联关系,获取他们之间潜在的联系。在数据挖掘中,通常依据两个技术指标对满足要求的关联规则进行筛选:一是支持度Support(X),表示数据项X在所有事务中包含的比例;二是置信度Confidence(X=>Y),表示数据项X和Y同时出现的比例与数据项X单独出现的比例之比。

关联规则对图书馆的应用就是对图书馆中读者的借阅行为数据进行关联规则分析。通常分析步骤就是先将读者流通记录数据库、读者个人信息数据库、馆藏书籍数据库进行信息整合成含有读者号、读者属性、书籍分类号等重要信息的事务数据库,再删除一些无用的、残缺的、空值的数据进行数据清洗,将事务数据库转换成各数据挖掘软件可识别的格式进行关联规则分析,常用的软件工具有Weka、SPSS Clementine、SPSS Modeler、Microsoft SQL Server2012中的分析服务工具(SSAS)、Con Exp1.3工具概念格、R语言等,然后在软件工具里设置参数阈值,包括最小支持度、最小置信度,再运行软件程序,得出读者属性和图书之间、图书和图书之间的强关联规则,最后对此进行结果分析。如读者借阅了计算机类、文学类书籍,所借阅的不同的书籍即为事务项,支持度就是借阅了计算机类书占总借阅量的比例,置信度就是借阅了计算机类书同时也借阅了文学类书的比例。关联规则就是从这些书籍中找出两本书之间关系或者三本书之间的关系,直到不能生成满足最小支持度的书籍之间关系为止,然后再依据满足最小置信度条件提取出强关联规则[4]。可以根据此关联关系分析结果确定读者的阅读偏好、借阅习惯和阅读倾向,来帮助图书馆进行馆藏布局的优化、图书剔旧工作的开展、采购图书的选择和学科建设的指导,不仅可以提供图书馆的业务优化建议,更重要的是利于对读者开展个性化资源推荐服务工作。

4.3 Apriori算法

Apriori算法是关联规则最经典的算法,是由R.Agrawal和R.Srikan于1994年提出的。Apriori算法的主要步骤是先扫描一次事务数据库,生成候选1-项集,计算支持度,保留满足最小支持度的项集,再自连接生成候选2-项集,再次扫描事务数据库计算支持度,如此重复自连接、扫描,直到无法再生成频繁项集满足最小支持度为止。此算法是逐层迭代算法,所以存在许多不足,如多次扫描数据库、中间产生大量的候选项集、每层都需要自连接操作,不论对时间还是对内存空间都是不少的挑战。因此许多学者提出了大量的改进算法,例如划分技术、Hash方法、矩阵方法、事务压缩技术、频繁增长树等方法减少扫描数据库的次数、减少候选集的产生。

林郎碟[5]等利用分割-整合思想,依照中图法对图书进行分类;周玲元[6]等依照学生层次、专业划分为各个子数据库;唐吉深[7]对每个图书类别借阅数据集进行拆分,采用Microsoft聚类分析算法聚成2个簇,将图书分类拆分为高频图书和低频图书,都是先依照各自分类对子数据库进行分析,再进行整合以实现对整个数据库进行关联挖掘的目的。杨韵芳[8]提出了MDLG算法,将事务数据库转换为布尔矩阵,只需扫描一次事务数据库,在生成候选项集之前提前压缩减少频繁项集的产生。频繁模式增长算法(FP-tree),是不产生候选集而直接生成频繁集的频繁增长算法,文芳[9]通过把大型图书事务数据库根据首项的事务,划分为若干子数据库,并构建相应的子 FP-tree 结构,直接生成频繁项集,同时采用实时过滤掉层次树中不是频繁项的父项步骤来缩小扫描数据库空间。

4.4 个性化服务

关联规则对图书馆的借阅历史数据分析,其分析结果不仅可以帮助图书馆优化馆藏结构、给出采购决策方案,还可以得出读者与图书之间的关系主动为读者提供个性化的图书推荐服务。因此,一些学者会重点研究如何应用关联规则建立推荐模型增加推荐准确率。

高晟[10]通过关联规则与贝叶斯网络的算法对借阅日志进行数据挖掘,先通过关联规则算法对数据挖掘,并利用贝叶斯网络对关联规则挖掘结果进行语义校验,提高推荐结果的准确性与可靠度。李文华[11]是将关联规则结果来构建图书之间的相似性矩阵构成基于关联分析的协同过滤推荐算法,将读者年级、专业、学院等读者属性信息嵌入到计算相似性矩阵中去,推荐准确率有了较为显著的提高。张戈一[12]将读者与书籍的关系融入现有的协同过滤算法中,用来丰富单个读者与书籍的相关信息,将协同过滤算法产生的推荐评分与关联规则产生的结果通过耦合公式计算出最终的书籍评分,提高算法的精度。邝耿力[13]是将基于用户偏好的协同过滤和利用TF-IDF算法来进行基于内容的过滤的结果应用挖掘技术进行关联规则的推荐,来完成混合过滤达到提高图书推荐率的目的。

4.5 聚类分析

聚类分析是数据挖掘技术中相对成熟和活跃的方法,是在无监督学习根据聚类算法将数据分类到不同的类或者簇这样的一个过程,同一个簇的对象相似性较高,不同簇之间区别较大。聚类分析通常与关联规则结合使用,对图书馆读者群特征进行细分,得出不同读者群的借阅特征和阅读倾向,为读者提供个性化的精准服务提供依据。

曲佳彬[14]是以读者的借阅数量、读者类型、所在院系、借书类型为属性进行k-means聚类分析,将读者划分为若干个属性相似的群组,再对聚类后的群组进行关联规则挖掘,进一步挖掘图书间的关联性。赵雨薇[15]利用关联分析挖掘出读者的群体特征,并通过聚类算法将群体特征与读者个人属性有机结合起来,即找出类概念以及这些类概念与读者属性的对应关系,从而提出具有针对性的差异化服务策略。康娜[16]对K-means算法进行改进提出K-modes算法,先采用K-modes算法分别对读者的借阅数量、读者类型、所在院系和借书类型等进行聚类,迭代分析得出聚类模型,将借阅读者划分为若干具有相同属性的群组,再采用Apriori算法对读者聚类后的借阅数据进行关联分析,发现图书类目之间的强关联规则,以此给读者提供精准化的图书推荐。

5 研究启示和未来方向

5.1 算法改进

Apriori算法主要的步骤就是对事务数据库扫描获取候选项集、自连接生成N-项候选项集和计算支持度,现有的算法对其改进主要是对事物数据库转换成布尔矩阵、建立hash表、生成频繁树等方式,减少扫描庞大事务数据库,再通过计算支持度的方法提前删除一些已知的非频繁项集数据项来减少候选项集的生成。虽然通过以上改进在一定程度上效率和时间都有改善,但还需要进一步深入分析如何从修改库结构、修建频繁集策略、优化连接策略3个主要步骤来改进基于矩阵、基于FP-Growth、基于粒子群等方面的Apriori算法。

现有的研究大多集中在单层单维的关联规则中,即仅仅得出读者-图书之间和图书-图书之间的关联关系,事务数据库中仅有读者号和单一层次图书分类号,缺乏读者多种属性的添加和图书多层次的区分,以使得读者群不能得到很好的细分,而且推荐的图书大多是中图分类号中的某一大类,如文学I类,影响推荐精确度。陈淑英[17]虽然从专业、年级多维读者属性角度分析出相应的关联规则结果,但是对分割成若干个不同专业和不同年级子数据库多次进行了运行,算法效率较低。以后研究重点在建立多维数据模型上,如加入模糊算法、自适应的遗传算法、构造数据立方体等方法来提高算法效率。

5.2 最小支持度改进

关联规则最重要的两个参数是支持度和置信度,通常这两个参数都是依照经验人为设置的,缺乏理论依据,另外实际使用中,整个事务数据库一律采用同一个支持度,一些小于最小支持度但很重要的数据会丢失,如新进的书籍因加入馆藏的时间较短,虽然相对来说借阅量高些,但远远不及“老”书的高借阅量,若对事务数据库不进行区分,使用相同的最小支持度,此部分事务项极易被剪枝删除,更不会出现在强关联规则里,无法生成推荐信息。同样对于年限太久的图书,也会存在同样的问题,但不会被剪枝,反而会保留下来出现在强关联规则里,但实际上读者对太“老”的图书反而兴趣度不大,影响了推荐的效果。因此以后在实际运用过程中,我们要将更多的实际因素考虑进去,依照各自影响因子加入设置不同的支持度,或者通过对项目加权的方式也可以调整相应的支持度以模拟出实际情况,更好地构建出个性化推荐模型实现个性化推荐工作。

4.3 与其他技术的结合

单一的关联规则算法实现的效率和质量都是有限的,往往需要结合其他算法的优点,进行算法的组合操作,才能达到更优的效果。现有的研究是关联规则与贝叶斯网络、协同过滤算法、聚类分析、决策树、遗传算法等方法的结合使用,在后续的研究中,不仅可以在原有混合算法的基础上进行改进,还可以融入更多的技术,如时间序列、神经网络、粗糙集、粒子群、蚁群算法等方法。因大数据时代的到来,海量数据处理往往制约着算法的运算效率,我们还需将hadoop技术运用到关联规则算法中来,利用MapReduce并行处理计算模型来加快算法的运行,提高运算的速度。

5 结语

通过对关联规则在图书馆中的应用相关研究进行可视化分析,发现研究主题主要集中在数据挖掘、关联规则、Apriori算法、个性化服务和聚类分析5个方面。总的来说,大多研究集中在如何将关联规则算法及其改进应用到图书馆管理工作和个性化服务中,较少涉及多维多层关联规则和考虑最小支持度的更复杂化的情况,和其他数据挖掘技术和推荐技术相结合的应用相对较少。在后续研究中应该考虑加入更多的实际工作中出现的一些影响因素进去,结合其他技术的优点,将系统设计贴近实际应用,了解读者的最新动向,从而更好地实现图书馆个性化资源推荐工作和提升图书馆的服务水平。

猜你喜欢
数据挖掘关联个性化
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
探讨人工智能与数据挖掘发展趋势
坚持个性化的写作
“一带一路”递进,关联民生更紧
新闻的个性化写作
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
智趣
上汽大通:C2B个性化定制未来
一种基于Hadoop的大数据挖掘云服务及应用