高 艳,刘海峰
(山西农业大学信息学院 山西 太谷 030800)
高校图书馆拥有大量的学生图书流通数据,具体包含图书借阅时间、学生姓名、学生专业、学生所在院系、借阅图书名称、图书索引号等,充分利用这些数据,集合大数据技术,可以发现学生借阅图书之间的关系,预测学生对图书的需求情况,有效进行学生个性化图书的推荐,从而更好地确定图书馆图书的购置方向,加大图书馆图书的流通效率,创新图书馆管理服务,更好地发挥图书馆的作用。下面具体介绍大数据相关算法在图书流通数据中的应用。
Apriori算法是最有影响力的关联规则算法,由Agrawal等[1]在1993年提出。主要应用于零售行业的购物行为分析,如著名的沃尔玛超市的根据顾客的购物行为,发现啤酒和尿布之间的关联关系。同理,在图书的流通数据中也可以应用Apriori关联规则算法发现学生借阅图书之间的关联关系。
Apriori算法是基于两阶段频集思想实现的。第一步,寻找所有满足用户预先设定最小支持度的频繁项集。第二步,根据频繁项集产生强关联规则,并继续寻找满足用户设定最小置信度的强关联规则[2]。在此应用中,支持度是指两类图书A和B在总的借阅次数(N)中同时出现的概率,即A类与B类图书同时被借阅的概率。置信度是指借阅A类图书同时借阅B类图书的概率[3]。
例如:如表1所示5条学生借阅图书的数据,ID为2019533123的学生同时借阅了H、K两类图书,ID为2019533226的学生同时借阅了B、H、K两类图书…,利用Apriori规则就可以算出这些学生所借图书类别之间的关联规则,将支持度设置为0.5,最后得出关联规则如表2所示。从表2可以看出,H类图书和I类图书以及H类图书和K类图书之间有很大的关联关系,即借阅了K类图书的学生一定会借阅H类图书,借阅了H类图书再借阅K类图书的概率为60%,借阅了I类图书的学生一定会借阅H类图书,借阅了H类图书再借阅I类图书的概率为60%。(注:由于数据集只选择了一少部分数据,所以在计算出的关联规则中会出现置信度为1的结果,在真实的大量数据集中一般不会出现置信度为1即100%的情况,即不会出现借阅了一类图书一定会借阅另外一类图书的情况。另外,图书类别根据实际情况也可以进行进一步的细分)。
表1 学生借阅图书数据集
表2 关联规则表
得到关联规则后,图书馆人员在图书摆放的位置方面可以进行一定的调整,另外也可以根据关联规则进行图书的个性化推荐。
聚类方法包含基于密度的聚类、基于层次的聚类、基于距离的聚类算法等。K-Means算法是典型的基于距离的聚类算法。即该算法通过评价两个对象的距离来确定是否聚为一类。
K-means算法的具体步骤是:
(1)随机选取K个对象作为初始的聚类中心。
(2)分别计算样本中其他样本对象到K个对象的距离,按照最小距离分配原则进行聚类。
(3)根据聚类结果,重新计算K个聚类中心
(4)重复上述(2)(3)步骤,直到聚类中心不再发生变化。
在图书的流通数据中,记录着读者的借阅数量以及读者借阅图书的类型信息,利用这些信息可以进行K-Means聚类,将读者分为不同的类别(如可分为经常借阅图书的读者,借阅图书量一般的读者,不经常借阅图书的读者,根据实际情况类别还可以进一步细分),根据聚类的结果针对不同的读者进行不同的服务[4]。如针对经常借阅和借阅量一般的读者,进一步根据这些读者喜欢借阅图书的类型,图书馆可以在有一些相关类别新书的时候,针对这些读者进行个性化的推荐,以及针对现在借用图书的情况推荐相关的图书。针对不经常借阅图书的读者,图书馆应该加强自身的宣传和服务,引导更多的读者走进图书馆。
根据图书流通数据中,可以得到不同种类的图书被借阅的次数。根据图书被借阅的次数进行K-means聚类,可以将图书分为不同的类别(如经常被借阅的图书;借阅次数一般的图书;不经常被借阅的图书,也可以根据实际情况将图书类别进行进一步细分)。针对经常借阅的图书类别可以在之后的图书购置中加大该类图书的购置,加强这些类别图书的建设。针对不经常借阅的图书还需要图书管理人员对其原因进行分析,是因为这些图书出版的时间比较早,还是其他一些因素,以便做进一步的处理。
推荐算法主要包含基于内容的推荐算法、基于协同过滤的推荐算法以及混合推荐算法。
基于内容的推荐系统在图书推荐中的应用表现为从图书流通数据中分析用户之前喜欢的图书类别,进而推荐同样类别的其他图书。基于内容的推荐算法的原理如图1所示。根据图书流通数据,分析得出用户U1喜欢TP(计算机技术)类别的图书B1,于是将TP类别的图书B2推荐给用户U1,F0类别的图书就不推荐给用户U1了。
图1 基于内容的推荐算法原理
协同过滤算法包含基于用户的协同过滤和基于物品的协同过滤,基于用户的协同过滤在图书推荐中的应用原理如图2所示,具体表现为如果用户U1借阅了图书B1,跟用户U1兴趣一致的用户U2、U3借阅了图书B2,则可以把图书B2推荐给用户U1。这里怎么得到U1和U2兴趣一致,可根据上面介绍的聚类算法,也可以通过读者借阅图书的情况,应用余弦公式或者皮尔逊相关系数计算读者之间的相似度。基于物品的协同过滤在图书推荐中的应用原理如图3所示,表现为如果用户U1借阅了图书B1,同时根据图书流通数据发现借阅了图书B1的读者还有用户U2、U3,同时U2、U3用户都借阅了图书B2,则可以把图书B2推荐给用户U1。根据以上描述会发现基于用户的协同过滤主要是根据跟用户自己兴趣一致的人喜欢的图书进行推荐,而基于物品的协同过滤是根据都喜欢同一个图书的其他用户喜欢的图书进行推荐。
图2 基于用户的协同过滤原理
图3 基于物品的协同过滤原理
混合推荐算法,即在实际的应用中可以将基于内容的推荐算法以及基于用户和基于物品的推荐算法一起使用给用户进行推荐。
推荐算法是大数据技术在互联网中最广泛的应用,将推荐算法应用到图书流通数据分析中,可以更好地提高图书馆的个性化服务水平,也能提高图书的流通效率,对有效利用图书资源有很重大的作用。
文章在介绍关联规则原理的基础上介绍了学生借阅图书之间的关联规则,在实际的图书流通数据中还可能存在学生专业与图书之间的关联规则,可以进行进一步的研究。在聚类算法方面文章只介绍了K-Means算法,还可以具体研究其他聚类算法在图书流通数据分析中的应用。在个性化推荐方面,除了可以根据图书流通数据进行图书推荐,还可以根据读者相关查询的日志记录进行进一步的推荐。另外这些算法的实现可以直接应用软件Weka进行实现,也可以用编程语言及相关库来完成(如用python语言及sklearn库),如果实际中图书流通数据量特别大,还可以在hadoop大数据平台基础上应用Mahout组件来完成[5]。