孙常丽+王国军+石丹+金松跟+胡艳君+武丽影
[摘 要]文章概述了高医院校图书馆构建荐读系统可行性,对推荐系统中的核心技术——推荐算法进行了探讨,同时进行了高医院校推荐系统的推荐模式的创新性设计,简述了基于局部数据的推荐模式的实现过程,对国内图书馆提供推荐服务的未来做出了展望。
[关键词]高医院校图书馆;推荐系统;推荐技术;推荐算法;推荐服务
[DOI]10.13939/j.cnki.zgsc.2017.15.053
高医院校图书馆的使命是提供专业的图书馆信息服务以满足医疗、教学、科研的需求,完成高医院校的使命——通过将一棵棵医学“嫩苗”培育成“参天大树”而贡献社会。图书推荐服务作为高校图书馆信息服务之一,它的发展有其迫在眉睫的理由,原因在于高医院校图书馆的藏书非常专业,加上医学知识膨胀日益加速,广大师生很难从众多医学藏书中找到自己需要的图书。那么,如何将这些医学专业图书推荐给真正需要它的读者,就成为了目前各大高医院校图书馆迫切需要解决的问题。因此,图书馆作为信息交汇和资源共享平台,构建图书荐读系统(即推荐系统)变得十分必要。本文提出了在高校图书馆领域构建基于局部数据的图书荐读系统,既能很好地满足广大师生的信息需求,同时也能够通过这种主动推荐的模式帮助更多师生节省查找图书资料的时间,提高工作学习效率。
1 高医院校图书馆构建荐读系统的可行性分析
高校图书馆拥有丰富的藏书资源,是知识和信息的集散地,但是在知识爆炸的时代,移动设备频频更新换代,读者阅读行为已经改变,如果图书馆不能推出新的面向读者的服务方式,高校图书馆将无法很好发挥其资源的优势。在这种环境下,本文对在高校图书馆领域构建基于局部数据的图书荐读系统做了可行性研究。
近年来,推荐系统在各个领域内逐渐兴起,并得到越来越广泛的应用,目前在图书馆领域应用推荐系统的同样比比皆是,除了各自采用不同的推荐技术之外,目的都是为读者提供更快更好的信息推送服务,其中斯坦福大学的Fab推荐系统,它将基于内容和协同过滤算法结合起来,采用混合推荐技术为特定用户进行推荐;加州大学的Melvy推荐系统,它采用了两种生成推荐系统的方法:一种是利用图书馆的流通数据进行推荐,另一种是基于相似性的推荐;美国俄勒冈的SERF推荐系统是一种通过写作过滤的新型搜索引擎;在国内,虽然也有高校图书馆推出了推荐系统,但并不普遍,其中中国人民大学图书馆的推荐系统比较成型,它同样采用了混合的推荐模式为读者推送书目信息。从技术的角度讲,推荐系统在国际上已有成熟范例,而国内图书馆领域仍属于起步阶段,需我们各大高校共同努力,实现图书馆领域的智能图书推荐。[1]
2 各种推荐算法比较分析
目前,推荐系统在各行各业中应用广泛,其核心算法已经基本成熟,主要分为以下三种。
2.1 基于内容过滤的推荐算法
该算法通常使用机器学习,向量空间,聚类等多种方法,进行文本挖掘。这个算法推荐结果直观,容易解释,且不需要领域知识,但是由于物品属性有限,相似度分析又仅仅依赖于物品本身的特征,其复杂的属性不好处理,所以很难得到有效数据,且存在稀疏性问题和新用户问题。
2.2 协同过滤推荐算法
它是在用户对于一些项目或新闻资讯的评分或可以表达用户喜好的行为的基础上,查找具有相同兴趣爱好或行为的用户,以此来为目标用户推荐一些他们可能会感兴趣的资料的技术。这种算法是目前较常用的推荐技术,它的优点是与领域无关,发现速度更快,性能随着时间推移会提高,其推荐个性化、自动化程度都很高,能处理复杂的非结构化对象;但是,存在稀疏性问题、可扩展问题和新用户问题。[2]
2.3 基于关联规则的推荐
这种方法需要挖掘数据的依赖关系,找到同时被购买的物品,这些用户还买了哪些其他物品,这就是关联规则,掌握这些就可以对用户成功的实现物品推荐。这种方法优点是可以充分利用大量的读者数据,挖掘读者潜在借阅模式,缺点是关联规则挖掘本身复杂,非专业人士难以理解挖掘结果,而且會出现产品名同义性问题,个性化程度比较低。[3]
3 基于局部数据的协同过滤推荐算法的采用
在高医院校图书馆中进行图书,推荐物品为图书,用户为特定的读者群(广大师生),以上三种常用的推荐方法,有其自身的优势,同样也有弊端。
第一,高校图书馆管理系统中关于图书的元信息十分有限。以牡丹江医学院图书馆金盘管理系统为例,在金盘管理系统中,图书的元数据只有题名、著者、出版社、期等信息,没有图书简介,也没有图书的相关内容,并且,在我们的传统图书馆管理系统中也不提供读者评论的平台,而协同过滤推荐算法具有内容无关性,这种特性可以弥补我们传统图书馆中的元数据十分单一的不足。
第二,目前,牡丹江医学院图书馆的金盘集成管理系统大概拥有100万条读者借阅记录,据统计每年产生10万余条数据,这些借阅数据会越来越多,这些数据都会被图书馆管理系统记录并保存下来,它们将会成为推荐系统进行推荐行为的数据来源,会及时更新我们对推荐系统的认知。
第三,便于隐式反馈数据的积累,在高校,读者借阅日志的产生是图书馆管理系统自动生成的,无须读者的任何协助行为,相比一般推荐系统中常用的需要用户参与集中“评分数据”,更易获取,同时,这种获取方式不会给高校读者带来任何额外的负担。
第四,读者的借阅数据更能反映读者的真实借阅需求。在高医院校,读者借阅数据是能够真实地反映高校读者需求的数据,虽然借阅行为是属于用户的“隐式反馈”行为,但这种数据相比在互联网上记录一个用户是否读过一篇新闻更具参考价值,可行度更高。
第五,尽量减少推荐系统的实现对现有图书管理系统的影响。推荐系统的实现往往会对高校图书馆管理系统造成影响,这是我们担忧的问题之一,同时我们也担心推荐系统会泄露读者的个人隐私,所以,如果我们的推荐是基于用户借阅数据的,我们只需要按时导出我们需要的那一部分数据即可,对原有图书馆管理系统没有任何其他的操作,不会对其造成任何影响。[4]
基于以上因素的考虑,及几种推荐算法的优劣对比分析,本文提出了基于局部近邻搜索的方法,即基于局部用户数据的协同过滤推荐算法来构建图书荐读系统,该算法在协同过滤推荐算法的基础上进行了改良创新,其基本思想是假设如果某些读者同时喜欢某一专业或某一类别的图书,那么他们对其他专业或类别的图书的喜爱也比较相似,即评分相似,当然,这种算法尤其适合高校进行图书推荐,原因在于高校由于其按专业进行划分的这种特点,在挑选图书时,相同专业的读者往往会挑选相同或相似类别的图书,因此我们在进行推荐方法设计时创新性地采用了读者局部数据,即采用相同专业的读者借阅数据来进行图书推荐服务,这种方法区别于以往的利用全校读者的借阅数据来发掘读者潜在兴趣的推荐模式,可以提供更为准确的图书推荐服务[5]。
4 结 论
将推荐系统应用于图书馆领域,既能很好地满足广大师生的信息需求,同时也能够通过这种主动推荐的模式帮助更多师生节省查找图书资料的时间、提高工作学习效率,提高图书馆现有资源的利用率,节省读者查找所需图书资料的时间,为高校教学科研提供极大便利。目前,国内很少有成熟的推荐系统应用在高校图书馆领域,由于构建推荐系统的算法多种多样,各具优势,各大高校应该根据自己院校的特点进行选择,适当创新,以促进推荐系统在未来高校图书馆中的发展应用。
参考文献:
[1]张闪闪,黄鹏.高校图书馆图书推荐系统中的稀疏性问题实证探析[J].大学图书馆学报,2014(6):47-53.
[2]艾磊,赵辉.基于知识的推荐系统用户交互模型研究[J].软件导刊,2015(3):15-17.
[3]吴玉春,龙小建.基于关联规则的图书借阅数据挖掘[J].江苏科技信息,2016(1):12-14.
[4]董坤.基于协同过滤算法的高校图书馆图书推荐系统研究[J].现代图书情报技术,2011(11):44-47.
[5]张瑶.面向高校图书馆的推荐系统研究与实现[D].泉州:华侨大学,2013.