●周玲元,段隆振
(1.南昌大学信息工程学院,南昌330063;2.南昌航空大学经济管理学院,南昌330063)
个性化图书推荐系统设计与实现
——以南昌航空大学图书馆为例
●周玲元1,2,段隆振1
(1.南昌大学信息工程学院,南昌330063;2.南昌航空大学经济管理学院,南昌330063)
个性化服务;数字图书馆;推荐系统;数据挖掘
随着馆藏图书的增加,学生到图书馆借书愈发茫然,本系统结合南昌航空大学图书馆业务实际,使用改进的L-Apriori实现专业书籍推荐功能,针对不同读者推荐图书,满足读者个性化需求。同时,阐述个性化图书推荐系统的设计目标、系统框架、主要功能模块及关键技术的设计与实现。
现有网络环境下,人们想要准确、快速地查找到自己所需的图书信息反而越来越困难,一是图书检索结果可能有成千上万条,从中寻找到目标结果必然消耗大量时间和精力;二是用户需求千奇百怪,不同学科专业、习惯偏好等导致用户需求个性化和多样化,而传统的图书检索系统满足不了用户个性化需求。
个性化推荐研究成果主要应用于电子商务领域,目前,数字图书馆领域推荐系统有:[1-3]卡内基·梅隆大学开发的主动协作过滤推荐系统,主要用于电子文档的推荐;MⅠT开发的GroupLens协同过滤推荐系统,主要用于新闻信息的推荐;明尼苏达大学开发的协作过滤推荐系统可以用于Web电影资源的推荐;孙博阳等[4]提出了图书馆数字资源的管理系统,对文献资源进行有效管理;冯太琴[5]针对北京工业大学图书馆实际问题提出了个性化选书导购系统;肖红等[6]引入RSS技术到图书馆数字资源个性化推荐。国内外图书馆领域个性化推荐服务大多是基于数字资源的协同过滤推荐,寻找最近邻产生推荐结果;结合学生背景进行专业类书籍、公共类书籍推荐的研究很少。
本文尝试建立一个个性化图书推荐系统,结合南昌航空大学实际情况,从历史借阅数据中实现对图书馆馆藏情况、读者的需求情况等方面进行分析,并以专业、图书类别、新书推荐等五方面进行图书推荐,依据读者背景信息提供图书的智能检索和推荐服务,帮助用户进行信息筛选提高检索效率,积极引导大学新生的图书借阅,拓宽读者的阅读视野,满足不同用户的个性化需求。
1.1 南昌航空大学图书管理系统存在的缺陷
南昌航空大学图书馆使用的是现代电子化图书馆系统,但该系统在推荐图书部分有许多不足之处,主要表现在:(1)大一新生面对高校图书馆众多馆藏时无从着手,各专业图书、公共图书的借阅情况现有系统无法提供;(2)图书检索书目信息只能逐条浏览,不具备个性化排序和检索等功能;(3)读者在浏览书目信息时看不到图书的详细介绍信息,只能看到书名、出版社、作者,不具备内容简介和出版日期等信息,不能够完整表达该图书内容及其新颖性;[5](4)系统无法有效展示图书馆新进图书,很难提高新书的利用率。
1.2 个性化图书推荐系统应解决的问题
针对南昌航空大学及相关高校图书馆系统的调研发现,绝大多数图书馆管理系统仅仅提供公共图书检索、公告发布、用户信息管理等传统图书借阅功能。在图书馆数字化建设越来越快的背景下,如何有效提高服务以满足读者个性化需求,最终实现馆藏图书的高效利用成为当下图书馆管理系统研究的重点。
如果能够建立比较完善的个性化图书推荐系统,能够解决以下问题,则可更好地实现与读者信息互动的功能,既能很好地完成图书推荐工作,又能提高图书使用率。[7]
(1)实现对图书进行分类推荐。不同专业的学生对同一图书的偏好是不一样的。比如按照人文类、社科类、自科类等进行细分;也可以按照专业、学院进行细分。
(2)实现对同一种图书借阅次数的统计。通过这种功能可以了解读者对某种图书的关注程度,依据关注程度进行排序推荐,从而有效提高读者查询命中率。
(3)实现对同一类图书的协同过滤推荐。同一类图书涉及不同作者、出版社及出版日期等信息,通过协同过滤算法实现有效推荐,提高服务质量。
(4)实现对新书的合理推荐。图书馆新到图书具有受关注度小、时效性高、检索利用率低等特性,通过合理推荐实现馆藏新书的高效利用。
现有的图书馆推荐系统大多集中在从全局数据库中挖掘知识的同时提高挖掘效率,然而高校图书馆的数据挖掘工作对时间并不是特别敏感,且各专业借阅图书关联规则和全局数据库关联规则有很大不同。本系统试图通过研究本专业图书、跨专业图书和公共图书三种推荐服务提高准确率,因此,相关推荐服务有本月强推、图书类别推荐、专业图书推荐、学院图书推荐等。
其中,利用SQL Server2005的查询功能对全局数据进行统计,得出被借阅最多的书籍实现本月强推功能;对全局数据按图书类别分类然后再进行统计,得到各分类图书被借阅最多的数据实现图书类别推荐;利用关联规则Apriori算法对专业书籍历史借阅数据进行挖掘,实现专业图书关联推荐;利用改进的L-Apriori算法实现学院跨专业图书推荐功能。
图书馆是高校的重要组成部分,也是学生学习的主要场所之一。以其丰富的藏书、数字资源支撑着高校的整体发展。[8]个性化图书推荐系统是图书馆信息化的重要窗口,能为满足学生个性化知识需求和培养学生的创新能力提供支持,在高校的教学、科研、学生学习中起着重要作用。
3.1 系统建设目标
个性化图书推荐系统主要是以满足读者个性需求为目的,一切从读者的要求出发。[9]充分利用图书馆现有的资源以及历史借阅数据,对历史借阅数据进行合理的整合,然后将整合的知识提供给各类型读者,进而满足高校读者快捷、正确、高效地获取所需资源的要求。为高校图书馆资源建设方向提供参考价值,实现高校图书馆可持续发展。
3.2 系统框架
南昌航空大学个性化图书推荐系统利用历史借阅数据对馆藏图书资源进行搜集、分类、标引、存档,并以多重形式向读者推荐图书资源,该系统主要包括三大功能模块:读者登入模块、管理员模块、图书推荐模块。系统框架如图所示。
其中,读者登入模块和管理员模块能够实现传统图书馆管理系统的基本功能;图书推荐模块由专业推荐、图书排行榜、新书推荐、图书类别推荐等多种功能组成,为个性化图书推荐系统的核心模块。
3.3 功能模块说明
(1)读者登入模块。包括的功能有:用户注册、登陆、身份识别和权限管理等功能。主要用于验证读者身份的合法性。防止非法用户进入系统以及保障读者的相应权限;读者的个人信息管理和图书推荐服务及管理功能。主要完成读者个人信息的收集,同时可以检索及查看个性化图书推荐和公共图书推荐服务。
(2)图书推荐模块。图书推荐模块包括:新书推荐、本月强推、图书类别推荐。其中,“本月强推”、“图书类别”推荐功能不涉及读者偏好,主要基于历史借阅数据得到图书借阅次数,借阅次数越多受关注越高。[10]新书推荐功能根据管理员的设定对新入库的图书进行排序推荐;除此之外,图书推荐模块还包括专业图书推荐、学院图书推荐等功能。
图 个性化图书推荐系统框架
(3)管理员模块。此模块是管理员(采访人员)对推荐图书信息进行处理的平台,可以实现以下功能:添加、删除用户,可以根据需求设定用户;处理推荐图书信息,根据图书推荐次数等推荐信息下载推荐数据;批量导入书目信息,将本馆新进图书数据和馆藏数据及相关验收数据及时转入系统;批量删除书目信息,将往年已经遗失、损毁等图书数据及时删除;图书馆公告,及时发布图书馆相关通知、制度及政策。
4.1 数据仓库
系统开发过程中发现涉及多个数据源,系统主要数据源包括:①现有南昌航空大学图书馆自动化系统的历史运行数据、流通数据;②各出版社提供的书目数据、馆藏采购数据;③馆际互借系统数据、馆藏分配信息等。本系统建立多维数据仓库存放综合数据,使综合分析数据与业务系统相分离。使得数据分析时不影响业务系统的运行,又大大提高了在线查询综合分析速度和个性化推荐效率。本系统在SQL Server2005中建立数据仓库主要步骤如下。
(1)为不同推荐业务设计指标,合理地设计维度和划分粒度,确保进入数据仓库的数据量不会过大,又不影响推荐系统的性能;(2)使用星形模式构建维表,考虑到个性化图书推荐系统业务相对稳定,使用星形模式构建维表简单易行,而且便于从现有系统数据库中导入数据创建数据仓库;(3)数据导入,现有系统后台数据库也是SQL Server2005,直接利用其中的数据转入工具生成基本表即可。
4.2 主要数据库表设计
图书借阅是高校图书馆工作中最基本、最主要的内容之一。个性化图书推荐系统中保存了大量的历史借阅数据,通过对这些数据的整理、统计与分析,可以获取有利于组织管理和图书服务的信息,掌握读者的阅读倾向以及图书的借阅状况以提供个性化服务,提升服务质量,开展深层次的服务工作。馆藏图书数据库表格设计如表所示。
表 馆藏图书表设计
4.3 图书推荐算法设计
本系统使用文献[11]提出的L-Apriori算法实现专业图书推荐功能。对历史借阅数据库按照学生层次、专业划分成各个子数据库;应用Apriori算法对各个子数据库挖掘,得到的关联规则分成专业书籍关联规则和跨专业书籍的关联规则,这两类规则可以直接作为知识推荐给学生,实现系统的专业书籍推荐功能;再将各子数据库所挖掘到的跨专业书籍关联规则进行整合,从而达到对整个数据库进行关联规则挖掘的目的。在频繁项整合过程中,L-Apriori算法首先“剪枝”掉各个子数据库的专业书籍频繁项,不断整合跨专业书籍频繁项集,同时在每一轮寻找候选项集的时候,会根据判断不断地“剪去”非频繁项集,从而逐渐减小候选项集的大小,达到算法效率进一步提升。
4.4 系统的开发工具
本系统开发过程中采用Microsft Windows XP操作系统,数据库系统采用Microsoft SQL Server 2005,测试服务器采用tomcat 6.0,采用B/S(Browser/Server)结构,基于MⅤC设计模式完成的,主要使用的编程语言和工具有JSP、Servlet、Hibernate、JavaScript。
随着馆藏图书的日益增加,人们对于图书的借阅越发困难。本文通过构建个性化图书推荐系统为读者提供个性化图书推荐服务,将个性化推荐技术引入图书馆管理中,大大提高高校图书馆的服务质量和图书使用率,同时辅助图书馆管理者的决策。对促进我国高校图书馆的发展,乃至教学、科研水平的提高都有积极意义。
[1]Adomavicius G,Tuzhilin A.Toward the next generation of recommender systems:A survey of the state-ofthe-art and possible extensions[J].ⅠEEE Trans on Knowledge and Data Engineering,2005,17(6):734-749.
[2]Adomavicius G,et al.Ⅰncorporating contextual information in recommendation systems using a multidimensional approach[J].ACM Transactions onⅠnformation Systems,2005,23(1):103-145.
[3]YANG Yan,et al.The design and implementation of parallel digital library management system[J].JournalofComputerScience,2005,1(2):157-163.
[4]孙博阳,等.图书馆数字资源管理系统设计与实现——以北京师范大学图书馆为例[J].现代图书情报技术,2005(4):77-80.
[5]冯太琴.基于web的网上推荐图书系统——以北京化工大学图书馆网上推荐图书系统为例[J].科技情报开发与经济,2010,20(18):1-3.
[6]肖红,肖静波.基于RSS的高校图书馆推送服务系统的设计与实现[J].情报杂志,2009,28(3):157-160.
[7]林绮屏.图书馆联机分析系统的设计与实现[J].情报学报,2002,21(5):563-567.
[8]吴萌,李静.基于用户情境模型的高校图书馆嵌入式集成服务研究[J].图书馆工作与研究,2013(1):63-66.
[9]侯振兴,崔虹燕.数字图书馆个性化主动信息服务模型研究[J].情报科学,2013,31(3):35-39.
[10]钱玲飞,汪荣.基于h指数的OPAC数据分析及应用——以南京航空航天大学图书馆为例[J].大学图书馆学报,2012,30(2):60-64.
[11]周玲元,段隆振.改进的Apriori算法在高校图书推荐服务中的应用研究[J].图书馆学研究,2013(2):89-92.
G252;G258.6
A
1005-8214(2014)12-0106-04
周玲元(1982-),博士研究生,讲师,研究方向:个性化服务;段隆振(1961-),教授,博导,研究方向:数据挖掘与知识发现。
2014-01-17[责任编辑]李金瓯
本文系江西省社会科学规划项目“手机图书馆情境感知服务研究”(项目编号:CC201309282),江西省艺术科学规划项目“基于网格资源匹配的数字图书馆个性化推荐服务研究”(项目编号:DB201209393)的研究成果。