郭淑红 徐玉梅
[摘要]本文通过对图书馆个性推荐概念、原理、图书推荐系统概况及存在问题进行深入分析,提出个性化图书推荐创新策略,并对数据挖掘技术在个性化图书推荐系统实施过程中出现的用户隐私问题、用户信息获取局限性问题以及信息安全问题进行仔细思考与展望,以期对图书馆界同行提供有益帮助。
[关键词]高校图书馆;个性化;圖书推荐;研究
[中图分类号]G250.7 [文献标识码]A 文章编号:1671-0037(2016)12-79-3
随着新兴网络媒体的日益盛行和高校办学规模的不断扩大,高校传统图书与电子图书的数量剧增,每年以几万册不等的数量增长,一方面,在校大学生要在茫茫书海中快速寻找符合自己需要的图书,面对繁冗信息无从下手。另一方面,用户需求多样化、个性化,传统的检索系统满足不了读者的个性需求。这就需要采取数据挖掘技术,将读者的信息、图书的信息及读者借阅信息进行深度挖掘与数据分析,将用户的隐性信息搜集整理成读者喜好的借阅模式的显性信息,便于对不同用户信息需求提供精准个性化图书推荐。当前,加强精准个性化图书推荐及提高用户满意度已成为图书馆界研究的热点和重点。
1
图书馆个性推荐概念及原理
1.1图书馆个性推荐的概念
图书馆个性推荐是指以读者的个人背景、专业、习惯、爱好和提出的特别要求等为依据,对每一位读者提供个性化推荐服务。
1.2个性化推荐原理
个性化推荐是信息的重组过程,是信息资源的再分配,是一种基于用户需求的个性化信息服务模式。其原理是以充分挖掘用户的个性化需求信息为前提,主动组织信息资源,并向用户推送其感兴趣的信息资源和信息服务。一方面是社会进步与图书馆自身发展的需要,有利于提高图书馆的科技能力与服务水平。另一方面节省用户获取有效文献信息时间,激发读者阅读兴趣,提高图书的使用效率,提高用户的满意度。
2图书推荐系统概况
2.1推荐系统背景
推荐系统最初广泛应用于电子商务、电影推荐、音乐推荐等领域。它不仅为不同用户提供了方便商品、信息资源,还为网站获得了不菲的赢利空间。亚马逊是最早使用推荐系统的网站,其每年20%-30%的销售来源于推荐系统。如今将个性化推荐系统应用于图书馆,深度挖掘个性化推荐的精准度及用户满意度已是图书馆界研究的热点,无疑将对图书馆自身发展与建设起着较大的推动作用。
2.2传统推荐系统种类
2.2.1基于内容的推荐方法。根据用户购买过的商品,计算将要购买的商品与已购商品的相似度,按相似度的大小排序向用户进行推荐。该方法优点是操作简便,推荐质量相对较高。缺点是算法复杂,处理复杂结构难度大。
2.2.2基于用户的协同过滤方法。根据用户的基本信息和行为数据,寻找与该用户相似的其他用户,把其他用户的感兴趣的商品或信息推荐给该用户。该推荐方法不需对图书内涵进行深入分析,只需对读者的特征及借阅记录进行分析,就能获得读者感兴趣的个性化图书推荐。该方法优点是能作音频、视频处理,算法简便,针对用户评价提供个性化推荐程度高。缺点是易产生冷启动、数据稀疏问题。
2.2.3基于关联规则的推荐方法。该方法是如何建立关联规则,根据用户关联规则的相似性,向用户推荐所需个性化信息。该推荐方法能够分析隐藏的关联规则,不足是由于图书管理系统中数据量大、类型复杂、学科跨度大等原因,造成图书特征展示不全面,推荐质量较低,推荐效果不佳。
2.2.4混合推荐方法。该方法使用多种推荐方法,各种方法博采众长,查漏补缺。
总之,本文通过中国知网搜索“个性化图书推荐系统”,共获得56 318条结果,1979-1999年发表文章不足100篇,2000-2003年达到近1 000篇,2004-2014年增速较快,且2014年达到最高值6 172篇,表明我国图书推荐系统研究进入快速发展、重点关注及热门研究阶段,2015年达3 320篇,稍有回落,说明我国此方面研究进入良性发展、逐步完善与理性研究阶段。从发表文章及研究成果进行分析来看,我国图书推荐系统理论研究居多,用于实践居少;开发人员虽然也进行了针对性的开发技术研究,但不能完全满足读者的个性化需求。这就要求我们在以后的工作中,要充分借鉴已取得数据挖掘技术的相关成果,根据学校定位、馆藏特色及读者需求,研究、设计出符合本馆特色的个性化图书推荐系统。
3传统推荐系统存在问题
3.1数据分布不均
图书馆的信息资源大多由自建信息资源、外购数据资源和共享数据资源构成。在数字资源引进上,高校图书馆或采购部门根据学校特色、学科需求、资源需求、现有资源等因素合理建立所需馆藏资源,每所高校都有不同办学特色,因此,不同高校馆藏资源分布无论种类、数量都存在分布不均衡的现象。而公共图书馆偏重于读者喜好、需求与使用量来采购图书资源,这就造成某些类图书资源过多,而另一些类图书资源相对匮乏的现象。
3.2数据整体稀疏
随着传统图书馆向数字图书馆、智慧图书馆转变,图书馆的信息资源越来越丰富,读者使用数字资源的人数也呈逐年上升趋势。如果图书馆的信息资源与读者之间产生关系与所有关系占比来看,由于图书馆的信息资源有一定重复率,而读者是唯一的没有重复性,且大部分读者所选信息资源重复率较低,所以,相对而言,图书馆的信息资源数据存在整体稀疏性。另外,随着办学规模与招生人数的增加,大部分高校图书馆图书的数量是在校生人数的100倍,且图书每年以6%左右的数量递增,而图书馆75%的图书未被借阅,这也造成图书馆历史借阅数据的极大稀疏性。数据的稀疏性直接影响个性化信息推荐,且推荐效果不佳。
3.3传统个性化服务方式不足
在传统的个性化信息服务中,通常采用问卷调查、网络访谈、电话咨询等方式针对读者不同信息需求,由学科馆员进行搜集、整理、加工、分析,提供针对性的个性化图书推荐服务。随着大数据时代的到来,图书馆信息繁冗而复杂,传统的个性化服务方式越来越不能满足读者的信息需求。
3.4用户流失现象
面对互联网的快速发展与信息技术高速增长,由于图书馆个性化信息服务不强及使用不便等原因,当今大学生读者对图书馆的依赖性越来越低。表现为到馆率低,纸质图书与期刊借阅率呈逐年下降的趋势,他们更多的是借助百度、谷歌、SNS等获得信息支持。
3.5社交网站的信息反馈参考
随着互联网信息快速发展及web2.0、web3.0在社交网站的广泛应用,广大的读者在豆瓣网(中文网站中除新浪微博、人人网而排名第三)、读书网站、电影电视剧网站、电子购物网站等留下了大量的评论信息,这些网站拥有大量的来自不同职业类型层次的读者,其庞大的信息评论可以作为深入挖掘数据的重要参考依据。
4个性化图书推荐创新策略
4.1扩大宣传渠道,加大采购力度
图书馆信息资源分布不均,极易产生冷启动问题。为此,一方面,图书馆要加大宣传渠道,对读者因不了解馆藏信息资源而借阅率不高的图书加大宣传力度,主动向读者宣传推介,激發读者阅读兴趣,提高资源的使用率。另一方面,加大类别欠缺图书的采购力度,丰富馆藏资源,加大贫乏资源的引进力度。另外,利用多维数据交叉推荐的方法,也能在一定程度上解决冷启动问题。
4.2减少图书复本,增加购书品种
国家对本科高校水平评估指标中,每年采购一定数量的新书,对采购图书的复本数没有严格的限制,导致只注重数量而不注重品种及质量,加之各高校经费有限,用于图书馆购买新书的经费更是有限,所以,不能保质保量地完成每年新增图书的采购,导致库存资源因复本多而整体稀疏。所以,采购图书,应侧重增加图书种类,严格限定复本数,以此缓解整个库存资源的图书稀疏问题。另外,可以把读者或资源进行粗粒化,使数据变得稠密,从而有效缓解数据整体稀疏问题。
4.3针对不同用户,实施信息推送
一是智能手机终端、IPAD等移动设备的普及,高校图书馆师生普遍通过移动终端获取信息服务已成共识。为此,高校图书馆适时推出微信、微博、掌上电脑、移动图书馆等服务,通过信息浏览记录获取读者地理位置、阅读兴趣的行为信息,从而进行深入挖掘与分析,为用户提供精准个性化信息服务;二是针对读者借阅馆内信息资源,为读者提供相似读者的图书推荐信息,向读者推荐尚未发现的馆藏资源;三是针对读者使用移动终端位置及类型,向读者及时提供新进图书、书展、讲座等信息服务。
4.4借鉴信息评论,提供挖掘参考
针对高校校内读者信息、图书信息、借阅行为信息相对充足,校外高校馆、公共馆、社交网站读者信息欠缺现象,高校图书馆应加强馆际交流,加强与资源供应商的交流与互动,充分借鉴他们的网站读者评论信息及推荐结果,有效节省图书挖掘推荐时间,提高图书推荐使用效率,加大阅读推广范围与力度,扩大文化宣传作用与效果,从而达到弘扬中华文化、传承人类文明及促进全民阅读的文化氛围。
5思考与展望
5.1用户隐私问题
随着数据挖掘技术在图书馆的广泛应用,系统对用户的阅读信息进行筛查、甄别、分析、整理,用户的上网信息数据被系统隐性跟踪与实时监控,用户的隐私受到一定程度的侵犯及威胁。因此,一定要征求用户的同意,及时删除与数据挖掘不相关的读者信息,尽量避免因读者的信息隐私外泄而产生不良纠纷。
5.2用户信息获取的局限性
高校图书馆的读者信息大多来源于校园内,而校园以外的读者信息大多被数据供应商和电信运营商所拥有,而对数据的深度挖掘与深入分析,只有对读者行为数据达到一定存储规模和数据耦合度时,才能获得精准化个性图书推荐。可见,数据来源的局限性,在一定程度上降低了个性化图书推荐的精准性。社交网站拥有大量用户的社交信息、文本信息以及个人基本信息,这些数据信息的获取有利于对读者进行个性化图书的精准推荐。
5-3信息安全问题
随着大数据时代的到来,云计算、物联网等技术高度开放,新读者和新资源快速增长,云数据中心一旦遭到病毒攻击、黑客入侵,其数据中心不仅包括丰富的数据资源、读者信息、行为信息、阅读兴趣等,可能引起因数据资源使用不确定性而导致版权问题,以及因读者信息外泄引起的不必要争端问题。
6结语
随着图书数据资源日益丰富,读者在浩瀚的书海中快速寻找到自己所需图书确属难事。因此,图书馆要充分发挥自己的人力、物力和技术资源优势,深入挖掘读者信息、行为信息和图书馆自身资源信息,加大进行深入精准挖掘数据信息和用户满意度的研究,提高图书使用效率,激发读者阅读兴趣,提升图书馆的整体科研能力与服务水平,扩大高校图书馆的社会地位及影响力。