何波?章宏远
摘 要 随着大数据时代的来临,针对所有的用户都采用同一种方法的图书馆个性化推荐,已经无法满足图书馆用户的需要。论文利用基于大数据的数据挖掘预处理技术,将图书馆用户细分为新用户和一般用户,然后利用数据挖掘与mapreduce技术,提出大数据下的图书馆个性化推荐方法和策略。
关键词 大数据 数据挖掘 个性化推荐
分类号 G250.7
DOI 10.16810/j.cnki.1672-514X.2017.06.015
Abstract The traditional recommendation strategy adopts the same recommendation method for all users. It is not able to satisfy the library users needs in the era of big data. This paper divides library users into new users and ordinary users by data mining preprocessing technology based on big data. Also, it proposes the library personalized recommendation strategy based on data mining and mapreduce.
Keywords Big data. Data mining. Personalized recommendation.
大數据时代,图书馆在个性化推荐服务中应用数据挖掘[1]和Mapreduce[2]技术,将图书馆的海量数据优势[3-4] 充分发挥出来,大幅提升图书馆的个性化推荐服务水平。国内外研究人员和研究机构对大数据下的图书馆个性化服务进行了初步的研究和应用。代表性的有杨亮的“大数据环境下图书馆个性化服务研究”[5]、陈臣的“基于大数据的图书馆个性化智慧服务体系构建”[6]、Cassidy R. Sugimoto的“Library and information science in the big data era:funding, projects, and future”[7]等研究成果。但是这些研究成果对图书馆全体用户采用同样的推荐方法,没有考虑图书馆新用户和一般用户的不同。与一般用户相比,图书馆新用户被收集的个人信息较少,需要使用有针对性的个性化推荐方法。因此,对于海量图书馆数据,需要根据图书馆新用户和一般用户的不同特点,提出有针对性的大数据下的图书馆个性化推荐方法和策略。
1 大数据下的图书馆个性化用户模式
个性化用户模式[8]是图书馆个性化推荐服务的基础。利用大数据的数据挖掘预处理技术,对图书馆访问数据进行预处理挖掘,形成大数据下的图书馆个性化用户模式。图书馆个性化用户模式定义为三元组,形式化的具体表示如下所示:
其中ipt为用户IP地址,idt为用户ID,URLt为访问的图书馆网页的URL,u为一条用户访问图书馆网页的记录,u.time为访问图书馆网页的时间戳,u.timelength为访问图书馆网页的时长。u.timelength=u.time- u.time,1 ≤ k ≤ m-1.
2 大数据下的图书馆用户细分
图书馆新用户被收集的个人信息较少,不适合和一般用户采用同样的推荐方法。大数据下图书馆用户细分的目的是针对不同的用户来提供不同的个性化推荐服务。
针对图书馆用户的特点,将其分为新用户(newuser)和一般用户(domesticuser)。新用户和一般用户的确定需要考虑多个因素,包括图书馆访问时长(duration)、图书馆新鲜度(new)以及图书馆访问频率(Frequent)。
(1)图书馆访问时长(duration)为用户多次访问图书馆的时长之和
其中count是用户访问图书馆的次数,durationi是用户第i次访问图书馆所花费的时间。
(2)图书馆新鲜度(new)表示用户对图书馆的访问时间的新鲜程度
其中userstart是用户首次访问图书馆的日期,usercurrency是现在的日期, userend是用户最近一次访问图书馆的结束日期。
(3)图书馆访问频率(Frequent)表示用户访问图书馆的频率
其中count是用户访问图书馆的次数。
对于以上各个公式计算出来的值,利用模糊函数转换到[0,1]范围;Frequent的权重最大,设定为;duration的权重较大,都设为;new的权重最小,都设为;用户阈值设定为。
if (*Frequent +*duration +*new>),表明该用户为一般用户(domesticuser); else 该用户为新用户(newuser);
3 大数据下的图书馆个性化推荐方法和策略
通过利用大数据的数据挖掘与mapreduce技术,针对新用户和一般用户的不同,分别提出有针对性的图书馆个性化推荐方法。推荐策略描述如下。
针对图书馆个人信息较少的新用户,提出基于用户模式聚类与mapreduce的图书馆个性化推荐方法。该方法利用大数据的mapreduce技术,首先采用map分解任务,对相似的图书馆个性化用户模式聚类;然后匹配图书馆个性化用户聚类模式与图书馆用户当前访问路径;最后采用reduce进行归并,将匹配度高的推荐集推荐给用户。该方法对相似的图书馆个性化用户模式聚类,利用兴趣相似的图书馆个性化用户聚类模式获得推荐集,扩大了推荐范围,非常适合图书馆新用户。
一般用户是图书馆的主要用户。为了吸引并留住一般用户,提出基于关联规则挖掘与mapreduce的图书馆个性化推荐方法。该方法利用大数据的mapreduce技术,首先采用map分解任务,从图书馆个性化用户模式中挖掘出频繁访问路径,然后从频繁访问路径中挖掘与图书馆用户当前访问路径匹配的关联规则;最后采用reduce进行归并,根据关联规则和推荐度阈值将推荐集推荐给用户。该方法推荐速度快,准确度高,非常适合图书馆一般用户。
4 个性化推荐方法相关实验
测试设备为Lenove服务器。实验数据来自重庆理工大学校图书馆一个月的访问记录。选择100位新用户和100位一般用户,第1次实验采用基于用户模式聚类与mapreduce的图书馆个性化推荐方法进行推荐准确度测试,第2次实验采用基于关联规则挖掘与mapreduce的图书馆个性化推荐方法进行推荐准确度测试。图书馆用户推荐准确度如图1所示。
第1次实验采用基于用户模式聚类与mapreduce的图书馆个性化推荐方法,实验结果是图书馆新用户的推荐平均准确度为83%,图书馆一般用户的推荐平均准确度为72%。第2次实验采用基于关联规则挖掘与mapreduce的图书馆个性化推荐方法,实验结果是图书馆新用户的推荐平均准确度为68%,图书馆一般用户的推荐平均准确度为92%。从实验结果可以看出,第1次实验采用的方法适合图书馆新用户,第2次实验采用的方法非常适合一般用户。
将提出的基于用户模式聚类与mapreduce的图书馆个性化推荐方法、基于关联规则挖掘与mapreduce的图书馆个性化推荐方法应用到学校图书馆。对200位新用户采用基于用户模式聚类与mapreduce的图书馆个性化推荐方法进行推荐,对200位一般用户采用基于关联规则挖掘与mapreduce的图书馆个性化推荐方法进行推荐。让用户30天后进行推荐满意度调查。图书馆用户推荐满意度如图2所示。
图书馆用户推荐满意度调查结果是:200位新用户对基于用户模式聚类与mapreduce的图书馆个性化推荐方法的推荐满意度为88%,200位一般用户对基于关联规则挖掘与mapreduce的图书馆个性化推荐方法的推荐满意度为94%。从实验结果可以看出,有针对性的、准确的图书馆个性化推荐能够满足不同用户的推荐需求,吸引并留住图书馆用户。
5 结语
图书馆新用户被收集的个人信息较少,不适合采用和一般用户同样的推荐方法。图书馆应积极利用大数据的数据挖掘预处理技术,将图书馆用户细分为新用户和一般用户,并通过数据挖掘与mapreduce技术,形成大数据下的图书馆个性化推荐方法和策略。实验结果表明,这一大数据下的图书馆个性化推荐方法和策略是有效的。
参考文献:
[ 1 ] HAM J W, KAMBER M, PEI J. Data mining: concepts and techniques third edition[M].San Francisco: Morgan Kaufmann, 2011.
[ 2 ] 李建江,崔健,王聃,等. Mapreduce并行编程模型研究综述[J].电子学报, 2011,39(11):2635-2642.
[ 3 ] Science. Special online collection: dealing with Data [EB/OL].[2015-12-20].http://www.sciencemag.org/site/special/data/,2011.
[ 4 ] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,9(8):8-15.
[ 5 ] 杨亮.大数据环境下图书馆个性化服务研究[J]. 现代情报,2014,34(4):74-77.
[ 6 ] 陳臣.基于大数据的图书馆个性化智慧服务体系构建[J].情报资料工作, 2013,34(6):75-79.
[ 7 ] CASSIDY R. SUGIMOTO, YING DING, THELWALL M. Library and information science in the big data era: funding, projects, and future[J].Proceedings of the American Society for Information Science and Technology, 2012,49(1):1-3.
[ 8 ] 张潼.互联网大数据发展趋势[J].重庆理工大学学报(自然科学). 2015(10):3-4.