Top-K推荐中的多样性研究

2017-10-13 05:58:53邢小璐复旦大学公共绩效与信息化中心实验室上海200126
微型电脑应用 2017年9期
关键词:精准度列表预测

邢小璐(复旦大学 公共绩效与信息化中心实验室, 上海 200126)

Top-K推荐中的多样性研究

邢小璐
(复旦大学 公共绩效与信息化中心实验室, 上海 200126)

随着电子商务产业的不断发展,推荐系统越来越多走入人们的生活,其中Top-K推荐能够推荐一个商品列表供用户选择,在商业推荐中越来越多地扮演重要角色。对于Top-K推荐而言,多样性的提高可以使推荐列表不再重复、单调,给用户多样化的选择空间,更容易适应用户需求。传统的Top-K推荐方法大多在预测评分方法的基础上进行优化改良,本文通过MovieLens数据集上的统计调查,说明基于用户兴趣分布会比基于预测评分拥有更优的效果。本文还提出两个获取用户兴趣分布的思路,供后续研究参考。

推荐系统; 多样性; Top-k推荐

Abstract: With the continuous development of e-commerce industry, recommender systems go more and more into people's lives. Top-K recommendation could recommend a list of items for the user to choose, and more and more plays an important role in the commercial recommendation. For Top-K recommendation, the increase in diversity can make the recommendation lists no longer repeat and monotonous. It provides users a variety of choices, convinience to adapt to users' needs. The traditional Top-K recommendation methods are mostly optimized on the basis of the rate prediction methods. Through the statistical survey on the MovieLens dataset, this paper shows that the user interest distributions will have better effect than the predictive rate. This paper also proposes two ideas for obtaining user interest distributions which may be used in later research.

Keywords: Recommendation; Diversity; Top-k

0 引言

推荐系统即通过对海量的用户历史购物信息进行学习,了解用户的兴趣特点和购买倾向,向用户推荐用户感兴趣的信息和商品。近年来,随着电子商务产业的不断发展,网络上商品或者说消费品的种类和数量不断增长,用户往往要在筛选大量商品信息的过程中浪费许多精力和时间,为了解决这个问题,许多购物网站、信息提供网站以及社交网站,诸如淘宝网、豆瓣网、微博,都建立了完善的推荐系统,用来为用户提供完全个性化的决策支持和信息服务。推荐系统已经在方方面面渗透入了人们的生活。

传统的推荐系统通常通过应用一些标准推荐算法,向用户推荐具有最高预测评分的商品。常见的方法有基于内容的方法,协同过滤(CF)[1],矩阵奇异值分解(SVD)[2]等。这些方法通过对用户的历史评分数据建模,得到用户对其未评分商品的预测评分,从而对用户进行推荐。在这些方法当中,预测评分的精准度决定了这些方法的优劣。一般来说,用均方根误差(RMSE)对预测评分的精准度进行评估,RMSE较低的方法被认为具有更好的效果。

然而,传统的推荐系统虽然在推荐单个商品上已经达到很好的效果,但当推荐的为一整个商品列表,即进行Top-K推荐时,传统推荐方法得到的推荐商品列表具有单调性以及重复性,很难真正满足用户的需求。尤其当用户为兴趣广泛且模糊的用户类型时,这种缺陷更加明显。于是,最近的许多研究[3-5]更加注重在Top-K推荐中提高商品列表的多样性,来覆盖用户多样的兴趣,从而达到更好的推荐效果。在评估这类Top-K推荐方法时,与单个商品不同,不仅需要评估推荐商品列表的精准度(Precision)和召回率(Recall),同时也要对列表的多样性(Diversity)进行评估。

1 国内外Top-K推荐多样化研究

近年来,已经出现了许多使推荐列表或搜索结果多样化以增加用户满意度的研究。这些研究提高多样性的方式主要分为以下两类:

2 MovieLens数据集上的统计调研

最近的许多Top-K推荐方法主要基于传统推荐方法得到的推荐列表对多样性进行改进。一般来说,它们定义一个目标函数,在商品列表的精准度和多样性间进行平衡。1998年提出的MMR方法[6]是大多数这类方法的基础,其通过贪心算法每一步迭代选取当前能够最大化列表精准度和多样性的商品,最终得到一个同时兼顾精准度以及多样性的商品列表。然而,这些方法的基础仍是传统推荐方法的预测评分方法,其预测评分并不能精准地代表用户的兴趣倾向,这使得在Top-K推荐当中,这些推荐方法的效果仍有上升的空间。我们接下来通过一个在MovieLens数据集上的统计调研来说明这个问题。在公开数据集MovieLens上关于电影主题的一个统计结果。MovieLens数据集中包含了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据,其中包括电影评分、电影元数据(风格、主题和年代)以及用户信息(年龄、邮编、性别和职业等)。如图1所示。

图1 MovieLens数据集主题数据统计

图1中横坐标为MovieLens数据集中的显性主题,我们对各主题所占比例以及主题所受到的各等级评分所占的比例进行统计。其中“Topic Popularity”表示数据集中每个主题所占比例,我们可以认为这是该主题的流行度,“Rated (x) Proportion”表示每个主题中评分为x的比例。我们很容易可以发现,流行的电影主题不一定会获得高的评分。例如,“Comedy”主题的电影具有最高的人气,但是在对该主题电影的评分当中,评分和的比例只有接近。此外,诸如“Film-Noir”和“Documentary”的高评分主题,它们也同时具有几乎最低的流行度。这些观察结果可以表明,用户的兴趣与其对商品的评分并不密切相关,也就是说,用户会倾向于选择的商品不一定是能得到高评分的商品。

因此,我们认为相对于传统Top-K推荐方法中基于预测评分对商品进行排序的做法,基于用户兴趣分布来进行Top-K推荐才是更好的选择。

3 获取用户兴趣分布的两种思路

本文提出两种获得用户兴趣分布的思路。它们都能直接获取用户兴趣分布,而不是预测用户对商品的评分,更加适用于进行Top-K推荐的推荐方法。

1.1 LDA主题模型:

在自然语言处理当中,LDA主题模型用来得到“文章-主题”和“主题-词”这两个概率分布,通过这两个概率分布,可以实现如自动摘要、主题生成、文章分类等功能。其核心式如下式:

p(w|d)=p(w|t)*p(t|d)

其中d、w、t分别为文章、词、主题。我们可以看到,在LDA中,文章d中的每一个词w,都被看作是以p(t|d)的概率先选择一个主题t,再以p(d|t)的概率从主题t相关的词中选择一个词w。

而近年来一些推荐算法[11]将LDA主题模型应用于推荐领域,他们往往通过对商品的文本信息如介绍、评论等进行类似于自然语言处理中的LDA建模,得到“用户-主题”和“主题-商品”的分布。在这些研究当中,用户被看作先以一定概率选择一个主题,然后再从主题相关的商品中以一定概率选择一个商品。不同于常规推荐系统致力于预测用户对商品的评分,通过LDA建模得到的这两个概率分布,可以容易地计算出用户选择商品的概率,即用户兴趣分布。

1.2 随机游走方法:

一些推荐方法[12]将用户对商品的评分矩阵转化成图的形式,并在图上进行随机游走(Random Walk)的实验。其核心思想来源于google的PageRank算法。如图2所示。

图2 评分关系图

一般做法是将用户和商品作为图中节点,用户对商品的评分关系作为图中的边,某些研究还将评分作为边的权重。以此评分关系图为基础,每次选取一个用户u,虚拟其在图上随机游走N轮的过程,统计该用户u到达各个商品节点的次数Ci,则用户u选商品i的概率可以近似看作Ci/N。多次实验取均值,就可以得到用户u的兴趣分布。

4 总结

目前推荐系统研究中的一个重要方向是提高Top-K推荐的多样性。本文对推荐系统及Top-k推荐的现状进行介绍,然后通过一个在通用数据集MovieLens上的统计调研,说明了在Top-K推荐当中基于用户兴趣分布会比基于预测评分更加适用,并提出两个获取用户兴趣分布的思路,分别为LDA主题模型和随机游走方法,希望能给后续研究带来启发。

[1] Koren Y, Bell R. Advances in Collaborative Filtering. Recommender Systems Handbook[M].2011: 145-186.

[2] Koren Y. The Bellkor Solution to the Netflix Grand Prize[J]. Netflix prize documentation, 2009(81): 1-10.

[3] Mi Zhang, Neil Hurley. Avoiding Monotony: Improving the Diversity of Recommendation Lists[R]. Lausanne, Switzerland, October, 2008:23-25.

[4] Zhou T, Kuscsik Z, Liu J G, et al. Solving the Apparent Diversity-accuracy Dilemma of Recommender Systems[J]. Proceedings of the National Academy of Sciences of the United States of America, 2010, 107: 4511-4515.

[5] Qin Lijing,Zhu Xiaoyan. Promoting Diversity in Recommendation by Entropy Regularizer[J]. IJCAI, 2013, 2698-2704.

[6] Jaime G. Carbonell, Jade Goldstein. The Use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries[C]. SIGIR 1998, Melbourne, Australia,

[7] Tommaso Di Noia, Vito Claudio Ostuni, Jessica Rosati, et al. An Analysis of Users' Propensity Toward Diversity in Recommendations[C]. Eighth ACM Conference on Recommender Systems, Silicon Valley, 2014.

[8] Rodrygo L T. Santos, Craig Macdonald, IadhOunis. Exploiting Query Reformulations for Web Search Result Diversification[C]. Raleigh, 2010.

[9] A. Ashkan, B. Kveton, S. Berkovsky, et al. Optimal Greedy Diversity for Recommendation[C]. Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence, 2015,1742-1748.

[10] Van Dang, W. Bruce Croft. Diversity by Proportionality: An Election-based Approach to Search Result Diversification[C]. SIGIR12, Portland, 2012: 12-16.

[11] Deepak Agarwal, Bee Chung Chen. FLDA: Matrix Factorization through Latent Dirichlet Allocation[C]. WSDM 2010.

[12] Zhang Y, Wu J, Zhuang Y. Random Walk Models for Top-N Recommendation task[J]. Journal of Zhejiang University (SCIENCE A), 2009,10(7):927-936.

ResearchonDiversityinTop-krecommendation

Xing Xiaolu
(Pudong New Area, Shanghai 201203, China)

TG4

A

2017.04.15)

邢小璐(1991-),男,软件工程师。研究方向:数据挖掘,推荐系统。

1007-757X(2017)09-0044-03

猜你喜欢
精准度列表预测
巧用列表来推理
BH66F5355 增強型24-bit A/D MCU
传感器世界(2023年5期)2023-08-03 10:38:18
无可预测
黄河之声(2022年10期)2022-09-27 13:59:46
选修2-2期中考试预测卷(B卷)
选修2-2期中考试预测卷(A卷)
学习运用列表法
扩列吧
让党建活动更加有“味”——礼泉县增强“两新”党建精准度
当代陕西(2020年24期)2020-02-01 07:06:56
论提高不动产产权保护精准度的若干问题
不必预测未来,只需把握现在