王春才,邢晖,李英韬
(1.长春理工大学计算机科学技术学院,长春130022;2.长春市万易科技有限公司工程研究中心,长春 130000)
个性化推荐系统冷启动问题研究
王春才1,邢晖1,李英韬2
(1.长春理工大学计算机科学技术学院,长春130022;2.长春市万易科技有限公司工程研究中心,长春130000)
随着互联网的高速发展,人们已经步入信息过载的时代。如何为用户提供个性化的服务是推荐系统的主要任务之一。然而推荐系统需要大量的用户历史行为数据作为其做出推荐的重要依据,因此对于新用户、新物品以及新系统来说,如何在缺少用户行为数据时对用户进行个性化推荐,即为冷启动问题[1]。目前冷启动问题已成为推荐系统领域的研究热点之一。
冷启动问题主要分为以下三类:
(1)用户冷启动。用户冷启动问题主要是针对如何给新用户提供个性化的推荐服务。因为新用户访问系统时,系统中并没有他的历史行为数据,因此他的兴趣便无法通过分析历史行为数据进行预测,个性化的推荐也就无法进行。
(2)物品冷启动。物品冷启动所要解决的主要是如何将物品推荐给有可能对其感兴趣的用户的问题。
(3)系统冷启动。系统冷启动所要解决的主要是如何在一个没有用户,没有历史行为数据,仅有少数物品信息的全新的网站上对用户进行个性化推荐服务的问题。
对于以上三种冷启动问题,有不同的解决方法,下面将介绍其中的一些具体解决方法。
新注册的用户,往往无法得知其喜好,只能对他推荐一些较为热门的物品,这样的推荐不是个性化的推荐。但如果可以知道用户是女性,便可以给她推荐一般女性所喜爱的热门物品,这样的推荐虽然粒度较粗,但精度已得到很大提升。因此,利用用户的注册信息可以很好地解决新用户的冷启动问题[2]。在很多网站的注册过程中,年龄、性别等一般都是注册时的必填信息。
用户的注册信息可以被分为以下三种:
(1)人口统计学信息。如年龄、性别、职业、民族等。
(2)用户的兴趣描述。通过用户对其兴趣的文字描述,可以更加详细得知其兴趣所在。
(3)由其他网站导入的用户行为数据。例如通过其他合作网站的账户登录,可以获取到用户在其他网站的行为数据及社交网络数据。
利用用户的注册信息,从而进行个性化推荐的一般步骤如下:
(1)获得用户的注册信息。
(2)通过用户的注册信息,对用户进行分类。
(3)将用户所属分类中其他用户感兴趣的物品推荐给该用户。
在实际情况下,可以将用户的特征进行组合,如性别年龄作为一个组合,性别职业作为一个组合。但需要注意组合的合理性,因为用户不一定具有所有的特征,并且通常用户在系统的注册时,有一些选项并非必填(如职业信息)。
如何获得用户的兴趣,在于观察用户对于不同物品所给出的反馈信息。当新用户注册时,通过为其展示一些物品,让用户对这些物品进行反馈,然后通过分析这些反馈信息,就可以为用户提供个性化的推荐。目前很多推荐系统都采取了这种方法以解决用户冷启动的问题。这种方法需要解决的首要问题是,如何合理地选择物品让用户进行反馈。一般情况下,提供给用户的物品应具有以下几个特点:
(1)物品较热门。获得准确反馈的前提是用户明白系统展示给自己的物品是什么。通过展示较为热门的物品,可以比较准确地获取用户的反馈信息。假如给用户展示的物品十分冷门,用户甚至都不知道该物品为何物,便无法给出准确的反馈信息。
(2)物品具有代表性。展示具有代表性的物品,可以通过用户对物品的反馈信息将用户进行分类。如果为用户展示的物品对用户的兴趣没有区分性,许多用户都对该物品感兴趣,那么用户的个性化需求便难以辨别,个性化推荐便难以开展。
(3)物品多样性。用户的兴趣是多样的,因此为了涵盖用户更多的兴趣点,在用户冷启动时,需要为用户展示较高覆盖率的物品集合,这样所展示的物品才能更好地覆盖主流的用户兴趣,对启动并分析用户的兴趣很有帮助。
物品冷启动问题主要解决的是如何将新加入系统的物品尽快展示给对其可能感兴趣的用户。在时效性很强的网站中,物品冷启动问题需要特别重视。因为此类网站每时每刻都有新的物品加入进来,而每个物品都需要尽快展示给用户。否则一段时间之后,物品便会失去时效性,导致其价值的降低[3]。
目前两种主要的推荐算法——基于用户的协同过滤算法和基于物品的协同过滤算法,其中基于用户的协同过滤算法对于物品的冷启动问题并不是十分敏感。这主要是因为基于用户的协同过滤算法在进行推荐时,会将与用户最相似的一群用户所感兴趣的物品推荐给该用户。当一个新物品加入到系统时,总会有用户通过某种途径对其产生反馈,由此会有越来越多和该用户兴趣相近的用户便会在他们的推荐列表中看到新加入的物品。物品冷启动的影响也就不是很明显。
然而在基于物品的协同过滤算法中,物品冷启动的问题十分突出。原因是基于物品的协同过滤算法的原理是每隔一段时间(通常为一天),通过用户的历史行为数据,来计算物品之间的相似度,将和用户所感兴趣的物品相似的物品推荐给用户,并在内存中维护一个物品相似度矩阵。由于新加入的物品并不在这个矩阵之中,因此基于物品的协同过滤算法便无法推荐新加入的物品。解决此问题的办法之一是不断地更新物品相似度矩阵。然而在实际情况下,用户的历史行为数据十分庞大,由此计算物品之间的相似度是一件非常耗时的事情。另外,新加入的物品倘若无法对用户进行展示,用户便不能对其产生反馈,通过用户历史行为数据便更加计算不出含有新物品的相似度矩阵。此时,需要利用物品的内容信息,以便计算物品之间的相似度。
物品内容信息的种类很多,物品类型不同,内容信息也不同。如果物品是图书,其内容信息可以包括书名、作者、出版社、类型等。一般物品内容信息可以通过向量空间模型来表示。该模型会将物品表示为一个关键词向量。假如物品是图书,内容信息为书名、作者等,即可将这些实体直接用作关键词向量。如果物品的内容信息是文本,则需要引入理解自然语言的相关技术,将字流变为词流,然后从词流中抽取实体,经过和其他重要词语的组合,形成关键词集合。最后对关键词进行排名,计算每个关键词的权重,生成关键词向量。
对物品d,它的关键词向量可以表示如下:
其中,ei是关键词,wi是关键词的权重。如果物品是文本,可以通过TF-IDF公式[4]计算词的权重:
在给定物品内容信息的关键词向量后,物品间的内容相似度可以通过向量间的余弦相似度进行计算:
获得物品内容相似度后,就可以通过基于物品的协同过滤算法的思想,为用户推荐与其感兴趣的物品内容相似的物品,从而减少物品冷启动对个性化推荐的影响。
对新系统来说,往往既没有用户的历史行为数据,也没有足够的物品内容信息可以用来计算准确的物品间的相似度。因此,为了向用户提供更好的个性化推荐,解决新系统的冷启动问题,可以采用发挥专家作用,对物品进行特征标注[5]的方法。
以音乐网站为例。当系统中的物品为音乐时,众所周知的是,音乐之间的相似度是比较难以计算的。首先,因为音乐是多媒体,如果要通过对音乐的音频进行分析,进而计算音乐之间的相似度,所需要实现的技术门槛较高,并且最终所得的计算结果也往往难以令人满意。其次,如果仅仅从音乐的属性信息,如音乐的专辑名、歌手等方面计算音乐间的相似度,通常效果也不理想。因为一名歌手,一张专辑往往只有一两首好歌。为了解决新系统的冷启动问题,可以采用的方法是对物品的各个维度进行特征标注。标注后每个物品都可以表示为若干维度的特征向量,之后通过计算向量间的相似度即可以得出物品间的相似度。
标注的过程可以是人工的,也可以是人工与机器学习相结合的。通常可以让专家对物品先进行标记,当专家标记了一定数量的样本后,再利用自然语言理解和机器学习技术,通过分析用户的历史行为数据以及物品的内容信息对物品进行自动的标记。此外,还可以通过让用户参与到标记过程中,不断地与系统进行反馈,由此达到持续改进系统的标记系统的目的,从而更好地为用户提供个性化的推荐服务。
为改善个性化推荐系统在新用户、新物品和新系统时的冷启动问题,本文介绍了多种解决方法,其中针对新用户的冷启动问题,可以通过利用用户注册信息或选择适当物品以启动用户兴趣来解决。针对物品冷启动问题,可以通过利用物品的内容信息来计算物品间的相似度,再结合基于物品的协同过滤算法为用户提供个性化推荐。对于新系统,则可以通过对物品进行多维度的特征标记来计算更为准确的物品相似度以减少系统冷启动的影响。如何减少冷启动对个性化推荐的影响,已成为当前推荐系统领域的研究重点。解决冷启动问题,不仅需要方法的不断创新与改善,还应重视用户的参与和反馈。
[1]Francesco Ricci,Lior Rokach,Bracha Shapira et al.Recommender systems handbook[M].Berlin:Springer,2011:461-462.
[2]丘珂玮.融合用户注册信息的协同过滤推荐算法[D].南宁:广西师范学院,2014.
[3]沈云斐,沈国强,蒋丽华,等.基于时效性的Web页面个性化推荐模型的研究[J].计算机工程,2006.7,32(13):80-81.
[4]HC Wu,RPW Luk,KF Wong,et al.Interpreting TF-IDF term weights as making relevance decisions[J].Acm Transactions on Information Systems,2008,26(3):55-59.
[5]徐雁斐,张亮,刘炜.基于协同标记的个性化推荐[J].计算机应用与软件,2008.1,25(1):9-11.
Personalized Recommendation;Cold Start;Recommendation System;Collaborative Filtering
Research on the Cold Start in Personalized Recommendation Systems
WANG Chun-cai1,XING Hui1,LI Ying-tao2
(1.College of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022;2.Engineering Research Center,Changchun Why-e Science and Technology Co.,Ltd.,Changchun 130000)
1007-1423(2015)29-0036-04
10.3969/j.issn.1007-1423.2015.29.009
王春才(1974-),男,吉林梅河口人,正高级工程师,副教授,研究方向为数据挖掘
邢晖(1990-),男,山西代县人,硕士研究生,研究方向为数据库系统
李英韬(1972-),男,吉林吉农人,硕士,高级工程师,研究方向为智慧城市
2015-09-29
2015-10-10
介绍个性化推荐系统的冷启动问题,分析解决冷启动问题的多种方案,如利用用户的注册信息、选择适当物品以启动用户兴趣、利用物品内容信息,发挥专家作用,为解决推荐系统的冷启动问题提供一定的参考。
个性化推荐;冷启动;推荐系统;协同过滤
长春市科技计划项目(No.14JR002)、国家科技支撑计划项目(No.2013BAH07F00)
Introduces the cold start in personalized recommendation systems,analyzes several ways to solve the cold start,such as using the register information,starting user's interest with appropriate item,using the content information of item and expert's function,which provides reference for solving the cold start in recommendation systems.