基于用户偏好的个性化推荐系统研究

2020-07-04 02:13杨倩梁艳王艳娥司海峰张拓
电脑知识与技术 2020年13期
关键词:推荐系统

杨倩 梁艳 王艳娥 司海峰 张拓

摘要:随着互联网的快速发展,网络信息也呈指数级增长,用户面临着信息过载(information overload)的难题。如何能够从海量信息中帮助用户找到有价值的信息,这使得个性化推荐系统具有越来越重要的作用。本文首先简要概述了用户偏好,然后分析了用户偏好的建模过程及方法,最后对基于用户偏好的个性化推荐算法进行了重点分類阐述,并分析了不同推荐算法的优势与不足,对推荐系统更好地挖掘用户的兴趣偏好,提升个性化用户服务起到促进作用。

关键词:推荐系统;用户偏好;用户偏好建模;个性化推荐算法

中图分类号:TP391.3 文献标识码:A

文章编号:1009-3044(2020)13-0279-02

1引言

如今,我国的域名规模已超过千万,网页数量数以亿计,互联网应用在生活中的方方面面,如QQ,微信方面的通信服务;直播、短视频等娱乐服务;滴滴、共享单车等外出服务;各种手机支付的金融服务等。那么对于用户来说,如何在能够快速地找到自己所需要的信息,这是一个非常重要的问题,也是近年来学术界的研究热点。以往解决信息过载有两种方法:第一种是分类目录展示,第二种是搜索引擎。但是操作非常耗时,且效果不理想。而个性化推荐系统是一种解决信息过载的有效方法。它将传统的“人找信息”变为“信息找人”,对人实现了“按需服务”。通过对用户的行为数据进行分析和整理,进而能对用户的偏好进行定位,最终满足对用户的需求。对于提取用户偏好是来说,方法是不一样的,有的是根据统计学理论相关知识,有的根据关联规则的挖掘知识,有的是根据聚类相关数据挖掘技术。尽管方法各式各样,但思想基本是相同的:都是通过收集整理用户以往的行为数据,再对数据进行预处理操作后,进而找到用户的偏好信息,为用户提供更快速精准的体验。

2相关研究

个性化服务系统的关键问题是用户偏好提取技术,用户体验质量的好坏取决于它。于欢研究了用户偏好模型和用户偏好提取技术,并且对基于用户偏好特征的惊喜度评估准则和推荐策略问题进行了分析。何慧嘲针对目前推荐算法中的数据稀疏性问题,基于商品类别属性和用户评分矩阵,建立了一种混合推荐算法。陈云峰从显式(用户的评论)和隐式(用户的浏览行为)来分析用户的偏好,进而给用户提供所需信息。姜书浩针对不同人对多样性偏好的不同,提出一种能够在寻优精度和多样性之间权衡的个性化多样性优化方法。胡川根据传统的用户偏好融合方法,提出另一种融合方法,此方法不但包含了用户偏好融合方法,同时也包含了推荐融合与模型融合的特点。这些研究成果,对本文研究基于用户偏好的个性化推荐系统具有良好的指导作用。

3用户偏好概述

用户偏好也就是相比较而言用户更喜欢某一个事物,这是一种心理倾向,和用户的兴趣、思维等有很大的关系。近年来对用户偏好的研究已经渗入到经济学、计算机科学等领域。如当当网等网络平台通过收集用户的浏览和购买记录,进而给用户推荐图书;美团推荐服务基于用户评分记录,向用户推荐所需的商品。这些都是根据收集和分析用户的偏好信息,给用户推荐所需商品,既提高了用户的购买效率,也为公司带来更大的利益。而用户偏好并非是一成不变的,它伴随着时间而发展变化,类似于抛物线的变化关系,可将用户偏好分为两类,一类是长期偏好,另一类是短期偏好。而短期偏好在一定的条件下会发展为长期偏好。如当用户由于某种原因对一件事物产生了偏好,这种由于一定刺激产生的偏好为短期偏好,此时其处于活跃状态,用户会连续收集与此事物相关的信息,因此短期偏好会慢慢地发展为长期偏好。

4偏好建模方法

用户偏好建模是通过对收集到用户行为信息进行分析,构建出数据偏好模型的过程,目的是为了了解用户的需求。它是一种利用数据来表达用户不同偏好的模型,并且此模型会根据用户偏好的变化而更新。建模过程分为两个阶段:第一阶段:获取用户信息。用户有大量的数据,包括显式数据和隐式数据。显式数据一般指用户在系统中注册或者提交的数据信息;隐式数据不是用户主动提交的信息,比如浏览痕迹、购买记录等。第二阶段:建立用户偏好模型:根据收集到的用户信息,分析并研究其偏好,并且将数据用适当的结构模型来表示,并且根据用户的数据变化而更新模型。

建模方法可分为两种:定性分析和定量分析。所谓定性分析是指通过构建候选集的排序关系来构建用户偏好模型;而定量分析是指用赋予各个候选项一个确定的数值来构建用户的偏好模型。用户偏好是一种用户的个人感受,让计算机能够感知并了解用户的情感,从而做出相应的操作,进而使用户获得自己所需要的东西,提升个性化服务水平。

5用户偏好的个性化推荐分析

个性化服务系统的代表就是推荐系统,它根据收集到的用户行为数据,分析用户的偏好,生成能够供其选择的信息排列。这种过滤系统与传统的检索系统的区别是:其所有的结果都是根据用户偏好而产生的,同时根据反馈结果快速更新。由于不同的推荐策略,所以对应不同的推荐算法,大致可分为三类:

(1)根据内容进行推荐的算法

根据内容推荐也称为基于内容的过滤系统(Content-BasedFiltering,CBF)。其思想是:对某个个人而言,对以前感兴趣的事物会表现出更大的兴趣偏向。它主要是衡量备选内容与个人偏好的相近程度,进而预测用户对备选内容偏好的程度,二者采用一致的方式,可以是向量空间、贝叶斯模型或者神经网络模型。根据内容进行推荐的模型,方法简易,并且结果的解释性较强,但是由于用户偏好模型和项目模型的表征具有局限性,因此产生某种效果后不会有提升的空间,所以用户新的偏好就很难被收集到,也很难产生新的推荐信息。

(2)协同过滤推荐算法

协同过滤推荐算法(Collaborative Filtering,CB)是一种非常通用的方法。它基于“物以类聚,人以群分”的观点,认为:如果兴趣一致的用户都选择了某个商品,那么和大家兴趣一致的用户大概也可能会对该商品有较强的偏好;如果用户对某个商品产生了一定的兴趣,那么他也会更倾向于选择和该商品相近的商品。协同过滤推荐有不同的实现方式,因此分为:根据用户产生、根据项目产生和基于模型产生。

根据用户产生指的是:给定一个用户,评分数据,评分项目。有的项目用户没有产生评分,而此时可以利用和该用户有相近的其他用户的评分结果来进行预测。如用户a和用户b的相似度用函数表示为:

根据项目产生的算法思路和根据用户产生的思路是相同的。但随着时间的推迟,用户偏好会发生相应的变动,所以根据用户的算法会产生推荐结果不精确。而根据项目的相似性算法则有较高的准确度,并且较稳定。当获得相似性时,由于每个用户的思维不用,评价标准也不同,有的倾向于打较高的分数,有的则打的分数较低,所以根据项目的算法利用余弦相似性来进行分析,项目a和项目b的相似性计算如下:

根据用户产生的算法和根据项目产生的算法,都会采用选近邻的方法。通常根据用户的算法和根据项目的算法计算量都较大,但是评分只来自其中一小部分,因此又导致了数据稀疏问题,使准确度非常低,效果非常差。再者如果有新的用户进来,但是之前没有相应的评分,所以无法使用根据近邻的方法进行处理,这就是所谓的“冷启动”,这个问题也会影响推荐结果。而根据模型的算法则利用和根据近邻的算法不同的思想,根据内存中原来的评分,采用公式计算、预估评分进而得出结果,这属于全局推荐。它利用离线计算收集用户一项目的评分结果,然后用此模型对候选项目实施预测。但需消耗大量的资源进行训练,而且要经常对模型进行更新。

(3)混合推荐算法

不同的推荐算法都有其优缺点。混合模型则是一种融合了内容过滤方法和协同过滤方法的优点,如果有大量数据的前提下,混合模型的推荐结果更好。它的设计形式可以分为三种,分别是整体混合、并行混合及流水线混合。其中,整体混合又包含特征组合混合和特征补充混合两种方法,并行式混合设计又包含交叉混合、加权混合和切换混合,流水线混合设计又包含串联混合和分级混合。这些都是不同的混合算法,在不同的情况下,采用不同的方法。

6结束语

本文首先对用户偏好作了简要概述,然后分析了用户偏好的建模过程及方法,最后重点对基于用户偏好的个性化推荐算法进行了分类阐述,并分析了不同推荐算法的优势与不足,帮助推荐系统更好地挖掘用户的兴趣偏好,对提升个性化用户服务起到促进作用。

猜你喜欢
推荐系统
基于用户偏好的信任网络随机游走推荐模型
基于Mahout分布式协同过滤推荐算法分析与实现
基于Baseline SVD主动学习算法的推荐系统