胡绍方 高光
摘要:随着电商平台的普及,商品推荐系统实现了用户的个性化推荐,帮助用户过滤掉无用的信息,提供更感兴趣的商品,既提升了用户体验,也增加了平台收益,实现了用户和平台的双赢。文章归纳了推荐算法和推荐系统研究中的关键技术,并利用Spark技术完成推荐系统的设计。该推荐系统包括离线推荐和实时推荐两大部分。离线推荐为用户提供离线推荐、最近热门商品、历史热门商品和相似商品的推荐结果;实时推荐根据用户的实时评分行为给出实时的推荐结果。系统推荐结果表现良好。
关键词:Spark;协同过滤算法;隐语义模型;推荐系统
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2024)14-0001-03 开放科学(资源服务)标识码(OSID) :
0 引言
在大数据时代下,各领域的数据量呈现爆炸式增长。在信息接收过程中,更多的是充斥着无用的信息,电商购物时也会遇到这个问题。面对海量的商品数据,如何高效准确地把用户感兴趣的商品推送到用户面前,大数据推荐系统的研究显得尤为重要。
1 相关算法基础
1.1 推荐算法
1.1.1 基于内容的推荐算法
该算法通过提取用户历史购买物品的特征信息,提取商品标签或描述文本中的关键词作为特征信息,发现物品或内容的相关性,根据特征信息匹配相似内容的商品,提供推荐结果[1]。
1.1.2 基于协同过滤的推荐算法
1) 基于用户的协同过滤推荐算法:根据用户历史行为数据,例如搜索、购买、评分数据,进行归纳分析,计算用户之间的相似度矩阵,根据与用户相似度高的其他用户的历史评分记录,找出喜好程度高的物品进行推荐[2]。
2) 基于物品的协同过滤推荐算法:其主要是计算物品之间的相似度矩阵。根据用户对商品的历史评分找出喜好程度高的商品,找到与它相似的其他物品,向用户推荐。
3) 基于模型的协同过滤算法:使用一些机器学习算法进行训练,对每一个用户建立模型,来预测用户对物品的喜爱程度。在大数据的情况下,当用户与商品成千上万时,矩阵会很大,而且会有许多空白,计算机处理这样的矩阵时,会浪费计算资源,且浪费时间,这就是稀疏矩阵的问题。
1.1.3 基于深度学习的推荐算法
ALS(Alternating Least Squares) 算法虽然解决了稀疏矩阵的问题,但仍存在“冷启动”的问题,即当系统中用户的数据较少时,无法准确地判断新用户的偏好[3]。针对这种问题,就有了基于深度学习的推荐算法。基于CNN(Convolutional Neural Network) 的深度学习方法分析文本特征进行分类,因为使用了深度学习的模型进行自动文本特征提取,相对于传统的文本分类,文本分类的速度更快且效果更优[4]。
1.2 隐语义模型
基于隐语义模型(Latent Factor Model,LFM) 的推荐算法是一种源于基于模型的推荐算法的思想[5]。LFM是通过降维把原先的用户物品评分矩阵分为两个矩阵,一个表示用户潜在关联的维度,一个表示物品潜在关联的维度,每一个维度对应着一个隐性特征,这种隐性特征难以清楚地解释,但可以作为一种用户偏好和物品特征的隐含语义去描述。LFM矩阵分解示意图如图1所示。
假设一个用户物品评分的m×n矩阵为R,基于隐语义矩阵的分解是要找出两个矩阵的乘积R?可以和矩阵R来近似,如公式(1) 所示:
上式中,Puk表示用户对隐含因子k 的关联度,Qki表示物品对隐含因子k 的关联度。为了更好地理解,以用户user1为例,user1对隐含因子k1、k2、k3的关联度用P11、P12、P13来表示,物品item1对隐含因子k1、k2、k3的关联度用Q11、Q12、Q13来表示。user1对item1的偏好值如公式(2) 所示:
隐语义模型是根据这种联系分析建立用户偏好特征模型,形成推荐结果[6]。
2 系统体系设计
2.1 系统业务设计
基于Spark的商品推荐系统包含了离线部分和实时部分,离线推荐部分包括统计推荐、基于内容的推荐和基于物品的协同过滤推荐,实时推荐部分则使用基于模型的推荐算法。该系统实现了前端应用、后台服务、算法设计实现和平台部署的业务。
用户可视化部分使用AngularJS2进行实现,通过可视化为用户提供系统的前端交互和数据展示。综合业务服务部分主要通过Spring进行构建,负责从数据库加载或写入数据,也负责埋点对评分数据采集日志,为离线推荐和实时推荐提供数据支持。系统的业务流程图如图2所示。
2.2 系统数据设计
2.2.1 系统初始化部分
通过Spark SQL 将数据集数据加载到MongoDB 中。数据来自经过修改的真实中文亚马逊电商数据集,该数据集分为商品数据表和评分数据表,分别包含1 000个商品和44 852条评分记录。每个商品包含商品ID、商品名称、商品所属类别、商品图片的URL 和商品的用户评价标签,每条评分记录包含用户ID、商品ID、商品评分分值和评分时间。
2.2.2 离线部分
离线统计服务从数据库加载数据,统计商品的评分数据,根据商品的评分个数多少,结果可作为历史热门推荐结果;按时间顺序统计商品的评分个数,结果作为最近热门的商品推荐[7]。离线推荐服务从数据库中加载数据,使用基于ALS的隐语义模型协同过滤推荐算法,获得用户的离线推荐结果,同时也计算出商品相似度矩阵,可以为实时推荐做准备。
2.2.3 实时部分
综合业务服务会埋点记录下用户对商品的打分数据,存入日志文件。Flume监听日志文件,将日志信息更新到Kafka队列,Kafka Stream程序会对所收集的日志信息进行过滤处理,将格式化后的数据流发送给另一个Kafka 队列。Spark Streaming 通过监听这个Kafka队列,将收集的评分数据流存储在Redis中,并进行实时推荐算法的计算,将得到的实时推荐结果合并到数据库中原有的推荐结果。
2.2.4 综合业务系统部分
将数据库中推荐结果进行展示。将用户在页面上的操作记录进数据库中,会将数据传输到Redis缓存[8],同时也将埋点采集的评分数据传输到Tomcat的日志中,为实时推荐部分服务。
3 系统实现
3.1 首页推荐
登录进入系统主界面中的4个推荐部分。顶栏中有快速链接可以进行首页以及各个推荐结果页面的跳转,右上方还可进行账号的退出操作。首页主界面有实时推荐、离线推荐、最近热门商品和好物推荐4个模块。
实时推荐:首先连接数据库,加载商品相似度矩阵,创建Kafka和Kafka Stream,对Kafka Stream进行处理,产生评分数据流,经过Spark Streaming的处理,从Redis中取出用户最近的n次评分,计算每个备选商品的推荐优先级,最后将数据写回数据库。
离线推荐:首先连接数据库,加载商品评分表,使用MLlib的ALS算法训练隐语义模型,获取预测评分矩阵,根据该矩阵得到用户的推荐列表,利用商品的特征向量,两两商品计算余弦相似度得出商品的相似度矩阵,最后将数据写回数据库。
最近热门商品和好物推荐:连接数据库,加载商品评分表,Spark SQL做不同的统计,统计评分个数后降序排序可得到好物推荐的结果,将日期格式化后,先加上一个按日期的降序排序后再排序可得到最近热门商品的结果,统计商品的评分后计算商品的平均分,将商品平均分表写回数据库。
3.2 商品相似推荐
商品详情页面的主界面上有两个部分,第一部分是该商品的相关信息。用户可以在这里给商品进行打分,表示用户对该商品的喜爱程度。商品的标签是根据大部分买家的评价所产生的,代表着这个商品的特征属性,这些标签可以作为基于内容推荐中商品的内容特征向量。第二部分是商品相似推荐,分为两块,用于展示该商品协同过滤推荐结果和内容推荐结果,实现流程如下:
商品评分:在Spring MVC的Service层中设计评分方法来给Controller响应前端发送来的商品评分请求,Service层会连接MongoDB,将评分数据(用户ID、商品ID、评分和时间戳)保存或更新到MongoDB和Redis数据库中。在响应评分请求后,会将该记录写入日志文件中。
基于内容的相似推荐:先用空格将标签进行分词,定义一个HashingTF工具计算词汇频次,定义一个IDF计算TF-IDF,训练出IDF模型,得出特征向量,将数据进行转换,两两商品配对计算余弦相似度得出商品的相似度矩阵,计算出推荐列表,结果写回数据库中。
基于物品的协同过滤推荐:首先统计商品的评分个数,将评分个数通过商品ID连接到原来的评分表上,将评分表按照用户ID进行两两配对,统计两个商品被同一个用户评分的次数,对两个商品做group by,统计用户ID的数量,即对两个商品同时评分的人数。之后计算商品的相似度矩阵,得到推荐列表,将结果写回数据库。
结果分析:可以直观地看到基于内容的推荐结果数量较少,基于物品的协同过滤推荐的推荐结果较多。这是因为商品的数据集规模较小,在计算标签词汇的频次时,特征数量会比较少,所以在进行商品标签的特征向量提取后,进行商品推荐时,对商品的特征向量的相似判断上要求会比较苛刻;而基于物品的协同过滤推荐,推荐结果依据的是购买商品的用户群体,当两个用户群体拥有比较高的相似度时,两个商品的相似度也可能会比较高,根据这个思路进行推荐,所以基于物品的协同过滤推荐结果数量会比较多。
4 总结
推荐系统是当下热门的一个研究方向,推荐系统的研究从2012年开始起步,十多年间,推荐系统逐渐完善、丰富、多样化。对电商企业来说,一个良好的推荐系统能为电商企业和用户带来切实的收益,企业能增加销售额,用户能获得愉快的购物体验。基于Spark的商品推荐系统对电商平台上推荐系统的应用进行了模拟,通过部署在Tomcat的综合业务服务,连接前端和后台,分别进行了离线推荐和实时推荐,满足电商平台不同需求的商品推荐。
参考文献:
[1] 马小添.基于Hadoop的推荐系统设计与实现[D].成都:电子科技大学,2020.
[2] 焦健.基于Spark的协同过滤推荐算法研究[J].电脑编程技巧与维护,2020(3):40-41,73.
[3] 张明敏.基于Spark平台的协同过滤推荐算法的研究与实现[D].南京:南京理工大学,2015.
[4] 刘建国,周涛,郭强,等.个性化推荐系统评价方法综述[J].复杂系统与复杂性科学,2009,6(3):1-10.
[5] SAVESKI M,MANTRACH A.Item cold-start recommendations:learning local collective embeddings[C]//Proceedings of the 8th ACM Conference on Recommender systems.Foster City,Silicon Valley California USA.ACM,2014.
[6] KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences[J]. arXiv preprint arXiv:1404.2188,2014.
[7] 徐启东.基于隐语义模型的个性化推荐系统研究[D].广州:广东工业大学,2019.
[8] 薛琳兰.基于隐语义模型的电商推荐系统的设计与实现[J].数字通信世界,2020(7):99,229.
【通联编辑:谢媛媛】
基金项目:周口师范学院应用型课程项目(项目编号:YYKC-2024027) ;周口师范学院课程思政教育教学改革研究项目