融入用户-项目标注网络影响力的改进slope one算法研究

2020-05-11 11:22◆刘
网络安全技术与应用 2020年5期
关键词:关联影响力准确率

◆刘 铮 张 妍

融入用户-项目标注网络影响力的改进slope one算法研究

◆刘 铮1张 妍2

(1.辽宁大学信息学院 辽宁 110000;2.济南职业学院计算机学院 山东 250103)

在协同过滤推荐领域中,slope one算法取得了较好的效果,但是该类算法忽略用户及项目影响力差异性。针对此处不足,本文提出融入用户-项目标注网络影响力的改进slope one算法,该算法从用户影响力及项目热度两方面计算权重值,并融入传统算法中,达到了进一步提高算法准确率的目的。将本文算法应用在MovieLens数据集上与若干近似算法对比试验,结果显示本文算法在推荐准确率上有明显提升。

协同过滤推荐,社会化标注,slope one算法

1 引言

随着信息化社会高速发展,个性化推荐系统可有效解决信息过载,Slope One 算法是Lemire 等人[1]提出的基于项目的协同过滤算法,是一类简洁高效的推荐算法,然而其未考虑项目和用户群体差异性,造成推荐准确率面临提升瓶颈。为解决上述问题,国内外学者进行了深入细致的研究工作。算法是较早的改进算法,通过用户数加权进行改进。刘林静[3]等人则是将用户间的相似性作为预测评分权重具有一定提升。

用户的标注行为蕴含了丰富的关联信息,而传统的改进算法多数未考虑这一关联。本文提出一种融入用户-项目标注网络影响力的改进slope one 算法,利用PageRank算法分别计算用户图和项目图的节点重要度,进而得到用户和项目的重要度区分,将目标用户的邻居用户重要度融入传统算法的偏差计算中,同时在评分预测时融合项目的重要度差值,达到在标注数据中提升预测准确率的目的。

2 相关工作

2.1 传统slope one算法

Slope one算法其具体公式如下:

给定任意两个不同项目,平均评分偏差dev如公式(1)所示:

其中,r为用户对项目评分,S代表同时对项目和评分的用户集合。

用户对未知项目预测评分pre如公式(2)所示:

其中R表示用户已经给予评分满足条件(≠,S,非空)的项目集合。

3 融合用户-项目标注网络影响力的slope one算法

社会化标注数据包含了用户间、项目间及用户与项目中丰富的关联信息,通过标注行为分别得到用户关联复杂图,项目关联图,假设重要的用户会标注更多数据,重要项目会吸引更多标注,下文予以分别介绍并计算其节点重要度。

3.1 用户关联图及节点重要度计算

将用户ID视为社交网络中的用户节点,通过分析数据集中用户之间的关注关系视为用户节点之间的连边,从而构建整体的无向用户关系网络。引入PageRank算法如公式(3)所示:

其中,为阻尼因子一般取值为0.85;为用户总数;()为用户关注的用户的集合;()为与节点相连节点的边的权重值,()为相连节点的度。

3.2 项目关联图及节点重要度计算

与用户“实体群”不同的是,项目实体群没有网络连接关系,故首先需要建立项目[4]之间的连接关系,然后采用PageRank算法来衡量不同项目的热度。改进的PageRank表示项目重要度指标模型,如公式(4)所示。

3.3 融合用户-项目标注网络影响力的slope one算法

首先,将前文计算所得用户节点重要度加权到平均偏差计算中如公式(5):

第二步,最终的评分值预测,引入不同项目的重要度偏差,如公式(6):

4 实验结果与分析

本文采用 MovieLens 网站公布的小型数据集(MovieLens Latest. Datasets)。其中包含有 700名用户对 9000部电影的 100000 条评分,取标注行为最多的前100用户,然后选择此100人标注数最多的500部电影作为项目集合,得到13490条标注记录。选择80%为训练集,剩余20%为测试集。

实验采用平均绝对误差(MAE)及均方根误差(RMSE)作为评价标准。定义公式如(7)

选取传统slope one[1](SO)算法;加权slope one[2]算法(WSO)以及融合用户相似度[4]的算法(BWSO)与本文算法PRSO作为对照试验,实验结果下所示。

由图1可见,本文算法在MAE,RMSE指标对比三类算法均取得了不同程度的提升,因为本文算法分别融合了用户重要度差异及项目重要度差异,在本文选取处理过的具有社会化标注行为的数据集中,对比其他同类算法,具有明显优势。

图1 算法MAE值对比

5 结束语

本文针对传统slope one算法忽视不同用户及项目重要性差异的问题,提出了一种融合用户-项目标注网络影响力的改进算法,通过用户-标签-项目数据分别得到用户关联图及项目关联图,并利用PageRank算法分别计算节点重要度,以此获取用户标注行为中蕴含的丰富关联信息。进而融入传统slope one算法中。经实验证明在用户标注行为密集的数据集中,本文算法预测精度得到了明显提升。如何提升算法在稀疏数据准确率和冷启动问题成为下一步研究重点。

[1]Lemire D,Maclachlan A.Slope One predictors for online ratingbased collaborative filtering[C].In:Proceedings of the Fifth SIAM International Conference on Data Mining,2005:471-480.

[2]李桃迎,李墨,李鹏辉.基于加权Slope One的协同过滤个性化推荐算法[J].计算机应用研究,2017,34(08):2264-2268.

[3]刘林静,楼文高,冯国珍.基于用户相似性的加权Slope One算法[J].计算机应用研究,2016,33(09):2708-2711.

[4]白杨. 社交网络中的标签主题识别及社群挖掘方法研究[D].大连理工大学,2018.

猜你喜欢
关联影响力准确率
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
“一带一路”递进,关联民生更紧
天才影响力
奇趣搭配
黄艳:最深远的影响力
智趣