张龙飞
摘 要:该文在国内外推荐算法研究基础上,基于用户的访问web记录与服务使用记录,采用OB-Mine算法提取用户频繁访问路径,利用改进的PrefixSpan算法筛选具有相似偏好的用户簇,利用改进的CF算法进行个性化服务推荐,有效克服了数据高维性和稀疏性,最后实例验证了该推荐算法性能优于传统的CF算法。
关键词:相似度计算 服务推荐 个性化推荐
中图分类号:TP3;D630 文献标识码:A 文章编号:1672-3791(2016)03(c)-0159-02
现有服务推荐技术并不成熟,面对海量重复的Web服务,用户难以识别并且寻找到所需的服务,因此提高服务推荐质量已成为Web服务体系的迫切需求。服务推荐的研究焦点是新推荐算法的探索和新推荐模型的发现。Dell'Amico和Capra[1]定义了以社会导向和品味相似为特征的用户可信性标准,提出了一种新的信息过滤方法。Vallet等[2]利用社区隐性用户信息,提出了一种基于图的交互式视频检索系统,有效增强了视频检索能力。
该文以web日志中的用户浏览行为与服务使用记录为依据,利用OB-Mine算法[3]提取用户频繁访问路径;然后,利用改进的PrefixSpan算法[4]筛选具有相似用户偏好的用户簇;最后,使用改进的CF算法,对目标用户做出推荐。该文以“××中小企业网”的相关数据,实证表明该推荐算法优于传统的CF算法。
1 服务推荐算法分析
1.1 提取用户频繁访问路径
利用OB-Mine算法对预处理数据集挖掘代表用户兴偏好的用户频繁访问路径。
1.2 筛选相似偏好的用户簇
利用改进的PrefixSpan算法[5]寻找用户偏好,筛选出具有相似偏好的用户簇。
1.3 服务推荐
1.3.1 建立用户-服务类评分矩阵
设用户评分Rij,按照浏览或者使用某种服务的次数计算用户评分。
1.3.2 寻找最近相似邻居集
相似性的计算方法主要有余弦相似度、Pearson相似度和修正的余弦相似度。
1.3.3 生成推荐结果
计算目标用户对未评分服务项的预测评分,并且设定阈值r,推荐用户r值以上的服务类。
2 实证分析
以“××中小企业网”为研究对象,根据该网站web日志文件,计算推荐结果。
2.1 提取用户频繁访问路径
2.1.1 数据预处理
对web日志中的用户访问行为数据进行预处理,获取用户访问路径。
2.1.2 提取用户频繁访问路径
利用OB-Mine算法对用户的多条访问路径进行聚类,生成每个用户的频繁访问路径。
2.2 筛选具有相似用户偏好的用户簇
利用改进PrefixSpan算法筛选具有相同或者相似用户偏好的用户簇,如表1所示。
2.3 用户个性化推荐
2.3.1 建立用户-服务评分矩阵
通过访问频次与使用服务频次计算用户对服务的评分。
2.3.2 确定最近相似邻居集
设定邻居集容量为N,选取与目标用户相似度最高的N个用户形成最近相似邻居集。
2.3.3 生成推荐结果
计算目标用户对未评价服务预计评分值,设定好阈值m,对目标用户推荐评分高于阈值的服务项目。对目标用户的推荐结果如表2。
3 实证结果分析
3.1 评价标准
MAE的值越小,表明算法的评分预测越准确,推荐质量越高。
3.2 实证结果分析
实验中设步长间隔为5,邻居集容量大小分别取5,10,15,20,25,30,35,40,使用该文改进的CF算法与传统的CF算法作对比,其服务推荐质量比较如图1所示。
从图中可以看到:(1)在邻居集容量大小发生变化时,该算法下MAE值均小于传统的CF算法,说明该推荐算法具有较好的推荐质量;(2)与传统的CF算法相比,改进的CF算法下MAE值随着邻居集容量的增加迅速减小并趋于稳定,说明改进的CF算法性能优于传统的CF算法,计算效率更高,有效缓解了由冷启动引起的数据高维性和数据稀疏性等问题;(3)两种算法下,MAE值随着邻居集容量增加而减小,当邻居集容量增大到一定数值时,MAE值趋于稳定时,但是CF算法下的趋于稳定的MAE值要小于传统的CF算法,说明改进的CF算法计算精度优于传统的CF算法。
4 结语
该文通过提取用户频繁访问路径,筛选相似偏好的用户簇和个性化服务推荐,克服了单一推荐算法的不足,克服了数据高维性和稀疏性,提高了计算效率与计算精度。
参考文献
[1] Dell'Amico M,Capra L.Dependable filtering:Philosophy and realizations [J].ACM Transactions on Information Systems(TOIS),2010,29(1):364-371.
[2] Vallet D, Hopfgartner F, Jose J M, et al. Effects of usage-based feedback on video retrieval: a simulation-based study [J].ACM Transactions on Information Systems (TOIS),2011,29(2):219-230.
[3] 曹忠升,唐曙光,杨良聪.Web-Logs中连续频繁访问路径的快速挖掘算法[J].计算机应用,2006(1):216-219.
[4] 姬浩博,王俊红.一种改进的PrefixSpan算法及其在Web用户行为模式挖掘中的应用[J].计算机科学,2016(1):25-29.
[5] 业宁,李威,梁作鹏,等.一种Web用户行为聚类算法[J].小型微型计算机系统,2004,25(7):1364-1367.
[6] 王海艳,杨文彬,王随昌,等.基于可信联盟的服务推荐方法[J].计算机学报,2014(2):301-311.