张伊 张军霞 邹雨纯 徐丹阳 王丽婷
摘 要:当今,公园游玩已经是大众日常休闲娱乐的普遍选择,但由于公园种类繁多以及相关信息的冗杂和有效信息的缺乏,游客不易选择适合自己出行计划的公园。随着互联网的迅猛发展,推荐系统已经渗透到了互联网的各个方面,协同过滤技术是目前应用最为广泛和成功的技术。虽然协同过滤推荐技术取得了很大的成功,但传统的算法本身还存在一些问题,包括数据稀疏问题、冷启动性问题,这些问题都是协同过滤必须解决的问题。基于此背景,本文对协同过滤推荐算法中的数据稀疏和冷启动问题做了深入的分析和探讨,并将改进的方案运用到一个具有推荐功能的公园个性化推荐系统中,以解决人们日常的休闲娱乐需求。
关键词:协同过滤;公园个性化推荐;数据稀疏;冷启动
中图分类号:TP391.3 文献标识码:A 文章编号:2096-4706(2018)04-0082-03
Abstract:Today,more and more people tend to play in the park at their leisure time. But the redundancy of the related information and the lack of effective information usually result in the aimlessness and restrictiveness of people's trip. With the rapid development of the internet,recommend system has been penetrated into all parts of the internet,and collaborative filtering is the most widely-used and successful technology currently. However,the traditional algorithm itself has some problems,including scalability problem and cold-start problem which are the problems need to be solved. This paper,based on this background,makes in-depth analysis and exploration in scalability problem and cold-start problem in collaborative filtering recommendation algorithm and applies the improved method to a park personalization recommendation system with a recommend function to solve people’s daily needs of leisure and entertainment.
Keywords:collaborative filtering;park personalization recommendation;data sparsity;cold-start
0 引 言
从公园进入公众视野,学者们就不断进行着公园评价体系的研究。2012年9月,周武忠等学者提取世界著名公园的核心成名要素,分别是独特的地理区位、历史文化、自然资源、花卉景观、面积设施,对各个风景名胜区的相关指标进行了解析[1]。2016年,洪鑫晨等学者基于灰色统计理论深入研究了公园声景,并提出五个主要元素,即水声景、风声景、动物声景、娱乐声景和人工声景[2]。这些指标或笼统或具体,因此尚且没有建立统一的关于公园游览的评价体系。为解决信息过载问题,个性化推荐系统的研究也应运而生。目前,推荐系统中应用最为广泛的推荐技术是协同过滤推荐技术[3]。张牧等学者在2011年就已经将混合推荐算法用在了旅游业中,他们研究出能够在用户登录和评估各种旅行目的地和产品之后形成客户的数据库,以支持更准确的用户信息挖掘,采用混合推荐算法,实现个性化旅游推荐[4]。
协同过滤推荐技术虽然取得了巨大的成功,但是暴露出以下问题:
(1)稀疏性问题(sparsity problem)。稀疏性问题是造成协同过滤推荐系统推荐质量下降的一个首要因素[5]。推荐系统往往提供很多项目,但用户进行过评分的项目不会超过系统总项目数的1%,从而造成評价矩阵数据稀疏,难以找到用户的最近邻,从而导致推荐结果不佳。
(2)冷启动问题(cold-start problem)。冷启动问题也是协同过滤推荐算法的一个经典问题[6]。冷启动问题分为新项目问题和新用户问题。如果一个新项目没有被评价过,这个项目就得不到推荐[7];同样如果一个用户没有对项目发表评论,那么系统也不会给该用户推荐项目。不管是项目冷启动还是用户冷启动,都是因为其对应的评分数据为空,无法做出推荐。
本文通过对稀疏性问题和冷启动问题的深入研究和探讨提出了缓解稀疏性问题和冷启动问题的方法,并将改进方案应用到实际中,构建了基于协同过滤推荐算法的公园个性化推荐系统。
1 基于用户的协同过滤算法改进
稀疏性问题和冷启动问题是协同过滤推荐算法中的两个最典型的问题,也是影响协同过滤推荐精度和使用体验最主要的问题[8],下文针对这两个问题提出了相应的解决措施。
1.1 稀疏性问题的改进
由于评分矩阵的稀疏性,项目评分交集将变得很小甚至为空,这样计算得到的相似度可能很小。但是两个项目的共同评分集合为空不一定是完全不相似的[9]。
1.1.1 欧式距离
欧氏距离在计算中以用户之间共同评价的项目为维度,建立多维空间,在由用户的评价数据组成的坐标系中可定位该用户的位置,即任意两个位置之间的距离可以在一定程度上反映两个用户喜好的相似程度。欧式距离越小,用户喜好相似度越大。
在欧式距离计算中,假设目标用户为x,则需要依次计算该用户与其他用户y的距离,用户x和用户y共同评价一个公园i,评分分别为Rx,i、Ry,i,两人共同评价过的公园集为Ix,y,如表1所示。
两用户间欧式距离的计算公式为:
本文对欧式距离的计算做出了改进,提高了推荐结果的准确性。改进后的朴素欧式距离公式为:
1.1.2 皮尔逊相关系数
Pearson相关系数在计算两个向量的相似度时会忽略其平均值的差异。比如,虽然两个用户的评分标准不同,但实际上他们具有相同的爱好,因此他们的Pearson相关系数也会比较高。用户1对三个公园的评分是X=(1,2,3),用户2的评分是Y=(4,5,6),则X和Y的Pearson相关系数是0.865,相关性较高。如表2所示。
Step1:如果用户i对公园j有评分,找出用户i最相似的K个邻居(采用Pearson相关系数)
Step2:用K个邻居对公园j的评分加权平均来预测用户i对公园j的评分。
预测用户u对公园i的评分ru,i,用户u对所有公园的平均得分为ru-,用户x评分的公园集合为Ix,用户y评分的公园集合为Iy,其并集为Ix,y。
采用Pearson相关系数计算用户x和y的相似度。如公式(3)(4)所示。
其中U是用户u的近邻,z是归一化因子,在计算用户u的近邻时充分考虑了用户的评分习惯,减去平均值。
1.1.3 余弦相似度
余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。如果两个向量夹角接近零,那么这两个向量就相近。余弦相似度的计算公式为。
余弦值越接近1,就表明夹角越接近0度,两个向量越相似。
1.2 冷启动问题的改进
针对冷启动问题,在公园个性化推荐系统中,我们预先在数据库里为各个公园设置标签,通过让新用户在注册后填写问卷的形式,与数据库中公园的标签匹配,为其推荐满足其需求的公园。若未能完全匹配到公园,系统会优先推荐满足用户选择的公园类型和热门公园。
2 基于协同过滤推荐算法的公园个性化推荐系统结构
公园个性化推荐系统的数据库包括以下四个表。
(1)公园信息表:字段有公园编号、公园名、所属区县、地址、简介、门票价格、开放时间、公园等级、公园类型、图片、标签。
(2)用户信息表:字段有用户编号、用户名、密码、邮箱、出生日期、头像。
(3)用户行为表:字段有用户编号、公园编号、用户评分。
(4)热门公园表:字段有编号、热门公园名。
3 实验
本文以美国明尼苏达州大学Group Lens研究小组提供的MovieLens l数据集进行实验,包括672个用户评价过的9125部电影,每个用户具有20个以上的评价值,以误差平均值(简称MAE)作为算法的推荐准确度评价标准。假设目标用户为x,用户x对电影的评价集为Rxi,通过欧式距离计算找出相似用户(即较近邻居),对目标用户的做出电影评价的预测集为Rxi′,评价电影数为m,则MAE等于:
MAE的值越小,则预测的评分结果越准确,即算法的推荐准确度越高。[10]
比较余弦相似度、改进的余弦相似度、皮尔森相似度、改进的皮尔森相似度,得到下表所示不同邻居数对应的MAE的值,如表3所示。
图1为不同算法的MAE随最近邻居数变化而变动的曲线。可见改进的皮尔森相似度算法有较好的性能表现。
4 结 论
本文以协同过滤为研究对象,针对传统算法中出现稀疏性问题和冷启动问题进行了深入的研究,分析和探讨了问题产生的原因,接着针对引发稀疏性问题和冷启动问题采取了相应的解决办法:通过对用户行为设置权重并选取均值计算偏差值和通过给公园设置标签让新用户进行答题匹配推荐来解决冷启动问题。最后基于改进的算法构建了一个公园个性化推荐系统,将算法成功运用到实际生活中。实验证明改进的算法在一定程度上解决了协同过滤存在的问题。
参考文献:
[1] 周武忠,林宝荣,周康,等.世界公园评价指标体系初探 [J].中国名城,2012(9):34-38.
[2] HONG X C,LIN Z Y,ZHANG W,et al. Construction of a Comprehensive Soundscape Evaluation System in Forest Parks Based on Grey Statistical Theory [J]. Journal of Landscape Research,2016,8(6):25-28.
[3] 郭艷红.推荐系统的协同过滤算法与应用研究 [D].大连:大连理工大学,2008.
[4] MU Z,JIE M,JING L,et al. Research on Personalized Recommendation Technology for Tourism Industry-A Perspective of a System Framework Design [J]. Advanced Materials Research,2011:1276-1280.
[5] Badrul Munir Sarwar. Sparsity,Scalability and Distribution in Recommender Systems [D]. Ph. Ddissertation,University of Minisota,2001:33-5813.
[6] 赵宁,王学军.推荐系统中协同过滤技术的研究 [J].河北省科学院学报,2013,30(2):62-65.
[7] ScheinA.,PopescnlA.,UngarL.,and PennockD.,Methods and metrics for cold-start recommendations,Proceedings of the 25th annual international ACMSIGIR conference on Research and development in information retrieval,2002:112-225.
[8] David Goldberg,David Nichols,Brian M. Oki,et al. Using collaborative filtering to weave an information tapestry [J]. Communications of the ACM,1992,35(12):61-70.
[9] 季昀.基于协同过滤推荐算法电影网站的构建 [D].哈尔滨:哈尔滨工业大学,2009.
[10] 张莉,秦桃,滕丕强.一种改进的基于用户聚类的协同过滤算法 [J].情报科学,2014,32(10):24-27+32.
作者简介:张伊(1996.08-),女,汉族,北京人,本科。研究方向:信息管理与信息系统;张军霞(1997.01-),女,汉族,河南人,本科。研究方向:信息管理与信息系统;邹雨纯(1996.02-),女,汉族,四川人,本科。研究方向:信息管理与信息系统;徐丹阳(1997.03-),女,汉族,河南人,本科。研究方向:信息管理与信息系统;王丽婷(1997.11-),女,汉族,河北人,本科。研究方向:信息管理与信息系统。