魏思怡 陈鹏 胡正凯
摘 要:随着网络的飞速发展,交友网站大量涌现,为快节奏的单身男女提供了广阔的交友平台。本文在考虑现实交友的审美观、门当户对观的基础上,采用融合算法, 融合了基于内容的Bayes推荐与基于用户的KNN协同过滤两种方法,构造了有效的评分排序模型,能够为用户推荐适合的交友对象。通过使用美国某大型交友网站的用户数据,验证了该模型的精度。经计算得出上述融合模型NDCG@20值高于单一方法精度,能有效地避免过拟合问题,提高了推荐精度。
关键词:融合算法;Bayes;KNN;协同过滤;交友推荐
1 引言
随着网络时代的飞速发展,各种交友网站层出不穷。研究国内多数交友网站发现,很多网站为吸引客源,追求快速匹配,基于用户的少量特征简单分类,无法有效处理大批质量参差不齐的用户信息,导致用户间成功配对率很低,无法有效的配对交友。因此,本文设计了一套合理有效的算法,在学历、经济水平、地域范围推荐的基础上,根据用户的兴趣偏好推荐其适合的交友对象,以期提高用户的交友成功率。
2 模型建立
2.1 评价指标
交友网站主要关注用户的交友成功率及准确性两方面[1]。针对实际情况采用Normalized Discounted Cumulative Gain(NDCC)作为评价标准,定义如下:
其中DCG是根据已给评分排序后计算推荐精度的指标,如果所给评分较理想,能准确预测用户A对于所推荐用户的偏好排序,则此时DCG为IdealDCG。
2.2 基于内容的交友对象推荐
基于内容的推荐[2]主要通过选取候选用户的一些特征指标,计算用户对其兴趣得分。考虑到实际生活中的交友情况并结合美国大型交友网站eHarmony上的用户信息初步划分以下影响用户产生关注及通信的因素有:候选用户的受欢迎程度:用户的头像和昵称;用户和候选用户之间的匹配度,如年龄、学历、收入等;网站推荐功能。
将用户与候选用户之间的关注或通信作为事件的发生,变量[XA]表示用户A是否产生关注或通信,变量[YB]表示候选用户B是否被关注或有通信。计算用户A对候选用户B产生关注或通信的概率,据此对候选用户B进行排序:
Step1:计算P([YB]=1),即候选用户B被关注或产生通信的概率,主要依赖于候选用户B的个人魅力或流行度,统计候选用户B的个人流行度并定义下列函数计算此概率:
式中,分子为候选用户B被关注或产生通信的次数,分母为推荐用户A的候选用户B人数,[ω1],[ω2]为平滑参数。
Step2:计算P([XA]=1|[YB]=1),通过计算用户的收入差距及候选用户B的流行度计算候选用户B被关注或通信对象为用户A的概率。
由数据分析得:所有用户对收入的要求符合正态分布,呈现中间高两边低的规律。同时男女用户的偏好也呈现不同趋势,男性用户普遍偏左,而女性用户普遍偏右,因此设置男女收入差距系数[ω3],[ω4]。同时,因为被推荐次数多的候选用户被关注和通信次数远多于被推荐次数少的候选用户,设置被推荐次数系数[ω5]。
2.3 基于用户的协同过滤
基于用户的协同过滤思想主要是通过计算用户之间的相似度,找到与用户兴趣偏好相似的用户群,根据用户群对候选用户的评价进一步确定用户的吸引度得分,根据得分排序候选用户。根据交友网站分别给用户[A1]、[A2]推荐的候选用户集合的相似程度定义用户之间的相似性:
2.4 融合算法
融合以上两种方法可从多个角度为用户推荐最适合的交友人选,有效避免了单一方法的局限性可有效避免过拟合现象。采用加权投票算法将两种算法分别所得NDCG@20值作为排序权值,得到加权排序序列,再次计算排序序列NDCG@20值。
3 结果验证与检验
通过调节相应参数和权重,分别计算:采用Bayes算法计算得基于内容交友推荐的NDCG@20值为0.24844,采用KNN算法计算得基于用户协同过滤的NDCG@20值为0.21356,融合算法计算得出NDCG@20值为0.25168,充分说明利用融合算法计算的合理性。
4 结论
本文基于现实交友状况与某大型交友网站的真实数据,提出了融合基于内容和基于用户两种推荐模型的融合算法,可有效地减少由于交友信息的庞大复杂造成的误差,帮助用户找到适合的交友对象,具有较高精度。模型结合审美观、门当户对观念等社会婚恋观,多重考虑IDF思想和推荐次数,实现网站的智能推荐。同时发现基于内容的推荐结果优于基于用户的协同过滤结果,说明在交友网站上用户的个人魅力所占权重更大。
参考文献:
[1] Burke R. Hybrid recommender systems: Survey and experiments[J].User modeling and user-adapted interaction,2002(4):331~370.
[2] 許海玲,吴潇,李晓东,阎保平.互联网推荐系统比较研究[J].软件学报,2009(2):350~362.