吴佳芬
摘 要 本文介紹了网络推荐的算法思想、帮助读者了解这个研究领域。在介绍了推荐系统的概念和定义之后,重点介绍了基于内容的互联网推荐算法。
关键词 推荐系统 推荐算法 互联网
中图分类号:TP391.3 文献标识码:A
1推荐系统概念
互联网规模和覆盖面的迅速增长带来了信息超载问题。过量信息的呈现使得用户付出过高的代价来搜索对自己有用的信息,从而降低了信息使用的效率。推荐系统作为一种信息过滤的重要手段,是当前解决信息超载问题非常有潜力的方法。推荐系统与以搜索引擎为代表的信息检索系统最大的区别在于:(1)搜索注重结果之间的关系和排序,推荐则还研究用户模型和用户的喜好,基于社会网络进行个性化的计算;(2)搜索的进行由用户主导,包括输入查询词和选择结果,结果不好用户会修改查询再次搜索,而推荐系统是由系统主导用户的浏览顺序,引导用户发现需要的结果。
推荐系统的定义较多,目前被广泛引用的推荐系统的非形式化概念是Resnick和Varian给出的:“它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”。
推荐系统有3个重要的模块:用户建模模块、推荐对象建模模块、推荐算法模块。推荐系统把用户模型中兴趣需求信息和推荐对象模型中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用户可能感兴趣的推荐对象,然后推荐给用户。
2效用矩阵
在推荐系统应用当中,存在两类元素,一类称为用户,另一类称为项。用户会偏爱某些项,这些偏好信息必须要从数据中梳理出来。数据本身会表示成一个效用矩阵,该矩阵中每个用户-项所对应的元素值代表的是当前用户对当前项的喜好程度。这些喜好程度值来自一个有序集合,比如1~5的整数集合,这些整数代表用户对项的评级。假设该矩阵是稀疏的,即大部分元素都未知。一个未知的评级也暗示着人们对当前用户对当前项的喜好信息还不清楚。推荐系统的目标是预测效用矩阵的空白元素。
3基于内容的推荐
基于内容的推荐方法根据用户已经选择的对象,从推荐对象中选择其他特征相似的对象作为推荐结果。这一推荐策略首先提取推荐对象的内容特征,和用户模型中的用户兴趣偏好匹配,匹配度较高的推荐对象就可以作为推荐结果推荐给用户。
3.1文档集的处理
对于文档对象内容特征(content(s))的选取常用的做法是使用TF-IDF值。另一方面,用户的兴趣偏好模型userprofile(c)取决于所用机器学习方法,常用的有决策树、贝叶斯分类算法、基于向量的表示方法等。结合对象内容特征和用户兴趣偏好模型,计算二者之间的相似性是该推荐策略中的一个关键部分,如下所示就是计算该相似性的一个函数:
其中score的计算方法有很多种,例如使用最简单的向量夹角余弦的距离计算方法,按所得值的大小排序,将最靠前的若干个对象作为结果呈现给用户。
3.2基于Tag的特征获取
基于内容的推荐策略的关键就是用户模型描述和推荐对象内容特征描述。目前对文本内容进行特征提取方法比较成熟,如浏览页面的推荐、新闻推荐等。但当前网上的多媒体信息大量涌现,而对这些多媒体数据进行特征提取还有待技术支持。以图像数据为例,图像的问题在于它们的数据通常由像素数组构成,而这些数据无法给出任何有关它们特征的信息。人们可以计算像素的简单属性,比如整幅图像中红色的平均数据,但很少会有用户去查找红色图像或对红色图像有特别的爱好。
通过邀请用户采用词语或短语对图像进行标记,则可以从这些标记中获得有关图像特征的信息。因此,某个红色为主的图像可能被标记为“Tiananmen Square”,而另一个图像被标记为“sunset at Malibu”。这两者之间的区别很难通过已有的图像分析程序来发现。
几乎任意数据都可以基于其标签来发现特征。一个最早的试图标记大量数据的网站是del.icio.us,它邀请用户来标记Web网页,该网站后来被雅虎收购。这种标记的目的是支持一种新的可用的搜索方式,即当用户输入标签集合作为搜索查询时,系统会返回采用这些标签来标记的Web网页,在推荐系统中也可以使用这些标签。如果系统发现用户检索或收藏包含某个标签集合的很多网页,系统就可以将其他包含同样标签的网页推荐给他。
参考文献
[1] 许海玲,吴潇,李晓东,阎保平,互联网推荐系统比较研究[J].软件学报,2009:350-362.
[2] P.Resnick,H.R.Varian,Recommender systems,Commun.ACM,40(1997):56-58.
[3] G.Adomavicius,A.Tuzhilin, Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions, Knowledge and Data Engineering, IEEE Transactions on,17 (2005):734-749.