◆周雪芳
网络资源推荐系统关键技术的探索
◆周雪芳
(青岛黄海学院 山东 266427)
本文主要具体介绍了当今比较流行的个性化推荐技术,基于内容的过滤、基于关联规则的推荐、协同过滤推荐,通过这几种技术推荐算法、稳定性、可读性等优缺点的比较,最终帮助开发者根据实际况选择有利的推荐技术,做出合理的选择。
推荐技术;推荐系统
推荐技术作为推荐系统的关键和核心,指的是系统充分利用系统用户的一些技术。因此,推荐算法的好坏、效率的高低直接影响着系统推荐的效率和质量。目前存在一系列常用的推荐技术和算法,但目前在推荐系统中最常用的推荐技术主有三类:基于内容(过滤)的推荐技术、基于规则的推荐技术和协同过滤推荐技术,对于各种技术的具体介绍如下。
该技术最初起源于信息检索领域,是信息过滤研究技术的延续和发展。基于内容(过滤)的推荐技术通过分析系统资源信息和用户描述文件(具体在后面小节中有介绍),根据该资源内容与用户描述文件之间的相似性程度为系统用户提供个性化的资源推荐。具体来说,该推荐技术首先运用TF-IDF方法(在后面小节中有介绍)计算出用户当前浏览的资源文档中出现权重比较高的关键字,并将这些关键字构成描述当前用户特征的向量,然后计算出系统中将要被推荐资源的资源特征项权重高的关键字,将其作为该推荐项的属性特征。根据用户评价过的资源建立基于向量空间模型的用户的兴趣特征(包括系统用户的偏好和需求),通过将资源内容特征进行过滤,根据资源内容与用户描述文件间的相似性(这是推荐算法的核心,通过cosine方法来计算两个向量之间夹角的cosine值来确定)的计算结果,最终确定两个相似性最高(cosine值最大)的资源作为系统用户最可能感兴趣的资源项推荐给用户从而完成推荐过程。根据用户描述文件的不同,基于内容(过滤)的推荐可以分为基于向量空间模型的推荐、基于关键词分类的推荐、基于领域分类的推荐和基于潜在语义索引的推荐四种形式。
基于向量空间模型的推荐是目前最常用的基于内容(过滤)推荐的方法。该推荐方法将资源表示成一个n维的特征向量,如:D(T1,T2,….Tn)其中D表示文件(Document),Tn则指的是该资源的众多特征项。向量的每一维都是由一个关键词(可以是资源的属性值)和权重(可取布尔型和实数值)来组成的,分别用来表示用户是否对某网络资源感兴趣以及感兴趣的相关程度。在运用基于空间向量方法处理文本资源的时候,系统将从该资源的名称中抽取的属性词作为关键词,并在向目标用户进行推荐时将该用户描述文件看成目标资源,然后通过相似性算法来计算出系统资源与该目标资源的相似值,最后,按照相似值从大到小的顺序依次将资源输出给目标用户,完成推荐过程。
基于关键词分类的推荐则是将资源推荐的过程看做是资源分类问题:系统首先通过获取到目标用户对某组已定义的资源进行评价的结果来计算出每个资源的关键词属于某个类的条件概率,从而获取到该用户的特征描述。然后,根据此特征描述的计算结果获取后验概率,最后将具有最高后验概率的资源推荐给系统用户;基于领域分类的推荐则是将用户兴趣文件表示为用户对不同领域感兴趣的概率,并通过计算所有资源和用户在一个事先建好的领域分类模型上的概率分布来最终确定推荐的资源[2]。
基于内容(过滤)的推荐技术作为目前应用比较广泛的推荐技术,具有如下所述的优点:
(1)稳定性好:该推荐技术不受系统新注册用户用户、新上传的资源的影响,能够通过分析用户描述文件来完成个性化的推荐,这是协同过滤推荐技术所无法处理的。
(2)无冷开始、稀疏性问题:在实际资源评分过程中,很多的系统用户由于各种原因都会对资源不予评价,这就给协同过滤技术带来了稀疏性问题。从而引发许多资源由于得不到用户评分而无法得到系统推荐,这使得以最相邻邻居的兴趣资源作为目标用户推荐资源的协同过滤推荐技术大大受限[4]。相反基于内容的过滤则不需要其它用户的数据,仅是通过对个人用户文件分析,不会受用户是否评价的影响。
(3)容易理解、推荐结果直接。该技术的推荐过程相较于系统过滤简单、高效,能够方便系统在较短时间内为用户提供最合适的资源。
基于内容过滤的推荐技术目前也面临着一些问题:比如该推荐技术的使用范围局被限于用户以往浏览的资源及类似信息资源,而不能为用户发现、提供新的资源推荐;此外,由于受信息获取技术如自动提取多媒体数据(图像,视频流,音频等)的内容特征等技术上的制约,影响了该技术对复杂资源特征提取的效果;最后,该技术由于获取资源关键词表征资源特征需要专业人士,这在某种程度上也增加了开发系统的开发负担。
该推荐技术伴随数据挖掘技术的兴起而被重视,是以基于关联规则作为理论基础来完成推荐过程的技术。推荐方法中的每个系统资源都会被分成前部和后部两个部分。其中前部相当于一个兴趣组,而后部则是这个兴趣组所对应的推荐。该技术认定用户在使用某个资源(前部)的时候会倾向使用与其相关的资源(后部)。由此,在推荐过程中,若系统用户对某个资源的前部喜欢,那么系统就认定后部也会满足用户的兴趣偏好,并把该资源后部以一定可信度推荐给当前用户。比如用户学习Servlet时,在搜索资源Servlet资源的同时也会搜索JSP资源,因为学习JSP是Servlet的基础,两者具有很高的相关度。
基于关联规则推荐技术所具有的优点有:
(1)简单、快捷、容易发现新的兴趣点。
(2)数据源简单,不需要特殊数据源。
(3)能够准确预测用户行为,挖掘用户的潜在兴趣。然而,该技术随着关联规则数量的增多,系统也将变得难以管理,同时当关联规则耗时,会出现同一性、个性化程度低等问题,而影响推荐的质量。
该技术又被称为社会过滤技术,也是目前最常用的推荐技术之一,并且已被应用到很多领域中。该技术具有以 “人”为推荐基础的特点,能够通过分析目标用户的兴趣偏好,在用户群中找出和目标用户兴趣爱好类似的用户,并将它作为相似的最相邻用户,然后将相似用户的兴趣偏好推荐给目标用户,以满足目标用户对于兴趣资源的获取。这种推荐方式能够方便目标用户获得意料之外的资源,从而挖掘用户的潜在需要。协同过滤技术的主要任务就是找出目标用户的相应的最近邻居,从而根据最近邻居的喜好对资源做出预测和推荐。
总之,随着个性化服务的发展,个性化推荐技术在各个领域中都发挥着重要的作用,服务着人们的工作、学习、生活。虽然不同的个性化推荐算法都有自己的侧重点和优势,但每个算法都有自己不可避免的缺陷。通过上述分析比较,本文采用基于内容(过滤)的推荐技术来实现对系统用户的资源推荐。虽然该推荐方法仅对于文本资源有效,但由于现在很多技术都可以实现从图片、音乐、视频中自动抽取资源内容信息,并且还能将抽取后的内容以文本、关键词(标签)、特征向量等方式表达,因此系统对不同类型信息的处理方式文本处理是类似的。由此,选取基于内容(过滤)的推荐完全能够实现为用户推荐各种类型的个性化资源。
[1]RuanJian-hai. TheInternet-basedEducation: UsingtheInterne TAS school [J]. Proceeding of ICCE’ 98.
[2]舒蓓,申瑞民,王加俊.个性化的远程学习模型[J].计算机工程与应用,2001.
[3]余力,刘鲁.电子商务个性化推荐研究[J].计算机集成制造系统,2004.