面向企业的E-Learning系统推荐算法设计

2019-05-22 11:45李培国
长春大学学报 2019年4期
关键词:列表关联标签

叶 嫣,李培国

(1.广州商学院 信息技术与工程学院,广州 511363;2.暨南大学 信息科学技术学院,广州 510632)

1 背景知识

1.1 推荐系统

推荐系统作为提供个性化服务的技术手段之一,已经在多个领域进行了广泛应用。例如,电子商务领域中的亚马逊、京东等都使用了推荐技术,为用户推荐个性化的产品;社区类网站中的豆瓣大量的应用了推荐技术,为不同用户提供个性化的内容;电影、音乐、图书类型的网站系统中,也应用了相应的个性化推荐技术。

推荐系统的广泛引用,为用户提供了个性化的服务,尤其在网络数据环境中,通过精准的推荐服务,能够大大提升个性化服务质量,满足不同用户的个性化需求。

目前,主要的推荐算法有:基于规则的推荐算法、基于内容的推荐算法、协同过滤算法及多种推荐方法共同使用的混合算法。随着深度学习的应用越来越广泛,也出现了使用基于深度学习的推荐算法[1]。

图1 协同过滤算法原理

基于规则的推荐算法,主要是预定义一定数量的推荐规则。例如,如果满足A,则推荐B。当需要进行推荐时,根据系统设定好的推荐规则,逐一进行判断,最终形成推荐内容。该类推荐算法,优点是实现简单,推荐结果明确;缺点是系统很难针对大量不同的用户制定相应的推荐规则,并且,随着系统的不断变化,很难对推荐规则进行维护和完善。

基于内容的推荐算法,是从待推荐项目的内容角度来分析,与用户曾经浏览过的内容进行对比,从而决定是否需要推荐该项目。这种算法需要对系统中所有项目的内容进行分析和定义,这显然无法适应数据量不断变化的系统。

协同过滤算法,是目前应用的最成功的一种推荐算法。其基本原则是: 根据用户对项目的评分数据(包括显性或隐性评分),计算目标用户(项目)与其他用户(项目)的相似度,从而根据相邻用户(项目)为目标用户完成推荐[2]。算法的基本原理是:人以类聚,物以群分。偏好相似的用户,会对相同的内容感兴趣。如图1所示。

协同过滤算法分为两种方式:基于用户的协同过滤和基于项目的协同过滤。该算法分为如下3个步骤:

第1步,根据用户评分数据,生成用户项目评价矩阵,如表1所示。

表1 用户项目评价矩阵

第2步,根据用户项目评价矩阵,计算目标用户与所有用户的相似度,确定最邻近用户集。在计算用户相似度时,经常采用余弦相似度,计算公式为:

sim∪i,∪j=∪i·∪j‖∪i‖·‖∪j‖,

(1)

第3步,根据相似度计算结果,选定目标用户的最邻近用户集,形成最终的推荐结果。

该算法在进行推荐时,过分依赖于用户的评分数据,因此存在冷启动问题。

混合算法是将多种推荐算法集成到一起,针对不同的情况采用不同的推荐算法,发挥各种算法的优势,并弥补各自算法的缺点,实现更为精准和高效的混合推荐算法。

1.2 关联规则挖掘

关联规则是对一个事物和其他事物的相互依存和关联关系的一种描述[3],是数据挖掘领域的一个重要分支。关联规则挖掘的典型是电商系统中的购物篮分析,通过分析用户放入购物篮的不同物品之间的联系,从而发现用户的购买习惯。

Apriori算法是关联规则挖掘的经典算法[4],该算法能够有效地产生所有关联规则。由于该算法存在一些效率上的问题,因此人们在此算法的基础上,又提出了许多改进算法。

1.3 社会化标签

社会化标签,也称为协作标签,是通过用户来为资源添加相应的标签,从而标注和分类相应的资源,提高资源的可检索性。

在E-Learning系统中,通过使用标签技术,可以在如下几个方面为推荐模型提供支持:(1)用户为资源添加标签,可以作为用户对资源的隐性评分行为,为协同过滤算法提供依据;(2)通过大量用户为资源添加的标签,可以实现资源的聚类,为基于规则或者基于内容的推荐算法提供支持;(3)通过用户添加的标签,可以了解用户关注的知识领域,为推荐提供依据。因此,在E-Learning系统中的推荐算法模型,结合使用标签技术,可以在一定程度上提升推荐算法的精确度。

1.4 面向企业的E-Learning系统

面向企业的E-Learning系统,与普通意义上的E-Learning系统在大的概念上是基本一致的,主要是通过网络学习的方式,完成企业员工的培训和学习任务。但是,在系统功能模块的设计,以及用户和培训资源的组织等方面,都有着很大的差别。首先,大部分面向企业的E-Learning系统,都是按照ISO10015[5]标准的培训体系来设计相应的功能模块,主要包括:培训需求分析、培训策划、培训实施、培训结果评估4大部分。其次,系统内部的用户和培训资源,大都会按照企业的组织架构进行管理和维护,大部分具有相应的层级关系。最后,对用户的访问权限有一定的限制,大部分会按照用户的组织架构进行资源的访问权限分配。

2 面向企业E-Learning的推荐模型

面向企业E-Learning推荐系统采用混合推荐算法,包括协同过滤和关联规则挖掘算法,并使用标签技术作为辅助。通过该推荐系统,为E-Learning系统中的用户提供以下个性化学习内容:Top10列表:该列表为目标用户最可能感兴趣的前10条学习资源;猜你喜欢列表:根据目标用户以往的学习内容,推荐系统预测目标用户最可能关注的内容。

本文从以下几个方面来阐述该推荐系统在设计过程中的主要问题:混合算法模型介绍;标签技术应用;推荐系统的权限范围约束;与面向企业的E-Learning系统接口问题。

2.1 混合推荐算法模型设计

本文采用协同过滤算法与关联规则挖掘相结合的混合推荐算法,算法模型结构如图2所示。

图2 算法框架图

2.2 协同过滤算法

2.2.1 算法流程

由于企业E-Learning系统中的用户范围相对固定,本文采用基于相邻用户的协同过滤算法,其流程图如图3所示。

图3 协同过滤算法流程图

基于相邻用户的协同过滤算法,分为3个步骤:

第1步,收集用户评分数据。本文定义了表2中的显性和隐性评分行为。

表2 评分行为表

根据表2定义的显性和隐形评分行为,查询E-Learning系统中相对应的数据库表,收集得到系统所有用户对所有学习资源的评分数据。在确定用户对某个资源的评分时,根据以下规则:

(1)用户对资源没有任何显性和隐性评分行为时,记为0;

(2)用户对资源存在显性评分时,则取相应的显性评价分值;

(3)用户对资源不存在显性评分时,则取分值最高的隐性评分分值。

假设系统存在m个用户,n个学习资源,则最终会得到m*n维的评价矩阵,其中每行代表对应用户对n个资源的评分记录。如表3所示。

表3 m*n评价矩阵

第2步,根据第一步得到的评价矩阵,使用余弦相似度计算公式(公式1),计算每个用户与其他用户的相似度;然后按照相似度从大到小,选取5个相似度最高的用户,组成该用户的最相似用户集。

第3步,在最相似用户集合中,选取每个最相似用户评分最高的前两条记录,组成当前用户的推荐列表。

2.2.2 冷启动和稀疏问题

针对协同过滤算法普遍存在的冷启动和稀疏问题,根据面向企业E-Learning系统的特点,本文采用基于规则的方式来解决。例如,新入职的员工没有任何评分数据,无法形成推荐列表。此时,基于规则的推荐算法生效,为新入职的员工推荐新员工入职培训课程列表。

这样的规则,可以根据企业的特点,进行相应的定制和调整,以提供更为精准有效的推荐。有效的基于规则的推荐,能够较好地解决冷启动问题。本文设计了一般推荐规则,如表4所示。

表4 推荐规则

2.3 基于标签的推荐

2.3.1 标签产生方式

为保证标签的质量,同时结合面向企业E-Learning系统的特点,本文采用固定标签的设计。由系统的管理员,根据企业提供的培训内容,进行标签的维护工作,用户通过点击相应的标签,来进行资源的标注操作。

2.3.2 标签推荐

本文的标签推荐方式,基于以下假设:如果一个用户,多次使用了标签L,那么说明该用户对标签L下的最热门学习资源感兴趣。因此,可以通过计算用户最常用的标签集合,再根据这个集合,找到对应标签下的最热门资源,生成推荐列表。为避免只推荐系统最热门标签下的最热门内容,本文借鉴TF-IDF的方式来计算每个用户最关注的标签集。整个推荐过程分为如下2个步骤:

第1步,统计每个用户对每个标签的使用次数,通过公式(2),计算得到每个用户的个性化标签;

(2)

第2步,得出每个用户的个性化标签集合,然后分别计算对应标签的最热门资源,形成推荐列表。

2.4 关联规则挖掘

本文通过使用关联规则挖掘算法,对用户可能感兴趣的知识内容进行预测。预测算法过程,如图4所示。

图4 关联规则挖掘预测算法流程

预测步骤如下:

(1)扫描系统所有用户的标签使用表,记录每个用户的标签使用列表。

(2)针对所有使用的标签,使用关联规则挖掘算法,得出关联标签集合,本文采用经典的Apriori算法作为关联规则挖掘算法。

(3)根据关联标签集合,以及每个待预测用户的标签使用列表,得出用户可能感兴趣的标签集合。

(4)根据预测得到的标签集合,得到每个预测标签下的热门资源,生成预测列表。

通过以上的步骤,推荐模型就可以根据用户已经使用过的标签,使用关联规则挖掘算法预测用户可能感兴趣的标签,从而形成推荐结果的预测列表。

3 总结

本文借鉴推荐系统在电商领域的成功应用,结合面向企业E-Learning系统的特点,提出并设计一个基于协同过滤算法、标签技术,以及关联规则挖掘的混合推荐系统模型,为企业E-Learning系统的推荐模型提供理论基础,为最终的推荐系统实现提供模型依据。

猜你喜欢
列表关联标签
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
学习运用列表法
扩列吧
“一带一路”递进,关联民生更紧
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
奇趣搭配
智趣
让衣柜摆脱“杂乱无章”的标签
列表画树状图各有所长