何如珍
(阳泉开放大学 山西省阳泉市 045000)
随着干部在线培训的不断发展和创新,在线平台上供参学干部选择的学习资源累积的越来越多,并逐渐膨胀,各级、各类的参学干部在选择平台提供的资源时表现出多种多样的兴趣和需求。以好干部在线(山西干部在线学院)为例,2017-2018年不到一年的时间里,平台上的学习资源已经增加了约252 门课程,约504 学时,而且还将继续增加。为了在海量的学习资源中寻找到满足自身需求的、针对性强的学习资源,干部们耗费了大量的时间和精力,却不一定能得到满意的结果。在现有平台基础上,借助大数据的思维重组,运用数据挖掘技术和个性化推荐技术,探索适用于干部在线学习的学习资源个性化推荐机制,实现学习资源的推送,最终解决学员在选择学习资源方面的困惑,一定会让干部在线培训呈现出全新的面貌。
2.1.1 收集参学干部兴趣
参学干部兴趣是干部们在长期访问平台和浏览资源过程中,对某一类型的学习资源产生的一段时间内相对稳定的需求。可以通过以下两种方式来收集参学干部兴趣:
(1)直接收集:直接收集是指让参学干部在首次进入网站学习时注册个人信息,自愿完成学习偏好相关测试,然后根据以上信息,分析出参学干部的兴趣特征并构建兴趣模型,将其存储在数据库中。
直接收集方式简单、客观,收集的信息也较为可靠。同时也有局限性,要求学员在刚进入系统时就对自己的学习兴趣有明确的认知,并且愿意花时间和精力配合完成相关测试。
(2)间接收集:间接收集是指不需要学员自主提供个人信息,而是通过跟踪和监控学员的各种学习行为,包括历史浏览记录、收藏、下载、检索、资源浏览次数等获取参学干部兴趣。
间接收集方式是系统在后台自主、独立完成,减少了人工成本,但是这种方式收集到的数据可能包含其他非相关性信息,导致收集到的学员兴趣不够精确。因此,文中采用两种收集方法相结合的方式。
首先,参学干部首次进入系统时,利用注册个人信息以及学习偏好测试所产生的数据,初始化参学干部兴趣模型;在参学干部随后的学习过程中,依据学员观看次数、收藏、下载等学习行为,不断修正和完善参学干部兴趣模型。参学干部兴趣模型初始化和修正过程如图1 所示。
图1 :收集参学干部兴趣
2.1.2 参学干部兴趣模型表示
采用向量空间模型来表示参学干部兴趣。首先,推荐系统自动从干部注册个人信息和偏好测试文档中提取参学干部兴趣关键词(主要包含:政治理论、经济建设、生态文明、业务能力提升、行业政策、法规解读、时事政治、人文素养、山西省情等),并为每个代表兴趣的关键词赋予不同的权重值。其次,根据向量空间模型将参学干部兴趣表示为{(K,W),(K,W),…, (K,W)},其中,K代表参学干部兴趣的第n 个关键词,W为参学干部对K所代表的这一类型资源的兴趣值。{K,K,…,K}既可以是所有关键词集,也可以是子集。具体表述如下:
其中,I表示参学干部兴趣的关键词,W表示关键词的权重,权重越大,说明参学干部对该关键词相关的资源越感兴趣。
2.1.3 参学干部兴趣模型修正
分析参学干部对学习资源的浏览次数、浏览类别、浏览时间、收藏、分享等学习行为和数据,实时、精确地捕捉参学干部的兴趣变化并及时调整兴趣模型,确保构建的参学干部兴趣模型与参学干部对学习资源的实际需求最接近。
2.2.1 学习资源说明
学习资源是干部在线培训中最关键的一部分内容。资源种类越多,内容越丰富,干部们参加学习和培训的自主性就越高。此外,学习资源在提升干部自身能力和素质,逐渐形成良好的参学理念等方面具有至关重要的作用。
通过分析、整合“山西干部在线学院”和“阳泉干部在线学习中心”两个平台的学习资源,我们可以从两个维度来介绍、说明资源的类别。从“学习资源呈现形式”这个维度来说,主要包括文档、图像、图文结合、音频、视频、动画6 大类;从“学习资源具体内容” 这个维度,可以把学习资源分为政治理论、经济建设、生态文明、业务能力提升、行业政策、法规解读、时事政治(习近平总书记系列讲话以及治国理政相关资源)、人文素养、山西省情9 大类。
2.2.2 学习资源模型表示
同样采用向量空间模型表示学习资源。学习资源模型定义如下:
其中,m 代表学习资源搜索的维度,R表示对学习资源的属性、特征等信息进行说明的关键词,W为关键词的权重,表示R能代表学习资源R 的程度。权重越大,说明该学习资源的关键词比权重小的关键词更能代表该资源。
从标题、作者、学习资源说明和资源内容四个方面提取学习资源关键词。权重设计如下:
标题>作者=学习资源说明=资源内容
其中,前三个关键词是由平台管理与服务人员上传学习资源时所填写,第四个关键词则是系统从学习资源中自动获取的。
推荐系统在获取到参学干部兴趣之后,按照学习资源关键词的权重由大到小依次查询学习资源,最后将相关度高的学习资源推荐给学员。
干部兴趣模型可以用向量I={(I,W), (I,W),…, (I,W)}描述, 学习资源模型可以用R={(R,W), (R,W),…,(R,W)} 描述;假设D为 I出现在R中的频度,其中,j=1,2,3,......,m。那么,参学干部兴趣模型和学习资源模型的匹配程度,即相关度d 可以表示如下:
利用公式(3)计算得到d>0 的所有学习资源的集合,由大到小排序,最后将与参学干部兴趣相关度最大的学习资源推荐给学员。
2.4.1 干部兴趣建模
运用协同过滤推荐技术构建参学干部兴趣模型的数据基础来自于学员对学习资源的评分数据。但是现有的两个干部在线学习平台数据库中没有参学干部对学习资源的评分数据,只有学员访问过的学习资源记录。因此,本文研究过程中使用学员浏览或观看某个学习资源的次数作为其对学习资源的评分。推荐系统基于这些数据构建参学干部兴趣模型。
本文将使用学员浏览或观看某个学习资源的次数作为其对学习资源的评分。采用基于用户-项目评价矩阵表示法来描述参学干部兴趣模型。假设进入平台学习的学员集合User={u,u,…, u},学习资源集合Resource={r,r,…, r},其中u代表某位参学干部,r代表某个学习资源。使用学员浏览或观看同一个学习资源的次数表示其对该学习资源的兴趣值,然后通过一个评价函数,得到对应的兴趣值S。参学干部-学习资源评分矩阵如表1 所示。
表1 :参学干部-学习资源评分矩阵
其中,n 为参学干部人数,m 为学习资源数目,S代表第i 个参学干部对第j 个学习资源的兴趣值。设定参学干部对学习资源的兴趣值为从1 到5 的整数,共5 个等级,即S∈{1,2,3,4,5},兴趣值越大,说明干部对该学习资源越满意。评分矩阵中有些元素是空值,表示学员一直未对该学习资源表现出喜欢与否,这就需要根据相似学员的喜好来预测该学员对学习资源的兴趣值。
2.4.2 搜索相似学员
搜索相似学员,就是寻找和目标学员具有相似兴趣爱好的其他的一群学员,也是利用协同过滤推荐算法实现个性化学习资源推荐的最关键,也是最核心的一部分。首先需要确定需要寻找相似用户的数量,然后计算目标学员和其他学员之间的相似度,最后根据相似度由高到低选取确定数量的相似学员,构成相似学员集合U={u,u,…, u},u∉U。
(1)通过查找相关文献资料,研究各类实验数据,结果证明:一般情况下,选取相似用户数量控制在20-50 个之间是最合理的,推荐质量也是最优的。
(2)计算目标学员和其他学员之间的相似度,常用的主要有三种计算方法:皮尔逊相关系数、余弦相似度、调整的余弦相似度。为了保证最后产生的推荐结果最贴近学员的兴趣和偏好,本文中将采用调整的余弦相似度来进行目标学员和其他学员之间的相似度计算。
通过以上公式计算出目标学员和其他每位学员的相似度,然后依据相似度由高到低选取确定数量的相似学员用来预测目标学员对某个资源的兴趣值。
(3)产生推荐结果。利用相似学员集合 U={u, u, u,…,u}(u∉U)以及相似学员对学习资源的兴趣值,预测出目标学员对未浏览资源的兴趣值,然后按照兴趣值的大小选择相应资源,形成推荐列表。
目标学员u对未浏览资源r 的预测兴趣值S可以通过如下公式得出:
我们可以通过公式(5)计算来预测目标学员对每一个没有浏览过的学习资源的兴趣程度,并将其用数值表示出来。对每一个有了预测结果的资源按照兴趣值从大到小依次排序,最后将列表中兴趣值较大的学习资源提供给学员。
以上三个步骤全部完成之后,使用基于用户的协同过滤推荐技术向学员推荐他们的潜在兴趣资源的全部流程也就结束了,最终形成的高质量的推荐结果,满足了参加干部在线培训的每位学员的个性化需求。
干部在线学习资源个性化推荐模型体系结构如图2 所示。
图2 :干部在线个性化学习资源推荐模型体系结构
干部在线学习平台自动分析数据库中存入的参学干部个人注册信息,根据这些信息提取出干部的学习兴趣,建立起参学干部兴趣初始化模型。
依据学员在平台上的点击、收藏、分享和浏览观看多次四种行为分析学员的学习兴趣。
通过挖掘学员的学习行为数据,预先设定学员的兴趣偏好权重的大小,如果发现学员兴趣偏好发生转变,需要动态调整参学干部兴趣模型,将新收集的兴趣关键词权重增大,将原来的关键词权重减小,直至权重减小到0,最后从参学干部兴趣模型中将其删除。权重的大小排序如表2 所示。
表2 :学员兴趣偏好权重大小排序
通过计算经过调整后的参学干部兴趣模型和学习资源模型的匹配程度,即相关度d,将相关度较大的学习资源推送给该学员;依据学员对学习资源的评分,即浏览观看次数,计算目标学员和其他学员之间的相似度,找出相似度较大的20-50 个相似学员。两种推荐结果混合排序,呈现给学员。
学员再一次登录到干部在线学习平台学习的时候,呈现在学员面前的就是根据学员兴趣个性化推荐的学习资源,平台会继续跟踪、记录学员的学习行为,并据此判定学员的满意度,最后更新推荐结果。
干部在线学习资源个性化推荐工作过程如图3 所示。
图3 :学习资源个性化推荐工作过程
通过前期学习、资料收集和仔细钻研,文中提出的利用基于Web 使用挖掘的推荐技术和基于用户的协同过滤推荐技术相结合的推荐方法有效地提高了干部在线学习质量,研究工作取得了突破性进展。但在整个研究过程中还存在很多不足之处,如学员信息的隐私保护问题、资源库的完善等,还需要进行后续研究。