王宏
[摘要]开放教育选课过程是人才培养方案的重要组成部分,本文提出一种基于大数据分析的学习者选课推荐模型,是以协同过滤推荐算法作为基础算法。算法通过对学习者群课程偏好行为数据的挖掘,发现学习者的课程偏好,以不同偏好对学习者进行群组划分并推荐品味相似的课程。
[关键词]大数据;选课;推荐;模型
[中图分类号] G728 [文献标识码]A[文章编号]1008-4649(2019)02-0018-05
Abstract:The course of open education selection is an important part of the talent training program. This paper proposes a learner selection recommendation model based on big data analysis. It is a collaborative filtering recommendation algorithm as the basic algorithm. The algorithm discovers the learner's curriculum preferences by mining the learner group's curriculum preference behavior data, and classifies the learners by different preferences and recommends similar courses.
Key word:Big data; Course selection;Recommendation; Model
开放教育选课是其人才培养模式的重要内容,是依据专业特点和培养目标,结合学习者的时间、空间、兴趣和知识面开展的,用以保证学习者自主学习和个性化发展,而实施的内容。这一实施过程,在激发学习者学习兴趣、开阔专业视野、提高文化素质、培养创新能力等方面具有不可替代的作用, 是实现“宽口径、重能力、强素质” 人才培养模式的有效途径。
一、选课推荐
1.大数据的概念
大数据是近年来在信息化应用中的核心焦点,由于其发展迅速,在定义、特征等方面尚未形成公认的、统一的标准。大数据一般是指数据量巨大,不易用常规方法和传统软件处理分析的数据。 对于其特征的认识从最初的“3 V”发展到“4 V”,再到最新的“5 V”, 即数据量( volume)巨大、数据类型( variety)众多、处理速度( velocity)快、价值( value)密度低、真实性( veracity)强。教育领域的大数据广义上指的是在教育教学活动中所有参与者的行为数据,最主要是学习者。为了保证采样数据对母体的完备性,一般要求学习者的采样数量大于2000人,这些数据除了具有大数据的共性以外,还具有情境性、层次性和时效性,数据采样主要来源于各类远程学习平台、考试平台、教学管理系统、图书馆管理系统、一卡通平台、财务管理系统。
大数据不仅意味着数据量的巨大,同时更主要的是其利用数据的视角发生变化,其数据分析对象,趋向于数据母体而非抽样数据,重视个体数据间的相关性而非因果性,特别是当效率与精确性产生冲突时,可以牺牲一定的精确性,强调以数据分析为本,以数据分析结果驱动决策。
2.选课推荐
大数据的应用使推荐过程更加科学,其核心在于各要素相关性数据挖掘模型的建立。数据挖掘建模过程是着眼于解决推荐应用的过程,源于应用需求,终于应用实践。尽管用数据挖掘技术建立仿真模解决的问题各有不同,但从整个的应用流程上来看,其操作内容具有计划性、规范性、可用性。 其中,CRISPDM方法是目前世界上公认的数据挖掘建模的核心方法。
(1)教学理解阶段。在这一阶段通常从学习者的视角设计建模的要求和目標,并将这些目标与大数据挖掘建模的定义相结合。
(2)数据解读阶段。数据解读阶段的主要内容有:数据的样本采集;数据的初始化;研判数据属性;分析数据特征;数据特征统计;数据质量审核;数据补遗。
(3)数据准备阶段。数据准备阶段涵盖了从原始数据集构建最终数据集(将作为建模工具的分析对象)的全部工作。数据准备工作将被重复多次,而且其实施顺序是无序的。
(4)数据整理。以挖掘目标为基准初步分析数据样本与其的相关性和可用性,遴选作为模型输入数据的数据子集,并进一步对这些数据样本进行清理转换,构造衍生变量,并根据模型的需求,格式化数据。
(5)建模。在这一阶段,研判相关的建模方法,通过构建、评估模型,对模型参数进行校准。
(6)评估。以数据分析的视角对数据进行审读,在这一阶段中,我们已经构建了一个或多个高质量的应用仿真模型。
(7)部署。即将模型输出的结果转换为可阅读的文本形式。
二、基于学习者的协同过滤推荐
基于学习者的协同过滤推荐模型的原理为,以所有学习者对课程兴趣的偏好为基础,挖掘与服务对象偏好相似的“邻居”学习者群,一般使用计算“ K-邻居”的算法完成;然后,基于这个“邻居”学习者群的历史偏好数据,为服务对象进行推荐。下图给出了原理图。
设学习者 A喜欢 A课程, C课程,学习者 B喜欢 B课程,学习者 C喜欢 A课程, C课程和 D课程;从这些学习者的喜好信息中,我们发现学习者 A和学习者 C的喜好是比较类似的,同时学习者 C还喜欢 D课程,那么我们可以推断学习者 A可能也喜欢 D课程,因此可以将 D课程推荐给学习者 A。
基于学习者的协同过滤推荐机制和基于人口统计学的推荐机制都是计算学习者的相似度,都是以学习者的“邻近”群体样本计算推荐的,但它们的核心区别是如何计算学习者的相似度,基于人口统计学处理机制只注重学习者本身的特征,而基于学习者的协同过滤处理机制是在学习者历史偏好数据的基础上进行学习者相似度计算的,它的关键假设是,喜欢类似课程的学习者可能有相同或者相似的喜好。
(一) 基于学习者(Learner-based)的协同过滤推荐算法
基于学习者的协同过滤推荐算法在同类算法中出现的最早,其原理较为简单。这一算法于1992年首次提出并用于电子邮件过滤系统,在1994年被GroupLens引入到新闻过滤中。一直到近年,这一算法还是推荐系统领域中的核心的算法。
三、小结
基于协同过滤模型的算法根据学习者不同的属性特征,按其性别、专业、兴趣爱好归类分群。推荐应用模型可以更加科学与精确的对这些属性信息建立我们关心的关联并计算它们的相似度,从而完成推荐。 大数据下的选课模型,为完全学分制下的学习者选课提供了智能化的支持服务,构建了独立、自主、公平,自由的选课操作,满足了学习者对课程的特性化需求,激发了学习者的学习主动性。
[参考文献]
[1]郭清菊,等.基于学习兴趣的个性化推荐算法研究[J].软件,2013,34(9):51-53.
[2]胡健,等.数据挖掘在选课推荐中的研究[J].软件,2016,37(4):119-121.
[3]王超,等.适合专业选修课的现代教学理论和方法探究[J].学理论,2015(11):202 - 204.
[4]程学旗,等.大数据系统和分析技术综述[J].软件学报,2014,25 (9) :1889 - 1908.
[责任编辑张宇龙]