王彬菁 李明东
摘要:伴随着网络技术日星月异的发展,数据正在数以万计的累积发展,大数据时代已经到来。数据挖掘与推荐系统的而应用已经不局限于电子商务领域了,更有势头向教育领域发展。因此,基于的远程网络的个性化教育系统应运而生。相比于传统的基于技术的远程教育方式,该系统更加具有互动性。而且对于一些商业性质的教育机构而言,对远程教育项目的投资门揽,远远小于以为平台的远程教育项目的投资下限,这可以有效地降低商业机构对教育产业投资的风险。该论文提出了一种基于改进的关联规则算法在个性化学习推荐系统的应用。
关键词:大数据; 数据挖掘;关联规则算法;个性化学习
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)22-0152-02
现如今,在个性化学习领域研究中的一个重要问题是:如何解决传统教学过程对时间与空间地域依赖的限制,从而去建立一种个性化、自主化的学习环境。学习者能够通过个性化学习系统为其推荐具有针对性知识的服务。所以,构建一个学生个性化学习推荐系统就显得十分重要。同时这样的富有个性化的学习模式系统也要符合现代教育学与教育心理学所推崇的 “以人为本”的教育理念。由于学习者的年龄,性别,社会身份,文化信仰、学历背景、学习关注点与兴趣度是千差万别的。因此,应该根据他们的不同需求为其提供相应的学习内容和个性化的学习策略。构建个性化学习推荐系统的根源技术在于自动地获取学生个性特征和与之相对应的学习行为模式的关联,这个过程是困难地。因此,通过使用数据挖掘技术中的先验算法可以挖掘出学生个性特征与学习行为模式之间的关联规则。后续的学生特征与学习活动可以利用关联规则预测出来。基于这样的理论,相对应的个性化学习模型和学生兴趣组群得以建立,个性化、交互性的学习得到实现。本论文提出了一种基于改进的关联规则算法在个性化学习推荐系统的应用。
1 大数据的概念简介
大数据(Big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。[1]在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。李克强总理于2015年9月,国务院印发《促进大数据发展行动纲要》中系统地部署大数据的发展工作。由此可见大数据的发展是离不开应用领域的推广的。推动大数据在相关应用领域的发展具有重大意义。大数据成为新时期开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态的巨大动力引擎。因此,大数据的概念与“从海量数据中挖掘有用知识”的数据挖掘技术概念相吻合。互联网技术与数据挖掘技术的发展为推动大数据的应用提供了动力支撑。
2 个性化学习推荐系统
个性化学习理论的发展从古至今,为推动现代教育发展奠定了坚实的基础。个性化学习是指通过对特定学生的全方位评价发现和解决学生所存在的学习问题,为学生度身定制不同于别人的学习策略和学习方法,让学生有效的学习。[2]反映我国古代教育思想家孔子“教学相长,因材施教”的教育思想。后来的教育家,比如昆体良的“因材施教”和苏格拉底的“助产术”都体现了个性化学习。个性化学习在历史的某个阶段受到了“班级授课制“的冲击,但随着建构主义的出现、人本主义的发展以及加德纳的多元智能等理论的提出,个性化教育重新进入了人们的视线。[3]个性化教育由来已久,现代信息技术和Internet技术的更新为个性化教育的发展提供了良好的契机。个性化学习推荐系统是基于个性化学习理论的大数据在教育领域的创新性应用。
3 一种改进的关联规则算法
个性化推荐系统研究中有一个重要的问题:如何解决传统教学过程对时间与空间地域依赖的限制,从而去建立一种个性化、自主化的学习环境。学习者能够通过个性化学习系统为其推荐具有针对性知识的服务。本文提出了一种基于改进的关联规则算法应用到个性化学习推荐系统。
3.1 经典的关联规则Aprioir算法
关联规则Apriori 算法是关联规则中的经典算法,该算法将发现关联规则分为两个步骤:第一步通过迭代算法,先从给定数据集合中检索出所有的高频频繁项集(Frequent Itemsets),即支持度大于等于用户设定的最小支持度阈值的项集。第二步利用高频繁项集找出所有规则,从所有规则中筛选出置信度大于等于用户设定的最小信任度閾值的规则,即为产生的强关联规则。
由于学习者的年龄,性别,社会身份,文化信仰、学历背景、学习关注点与兴趣度是千差万别的。因此,应该根据他们的不同需求为其提供相应的学习内容和个性化的学习策略。构建个性化学习推荐系统的根源技术在于自动地获取学生个性特征和与之相对应的学习行为模式的关联,这个过程是困难地。因此,通过使用数据挖掘技术中的关联规则Aprioir算法可以挖掘出学生个性特征与学习行为模式之间的关联规则。后续的学生特征与学习活动可以利用关联规则预测出来。然而,个性化学习推荐系统中涉及的学生和学习的数据往往是多维数据,数据结构复杂多样。因此,本文提出了一种基于数据立方体的关联规则算法。
3.2 一种改进的关联规则算法
这个改进的关联规则算法是一种基于数据立方体的关联规则算法。算法过程如下:
步骤1:从数据库中建立数据立方体
步骤2:在数据立方体挖掘满足最小支持度的频繁项目集
步骤3:生成频繁项目集的关联规则。
步骤4:通过相关性分析去除冗余的关联规则。
首先,创建数据立方体。通过个性化学习模型建立的数据立方体中包含3个维度,分别是学习行为模式维度(learning behavior dimension)、学生个性特征维度(learners personality characteristic dimension)、时间维度(time dimension)。这些数据立方体可以利用数据库OLAP操作获得。其中,每个维度对应一张表(维度表),通过表进一步描述维度的属性。例如,学生个性特征维度包含了学生姓名、性别、年龄、收入、职业、兴趣等特征属性。并且在特定的维度上也包含属性的详细描述和不同级别(层面)的描述。例如,时间维中有季、度、月。日、日期等级别的属性描述。图1为学生特征的3-维数据立方体。
4 总结
本文提出了一种改进的关联规则算法,该算法有两大优势:1.将学生学习信息以多维的数据形式表现出来,使得数据结构化和系统化。2.在寻找频繁项集的过程中使得算法的执行时间缩短。3.提高了算法的精确度。该算法可以更好的应用在基于在线学习模型的个性化挖掘系统,即人们通常所说的,个性化学习系统。这种根据学生的个性化特征实施教育活动的新型学习方式,将打破传统的大课堂中有一名教师对多名学生集体授课的局限性。充分尊重学习者个性化差异,激发学生学习兴趣和潜能,调动其主观能动性,促进学生成长与学习的全面、自由、协调发展。
参考文献:
[1] 大数据网. http://baike.baidu.com 带您了解大数据.
[2] 鲁丹. 个性化教育资源推荐系统的设计与实现[D]. 华东师范大学, 2014.
[3] 范明,孟小峰. 数据挖掘:概念与技术[M].北京:机械工业出版社,2012.