基于教育数据挖掘的学习者聚类分析与研究

2018-03-31 12:22石振强
电脑知识与技术 2018年6期
关键词:聚类分析学习者特征

石振强

摘要:数据挖掘在教育领域的应用随着数据的增多变得极为重要,该文主要针对在线评测系统中学习者相关数据集进行分析与研究,构造多个学习者特征,并以此对学习者进行聚类分析,从而得出不同学习者之间的特点,并对每类学习者进行深入分析,挖掘出隐含信息。一方面教育者可以针对不同类别的学习者采取不同的教育策略,另一方面使学习者更好地了解自己,发现不足的原因。将挖掘到的知识应用到教育环境中,不仅完善了在线教育平台,同时也使学习者和教育者达到了双赢的目的。

关键词:教育数据挖掘;在线评测系统;学习者;特征;聚类分析

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2018)06-0154-03

1概述

随着开源教育平台的兴起,教育数据挖掘技术融入教学已成为一种趋势,将教育系统的数据通过数据挖掘技术转换为有用的知识,并将挖掘到的知识再次应用到教育环境中去,提供更多更客观的反馈信息,一方面使教育者能够更好地调整和优化教学策略、改进教学过程、完善课程开发,基于学习者的学习情况来实现教学内容组织、创新以及构建教学模式等;另一方面可以使学习者更好地了解自己,有助于自己更好的学习。

本文中主要研究XXX大学在线评测系统(Online Judge,以下简称OJ),此系统是学习者通过在线提交代码,系统即时检测代码的正确性并给出判定结果。OJ中,存储着学习者的相关数据,通过分析这些数据,更深入的了解学习者,以便针对不同类别学习者提供不同的教学方法。本文主要是通过分析学习者数据,建立特征,得出不同类别学习者的特点,使教学者有针对性做出策略。

2数据挖掘介绍

数据挖掘,就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力。

随着开源教育平台的兴起,平台上的数据分析变得异常重要,将数据挖掘应用在教育领域成为一种趋势。如通过研究大规模教育数据中,可以为教育者提供更多潜在的不易发现的信息,以解决某教育中存在的问题,或者来预测学习者所需要的服务。

3问题提出

学习者数据存储在数据库中,因此在选取数据时,可以直接从数据库中导出数据,然后在其中提取具有研究价值的完整的数据集。

如何更深入的了解学习者,挖掘出不同学习者之间的差异,以及如何找出需要进行考前预警的学习者,是本文研究的重点。

3.1山东某大学在线评测系统学习者群体的数据介绍

自2011年以来,注册用户的提升和题目的增加,使OJ系统的学习者数据集更加完备,便于研究和学习分析。

OJ系统中的学习者主要涉及计算机,软件,网络,物联网,电科,数字媒体,信息安全,数学等专业,学习者按时完成专业老师安排的作业和规定的考试,表1是五个年级学习者数据的汇总,表示学习者的对题目的提交情况。最终选取了2014级,2015级,2016级学习者数据。

3.2问题解决的角度

由于数据繁杂,各个年纪的学习者提交记录都存储在一个数据表中,学习者的分类仅仅依靠成绩是不够的,而且也是片面的,影响学习者做题的因素很多,所以对于学习者进行有效的分析至关重要,对于教学者也有很好的帮助,可以对于不同学习者采取不同的教育方式。

不同于以往仅仅按照成绩将学习者进行优良中差的分类,本文采取多个学习者特征,建立一个基于在线评测系统的学习者模型。克服了单一分类标准所得最终结果的片面化的弊端。

4学习者数据集的预处理

4.1数据集成

2011年以来,随着题目数量的增加,在教学方面,题目数据的涵盖的内容越丰富,越有利于学习者学习,从而才能更好地针对学习者的数据集进行分析。所以,本文选取2014级,2015级,2016级的学习者数据。

数据集成主要将很多数据的属性集合在一起,本文中主要将数据从数据库中导出,按照学号的特点,针对不同的年级,不同的专业,不同的班级,依次整理,下图是将2014级学习者的信息进行集成。

表2 2014级总提交记录

图中包括提交号,题号,用户,提交时间,用户IP,竞赛号,判题情况,代码长度,判题时间等,涵盖了学习者在本系统的所有属性。

4.2数据清理

数据清理试图填充缺失的值,光滑噪声并识别利群点,纠正图中數据的不一致性。去掉不合理的、异常的数据,比如只注册者、注册学号不合法、学习者补考数据、缺失数据等。

对于学习者数据中,一些重要的属性缺少属性值,对于本部分的空缺,可以使用数据清理技术来填充。填补缺失值补全主要有下面几个方法:

1)忽略缺失数据;

2)人工填写缺失值:此方式比较费时,数据量较小的情况下可以行得通;

3)使用均值填充;

4)使用最有可能的一个值进行填充:通过回归或者使用贝叶斯形式化的基于推理的工具或者决策树归纳确定。

本文中的数据清理,选取学习者参与度较高的十四次程序设计基础作业。

①因某种原因缺失作业较多学习者直接删除,只缺少两次甚至更少的学习者,通过其前几次作业的做题情况,使用第四种方式填充。此方式主要用于学习者的做题时间。包括平均做题时间和每次作业的第一次提交时间。

②非法用户、不按照学号形式注册一律删除。

③缺失值补全主要采用第四种方式进行填充。

④删除数据量过少的用户,比如只登录过几次,或者提交次数过少。

⑤偏差检测,发现噪声、离群点和需要考察的不寻常的数据。

通过数据清理,数据更加规范,合理。

4.3特征构造

特征之间存在较高的相关度,而且很多特征可以通过计算减少特征的个数。

在线评测系统中,与学习者相关的重要特征主要为:提交次数,正确提交次数,做题个数,正确率,做题时间(单位做题时间),作业提交首次时间平均值。

1)提交次数:选取学习者学年总的提交次数,通过统计每位学习者的提交的信息,包括其所有提交记录:错误次数、运行错误次数、正确次数、编译错误次数等

2)正确提交次数:每一级学习者正确提交的次数

3)正确率:提交正确的题目个数与提交的题目个数之比;

4)正确做题个数:选取程序设计基础课程十三次作业中,学习者总的完成题目个数。

5)单位做题时间:选取第i次作业中第一次提交时间与最后一次正确提交时间之差,与此次作业中完成的题目数之比。

6)作业首次提交时间与作业开始时间间隔平均值:计算所有作业首次正确提交时间与作业开始时间间隔的平均值。

4.4特征描述

数据处理完成后,对于评测系统中学习者的数据集的各个特征所代表的含义如下:

正确做题数目:代表了学习者在在线评测系统中的完成度。

登录次数:代表了学习者在在线评测系统中的参与度。

总提交次数:代表了学习者在在线评测系统中的尝试次数。

正确率:代表了学习者在在线评测系统中的通过率。

平均做题时间:代表了学习者在在线评测系统中的做题效率。

首次正确提交时间:代表了学习者在在线评测系统中的积极度。

5聚类分析

聚类分析仅根据在提交记录数据集中发现的描述学习者及其关系的信息,将学习者分组。其目标是,组内的学习者相互之间是相似的(相关的),而不同组中的学习者是不同的(不相关的)。组内的学习者相似性越大,不同学习者组间差别越大,聚类就越好。

5.1算法实现

根据本文研究数据,对个样本点进行一聚類,这里取n:

1)准备数据集,选取2014年学习者的数据集(处理完成);

2)随机选取个点作为数据集的聚类中心;

3)计算每个点到数据集聚类中心的距离,并聚类到离该点最近的聚类中去,此处距离采用欧式距离;

4)计算每个聚类中所有样本点的坐标平均值,并将这个平均值作为新的聚类中心;

5)重复3),计算每个点到聚类中心的距离,并聚类到离该点最近的聚类中去;

6)重复4),计算每个聚类中所有样本点的坐标平均值,并将这个平均值作为新的聚类中心。

5.2算法评估

聚类分析是无监督的,并不像有监督的算法可以有全面的评估函数,对于聚类结果的好坏,本文使用轮廓系数来评估聚类结果的好坏。此方式也较为通用。

轮廓系数的检验标准如下:

1)轮廓系数接近1,则说明样本x聚类合理;

2)轮廓系数接近-1,则说明样本x更应该分类到另外的簇;

3)若轮廓系数近似为0,则说明样本x在两个簇的边界上。

多次实验得出:当聚类个数取到5时,得到一个相对较好的聚类结果,所以本文选取聚类个数为5,即将学习者聚为5类。

5.3结果分析

通过选取的特征将学习者聚为5类,下面将详细分析各类的特点。

第一类,属于很积极的学习者,平均做题时间一般,努力型学习者。

第二类,很积极,平均做题时间快,聪明型学习者。但是一类二类学习者的通过率都很一般,详细分析得出结论:因为这两类学习者完成度高,由于做题数目很多,导致其通过率一般。

第三类,学习者表现最为不同,完成度低,但是通过率高,而且平均做题时间最快。对于此类学习者,进行了详细的分析。发现此类学习者存在作弊嫌疑,因为做题数目很少,正确率很高,但是发现他们的做题时间很快,深入分析发现他们每道题之间的间隔时间也很短。故此类学习者有作弊嫌疑。并且参考此类学习者,最终的成绩往往不及格,应该对此类学习者进行考前预警。

第四类和第五类可以对比说明,前者属于沉稳型,后者属于做题快而且通过率高,高效型学习者。

6总结与展望

根据上述分析,本文得出五类学习者之间的差异。并对每类进行了更加深人的分析,针对每类学习者的情况,教育者可以更深入地了解学习者。有助于帮助教育者对于每类学习者采取不同的教育策略。同时可以使学习者更好地了解自己,在平时的学习中得到及时的反馈。数据挖掘技术应用在教育环境中,并将挖掘出的知识反馈到教育环境中,促进了教育事业的发展。

信息时代,必将有更多的先进的技术应用到教育领域,通过分析教育数据,可以得到更多隐藏的信息,也势必得到更多有用的知识。从教育环境中挖掘知识,最终再反馈给教育环境,这样有效的循环,最终受益的还是学习者和教育者。

猜你喜欢
聚类分析学习者特征
你是哪种类型的学习者
如何表达“特征”
不忠诚的四个特征
抓住特征巧观察
汉语学习自主学习者特征初探
论远程学习者的归属感及其培养
线性代数的应用特征