孙云帆
基于教育的数据挖掘应用研究是现今教育研究的重点与难点,这方面研究是将来自教育环境中独特的数据进行去噪与预测,并运用由此得来的有效方法来更好地掌握学生的性格与进行更有效的课程改革。数据挖掘就是从大量的、有噪的、没有规则的数据中提取有效的且对未来需要的数据预测的有用模式或知识。所以,将教育资源的庞大数据库中存储着庞大的、无序的数据通过不同的数据挖掘技术功能,即得到学校、教师等需要的有效教育教学数据、发现其中未知的数据以及这些数据之间的关系。利用基于教育的数据挖掘技术应用可以得到:有辍学倾向的学生或者因为其他原因辍学的学生,学生之间的融洽度,通过对入学考试的分析,预测学生的学习成绩、优劣点以及最终达到的认知水平,发现学生感兴趣与不感兴趣的学科,预测学生在学术上可能获得的成就,可以根据学生不同的学习风格利用计算机或者其他相关技术编程设计中对学生的表现进行分类,比较学校在教学和学生管理之间的相似性和差异。
关联规则的最终结果就是在庞大的数据库中找出一组或者几组数据之间关系的相似性。如果一组数据中大部分数据之间存在一定的关联关系,那么这个组中的其他数据就能通过关联规则预测到。发现关联规则的步骤:
1.搜索所有数据中的频繁项集。
2.由搜索得出的频繁项集生成尽可能相似的最小信任度阈值的分类规则。
图1是有原始数据通过关联规则挖掘,得出显示了生成的项集&频繁项集的最小支持度计算是2。
关联规则的支持度和信任度可以作为由用户设定初值后机器筛选数据的条件。信任度就是广泛待开发的原始数据库中蕴含的强度,即A中B%的拥有X元素且同时拥有N、M。若A的支持度是 support(N),规则的信任度为即为 support(N、M)/support(N),其实就是在 A 中的概率 P(N|M),即 confidence(N、M)=P(N|M)。用户规定的支持度的上下极值就是支持度阈值。图2是一个关于关联规则支持度和信任度的例子,如果赵、钱、孙、李、周拥有不同的物品,但是物品是彼此有联系的,通过关联规则可以得出:支持度发现了拥有面包的人一定拥有矿泉水;信任度发现了拥有方便面和矿泉水的大部分人拥有面包。
图1 显示了生成的项集&频繁项集的最小支持度计算是2
图2 关联规则信任度和支持度的案例
分类就是首先分析预先设定初值的数据,而后为每个类别设定分类模型,再对原始数据库中的其他数据进行分类。数据挖掘技术的分类技术在教育中的应用也被称为监督式学习,分类的步骤如下。
1.构建模型:最初需要设定数据样本或者条件。每个数据或者数据组样本都被认定为分类的条件。这些由用户设定的数据样本或者条件都会作为分类技术中试验数据。该模型通过数据挖掘中的分类规则、决策树或数学公式来表示。这个模型如图3所示。
图3 学习步骤与模型结构
2.使用模型:此步主要是使数据通过数据挖掘给定的分类模型后预测与发现未知的数据。模型主要是比较待开发的数据与分类设定的数据样本和条件相比得出数据,而后比较其与设定数据样本和条件的相似性。数据样本是单独的,反之将会增加数据分类的时间。这个模型如图4所示。
图4 模型使用(分类)
利用基于教育的数据挖掘应用技术,会预测学生的未来发展以及以后的成就。评判该技术得出的结果是否合理利用数据挖掘技术中的决策树规则。
3.预测。预测可以看成是预测未知的数据和缺失的值,就是应用于模型的连续价值函数。在这个模型中,可以得出一个数据组中的一些未知数据。基于教育的数据挖掘技术可以用来预测学生的行为以及预测学生的学习成果。如图5所示。
图5 预测与了解学生的学习成果
4.聚类分析。数据挖掘技术中的聚类分析在教育中被称为非监督式学习方法,主要是将大量无规则数据有关联的或者相似进行分组,每组之间的性质以及相似性基本一样,可以发现相对于该组数据中表现异常的数据。聚类分析和其分类如图6所示。
图6 聚类分析和其分类
在基于教育的数据挖掘技术应用中,聚类分析可以通过学生通常的一些习惯和做法对拥有相似特点的学生进行分类。如果需要区分相对性格活泼的学生中性格稍微内向或者过于活泼的学生,就可以利用聚类分析来得出。
日趋复杂的学生特点以及严峻的课程改革方案一直都是我国教育的一块难以根除的痢疾。本文通过研究数据挖掘技术以及教育的特点,利用数据挖掘在现在社会的成功案例证明了数据挖掘在教育中的应用是可行的,且可以优化现在课程改革的方法。本文叙述了通过对数据挖掘功能、数据挖掘技术的应用案例以及教育的特点分析,利用已有的教育资源以及对每个学生的了解情况,可以得到每个学生的学习特点或者是个性以及学生在学科学习中的普遍难易点,以此帮助学校或者教师更有效的对学生进行管理或者是学科改革。
[1]孙云帆,齐美玲.数据挖掘在教育应用中的浅析[J].北京:商场现代化,2012(8),693:161-162
[2]韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2007
[3]Behrouz.et.al.,(2003)Predicting Student Performance:An Application of Data Mining Methods with The Educational Web-Based System Lon-CAPA?2003 IEEE[J],Boulder,CO
[4]刘宇,王浒,李成名等.数据挖掘和知识发现的技术方法[J].北京:测绘科学,2000(4):36-39
[5]郭崇慧,田凤占.数据挖掘教程[M].北京:北京清华大学出版社,2005