K—means算法在计算机基础分层教学中的应用研究

2014-11-17 01:44刘明纲
新课程·中旬 2014年9期
关键词:数据挖掘分层教学聚类

摘 要:探讨了将K-means聚类算法应用于计算机基础课程分层教学学生入学基础测试成绩分析的过程中。针对K-means算法的特点,对收集的学生成绩参数进行设定,并做一定的规范处理,然后对数据进行预处理。最后,使用K-means算法,对学生计算机基础入学测试成绩进行层次划分类别分析评价。

关键词:K临近算法;数据挖掘;分层教学;聚类

一、数据挖掘概述

数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database,简称KDD),它是一个从大量不完全、有噪声的数据中抽取挖掘出未知的、潜在有价值的模式或规律等知识的复杂过程。

1.数据挖掘中的聚类算法

现在的聚类算法主要有:基于密度和层次方法、基于划分和模型方法等。

(1)基于密度的方法(Density-Based Methods)

基于密度的方法的重要特点在于:它的聚类准则不是基于距离的,而是基于密度的。通过这种方法能避免基于距离的算法只能发现“类圆形”聚类的缺点,并发现非“类圆形”的聚类结果。它的基本设计思想是:如果区域中的点的密度大于某个域值,那么就把这个样本加到与之相近的聚类中。其代表算法有OPTICS算法、DBSCAN算法、DENCLUE算法等。

(2)基于层次的方法(Hierarchical Methods)

这种方法就是把数据库划分成多个层次,直到满足某种条件为止。输出为层次化的分类树。自底向上的方法称为凝聚的方法,最初将每个数据对象作单独的一个组,然后合并相近的对象或组,直到所有的组合并为一个层次,或满足某个终止条件。自顶向下的方法又称为分裂的方法,最开始将所有的对象归到一个层次,然后进行迭代,通过迭代使一个类划分成更小的类。直到最终每个对象在单独的一个类中,或者达到一个终止条件。BIRCH算法、CURE算法、CHAMELEON算法等都属于基于层次的算法。

(3)基于划分的方法(Partitioning Methods)

划分法,即给定一个有N个元组或者记录的数据集,随机构造K个分组,每一个分组就代表一个聚簇,K

对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一组中的记录越近越好,而不同分组中的记录越远越好。使用这个基本思想的算法有:K均值算法、K中心点算法、CLARANS算法。

2.K临近算法

K-means算法是一种最经典,也是使用最广泛的聚类方法。K-means的基本思想是:对于一个聚类任务指明聚成几个类,然后随机选择K个聚类簇中心点,迭代计算下面的过程直到所有簇中心收敛为止:

STEP 1:对于每个对象,计算其与每个簇中心的相似度,把其归入与其最相似的那一个簇中。

STEP 2:更新簇中心,新的簇中心通过计算所有属于该簇的对象的平均值得到。

二、聚类算法的实施

算法的实施步骤大体分为数据集成、数据清理、数据转换、数据挖掘、知识获取等过程。

1.成绩数据的集成

数据集成的过程是对多个数据源进行科学的数据合并。本研究中我们对2013级学生计算机应用基础入学测试成绩数据,进行采集,数据来源于入学测试考试软件随机生成题库对学生参与考试得出的详细数据。

我们认为分层教学划分层次的依据不能单单以入学测试的总成绩为准,为了更加了解学生对各个需要掌握的基本知识所属章节知识的掌握情况,考试的基础数据还需要包含章节知识的得分率等数据内容。我们把主要数据放在学生成绩分析基础表里面。学生成绩基础表包含(学号、姓名、总成绩、计算机基础知识、计算机系统组成、字处理、演示文稿、电子表格、计算机网络、计算机安全、文字录入)等字段,别记录了学生的总成绩与各个章节内容的得分情况。

2.数据清理

数据清理主要是填补遗漏数据,在本研究中我们忽略学生姓名、考试时间等与数据分析无关的数据列成分。

3.数据的转换过程

数据转换的过程主要是为了对数据进行规范化的操作,对数据的格式进行统一规定,从而匹配数据挖掘算法。对学生成绩进行聚类分析的时候,学生各个章节的成绩和总成绩的数据类型都统一成数值类型。

4.算法结果分析

通过K-means算法的分析,我们得到的聚类1中成绩偏低的学生有25个,聚类2成绩较好的学生有38个,由此作为分层教学的分班依据。通过具体章节得分率的聚类选择,能更好得出学生掌握计算机基础知识的准确数据,如果单单以学生考试的总成绩来作为分层教学的依据,会造成分班的不合理。

本文探讨了K-means聚类算法,将此算法应用于计算机基础课程分层教学学生入学基础测试成绩分析中。首先在针对K-means算法的特点,对收集的学生成绩参数进行设定做一定的规范处理,然后对数据进行了预处理,然后使用K-means算法,对学生计算机基础入学测试成绩进行层次划分类别分析评价。针对不同类别的学生,实施分层教学,为实施好分层教学改革提供了数据和理论支持。

参考文献:

钟志贤,曹东云.基于信息技术的反思学习[J].远程教育,2004(4):7-10.

作者简介:刘明纲,性别,男,1978年10月出生,硕士,就职学校:成都市成都工业学院网络中心,研究方向:数据挖掘,数据库技术。

猜你喜欢
数据挖掘分层教学聚类
探讨人工智能与数据挖掘发展趋势
基于DBSACN聚类算法的XML文档聚类
基于并行计算的大数据挖掘在电网中的应用
基于高斯混合聚类的阵列干涉SAR三维成像
如何通过分层教学打造高中化学高效课堂
分层教学在高中数学中的研究
分层教学,兼顾全体
农村学校数学分层教学的实践策略
一种基于Hadoop的大数据挖掘云服务及应用
一种层次初始的聚类个数自适应的聚类方法研究