教育数据挖掘技术在高校课程建设中的应用研究

2018-01-29 06:43吴文玲顾倩颐
中国信息技术教育 2018年2期
关键词:Apriori算法关联规则

吴文玲 顾倩颐

摘要:通识教育课程和学科基础课程是学生进入大学后最先接触到的课程,教师和学生如果能发现这两类课程之间的关联性,就可以利用规则更科学有效地指导后面专业课程的学习。本文主要运用教育数据挖掘技术中的关联规则方法,借助Weka平台中的Apriori算法,探寻通识教育课程和学科基础课程之间的关联规则,从而改善教师的教学效果以及学生的学习效果,为高校课程建设提供决策和意见,进一步提高学校的教学质量。

关键词:课程成绩;关联规则;Apriori算法;Weka

中图分类号:G40-057 文献标识码:A 论文编号:1674-2117(2018)02-0092-06

引言

随着高校教育信息化的推进,高校各教育系统中的数据日益增加,但大多数学校对这些数据的利用仍停留在简单的数据查询、增加、删除、修改等状态,并没有意识到大量数据背后隐藏的信息价值。其实,这些数据潜在的规律不仅能为教学决策提供科学的依据,还能给学生的学习提供针对性指导。

教育数据挖掘技术在这样的背景下应运而生,并在高校的教学和科研领域内应用广泛。以教务系统的成绩数据为例,管理人员很难直接根据学生表面的成绩数据找出先行课程和后续课程之间的关系,也很难利用这些数据进行教学规划和教学决策,学生也不能直接根据这些数据进行合理的选课或者掌握自己的学习规律。因此,笔者借助数据挖掘技术,基于现有的大量学生成绩数据进行教育数据挖掘[1],发现数据之间隐藏的课程关联规律,以期提高课程管理水平、教学水平以及学生的学习能力,并为科学决策提供科学依据。

就目前各高校的课程设置来看,大多数学校都是按照普通课程(通识课程或基础课程)、专业课程和选修课程[2]来安排知识板块。但学生在学习时往往过分注重专业课的学习,而忽略通识课程的学习,没有注重每个板块间知识的相互联系。在本文中,笔者主要通过数据挖掘的关联规则方法,对某本科高校教育技术学专业的历届学生的通识教育课程成绩和学科基础课程成绩进行关联规则分析,找到各门课程之间的依赖和联系,这样有助于高校进行有效的课程建设,包括课程师资和学时安排、课程开设情况及课程顺序安排等,也可以为学生更好地学习提供针对性指导。

教育数据挖掘技术

1.教育数据挖掘

一般来说,教育数据挖掘是指应用数据挖掘技术从来自教育系统中的数据中提取有意义的过程,用于指导和改善学习,提高教学质量。[3]本研究主要采用数据挖掘技术中的关联规则技术,用于找到课程之间的关联性。

2.关联规则技术

关联规则的是从大量数据中挖掘出满足用户设置的最小支持度(min-support)和最小置信度(min-confidence)的规则。其中支持度(support)是指关联规则能够正确预测的实例数量,也称为覆盖量(coverage),所以在统计意义上的支持度也就是所需要覆盖事件样本的数量下限。而置信度(confidence)则是指关联规则能正确预测的实例数在关联规则所涉及的全部实例中所占据的比例,也称为正确率(accuracy),它表明了规则用于推理的强度。[4]例如,在200条学生成绩数据中,有80条显示《计算机基础》成绩為优,在这80条记录中,又有40条《教育技术导论》成绩为优,则关联规则《计算机基础》(优秀)《教育技术导论》(优秀),支持度(support)=40÷200=0.2,置信度(confidence)=40÷80=0.5。

Apriori算法是一种关联规则算法,它系统地控制了候选项集的指数增长。该算法的过程主要由两个步骤来完成:①扫描事务数据库依次生成满足最小支持度的频繁项集(包括单项集、二项集、三项集等);②从每个项集中找到达到指定最小置信度的规则,也就是产生强关联规则。

3.数据挖掘平台Weka

数据挖掘有很多软件,常用的有SPSS公司的Clementine以及新西兰怀卡托大学开发的Weka开源软件,前者测重统计分析,后者主要是用Java编写的开源的非商业的数据挖掘软件。笔者选择了Weka开源软件,它不仅包含了许多数据预处理的方法,还提供了大量的数据挖掘方法,如决策树、关联规则、聚类等,还有着许多数据可视化的工具。

Weka支持多种数据格式文件,主要包括Weka ARFF格式、C4.5数据格式、CSV格式等,所以如果是.xls的数据格式,可以先另存为.csv格式,再通过Weka软件读取数据文件。

课程相关数据

1.数据准备

为了挖掘出课程之间有价值的关联规则,本研究选取了某高校教育技术学专业的12级、13级、14级学生在校的学习成绩作为数据源,该成绩库主要包含了学生的基本信息(学号、学院、班级、专业等)、课程的基本属性(课程代码、名称、学分、任课教师等)、学生的学习状况(补考、重修、缓考等状态)以及大学四年各课程的学习成绩。由于本研究主要挖掘通识课程与学生专业基础课程的关联规则,所以最终选取了《大学语文》《大学英语》《思想道德修养与法律基础》《教育技术学导论》《计算机应用基础》《大学数学(二)》等15门具有代表性的课程,总共182名学生,2730条数据。根据挖掘出的有意义的关联规则,对学校的课程设置进行优化,对学生的知识学习进行补充。

2.数据预处理

从教务处导出的数据不能直接用于数据分析,它既不符合关联规则算法对数据的要求,又存在数据冗余等问题,具体数据如表1所示。所以必须要经过数据预处理阶段,把纵向结构的成绩数据库转换为Apriori算法常用的横向结构,并对数据进行选择、清洗、转换等。

(1)数据选择

由于本研究的重点在于寻找通识教育课程和学科基础课程之间的关联性,所以在成绩库中只选择了这15门课程的成绩,删除了无关的属性。对于同一门课程由于补考或重修存在多个成绩的情况,笔者选取学生第一次考试的成绩,删除转专业或降级学生的数据,从而解决了数据源的重复、杂乱、不完整等问题。endprint

(2)数据清洗

数据清洗的主要目的是填补数据的缺失值,本研究对成绩缺失过多的学生的数据直接删除,对于个别成绩的空缺值,采用临近点的线性趋势方法来填补。

(3)数据集成

在选择的数据中,由于《大学英语》分为A、B、C三等,每个等级的学生修习的时间长短不一致,其中A班学生英语修习两个学期,B班学生英语修习三个学期,C班学生英语修习四个学期,所以最终选择英语的平均成绩作为其《大学英语》课程的成绩。《体育》课程也分为四个学期,也取其平均值作为《体育》课程的成绩,其他的依此类推。最后,把多个数据源集中放在一个数据表中,形成新的数据挖掘的数据源,集成后的数据如表2所示。

(4)数据转换

集成后的数据还不能直接用于关联规则分析,还需要转换为数据挖掘软件Weka所支持的文件格式,数据转换既包括数据的离散化处理,又包括数据格式的转化。

由于课程性质不同,课程的考核方式也不一样,成绩评定的标准也有所差别,有的成绩采用百分制,有的成绩采用等级制(优、良、中、及格、不及格)。对于等级制的成绩,先转换为百分制成绩(有个别课程还需要取其平均值),即成绩≥90为优,80≤成绩<90为良,70≤成绩<80为中,60≤成绩<70为及格,成绩<60为不及格。对于百分制成绩,首先,为了消除不同课程之间的打分差别,就需要先把成绩标准化处理[5],标准化处理后的数据服从标准正态分布,这样的处理方法无论考生的成绩是否出现普遍偏高或偏低,都会保证每个等级的划分是合理、科学的,具体如公式(1)所示。

标准分成绩=(每位考生的成绩-对应课程成绩的平均分)÷该课程成绩的标准方差 公式(1)

然后,再把Excel中数据文件另存为CSV格式,并通过Weka软件中的“Tools”菜单栏下的“ARFF-Viewer”工具,把CSV格式的数据转换为ARFF格式的数据文件。最后,Weka中提供了很多数据预处理方法,本研究根据成绩数据的特点,选择了无监督的数值标准化方法,具体过程通过“Weka—Filters—unsupervised—attribute—Standardizes”來完成,标准化后的成绩如图1所示。

根据标准化后的成绩符合正态分布的“两头小,中间大”类似于“钟行”的特点,把各课程成绩按照比例进行离散,其中A(优)占10%,B(良)占40%,C(中)占40%,D(差)占10%。[6]离散化后的成绩如图2所示。

关联规则在大学课程中的应用

1.建立关联规则挖掘模型

经过预处理后的数据,就可以直接用于关联规则分析。将最终的数据源导入到Weka中,选择“Associate”工具面板,然后通过“Choose”选项,选择Apriori算法,并对算法设置相应的参数。为了不丢失有价值的规则,又为了避免产生偶然的规则,经过多次试验,最终设置最小支持度为0.22,最小置信度为0.54,最终的参数设置如下页图3所示。

参数设置好后,直接点击“Start”按钮,就可以进行关联规则分析。在本研究设置的最小支持度和最小置信度下,最终产生了42条关联规则,其中部分规则如图4所示。

上面挖掘出的规则并不是每一条都对本研究有现实意义。例如,某一课程的学习效果好反而导致另一课程学习效果不好,以及本研究侧重研究通识教育课程与学科基础课的相互影响,所以还需要对规则进行进一步的筛选和整理,得到最后的挖掘结果。

2.实验结果分析

通过对整理后的规则进行分析,可以得到三类规则:一是通识教育课程之间的关联规则,这类规则主要揭示了通识课程内各门课程之间的相互影响;二是学科基础课程之间的关联规则,这类规则主要是学科基础课程内部其他课程之间的相互影响;三是通识教育课程和学科基础课程之间相互影响的规则,这类规则体现了不同类型课程间的相互影响。

然而,学生在学习的时候往往只会注意同一类型课程内部的相互影响,不会关注不同类型课程间的相互影响。尤其是在大学的课程学习中,通识教育课程更不容易引起学生的注意,很多学生只把大量的时间花在了学科专业课程的学习上,认为通识教育课程的开设只是为了修满学分,但通过此次关联规则分析,不仅得到了同一类型课程内之间的联系,还得到了不同类型课程间的关系,所以学生在学习课程的时候,不仅要注意同一类别课程间的横向关联,还要注意不同类别课程间的纵向关联。分析上述关联规则,最终得到具体结果如下:

①通过分析通识教育课程之间的规则,可以得到《思想道德修养与法律基础》《马克思主义基本原理》《大学语文》《毛泽东思想概论》《信息检索》《形势与政策》这六门课程之间的关联性较大,在《思想道德修养与法律基础》课程学习效果不理想的学生中,59%的学生《马克思主义基本原理》课程的学习效果也可能不理想,而《马克思主义基本原理》的成绩又影响着《形势与政策》课程的成绩,《形势与政策》的成绩还受《信息检索》成绩的影响。

②通过分析学科基础课程之间的规则,可以得到《程序设计基础》不仅要受《大学数学(二)1》《大学数学(二)2》课程学习效果的影响,还要受《电脑美术》成绩的影响,而数学类课程《大学数学(二)1》和《大学数学(二)2》也相互影响。

③通过分析通识教育课程与学科基础课程之间的规则,可以得到《教育技术导论》课程成绩与《大学语文》和《大学英语》的成绩都相关,其中《大学语文》课程学习效果好的学生,有58%的可能性专业课程《教育技术导论》的学习效果也不错。同时,《计算机应用基础》课程的成绩也对《马克思主义基本原理》和《思想道德修养与法律基础》的成绩有着很大的影响。

3.对课程建设的建议

通过对挖掘出的关联规则进行进一步解释和分析,可以得到以下有助于教与学的结论:endprint

①通识教育课程和学科基础课程之间有很大的关联,所以学生在课程学习的时候不应该只为了修满学分,而忽视了通识教育课程的作用。教师在教学时也应该注意这类课程对后面专业课程学习的影响。

②学生在学习大学课程时,不应该只关注专业课程的学习效果,而应该纵向关注不同课程间的相互影响。例如,在刚开始学习大学课程时,学生就要先在某些通识教育课程中花足够的时间和精力,达到较好的学习效果,才可能真正地为专业基础课学习夯实基础。

③对学科专业课程有影响的通识教育课程,学校可以加强该通识课程的教学,如适当增加学时,或者安排经验丰富的教师担任此课程,同时注意课堂的管理以及学生兴趣度的调动,让学生真正学到知识。

④某些学科基础课程的学习成绩也会影响到大二的通识教育课程的成绩,所以对于前期课程学习效果不好的学生,更要利用课程间的相互影响来有针对性地弥补缺漏的知识,否则就可能造成后面的课程的学习效果也不理想甚至不及格。

⑤教师在教学时,也可以多注意同类课程内和不同类别课程间的相互影响,多留意学生在其他课程的学习状态,然后对不同学生进行有针对性的指导。

总结

本文主要运用关联规则中经典的Apriori算法,借助Weka数据挖掘平台,对某本科高校的学生实际学习成绩数据进行挖掘,旨在发现看似没有关联的通识教育课和学科基础课程之间的关系,然后把这些规则用于指导学生的学习以及教师的教学。笔者通过分析这些关联规则,最终得到通识教育课程和学科基础课程有较强的关联性。所以学生在学习的时候不仅要注意同类别课程内横向的关联性,还要注意不同类别课程间的纵向关联性,同时要改变通识课程不重要的学习思想;教师在教学过程中也要较好的地把握与本课程相关的其他课程的学习情况,才能更好地指导学生学习;学校管理者也可以进一步利用这些规则,用于指导学生选课以及学校的课程设置安排等,从而进一步提高教学质量,让学生全面发展。

参考文献:

[1]Bokde D,Girase S,Mukhopadhyay D.Matrix Factorization Model in Collaborative Filtering Algorithms:A Survey[J].Procedia Computer Science,2015,49:136-146.

[2]张忠华.关于大学课程设置的三个问题[J].大学教育科学,2011(06):30-34.

[3]李婷,傅鋼善.国内外教育数据挖掘研究现状及趋势分析[J].现代教育技术,2010,20(10):21-25.

[4](新西兰)Ian H. Witten,(新西兰)Eibe Frank(原书第2版).数据挖掘:实用机器学习技术[M].董琳,等.译.北京:机械工业出版社,2006.

[5]姜侠,杜宝军.统计学主要课程相关性分析[J].数学教学研究,2012(12):66-68.

[6]姜晚云.关联规则在学生成绩管理中的应用研究[D].合肥:合肥工业大学,2006.

作者简介:吴文玲(1994—),女,四川南充人,四川师范大学计算机科学学院硕士研究生,研究方向为教育数据挖掘和智能教学系统;顾倩颐(1977—),男,四川成都人,博士,四川师范大学计算机科学学院副教授、硕士生导师,研究方向为人工智能和知识工程。endprint

猜你喜欢
Apriori算法关联规则
基于Hadoop平台的并行DHP数据分析方法
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于云平台MapReduce的Apriori算法研究
基于关联规则和时间阈值算法的5G基站部署研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于RFID的汽车零件销售策略支持模型
关联规则在高校评教系统中的应用