数据挖掘在大学英语四级成绩预测中的应用研究

2018-11-26 09:33韩鲁峰
电脑知识与技术 2018年24期
关键词:数据挖掘预测

韩鲁峰

摘要:根据教育信息化建设的需要,为解决大学英语四级成绩管理只停留在数据的保存、查阅及简单统计阶段的问题,南京财经大学教务处结合工作实际,采用数据挖掘技术分类技术中经典算法之一的决策树算法对数据库中的海量数据进行分析,从众多影响因素中挖掘出影响大学英语四级成绩的主要因素,为学生英语四级成绩的提高和教育教学改革提供参考依据。

关键词:数据挖掘;英语四级;预测

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)24-0001-03

Abstract: In order to solve the problem that the management of CET-4 grades only stays at the stage of data preservation, reference and simple statistics, the academic Affairs Office of Nanjing University of Finance and Economics combines the actual work with the needs of the construction of educational informatization. The decision tree algorithm, one of the classical algorithms in data mining technology, is used to analyze the massive data in the database. To provide reference for the improvement of CET-4 grades and the reform of education and teaching.

Key words: data mining; CET-4; prediction

1 引言

随着我国高等教育从“精英化”到“大众化”的转变,毕业生人数按照2%-5%的同比增长率逐年增长,2018年全国高校毕业生预计上升至820万人,再创近10年毕业生人数新高值。与大规模的毕业生人数息息相关的即是就业情况,而跟就业相关的,除了学生的个人能力,就是学生的各项成绩了。大学英语四级成绩目前还是许多高校学位授予的约束条件之一,也是众多公司招聘的门槛之一。通过大学英语四级成绩预测,可以对学生考试成绩进行合理化评估,避免不良后果,这是一种新的、有别于以往的、有益的尝试。可以有针对性地向成绩高危的学生进行成绩预警,进而提高考试通过率。帮助学生顺利地拿到学位,顺利的迈过招聘的门槛。

2 数据挖掘

2.1数据挖掘概念

数据挖掘能够从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,满足大数据时代的数据整合、分析需求,为决策提供支持与服务[1]。将数据挖掘方法应用于教育领域,可以对来自教育系统的大量数据进行挖掘分析,得出内含其中的、有价值的信息和知识,这些信息和知识不仅可以服务于教师、学生和教育领域的研究者们,还可以服务于系统管理者和软件开发者[2]。

2.2決策树算法

决策树算法是数据挖掘技术中分类技术的经典算法之一,可以完成对挖掘目标有明确分类的课程成绩的预测。决策树算法作为一种分类算法,目标就是将具有p维特征的n个样本分到c个类别中去。相当于做一个投影,c=f(n),将样本经过一种变换赋予一种类别标签[3]。

本文采用C4.5算法对数据进行分析,C4.5算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和优化。通过C4.5算法构造决策树时,信息增益率最大的属性即为当前节点的分裂属性,随着递归计算,被计算的属性的信息增益率会变得越来越小,到后期则选择相对比较大的信息增益率的属性作为分裂属性[4]。

3 C4.5算法在大学生英语四级成绩预测中的应用

数据挖掘处理的是海量数据,这些数据一般存储在数据库系统中,是长期积累的结果,但往往不适合直接挖掘,需要做数据的预处理工作,此工作准备是否充分,对于挖掘算法的效率以及正确性都有关键性的影响[5]。

3.1数据预处理

影响学生英语四级成绩的因素有很多,在现有研究的基础上,本文选取四个关键因素作为研究对象,并选取我校2018届3965名学生信息作为研究数据集。得到数据表(表1)如下:

为了便于分类研究,采用属性槪化的方法对表1中的数据进行预处理。其中,生源类别属性按行政级别槪化为农村往届A1、农村应届A2、城市往届A3、城市应届A4 4类。类似的,四级成绩属性,槪化为未通过四级B1,通过四级B2。性别属性,槪化为男 1、女0。

连续型属性槪化为区间值:由于在建立决策树时,用离散型数据进行处理速度最快,因此应对连续型数值进行离散化处理。对高考英语成绩(GKCJ)属性,按超过及格分数线(JGX)分数,槪化为不及格(GKCJ-JGX<0),中(0≤GKCJ-JGX<10),良(10≤GKCJ-JGX<20),优(20≤GKCJ-JGX)。对大学英语成绩(YYCJ)属性,按超过及格分数线(JGX)分数,槪化为不及格(YYCJ-JGX<0),中(0≤YYCJ-JGX<10),良(10≤YYCJ-JGX<20),优(20≤YYCJ-JGX)。

对数据进行预处理后将得到表(表2)如下:

3.3规则提取

决策树生成后,遍历形成的决策树,从根到叶就发现若干条路径,每一条路径对应一条规则,整棵树就形成了一组表达式规则,然后详审规则集去发现最有用的子集,最后的规则集可存储在一个文件中[6]。

从直接生成的决策树种提取的分类规则多达326条,部分规则如下:

规则1

IF:大学英语成绩=优

AND:高考英语成绩=良

AND:生源地区=A4

AND:性别=0

THEN:四级成绩=B3

规则2

IF:大学英语成绩=良

AND:高考英语成绩=中

AND:生源地区=A4

AND:性别=0

THEN:四级成绩=B3

规则3

IF:大学英语成绩=良

AND:高考英语成绩=良

AND:生源地区=A3

AND:性别=1

THEN:四级成绩=B2

规则4

IF:大学英语成绩=中

AND:高考英语成绩=良

AND:生源地区=A2

AND:性别=0

THEN:四级成绩=B3

规则5

IF:大学英语成绩=不及格

AND:高考英语成绩=中

AND:生源地区=A2

AND:性别=0

THEN:四级成绩=B1

规则6

IF:大学英语成绩=中

AND:高考英语成绩=中

AND:生源地区=A3

AND:性别=1

THEN:四级成绩=B1

3.4规则解读

通过分析规则可以得出:大学英语成绩对四级成绩影响最大,起决定性作用。在非成绩影响因素中,性别因素对四级成绩影响最大,女生的通过率为75.4%,明显高于男生的通过率40.3%。当然,由于选取数据的学校为文科院校,女生比例较高,可能对最终的结论有一定的影响,后期可以选取综合性高校进行分析,提出更有利的提高教学效率的方法。

4 结语

随着大数据时代的到来,数据挖掘正在往各个行业渗透,数据挖掘技术正在改变我们的生活,合理的利用数据挖掘技术不仅能提高效率还能有效的规避风险。本文选用数据挖掘技术中的决策树算法对大学英语四级成绩进行分析和预测,将数据挖掘技术应用于教育教学管理中,为提高学生的四级成绩提供了参考方法,为教育改革提供了参考方向。

参考文献:

[1]崔仁染.数据挖掘在学生专业成绩预测上的应用[J].软件,2016(1):24-27.

[2]李文峰, 黃席樾.C4.5算法在国防生素质分析中的应用[J].自动化技术及应用,2007(7):36-39.

[3]何迪.面向大数据分析的决策树算法[J].信息系统工程,2017(7):161.

[4]董跃华,刘力.基于相关系数的决策树优化算法[J].计算机工程与科学,2015(9):1783-1793.

[5] 王士虎,吕纪荣,冯波.基于数据挖掘的英语四级成绩分析与预测[J].电脑知识与技术,2014(3):452-454.

[6]黄振功.基于决策树的高校计算机等级考试成绩预测分析研究[D].硕士论文,广西大学,2013.

【通联编辑:王力】

猜你喜欢
数据挖掘预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
不可预测
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究