基于数据挖掘的网络教育学习成绩细分预测的研究与实现

2017-06-08 19:28孙力张凯丁波

中国远程教育 2016年12期

孙力　张凯　丁波

[摘要]

当前，各类网络教育管理和学习系统日渐完善，网络学习形成性评价系统正在促使网上学习行为的真实发生。学生通过网上学习，在各类管理和学习系统中产生了许多有用的信息和数据。以SPSS的Clementine 12.0为实验环境，通过对网络学历教育本科学生英语相关课程成绩及学习信息的分析，实现了对成人学位英语考试成绩的细分预测。首先，运用数据聚类的K-means算法，对已有学生学位英语考试的成绩确定了较为具体的分数分布区间；然后，采用数据分类中的C5.0算法，以该分数区间为预测目标，构建了成绩的细分预测规则；最后，实现了成人学位英语考试的成绩细分预测系统。对成绩预测相关变量的重要性进行了分析，提出了提高网络教育本科学牛英语学习水半和成人学位英语考试成绩的相应策略。

[关键词]

网络教育；数据挖掘；成人学位英语；细分预测规则；细分预测系统

随着大数据时代的到来，数据挖掘技术越来越多地被运用到各行各业中，以实现对行业未来的各类预测，并作为实现行业优化决策的依据。教育大数据和教育数据挖掘在互联网、教育云计算、移动设备、人工智能等技术的高速发展下，迅速成为教育领域的热门话题。我国从1999年开展现代远程教育试点工作以来，经过16年的发展，各类网络教育学习和管理系统日渐完善。尤其是近几年，随着各试点高校形成性评价措施的推行，在网络教育的各类学习和管理系统中产生和保存了大量学生在线学习的过程性数据，包括学生的基础信息、各门课程的平时在线学习情况、过程性评价成绩和最终考试成绩。学生平时在线学习情况包括在线学习的次数和每次学习的时间长度、学习内容、参与在线互动交流的记录等；过程性评价成绩包括在线作业、即时测验的得分、互动讨论中教师和同学的评价等。目前，这些数据仅是作为学生的电子学习档案存在于各数据库中，并未通过合适的数据分析技术对各类数据之间的内在联系和隐含的学习规律做进一步研究并加以运用。如能运用教育领域的数据分析方法，即教育数据挖掘技术，通过对已参加某门课程学习并已有考核结果的学生个人基本信息、网络学习行为信息、相关前置课程成绩等进行分析，建立与课程最终考核结果的关联模型，实现对未参加该课程考核学生的成绩预测，将会给运用个性化的学习支持服务技术支持学生提高学习效果和课程考核成绩提供有力的决策依据等（祝智庭，等，2013；Harikumar，2014）。

实现学位英语考试成绩预测，我们将其定义为学习成绩的细分预测，即依据学生相关的学习数据，预测学位英语考试成绩具体的分数范围。本文先通过数据挖掘技术中的聚类方法，对已有的学生学位英语考试成绩分布进行归类，找出其符合聚类条件且同时也符合实际预测目标要求的分数范围。然后，将其作为分类目标，通过数据挖掘技术中的分类方法，构建学生参加学位英语考试的成绩细分预测规则。最后，实现了成人学位英语考试的预测系统。

一、预测需求分析及实现技术

教育数据挖掘是数据挖掘技术在教育领域的具体应用。预测、聚类、关系挖掘、模型构建等方法则是教育数据挖掘技术常用的方法（顾小清，等，2010）。应用数据挖掘方法从各类教育系统积累的数据中提取有意义的信息和规则，可以为教师、学生、管理人员、教育研究人员和教育软件开发者等提供教学决策、教学质量控制和软件开发需求等相关依据。Baker（2014）提出了四个教育数据挖掘的关键应用：改善学生模型，改善领域模型，研究教学、学习支持软件，以及科学探究学习者及其学习。教育数据挖掘与普通的数据挖掘过程一样，包括数据预处理、规则构建和数据归类三个阶段。数据聚类和分类是应用最广的两大数据归类规则构建技术。数据分类适合已有明确类别目标的场合；数据聚类适合不存在分类体系或类别目标不确定的场合，一般作为某些应用的前端（Kantardzic，2011）。

（一）预测需求分析

对于参加网络教育中本科学历教育的学生而言，部分公共课程统考中的英语考试和成人学位英语考试是学生英语学习中最重要的两门考试。通过英语统考是网络教育本科层次学生毕业所必须具备的条件，而通过成人学位英语考试是学生获得成人学士学位的必备条件之一。同时，按教育部相关文件规定，成人学位英语考试合格可以获得英语统考的免考资格。

网络教育公共课程英语统考的成绩仅分为“合格”与“不合格”，从数据分析的角度看，这很明显是数据挖掘中的数据分类问题，分类的目标就是两个（孙力，等，2015）。而成人学位英语考试是公布具体成绩的，按照每个高校的成人学士学位授予条例，对不同专业类别的学生，有不同的成绩要求。以江南大学为例，网络教育本科学生参加江苏省成人学位英语考试，合格成绩要求为：艺术类专业55分，普通理工、文史、经管类专业60分，英语类（含国际贸易）专业70分。从数据分析的角度来看，虽然也可归类为数据分类问题，但分类的目标更加细化，且如何确定分类的目标须通过其他数据分析技术实现。

本研究通过采集网络教育本科层次学生的个人信息和在网络学习平台中与英语学习相关的数据，采用教育数据挖掘技术，对已有学位英语考试成绩学生的网络学习及其相关信息进行分析，以学生相关信息为变量，以学位考试成绩为目标，建立符合变量和目标之间关系的预测规则。通过规则实现对未参加考试学生的成绩分布区间预测。

由于已有学生的学位英语成绩集合是一个无序的数值分布，先采用数据聚类中的划分方法来找出其合理的成绩分布区间（Stegers-Jager et al，2015），即确定预测目标。然后，将其作为数据分类的目标，依据學生与学位英语相关的各类信息，通过基于决策树的数据分类方法，将其考试成绩的预测结果归类到相应的成绩区间中，实现预测规则。

（二）预测实现技术

1.预测目标确定

数据聚类就是根据某种相似性准则将数据或对象的集合划分成不同的类簇，同一类簇的数据尽可能相似，而不同类簇的数据差异性最大。聚类无先验知识可循，是一种无指导的学习（孙吉贵，等，2008），主要分为划分的方法、层次的方法、基于密度的方法和基于网格的方法等。

对于数值属性的对象，目前最常用的是划分的方法。划分的方法形成聚类结果的依据是数据对象之间的距离。在给定聚类数目k的前提下，先选取k个对象作为聚类中心点，创建一个最初的划分，然后采用多次重新定位方法，通过对象在各个类别之间的移动来改进划分的效果，直至达到最佳划分为止。

K-means算法是一种典型的基于划分的聚类算法，通过不断地迭代使得同一类簇中的对象间的距离最小，即相似性最大，非同一类簇中的对象间的距离最大，即相似性最小，直到所有的类簇可以达到独立紧凑的目标就终止迭代，从而得出最终聚类结果（黄韬，等，2011），是当前应用最广的聚类方法之一。

由于无法预知已有学生学位英语成绩的分布区间个数，而采用不需预先确定聚类个数的聚类算法（如Two-step算法）效果不理想（AI-Shammari，2013）。考虑到算法和实现环境的成熟性，本文采用K-means算法作为数据聚类的方法，预先设定聚类个数，逐个试验，直至同时满足聚类数最小和聚类结果符合学位条例规定的成绩区间两个要求。

2.预测规则构建

数据分类的目的是通过分类规则将数据映射到某个给定的类别中，一般分为两步：在获得明确分类目标的前提下，首先通过分析样本数据集为每个目标类别确定分类规则或描述，称为学习或训练过程；然后对这些分类规则通过更大量的测试数据集进行测试，优化并生成更恰当的分类规则，最终形成数据分类（陈文伟，等，2004）。主要的数据分类方法包括基于决策树的方法、基于统计的方法、基于规则的方法、基于元算法的方法和懶惰学习方法等。

对于属性为普通数值的数据而言，最常用的分类方法是基于决策树的方法。通过已知的训练数据集构建一种具有多层次分支和多层次节点的树形数据结构（即决策树），然后利用决策树对数据进行预测。决策树的建立可以看作是数据规则生成的过程。

针对决策树方法中经典的ID3算法不能对连续值和离散值同时处理的弱点，C4.5算法作了非常有效的改进，正逐渐替代ID3算法，成为决策树方法中应用最广的算法。C5 0算法是C4 5算法的商业修订版，计算速度较快，占用的内存资源较少，适用于处理大数据集。考虑到算法和实现环境的成熟性，采用基于决策树的分类方法中的C5.0算法。

二、学位英语成绩预测规则构建的实现

本文运用教育数据挖掘中的聚类和分类技术，构建网络教育本科学生学位英语成绩的细分预测规则。实现过程历经数据准备、预测目标（即成绩细分区间的确定）和预测规则构建及优化三个阶段，每个阶段又包含若干数据处理步骤（如图1所示）。由于所构建的预测规则将应用于江南大学网络教育本科层次的学生，所需的实验数据来自于江南大学网络教育的教学管理系统和学习系统所关联的各数据库。选用的预测规则构建环境是SPSS的Clementine 12.0。

（一）数据准备

数据准备的主要任务是根据数据挖掘目标，对相关的原始数据进行相应的预处理，在数据挖掘开始前对数据源进行审核和判断。高质量的数据是数据分析的前提和分析结论可靠性的保障。几乎所有数据挖掘算法只对符合要求的数据才能精准处理，如低冗余性、完整性好和各变量间相关性少的数据等。

江南大学网络教育数据库中存储着超过十万名在籍和已毕业学生的相关数据。其中，本科层次学生超过五万名。这些数据包括学号、姓名、性别、入学年龄和所属专业，入学测试各门课程成绩和所学各门课程成绩，学生登录平台后的访问时间、访问频率、访问资源类型、参加论坛情况和停留的时间，等等。

我们已经实现了对江南大学网络教育本科层次学生部分公共课程统考中英语统考成绩的预测（孙力，等，2015）。由于学位英语考试与英语统考一样，都是属于水平化的英语考试，只是考试形式有所不同。学位英语考试是传统的试卷笔试形式，而英语统考是基于局域网的计算机机考形式。我们认为，通过英语统考成绩预测研究确定的各个变量，对学位英语成绩预测依然是有效的，只是应该考虑到不同考试形式所涉及的不同变量。

通过对学生相关数据具体情况的分析，我们从江南大学网络教育相关数据库中提取已有学位英语成绩的本科学生的相关数据，包括在籍和近年来已毕业的学生。参考英语统考预测的有效变量，考虑到笔试与机考考试形式的不同，我们仅保留了“学号”“入学年龄”“在线学习情况”“入学测试英语”“入学测试计算机”“大学英语二”“大学英语三”“所学课程平均”“统考大学英语”“学位英语”10个变量。其中，“在线学习情况”的数据是将江南大学网络教育的形成性评价系统中对学生各类在线学习活动评分的总和，以200分为满分，进行标准化处理得到的。这种数据处理方式既考虑到了学生在线学习的整体情况，又可保证分值不至于太大，也保留了一定的分值差距空间。

在去除异常无效和变量值为“0”的记录后，我们保留了8，000条相关记录，以Excel数据表格形式保存为“江大网络.xls”，作为决策树构建的训练和测试数据源。该数据表除保留“学号”和“学位英语”变量，删除其他所有变量，保存为“学位英语.xls”，作为预测目标确定的数据源。

（二）预测目标确定

本文以“学位英语xls”为数据源，在Clemen-tine12.0中选用K-means算法来获取学位英语预测的成绩细分区间。

由于学位英语成绩以百分制记，数值较为零散，为了获得较好的聚类效果，对成绩进行简化处理。考虑到江南大学网络教育学位条例中的分数条件都是5的倍数，我们设定简化方式为：简化分数=round（学位英语成绩/5），其中round函数是Clementine自带的取整函数。在Clementine12，0可视化界面中，通过数据源建立、数据关联、数据简化、关联简化数据和数据聚类5个步骤，依据预先设定的聚类个数，建立了基于K-mean算法的聚类模型。

依据成绩划分等级最基本的原则，一般划分最粗的等级为优、良、合格与不合格四级。因此，我们设定聚类数从4开始，逐个增加，依次设置聚类数为4、5、6、7、8、9，分别获得聚类模型“成绩聚类1”“成绩聚类2”“成绩聚类3”“成绩聚类4”“成绩聚类5”和“成绩聚类6”（如表1所示）。各简化分数根据公式转换后对应的实际分数段如表2所示。

通过比较表1中6次聚类的结果可以看出，“成绩聚类4”所得到的7个分数段包含了学校学位条例所规定的各个分数条件，分数段间特征区分明显，符合我们对分数范围的期望。聚类数小于7的，聚类结果无法满足学位条例要求；大于7的，尽管聚类结果符合要求，但会由于设定的分类目标过多而导致形成的分类决策树过于复杂。因此，我们将成绩预测的细分区间确定为7类，分别用“一”“二”“三”“四”“五”“六”“七”表示（如表3所示）。“成绩聚类4”的建模流程和聚类结果如图2和图3所示。

（三）预测规则构建及优化

在确定了学位英语预测的成绩细分区间后，以“江大网络.xls”为数据源，通过C5.0算法来实现学位英语成绩细分预测规则的构建及优化。

由于在Clementine12.0中对于数据分类目标的认定以文本变量为主，首先将“江大网络.xls”中“学位英语”变量的百分制转换为相应的细分区间代码。通过数据源建立、数据关联、选择训练数据、算法选择和规则建立5个步骤，建立了基于C5.0算法的预测规则。通过Clementine12.0内含的建模分析和测试功能，获得所建预测规则（决策树）的复杂度（子节点数）和预测准确度，采用减少相关变量的方法来降低决策树复杂度，同时获得更高的预测准确度。本研究构建了4个包含不同变量个数的预测规则，各个规则所包含变量情况及所得决策树的子节点数和预测准确度如表4所示。

从表4可以看出，依据前期所做的统考英语预测的相关研究成果（孙力，等，2015），在初始数据采集时，已经减少了实验数据集包含的变量数量，所得到的决策树子节点数相应减少，即决策树的复杂度本身就不高。尝试着去除了与学位英语考试成绩关联相对较弱的3个变量，从所得模型的分析结果可以看出：相对于本科公共课程英语统考的机考方式，学位英语考试仍采用传统的纸质笔试形式，与计算机的应用能力关系不大，“入学测试计算机”变量去除后，决策树复杂度降低，而预测准确度提高，该变量应属于无关变量；去除“入学年龄”和“入学测试大学英语”后，尽管决策树复杂度降低，但预测准确度同时下降，应属于相关变量。从影响程度看，“入学年龄”更大。综合考虑决策树复杂度和预测准确度，选择“学位英语预测2”为最终结果。该规则的分类流程和决策树如图4和图5所示。

三、预测规则变量重要性分析

在Clementine12.0环境中，通过双击“学位英语预测2”图标，得到构成决策树的各相关变量的重要性（如图6所示）。建立预测规则的实验数据共包含9个变量，除“学位英语”目标变量、“学号”标注变量外，构成决策树的共有7个变量。

在所有的变量中，“统考大学英语”的重要性位居第一，是因为学位英语考试合格是学生获得成人学士学位的必备条件之一，在学生本科阶段所参加的所有英语考试中，难度是最高的。统考大学英语是学生毕业的必要条件，其难度略低于学位英语，而学生对学位英语的传统笔试方式相对于统考英语的机考方式更为适应。每年学生可多次参加统考，学位英语考试却只有一次。总体而言，学生通过统考大学英语和学位英语的难度大致相当。由于这两门英语考试都属于水平化考试，通过加强对参加考试学生的辅导和个性化服务，对于学生获得毕业和学位资格可以起到相辅相成的提升作用。

“在线学习情況”在各变量中的重要性位居第二。由于网络教育的学生是以在线学习为主要方式，网络学习的整体状况体现了学生的学习态度，也决定了学习的效果。因此，通过有效措施提升学生网络学习的整体效果是提高学位英语考试成绩的有效手段。

“入学年龄”的重要性位居第三。由于学位英语对英语熟练的水平要求很高，对于语言的熟练程度取决于不间断练习的积累，考试技巧也在较大程度上影响着学生的考试成绩。所以，刚离开全日制学校的学生与参加工作较长的学生相比有一定的优势。

“大学英语三”和“大学英语二”是学生本科阶段的两门英语课程。其中，“大学英语三”是“大学英语二”的后置课程，内容要求更高，其课程难度也与学位英语考试更接近。尽管课程学习内容与学位英语考试不完全一致，同时，外语水平的提升是一个日积月累的过程，课程学习毕竟是学生提高英语水平的重要途径。考虑到业余学习与全日制学习的不同，这两个变量的重要性分别排在第四位和第五位，也是合理的。

学生各门课程的成绩在一定程度上反映其学习的效果，但由于网络教育是业余成人学习，整体要求较全日制学习要低，加上学生平时网络学习的形成性评价计入课程总分，学生课程考核的整体通过率较高。相对于学位英语对英语水平的高要求，其课程的平均成绩与学位考试有一定的联系，但关联度较小。各试点高校自主举办的入学测试，由于考试目的仅是考察学生入学时各相关知识的大致水平，过程设计不严格。江南大学网络教育的入学测试为全客观题型的机考方式，考试的难度不高，结果有一定的偶然性。因此，“已学课程平均”变量的重要性排在第六位，“入学测试大学英语”的重要性细微在图中没有体现，也是正常现象。

四、学位英语成绩预测系统的实现

依据前文中构建的成人学位英语成绩细分预测规则，以江南大学网络教育学院教学管理和学生学习等系统的各学生信息数据库为数据来源，在其教学教务管理系统中实现了基于浏览器界面、针对专升本学生的学位英语成绩细分预测子系统。预测结果通过表3的相应转换得到较为具体的成绩区间。考虑到与已有管理系统的兼容性，系统由数据库构建、数据采集和细分预测实现三个模块组成。

（一）数据库构建

学位英语成绩细分预测系统需要使用数据库存储和管理数据分析过程中的所有数据，同时考虑到数据库的庞大和安全性的保障，本系统采用SQL SERVER 2005数据库系统作为后台数据库。在其中创建学生基本信息表（tb_e_ForeCast），主要存储学生与预测和结果显示相关的各个变量的数据（如表5所示）。

（二）存储过程设计

存储过程是数据库中的一个重要对象，设计良好的数据库应用程序都应该包含存储过程。它是在大型数据库系统中，为了完成特定功能的一组SQL语句集，存储在数据库中，经过第一次编译后，再次调用不需要再次编译，用户通过指定存储过程的名字并给出参数来执行它。

本子系统中主要设计了2个存储过程，usp_Forecast和usp_Anticipation_DEnglish，前者将参与预判的学生数据保存到数据表tb_e_ForeCast中，以备预测过程使用；后者实现学位英语成绩的细分预测。

数据采集模块的功能是依据输入的查询学生信息，通过SQL Query编写的SQL查询接口，从学生信息数据库和其他相关数据库中抽取学生的基本信息，以及预测规则所对应的“入学测试大学英语”“入学年龄”“大学英语二”“大学英语三”“已学课程平均成绩”“统考大学英语”6个变量的数据。同时，从形成性评价系统中抽取学生在线学习情况，按前文所述的规则进行相应处理后形成“在线学习情况”变量数据。然后，通过存储过程usp_Forecast，存储到数据库中。学生信息输入可以是单个学生，也可以是依据一定规则的批量输入。如某个学习中心某个批次某个专业，或者是某个学号段等。查询界面如图7所示。

从Clementine12.0环境中可以看出，所实现的预测规则（即分类决策树的代码）的结构是if-else的嵌套组合。因此，在存储过程usp_Anticipation_DEnglish的代码中，采用SQL语句中的Case函数，实现决策树代码中的if-else嵌套组合。

（三）系统功能测试

系统实现之后，对其进行了功能测试。通过SQL Server Profiler工具的监测，所有的预测程序均在10秒内完成，表明该子系统符合性能需求分析的要求。系统的预测结果显示界面如图8所示。

（四）系统准确度测试

江苏省学位英语考试每年11月举行一次，统考大学英语考试每年的4月、9月和12月共举行3次。为了测试系统的预测准确度，同时鉴于统考英语和学位英语的高关联度，对江南大学网络教育2014年9月入学的本科层次学生，在2015年3月、5月和10月分别进行预测，取此三个时間点的理由依次为：经过一个学期英语学习，第一次统考后，以及第二次统考后。分别将预测结果与学生2015年1 1月参加实际考试的成绩进行对比，结果如表6所示。

从表6可以看出，离考试时间越近，预测准确度越吻合。另外，预测准确度随着时间的推移逐步提高，这一现象应该是越临近考试时间，学生的英语水平越接近考试要求，预测也就越准确。

五、结果分析及展望

本文以SPSS的Clementine 12.0为实现环境，以江南大学网络教育已参加江苏省成人学位英语考试的学生与英语学习相关的信息为实验数据，采用数据挖掘中的K-means聚类算法，实现了对已有学位英语成绩分布的分析，确定了较为具体的分数分布区间。然后，以该分数区间为预测目标，采用数据挖掘中数据分类的C5.0决策树算法，通过对相关变量的逐步精简，实现了对成人学位英语考试成绩的细分预测规则。构建的决策树包含7个变量和22个子节点，深度为7，预测的准确度为81%。最后，完成了江南大学网络教育本科成人学位英语考试成绩细分预测系统的开发、功能测试和准确度测试。通过与实际考试结果相比较，验证了预测规则的有效性。

本文构成学位英语预测规则的变量，除了“在线学习情况”是过程性数据外，其他变量（包括年龄和各类考试的成绩）都属于结果性数据。而“在线学习情况”是学生在线学习记录的综合值，尽管其重要性位居第二，仍然无法改变本文构建的预测规则实时性不够的不足之处。当前，各试点高校的在线学习系统和形成性评价系统正在逐步完善，督促学生上网学习的各项教学管理制度也正在逐步推行，网络教育学院的系统中将会有越来越多真实有效的学生在线学习的过程性数据。学生英语水平的提高是一个日积月累的过程，在注重与英语水平相关的各类结果性数据的同时，加强对与英语学习过程相关的各类过程性数据的关注，将能获得更加准确和实时性更高的预测结果，能够逐步实现对学生学习的即时性提醒和个性化服务。这是本研究后续主要的改进方向。

本文数据挖掘算法的选用综合考虑了原始数据的特征、目标需求、算法和实现软件环境的成熟度。依据学生与学位英语考试相关的各类数据的特性，不断尝试选用更加合理有效的数据聚类和分类算法以及功能更加合理的实现环境，构建出预测准确度更高的预测规则，为学位英语成绩的分析预测提供更多的分析角度和更有价值的信息，是本研究后续完善的方向之一。

作为获得学位的必要条件，同时又是统考大学英语免试的条件之一，学位英语考试成绩对于网络教育本科学生的重要性不言而喻。针对本文所开发系统形成的较为具体的预测结果，可以为处于不同英语学习水平的学生提供更为具体的个性化服务。作为网络教育学院，首先应该制定更为具体的个性化支持服务措施和方案。例如，构建难度和层次分明的英语学习和辅导的资源库，针对存在不同程度学习弱点的学生，提供措施和方案不尽相同的辅导和提醒方法（Chem-chem et al，2015）。这也是本文研究的后续应用所在。同时，本文所形成的成绩细分预测方法，对于目标更细致、要求更为具体的学生学习效果预测，具有一定的参考价值。