澳大利亚基于数据挖掘的教育决策案例

2018-01-11 09:25周梦张海杨絮
中国信息技术教育 2018年24期
关键词:入学研究者数据挖掘

周梦 张海 杨絮

2015年8月31日国务院发布的《促进大数据发展行动纲要》指出“数据已成为国家基础性战略资源”,并在启动的十大工程之一“公共服务大数据工程”中明确提出要建设教育大数据。如今教育大数据的重要程度已经上升到国家战略层面,教育大数据对学习全过程的数据分析和精准数据评测学习成为主要的应用场景。通过宏观和微观两方面建设,教育大数据已引起教育领域的广泛关注和重视。

在过去的几十年中,从大型数据集中提取有用和可操作的信息的方法已经将科学探究的领域相继改变。“分析”已成为过去几年的趋势,在应用于教育时,这些方法被称为学习分析(LA)和教育数据挖掘(EDM)。

本文以澳大利亚的一项研究为例,介绍了澳大利亚学生从小学一年级到成功完成高中学业,然后进入大学的情况,评估了学生性别对澳大利亚教育完成率的影响,分析了学生的成功(和失败)模式,并深入了解可以采取哪些措施来改善教学成果,从而为我国应用教育数据挖掘来支持教育评价和教育教学决策提供参考。

● 研究问题的确定

澳大利亚的正规学校教育开始于预科课程(在一年级之前的一年),然后是12年的小学和中学教育。在高中阶段(十一年级和十二年级),学生可以在毕业时获得高中教育证书(通常称为十二年级证书),这是进入大多数澳大利亚大学和职业教育培训机构的条件,同时,它也是许多国际大学的敲门砖。

这个研究案例的目的是使用最新的澳大利亚教育数据来评估2004年至2015年(即一年级至十二年级)男性和女性毕业率的差异程度,并估计在2016年以后,十二年级毕业生进入大学的数量。针对此研究目标,墨尔本大学的学者B.M. Monjurul Alom和Matthew Courtney提出了以下四个研究问题(RQ)。

RQ1:对2004年入学的学生数量和2015年毕业的学生数量进行比较,学生性别是否是影响该结果的一个原因?

RQ2:对2004年入学的学生和2015年毕业的学生进行比较,学生所在地是否是影响该结果的一个原因?

RQ3:哪些州的学生性别比例看起来最趋近平衡?

RQ4:2015年十二年级毕业的学生总数与2016年进入大学的学生人数相比,情况如何?

● 分析工具的选取

许多数据挖掘工具都可开放获取使用,如Wilson Calculator、Tanagra、Weka、KNIME、Orange和Rapid miner。研究者使用了名为Wilson Calculator的数据挖掘软件和Orange软件进行数据分析。Wilson Calculator是一个实用的元分析效果计算器,而Orange则是为给定数据集提供可视化和预测建模解决方案。Orange是一种基于组件的可视化编程软件,用于数据挖掘、机器学习和数据分析。

分析中使用的数据集是公开可用的,并以Excel格式从澳大利亚统计局网站下载。数据准备阶段需要将这些数据重新格式化为Orange中分析所需的常规数据结构。研究者利用数据可视化过程来呈现结果。在该过程中,根据男女学生的识别来测量相对频率;利用散点图技术衡量每个州的学生从入学到高中毕业的情况。

● 数据分析程序的设计

为了回答RQ1,关于性别对学业完成率的影响,研究者使用Wilson计算器(2乘2频率;概率估计)来确定效应大小(Cohen's d)和与男性毕业率低相关的统计显著性水平。

要回答RQ2,关于学生所在地对学业完成率的影响,研究者使用Orange可视化工具。下面对此过程进行详细的说明:

下载并打开Orange Data Mining工具后,首先将csv数据文件链接到Orange程序;连接数据文件后,可以通过选择适当的选项来执行所有分析和可视化技术(如图1)。研究者使用可视化过程来创建图形(参见Data下的第一个选项)。在可视化下,使用分布和散点图技术绘制分别如图2和图3所示的图形。需要注意的是,Orange中有多种数据挖掘选项:在Classify选项中,可以选择识别最近邻居;在回归选项中,可以选择单变量或多变量回归;在评估选项中,可以选择预测;在无人监督选项下,可以编写自己的分析。

为了回答有关各州性别公平性的RQ3,研究者计算了十二年级毕业的男性百分比和女性百分比([N2004 - N2015] ×100),使用这种方法,可以解释2004年至2015年期间比例失衡的男女移民问题(这里的假设是,各州的男性和女性移民学生人数相对平等)。在执行此程序后,可以将各州的情况整理成表格并按照十二年级女性毕业率从高到低进行排名。

为了回答关于2015年高中毕业人数和2016年大学新生人数做对比的RQ4,研究者对统计局报告的数字进行了简单演绎逻辑来估计2015年高中毕业人数和2016年大学新生的数量之间的一致性,研究者还使用了基本的Excel图形功能对2016年每个专业的新生所占百分比进行了说明。

● 研究结果的描述

RQ1:对2004年入学的学生数量和2015年毕业的学生数量进行比较,学生性别是否是影响该结果的一个原因?

根据澳大利亚统计局提供的数据,2004年开始上小学的国内学生总数为263,413人,而完成十二年级的总人数估计为233,358人。这些数字可以按性别细分,2004年共有135,199名男生从一年级入学,而2015年完成十二年级的有114,545名(缺口20,654人)。此外,2004年共有128,214名女生从一年级入学,而2015年完成十二年级的有118,812名(缺口9,402人)。通过数据分析程序的计算,估计男性的整体效果为d=-0.43(p<.001)(中等大小)。研究結果显示男性辍学率更高;相反,女生的毕业率或成功率相对较高。相关结果在上页图2中以可视化的方式表示。

RQ2:对2004年入学的学生和2015年毕业的学生进行比较,学生所在地是否是影响该结果的一个原因?

运用以上的数据分析程序,生成上页图3中的散点图。图中直观地反映出,对于大多数州而言,2015年的毕业率高于2014年的毕业率。

RQ3:哪些州的学生性别比例看起来最趋近平衡?

运用以上的数据分析程序,计算出了较高的女性毕业率的估计值。结果表明,在维多利亚州,男女毕业率差异较大(10.2%),而在澳大利亚首都直辖区,这种差异较小,仅为2.5%。

RQ4:2015年十二年级毕业的学生总数与2016年进入大学的学生人数相比,情况如何?

上页表中的第一列数据是专业领域,描述了2016年澳大利亚大学新生选择的专业领域。第二列列出了选择该专业领域的学生占全体新生的百分比。第三列代表2015年至2016年每个专业领域的学生的比重变化。根据澳大利亚统计局提供的数据,可以知道2015年有233,358名学生完成了十二年级的学业。此外,有关入学人数的数据,在2016年的高等教育中,该局报告说,74%的学生是本科生,其中76%的学生被认定为国内学生,34%被确定为开学新生(第一年)。根据这些数字,估计有238,932名本科大学生在2016年入学。这显示了澳大利亚高等教育(2016年)的趋势,其中管理专业和商业的学生人数最多,农业最不受学生欢迎。

注:(a)在本财政年度使用12个月的数据进行平均;(b)对于释放性别指标,澳大利亚根据新的基准程序,对2001—2002年度的劳动力估计数进行了修订。

当一年级入学的新生(2004年:263,413人)和十二年级的毕业学生(2015年:233,358人)按性别群体分类时,结果显示中度差异,表明男性倾向于不成比例地辍学。这种不成比例的程度似乎在各州之间分配不均。从长远来看,国家可能缺乏公平性,看似很大比例的男性在第12年没有继续完成学业。当然,在这方面需要更多的研究来证实这些早期的结果。

与有资格入读大学的十二年级学生人数相比,研究结果表明至少有相同或更多的学生进入高等教育。当然,在审查这些数字时,需要考虑间隔几年重返学校的学生和定义为成年学生的比例。

将数据按性别分类,并显示三个级别的教育:高中、专科教育、非高等教育和高等教育(不包括博士学位)。从上页图4中可以看出,不同国家的各个教育程度,女生的毕业率都高于男生。从上页图5中可以清楚地看出,澳大利亚女性的失业率高于男性,但女生的毕业率或学业成功率也相对较高,这可能是男性未毕业率更高的主要原因之一。

● 对我国教育管理研究的启示

本文介紹了研究者借鉴公开可用的统计数据,演示了如何使用统计软件程序Wilson Calculator和Orange来回答有关澳大利亚学生入学和毕业的四个研究问题。研究结果表明性别起着重要作用,2016年大学入学人数与2015年完成十二年级的人数相当。

伴随着信息技术的发展和大数据时代的来临,数据挖掘已经成为提高教学管理水平和教学质量的重要工具,但是数据挖掘在国内的教育管理中运用得并不普遍。本文通过介绍澳大利亚从小学到大学的一项教育研究案例,为我国数据挖掘技术支持指导学校教育工作,帮助学校进行教育决策提供了有利的参考。

猜你喜欢
入学研究者数据挖掘
入学通知书
饿死的毛毛虫
五行真经
研究者调查数据统计
入学面试
数据挖掘综述
软件工程领域中的异常数据挖掘算法
年轻瘦人糖尿病增多
入学第一天
基于R的医学大数据挖掘系统研究