胡祖辉 徐毅
[摘要]教育数据在大数据时代成了宝贵资源,其价值已经在国内外引起了相关方面的高度重视。为挖掘教育数据中蕴含的有价值信息,笔者提出了教育数据分析的模型,并以高校常见的学生、成绩、消费和门禁等方面的数据为例进行分析研究,为高校教育数据分析与应用提供参考。实践中,教育数据内涵丰富,分析方法众多,有待做进一步的深入研究,以便更好地服务于教育教学和教育管理。
[关键词]大数据;教育数据;分析模型;分析实例
[中图分类号] G640 [文献标识码] A[文章编号]1005-5843(2017)01-0109-06
[DOI]1013980/jcnkixdjykx201701022
一、引言
现代信息技术与经济社会交汇融合的逐步加深引发了数据的迅猛增长,人类社会跨入了大数据时代。国务院2015年印发的《促进大数据发展行动纲要》指出,大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响[1]。信息技术对教育领域的正面影响已经得到广泛认可。《国家中长期教育改革和发展规划纲要(2010-2020年)》和《教育部教育信息化十年发展规划(2011-2020年)》均明确指出,信息技术对教育发展具有革命性影响,必须予以高度重视[2];以教育信息化带动教育现代化,是我国教育事业发展的战略选择 [3]。教育信息化为高校带来了丰富的教育资源、高效的教学方式、便捷的管理手段等诸多好处,提高了高校的教学科研水平和教育教学质量,从而提升了高校的核心竞争力。但在教育信息化的发展程度上,各高校的发展水平参差不齐,很多高校仍然将注意力集中在各种信息系统上,没有给予数据这一宝贵资源以应有的重视[4];高校内部各个部门往往根据各自的业务需要单独建设信息系统,不同信息系统之间缺少数据共享,容易形成信息孤岛,难以保证数据的一致性和准确性;高校各个信息系统运行过程中产生的许多有价值的信息长期被忽视,亟待加以分析和利用。因此,在大数据时代,数据是高校的无形资产,对数据进行分析和挖掘应成为高校推进教育信息化建设的一项重要内容。
二、教育数据的内涵与研究现状
教育数据是大数据的一个子集,即教育领域的数据。广义的教育数据是指整个教育活动过程中所产生的及根据教育需要所采集到的,一切用于教育发展并拥有巨大潜在价值的数据集合[5]。根據统计范畴的大小,教育数据可分为国家、社会、教育机构、教育活动参与者等多个层面。狭义的教育数据是指高校内各个信息系统运行过程中所产生的数据集合。高校学生从入学到毕业的整个大学生活周期中,在各个信息系统中留下了大量的数据信息,包括选课、考试、考勤、缴费、评优、上网、消费、图书借阅、网络学习等。杨现民等学者提出了教育数据的“冰山模型”——将教育数据分为显露于“冰面”之上的和隐藏于“冰面”之下的两大部分[6]。“冰面”上的数据主要为显性的结果性数据,如学籍信息、成绩信息、考勤信息、缴费信息等。而“冰面”下的数据则以隐性的过程性数据为主,包括学习、考试、上网、消费等行为以及各种行为之间的内在联系等。长期以来,很多高校将注意力集中于“冰面”上的数据,而忽视了对“冰面”下数据的利用。在大数据时代,我们需要转变观念,无论“冰面”上还是“冰面”下的数据都同等重要,要积极地加以研究和利用。
教育数据分析的重要意义在于通过分析得出能够反映客观事实的、潜在的、有意义的信息,以之保证教育教学的客观性和有效性。教育数据分析是运用数据分析方法从来自教育系统的原始数据中提取出有意义信息的过程,这些信息可以为教育者、学习者、管理者、教育软件开发者和教育研究者等提供服务[7]。教学、科研、管理是教育机构的基本活动,教育数据分析也就相应地分划为教学数据分析、管理数据分析和科研数据分析三个研究方向[8]。教育活动与教育数据密切关联,教育活动产生教育数据,教育数据分析结果可以指导教育活动,实现两者双向关联的关键在于对教育数据的分析。
教育数据分析包括统计运算、数据挖掘、预测分析和决策支持等程序,其重要价值已经在国内外引起了高度的重视。早在2008年,荷兰、美国、德国、加拿大、澳大利亚等国的研究人员发起成立了国际教育数据挖掘组织。在该组织的大力推动下,第一届国际教育数据挖掘学术会议于2008年在加拿大召开,至今已举办了九届。同时,该组织于2011年开通了国际教育数据挖掘网站,并且成功创办了专门的电子期刊JEMD[9]。这促使越来越多的国家和高校开始重视对教育大数据的分析。2012年,美国教育部门实施了一项耗资2亿美元的将大数据分析应用于美国公共教育的计划,目的是运用教育大数据分析来促进教与学[10]。美国教育技术办公室在2012年10月发布了一份《通过教育数据挖掘和学习分析促进教与学》的研究报告,对美国国内教育数据挖掘和学习分析的研究及应用情况进行了总结,并提出了改进建议[11]。在此期间,哈佛大学、斯坦福大学、耶鲁大学等世界知名高校都启动了教育大数据的相关研究计划;一些企业已经成功开发出了分析教育大数据的相关产品,如美国的Knewton公司、英国的Pearson公司、加拿大的Desire2Learn公司等。我国当前的教育大数据研究与应用整体上还处于起步阶段,专注于教育大数据发展应用的机构和企业为数不多。2014年5月,电子科技大学成立了教育大数据研究所,并已经取得了了数据一体化平台、学生画像系统等多项研究成果。2015年9月,中国统计信息服务中心和曲阜师范大学共同成立了中国教育大数据研究院。
三、教育数据分析模型
按照数据分析的一般流程,教育数据分析主要包括数据采集、数据预处理、数据分析和结果评价四个步骤(教育数据分析模型如图1所示)。
图1教育数据分析模型
(一)数据采集
教育数据来源广泛,涉及到高校的多个职能部门。通常这些数据分散存储在高校的各个信息系统之中,如学生数据存储在学生管理系统中,成绩数据存储在教务管理系统中,消费数据和门禁数据存储在校园卡管理系统中,图书借阅数据存储在图书借阅管理系统中,等等。综合考虑成本、可行性、安全性等因素,进行数据采集的最佳方案是先依托现有的各个信息系统进行日常数据采集,然后通过ETL数据共享和交换技术进行数据集成。由于各个信息系统可能采用不同的数据存储技术,因此数据源中的数据通常是异构的,可能包括Oracle、SQL Server、MySQL、文本文件等形式。ETL(ETL是英文 ExtractTransformLoad 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)需要将分散的异构数据源中的数据提取到临时中间层,然后按照统一的数据标准进行转换,最后加载到目标数据库。
(二)数据预处理
数据采集解决了数据来源的问题,但这些来自现实中的“脏数据”往往无法直接用于数据分析,要在数据分析之前对数据进行预处理。数据预处理的方法有多种,包括数据清洗、合并、变换、归约等。数据清洗主要是处理数据中存在的缺失值和噪声数据,清除异常数据和冗余数据,以提高数据质量;数据合并是根据数据分析的需要将原来分别从多个数据源采集到的数据进行整合,以提高数据分析效率;数据变换是通过离散化、规范化等方式将数据转换成适用于数据分析的形式;数据规约是运用数据归约技术得到原始数据集的归约表示,既保持了原数据的完整性,又大大减少了数据分析的时间。
(三)数据分析
广义的的数据分析方法可以分为两个层次,即狭义的数据分析和数据挖掘。狭义的数据分析是指使用统计分析方法及工具对数据进行处理与分析,提取有价值的信息。数据挖掘则是指运用人工智能、机器学习等算法,从大量数据中挖掘出隐含的、有价值的信息。狭义的数据分析和数据挖掘本质上都是从数据里面发现有价值的信息和规律,两者之间并没有清晰的界限。从某种意义上说,数据挖掘是一种更深层次的数据分析,其重点在于发现隐含的未知信息和规律。
(四)结果评价
结果评价的方法包括查准率、查全率、正确率、显著性等。查准率为算法识别正确的正面样本数与所有识别为正面的样本数的比值,用于衡量算法的精确度;查全率也称为召回率,为算法识别正确的正面样本数与样本中所有的真正正面样本数的比值,反映算法的灵敏度;正确率为算法识别正确的观点数与样本总数的比值,反映算法的准确度;显著性为假设检验分析结果,通常以005或001为阈值,若显著性值小于阈值则拒绝原假设,大于阈值则接受原假设。具体采用哪些指标进行结果评价,需要根据实际情况来确定。
四、教育數据分析实例
(一)研究对象
为更好地说明教育数据分析的方法及应用价值,笔者以高校常见的学生数据、成绩数据、消费数据和门禁数据为研究对象进行实例分析。从学生管理系统中提取某年级在籍本科生数据6 725条记录,从教务管理系统中提取某年级成绩数据401 278条记录,从研究生管理系统中提取在籍研究生数据2 598条记录和研究生成绩数据45 988条,从校园卡管理系统中提取某月消费数据316 629条和门禁数据10 106条。
(二)数据预处理
1学生数据。将本科生数据和研究生数据进行合并,保留“学号”“姓名”“性别”等关键信息字段,去除非关键信息字段,增加“学生类别”字段以区分本科生和研究生。合并后的学生数据记录总数为本科生和研究生学生数据记录之总和。
2成绩数据。为准确衡量每个学生的综合学习质量,引入GPA(Grade Point Average,平均绩点)进行成绩评定。经过计算平均绩点,每个学生只保留1条成绩数据记录,成绩数据量大大减少。为便于更好地进行数据分析,采用等宽分箱法进一步对成绩数据进行离散化处理。平均绩点在区间(0,1]的记录记为JD1,平均绩点在区间[1,2]的记录记为JD2,平均绩点在区间(2,3]的记录记为JD3,平均绩点在区间(3,4]的记为JD4。这样就把成绩数据分成了四类,反映了学生课程学习质量的四个层次。
3消费数据。首先利用数据库分组查询汇总得到每个学生的消费总金额。这样处理后得到的消费数据汇总记录就会小于学生数据记录总数(客观上存在部分学生一个月都不在校内消费的情况,对这部分学生按缺省值0进行填充),然后对消费金额进行离散化处理。消费金额为0的分为一组,记为JE1。对消费金额大于0的记录采用等频分箱法进行分组,即按照消费金额从小到大的顺序进行排列,根据人数等分为若干部分,每部分为一组。消费金额在区间(0,164]的记录记为JE2,消费金额在区间(164,2745]的记录记为JE3,消费金额在区间(2745, 11614]的记录记为JE4,其中1 1614为最大消费金额。
4门禁数据。首先利用分组查询汇总得到每个学生的门禁刷卡次数,然后对没有门禁刷卡记录的学生按缺省值0进行填充,再对门禁刷卡次数进行离散化处理。门禁刷卡次数为0记录的分为一组,记为MJ1。门禁刷卡次数特征明显,可根据经验值将门禁刷卡次数大于0的记录分为2组:门禁刷卡次数为1次到3次的为“偶尔晚归”,记为MJ2;门禁刷卡次数大于3次的为“经常晚归”,记为MJ3。
(三)数据可视化分析
数据可视化分析是指将数据分析结果以图形、图像等形式予以展现,并进一步揭示其中所隐含信息的过程。使用Tableau对经过数据预处理的学生数据、成绩数据、消费数据和门禁数据进行可视化数据分析,可得到4张统计图表(如图2所示)。
从图2可以直观地看出:(1)与本科生相比,研究生JD3和JD4所占的比例较高,研究生课程学习质量较好。(2)与男生相比,女生JD3和JD4所占的比例较高,女生的课程学习质量较好。(3)本科生和研究生中都存在不少整月不在校消费的学生(即JE1对应的学生)。(4)与本科生相比,研究生中高消费学生(JE4)的比例较低。(5)与女生相比,男生中高消费学生(JE4)的比例较高,尤其是本科生男生。(6)本科生和研究生中都存在不少“经常晚归”的学生,即MJ3对应的学生;(7)与本科生相比,研究生中晚归学生(MJ3)的比例较低;(8)与男生相比,女生中晚归学生(MJ3)比例较低。
将数据统计分析结果应用于管理,可以得出以下结论及建议:(1)无论是学习上还是生活上,研究生总体上比本科生更为成熟,这与研究生年龄较大、阅历较多有关。女生总体上比男生生活更有序,学习成绩更好,这与女生能够更好地安排大学学习生活有关。因此,应重点关注本科生男生的在校学习和生活,有针对性地制定相应的管理措施。(2)JE1对应的学生整月不在校消费,属于异常情况,是请假离校还是未经请假擅自离校,应通过院系管理人员进一步了解原因。(3)MJ3对应的学生“经常晚归”,也属于异常情况,是因为学习原因还是存在违纪情况,需要进一步跟踪了解,并根据具体情况作进一步的处理,以减少晚归现象。
(四)聚类分析
采用微软SSAS对本科生群体的平均绩点、消费金额和门禁次数进行聚类分析。以经过离散化处理的数据为数据源,设置算法的运行参数:聚类算法为K-means算法,聚类数为3,训练集为全部样本6 725条记录。完成聚类分析后,可得到聚类分析结果(如表1所示)。从表1可以看出,分析结果把本科生划为三类:第一类学生人数最多,超过总体的60%,主要特征是学习成绩较好、消费较高、晚归现象较少。这类学生虽然生活条件较好,但能够认真学习,较好地遵守学校纪律。第二类学生人数也较多,主要特征为学习成绩较好、消费较低、几乎没有晚归现象。这类学生生活节俭,学习认真,严格遵守纪律。第三类学生人数较少,接近总体的10%。这类学生大部分成绩较差,晚归现象较为严重,消费主要分为两种情况:不在校消費或消费较高。这类学生学习不认真,纪律意识淡薄,有长时间离校、消费大手大脚、经常晚归或夜不归宿等多种不良表现。但第三类中也存在少部分成绩较好的学生,其经常晚归的原因包括参加科研或准备各类竞赛。
根据聚类分析结果,可以得出以下结论及建议:(1)消费高低与学习成绩优劣没有必然的联系,但长时间不在校消费反映了学生长期离校会影响学习成绩的问题,因此应对长时间不在校消费的学生进行重点关注。(2)遵守学校纪律是学习成绩较好的必要条件,晚归次数较多的学生大部分成绩较差,因此加强公寓管理、减少晚归现象,以保证学生的整体学习质量。(3)第一类和第二类学生都能够合理安排好大学学习生活,第三类中大部分学生的纪律意识和学习自觉性较差,应该成为教育管理的重点,应通过多种方式督促其遵守学校纪律、认真学习。
五、结论
大数据是教育发展的未来,教育大数据是教育信息化的最新发展趋势。在大数据时代,对教育数据进行采集、分析和利用的条件已经完全成熟。教育数据分析可以得到教育数据中的隐含信息,在教育数据分析的支撑下,高校教育教学和教育管理工作将更有针对性,也更有效果,将会使因材施教和个性化教育的教育理想成为现实。笔者提出了教育数据分析模型,并举例进行了数据分析与挖掘,得到了数据中蕴含的一些有意义的信息,这些信息有助于高校教育管理工作的改进。教育数据及教育数据分析的价值远不止于此,有待进一步深入研究和挖掘,以便更好地为教育教学和教育管理服务。
参考文献:
[1]促进大数据发展行动纲要[EB/OL].http://www govcn/zhengce/content/201509/05/content_10137 htm, 2015-08-31
[2] 国家中长期教育改革和发展规划纲要(2010-2020年)[EB/OL].http://wwwmoeeducn/publicfiles/business/htmlfiles/moe/moe_838/201008/93704html, 2010-07-29
[3] 教育部关于印发《教育信息化十年发展规划(2011-2020年)》的通知[EB/OL].http://wwwmoeeducn/publicfiles/business/htmlfiles/moe/s3342/201203/xxgk_133322 html, 2012-03-13
[4] 先晓兵,陈凤,王继元等 基于大数据的高校学生管理工作研究与实践[J].中国教育信息化,2015(5): 6-10
[5][6]杨现民,王榴卉,唐斯斯教育大数据的应用模式与政策建议[J].电化教育研究,2015(9):54-61
[7] 李婷,傅钢善国内外教育数据挖掘研究现状及趋势分析[J].现代教育技术,2010(10):21-25
[8] 葛道凯,张少刚,魏顺平教育数据挖掘:方法与应用[M].北京:教育科学出版社, 2012
[9] Educational Data Mining [DB/OL].http://wwweducationaldataminingorg
[10] 胡德维大数据“革命”教育[N].光明日报,2013-10-19(5)
[11] Bienkowski M,Feng M, Means B Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief[R]. Washington :US Department of Education, Office of Educational Technology, 2012