陈世超 杨现民 潘青青 邢蓓蓓
(江苏师范大学 智慧教育研究中心,江苏徐州 221116)
随着互联网的普及与发展,在线教育在整个教育生态体系中的地位越来越凸显,以MOOC为代表的在线课程学习也越来越受到学习者的推崇。然而,在实际的学习过程中,相关研究发现不同学习者的学习水平和效果存在较大差异[1][2]:一方面,部分学习者进行在线学习时表现出极高的积极性和参与度,能够获得优质的学习效果;另一方面,部分学习者动机不足,不能深度参与,甚至是游离在学习活动之外。这种两极化的离群现象表现得十分突出,在一定程度上影响了在线教学的整体质量和效果。
近年来,在线教育数据呈现“爆炸式”增长,数据挖掘技术在教育中的应用研究受到了广大研究者的普遍关注,国外的相关研究主要集中于学习行为特点及其关系[3][4][5],国内研究则倾向于将数据挖掘视为一种技术工具,实现对在线学习的监测和评估。数据挖掘技术在教育领域的应用日益广泛,如为学生提供建议、为教师提供反馈、预测学生表现、发现不良学生行为、对学生进行分组、构建课程、规划和调度、数据分析和可视化等[6]。数据挖掘技术能够分析教学中的离群数据,解决在线学习效果的极端现象,挖掘教育中被忽视的隐藏价值,为教育教学的质量提升和科学决策提供借鉴。
离群点检测(Outlier Detection,OD)又被称为异常检测、孤立点检测、偏差检测,是识别不符合预期模式或数据集的项目、事件或观察结果[7]。目前,研究者对于离群点的研究尚未有统一的定义。获得广大研究者认同的是由Hawkins[8]给出的离群点的本质性定义:离群点是数据集中偏离大部分数据的数据,由于偏离其它数据太多,使人怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机制。
离群点在不同情境中的侧重点不同,通过对这种显著偏离预期行为和状态的数据、项目或事件进行异常捕捉和分析,一方面降低了错误决策的风险,帮助识别和预防不良影响;另一方面可以发现潜在的、有意义的信息,帮助领域工作从业者快速定位特殊信息,为行业的决策者制定高质量决策。离群点检测算法可以大致分为五类:基于分布的离群点、基于深度的离群点、基于聚类的离群点、基于距离的离群点和基于密度的离群点[9],如图1所示。
图1 离群点检测算法的分类
当前教育数据挖掘已经受到国内外教育工作者的重视,其技术的应用价值也逐渐凸显。相对而言,离群点检测技术在教育中的应用研究却相对较少。根据研究对象的不同,可将离群检测分为对学习者、教师、教育资源、学校、地区等的离群,其分析结果则应用于学生状态检测、优质师资鉴别、资源质量筛选、学校水平衡量以及教育发展评估等多个方面。通过离群点检测发现教育教学中的特殊现象,并进行深入分析,及时采取措施干预,从中发现新的规律和方法,对教育的应用指导具有重要意义。
学习者离群主要通过收集学习者的基本信息、学习状态(测验评分、考试成绩、课后作业、互动频次、发言次数)、性格特征、课堂问题行为、家庭状况等数据,对其学习和生活轨迹进行追踪检测,定位异常学习者,分析其行为规律,进而为学习者纠正学习误区、合理分配资源、增加个性化指导、加强心理辅导,降低学习者的失败风险。Cheng等[10]采用基于聚类的离群点检测算法在学习社区中定位异常学习行为,即首先使用聚类方法将类似行为模式的学习者聚集到群集中,再对没有聚类的数据进行离群检测,构建基于行为因素分析的行为过滤模型,实现对学习者的定位与分析,进而为其提供个性化的监督与指导。
教师质量评估是检验教学质量的重要手段,借助离群点检测技术可以从教师本身及其相关信息视角出发,对教师的教学质量进行评估。教师离群主要通过收集教师的个人信息、职称、教学风格、提问倾向、教学行为等数据来直接说明教学效果,同时收集学生的学习成绩、评教等数据,间接反映教师的教学成果。对数据的离群分析,主要用于鉴别优秀教师、筛选特色教师、加强评教有效性、提升教师素养、促进地区优秀师资共享等,使教师质量的评估结果更为准确、客观。Farooqui等[11]在对教师的资质识别研究中主张提取离群点的特征,通过学生成绩来识别成功的教学工作范例,其研究发现:某班级未能通过考试的学生比重高达 42%,这和教师素质以及教师能否与学生和谐相处有很大关系,因此该校制定相应措施,为学生配备相应的教师进行授课,使其水平得到更大程度的发挥,从而改善学习效果和课堂实践。
大数据背景下的教育资源来源复杂多样,同时也产生了大量的劣质资源、同质资源,为使用者带来了一定的不便,因此,资源的质量问题引起了广大研究者的关注。利用离群点检测技术发现离群数据,可以达到对信息的检测和量化作用。教育资源离群主要通过收集资源内容、资源类型(文本、音频、视频、图片、日志)、资源来源以及资源操作(资源下载、资源上传、资源删除、资源更新、资源分享、资源浏览、资源转载、资源订阅、资源收藏、资源评论)等数据,用于快速定位需求资源、检测在线资源质量、分析资源热度、扩散度以及淘汰指数等。如网络上一些劣质资源、虚假信息以及与学习无关的资源,利用相关资源作掩护,以达到避免被过滤和淘汰的目的。而通过离群检测可以发现资源内容异常、识别资源相关度,从而过滤掉不匹配的内容,为用户提供与学习内容相关的优质资源。
学校的办学质量和水平是人们关注的重要指标,不同地区的学校在教育管理、教育教学等方面都有各自不同的特色,教学成绩也存在较大差异。为了均衡学校之间的教学水平,凸显优质学校特色,有必要对学校的办学情况进行离群检测。学校离群主要通过收集学校的教辅设施(种类、数量、能耗、新旧)、师资力量(职称、获奖情况、教学手段、管理手段、教学风格)、学生表现(学风学气、考试成绩、获奖情况、毕业率)等数据,对学校的整体教育教学水平和校园安全隐患进行实时监测、统计和分析。徐琰等[12]对某高校的能耗情况进行了基于统计的离群点检测,结合能耗监控系统发现和分析异常能耗数据,与校园能耗规律进行比较,最终得出该校能耗的异常情况并进行及时预警,以达到节约能耗的目的。
教育的差异性在很大程度上影响了一个国家和地区的整体水平,为了对地区的教育发展水平进行整体性评估,有必要对区域的教育发展指数进行离群点检测分析。地区离群主要通过收集地区的教育发展指数,包括儿童入学学龄、成人识字率、学生性别平等指数等区域性数据,将超出设定阈值的数据提取出来,发现教育高风险地区,并调查原因,有针对性地采取措施,实现区域间教育年龄的均衡发展。Jana等[13]通过离群检测技术对印度35个州的教育发展进行了离群定位分析,以教育发展指数的四个指标作为基准,最终检测到分值较低或较高的数据,对各项指标进行深入分析,找出具体的影响因素,为教育教育的区域发展制定相应的规划和政策。
与一般数据挖掘技术不同,离群点检测技术专门针对那些与一般常规数据相差甚远的小规模数据。判断一个对象是否离群,需要重视那些偏离正常模式的数据,进而发现隐藏的、有价值的信息来指导和发展教育。总的来说,离群点检测技术在教育教学中的应用一般需要经过以下七个流程(如图2所示):
①确定分析对象。离群分析对象包括学习者、教师、教育资源和学校以及地区等教育教学要素,而离群对象的确定取决于研究者的需求,对不同的研究对象进行离群分析,会得到不同的研究结论,从而为各层次、区域的教育教学提供相应的参考。
图2 离群点检测技术在教育应用中的流程
②明确分析目的。锁定具体分析对象,根据研究者的关注点确定离群点检测的目的,主要包括积极的离群点检测和消极的离群点检测,然后再将分析目的具体化,如对学生进行个性化指导、鉴别优质师资、剔除劣质资源、监控校园安全等。离群点检测分析的目的直接决定了整个分析流程的趋势,针对分析对象实际存在的问题并结合环境和背景,离群点检测会对研究对象进行深入挖掘和定位,最终得到的检测结果和采取的措施都是为分析目的而服务。
③数据采集。根据离群对象及其目的,充分考虑影响分析对象数据变化的各种因素,既包括教学活动、管理活动、科研活动、校园生活等正式环境下产生的学习数据,也包括家庭、社区、博物馆、图书馆等非正式环境下的学习活动等数据。教育数据本身来源多元,数据的采集更具复杂性,应该合理使用数据采集技术,配置数据采集的范围和类型,对数据全面、动态、自然地进行采集[14]。
④数据预处理。教育系统的数据类型复杂、多样呈现,因此对于复杂的时间序列样本、非数值型样本以及多维数据样本,需要按照统一的数据标准进行数据的预处理,主要任务包括数据清理、数据集成和数据变换等,在不丢失数据意义的条件下将数据转换成规范的、适合离群点检测的形式。
⑤选择离群算法。根据数据对象的类型、结构、数量以及具体呈现的一般规律,选择合适的离群算法,每种离群点检测算法都有其特殊的适用范围,如表1所示。陆柳生等[15]在研究中用基于密度的算法对学生的学习成绩进行检测,确定离群因子,根据公式确定疑似离群对象,定位可疑离群学生,结合相关的因素分析其学习状态,准确找出学习状态异常的学生予以干预。
⑥离群状态分析。根据选择的算法进行检测,定位疑似离群对象,与正常状态数据进行比较,结合实际背景单独对离群对象进行深入分析,总结可能引起离群的具体原因。若存在录入错误或偏差,应该及时修正,保证结果的客观性与真实性。若不是由于错误导致的离群事件,需要更为严密的进行检测,并且持续、动态地观察离群对象与一般模式的偏离程度,探究其离群的存在意义。
⑦离群结果干预。对离群检测对象进行深度挖掘和分析,根据分析存在的原因,结合具体的教学情境有针对性地采取措施,进行适当干预,对于积极的离群现象加以强化,对于消极的离群现象加以改进。
表1 常用离群点检测方法优劣分析
离群点检测技术在教育领域有着广泛的应用前景,近年来受到越来越多研究者的关注。由于教育数据本身在不断地动态生成,且每个人的显性、隐性数据都各有不同,其应用也不可避免地将面临更为复杂的挑战。利用离群点检测技术对教育数据进行监督和评估,还需要综合考虑多种相关问题。
在实际的教育教学情境中,涉及的教育教学数据繁多、复杂,并且随着时间的推移在不断动态生成。以教育要素作为研究对象进行离群点检测,需要考虑到离群点的范围和数量等重要问题。首先,离群点没有一个明确的范围界定,本身呈现出一定的主观性和相对性,这就从根源上导致了离群数据范围的模糊和不确定性,最后结果的科学性和准确性将会受到影响。其次,数据的存在形式多样,可能隐藏在一定的模式、趋势背后,往往不容易被发现,并且离群点的检测算法多种多样,不同的算法选择会直接影响到离群点的确定。最后,在教育情境中存在很多不相关因素的干扰,虽然也是离群数据,但是跟研究目的和对象关系不大,这样的检测结果往往也是无效的。因此,判断教育领域的离群数据,在检测之前需要对离群点的范围或者阈值进行清晰的界定和规划,在充分分析离群目的、确定离群对象的基础上,选择合适的离群检测方法,对离群数据进行合理的判断和分析,作用于教育的决策制定。
离群点由于本身体量小、范围极端,通常会被研究者认为是误差或无效数据,有的还会影响研究对象整体的精确度,造成误导,增加分析难度,故研究人员往往将离群点视为“消极点”或“坏值”。实际上,离群点这种少量的、特殊存在的极端数据,不仅仅是从误差分析上给研究者提示,而且也会提供一些容易忽略的重要潜在信息。在教育领域,离群数据代表学习者的学习实际,反映了个体的独有特征和偏好。在教育教学过程中会不可避免地出现偏离常规的数据,其学习规律和特征都值得深入探索。而探究这些离群现象及其背后潜藏的关联因素,可以帮助学习者减少失败风险,提高学习效率和质量。另外,离群数据也是打破常规、特立独行、创新创造的体现,符合新时代的人才培养目标,对这样的数据进行分析往往会获得更大的价值。
在对离群点进行判别和验证后,需要对离群点进行后期处理,以便精准地服务于教育决策。首先,从技术的角度分析离群点的产生原因,若是因为技术失误或人为录入错误,就需要将这样的离群数据剔除,以降低后期的操作难度、提升数据的精确度,尽可能地避免主观因素的影响。其次,排除技术失误的因素,采用合适的智能挖掘算法对离群点进行挖掘,构建分析模型,确定合适的离群范围,尽可能地减少离群点的主观性和相对性带来的误差影响。最后,将离群点的分析结果以可视化的形式呈现出来,以便结合具体的教育教学情境详细分析离群点的产生原因,并有针对性地提出相关措施和规划,以发挥出更为实用的应用价值。
[1]Macfadyen L P, Dawson S. Mining LMS data to develop an “early warning system” for educators: A proof of concept[J]. Computers & Education, 2010,(2):588-599.
[2]Wong L. Student engagement with online resources and its impact on learning outcomes[J]. Journal of Information Technology Education: Innovations in Practice, 2013,(12):129-146.
[3]Psaromiligkos Y, Orfanidou M, Kytagias C, et al. Mining log data for the analysis of learners’ behaviour in web-based learning management systems[J]. Operational Research, 2011,(2):187- 200.
[4]Munk M, Drlik M. Impact of different pre-processing tasks on effective identification of users’ behavioral patterns in web-based educational system[J]. Procedia Computer Science, 2011,(4):1640-1649.
[5]Morris L V, Finnegan C, Wu C C. Tracking student behavior, persistence, and achievement in online courses[J]. The Internet and Higher Education, 2005,(3):221-231.
[6]Romero C, Ventura S. Educational data mining: A review of the state-of-the-art[J]. IEEE Transactions on Systems Man & Cybernetics, 2010,(6):601-618.
[7]Han J W, Kamber M, Pei J著.范明,孟小峰译.数据挖掘概念与技术(第三版)[M].北京:机械工业出版社,2012:351-352.
[8]Hawkins D M. Identification of outliers[M]. London: Chapman and Hall, 1980:1-3.
[9]薛安荣,鞠时光,何伟华,等.局部离群点挖掘算法研究[J].计算机学报,2007,(8):1455-1463.
[10]Cheng Y, Miao Y C, Tan P F, et al. Research on mining and detection method of abnormal learning behavior[A].International Conference on Information System and Artificial Intelligence[C]. Hong Kong: Conference Publishing Services, 2016:566-570.
[11]Farooqui T, Mustafa I, Christie T. Outliers in educational achievement data: Their potential for the improvement of performance[J]. Pakistan Journal of Statistics, 2014,(1):71-82.
[12]徐琰,肖基毅.离群点分析在高校能耗监控系统中的应用[J].南华大学学报(自然科学版),2014,(2):89-93.
[13]Jana M, Sar N. Modeling of hotspot detection using cluster outlier analysis and Getis-Ord Gi* statistic of educational development in upper-primary level, India[J]. Modeling Earth Systems and Environment, 2016,(2):60-61.
[14]杨现民,唐斯斯,李冀红.发展教育大数据:内涵、价值和挑战[J].现代远程教育研究,2016,(1):50-61.
[15]陆柳生,余明晖.基于离群点检测的学生学习状态分析方法[J].计算机与现代,2016,(3):35-40.