潘青青 王 浩
(1.镇江心湖高级中学,江苏 镇江 212132;2.江苏省马坝高级中学,江苏 盱眙 211751)
当前,很多学者都在积极探索教育数据资产的巨大价值。杨现民等人[1]指出教育大数据的价值应体现在与教育主流业务的深度融合和推动教育系统智慧化变革。肖玉敏等人[2]认为教育大数据能够帮助教学者加深对学习者成长过程的认知和理解,实现对人性的洞悉,便于提供更符合内需的教育。祝智庭等人[3]把数据提炼为不同的类型,提出不同类型的数据所处的数据价值层级有所差异,解决的问题也分为不同的阶段。Siemens G等[4]学者对大数据在教育中的应用进行了实践,试图通过数据分析来促进教育的良构。Darrell M.West[5]指出大数据可以通过学生成绩和学习方法挖掘更深层的学习信息。Picciano等人[6]认为大数据和学习分析已经成为整合行政和教学功能的一种解决方案。Matthew M A等人[7]提出数据科学、预测分析和大数据可以转变教学设计和管理的应用链。
教育数据挖掘是从海量的学校数据库中判别、筛选、重组、分析有效的、具有潜在作用的数据以获取教育利益的过程。对教育数据资产的深度挖掘可以揭开隐藏在数据背后的意义,充分发挥数据对教学和管理的价值,服务教学者、学习者、管理者、软件开发者以及教育研究者等。李婷等人[8]开展了教育数据挖掘在教育教学和教务管理中的应用研究,指出其在网络教育中重要的价值在于指导、改善学生学习,提升教师教学质量。施佺等人[9]以网络学习平台为研究对象,利用统计分析和可视化、关联和聚类等数据挖掘的技术,解读了在线学习过程中的数据,建立了在线学习监管的教育数据挖掘模型,根据分析结果对学习过程提出了思考和建议。胡水星[10]基于Moodle网络日志和微视频学习案例,利用教育数据挖掘技术进行实证分析,发现了教育现象之间的关联和规则,为教育预测和教育决策提供支持。
教育数据是客观的,其价值的挖掘取决于控制和应用数据的人。为了清晰地了解数据深度挖掘的思路,本研究将其分为六个方面。如图1所示。
图1 数据深度挖掘的思路
1.1.1 教学理解
教学人员和研究人员围绕数据进行教学业务的深入调研和分析,通过交流合作,明晰需要解决什么样的教学问题,采取措施有针对性地解决这些问题。教育大数据反映的是教育现象外在数字形式,也体现了具有潜在价值的教与学的信息。
1.1.2 数据理解
数据是挖掘的原材料和基础,在数据理解环节需要做到以下几点:一是要了解教育中的数据类型,即认识学校自身有哪些数据,按照不同的层次划分;二是描述数据特征,将其存储到相应数据库中;三是在数据间建立联系,实现动态循环。认清数据本身代表的意义,以便于实现对数据的调用和分析。
1.1.3 数据准备
数据准备是数据挖掘和分析的基础,它可以为数据挖掘提供高质量的、完整、实时、准确的数据。利用高性能的T-SQL语句在数据源处进行数据准备工作,采用SSIS技术连接多种不同的数据源获取数据,将数据导入到分析工具,通过过滤采样、清洗数据、创建数据库,不断迭代更新,为后续研究提供有效的数据源。
1.1.4 建立数据模型
建立模型分为业务建模、领域概念建模、逻辑建模和物理建模,用于帮助研究者全面了解教育业务,改进教学流程。整合全方位的数据源能够消除数据孤岛和数据差异,提高数据利用效率。如建立学业评价模型可以帮助学生改变学业评价研究中的无序状态,提高学生能力,获得个人发展。
1.1.5 评估模型
研究利用训练数据得到的模型能适应于所研究的实际数据,观察模型对数据集的测评效果。根据环境因素、发展潜力和应用水平评价模型使用效果。如果使用获得显著成效,可以继续推广到实际应用中,如果出现问题则需要重新进行教学理解的需求分析,再次建立模型,直至达到预期成效。
1.1.6 教学应用
数据挖掘的初衷是为教学提供精准的数据服务,向学习者推荐个性化的学习资源、学习活动以及学习路径,辅助教师更好地调整和改进教学策略,完善课程设计和开发,帮助管理者进行更科学的管理决策。
教育数据挖掘的方法主要包括聚类分析技术、分类技术、离群点检测技术、关联规则挖掘技术和序列分析技术,本研究主要对这五种技术在教育教学中的应用进行分析和探讨,总结各种技术在教育教学中的应用方向,剖析技术应用流程,期望能为数据挖掘在教育教学中的应用提供参考。
教育情况复杂多样,教学者若要实现不同的教学目标,需要准确找到适合的数据挖掘方法,以便有针对性地解决问题。在一个班级中,教师想要了解不同学生群体的差异,可对学习者进行聚类分析,应用到的数据主要包含标准规定采集的学习者基础信息(姓名、学号、成绩、专业、年龄等)、在线学习行为(浏览信息、错题记录、在线讨论、发帖、答疑等)、在线学习路径(访问方式、页面、时间、浏览路径、资源访问顺序等)、资源使用情况、课堂学习行为等所有与学习者有关的学习和生活数据。例如,对学生在网络学习平台中的登录频次、进入课程频次、课程讨论区交互频次、阅读课程通知频次、阅读课程资源频次等数据进行聚类,可以按照网络学习行为活跃度将学生分为“活跃型”“中度活跃”“非活跃型”三类群体,并对这三类学习群体采用不同的在线教学策略。
利用关联规则技术挖掘各科成绩之间以及与总成绩的内在关系,找出隐藏的课程关联规则,将这些规则应用于学生成绩预警,及时找出可能出现不及格的课程,对部分学生给出警告,加强学习监督。王华[11]以计算机专业相关课程为主,通过关联规则挖掘发现,如果在电路原理课程这门课上取得60~80分的成绩,那么大学物理成绩可能会不到80分,因此对电路原理成绩不理想的学生要加强指导,这样可以有效预防学生在其他课程中取得较低成绩。
通过对不同数据挖掘方法的解读分析,可以找到其共同点,数据挖掘整体框架如图2所示。
图2 教育数据挖掘方法应用框架
首先确定数据挖掘的目的,教学研究者需明确要解决什么样的教学问题,接着确定数据挖掘对象,如学习者、教师、学习资源、学校等,然后选择合适的方法进行挖掘,最后实施教育应用。根据实践应用效果,和最初设定的目的对比,反馈成效,改进挖掘过程,效果是对教学目的的反馈,可以了解反馈给教学者设定的挖掘目的,不断优化,实现挖掘效率和教育实践利益最大化。
多模态学习分析(Multimodal Learning Analytics,简称MLA)是根据人的多重感知模式,对于同一现象、过程或环境,采用多种方式获取学习过程中产生的相关数据,包括声音、手势、关节动作、视觉注意等同时发生的多种不同的生理和心理数据。利用可穿戴感知设备,教师可以在不影响学习者的情况下研究学习过程和学习轨迹,使研究结果更加客观翔实。多模态数据采集技术和机器学习分析技术可以在更复杂和开放式的学习环境中对学生的学习行为进行分析,为深度挖掘数据价值提供新的见解[12]。
Xavier Ochoa等[13]人指出教育大数据的价值是理解和改进教与学,然而分析不仅仅是通过单一系统中的学生数字痕迹实现的。随着在线学习系统的增加和复杂学习环境的出现,学习分析应该捕获、处理和分析多种数字信号,以便理解学习过程中参与者的行为和相互作用的痕迹,深入揭示学习规律。
Ez-Zaouia等[14]人指出学习者的情绪数据对提升学习效果有着至关重要的作用,在同步在线学习环境中,将学习者的情绪可视化处理能够帮助教师建立和保持与学习者之间的社会情感关系。情感分析可通过学生学习的自我报告、视频、音频、交互轨迹四个方面来获取数据,建立以教师为导向的多模态和联系上下文的情感仪表板。
表1 不同数据挖掘方法的对比
Mitri等人[15]通过运用腕带、平台记录、自我报告等方式获得的多模态数据来建立自主学习环境下心跳、步数、天气状况和学习活动等因素与学习成绩的线性混合效应模型,以检验这些指标对学习成绩的预测效果。
机器学习是将信息转化为智能行为的过程,数据挖掘是从海量的数据中挖掘出数据主体隐藏的信息,数据挖掘是指完整地完成一项事务,机器学习是一种方法,可以理解为用机器学习的方法支持数据挖掘工作。在教育领域,借助机器学习算法可以实现对学习的预测,挖掘数据隐藏的价值。
预测分析是统计分析的子集,是从现有的信息中提取有用的数据,通过使用各种技术发现趋势,实现对未来结果的预测。在教育中,研究者可以利用预测分析提高学生的入学率,降低辍学率。Halde等人[16]学者在大一新生入学时,按照他们的总成绩将学生划分为三个类别,分别是风险级、中级、高级。根据建立的预测模型,研究表明,处于风险级的学生更有可能失败。预测是为了识别和帮助有困难的学生,教师和助教在发现有困难的学生后会及时给予他们相应的建议。任课教师可以在学校门户系统网站上建立交流平台,学生可以提交作业,教师可以发布笔记,师生可以随时沟通。同时,教师要评价学生的课程表现、学生的作业、测验和期末考试成绩,然后给出可视化的反馈,为学生提供改进意见,帮助学生发掘自己的潜能和兴趣,推荐给他们最适合的学习路径和课程,以便提高学习效率。这些过程都是系统联机的,便于师生能够有计划地完成这些事项,最后实现提升学生成绩的目标。对于教育管理者来说,预测分析能够为其提供客观的教学反馈,帮助学校管理者制定恰当的教育决策,对教学资源、教学计划、课程体系和师资力量重新评估和分配。
为了保障数据挖掘的可用性和高效性,必须开发多种专业的数据挖掘工具,研究多样的方法。学校中有多种数据,但不是每类数据都采用同样的方法。首先要明确数据挖掘的初衷,利用数据完成什么样的教学任务。一个学校如果想了解生源分布情况,教学管理者可以让学生登录学校教育系统,填写个人的基本信息。若想了解学生的生源质量,可以通过记录学生所有学科的成绩、比赛获奖、技能特长等学习成果,熟悉学生的状态和特点。以上数据的分析方法属于对基础层的数据的挖掘,主要目的是能够宏观掌握教育发展的现状、制定科学的教育政策、完善教育体系以及合理配置资源。精准合适的挖掘方式可以让数据应用更有针对性。
在教育数据资产挖掘工具方面,研究者越来越关注使用视觉表示和交互技术传达学习感知和意识,让教师和教育决策者能从多个维度,理解和探索学生数据,可视化工具的设计应该突出指导教师确定学习目标和明确这些目标是否实现。澳大利亚研究者Roberto等[17]人利用LATUX(Learning Awareness Tools—User eXperience,学习意识工具—用户体验)可视化学生的思维过程,并建立学习者模型,促进教师深度了解学生,用数据支持教学,实现精准决策。
维克托·迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》中提出,目前社会各行各业对数据的挖掘如冰山一角,只看到了数据最基础的功能与价值,隐藏在数据背后的数据价值更值得挖掘。同样,教育数据资产的价值也未被充分挖掘,如何深度挖掘数据资产的巨大价值,真正促进教学变革成为教学研究者迫切需要解决的问题,这不仅需要教育领域的专家学者参与,还需要跨学科的数据挖掘专业人员的积极加入,共同为教育事业的美好明天出谋划策,献出智慧和劳动。