王福德,宋海龙,孙小海,陈 雷
(1.吉林海诚科技有限公司 技术部,长春 130117; 2.吉林大学 教育技术中心,长春 130026)
自从20世纪90年代,中国教育信息化发展迅速,并取得了优秀成绩,为中国教育现代化奠定了一定基础。随着校园信息化建设规模的扩张,如师生教务等管理系统的开发、教室安全监控系统的部署等,到现今“互联网+教育”理念的逐渐深入,如何合理配置资源、实现教育资源共享,有效发挥校园信息数据作用已成为一个非常重要的课题[1]。
国外对教育大数据分析起步较早。加拿大湖首大学于2008年根据学生近期行为设计了学生行为分析系统,定期指导学生下一步的学习、生活计划,及时向教师报告学生的状态[2]。美国亚利桑那州立大学使用eAdvisor系统分析并监控学生行为,如学生行为异常,系统将向教师报告此类事件,以保证学生在正确的学习轨道上,系统使用至今该校贫困生毕业率提升15%[3]。2017年Medini[4]以教学大数据挖掘与管理为中心,以数据资源共享为前提,搭建了一套教学管理数据分析系统,为后续的研究人员提供了参考。
目前,我国依据教育大数据,通过数据挖掘技术改善学校管理的研究报道逐渐增多。潘奇[5]基于Hadoop设计了高校学生行为分析系统,通过对学生在校行为统计分析监测异常行为状态。杨国静[6]利用数据挖掘工具weka系统教师评价进行聚类分析,发现了影响学生成绩的主要因素,为提高教学质量提供理论依据。邓晓燕等[7]在研究搭建教学管理及数据分析系统过程中,以B/S结构为基础,在分析数据信息传输及控制下,经过整合教学信息,实现数据分析效果的提升。金弢[8]从大数据分析角度出发,对教学管理系统现实应用进行研究,经过大数据信息分析后,提炼并管理数据信息,综合提升了数据化管理效果。目前由于教育应用系统建设初期规划不统一、数据标准具有多样性,产生了海量的多源异构教育数据。在教育大数据的整合过程中,由于复杂性数据产生了新的挑战,如何将不同系统出处的多源异构数据进行有效整合成为了亟待解决的问题。
教育部关于印发《教育信息化2.0行动计划》的通知[9]提出要完善教育管理信息化顶层设计,提高教育管理信息化水平,推进教育政务信息系统整合共享,使信息化应用水平和师生信息素养普遍提高。在分散于不同校园信息系统中的多源异构数据场景下,教育大数据油然而生,《中国基础教育大数据发展蓝皮书(2015)》中将教育大数据定义为教育活动中产生的、蕴含着巨大价值的数据集合[10]。因此,笔者基于多源异构教育大数据,经研究与设计,开发了一套多源异构教育大数据挖掘与应用平台,使教育大数据技术从基础理论走向实践应用,为信息化校园建设增添一份力量。
该多源异构教育大数据挖掘与应用平台,其定位是为教学大数据的汇集整合、海量存储、智能计算以及深入挖掘分析服务。基于校园内部多个信息系统产生的教育大数据,设计具备教学大数据梳理与全生命周期管理特点的系统平台,实现对学校各部门各来源的异构大数据进行整合、梳理与有效管理,并提供新的统一访问及应用接口。该系统通过数据访问中间件实现了多部门多系统的数据对接,并可实现大数据接入、清洗、验证、存储管理、预处理以及访问控制的全生命周期管理,可为相关大数据应用平台和挖掘引擎提供支撑和保障。同时,平台利用对接后的多源异构数据,实现了监控设备等基础设备管理功能,并完成对教师、课程、班级、学生、教案、人脸等数据管理等功能,通过对设备与数据管理,进而实现对数据的高效利用,通过数据挖掘分析实现多种分析功能,包括学习状态智能对比、教学质量影响因子分析、教学潜在问题挖掘等。最后利用分析后的教学质量等数据,实现趋势分析预测,为教学管理预案提供支撑。
笔者设计了集成数据信息、打破数据孤岛的多源异构教育数据库的数据挖掘与应用平台,平台架构如图1所示。该平台遵守各数据库功能及其业务之间独立性原则,实现对各异构数据库的实时整合,使教育大数据体系内部数据既独立又联系。架构设计遵循层次化、模块化思想,实现模块间低耦合,模块内具有高内聚的设计形态,架构包含由底到上相互依存的数据库层、数据融合层和统一应用层3个层次。
1.1.1 数据库层
数据库层主要是由多源异构数据库组成,其以校园内不同教育系统数据库为依据,将数据进行持续整理、采集、清洗和入库等操作后,通过数据库代理Web Service API(Web Service Application Programming Interface)与数据融合层建立联系,为融合层提供整洁数据。应用Web Service技术屏蔽不同系统和不同语言的差异,解决异构问题。由于校园内多个系统和渠道汇总接入的教育大数据通常存在缺失、错误、格式不统一甚至不一致的问题,因此大数据的梳理工作首先需要对多源异构数据进行清洗,这也是提高数据质量,保障大数据挖掘效果的关键环节。数据清洗的目标是标准、干净、连续的数据,便于数据统计、挖掘等。数据清洗包括预处理和缺失数据、格式内容、逻辑错误、冗余清洗及关联性验证5个阶段。
1.1.2 数据融合层
数据融合层可融合多源异构数据,以实现异构数据的信息共享,形成高质量数据仓库和视图。其中异构数据库代理Web Service API与数据库层建立联系,实现透明数据访问,应用层访问统一接口Web Service API与统一应用层建立联系,形成两层之间的透明数据通道。数据仓库和视图在权重及加权方式处理器与元数据处理器的支持下,发挥其作用。针对结构化数据进行索引统计,提供各种统计查询的预处理结果以及统计量计算结果,实现快速制作统计图表的功能。针对非结构化数据根据类型运行智能分析模型,提取视频、语音、物联网设备等数据中有价值的信息。数据应用层应用权重及加权方式处理器实现数据加权,同时设置元数据管理器提高数据利用效率。笔者设计了大数据访问控制模块,以实现对多部门多应用的数据访问接口,该模块的原则是安全,效率,兼容。安全性体现在该模块给出完善的数据访问权限,针对不同应用给出数据接口,保护教学数据安全性和原始数据中的隐私信息。
1.1.3 统一应用层
统一应用层利用异构融合数据支撑应用搭建,建立了基础数据管理、教学体征分析、智能挖掘、视频管理4个子系统。基础数据管理系统包含教师、课程、班级、学生、教室等基础信息管理,可便捷查看校园内部教育信息。教学体征分析系统依据不同指标数据的权重分析各类教学体征,包含授课质量、课程数据、班级数据、学生行为分析和行为综合统计等。智能挖掘子系统汇集了多维度教育大数据,包括物联网感知数据、教学体征诊断、实训、基础教学信息、成绩获奖等教学统计数据,通过分析计算实现教学过程成果的智能对比、多因素影响显著性分析、潜在问题挖掘、趋势预测等功能。视频管理包括实时视频监控、监控视频编辑和设备信息等功能,用于为学生实时行为分析助力,提升教学质量。
多源异构教育大数据挖掘与应用的平台生命周期包括数据采集、存储计算、分析挖掘与具体应用4个阶段。平台的功能架构,依据层次化分原则划分为5个层次(除数据源),即采集、存储、计算、分析挖掘和应用层。平台各层次具有基础功能,且各层次相互依存,密不可分,具体架构如图2所示。
图2 平台功能架构
教育大数据数据源包含5种类型数据,分别为管理、资源、教学行为、学习行为和评价类数据。管理类数据主要以结构化形式存储在关系型数据库中,其中包括学生学籍、教师档案等数据; 资源类数据主要以文本、音频和视频等非结构化形式存储在文件系统中,其中包括媒体素材、教案和课件等数据; 教学行为类数据与学习行为类数据主要是实时数据,由监控摄像头采集上课期间老师与学生的行为产生,前者包括教师讲解与演示、答疑与指导等产生的数据,后者包括学生信息检索、课堂交流等产生的数据; 评价类数据为非实时数据包含综合素质评价等数据。
采集层包含日志数据采集、数据库同步、文件导入、数据爬取、API(Application Programming Interface)接口等数据获取与采集技术。
存储层包含分布式文件系统、数据库、数据仓库、消息系统、内存存储系统,采用分布式存储架构,关系数据库和NoSQL存储分别存储结构化和非结构化数据(视、音频等)。
计算层由批处理计算、流计算、内存计算和图计算引擎组成,这些计算引擎为教育大数据挖掘提供计算处理能力。批处理计算引擎用于并行计算大规模数据,保证计算效率; 流计算引擎处理实时流式数据,提高实时分析能力; 内存计算引擎提高内存空间的计算速度; 图计算引擎处理图数据[11]。
分析挖掘层具备两项功能教育数据挖掘和学习分析功能。数据挖掘应用回归分析、聚类分析等方法对教学质量数据变化进行归类整理和挖掘。学习分析应用关联规则、情感分析、趋势预测等技术解决课堂教学问题,如课堂学生行为分析等,通过数据挖掘与分析帮助校园管理者做出有利的决策,提升教学质量。
应用层包含设备及基础信息管理、学习状态对比、教学质量分析、教学日历、教学行为诊断等多种功能。应用层基于分析挖掘层提供的服务开发将要实现的功能。
1.3.1 设备及基础信息管理
设备及基础信息管理子系统包含如下功能:1) 实时视频监控; 2) 视频管理; 3) 设备管理; 4) 教师管理; 5) 课程管理; 6) 班级管理; 7) 学生管理; 8) 教案管理; 9) 人员(人脸信息)管理。
1.3.2 教学日历
教学日历模块如图3所示的每日课程信息。可实况追踪回溯课堂信息,提供课堂教学视频回看,本节课基本信息(课程、教师、学生等),以及本节课体征诊断结果统计图等功能。
图3 教学日历模块示意图
1.3.3 学习状态智能对比
智能对比模块参见图4所示课堂行为对比、异常数据对比和综合评分排名,可实现学习质量情况的跨班级、教室、课程对比,支持教师、学生、课程、班级的选择,智能比对课堂行为、异常出勤、综合评分等信息,发现优劣和问题特征。
1.3.4 教学质量影响因子分析
教学质量影响因子分析功能包括成绩、课堂行为综合评分影响因子和教学因素关联强度的分析,解析、关联各因素对学生表现和成绩的影响,如图5所示的成绩分析、课堂行为综合评分分析结果和教学因素关联强度分析。其中,成绩分析功能是针对教师、学生、课程因素对考核成绩的影响分析。课堂行为综合评分分析是针对教师、学生、课程因素对课堂表现的影响分析。教学因素关联强度分析提供课堂表现与授课内容匹配度关联度分析,课堂表现与成绩关联度分析,授课内容匹配度与成绩关联度分析。
图5 教学质量影响因子分析
1.3.5 教学潜在问题挖掘
教学潜在问题挖掘模块如图6所示,包含学生个人、班级、教师和课程聚类分析效果图,通过无监督聚类技术发现异常类别,挖掘存在潜在问题的班级、学生、课程和教师数据。建立数据分析模型,通过无监督聚类算法将学生数据向量聚类,最后在小类别中寻找潜在问题群体(问题生、课程、教师、班级等)。
1.3.6 趋势分析预测
趋势分析预测模块为如图7所示的趋势预测和异常行为预警分析。通过智能回归技术对教学质量等数据的变化趋势进行归类整理以及分析预测,进而为指定教学管理预案提供有力支撑。该模块支持课堂综合表现(教学体征诊断结果)趋势线的构建,同时对不同班级、课程等的表现趋势进行分类评价,例如稳步上升、趋势下降、起伏较大等问题并给出散点统计图,对表现下降以及起伏较大等问题需要重点关注。趋势跨度异常检测模型能发现学习质量趋势线中出现的异常波动,这些跨度异常通常表明可能出现了值得注意的突发问题。趋势预测模型给出未来一段事件教学和学习质量趋势的预测,为教学管理预案指定提供有力辅助。
图7 趋势预测分析
本节将检验平台实际应用效果,依次介绍部署环境、核心功能测试,并给出各模块测试过程及结果。
面向多源异构教育大数据挖掘与应用平台的部署环境分为硬件和软件环境,如表1和表2所示。
表1 硬件环境
表2 软件环境
表3为平台各部件性能测试的测试步骤和结果。
表3 各部件性能测试
表4和表5分别给出了平台的基本功能测试和大数据分析功能测试步骤和结果。
表4 平台功能测试
表5 大数据分析功能测试
该多源异构教育大数据挖掘与应用平台基于人工智能、物联网和大数据技术构建。实现智慧教学体系应用,对于教学过程的多维度、实时感知及物联网设备采集数据的智能分析、建模,有利于对教学过程、学生、教师行为、状态、能力的智能理解。平台系统利用人工智能模型的输出以及多源异构教育大数据挖掘引擎的输入,基于大数据挖掘技术分析获得各类分析结果,包括教学体征诊断、学习状态智能对比、教学影响因素分析、潜在问题挖掘、教学质量趋势预测等。
该平台具有较好的拓展性,可针对学院需求提供拓展服务,从而应用于职业学校、高等院校或技能培训机构的教学、实践、评审等环节,实现教学过程的数字化和自动化管理,通过对教学质量的智能化监测与分析,辅助教育研究人员探索教学规律、识别优秀教学实践,并提出优化教育教学的建议和方法,推动教育向现代化、智能化的方向发展,助力教育事业的高质量、高水平发展。