可视化在高校在线教学系统数据挖掘中的应用研究

2022-08-01 04:04付志文吴东醒贺超波
现代计算机 2022年11期
关键词:数据挖掘可视化数据库

付志文,吴东醒,贺超波

(仲恺农业工程学院,广州 510225)

0 引言

随着MOOC 在高校的大规模推广应用,各高校纷纷建立起了在线教学平台,在线学习已成为当代大学生不可或缺的学习形式。在传统的面授课堂中,师生没有物理隔阂,可以及时开展交互,在交互过程中教师不断根据学生反馈情况调节自己的教学策略。在线学习的课堂,师生地理上处于分离状态,一般采用录播视频及辅助资料开展学习,师生间的反馈限定于预定的一些收集技术,如作业、交互式考试、论坛答疑。这些技术所获取的交互情况对比面授课堂还是远远不够的,不足以支持教师全面掌握学生的在线学习情况。

在线学习平台可以采集到更多细粒度的教育行为数据。例如,学习者资源浏览行为记录、交互记录、作业情况、测验成绩、小组报告质量、论坛发帖的数量和质量等,它们能保存到数据库中或系统日志中。对这些数据进行处理,提取出有意义的、具有潜在教育价值的信息就是教育数据挖掘所关注的领域。教育数据挖掘(Educational Data Mining,EDM)是一门新兴的学科,关注各种用于分析来自教育环境的大规模数据的方法,并使用这些方法来更好地理解学生以及他们在其中学习的环境。这些数据通过EDM 可以转化为有用的信息,从另一个层面更多地收集在线学习平台的使用情况。

当前国内外已有较多对EDM 的研究与实践,周庆等综合分析了EDM 在新型网络教学环境下智能导学系统、计算机支持的协作学习、基于游戏的学习系统、社交网络方面的应用。国内外已有研究指出,对在线教学系统进行EDM 可产生良好作用,李婷等认为EDM 更重要的意义在于指导和改善学习,提高教学质量。EDM 按数据使用方向可分为管理部门、教师、学生。管理部门可以利用这些信息来了解学校开展在线教学的整体情况,继而通过一定的政策改进学校在线课程管理制度,推动在线教学的平衡发展;教师可以利用这些信息来了解学生个体及总体情况,改进教学过程;学生也可以从这些信息中受益,比如获取合适的学习内容,调整自己的学习过程等等。

本文依托某大学的在线教学平台,试图通过教育数据挖掘获取数据背后的教育隐义,为学校在线教育改革提供可行性建议。

1 研究样本概况

本文所研究数据来源于某大学所使用的在线教学平台,平台在2016 年投入使用,建有课程200 多门,用户数8 万余人,系统访问量总计200 万多次。整体来看,选取的系统数据量较大,满足EDM 的需求。系统采用.net +SQL Server的技术路线开发,整个系统由四台服务器组成,Web 系统、数据库系统、文件系统分别使用一台服务器,另有一台备份系统。

该学习平台已自带简单的数据分析工具,包括浏览趋势分析、活跃度分析、课程建设分析、互动分析。浏览趋势分析包括总用户、总浏览量;活跃度分析包含师生的在线情况、活跃度排行等;课程建设分析包含网站、MOOC、资源的建设分析;课程互动分析包含作业、讨论等师生互动的排名。

这些数据分析工具对了解系统的整体运行情况有一定的帮助,但是缺陷也比较明显。一是统计指标比较少,缺少对课程运行细节分析的观测点。二是统计的时间跨度较小,仅提供最近60 天的统计查询,如果需要分析不同时间段的数据发展趋势,就要对系统数据库中保存的数据进行挖掘。系统后台记录的数据较为全面,但是系统自带的分析系统没有对这些数据进行有效的分析利用。例如数据库对用户登陆情况记录就包括用户ID、用户类型、登陆时间(年月日时分秒格式)、登陆IP 等四类信息,系统自带的分析系统仅统计了总的浏览量。实际上对教育工作者更有意义的可能是某个ID 每次访问系统时间、某个ID 登陆次数等,这些数据有助于形成学习者的用户画像。以上不足之处也是本研究的一个逻辑起点。

2 研究过程

Romero 等等总结了EDM 研究中正常的工作流程,这个流程图已被研究者们广泛采用,如图1 所示。从数据挖掘的角度来看,数据处理流程包含了预处理、数据挖掘和评估三个阶段;从教育的角度来看,这是一个从教育环境产生的数据中发现知识,再利用这些知识来改善教育环境的循环过程。教育环境中收集到的原始数据需要经过预处理(数据清洗、数据集成、数据规约、数据变换)再进行数据挖掘,从海量数据中提炼出的教育隐义即为知识,可用以改善教育环境。这个工作流程图是本研究参考的范例,以下根据EDM 的流程阐述研究开展的具体过程。

图1 EDM工作流程图

2.1 数据预处理

通过分析该在线课程平台数据库管理系统发现,整个系统由五十多个数据表组成,剔除与教学无关的系统运行支撑数据表后,导出与在线教学密切相关的10 个表格,具体情况见如表1。

表1 在线教学原始数据表

经过以上数据清洗之后,进行数据转换。教学平台原始数据存储于SQL Server中,而本系统拟采取Java+MySQL 的架构进行开发,因此需要将数据从SQL Server 中转换格式后导入到MySQL 数据库。使用SQL Server 自带的数据导出功能将数据存储为SQL 文件,然后使用数据库管理软件Navicat for MySQL 的导入数据功能将SQL文件还原为数据库结构、数据表及数据。

2.2 数据挖掘

数据挖掘的目的是从数据中建立模型,主要包括预测模型(predictive model)和描述模型(descriptive model)两类。本文对在线学习平台数据挖掘的目的是建立一个描述模型,以发现平台上线以来的总体运行状态,用于评估参与在线教学各方的绩效。Romero 等把网络教育系统中的特定数据挖掘方法分为统计和可视化及Web 挖掘两类,本文所使用的是统计和可视化。可视化(visualization,VS)将信息或知识形象化地展示,可视化技术能够帮助人们更加直观地理解教育数据。前文已提及,学习平台本身自带的可视化分析功能较弱,为此本研究开发了一个可视化分析系统。

系统采用主流的Browser/Server 架构,使用Springboot 技术,以JDK8(Java SE Development Kit 8)作为开发语言,前端框架选择VUE组件式开发框架、Element UI 页面渲染框架与jQuery 框架,后端框架选择Springboot 集成开发中间件框架,数据库采用MySQL,数据可视化分析框架选择Echarts,前后端数据交互的实现选择Ajax异步通信。系统架构如图2所示。

图2 系统架构图

可视化分析的实现原理是根据数据库表累积的数据进行可视化图表的绘制,通过可视化图表如柱状图、曲线图等显示纷繁复杂的数据,方便解读数据背后的教育意义。图3是对在线课程的“社区发帖”这一指标进行可视化分析的结果。

图3 数据可视化图例

在技术实现上,为了在系统中实现可视化分析图表的复用,每个可视化图表分别使用一个VUE 组件进行绘制。图表的绘制主要依赖于Echarts.min.js 文件,通过前端JavaScript 语言创建option对象并设置不同的属性来达到图表不同效果的展示。由于数据量庞大,如果每次都发送Ajax 请求到MySQL 数据库读取数据,会造成数据库查询缓慢,前端展示效果不佳。因此使用Redis 来对庞大的课程数据进行缓存,这样每次Ajax 访问会先从内存中获取缓存的课程数据,相比于每次都直接访问数据库,使用Redis 中间件可以大大提高查询的效率,减轻数据库的查询压力。

在线课程数据可视化系统对10 个数据表进行了可视化分析,分析的依据是表2 所列的11个指标项。

表2 数据可视化分析指标一览表

从表2可以看出,本文的数据可视化分析以教学单位为统计口径,分别对教学行为总量和教学行为分时段变化趋势进行了分析,这样有助于对各教学单位在线课程运行情况的总体情况和变化趋势形成直观的认识。

图4 课程点击量变化趋势图

2.3 知识

知识是EDM 的研究结果,EDM 产生的知识将会对教育环境产生一定的影响。具体到本研究而言,是对前文得到的数据可视图表进行解读,进而为学校在线课程管理策略提供参考。因篇幅所限,下文仅以“课程点击量变化趋势”这一指标项分析结果进行简要阐述,其他指标项的解读从略。

(1)多数教学单位在线课程点击量较少,比较活跃的仅有马克思主义学院、机电工程学院、计算科学学院、自动化学院、人文与社会科学学院和信息科学与技术学院6个教学单位。其他教学单位的活跃度较低则可能是在线课程建设在其教学平台的缘故。

(2)马克思主义学院自2018年9月以来,课程的点击量逐步攀升,是现有的教学单位中在线课程点击量最高的。据了解,该学院自2018年以来多个课程建设项目获得省教育厅的质量工程立项,已有《马克思主义基本原理》《思想道德修养与法律基础》2门课程持续开展线上教学,这两门课程也是公共必修课,因此课程使用率非常高。

(3)2020 年上半年疫情期间,学校实行“停课不停学”的在线教学模式(2020 年3 月—2020 年7 月),马克思主义学院的在线课程点击量相对于其他学院有很明显的上升走向,其次是计算科学学院,同时其余学院均有上升;但相对于马克思主义学院和计算科学学院的数据,上升幅度相对平缓。

综合以上可知:①该平台在疫情“停课不停学”期间起到了较大的作用,为在线教学的开展提供了基础条件;②各教学单位在该平台的课程建设非常不均衡,单一平台的数据尚不能完全反映学校在线教学开展情况,需要进一步调查其他在线学习平台的数据。

3 研究结果及局限性

本研究目的是通过对某大学在线课程平台进行教育数据挖掘,探寻该平台建设及运行情况的整体趋势。关注的是各教学单位在线课程运行方面的指标,通过2 个一级指标11 个二级指标的数据可视化揭示了在线课程数量、在线课程活跃度情况。研究结果可为学校的教务管理、教育技术部门提供决策支持,以改进在线课程管理制度,也可作为对教师和课程进行评价的数据依据。

研究的局限性在于,仅使用描述模型通过分析数据对在线课程的开展情况的历史进行了总结性描述,没有做到预测性的分析。在数据挖掘的使用方面,倾向于为管理决策提供支撑,未对某一个在线课程进行教学组织策略、教学进程、教学讨论、教学成绩等的数据进行分析,也未对具体的师生教学行为数据进行微观的挖掘。未来可以进一步开展挖掘参与在线教学的个体学习数据的工作,具体到每个教师、每个学生的教学行为数据,如教师对课程建设的贡献度,包括上传资料,发布测试,批改作业,回答问题等行为数据;学生方面,可关注学生的学习行为数据,如完成作业、完成测试、观看视频、观看文本资料及与其他同学的互动情况等。

猜你喜欢
数据挖掘可视化数据库
基于数据挖掘探讨慢性肾衰竭处方规律
数据可视化设计在美妆类APP中的应用
思维可视化
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
复变函数共形映射的可视化实验教学
复变函数共形映射的可视化实验教学
数据挖掘综述
数据库
软件工程领域中的异常数据挖掘算法