韩开山 刘宝芳
[摘 要]基于学生考试成绩的调查数据,针对数据挖掘课程教学中存在的问题,文章提出了案例驱动的教学改革方案。在数学基础成绩无显著差异的情况下,通过方差不等的独立样本t检验,表明教学改革后统计专业和信科专业的数据挖掘成绩存在显著差异。利用Rubin的反事实因果效应理论,在可忽略假设的条件下,以数据挖掘的考试成绩为因变量,以是否进行教学改革为处理标识变量,以数学基础成绩和性别为自变量,建立因果推断效应模型。结果显示,教学改革的平均因果效应为2.13,95%置信区间为[0.46,3.81]。
[关键词]教学改革;案例驱动;平均因果效应
[中图分类号]G642[文献标识码]A[文章编号]2095-3437(2024)04-0037-04
数据挖掘作为一门重要学科,在当今信息爆炸的时代发挥着重要作用。然而,目前国内部分高校的数据挖掘课程教学仍侧重于理论知识的灌输,实践内容局限于理论教学的实例化,没有真正建立起以实际应用为目标和主线的课程体系[1-2]。传统的数据挖掘课程教学存在诸如理论与实际脱节、学生缺乏实践经验等问题[3]。因此,为了更好地培养学生的实际应用能力,案例驱动的数据挖掘课程教学改革势在必行。
本文基于中北大学(以下简称我校)2020级统计专业和信科专业的教学改革实验数据,分析案例驱动教学改革的效果。案例驱动强调通过案例收集、整理、分析、小组讨论、实践操作等方式,引导学生积极参与教学过程,进而提升其分析能力和动手能力。在教学过程中,采用案例化教学的方式,即以具体案例为切入点,通过分析案例的应用背景和数据特点进行数据预处理,并根据案例需求和数据特点建立统计模型,分析假设检验结果。这种教学方式将案例与数据挖掘知识紧密结合,不仅加深了学生对数据挖掘知识体系的理解,还提高了他们在实际操作中处理数据的能力。在实验环节,学生不再局限于简单的验证性实验,而是全程参与案例问题的求解过程,从而有效提升了他们的实践能力。
一、教学改革效果统计分析
为了全面评估教学改革的效果,课题组精心设计了针对我校2020级统计专业和信科专业共204名学生的实验教学方案。具体而言,对统计专业的104名学生采用新的教学方式(调整教学内容,增加案例教学、简化理论推导、增加编程实践)。为了客观比较学生的数学基础,课题组选取这两个专业学生的数学分析1成绩作为参考依据。然而,由于数据挖掘课程作为一门基础数据课程,在大三第二学期开设,部分学生因转专业而未能学习数学分析1。因此,在最终确定的调查样本中,统计专业和信科专业各包含95名学生。
(一)数学基础分析
数学分析课程作为数学学院各专业的必修课,能够客观反映学生的数学基础水平。课题组对统计专业和信科专业各95名学生的数学分析1 成绩进行分析并绘制散点图(见图1)。
从图1 可知,统计专业和信科专业的数学分析1成绩无显著差异。为了更清晰地展现成绩分布的特点,课题组进行了描述统计分析(见表1)和独立样本t检验(见表2)。可以看出,统计专业数学分析1成绩的平均值为73.93,信科专业数学分析1成绩的平均值为71.41,两者差值为2.52;统计专业数学分析1成绩的中位数为75,信科专业数学分析1成绩的中位数为72,两者差值为3;统计专业数学分析1成绩的最小值为37,最大值为98,极差为61,标准差为14.73,信科专业数学分析1成绩的最小值为36,最大值为99,极差为63,标准差为17.96。数据表明,信科专业数学分析1成绩波动相对较大。为此,进行莱文方差齐性检验,结果显示F值为6.40,P值为0.01,在显著性水平0.05 的条件下可以认为两个专业方差不等。课题组进一步进行方差不等的独立样本t检验,结果显示t值为1.06,P值为0.29,说明数学分析1成绩没有统计学意义上的显著差异。
(二)教学改革效果基础分析
针对当前数据挖掘课程教学中存在的问题,本次改革主要提出以下三个方面的改进措施。
1.合理安排教学内容
为了进一步优化课程内容,课题组结合实际情况精心安排了丰富的教学内容,涵盖背景介绍、数据获取、数据探索和预处理方法、离群点检测及处理、回归分析、决策树、人工神经网络、支持向量机、聚类分析、关联规则、社交网络分析等。 其中,理论学时共计32学时,实验学时共计24学时。特别是在数据探索和预处理方法、离群点检测及处理这两部分,课题组将结合实际案例(天猫商城销售数据、泰坦尼克号数据、车辆检测数据等)分析数据背景,研究数据特点,并进行描述统计分析和离群点处理。通过对案例的分析引入新问题,结合所学知识给出解决问题的数据挖掘方法,让学生真正融入教学过程。
2.采用案例化教学方式
为培养学生处理实际数据能力和操作技能,课题组紧密结合本次教学改革的目标,采用案例化教学方式。针对各个知识点,以实际案例为起点,明确案例的应用背景和目标,对数据进行探索性分析,并根据数据特点建立统计模型以及进行检验说明,以更好地将案例分析与数据挖掘知识有机结合。
3.引入案例驱动和竞赛驱动的教学模式
在教学方式上,引入案例驱动和竞赛驱动的教学模式,同时借助网络资源实施翻转课堂的教学方式[4]。课题组以Kaggle、泰迪杯数据挖掘比赛试题为蓝本,编写以实际问题为背景的综合性案例,研究方法涉及数据挖掘分析的各个模块,为团队协作处理实际数据问题提供素材。
本次教學改革的目标主要有以下两个方面:
第一,教学内容着重于数据挖掘的全过程,涵盖数据获取、数据清洗、异常数据处理、模型建立、结果分析、假设检验等环节,全面强化实操性,确保学生掌握获取数据、处理数据、分析数据、应用数据的能力。
第二,调动学生的学习积极性,鼓励学生积极参与数据挖掘的各种竞赛,以竞赛促学习,以案例分析促理解,整体提高学生的实操能力。
针对本次教学改革目标,课题组对2020级统计专业的教学内容、案例教学、理论推导、编程实践等方面进行了改革实践,2020级信科专业则按照传统的教学方式进行教学。根据数据挖掘成绩散点图(见图2)可知,信科专业数据挖掘成绩整体分值普遍低于统计专业。
根据数据挖掘成绩描述统计分析(见表3)可知,统计专业数据挖掘成绩的平均值为79.81,中位数为80;信科专业数据挖掘成绩的平均值为76.80,中位数为76;两个专业的平均值相差3.01,中位数相差4。统计专业数据挖掘成绩的最小值为70,最大值为95,极差为25;信科专业数据挖掘成绩的最小值为57,最大值为93,极差为36。统计专业数据挖掘成绩的标准差为4.77,信科专业数据挖掘成绩的标准差为7.12,说明信科专业数据挖掘成绩两极分化较为严重,成绩波动相对较大。根据莱文方差齐性检验(见表4),结果显示F值为17.10,P值为0.00,两个专业数据挖掘成绩的方差不等。通过异方差独立样本t检验,结果显示t值为3.42,P值为0.00,说明在数据挖掘成绩上两个专业之间存在显著差异。具体来说,统计专业数据挖掘平均值高于信科专业数据挖掘平均值,说明差异具有统计学意义。
虽然两个专业的数学分析1成绩没有统计学意义上的差异,但数据挖掘成绩具有显著差异。为排除其他因素的影响,课题组采用Rubin的反事实因果效应理论分析本次教学改革的效果。
(三)教学效果因果效应评估
设[Zi]为教学改革课程的参与情况,其中[Zi]=0表示第[i]个学生属于信科专业且未接受教学改革课程,[Zi=1]表示第[i]个学生属于统计专业并接受了教学改革课程。[SFi]表示第[i]个学生的数学分析1成绩,[XBi]表示第[i]个学生的性别,记[Xi=(SFi, XBi)],[Yi](1)和[Yi](0)分别表示第[i]个学生在接受统计专业和信科专业时的数据挖掘成绩,则:
[Yi=ZiYi(1)+(1-Zi)Yi(0)=Yi(1) Zi=1Yi(0) Zi=0]
定义教学改革的条件平均因果效应为:
[ATE(x)=E[(Yi(1)-Yi(0))Xi=x]] (1)
ATE表示在给定数分析1成绩、性别的条件下,接受教学改革和没有接受教学改革的数据挖掘成绩差值的平均值,即平均因果效应[5]。
在无混杂假设[(Y(0),Y(1))⊥ZX]条件下,ATE可以写为:
[ATE(x)=E[(Y(1)-Y(0))X=x]]
=[E[(Y(1)-Y(0))X=x, Z]]
=[E[Y(1)X=x, Z=1]-E[Y(0)X=]
[x, Z=0]]
=[E[YX=x, Z=1]-E[YX=x, ]
[Z=0]] (2)
假设回归模型为:
[Y=αZ+βXB+γSF+ε ε~(0, σ2)] (3)
将模型(3)代入方程(2)可得:
[ATE(x)=α+βXB+γSF-βXB-γSF=α] (4)
因此,教学改革的效果主要体现在模型(3)中Z变量的系数[α]。
通过建立模型(3)的线性回归方程(见表5),结果显示,数学基础(数学分析1成绩)、专业(教学方式)、学生性别均会对学生的数据挖掘成绩产生影响,其中t值和P值均小于0.05,说明学生性别和数学基础(数学分析1成绩)是影响教学改革效果的重要因素。因此,仅仅对统计专业和信科专业学生的数据挖掘成绩进行简单的平均值比较是不够准确的,这种比较方法忽略了其他潜在影响因素的作用。
根据Rubin的反事实因果效应理论,结合表5可知,教学改革的平均因果效变为2.13,95%置信区间为[0.46, 3.81],说明在学生的数学基础(数学分析1成绩)和性别比例没有显著差异的条件下,对教学内容、案例教学、项目驱动和竞赛驱动的教学模式、理论推导、编程实践等方面进行改革,可以充分调动学生的学习积极性和主动性,增强学生的学习参与感,使得学生成绩得到显著提高。
二、结论
总之,通过实施案例驱动的教学改革,数据挖掘课程不仅有效提高了学生获取数据、处理数据、分析数据、应用数据的能力,还极大地激发了学生的学习积极性,显著提高了学生的实操能力,从而实现了数据挖掘成绩的明显提高。
[ 参 考 文 献 ]
[1] 汤显, 石蕴玉. 新工科背景下数据挖掘课程教学改革与探索[J]. 教育教学论坛, 2019(42): 141-142.
[2] 卫志华, 孔思尹, 丁志军,等. 新工科背景下数据挖掘课程综合性实验设计[J]. 计算机教育, 2020(3): 127-130.
[3] 段炼, 韦英岸, 陆汝成,等. 測绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版),2020,37(1): 157-161.
[4] 修宇,刘三民.基于“竞赛驱动”的数据挖掘课程教学改革探索[J].福建电脑,2018,34(2):75-76.
[5] 韩开山,周晓华. 利用CATE曲线选择最优治疗方案:英文[J]. 应用概率统计, 2023,39(1):27-52.
[责任编辑:梁金凤]