施成湘, 周 婷
(重庆第二师范学院 数学与信息工程学院, 重庆 400067)
随着信息技术的快速发展和普及,大量的数据和信息得以积累,如何从大量数据中提取出有用的信息已成为信息技术研究的重要课题之一,数据挖掘技术应运而生。研究人员从不同角度、不同侧重对数据挖掘技术的应用进行了深入的研究与探讨。尤其是近年来,随着全世界对教育热点问题关注度的持续升温,新思想、新方法层出不穷。吴文玲[1]以大量学生课程数据为切入点,探讨了如何利用数据得到统计意义上的课程相关性,为课程设置提供决策依据;张濠天等[2]对数学专业学生的成绩数据进行研究,确定了不同类型课程之间的相关性,努力探索提高学生课程成绩和教学质量的方法;陈喜华等[3]对学生成绩进行分析,挖掘出学生各门课程成绩的分布情况及课程之间的关联性,并对挖掘结果进行了详细的分析和说明[4];李芳[5]将数据挖掘技术应用在学生成绩数据分析中,为设计课程的顺序提供了可行性建议。
推动高校教师改进教学, 激发学生学习积极性,需要对学科课程的设置、课程之间的相互关系、学生学科成绩的综合评定等问题进行深入的思考。本文先利用数据挖掘中的关联规则技术对师范专业学生课程成绩数据进行分析,得出课程之间存在的相关性及重要性;再利用数据挖掘中的聚类分析技术预测课程重要性并得出学生在校的学习情况,为人才培养方案的制定、课程的设置提供决策支持。同时,教师也可以根据挖掘结果因材施教,从而更加灵活地组织教学,提高教学效率。
关联规则(Association Rules)是指大型数据库系统,它可以快速找到各种事物之间的潜在和有价值的关联,并以规则表达。关联规则的研究和应用是数据挖掘中最活跃、最深刻的分支。为了使挖掘出来的关联规则有效,需要给出两个最常用的指标:最小支持度和最小置信度。
(1)对于规则X→Y,其规则的支持度定义为
(1)
其中,N(X∩Y)表示同时包含前项X和后项Y的事务数量,N表示总的事务数量。规则支持度反映了该规则的普遍程度。
(2)对于规则X→Y,其规则的置信度定义为
(2)
其中,N(X∩Y)表示同时包含前项X和后项Y的事务数量,N(X)表示包含前项X的事务数量。规则的置信度实际上是在给定前项X的前提下,后项Y的条件概率。
一般来说,一个“好”的关联规则应当同时具有较高的支持度和置信度。因此,在实际使用过程中,通常设置最小支持度和最小置信度。
Apriori算法是一种挖掘关联规则的频繁项集算法。一个有效的关联规则应当满足SX→Y≥Smin且CX→Y≥Cmin,故Apriori 算法可以分为三步:
(1)设定最小支持度Smin及最小置信度Cmin。
(2)根据最小支持度,生成频繁项集。
(3)根据最小置信度,基于频繁项集生成最终关联规则。
数据来源于重庆第二师范学院本科小学教育专业(全科)347名学生四年来25门专业必修课的成绩,通过关联规则Apriori算法,从学生成绩的数据中发现内部频繁项集之间的关联,找到数据与数据间的潜在关系、课程与课程之间隐含关系、某些课程对其他课程的影响程度,为课程的设置和教学计划的制定提供一定的参考依据。整个实施过程分为数据预处理、模型建立、挖掘结果分析与评估应用四部分。
数据信息包括学年、学期、任选课程、公共必修课、实践课、专业必修课、课程学分、学分绩点、平时成绩、期末成绩,对缓考、免考、旷考等情况不予考虑。由于学生成绩总体水平较高,各科的差距不明显,为了让课程成绩之间有点差距,方便数据分析,对课程按性质划分大类,相似课程进行合并(见表1),以均值的形式呈现,经过处理后为12大类。
同时,为了方便数据的处理,本文采用表格格式(一般来说,进行关联分析的数据形式可以有表格格式和事务格式),即将学生成绩高于该类课程均值(347名学生该类课程的总成绩除以总人数)的记为1,低于该类课程均值的记为0(如图1所示)。
表1 相似课程合并
图1 2014级小学全科专业必修课
将专业必修课课程成绩全部导入SPSS Modeler中,建立如图2所示的Apriori算法模型。
在建模时,系统默认的最低条件支持度为10%,最小规则置信度为80%,最大前项数为10,运行得到5505条关联规则。规则太多,分析较复杂,所以要提高最低条件支持度和最小规则置信度,减少规则条数,得到有效、有价值的信息,但当最低条件支持度为31%、最小规则置信度为92%时,得到5条关联规则。规则太少,可能会丢失有价值的规则信息,最终选择最低条件支持度为31%、最小规则置信度为91%,得出10条关联规则。考虑最大链接数太大,得到的网络图太复杂,不方便分析,将网络图中的可显示的最大链接数设置为25。
运行Apriori算法挖掘模型得到的结果如图3和图4所示。
图2 Apriori算法挖掘模型
图3 Apriori挖掘模型
从图4可以看出不同课程之间的关联程度:连线越多,说明与其他课程之间的联系越紧密;连线越粗,对其他课程的影响程度越大。彼此联系紧密的课程应该作为基础课程使用,而且应该优先设置,比如教学书法、小学教学课程、班队管理。对于彼此影响程度高的课程,重要的是要考虑哪个课程是先导课程,哪个是后续课程,如小学教学课程和教学书法、班队管理和教学书法、心理学和班队管理等。
图4 网络图
根据图3的挖掘结果,并结合对图4的分析,可以得出:
1.键盘、心理学、教育测量与评价能够促进教学书法的学习,说明教学书法应该开设在这三门基础课程之后,教育经典、课程与教学、媒体与课件制作虽能促进教学书法的学习,但影响并不大。
2.教学书法和小学教学课程、班队管理和教学书法之间是互为促进的关系,可以同时开设。
3.键盘能促进小学教学课程的学习,可以优先考虑。
4.模型中没有挖掘教学书法与微课之间的关联规则,但网络图表现为密切相关。可能是数据集成和清理、数据转换错误或它们没有达到最小条件支持度和最小规则置信度。
5.在模型中没有发现媒体与课件制作和键盘之间的关联规则,这表明这两门课程相关性不强。
通过以上分析,可以明确课程与课程之间的关联关系以及课程之间的重要性。模型的挖掘结果可为学校的课程设置、教学计划的制定和人才培养方案的修订提供决策支持。
为了更准确地知道课程之间的重要性以及该年级学生的学习成绩分布,继续对学生的成绩进行聚类分析。通过K-Means算法对学生的课程成绩进行聚类,得出学生课程成绩分布情况,并预测课程的重要性,从而指导和建议学生选课和学习,达到提高教学效果的目的。建立K-Means算法模型,如图5所示。
图5 K-Means算法挖掘模型
在运行模型之前,为了找到聚类质量的转折点,选择合适的聚类数,需要分别将聚类数设置为2~6,共5个数值。每运行一次,观察其模型,并记录模型的聚类质量(见表2)。
表2 不同K值的聚类质量
由表2可知,第二次,当k=3时,是聚类质量的转折点。选择这一转折点对学生的课程成绩进行分析比较合理,聚类数为3,最后运行模型得到以下结果(见图6)。
图6 各聚类均值
根据图6(部分图)所示,每个类别是分数组,每个类别中的分数是分数组的平均值。这些平均值是对学生成绩进行分类和评价的标准和依据。将图6中的平均值汇总在表中,学生成绩的聚类平均值如表3所示。
根据图7的MYMKM-K-Means的分布和对表3的学生成绩聚类均值的分析可得:
第一类学生比例最大,占总数的48.7%,他们成绩中等,少数科目成绩稍差。教师应该指导这类学生全面发展,这类学生应在偏差的学科上多下功夫,遇到问题主动、积极地向同学或者老师请教,从而防止偏科严重化。
第二类学生比例最小,占总数的17.29%,他们成绩较差,其中心理学和教学书法相对更差,而普通话和微课相对较好。教师要提醒这类学生更多地了解心理学和书法知识,弥补这方面知识的缺陷,同时督促学生自律,提高他们学习的积极性。
表3 学生成绩聚类均值
图7 MYMKM-K-Means的分布
第三类学生占总数的34.01%,他们成绩最好,而且所有科目的成绩都比较平衡,没有严重的偏差。教师在教学过程中应注意提高他们的实践能力和专业技能。
从图8可以得到12门课程的重要性,如表4所示。从表4可以清楚地看出小学教学课程是最重要的,重要性为1,微课是最不重要的,重要性为0.02。
结合图8和表4分析,教学管理者可以依据不同课程的重要性来适当增加重要课程的学时。当预测变量的重要性大于0.5时,可以视为相对比较重要的课程,则从表4可以看出小学教学课程、心理学、键盘、教育学、教育测量与评价等课程是相对比较重要的课程,那么就可以适当增加这几门课程的课时,从而促进后面课程的学习,也有利于教学人员的教学,有利于提高学生的课程成绩。应安排具有丰富教学经验的教师承担这些课程的教学任务,从而提高教学效果。
图8 预测变量的重要性
表4 课程重要性
本文运用Apriori算法对学生课程成绩数据进行关联规则分析,得出了课程之间的相关性及重要性,提出了合理设置课程顺序的建议;运用K-Means算法对课程成绩数据进行深层次的聚类分析,不仅预测了课程的重要性,为课程的设置提供决策支持,还可让学生了解自己整体成绩的相对位置和薄弱科目,从而确定自己的学习方法;教师可以根据挖掘的结果,分析各类学生的表现特点、学习状况以及教学中存在的问题,从而调整教学方法,以便更好地实施教学改革,提高教学质量和教学效果。