高校学生修正成绩的课程关联数据挖掘*

2023-02-21 07:38张伟武延涛

智库时代 2023年4期

张伟武延涛

（中国矿业大学徐海学院）

一、引言

高校教育数据挖掘是高等教育研究的重要课题之一，利用数据挖掘技术可以发掘出数据中隐藏的规律和模式,从而为教育教学决策提供科学依据。高校学生课程关联研究要对多门课程成绩进行数据挖掘，成绩统计特征存在显著差异。本文将在以课程成绩分布为正态分布前提下，将不同课程成绩分布变换至同一均值和标准差的正态分布，利用插值函数法将不同课程成绩进行修正，然后依据等级赋分理论对各课程进行等级评定，再利用Apriori算法挖掘各课程间的联系。

二、课程成绩的修正

利用抽样课程成绩样本均值和样本标准差确定课程正态总体分布，利用正态总体分布确定成绩等级的期望比例，对所有课程进行标准化等级划分，再利用插值函数法对成绩进行修正。

（一）课程成绩正态总体估计

设抽样学生人数为n课程总数为N门，课程成绩总体为X,假设总体服从正态分布，第j门课程成绩的总体为Xj,第i名学生第j门课程成绩为(i= 1,… ,n;j= 1,… ,N),根据学生的成绩xij估计第j门课程Xj,的样本均值与样本标准差：

课程考试成绩总体X,的样本均值与样本标准差：

利用公式（3）估计X,的分布，即课程成绩总体近似服从。

（二）成绩等级分类的期望比例

表1 等级制与百分制的对应关系

由公式（1）-（3）可得学生课程成绩总体X,的近似分布，于是课程总体第l个分数段的期望人数比例为：

（三）线性插值成绩修正模型

依据表1的等级制划分，按照各分数段人数的期望比例pl将每门课程成绩分段，记为第j门课程第l个成绩分数段上下限（约定，应用线性函数插值法修正原始成绩，记修正成绩为(i= 1 ,… ,n;j= 1,… ,N),根据原始成绩确定所属分数段l值，且

三、课程关联规则与Apriori算法

（一）课程成绩的事务数据库

第i门课程成绩集合构成一个项集;k门课程成绩集合构成k-;包含所有k-（k= ( 1,… ,N)称为事务数据库，记为D。

（二）频繁项集与关联规则

1.频繁项集的概念

记µ为项集事务数的计数，一门或多门课程成绩构成的项集A支持度为项集A 事务数占事务数据库事务数的比例，即

预先设定的最小支持度阈值min_sup ,若

则称项集A为频繁项集，k为k-。

2.关联规则的指标

设课程项集中事项A和B关联规则表现为逻辑关系A⇒B，即课程项集中事项A蕴含事项B的关系，度量关联规则的三个指标分别为：逻辑关系的支持度、置信度和提升度。

支持度为包含事项A或B事务数占事务数据库事务数的比例，即

置信度为包含项集A和B同时发生事务数占项集A事务数据库事务数的比例，即

提升度为事项A蕴含事项 B出现的可能性，即

若lif.(A,B)=1时，则说明事项A和事项B相互独立；若lif.(A,B)＜1，事项A导致事项B不出现；若lif.(A,B)＞1，事项A蕴含事项B出现。

3.课程累计支持度

记“Ai”为第i门课程成绩为优秀，记“Bi”为第i门课程成绩为良好，记“Ci”为第i门课程成绩为中等，记“Di”为第i门课程成绩为及格，记“Ei”为第i门课程成绩为不及格。第i门课程与第j门课程的累计支持度：

（三）累计支持度原则

基于上述成绩修正模型和等级赋分原则，课程各相应期望等级人数相等，且各等级样本容量较少，当课程间出现至少两个等级频繁项集，且大于预先设定的最小累计支持度阈值时,即

则称课程间存在强关联。

（四）Apriori算法及关联规则

根据关联规则的Apriori算法思想：首先，通过设置最小支持度，找出所有频繁项集；其次，在频繁项集中产生关联规则；最后，设置最小累计支持度，计算课程间累计支持度，确定强关联课程。

四、实例分析

（一）案例分析数据准备

金融学专业以银行方向为例，根据调研法，选取体现学生通识素质、数理能力、专业素质、专业拓展课程18门课程，125名学生成绩。按照学期开设情况如表2。

表2 金融学专业前三学年课程列表

（二）绩数据标准化处理

根据学生成绩计算可得各门课程的样本均值与样本标准差（如图1）。

图1 抽样课程成绩均值与标准差

课程考试的成绩分布因课程不同分布不尽相同，抽样课程成绩期望等级分布如表3，各课程在不同等级的人数偶然性较大，实际成绩分布中如KC16，KC17在B等级大量集中，其余各等级偏少，在数据挖掘中将影响课程关联分析。

表3 抽样课程期望等级人数分布

现将不同课程成绩变换至同一标尺下进行修正。由公式（3）计算得课程成绩总体的均值与标准差为：

由公式（4）可得各分数段人数的期望比例如下表所示。

表4 期望比例与等级人数

依据各分数段人数的期望比例，利用插值公式（5）对18门课程进行成绩修正。

（三）课程关联数据挖掘

利用Apriori算法，对修正的成绩进行数据挖掘。设置支持度最小阈值，置信度最小阈值为0.50，累计支持度最小阈值。按照课程开课先后顺序，可计算得到表5。

（四）修正后成绩与原始成绩课程关联对比

利用Apriori算法计算并与成绩修正后的计算结果相比较，得出下列结论。

（1）成绩修正前后成绩分布变化。成绩修正前，课程成绩样本均值偏差较大，最小值为66.03，最大值为81.92；样本标准差最小值为4.23，最大值为17。利用成绩正态总体分布在保持排名不变的情况下对成绩进行标准化，保证课程各等级人数相等。

（2）成绩修正前后课程关联表现形式。原始成绩数据挖掘因为课程在某等级分数较为集中，两门课程关联比较集中，在关联结果中大多数仅显示一条关联记录；成绩修正后进行数据挖掘，两门课程可能出现多等级关联，结果记录显示多条记录,课程关联以同等级关联为主，极大的呈现课程间的强关联。

（3）成绩修正前后课程关联结果比较。我们对比7对成绩修正前后课程关联。利用原始数据分析的结果中三对课程（KC3，KC4）、（KC5，KC10）、（KC7，KC10）无关联，但事实上，对成绩进行修正后，以上三对课程存在两个不同等级的关联。

（4）成绩修正前后课程关联参数比较。通过对比表5和表6，修正成绩后四对课程关联（KC3，KC14）、（KC5，KC7）、（KC11，KC14）、（KC13，KC18）累计支持度明显高于原始成绩对应的情况，（KC3，KC14）累计支持度达0.44，具有较高的关联性。成绩修正前后提升度均大于1，按照课程开设顺序有相应的蕴含关系，可提前积极指导学生后期课程学习。

表5 修正后关联课程支持度、累计支持度、置信度和提升度

表6 修正前关联课程支持度、累计支持度、置信度和提升度

五、结束语

本文基于课程正态分布总体对课程成绩进行标准化，利用线性函数插值法对学生成绩进行修正，消除成绩分布和标准差的差异性，在同一标尺下进行课程强关联分析。成绩修正的Apriori算法是在统一课程成绩标准前提下进行的数据挖掘，消除课程成绩评价对课程关联规则的影响，更加准确地分析课程的关联程度，对学生课程学习指导更加具有针对性，为专业教学管理提供依据。