高校学生修正成绩的课程关联数据挖掘*

2023-02-21 07:38张伟武延涛
智库时代 2023年4期
关键词:分数段项集标准差

张伟 武延涛

(中国矿业大学徐海学院)

一、引言

高校教育数据挖掘是高等教育研究的重要课题之一,利用数据挖掘技术可以发掘出数据中隐藏的规律和模式,从而为教育教学决策提供科学依据。高校学生课程关联研究要对多门课程成绩进行数据挖掘,成绩统计特征存在显著差异。本文将在以课程成绩分布为正态分布前提下,将不同课程成绩分布变换至同一均值和标准差的正态分布,利用插值函数法将不同课程成绩进行修正,然后依据等级赋分理论对各课程进行等级评定,再利用Apriori算法挖掘各课程间的联系。

二、课程成绩的修正

利用抽样课程成绩样本均值和样本标准差确定课程正态总体分布,利用正态总体分布确定成绩等级的期望比例,对所有课程进行标准化等级划分,再利用插值函数法对成绩进行修正。

(一)课程成绩正态总体估计

设抽样学生人数为n课程总数为N门,课程成绩总体为X,假设总体服从正态分布,第j门课程成绩的总体为Xj,第i名学生第j门课程成绩为(i= 1,… ,n;j= 1,… ,N),根据学生的成绩xij估计第j门课程Xj,的样本均值与样本标准差:

课程考试成绩总体X,的样本均值与样本标准差:

利用公式(3)估计X,的分布,即课程成绩总体近似服从。

(二)成绩等级分类的期望比例

表1 等级制与百分制的对应关系

由公式(1)-(3)可得学生课程成绩总体X,的近似分布,于是课程总体第l个分数段的期望人数比例为:

(三)线性插值成绩修正模型

依据表1的等级制划分,按照各分数段人数的期望比例pl将每门课程成绩分段,记为 第j门 课 程 第l个成绩分数段上下限(约定,应用线性函数插值法修正原始成绩,记修正成绩为(i= 1 ,… ,n;j= 1,… ,N),根据原始成绩确定所属分数段l值,且

三、课程关联规则与Apriori算法

(一)课程成绩的事务数据库

第i门课程成绩集合构成一个项集;k门课程成绩集合构成k-;包含所有k-(k= ( 1,… ,N)称为事务数据库,记为D。

(二)频繁项集与关联规则

1.频繁项集的概念

记µ为项集事务数的计数,一门或多门课程成绩构成的项集A支持度为项集A 事务数占事务数据库事务数的比例,即

预先设定的最小支持度阈值min_sup ,若

则称项集A为频繁项集,k为k-。

2.关联规则的指标

设课程项集中事项A和B关联规则表现为逻辑关系A⇒B,即课程项集中事项A蕴含事项B的关系,度量关联规则的三个指标分别为:逻辑关系的支持度、置信度和提升度。

支持度为包含事项A或B事务数占事务数据库事务数的比例,即

置信度为包含项集A和B同时发生事务数占项集A事务数据库事务数的比例,即

提升度为事项A蕴含事项 B出现的可能性,即

若lif.(A,B)=1时,则说明事项A和事项B相互独立;若lif.(A,B)<1,事项A导致事项B不出现;若lif.(A,B)>1,事项A蕴含事项B出现。

3.课程累计支持度

记“Ai”为第i门课程成绩为优秀,记“Bi”为第i门课程成绩为良好,记“Ci”为第i门课程成绩为中等,记“Di”为第i门课程成绩为及格,记“Ei”为第i门课程成绩为不及格。第i门课程与第j门课程的累计支持度:

(三)累计支持度原则

基于上述成绩修正模型和等级赋分原则,课程各相应期望等级人数相等,且各等级样本容量较少,当课程间出现至少两个等级频繁项集,且大于预先设定的最小累计支持度阈值时,即

则称课程间存在强关联。

(四)Apriori算法及关联规则

根据关联规则的Apriori算法思想:首先,通过设置最小支持度,找出所有频繁项集;其次,在频繁项集中产生关联规则;最后,设置最小累计支持度,计算课程间累计支持度,确定强关联课程。

四、实例分析

(一)案例分析数据准备

金融学专业以银行方向为例,根据调研法,选取体现学生通识素质、数理能力、专业素质、专业拓展课程18门课程,125名学生成绩。按照学期开设情况如表2。

表2 金融学专业前三学年课程列表

(二)绩数据标准化处理

根据学生成绩计算可得各门课程的样本均值与样本标准差(如图1)。

图1 抽样课程成绩均值与标准差

课程考试的成绩分布因课程不同分布不尽相同,抽样课程成绩期望等级分布如表3,各课程在不同等级的人数偶然性较大,实际成绩分布中如KC16,KC17在B等级大量集中,其余各等级偏少,在数据挖掘中将影响课程关联分析。

表3 抽样课程期望等级人数分布

现将不同课程成绩变换至同一标尺下进行修正。由公式(3)计算得课程成绩总体的均值与标准差为:

由公式(4)可得各分数段人数的期望比例如下表所示。

表4 期望比例与等级人数

依据各分数段人数的期望比例,利用插值公式(5)对18门课程进行成绩修正。

(三)课程关联数据挖掘

利用Apriori算法,对修正的成绩进行数据挖掘。设置支持度最小阈值,置信度最小阈值为0.50,累计支持度最小阈值。按照课程开课先后顺序,可计算得到表5。

(四)修正后成绩与原始成绩课程关联对比

利用Apriori算法计算并与成绩修正后的计算结果相比较,得出下列结论。

(1)成绩修正前后成绩分布变化。成绩修正前,课程成绩样本均值偏差较大,最小值为66.03,最大值为81.92;样本标准差最小值为4.23,最大值为17。利用成绩正态总体分布在保持排名不变的情况下对成绩进行标准化,保证课程各等级人数相等。

(2)成绩修正前后课程关联表现形式。原始成绩数据挖掘因为课程在某等级分数较为集中,两门课程关联比较集中,在关联结果中大多数仅显示一条关联记录;成绩修正后进行数据挖掘,两门课程可能出现多等级关联,结果记录显示多条记录,课程关联以同等级关联为主,极大的呈现课程间的强关联。

(3)成绩修正前后课程关联结果比较。我们对比7对成绩修正前后课程关联。利用原始数据分析的结果中三对课程(KC3,KC4)、(KC5,KC10)、(KC7,KC10)无关联,但事实上,对成绩进行修正后,以上三对课程存在两个不同等级的关联。

(4)成绩修正前后课程关联参数比较。通过对比表5和表6,修正成绩后四对课程关联(KC3,KC14)、(KC5,KC7)、(KC11,KC14)、(KC13,KC18)累计支持度明显高于原始成绩对应的情况,(KC3,KC14)累计支持度达0.44,具有较高的关联性。成绩修正前后提升度均大于1,按照课程开设顺序有相应的蕴含关系,可提前积极指导学生后期课程学习。

表5 修正后关联课程支持度、累计支持度、置信度和提升度

表6 修正前关联课程支持度、累计支持度、置信度和提升度

五、结束语

本文基于课程正态分布总体对课程成绩进行标准化,利用线性函数插值法对学生成绩进行修正,消除成绩分布和标准差的差异性,在同一标尺下进行课程强关联分析。成绩修正的Apriori算法是在统一课程成绩标准前提下进行的数据挖掘,消除课程成绩评价对课程关联规则的影响,更加准确地分析课程的关联程度,对学生课程学习指导更加具有针对性,为专业教学管理提供依据。

猜你喜欢
分数段项集标准差
2021年对口升学部分专业类考生分数段及院校投档线
2019年对口升学部分专业类考生分数段及院校投档线
2018年对口升学部分专业类考生分数段及院校投档线
不确定数据的约束频繁闭项集挖掘算法
一本:制高点争夺之战
对于平均差与标准差的数学关系和应用价值比较研究
医学科技论文中有效数字的确定
医学科技论文中有效数字的确定
一种新的改进Apriori算法*
分布式数据库的精简频繁模式集及其挖掘算法*