数据挖掘在计算机专业课程设置中的应用研究

2023-12-05 02:50:10辉,张
淮南职业技术学院学报 2023年5期
关键词:项集双高数据挖掘

陈 辉,张 玲

(1.淮南职业技术学院图书馆, 安徽 淮南 232001; 2.淮南职业技术学院经济管理学院, 安徽 淮南 232001)

2019年12日,教育部和财政部正式公布了我国197所“双高计划”建设名单,包括56所高水平学校建设高校和141所高水平专业群建设高校。“双高计划”也被一些人称为是职业教育版的“双一流” 工程,每五年一个支持周期,2019年启动第一轮建设。安徽省教育厅于2023年1月启动了省级双高计划——安徽省高水平高职学校和专业群建设计划。省内高校的“双高计划”的遴选工作和申报工作也相应展开,A院校为了搭上“双高计划”的快车,开启学校“双高计划”的申报工作,学校内部的提质增效活动开展起来,提升教学管理工作也提上日程。应该通过合理的课程设置,提升学校的教学质量,为申报“双高计划”提供扎实的支撑。

1 数据挖掘简介

1.1 数据挖掘概述

数据挖掘就是从纷繁复杂的大量数据中,找到隐藏在其中的有用数据。随着数据库系统的广泛应用和网络技术的高速发展,社会产生大量数据,在数据爆发时代的条件下,数据挖掘技术应运而生的。数据挖掘的对象可以是任何类型的数据源,在对数据源采取数据挖掘之前,需要事先制定计划,设计好每一步的动作,最后要达到什么样的目的,这样才能保证数据挖掘有条不紊地实施并取得成功。数据挖掘分为有指导的数据挖掘和无指导的数据挖掘,具体而言,分类、估值和预测属于有指导的数据挖掘,关联规则和聚类属于无指导的数据挖掘。

1.2 数据挖掘理论

一是项与项集。假设集合项集l={元素1, 元素2, …, 元素n},其中,元素m(m=1,2,…,n)是项集l中的项。这样的集合称为项的集合,即项集,包含n个项的项集称为n项集。二是事务与事务集。每个事务T是一个项集,它是项集l的一个子集,使用唯一标识符Tid标记。不同的事务组成事务集D,它是关联规则发现的事务数据库。三是关联规则。所谓关联规,就是形如集合X=>Y的蕴涵式,其中集合X、Y是项集的子集且不能为空集,而X与Y交集为空。四是置信度(confidence)。在关联规则下,置信度的定义如下:

五是支持度(support)。在关联规则下,支持度是用来表示事务包含集合X和Y进行并集运算得到的结果,是集合X和Y中项的概率。六是频繁项集(frequent itemset)。需要事先定义最小出现频度(支持度计数)阈值,使用阈值过滤掉项集l中低于它的项,则项集l中满足的项是频繁项集。 六是项集的出现频度(support count)。它是包含项集的事务数,也就是项集的频度、支持度计数或计数。 7是强关联规则。满足最小支持度和最小置信度的关联规则,即待挖掘的关联规则。

2 计算机专业课程设置存在的问题

2.1 没有做到统一管理

高职学校的课程设置和教学安排一般分配到二级学院设置,但是学时分配、教学资源分配、师资力量分配等受到学院主管部门或学校现有资源制衡,难以做到最优搭配,专业建设目标和课程建设目标,因所处角度不同呈现多元化发展,有时还走回头路,不能综合利用现有的社会大数据资源。

2.2 课程领域分布不合理

高职学校的课程领域分布不合理,通识课和专业课分布虽然受限于上级文件,但是也存在要么广度过于宽广,要么深度过深的问题,体现学校想让学生什么都学和什么都会的心情,不能在广度和深度中准确把握度的问题,体现在课程设置中就是课程领域分布不合理。

2.3 课程实施不精细

高职学校的课程实施比较粗犷。大学课程的关联性相对减弱,在课程实施的过程中不能统筹管理或缺乏统筹管理,具体表现就是理论课和实践课课时分配不合理、专业课课程教学实施顺序错乱、通识课占比不合理等。

2.4 课程设置反馈机制不敏感

高职学校的课程教学反馈机制比较成熟,但是课程设置反馈机制不敏感,学校只注重学生的课程教学成绩反馈,对于课程设置的反馈不敏感,某些课程设置不合理,往往要延迟几年才能改正,开课顺序合理不合理更没有相关依据,只是一味凭借经验开设。

3 数据挖掘在高校计算机专业课程设置中的运用——以A院校计算机专业部分学生的课程成绩为例

3.1 数据解释需求

从A学院教务系统下载基础数据,运用数据挖掘技术处理样本数据,求出课程之间的关联性,用以指导课程开设顺序。

3.2 基础数据准备

以A院校计算机专业2021级部分学生2022~2023第二学期的课程成绩为例,进行初步数据清洗,取出样本数据,见表1。

表1 2022~2023第二学期的课程成绩数据表

3.3 数据格式化

数据挖掘需要数值型数据,所以要把表1中文本型数据格式化成数值型数据,依据数值型关联规则,把表1中数据格式化成2进制数据,比如以80分以上(包含80分)格式化成“1”,否则为“0”,则表1格式化成二进制数据,见表2。

表2 格式化成二进制型数据表

3.4 Apriori 算法

Apriori算法是目前最有影响的挖掘布尔关联规则频繁项集的算法之一,也是挖掘算法中最经典的算法。它的核心思想是利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其迭代算法过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。该算法中项集的概念即为项的集合。为进一步规范数据,将课程成绩作为数据挖掘的商品进行编号,生成数据库,见表3。对表3进行关联运算,关联规则为min support=6/10。

表3 数据库事务列表D

3.4.1 关联运算步骤

图1 C1表

图2 L1表

图3 C2

图4 L2

图5 C3

图6 L3

3.4.2 Apriori算法结论

Apriori算法的最终结果是:L=L1∪L4∪L5或L=L3∪L4∪L5。产生的关联表如图7所示。进一步计算关联规则,可挖掘出强关联规则:

规则1=>4

Support=support({1,4})=60%

Confidence=support({1,4})/support({1})=100%

规则4=>1

Support=support({1,4})=60%

Confidence=support({1,4})/support({4})=66.7%

规则1,4=>5

Support=support({1,4})=60%

Confidence=support({1,4,5})/support({1,4})=100%

同理,可以计算出每个规则。假定min confidence=3/4=85%,通过分析,发现满足X.Confidence>min Confidence 条件的关联规则有:1⟹4,1⟹5,3⟹4, 3⟹5, 4⟹5,5⟹4,{1, 4}⟹5, {3, 4}⟹5这些规则都成为强关联规则。

图7 Apriori算法产生的关联规则

4 结语

运用数据挖掘技术,针对A院校计算机专业2021级部分学生2022~2023第二学期的课程成绩进行分析,发现计算机应用基础和计算机网络概论、图形化编程技术基础课程相互关联、相互影响;计算机网络概论和图形化编程技术基础课程相互关联、相互影响。综上可知计算机应用基础和计算机网络概论、图形化编程技术基础三门课程联系紧密,设置课程时,可关联参考。

猜你喜欢
项集双高数据挖掘
同频共振四链联动,彰显“双高”院校科研担当
探讨人工智能与数据挖掘发展趋势
我校2020年“双高计划”建设研究成果展
我校隆重召开“双高计划”建设启动大会
牵手教育: 中等职业学校“四元并举, 德技双高” 的校本实践
广东教育(2020年3期)2020-04-03 02:03:18
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
一种基于Hadoop的大数据挖掘云服务及应用
关联规则中经典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一种频繁核心项集的快速挖掘算法
计算机工程(2014年6期)2014-02-28 01:26:12
基于GPGPU的离散数据挖掘研究