数据挖掘在教务管理中的应用研究

2015-04-01 01:51王丽娜
河南科技 2015年13期
关键词:项集置信度数据挖掘

王丽娜

(河南司法警官职业学院信息技术系,河南 郑州 450011)

数据挖掘在教务管理中的应用研究

王丽娜

(河南司法警官职业学院信息技术系,河南 郑州 450011)

为了全面了解学生在校的学习情况,更客观地了解学校教学对学生学习状况的影响,本文对学生的成绩进行分析,采用了关联规则的Apriori算法挖掘出了学生的前期课程和后续课程之间的关系、理论课程和实验课程的关系、教师对学生学习情况的影响以及高中知识学习情况对大学学习情况的影响。

数据挖掘;关联规则;Apriori

近年来随着教育信息化建设的不断推进和招生规模的扩大,作为高校信息化建设的一部分,教学管理系统的数据不断膨胀,存储了大量的成绩数据,积累了海量的数据。但是目前大部分高校的教学管理系统的功能比较简单,只能够进行简单的数据增加、删除、修改以及一些简单的评价功能,如学生成绩的分布等。我们面对大量的数据却无法获得最想要的信息,虽然也有不少的研究者将数据挖掘的算法应用到教学管理系统中,但是研究涉及的问题具有片面性、单一性。如何从大量数据中发现潜在规律,找出隐含的信息和模式,从而提高高校教学管理水平,是目前高校迫切需要解决的热点问题。

我们将数据挖掘技术应用于教学管理系统,重点挖掘和分析了学生培养计划中的前期课程和后续课程之间的关系、理论课程与实验课程之间的关系以及教学活动的两个主要的参与者——教师教学情况对学生学习的影响。

1 关联规则数据挖掘算法

数据挖掘技术[1一3]是从数据库中大量的存储数据中提取一些隐含的有用信息,它可以充分利用现有的数据,揭示这些数据隐藏的关系,为用户提供科学、客观的分析结果,并能够对未来发展趋势的预测提供一定的参考。

数据挖掘中的关联规则算法是为了揭示两个或者多个变量值之间存在的规律关系。在关联规则的算法中,选取了Apriori[4]算法对数据进行挖掘分析。这个算法是影响力广泛的挖掘数据之间布尔关联规则的频繁项集的算法。

这个算法使用了频繁项集的先验知识,并进行逐层的搜索迭代,找出下一层的频繁项集。首先从已经进行过预处理的数据中,选取所有的项集作为最初的频繁项集,这为第一层的频繁项集,记为L1;然后利用L1项集寻找第二层的频繁项集,记为L2;然后再利用L2,寻找L3;一直到找不出任何的频繁项集,找出关联规则,而且这些规则是满足最小的置信度和支持度的。其中支持度是确定规则可以用于给定数据集的频繁程度,而置信度是一个项在另一个项中出现的频繁程度。

2 关联规则在教学管理系统的功能

数据挖掘中的关联规则是挖掘两个或者多个条件之间的关系。而对于教学管理系统中,可以挖掘的条件比较多,例如学生的学习成绩、理论课程成绩、实验课程成绩、教师的信息等。

学校在安排学生学习专业课时,一般都会事先安排一些基础课程,为专业课的学习打下基础。而这些基础课就是前期课程,而专业课成为后续课程。即使同为专业课程,学习的顺序不同,对学生的学习状况产生不同的结果,这也是挖掘的重点内容。而且目前针对教学管理系统的大部分研究,都忽略了一个非常重要的前期课程——高中课程。因此,在挖掘前期课程和后续课程之间的关系时,将高考的成绩作为一个原始的项集加入到最初的频繁项集中,从而挖掘高中的学习情况对于进入大学后学习情况的影响。

学生在进入大学之后,进行的是一个系统化的学习,不仅包括理论课也包括动手能力的训练即实验课程的学习,例如计算机等工科专业。计算机专业是一个很典型的应用训练和理论学习并重的专业。而对于理论课程的学习是否和实验课程的学习相关也是我们研究的内容。

本文研究的另一个关键点,是教学活动的两个重要参与者——教师和学生中教师对学生的影响。教师作为教学活动的重要参与者,对于学生学习情况的影响是比较重要的。每个学期学生都要对本学期所学课程的教师教学质量进行评价。从学生所学课程的成绩以及这名学生对于相对应的教师的评价来挖掘教师对于学生学习的影响。所以将教师的基本信息、学生的学习成绩以及学生对该教师的评分作为Apriori算法中最初的项集,挖掘出关联规则。

3 应用实例分析

研究使用的是我院2010级至2012级计算机应用技术专业的学生成绩,采用c#语言和ORACLE数据库系统进行数据管理和数据挖掘分析。首先进行预处理,将学生的成绩分为优、良、中、及格这四个等级。学生成绩在数据库中的形式如表1所示。其中,如果学生所学的课程分为理论和实验课则用“课程名1”表示为理论课程,“课程名2”为相应的实验课,如“Java1”为Java的理论课程成绩,Java2为实验课成绩。

在挖掘学生的前期课程和后续课程的关联规则时,设最小支持度为0.3,最小置信度为0.5,得出如下一些强规则:如:(Flash,网页设计)=>(网站建设与规划)支持度为90%,置信度为73%;(ACCESS)=>(SQLServer数据库管理技术)支持度为80%,置信度为81%;(C#语言程序设计)=>(JAVA)支持度为80%,置信度为70%等。发现Flash,网页设计对网站建设与规划、ACCESS对SQLServer数据库管理技术、C#对Java课程学习的好坏影响较大。从这些结果可以了解到前期课程的学习对于后续课程的学习有很大的影响。教师在教授前期课程时一定要引导学生重视该课程的学习,强调该前期课程对后续课程的影响。

表1 学生学习成绩表

在评价学生高中成绩对于大学成绩的影响时,还使用了高考总成绩和大学里面学生的平均成绩作为项集进行挖掘,其中高考的总成绩按照学生的入学成绩进行排名分为优,良,中三个区段,所占比例分别为20%,30%, 50%,学生的在校平均成绩按照分数分为优,良,中,及格四个等级。同样的设置最小的支持度为0.3,最小的置信度为0.5,得出如下的规则:(高考成绩=‘良’)=>(在校平均成绩=‘良’)的支持度为90%,置信度为50%;(高考成绩=‘中’)=>(在校平均成绩=‘优’)的支持度为80%,置信度为30%。从结果看出,学生高中阶段的学习情况对于大学的学习情况是有一定影响的,但是并不是非常重要。原因是学生在高中的学习是被动的学习,教师教什么学生学习什么,而大学学习是一个主动学习的过程,学习方式的转变,导致了学生高中学习的成绩对于大学学习成绩的影响不是很大。

在挖掘理论课程和实验课程之间的关系时,设置最小的支持度为0.3,最小的置信度为0.5,得到一些强规则,如:((ACCESS1)=‘良’)=>(学(ACCESS2)=‘良’)支持度为85%,置信度为80%;((ACCESS2)=‘良’)=>((ACCESS1)=‘良’)支持度为83%,置信度为75%。发现实验课程的学习和理论课程的学习是相互促进的。

表2 教师基本信息表

图1 学生对教师的评价表

在教学管理系统中,有一个教师的基本信息(如表2所示),从这个表格中可以知道某门课程的授课教师的基本情况。同时从一个选课表中,可以知道这个教师教授的课程。

图1所示的为学生对教师的评价根据。不同的条件具有不同的权重,然后可以对教师评出一个总分。而且学校也会对教师有一个评价,评价标准也是图1所示。并且学校和学生对教师的评价设置不同的比重值,这才得出最终的教师的评价总分。然后将这个总分化为5分制即优秀、良好、中等、及格和不及格。然后针对于这个评价总分,再结合教师所教授班级的平均分,进行数据整理,形成了教师评价表,如表3所示。

表3 教师评价表

针对于表3,进行数据挖掘,设最小支持度为0.3,最小置信度为0.5,得出如下一些强规则:例如(教师评价等级(ACCESS)=‘良’)=>(学生成绩(ACCESS)=‘良’)支持度为80%,置信度为70%。从得出的强规则可以了解到教师对于学生的学习是有较大影响的。

4 结语

我们将关联规则数据挖掘算法用于教务管理数据,分析得出对于大学的课程而言,前期课程对于后期课程、高中学习情况对于大学的课程学习、实验课程的学习对于理论课程的学习、教师对于学生的学习都是有一定影响的。这些发现的规律和模式,可以使教务管理者做决策时更加有的放矢,提高教学管理水平。

[1]JiaweiHan,MichelineKamber.数据挖掘概念与技术[M].北京:机械工业出版社,2007.

[2]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.

[3]蔡伟杰,张晓辉,朱建秋,等.关联规则挖掘综述[J].计算机工程,2001(5):8一9.

[4]周翠红.数据挖掘中关联规则的研究及在高校教学质量评估中的应用[P].长沙:中南大学,2007.

Study on the APPlication of Data Mining in Educational Administration

Wang Lina
(Department of Information Technology Henan Judicial Police Vocational College,Zhengzhou Henan 450011)

In order to understand the students’s learning at school comprehensively,more objectively understand the influence of teaching on studentsˊlearning,this article analyzed the studentˊs learning results,used Apriori algorithmof association rulesto evacuatethe relationship between studentsˊpre一course and subsequent course,relationship between studentˊs theoretical courses and experimental courses,teachers’influences onstudents’study,and influences on learning situation of high school knowledge on learning in university.

Data mining;Association rules;Apriori

TP311

A

1003一5168(2015)07一0004一3

2015一6一25

王丽娜(1973一),女,硕士,副教授,研究方向:数据挖掘。

猜你喜欢
项集置信度数据挖掘
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
探讨人工智能与数据挖掘发展趋势
不确定数据的约束频繁闭项集挖掘算法
正负关联规则两级置信度阈值设置方法
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
置信度条件下轴承寿命的可靠度分析
高级数据挖掘与应用国际学术会议
一种新的改进Apriori算法*