基于关联分析的高等数学试卷分析及其R软件实现

2016-10-18 07:47李强丽李慧谭立云
现代计算机 2016年16期
关键词:项集置信度数据挖掘

李强丽,李慧,谭立云

(华北科技学院基础部,廊坊065201)

基于关联分析的高等数学试卷分析及其R软件实现

李强丽,李慧,谭立云

(华北科技学院基础部,廊坊065201)

近年来数据挖掘技术得到了迅猛发展,其应用也越来越广泛。可采用R软件,利用Apriori算法对高等数学上、下册试卷成绩的进行关联分析,从而揭示高等数学各主要知识点之间的关系,为学生的学习以及教师的教学提供指导。

试卷分析;R软件;关联规则

0 引言

高等数学是高等院校工科各有关专业最重要的基础课之一,因此工科各有关专业学生必须具备高等数学的基本理论知识,并熟练掌握其基本运算方法。通过考试可以测验学生对知识的掌握情况,而试卷分析是高等学校教学工作中的一个非常重要组成部分。

我国已有很多学者在试卷分析方面进行了研究,如邱翔[1]对高等数学上下册成绩之间的相关性进行了分析,陈石磊[2]利用常用的统计分析软件SPSS对试卷成绩进行描述性统计分析,试卷质量难度、区分度、信度分析。随着数据挖掘技术的迅猛发展,其在各个领域中的应用也越来越广泛,但是在教育领域中,数据挖掘技术应用仍处于初级阶段。高等数学上、下册知识点繁多,试卷内容复杂,考生的人数又多,产生了大量的数据,教师很难从中获得隐藏的信息。若要成功地从大量试卷中获得有用的信息,必然需要一种高效的数据处理方法。在这种情况下,数据挖掘技术发挥了它独特的优势[3]。通过数据挖掘可以帮助教师明确教学中存在的问题,帮助教师分析确定教学难点,协助完善教学策略,以及帮助教师开展更具针对性的教学辅导工作。

1 关联分析的挖掘过程

关联分析是数据挖掘的核心技术之一,其目的是从大量数据中发现项集之间的有趣关联或相互关系,其中最经典的Apriori算法在关联规则分析领域有很大的影响力,其挖掘过程可以分两个步骤完成:

(1)产生频繁项集。即找出所有那些支持度大于等于事先给定的最小支持度的项集。

(2)由频繁项集产生关联规则。即从频繁项集中产生所有关联规则,选择置信度大于产或等于事先给定的最小置信度的关联规则,组成有效规则集合。

在上述两个步骤中,第一步是挖掘关联规则的关键步骤,寻找频繁集的过程是一个不断迭代的过程,挖掘关联规则的总体性能由第一步决定。

2 Apriori算法在R中的实现

R是一种开源软件和免费软件,作为一个可进行交互式数据分析和探索的强大平台,被越来越多的数据分析和挖掘人员及公司使用。

2.1相关软件包

R中有专用于关联分析的软件包——arules,用于关联规则的数字化生成,提供Apriori快速挖掘频繁项集和关联规则算法的实现函数,下载安装arules软件包,并加载后即可使用。

2.2核心函数

在R中实现Apriori算法,其核心函数为apriori(),函数的基本格式为:

当放置相应的数据集,并设置各个参数值(如:支持度和置信度的阈值)后,运行该函数即可生成满足需求的频繁项集或关联规则等结果,下面具体说明各参数的设置。

data参数是集合数据,一般使用as(…,"transaction")进行转换[4]。

parameter参数可以对支持度(support)、置信度(confidence)、每个项集所包含项数的最大值或最小值(maxlen或minlen),以及输出结果(target)等重要参数进行设置。如果没有对齐进行设置,函数将对各参数取默认值。

appearance参数可以对先决条件X(lhs)和关联结果Y(rhs)中具体包含哪些项进行限制,在默认情况下,所有项都将无限制出现[5]。

3 关联分析在高等数学试卷分析?中的应用

3.1数据选取

(1)数据取自我院2012级工科各专业全体学生高等数学上、下册的考试成绩真实成绩,即两个学期的高等数学卷面总成绩和每道题目的得分,数据完整,无遗漏和重复现象。

(2)将高等数学上、下册的试卷的考点进行了总结,共分成九大知识点,如表1所示。

表1 高等数学各知识点总结

3.2数据预处理

(1)构造属性:本文需要将表1中提到的九个知识点添加到数据集中,也就是要根据数据集中原有的属性来构造新的属性。具体的方法是按照表1所示的分类将每个知识点所对应的各个题目的得分进行累加,进而得到学生对每个知识点的得分。

(2)数据规范化:考虑到算法的要求,需要对数据进行处理,将其整理成事实表的格式。首先计算出各知识点的得分,若学生在该知识点得分超过该知识点总分的60%(如果结果是小数,则向上取整),即认为该学生掌握了这个知识点,记为1,否则认为该学生未掌握这个知识点,记为0,在Excel中完成上述操作后如表3所示,将数据保存为gaoshu.csv格式。

表2 《高等数学》九大知识点分布情况

表3 将数据整理为0与1的格式

3.3 R软件实现对高等数学试卷的难度分析

apriori()函数可以输出频繁项集(frequent itemsets),对项集频率进行降序排列后,就可以得到每个知识点相应的掌握情况,进而可以分析试卷中每个知识点的难易度,R软件的实现代码如下,R软件运行后的结果见表4。

>a<-read.csv("gaoshu.csv",header=T)#导入数据

>data=as.matrix(a)#将数据转换为矩阵格式

>data.class=as(data,"transactions")#将数据框转换为可以被apriori算法调用的格式

>itemsets_apr=apriori(data,parameter=list(supp=0.1,target="frequent itemsets"),

control=list(sort=-1))#将apriori()中目标参数设为“频繁项集”

>inspect(itemsets_apr)#观测频繁项集的输出结果

表4 频繁项集支持度

由表4可以得出,解析几何、导数与微分相关的题目学生作答较好,属于较容易的题目,而关于级数的题目学生作答较差,属于较难的题目,学生对于高等数学上册的掌握明显好于下册。

3.4 R软件实现对高等数学试卷的关联分析

使用R软件对规范后的数据进行关联规则分析,设置支持度阈值为0.3,置信度阈值为0.6,并按规则的提升度从大到小排序,主要程序如下,得到的结果见表5。

表5 关联规则分析结果

>rules=apriori(data,parameter=list(support=0.3,confidence= 0.6))#支持度设为0.3,置信度设为0.6

>rules.sorted_lift=sort(rules,by="lift")#将规则按照提升度从大到小排序

>inspect(rules.sorted_lift)#查看规则

3.5关联规则结果分析

(1)由第1-7条规则可知,导数和微分、积分学或者微分方程如果学习好的话,那么一定对极限知识掌握的非常好,这些规则的置信度都在75%以上,说明学好极限是很重要的,它是学好导数和微分、积分学和微分方程的基础。

(2)由第8-18条及第21条规则可知,如果积分学、微分方程、解析几何或者多元函数微分学习好的话,那么一定对导数和微分知识掌握的非常好,这些规则的置信度大部分都在87%以上。所以导数和微分又是学习积分学、微分方程、解析几何及多元函数微分的基础知识。

(3)由第19-20条规则可知,重积分、曲线与曲面积分如果学习好的话,那么一定对解析几何掌握的非常好,而这些规则的置信度都高达96%以上。解析几何能够培养学生的空间想象能力,是学习重积分、曲面与曲线积分的基础。

(4)比较这些规则,得出《高等数学》(上)是学习《高等数学》(下)的基础,这不是从知识点的衔接上直接分析得来的,而是通过对学生的实际考试成绩分析得出的结论,会更加具有说服力。所以教师在教学过程中不仅自己要清楚重点知识,还一定要让学生知道学习每个知识点的作用,尤其是基础知识点的作用,只有在前面打好基础,才能更好地学习《高等数学》(下)的知识点。

4 结语

通过对高等数学试卷的关联分析,学生在学习《高等数学》上、下册的过程中要注意知识点之间的联系,如果某个知识点没学好,可以先去复习一下与其密切相关的知识。另外,教师们在教学中基本上是通过直观的判断来确定教学重点和难点,关联分析的应用也为教师了解试卷的难度,把握教学内容的重点提供了理论依据和方法,从而能促有效促进教师的教学,提高教学质量。

[1]邱翔,庄海根,庞莉莉,侯志芳,李桦.工科学生《高等数学》成绩的相关分析研究[J].沈阳师范大学学报(自然科学版),2014,32(2):291-295.

[2]陈石磊.SPSS在大学英语试卷分析中的应用研究[J].重庆交通大学学报(社会科学版),2014.14(6):135-138.

[3]张瑶,陈高云,王鹏.数据挖掘技术在试卷分析中的应用[J].西南民族大学学报(自然科学版),2008.34(4):839-842.

[4]李明.R语言实战与网站分析[M].机械工业出版社,2014.

[5]黄文,王正林.数据挖掘:R语言实战[M].电子工业出版社,2014.

Analysis of Higher Mathematics Test Papers Based on Association Analysis and Its Implementation with R Software

LI Qiang-li,LI Hui,TAN Li-yun
(Foundation Department,North China Institute of Science and Technology,Langfang 065201)

In recent years,data mining technology has been developed rapidly,and its application is becoming more and more extensive.It can use the Apriori algorithm to realize association rule analysis for higher mathematics test papers between volumeⅠand volumeⅡ,which is shown with R software,reveals the relationship between the main knowledge of higher mathematics,which can provide guide for the students how to learn and the teachers how to teach.

Paper Analysis;R Software;Association Rule

1007-1423(2016)16-0006-04DOI:10.3969/j.issn.1007-1423.2016.16.002

李强丽(1981-),女,河北南宫人,硕士研究生,讲师,研究方向为数据挖掘、计算智能

李慧(1979-),女,山东曲阜人,硕士研究生,讲师,研究方向为数据挖掘、信息论,

谭立云(1966-),男,湖南益阳人,硕士研究生,教授,研究方向为多元统计、数据挖掘

2016-03-29

2016-06-10

华北科技学院重点学科应用数学资助(HKXJZD201402)

猜你喜欢
项集置信度数据挖掘
基于数据置信度衰减的多传感器区间估计融合方法
改进支持向量机在特征数据挖掘中的智能应用
一种基于定位置信度预测的二阶段目标检测方法
基于共现结构的频繁高效用项集挖掘算法
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
基于矩阵相乘的Apriori改进算法
正负关联规则两级置信度阈值设置方法
不确定数据中的代表频繁项集近似挖掘
软件工程领域中的异常数据挖掘算法