基于关联规则的计算机基本操作能力影响因素分析

2012-09-14 01:13李静
关键词:基本操作项集数据挖掘

李静

(忻州师范学院计算机科学与技术系,山西忻州034000)

基于关联规则的计算机基本操作能力影响因素分析

李静

(忻州师范学院计算机科学与技术系,山西忻州034000)

以目前高校为非计算机专业学生开设的计算机应用基础课程为研究对象,首先对关联规则挖掘算法进行了分析,而后将处理后的样本数据,由Excel工作表导入SQL Server 2008,生成数据挖掘库,并以VB 6.0作为前端开发工具,采用Apriori算法进行频集挖掘,找出计算机基本操作能力各影响因素间的潜在关联性,进一步为学校、教师及学生的教学活动提供有价值的参考建议。

关联规则;Apriori算法;计算机基本操作能力;影响因素分析

随着科学技术的飞速发展,计算机及其应用技术已经渗透到我们工作和生活的方方面面。作为21世纪的大学生,掌握过硬的计算机操作技能,尤其是常用的办公自动化软件,已成为必备的就业条件。为此,全国各大高校基本上都为非计算机专业学生开设了计算机基础课程。目的在于普及计算机基础知识,侧重于培养学生的计算机基本操作能力,提高学生的就业竞争力。文章以几种常用的办公自动化软件为例,考查学生计算机基本操作的掌握情况,并使用关联规则的Apriori算法,挖掘出影响计算机基本操作能力的各因素间的潜在联系,从而为学校管理层制定有效的人才培养方案提供依据,同时,帮助教师合理制定教学计划,指导学生合理分配学习时间。

1 关联规则挖掘算法

在数据库的数据挖掘中,关联规则就是发现大量数据库中项集之间的关联关系[1]。更确切地说,关联规则是通过量化的数字找出影响事件发生的诸多因素中,因素甲的出现对因素乙的出现有多大的影响。

关联规则的形式化定义描述如下:

设I={i1,i2,i3,…,im}是由影响学生计算机基本操作能力的m个不同因素组成的集合。记D为事务的集合,即学生成绩数据库,其中的每一个事务,即每一个学生的成绩信息是数据项I的一个子集。目的就是找出形如“X⇒Y”的关联规则,其中X⊆I,Y⊆I,X∩Y=Ø,表示满足X中条件的记录也一定满足Y[2]。

关联规则挖掘算法主要基于两个阶段来实现,第一,找出支持度大于最小支持度的项集,产生频繁集;第二,由第一阶段产生的频繁集总结出有用的关联规则。其中,第一阶段频繁集的产生主要用经典的Apriori算法[3],通过多次扫描数据库,由连接操作和剪枝操作多次递推实现。

2 利用关联规则分析计算机基本操作能力的影响因素

2.1 数据准备

主要结合笔者的工作实际,以忻州师范学院法律系二年级学生第一学期计算机应用基础课程的成绩作为研究对象。考虑到就业需要,以打字速度、Windows XP操作系统及几种常用的办公自动化软件作为对计算机基本操作能力的影响因素进行考查,分别记录学生各部分成绩。而将计算机基础课程的期末考试成绩作为学生计算机基本操作能力的综合评价,目的在于发现各影响因素间有价值的联系。

2.2 数据的采集及预处理

所使用的数据中,打字速度通过金山打字通软件,记录学生在20分钟内的平均打字速度,由于学生打字的正确率普遍在95%以上,所以剔除个别打字正确率较低的学生记录。Windows XP操作系统、Word2003、Excel2003和PowerPoint2003及课程期末考试成绩的采集都使用各自统一的考试系统,完全模拟软件真实的运行环境,按照规定时间上机测试,成绩由考试系统自动阅卷产生,整个过程能真实有效地反映学生对计算机基本操作的掌握情况。对于个别缺值记录,通过求解其余记录该字段平均值的方法获取替代值。此次共采集到样本数据103条,部分样本数据如下表所示。

表1 采集到的部分样本数据

在使用Apriori算法进行频集挖掘前,首先对采集到的数据样本进行离散化处理。根据用人单位对应聘学生打字速度的相关要求,将学生的打字速度按每分钟60字以上,45~59字,25~44字,低于24字划分为“A”,“B”,“C”,“D”;其余操作课成绩根据实践经验,确定边界值为:90≤A≤100,80≤A≤89,60≤A≤79,D≤59。转换成逻辑型数据后的部分样本数据如表2所示。

表2 离散化处理后的部分样本数据

2.3 建立计算机基本操作能力学生成绩数据挖掘库

由于采集到的原始数据被存放在Excel文件中,所以利用MicrosoftSQLServer 2008中提供的导入和导出数据功能(DTS数据转换服务)将计算机基本操作能力学生成绩。xls文件导入到SQL Server数据库中[5],导入/导出向导完成界面如图1所示。

图1 Excel文件导入SQL Server数据库操作完成界面

2.4 开发环境的设计

本文采用VB 6.0作为SQL Server 2008的前端开发工具,实现关联规则的挖掘。具体操作中,通过VB 6.0环境下的数据库管理器以ODBC方式连接SQL Server。首先创建ODBC数据源,配置界面如下图:

图2 ODBC数据源的配置界面

创建ODBC数据源后,执行VB 6.0中的“可视化数据管理器”命令,以ODBC方式打开计算机基本操作能力学生成绩数据库,从而建立VB与SQL Server数据库的连接[4]。

2.5 产生频繁项集与关联规则

通过为工程添加数据环境设计器,设置Connection对象与学生成绩表相连,并定义Command对象对数据库中的数据进行操作。

本次分析中,主要采用Apriori挖掘算法,对与计算机基本操作能力相关的各因素中成绩不及格(即为D)的项进行分析,从而找出影响操作能力提高的内在因素及各影响因素的相互关联程度。

输入忻州师范学院法律系二年级103个学生第一学期计算机应用基础课程的各项成绩,设最小支持度为3,删去候选1-项集中支持度小于3的元素,产生频繁1-项集L1如表3所示。

表3 频繁1-项集L1

其次,利用“And”运算求频繁-K项集,本次试验产生频繁-2项集L2时结束,L2如表4所示。

表4 频繁2-项集L2

由L2产生关联规则如表5所示。

表5 频繁项集生成关联规则

3 挖掘结果分析

若设最小置信度为0.3,则第2,4,6,7,8,10条为强关联规则。分析各条强关联规则,得到计算机基本操作能力各影响因素间的潜在联系如下。

第一,规则2,4说明:对于Windows模块和Word模块不及格的学生,打字速度慢的占多数,这与实际情况相符。打字速度的测试采用金山打字通软件进行,而该软件是运行于Windows环境下的,不能熟练掌握Windows操作,在打字过程中,就会出现诸如无法添加、切换输入法,标点符号格式错误,找不到指定输入字符等问题,而这些都会影响打字的正确率及速度;作为应用软件,Word涵盖了其余应用软件的大部分基本操作,而且同样是一种文字处理软件,所以,Word操作不及格的情况下,学生对金山打字通软件的使用一定也存在问题,进而影响打字速度的提高。

第二,规则7,8,10说明:在Windows模块和Word模块不及格的情况下,学生期末成绩不及格的概率较大。究其原因,Windows模块是计算机应用基础这门课中学生最先接触到的操作部分,存在入门难的问题。同时,Windows是一种系统软件,是学习后续三种应用软件的平台。对操作环境不熟悉,势必会影响到期末的综合测评;Word是各行各业都会用到的软件,为了使学生更好地适应工作环境,期末考试中对Word操作考查的较深入,所占分值也较大。

4 相关建议

通过挖掘结果分析,可以得到如下启示:Windows和Word是系统软件和应用软件操作的基础,学校管理部门在修订教学计划时要予以体现,以引起师生的重视。同时,在教学过程中,教师要因材施教,采用多种教学手段和方法帮助学生夯实基础,而不是一带而过。 学生在学习过程中,更要认识到其基础性地位,有的放矢地学习,并能学以致用,不断提高计算机基本操作技能。

[1]陈文伟,黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社,2005.

[2]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004.

[3]张峰,胡学钢.基于关联规则的高职学生成绩分析应用研究[J].滁州学院学报,2011,13(2):105-106.

[4]郑阿奇.SQL Server实用教程[M].北京:电子工业出版社,2003.

[5]李杰.数据挖掘技术在学生成绩分析中的应用研究[D].西安:西安石油大学,2010.

〔责任编辑 高海〕

Analysis of Influence Factors on Basic Com puter Operating Ability b ased on Association Rules

L I Jing
(Departmentof Computer Science and Technology,Xinzhou Teachers′University,Xinzhou Shanxi,034000)

The paper researches into Basis of Computer Application that is opened to non computer majors by colleges and universities.It analyses association rulesmining algorithm at first.Then,handled sample data are imported to SQL Server 2008 from Excel,and generate a database.After that,frequent set is found by Apriori algorithm,and potential correlation among influence factors is observed.At last,references are provided to schools,teachers and students.

association rules;Apriorialgorithm;basic computer operating ability;influence factors analysis

TP311

A

1674-0874(2012)03-0010-03

2012-02-05

李静(1983-),女,山西静乐人,硕士,助教,研究方向:计算机科学与技术。

猜你喜欢
基本操作项集数据挖掘
探讨人工智能与数据挖掘发展趋势
致广大 尽精微——实验基本操作与氧气的实验室制取
点击化学实验基本操作
不确定数据的约束频繁闭项集挖掘算法
基于并行计算的大数据挖掘在电网中的应用
化学常用仪器与基本操作考查
一种基于Hadoop的大数据挖掘云服务及应用
钳工的基本技术与基本操作的分析与研究
基于GPGPU的离散数据挖掘研究
一种新的改进Apriori算法*