刘娟,唐玄
(蚌埠学院 计算机科学与技术系,安徽 蚌埠 233000)
在高等院校的计算机教学中,计算机文化基础课程是非常重要的一门必修课程.它是计算机专业和非专业的基础课程,是其他计算机相关课程的重要前导课程.由于该门课程关系到学生升学或就业以后能迅速而熟练地使用计算机相关的专业和非专业软件,高等院校非常重视学生对计算机文化基础课程的学习,通常会要求学生在学习该门课程后统一参加省级计算机一级考试.通过参加等级考试,可以促进学生对计算机文化基础的学习,增强学生学习计算机文化基础的动力,提高学生操作计算机的技能.为了提高学生的计算机文化基础理论知识和实践能力,本文将采用基于粗糙集的数据挖掘方法对安徽省计算机一级考试成绩进行分析,获取有益于教学与学习的相关数据信息,从而提高学生计算机水平,还可以为进一步研究粗糙集打下坚实的理论与实践基础.
1982年,波兰学者Z.Pawlak 提出了一种用来处理不确定数据信息的理论.该理论在不需要事先提供相关附加知识的前提下对原始数据集进行分析,直接从给定的数据集合中找出隐含的知识,并提供与要解决的问题有关的结论.
粗糙集通常被定义为一个四元组:S=(U,A,V,f).U 被定义为包含所有数据对象的对象集,有U={x1,x2,...,xn},也被称作论域;A 为属性集,包含条件属性集C 和决策属性集D,有A=C∪D={a1,a2,...,an},并且C∩D=Φ,其中C 通常为属性集,而D 通常为单属性集;V 为属性集A的值域;f 被定义为论域S 中数据对象的属性集A 到值域V的映射函数.该四元组可简写为S=(U,A),S 也被称为信息系统或决策表.D的C 正域被记为POS(C,D)=∪{C_(X):X ∈U/D},表示肯定属于D的对象所组成的最大的集合.C 相对于D的属性依赖度定义为γ(C,D)=|POS(C,D)|/|U|.属性重要性被定义为σ(C,D,C')=γ(C,D)-γ(C-C',D),某属性重要性越大,则该属性对D 影响越大,即其取值对决策结果的影响就越大.
从某班级学生进行的一次模拟考试中获取数据库表,对其整理可得表1.
表1 部分原始数据
等级考试中,单项选择题总分30分,多项选择题总分10分,打字题10分,Windows 操作题8分,Word 操作题18分,Excel操作题14分,PowerPoint 操作题10分,总分100分.
首先,对各个题型的成绩进行离散化处理.可以将各个题型的成绩除以相应题型总分再乘以100.再按照[0,59]、[60-84]、[85-100]三个成绩区间将各个题型成绩及总分划分为“不及格”、“及格”、“优秀”三个等级,并设置其值分别为1、2、3.
为方便书写,特对表中各个属性名称进行更改,使用A1-A7 代表各题型,使用T 代表总分.离散化后的数据结果为表2.
表2 离散化后的部分数据
根据粗糙集的定义,可得出:
根据公式计算可得每种题型属性重要性分别为:
通过上面对给定的模拟考试数据集进行分析,表明单选题、多选题及Excel 操作题对学生成绩影响比较大,打字题、Word题影响相对较小,Windows 操作题和PowerPoint 操作题影响基本可以忽略不计.再通过日常教学活动可知,学生由于对选择题里的涉及的概念理解不深,对Excel的函数运用较为生疏,从而导致这两种题型容易失分.而学生在日常上机和生活中,已经熟悉与打字题、Windows 操作题、Word 操作题、PowerPoint 操作题相关的操作,所以这些题型分数相对较高.因此,应促使学生在日常学习中加强理论知识的理解,多多练习Excel的函数运用,增强程序设计能力,才能提高计算机操作水平,并为以后学习程序设计课程或其他计算机相关课程打下基础.
本文通过粗糙集模型对安徽省一级计算机等级考试进行了分析,为计算机文化基础教学提供了指导方向,也为更进一步地研究粗糙集提供了实践基础.由于本文所获取的原始数据量较少且数据信息完整,不能体现大数据量、数据集不完备情况下使用粗糙集进行数据挖掘的优点,希望下一次能进行改进.
[1]苗夺谦,王珏.粗糙集理论中概念与运算的信息表示[J].软件学报,1999,10(2):113-116.
[2]张文修,吴伟志.粗糙集理论介绍和研究综述[J].模糊系统与数学,2000,14(4):1-12.DOI:10.3969/j.issn.1001-7402.2000.04.001.
[3]韩祯祥,张琦,文福拴,等.粗糙集理论及其应用综述[J].控制理论与应用,1999,16(2):153-157.DOI:10.3969/j.issn.1000-8152.1999.02.001.
[4]胡可云,陆玉昌,石纯一,等.粗糙集理论及其应用进展[J].清华大学学报(自然科学版),2001,41(1):64-68.
[5]李永敏,朱善君,陈湘晖,等.基于粗糙集理论的数据挖掘模型[J].清华大学学报(自然科学版),1999,39(1):110-113.
[6]梁吉业,曲开社,徐宗本,等.信息系统的属性约简[J].系统工程理论与实践,2001,21(12):76-80.
[7]韩祯祥,张琦,文福拴,等.粗糙集理论及其应用[J].信息与控制,1998,27(1):37-45.DOI:10.3969/j.issn.1002-0411.1998.01.008.
[8]侯利娟,王国胤,聂能,等.粗糙集理论中的离散化问题[J].计算机科学,2000,27(12):89-94.DOI:10.3969/j.issn.1002-137X.2000.12.023.
[9]王光宏,蒋平.数据挖掘综述[J].同济大学学报(自然科学版),2004,32(2):246-252.