郑秀月
(福州黎明职业技术学院,福建 福州 350001)
关联规则作为数据挖掘过程中不可或缺的算法规则,是当前在数据挖掘领域被普遍采用的甚至有可能是使用最为频繁、应用范围最为广泛、研究最为深入的数据挖掘手段之一。
关联规则的挖掘一般可以通过两步程序来完成。第一步,定义高频项和高频项集合。高频项为所有出现频率相对高的项;所有高频项的集合即为高频项集,也就是支持度大于用户给定的最低支持度的所有项的集合[1]。第二步,寻找高度关联的规则。即从高频度集合中找出确信度高的规则,也就是确信度比用户给定的最低确信度大的规则[2]。
Apriori 算法的重要之处在于其能影响高频度集合的产生的准确度,是人们在运用数据挖掘技术寻找关联规则时最早使用的算法之一。通过采用对支持度按照相应规则进行“剪枝”的技术,可以达到减少候选高频度集合产生的目的。
该算法通过逐层剖析的方法寻找出关联规则,基本思想如下[3]:
第一步,规则A->B 是高确信度且B 只含一个项,则将类似的所有规则均提取出来。
第二步,将通过前一步骤筛选出来的规则的结果进行整合后重新生成候选规则。
第三步,删除确信度低于最低确信度的规则,以达到满足高度关联规则的原则。
Apriori 算法是在分析支持度和确信度的基础上运算得出结论的,并未考虑所找出的不同规则对用户的影响程度,所找到的很多规则往往对用户的影响并不大,因此,这里引入了第三个参数影响度。
具体操作过程如下:对根据Apriori 算法产生的规则分别计算确信度和影响度,对于规则X->Y,影响度(RI)的公式如式1 所示。
其中,P(X )、P(Y )、P(XY )分别表示X、Y 以及X 和Y 同时出现的概率,经改进后挖掘出的关联规则除满足支持度和确信度分别大于它们相应的最小阈值外,还应满足影响度大于最小影响度阈值。
由于考试中部分题型是平时的练习原题,这里不加以考虑,本文以福州黎明职业技术学院2017—2019 学年部分学生在福建省计算机一级等级考试中的成绩和学生是否为学生干部、理论知识、操作能力(Word、Excel、PowerPoint)、录入题的得分情况为研究对象,采用关联规则中著名的Apriori 算法对它们进行挖掘计算,得出以上各因素对总成绩优秀率的影响。生成的成绩表中列字段分别为姓名、性别、专业、年级、准考证号、理论知识、Word 得分、Excel 得分、PowerPoint 得分、录入题得分、是否为学生干部和总成绩等数据。
本文运用以下方法对上述收集到的成绩表数据进行预处理:一是将成绩表中少量属性值为空的记录采用平均值填充法;二是将缺考学生的数据剔除;三是将表中对挖掘结果不产生影响的字段剔除,如姓名、性别、专业、年级。经过预处理后,剩下2500 条记录。
将上述预处理后学生的成绩数据转换为0、1、2 表示。具体的转换规则如下:
计算机等级考试成绩的证书分为两个级别:优秀、合格。总分大于等于85 分为优秀用2 表示,60到84 分之间的为合格用1 表示,小于60 分的不达标用0 表示。
将是否为学生干部、理论知识、Word、Excel、PowerPoint、录入题等题型的得分情况也参照总成绩正确率大于85%为优秀,正确率在60%~85%为合格,否则为不达标的方法进行等级划分。划分后选择题的3 个档分别为:25.5~30、18~24 以及小于24;理论知识3 个档分别为22~26、16~21 以及小于16;Word 和 Excel 的 3 个档分别为 12~14、9~11 以及小于9;PowerPoint 的 3 个档分别为划分 9~11、6.5~8 以及小于8;录入题的3 个档分别为5、3~4、0~2。查找高频度集合时,用布尔型0与1表示更为方便,因此,将字段理论知识、Word、Excel、PowerPoint、录入题、是否为学生干部、总成绩分别用A、B、C、D、E、F、G 表示,A0 表示理论知识为不达标,A1 表示理论知识为合格,A2 表示理论知识为优秀;运用同一方式表示B、C、D、E、G;F0 表示非学生干部,F1 表示学生干部。经转换后最终生成的学生成绩如表1 所示。
表1 经处理后的学生成绩表
通过预处理上述2500 名学生的成绩数据,事先假定确信度为0.5,假定影响度为1.2,假定最低的支持度为0.2,对上述转换后的数据实施关联规则挖掘。
首先,为找出影响成绩优秀的关键原因,从表1 中筛选出成绩优秀的记录,删除其余的记录。
其次,分析上一步骤产生的成绩优秀的数据,分别运算得出各种影响因素不同等级的支持度计数填入1-集合的数据表F1 中。这里只将支持度高于最低支持度的记录添加到F1 表中。
再次,对F1 表进行自然连接分析并按规则制作出候选1-集合,并根据相应的支持度运用“剪枝”技术制作出2-集合。以次类推制作出高频率K-集合[4]。
最后,计算根据上述步骤产生的各高频度集合的非空子集的支持度、确信度和影响度,并与事先假定的最低的支持度、最低的确信度和最低的影响度分别进行比较,保留满足最低的支持度和最低的确信度的记录[5],最终产生高度关联规则。经过数据挖掘得到关联规则如表2 所示。
表2 关联规则表
由表2 可以得出:理论知识和Word 得分同时为优秀时,总成绩有75%优秀的可能性;理论知识、PowerPoint 的得分优秀同时为学生干部时,总成绩有95%优秀的可能性;理论知识成绩为合格、Excel 得分为优秀时,总成绩有90%优秀的可能性;理论知识、Word 和Excel 得分均为优秀时,总成绩有80%优秀的可能性;Excel 和总成绩优秀时,理论知识优秀、PowerPoint 得分良好的可能性有80%;Excel 得分优秀时,Word 和录入题得分同时优秀的可能性为90%;总成绩优秀而且为学生干部时,理论知识为优秀同时PowerPoint 得分为合格的可能性为95%;总成绩为优秀时,理论知识为合格同时Excel 得分优秀的可能性为92%。
通过上述数据挖掘过程,找出隐含在其中的一些有意义的规则,如不同题型间得分的关联,是否为学生干部对Word、Excel、PowerPoint得分的影响,某些题型得分的优秀对总分的影响程度。针对如何提高优秀率,提出以下建议:
首先,理论知识掌握的优良程度对总分是否优秀起着决定性作用。因此,教师在教学过程中要重视理论知识的教学并提示学生予以正确对待。
其次,学生干部经常会帮助院部、系部整理一些文档,Office 部分的三种题型相对掌握都挺好,能直接决定成绩的优良,所以要鼓励学生课后对课堂所学的操作知识多加练习,做到熟能生巧。
再次,Excel 作为试卷中最难的一部分,此题的得分情况能客观体现学生的计算机操作水准。数据挖掘的结论显示,如果学生对这部分知识掌握较好,Word 和PowerPoint 得分也相对较高,其总成绩基本是优秀的。教师通过观察学生对Excel 的掌握程度就能快速找出基础薄弱的学生,并可针对其理论缺陷加以重点辅导。同时,可以提醒在该环节中得分高的学生要重点关注理论知识的学习,争取在等级考试中获得更突出的成绩。
将总成绩为优秀的100条数据用于测试,得出结论是否为学生干部、理论知识、Excel 得分是影响总成绩的关键因素,从而验证了上述Apriori 算法产生的高度关联规则是可信的。
本文主要针对Apriori 算法中未考虑所产生的规则对用户影响程度的问题,提出了影响度阈值的改进算法。并将改进的算法应用到计算机一级等级考试成绩分析中,从试卷题型等因素与总成绩之间的关系角度进行数据挖掘,找出影响学生成绩的关键因素,为教师改进教学方法提供参考,以此实现提高教师教学质量并提高学生的计算机等级考试成绩优秀率的目的。