徐敏芝
摘要:录取分数一直是衡量生源质量的主要标准,该文旨在以某五年制高职校学生录取分数与在校成绩表现为研究对象,运用基于Microsoft SQL Server Analysis Service平台的关联规则数据挖掘方法,分析录取分数与在校表现的内在关联,旨在了解入学成绩对在校成绩的影响程度,为分析五年制高职教学质量评价体系提供参考依据。
关键词:录取分数;成绩;关联规则
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)26-0010-02
1 前言
江苏省五年一贯制制高等职业教育经过10余年发展,取得了令人瞩目的成绩,目前已进入由规模发展到内涵发展的关键时期。五年制高职教育的突出优势在于贯通中、高职教育,整体设计和统筹安排学生的知识、能力、素质以及技能的训练和培养,在得到社会普遍认可的同时,低于普高录取分数线的生源在进入高职院校后,能否符合五年制高职教育培养要求,能否最终成为适应和满足地方区域经济社会发展要求的高素质技能型人才,一直不乏争议之声。本文拟突破传统数据分析方式,应用基于Microsoft SQL Server Analysis Service平台的数据挖掘技术,根据信息化平台积累的原始数据,分析五年制高职学生录取分数与在校成绩之间的相关性,揭示隐藏在其中,但又有潜在有价值的信息。
2 数据挖掘关联规则
数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,因此数据挖掘又称作知识发现,由于关联规则可以有效发现数据之间的重要联系,且规则易于解释和理解,因而关联规则挖掘迅速成为数据挖掘研究的重要分支,它能从数据背后发现事物之间可能存在的关联或者联系。举个例子,顾客在超市买床上用品,其中30%的顾客会同时购买床单和枕套,而购买床单的人中有80%购买了枕套,这里面就隐藏了一条关联:床单—>枕套,也就是说很大一部分顾客会同时购买床单和枕套,那么对于商场来说,可以把床单和枕套放在同一个购物区,那样既能方便顾客购物,也能增加枕套的销量。由于下面介绍关联规则的一些重要概念以及如何从数据中挖掘出关联规则。
关联规则:用来发现在同一事件中出现的不同项的相关性,D表示事务数据库,关联规则的挖掘任务就是找到事务数据库D中支持度和置信度分别满足用户指定的最小支持度和最小置信度的规则A—>B,关联规则挖掘可以大致分为两步:
1)从事务数据库D中找出频繁项目集;
2)从频繁项目集合中生成满足最低置信度的关联规则。
最出名的关联规则挖掘算法是Apriori算法,它是后来绝大多数关联规则挖掘算法的基础。Apriori性质的内容是频繁项集的所有非空子集也都必须是频繁的。Apriori算法将发现关联规则的过程分为:第一,通过迭代检索出所有频繁项集,即支持度不低于用户设定的阈值的项集;第二,利用第一步中的频繁项集构造出满足用户最小置信度的规则。
3 数据采集与预处理
研究的数据以2011年和2013年两年某五年制高职校683名无锡录取的新生的中考分数和在校课程成绩为原始数据。这些数据来自于异构数据库,而且比较“脏”,存在杂质、噪声、不一致、不规范、遗漏等情况,需要根据分析主题进行ETL(Extract/Transformation/Load),即从数据源抽取出所需的数据,经清洗、转换等,按照预先定义的数据仓库建模,为数据挖掘构建纯净分析环境。本次数据处理工作分录取分数和在校成绩两方面。
1)录取分数:
数据来源:“录取分数”是指学生的入学考试成绩,五年一贯制高职学校招生的对象是初中生,录取分数即中考成绩。因江苏各地中考总分不同,且部分地区录取成绩没有电子档案,不易采集,为保证研究的可行性和准确性,数据采自《无锡市高级中等学校招生录取名册》,以2011级和2013级别两届无锡本地生源为对象。
数据转换:无锡市两年中考总分不同,各科总分也有差异,例如语文总分为130,体育总分为35,需统一将采集原始数据转换为百分制。
2)在校成绩
分析对象涉及某校所有高职专业,课程性质不同,学分不同,为了能较直观且客观地衡量学生成绩表现,笔者将学生在校学习期间的所有课程分数乘以相应的学分数的求和除以所有课程学分的总和,得到该生的平均学分绩,再根据课程性质不同,划分为公共课平均学分绩和专业课平均学分绩,以便体现职业院校学生的学习特征
再按照百分制分数,将“90~100”定义为优秀,80~90定义为良好,70~80定义为中等,60~70定义为合格,60以下为不合格,最终构建出服务于本次分析的数据仓库。
图1 录取分数与在校成绩相关性分析数据仓库
4 学生录取分数与在校成绩相关性数据挖掘分析
1)项集分析
将预处理后的数据库导入Microsoft SQL Server Analysis Services项目进行数据挖掘的关联分析,得到项集如图2所示:
图2 项集图
图2说明支持“体育=优秀”的学生有419人,支持“平均学分绩=良好,公共课平均学分绩=良好”为247人。
2)规则分析
图3 “语文”规则
以语文为先导为例,入学语文成绩优秀与否都有大概率趋向在校成绩中等。以外语成绩为先导,若仅仅外语成绩较好,而其他科目中等,则也有大概率趋向在校成绩中等。若以数学成绩为先导,若入学数学成绩优秀,其他科目优秀与否都有大概率趋向在校成绩优秀。若以入学总分为先导,入学总分和数学均偏低的学生在校各门课程成绩差强人意。
3)依赖关系网络图分析
初始关系图错综复杂,为了更直观显示,保留较强关联得到图4。
图4 依赖关系网络图
由图可见,入学总分中等或者良好的学生在专业课学习上,取得优秀或者中等成绩的概率各半;入学总分偏低的学生往往在校表现也不理想;仅仅外语优秀或者语文良好的学生专业课成绩反而不理想;理化成绩优秀或者良好的学生,专业课成绩较好。
5 结论
上述研究以“五年制高职学生录取分数与在校成绩相关性”为研究对象,以某校2011年和2013年683名无锡录取新生的中考分数和在校课程成绩为原始数据,基于Microsoft SQL Server Analysis Services项目平台进行关联规则挖掘,取得研究结论如下:
1)两届无锡学生在五年制高职院校学习期间,成绩总体表现合格率为100%,其中达到良好及以上的比例高达58.4%,仅1.4%的学生为合格(平均学分绩60~70)。说明绝大多数学生符合五年制高职教育的培养标准,在校成绩表现较好。
2)中考各个科目对高职阶段课程学习影响程度不同,被语文和外语成绩拖累入学总分的学生,如果数学或理化成绩较好,在专业课程学习阶段,取得优秀成绩的概率达到70%以上;数学成绩较好的新生,不论其他课程成绩是否优秀,专业课程成绩往往较好;入学体育成绩优秀的学生在校总体成绩较好。
3)学生录取分数确实在一定程度上影响在校成绩,但相关性并不强。例如总分仅在合格水平的新生在高职院校的各科成绩也偏低,但总分达到中等及以上水平的学生入校后均有大概率取得优秀或良好成绩。
参考文献:
[1] 蒋留生.五年制高职和三年制高职质量与效益状况的对比研究[J].徐州师范大学学报:哲学社会科学版,2012(6):151-156.
[2] 谢邦昌.SQL Server 2008 R2数据挖掘与商业智能基础及高级案例实战[M].北京:中国水利水电出版社,2011:3-8.
[3] Jiawei Han, Micheline Kamber. 数据挖掘概念与技术[M].2版. 范明,孟小峰,译.北京:机械工业出版社,2007:3-17.
[4] 张兴会.数据仓库与数据挖掘技术[M].北京:清华大学出版社,2011:2-5.