李丽++汪莉萍++冯广卫
摘要:为了解和探讨影响学生成绩的潜在因素,采用Microsoft SQL Service Analysis Services(SSAS)数据挖掘工具,对贵州医科大学教务信息管理系统中的学生基本信息及学生成绩进行数据挖掘分析,发现学生成绩与入学成绩、性别、生源、专业、教学单位均有相关关系,学生前期专业基础课、英语、体育、“马毛邓”等课程中,专业基础课程“优秀”则后期专业课也“优秀”的置信度最高。
关键词:数据挖掘;学生成绩;成绩分析;教学;贵州
中图分类号:G526 文献标识码:A 文章编号:1009-3044(2015)25-0001-03
1 引言
在我校教务信息管理系统中存储着学生个人基本信息以及各学期各门课程的考试成绩数据,这些数据具有实时性和历史性,并且数据量非常庞大。在本校,这些数据的主要用途是成绩查询和打印,对这些数据所隐藏价值没有挖掘利用,十分可惜。
传统的学生成绩分析通常只针对局部数据进行分析,采用的是统计分析法,该方法只是对事实的验证,描述已经发生的事实,取得均值、方差、区别显著性检验、信度等,难以发现数据中存在的关系和规律,也难以根据现有的数据预测未来的发展趋势,对于学生取得这些成绩的更多的相关因素无法了解,这样的成绩分析方法已不能完全满足需要。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的行业有着广泛的应用,如信用分析、风险分析、欺诈检验、消费者习惯分析等。在教育领域应用相对较少,也有应用于高校学生成绩分析、试卷分析、课程相关分析的研究报告[1-6]。
本研究利用教务信息管理数据库中存放的学生基本属性信息和各学期各门课程的考试成绩数据,采用决策树、关联规则、分类技术等数据挖掘技术,对学生成绩数据进行挖掘研究,现将研究结果报告如下。
2 对象与方法
2.1 挖掘对象及目标
以我校2006级所有教务系统在册学生为研究对象,从学生的一些个人属性(如专业、性别、年龄、民族、省份、高考成绩)及各学年学期各门学科的考试成绩等大量信息中,分析揭示影响学生成绩的相关因素。
2.2 数据挖掘工具
采用Microsoft公司开发的Microsoft SQL Service Analysis Services(SSAS)数据挖掘工具,启用SQL Server数据库分析工具SQL Server Business Intelligence Development Studio,使用其中的决策树、关联分析、聚类算法分析工具。
2.3 数据准备
2.3.1 数据采集
从教务管理系统导出数据库文件123.dbf、2006级.dbf。
1)123.dbf数据库表属性包括:姓名、专业、班名、年级、性别、民族、KQ、BYZX、高考总分、XSLB、PYFS、入学日期、XZ、学校代码、层次。共12491条记录。
2)2006级.dbf数据库表属性包括:XH、XM、XSH、BM、XNXQ、KCH、KCM、XF、XS、KCSX、KSCJ、KCCJ、CXBKBZ、SFGD、JSH、BZ、KSSJ、KXH、QMCJ、LRSJ、CZR、PSCJ、SSNJ、SYCJ、QZCJ。共105309条记录。
2.3.2 数据净化
对数据库文件123.dbf、2006级.dbf表中数据去噪、去空、补遗。
1) 根据学生毕业学校填补学生省份,并将省份名统一,如将广西,广西省,广西壮族自治区统一为“广西”。
2) 将海南籍学生的高考成绩重新折算,公式为:高考成绩=(750×高考成绩)/900。
3) 增加高考等级字段,根据2006年贵州一本、二本及三本的高考录取分数线,将学生的高考成绩分为5个分数段:>523(一本线)、464-523(二本线)、400-464、300-400、<300。
4) 为未填写“高考总分”记录的高考等级字段填补为“未知”。
5) 清除KSCJ(考试成绩)为0的记录。
6) 增加KSDJ、QMDJ、PSDJ三个字段,将考试成绩、期末成绩、平时成绩划分为A、B、C、D四个等级,规则为:80-100 A(优秀),70-79 B(良好),60-69 C(及格),< 60 D(不及格)。
2.3.3 数据集成
将123.dbf、2006级.dbf两张表以学号为关联字连接为2006.dbf,并为2006.dbf添加ID关键字段。得到2006.dbf共104617条记录。
2.3.4 生成挖掘数据库
将数据库2006.dbf导入SQL Server数据库,生成2006.mdf文件,为SSAS数据挖掘做好数据准备。
3 结果
3.1 高考成绩与学生成绩
学生总体优秀概率为39.97%,高考成绩上一本线、二本线、400-二本线及400分以下的学生成绩获得优秀的概率依次递减,但高考成绩<300分的学生成绩优秀概率高于高考成绩在300-400分概率。高考成绩一本线的学生优秀概率为54.77%,超出平均值14.8个百分点;高考成绩二本线的学生优秀概率42.78%,比一本线学生少11.99个百分点,超出平均值2.81个百分点;一本线及二本线学生不及格概率为分别为5.32%和6.95%,差距不大,但二本线下的学生不及格概率均超过10%,其中高考成绩300-400分的不及格概率最高达到14.65%,甚至超出高考成绩300分以下学生不及格概率4.03个百分点。非常有趣的是高考成绩300分以下学生取得良好(70-80分)的概率高于其他高考成绩的概率。总体来说,高考成绩好的学生大学成绩也好。但高考一本线的学生不及格的概率仍然达到5.32%。
3.2 不同省份与学生成绩
省内学生的成绩不如省外学生成绩。河北省学生优秀概率最高达到73.1%,比优秀概率次高的四川省学生高出13.2个百分点,其余优秀概率从高到低的排序是重庆、湖南、湖北、辽宁、河南、甘肃、新疆、山西、福建、江西、山东、江苏、云南、安徽、广东、广西、内蒙古、青海、浙江、陕西、黑龙江。贵州学生优秀概率37.39%,比平均优秀概率41.17%少3.78个百分点,比非贵州学生的优秀概率50.84%少13.45个百分点。
3.3 性别与学生成绩
女学生成绩优于男学生。女生的优秀概率47.02%,高出男生的优秀概率14.08个百分点,高考成绩一本线以上女学生的优秀概率高达66.33%,而男学生一本线上的优秀概率只有43%,高考成绩400分以上的女学生优秀概率均高于男学生的平均优秀概率。男女学生的良好概率分别是33.34%、33.32%,几乎无差别,但男学生的不及格概率为9.06%,而女同学不及格概率只有4.08%。高考成绩300-400分的男学生不及格概率最高,达到20.1%,超出平均不及格概率10.76个百分点。
3.4 民族与学生成绩
在少数民族中,满族学生优秀概率最高,为56.4%,其次是黎族学生48.8%,其他优秀概率较高的是回族、壮族、汉族、侗族、瑶族。学生人数最多的汉族优秀概率为41.64%,高于少数民族学生优秀概率,但不及格概率高于少数民族学生不及格概率。成绩较差的是仡佬族学生,优秀概率28.2%,不及格概率8.89%。
3.5 学生专业与学生成绩
护理专业及本校老专业学生成绩较好,成绩较差的主要集中在新增专业,但新增专业中医学英语专业成绩较好,成绩最差的是护理学高职。护理专业优秀概率最高为58.4%,其次是临床医学专业(眼耳鼻喉方向)、预防医学妇幼卫生方向、检验医学、临床医学专业儿科方向、英语专业医学英语方向、医学影像学、预防医学、法学专业医事法律方向、临床医学专业急救医学方向、临床医学、口腔医学。临床医学专业(独立学院)与临床医学专业(二本)的学生成绩差距很大,临床医学(独立学院)优秀概率、不及格概率分别为16.67%、33.05%,临床医学(二本)优秀概率、不及格概率分别为40.85%,9.04%。护理学高职成绩最差,优秀概率仅22.44%,不及格概率21.3%,成绩较差的专业还有:神经精神学、基础医学(医学生物技术)、医事法律、药品营销、麻醉学、生物医学工程、法医学。
按专业类别编号的12类大专业中,编号为“002”、“005”优秀概率较高,分别是46.45%、46.53%,编号为“007”、“201”、“009”成绩较差,不及格概率分别是14.83%、12.64%、10.98%,其他编号的不及格概率均低于10%。
3.6 班级与学生成绩
优秀概率前三名的班级是06级B3班、护理学06级、06级A2班,优秀概率分别为60.6%、58.5%、58.1%,其他优秀概率50%以上的班级有:06级A1班、06级B4班、眼耳鼻喉06级、妇幼卫生06级,优秀概率40%-50%的班级有:儿科学06级、医学检验06级、医学英语06级、药学06级、医学影像06级、预防医学06级、急救医学06级。不及格概率最高的是护理专科,23.32%,16.66%,除三本班级外其他成绩较差的班级有:生物技术06级、生物工程06级、药学06级、药品营销06级。
3.7 课程与学生成绩
毕业实习优秀概率最高,达到99.6%,接近100%,专业毕业实习优秀概率均在94%以上。其次是针灸学,优秀概率91.4%,优秀概率80%-90%的有:军事理论课、文献检索、大学生就业指导、毕业论文,优秀概率50%-80%的有:英语(五)、医学统计学、儿科学、外科学传染病学、神经病学、机能学实验、精神病学、卫生统计学、病理学、全科医学、病理生理学等。不及格概率较高的课程有:诊断学基础、内科学概论、无机化学、免疫药理、内科护理学、组织学、英语(1),这些课程的不及格概率在15%以上。
3.8 教学单位与学生成绩
不同单位给出的学生成绩存在差异,单位LC给出优秀概率最高,为96.89%,其次是ZJ,优秀概率为91.4%,给出优秀概率80%-90%的单位TS和XS,给出优秀概率60%-80%的单位有:FY、YS、CR、SJ、JN,给出优秀概率50%-60%的单位有:HZ、GW、XL、BL、EK、YX、SX、JY、MZ、BS。给出良好概率最高的单位是WK,为60.5%,其他给出良好概率较高的单位是TJ、HW、JJ,均达到50%以上。给出及格概率最高的单位是YY,为53.4%,其次是FX,为52.4%。给出不及格概率较高的单位有:ZP、HX、MY、YJ、WL、JP,给出不及格概率10%以上。
3.9 学年学期与学生成绩
总体趋势是学年越往后,优秀概率越高,最后一个学期的优秀概率达到66.02%,而第1学年第2学期的优秀概率只有25.56%,第1学年第2学期不及格概率10.3%,第4学年两个学期的不及格概率只有1.61%和1.54%。第1学年第1学期的成绩好于第2学期的成绩,优秀概率分别为39.44%和25.56,不及格概率分别是7.95%和10.3%。
3.10 前期与后期成绩关系
一年级优秀的学生(考试成绩得到过优秀),升至二、三、四年级优秀概率分别是93.2%、99.3%、88.1%,二年级优秀的学生升至三、四年级优秀概率是99.3%、89.5%,三年级优秀学生升至四年级优秀概率为87.8%。
3.11 部分前期基础课程与后期专业课程成绩关系
临床医学专业解剖学(包括人体解剖学、局部解剖学、断层解剖学、麻醉解剖学)优秀率为32.5%,外科学(包括外科学、外科学基础、小儿外科学、外科实习)优秀率32.3%,诊断学优秀率为15.4%。此时,解剖学优秀的学生外科学优秀概率97%,外科学良好以上概率100%;解剖学优秀的学生诊断学优秀概率34.5%,诊断学良好以上概率82.4%,而诊断学优秀的学生解剖学优秀概率90%,解剖学良好以上概率98.9%。
临床医学专业生理生化(包括生理学、生物化学)优秀率为34.4%,生理生化优秀的学生外科学优秀的概率为94.5%,外科学良好以上概率99.94%;生理生化优秀的学生诊断学优秀概率77.9%,诊断学良好以上概率93.4%。
临床医学专业英语优秀率为34.7%,英语优秀的学生外科学优秀的概率为98.5%,外科学良好以上概率99.98%;英语优秀的学生诊断学优秀概率为74.2%,诊断学良好以上概率为88.5%。
临床医学专业体育优秀率为41%,体育优秀的学生外科学优秀的概率为98%,外科学良好以上概率100%;体育优秀的学生诊断学优秀概率68.2%,诊断学良好以上概率84.9%。
临床医学专业政治思想课程(包括邓小平理论概论、马克思主义哲学基本原理、毛泽东思想、邓小平理论与“三个代表”重要思想概论)优秀率为19.6%,政治思想课程优秀的学生外科学优秀概率为95.9%,外科学良好以上概率为100%,尽管政治思想课程的优秀率低于其他学科优秀率,但其优秀学生进入外科学优秀概率却低于其他学科优秀学生概率。政治思想课程优秀的学生诊断学优秀概率仅11.2%,诊断学良好以上概率仅69.3%。
前期课程优秀,后期课程外科学、诊断学成绩优秀置信度从高到低的排序是:专业基础课、英语、体育、“马毛邓”。
4 结束语
本研究利用教务信息管理系统中存放的学生基本属性信息和各学期各门课程的考试成绩数据,利用SSAS中的决策树、关联规则、分类技术挖掘工具,对学生成绩进行挖掘研究,找出影响学生成绩的潜在因素,发现前期课程与后继课程的关系,使教师和教学管理人员洞悉教学效果以及影响学生成绩的相关因素,更加科学、公正、合理地看待和评价学生成绩,制定相应措施,因地制宜,更好地开展教学工作,提高教育教学质量。
参考文献:
[1]刘华敏.数据挖掘在高职院校学生成绩分析中的应用[J].广东技术师范学院学报(自然科学),2014(7):134-138.
[2]谢虹,张彦芳.数据挖掘技术在高校学生成绩分析中的应用[J].科教导刊(电子版),2014(10):85-87.
[3]徐清泉,王莉红.数据挖掘在高校学生成绩分析中的应用[J].数字技术与应用,2015(2):77.
[4]李巧君,李伟.数据挖掘技术在学生成绩分析中的应用研究[J].微型电脑应用,2015(4):35-40.
[5]卞欢平.数据挖掘的Apriori算法在高校学生成绩分析中的应用[J].电脑知识与技术,2014(7):4945-4947.
[6]张勤,刘宇.数据挖掘技术在高校学生成绩分析中的应用[J].计算机光盘软件与应用,2013(15):221-222.