瞿华礼,樊秀龙
(安徽广播电视大学 宣城分校, 安徽 宣城 242000)
基于聚类分析的远程开放教育滞留生研究
——以宣城广播电视大学为例
瞿华礼,樊秀龙
(安徽广播电视大学 宣城分校, 安徽 宣城 242000)
利用现有的挖掘技术中的K-means聚类分析对开放教育滞留生的数据进行了分析,对开放教育中收集到的两类滞留生的数据,根据滞留的性质不同,分别设置了不同的观测变量,利用K-means聚类分析,划分出聚类中心,得出了影响学生滞留的关键性因素。
数据挖掘;聚类;滞留生
如今的国家开放大学(简称国开)实行的是一种师生准分离状态的远程开放教育。开放教育实行学分制,学籍有效期八年,最短学习年限不少于两年半,学生在学籍有效期内修满专业学分即可获得毕业证书。本课题拟将在最短学习年限和学籍有效期八年之间的时间内的学生,定义为滞留生。本文研究的对象仅限于本科层次的学生,文中所指的滞留生包括已修满课程学分获得毕业资格,却欲申请学位而延迟毕业的本科学生和未修满课程学分却超出最短学习年限并在学籍有效期内的学生。
各级电大都要面对滞留生的问题,较高的滞留率会增加远程开放教育的办学成本,会加大基层电大的管理负担,也不利于学生学习信念的坚定。目前,对远程开放教育学生滞留原因却鲜有相关深入的研究。
从电大管理的实际情况上看,滞留生总量较大,有关于滞留生的年级、专业和滞留的原因更加多样复杂。实践经验和已有研究表明,工学矛盾、心理预期、学习能力、工作状况、家庭状况等,专业设置、课程资源、教学质量、师资条件、技术支持等,都是可能导致滞留或辍学的影响因素。[1]另外,滞留生个人因就业行业变动、居住地和工作地点变动等原因造成整个滞留生管理工作难度加大,从大力改进教学管理和提升教学服务质量,并以学生为中心出发,督促学生尽快完成学业,挖掘学生滞留规律[2],采取切实有效的措施使滞留率降至最低,将会推动远程开放教育教学管理及服务制度更健康的发展,也将使远程开放教育理论体系得以完善。
数据挖掘(Data Mining) 指从海量随机的有噪声的数据中提取隐含在其中的却又潜在有用的信息和知识的过程,它也被称为知识发现。[3]数据挖掘技术揭示事物的规律与联系,指导未来的活动。它已被应用于多个领域,包括教育行业。
数据挖掘是一项应用性很强的技术,许多大型的数据库厂商,如微软,ORACLE等都有数据挖掘工具。在众多企业中,IBM以它的Intelligent Miner走在了这项技术研发的前列[4],本文所用的统计分析工具就是IBM SPSS Statistics Version 22.0。本文运用了K-means聚类算法对数据进行分析。聚类算法使用迭代技术将数据分为包含类似特征的组,这些分组有利于识别数据异常及预测将来的活动。K-Means算法使用距离度量值将数据分到给其聚类中心最近的分类,它较适合分类任务。
例如,在实际应用中,我们可以用聚类分析的方法分析市场,给市场中的消费者进行分类,针对不同的消费者喜好推出不同的营销策略从而增加营业收益。
(一)数据来源
项目组选取了离2016最近的三个毕业季,根据电大的最短学习年限,即选取了宣城广播电视大学2012秋本科、2013春本科、2013秋本科,它们分别在2015年春季、2015年秋季、2016年春季毕业。选取的时间段因为研究方法所决定的。研究方法采用了问卷调查法,即对有滞留生的班级发放问卷或邀请班主任根据学生情况填写问卷,如果选取的学生入学年限过长,信息会遗失且可用的样本数会少,滞留生会随着时间的延长逐渐毕业,失去统计分析的意义[5],根据学生首次滞留来收集信息,一位学生多学期滞留则不重复进入样本。
利用电大教学点管理平台的“相关查询”“学籍相关查询”“教学点人数统计报表”统计出每个招生季的本科生数目,利用电大打印平台的“毕业审核”“毕业申请花名册”可以得出每学期的毕业人数,根据下载报表中的学号,剔除往季的滞留生,即不在样本内的三个季的学生,就是各季首次毕业的学生数。招生人数减首次毕业的学生数,即为样本各季滞留学生数。根据平台统计本研究应该得到的滞留生样本数据是452条,三季招生总数为876人,滞留率=滞留生样本数/样本总数,本研究的滞留率为51.5%。
(二)数据整理
通过走访分校内涉及样本班级的所有班主任,填写问卷,在452条的数据样本里,离世1人,明确表示退学者25人,缺新华社采像照片4人,因特殊数据较少,不纳入观察,滞留生样本还有422人。笔者将观察样本分为两类:一类学分已满延期申请学位的滞留生,二类学分不满的滞留生,分别研究造成滞留的原因。根据宣城广播电视大学教务管理档案,三个招生季中,一类有77人,全部纳入观察;二类中去除离世和退学者,将余下的345人纳入观察。
根据笔者十余年在开放教育一线的工作实践,本研究在一类问卷中,将班级、毕业设计/论文、学位课程、学位英语、时间因素、地点因素、学习体验、主动学习效果作为观测值,旨在通过数据分析得出最能影响学生申请学位的关键点和主要原因。在二类问卷中,项目组将班级、毕业设计/论文、教育部网考、网上作业、传统笔试作为观测值。
问卷在数据化的过程中,班级分别为3、2、1来为13秋季班、13春季班、12秋季班取值,其他观察量用1表示此观察量“已通过”或“被该观测量影响”。本研究中设计的观测体系如下表所示:
表1 开放教育滞留生观测体系
本研究针对研究的两类对象分别采用了不同的观测指标,这是由于学分已满和学分未满的根本性差别,这样更能从不同角度分析滞留原因。
本研究的数据采用统计软件IBM SPSS 22.0进行K-means聚类分析[6-7]。
(一)一类滞留生分析
根据聚类分析的步骤,项目组根据研究目标将除班级外的7个指标全部纳入观测,考察各个变量的影响程度,标签观测量选定为专业班级,迭代最大次数设置为10,根据主要影响学分已满学生滞留原因主要有学位课程、毕业设计和学位外语,笔者将数据聚为三类,统计的结果要求显示初始聚类中心、方差分析表和每个观测量的聚类信息,结果见表2。
表2 一类滞留生最终聚类中心距离最终聚类中心之间的距离
从表2可以看出,聚类中心之间的距离还是比较大的,分类的结果较理想。
表3 一类滞留生最终聚类中心最终聚类中心
表4 一类滞留生个案分布每个聚类中的个案数量
从最终的聚类中心看出,学生三项申请学位的条件均未达到时,主要因为距离因素和学习体验因素造成的,当距离成为主要原因,学生不能到学校参加学习,学习体验自然不如意。根据统计结果显示,这类学生有17人;学生的学位英语未通过而毕业设计和学位课程通过者,主要影响因素为主动学习效果。主动学习效果不好可以理解为自学效果不佳或本身基础比较薄弱,这类学生有42人,在整个群体中占较大比重,可见学位英语对申请学位影响较大;在第三个聚类中,毕业设计影响比较的学生有18人,由此比较可知,毕业设计的影响程度比学位英语影响程度较弱。
(二)二类滞留生分析
同一类滞留生分析过程一样,项目组将除班级外的4个指标全部纳入观测,标签观测量选定为专业班级,迭代最大次数设置为10,笔者将数据聚为三类,统计的结果要求显示初始聚类中心、每个观测量的聚类信息。
表5 二类滞留生最终聚类中心最终聚类中心
表6 二类滞留生个案分布每个聚类中的个案数量
从分析的结果上看,第二类滞留生聚类的346个样本中,聚类2中的个案数量最多,248人。从最终的聚类中心可以看出,教育部统考影响因素最大。
本文研究了远程开放教育本科学生滞留的原因,按学分已满和学分未满两类进行分别分析,可以得出基本结论:学位英语成为申请学位者的最大障碍,教育部网考的两门课中,其中一门是大学英语A或大学英语B,网考也是在学分未满中的滞留生中占了相对较高的影响比重。根据基本数据分析的结果,我们可以建议教学管理部门可以针对英语这门课程多分配教学时间,也可以进行相关的专门培训或集中辅导来解决这个问题。宣城电大在教育部网考方面多年来一直坚持向学生提供考前强化辅导服务,取得了一定的效果。
滞留生的大量存在,对办学成本和教职人员分配也造成了较大的影响,尤其是跟滞留生最接近的班主任老师,给一线的电大教职员工带来了大量的隐性工作量。这是学校的管理者值得重视的问题。
[1] 朱祖林,毕磊,齐新安,等.现代远程教育辍学率的挖掘分析:基于安徽地区1999-2009年数据[J].远程教育杂志,2011(4):18-26.
[2] 毕悦.远程开放教育学生滞留率问题研究[J].科教文汇,2014(4):91-92.
[3] 韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2012:316-320.[4] 王海涛.常用数据挖掘算法研究[J].电子设计工程,2011(19):90-91.
[5] 张琳琳.电大开放教育遗留生问题研究综述[J].北京广播电视大学学报,2012(2):30-32.
[6] 张文彤,邝春伟.SPSS统计分析基础教程[M].北京:高等教育出版社,2015:32-33.
[7] 谢龙汉,尚涛.SPSS统计分析与数据挖掘[M].北京:电子工业出版社,2014:231-239.
[责任编辑 李潜生]
On the Retention Students of Distance Open Education Based on the Clustering Analysis——Taking Xuancheng Branch for Example
QU Hua-li,FAN Xiu-long
(Xuancheng Branch,Anhui Radio and TV University, Xuancheng Anhui 242000, China)
By using the K-means clustering analysis in the existing mining technology, the paper analyzes the data of the retention students of distance open education. Based on the data of two types of the retention students and the differences of the retention nature, different observed variables are set up. The key factors causing the retention are found by adopting the K-means clustering analysis and then dividing the centers of clustering.
data mining; clustering; retention students
2016-05-19
安徽广播电视大学青年教师科研基金(项目编号:qn15-18)。
瞿华礼(1980-),女,安徽霍邱人,讲师。研究方向:数据挖掘。
G728;TP311
A
1008-6021(2016)04-0057-03