基于FLD的学业困难预警模型研究

2016-12-09 21:37陶毅涵
青年时代 2016年29期

陶毅涵

摘 要:学风推动是学生工作的重要内容,也是提升高校人才培养质量的重要抓手。及早地发现学业困难学生,有利于提前开展有针对性的教育和帮扶工作,提高学风推动工作效果。随着移动互联网技术的迅猛发展,数据挖掘技术为识别学业困难学生提供了新方法。本文采用费希尔线性判别法,将飞行器动力工程2016届毕业生的基本数据和行为数据作为训练集,建立该专业学业困难学生预警模型。经验证,该模型具有较高类间离散度,模型基本能够识别学业困难学生。通过学生基本数据和日常行为数据,提前识别学业困难学生是可行的。

关键词:学生工作;学业困难;数据挖掘;费希尔线性判别法

一、引言

(一)研究目的

随着高等教育向大众化发展,高等教育招生规模逐年扩大,进入高校的“门槛”也随之降低,如何提升高校的人才培养质量面临着新的挑战。大力加强学风推动工作,帮助学业困难学生完成学业,是提升高校人才培养质量的有效手段,也是学生工作的重中之重。在庞大的学生群体中,提早识别学业困难风险学生,有利于及时对学生进行帮扶和引导,降低学业困难学生出现的概率,预防产生困难科目的累积,避免进入课业负担愈发加重的恶性循环,同时也能够提升学风推动工作的成效。

(二)研究现状

自1963年Krik首次提出学习困难这一概念以来[1],学习困难研究的范围和程度不断扩大和深入,但是对于这方面的研究仍然存在很多争论。1965年 Bateman 首次提出了“能力与成绩之间的差异”,提出“能力—成绩差异”模型[2],该模型虽已被广泛应用,但仍受到来自多方的质疑:不能及时诊断,即存在“等待失败”;错误鉴定,尤其是低智力水平学生;标准不统一,结论不能进一步量化。“干预—反应模型”[3]弥补了“能力—成绩差异模型”的不足,具有进行早期鉴定、减少错误诊断人数以及为教育干预提供帮助等优点,但存在评估内容过于狭隘、实证研究局限于低年级段和阅读领域等缺陷。

组织行为学研究中提出:能够通过研究组织中人的心理和行为表现及其客观规律,提高管理人员预测、引导和控制人的行为的能力,以实现组织既定目标[4]。这便提出了一个新的研究思路:通过研究学生的行为表现及客观情况,预测学生的学习状态,辨别其是否存在学业困难的风险。随着移动互联网技术的发展,学生的行为数据更容易获得,这种研究思路能够得以实践。

(三)研究内容

本文基于天津市辅导员精品项目——移动智能学生工作平台的建立。从平台中获取大量的学生行为信息。以2016届飞行器动力工程专业学生的行为数据为训练集,采用费希尔线性判别法(Fishers Linear discriminant)[5,6]进行建模,得出该专业学业困难学生预警模型。并对该模型进行验证和应用分析。

二、建模方法

(一)费希尔判别函数

费希尔判别的思路是将多元观测值x变换成一元观测值y,使得由总体π1和π2导出的y尽可能地分离开。用x的线性组合来建立y,使它们是x的非常简单的函数,易于计算和掌握,同时也解决了在应用统计方法解决模式识别问题时,经常会遇到所谓的“维数灾难”的问题。

假定x的一个固定线性组合对来自第一个总体的观测值来说其取值为y11,y12,…,对来自第二个总体的观测值来说其取值为y21,y22,…。这两组单变量数据之间的分离度用以标准差为单位的与之间的差别来表示,即:

分离度,其中(2-1)

为方差的联合估计量。目标是选择适当的x的线性组合,使得样本均值与之间的分离度达到最大。经验证,当线性组合

(2-2)

对所有可能的线性系数使得分离度最大。

费希尔对分离问题的解法也可以用于对新的观测值作分类,其法则为:

若:

(2-3)

将x0分到π1。若:

将x0分到π2。

(二)训练样本的获取

建立预警模型的关键是根据训练样本,得出准确的。本文的训练样本选取2016届飞行器动力工程277名学生的基本数据和行为数据两部分,进行全样本的数据挖掘。基本数据包括:性别、年龄、民族、政治面貌、高考分数、生源地、家庭经济情况、家庭关系情况、人际交往情况。行为数据包括:晚查寝情况、晚签到时间、早操出勤情况、内务检查情况、日常请假次数、上课缺勤次数、参加集体活动次数、宿舍门禁数据、与辅导员谈话次数。

以上18个变量全部转换为十进制变量,即为费希尔判别函数中的x,要计算式(2-1)中的分离度,还需要确定合理的线性系数,即。线性系数的获取采用学生工作专家及部分优秀学生进行打分的方法,以学生毕业时学业情况作为打分的依据。

三、预警模型

将x(277行)与(18列)带入式(2-2)中可以得出每名学生的学业评价值,即和Sp无偏估计,进而可以求出最佳投影向量和计算阈值。训练结果图形表示如图3.1所示。

图3.1 费希尔方法对学业困难学生判别的图形表示

模型中各个参数值如表3.1所示

表3.1 学业困难预警模型参数表

30.09 6.11

0.062 7.18×10-3

2.32×104             -6.11×102

-6.11×102             3.09×104 3.44×10-2

四、模型应用

预警模型的应用可基于前期搭建的移动智能学生工作平台。该平台包括基于微信的手机端前台,基于web服务器技术的管理后台。前台用于实现功能和应用,获取用户信息;后台将获取的信息进行分析和统计,显示结果并向前台发送指令和消息。平台结合互联网云存储技术,采集并保存学生海量的日常行为数据。平台能够阶段性的分析其他模块采集到的学生行为信息,周期性的对全体学生进行观测值的进行计算。若学生观测值发生变化,被分为学业困难风险群体,及时送到辅导员的微信端进行预警。数据挖掘流程如图4-1所示。

五、结论

本文以2016届飞行器动力工程学生的全样本数据作为训练样本,利用费希尔线性判别法(FLD),建立了学业困难预警模型。模型具有一定的分离度和判断精度。使面临学业困难危机的学生群体能够在庞大的学生群体中及时被发现,并受到关注和帮扶。

图4-1数据挖掘流程图

本文的创新点在于:将大数据分析、数据挖掘技术——费希尔线性判别法(FLD)应用于学生工作领域,提升高校学风推动的工作成效;本项目成果模型将结合移动互联网和云存储技术,将结论模型应用于移动智能学生工作平台中,实现资源的整合和优化,完成了学业预警工作的闭环。

本文的不足之处在于:学生的行为数据类别仍然有待扩充,由于客观原因无法加入学生消费数据和网络访问记录。为提高模型精度,后期有待扩充,进行深入研究。

参考文献:

[1] Kirk,S.A.,Bateman,B.D.Diagnosisandremediation of learning disabilities. [J].Exceptional Children1962(2).

[2] Dombrowski S. C, Kamphaus R. W, Reynolds C R. After the demise of the discrepancy: proposed learning disabilities diagnostic criteria.Professional Psychology:Research and Practice, 2004, 35( 4): 364 -372.

[3] Douglas Fuchs,Devery Mock, Pual L. Morgan, Caresa L. Young. Responsiveness-to Intervention:Definitions, Evidence, and Implications for the Learning Disabilities Construct[J]. Learning Disabilities Research & Practice. 2003(3).

[4] (美)安妮·玛丽·弗朗西斯科(AnneMarieFrancesco),(美)巴里·艾伦·戈尔德(BarryAllenGold)著,顾宝炎等译.国际组织行为学[M]. 中国人民大学出版社, 2003.

[5] Fisher, R. A. “The Use of Multiple Measurements in Taxonomic Problems.”[J] Annals of Eugenics, 7(1936):179-188.

[6] Fisher, R. A. “The Statistical Utilization of Multiple Measurements.”[J] Annals of Eugenics, 8(1938):376-386.