李佳琳
摘要:本文以某高校对本科毕业生去向调查的样本数据为例,建立了广义线性模型中的多类别logistic回归模型,并通过逐步回归优化回归方程的选择,针对影响高校毕业生去向的因素进行探讨。
关键词:毕业去向;多类别Logistic回归;逐步回归
由表可知,毕业生去向和性别之间的相关性较弱。通过计算条件数,可以度量多重共线性的严重程度。一般来说,若条件数k<100,则认为多重共线性的程度很小;若100≤k≤1000,则认为存在中等程度或较强的的多重共线性;若k>1000,则认为存在严重的多重共线性。利用R语言中的kappa函数计算得条件数为1.98601,远小于100,故可以认为自变量之间不存在多重共线性。
由于定性因变量有三种不同的结果,且用虚拟变量1、2、3表示,只是名义代号,并没有大小顺序的含义,且并不是所有自变量都对因变量y有显著的影响。综合分析后选用多类别Logistic回归模型,随后通过逐步回归筛选最优回归子集。
利用R语言中的step函数得到逐步回归选取的最优回归子集{},即不考虑x3性别变量对因变量y的影响,与相关性检验结果相符合。可以写出经逐步回归选出最优回归子集后的多类别Logistic回归模型等式:
由逐步回归所得的回归子集必定是最优回归子集,这一点从AIC值同样可以看出,在确定回归子集{}的条件下AIC值为72.85965,而无论剔除中的任何一个自变量得到的回归子集AIC值都会增加,依次为85.13389,74.44935,77.91824,因此可以說明此时得到的回归子集{}就是最优回归子集。
=0.0003, =0.0611, =0.0108,这三个值均小于0.1,说明均值相等的概率很小,即认为自变量x1、x2、x4=的多个水平效应之间有显著差异。此外我们还可以看到,若剔除了自变量x1、x2、x4,方程的Residual Deviance依次为73.13389、62.44935、65.91824,均比回归子集为{}时的值56.85965大,同样反映出此时的拟合优度最佳。
根据逐步回归最终得到的多类别logistic回归模型等式,我们可以对样本中40名毕业生的毕业去向做出预测。
由上表可知,样本中实际y=1(工作)的毕业生共有17人,预测的结果中c(2|1)=4,c(3|1)=1;实际y=2(读研)的毕业生共有16人,预测的结果中c(1|2)=3,c(3|2)=2;实际y=3(出国留学)的毕业生共有7人,预测的结果中c(1|3)=1,c(2|3)=3。
在40名毕业生组成的样本中,总的误判概率=14÷40=0.35,样本整体的预测结果与实际情况对比如下图。
得到以下结论:
(1)高校毕业生的去向与其性别x3几乎没有相关性,与专业课成绩x1、英语成绩x2和经济状况(月生活费x4)具有一定的相关关系;(2)与y=1(工作)的同学相比,y=2(读研)的同学其专业课成绩x1相对更好,而外语成绩x2和经济状况x4没有显著差异;(3)y=3(出国留学)的同学其专业课成绩x1和参加工作的同学没有显著差异,但外语成绩x2和经济状况x4相比之下更好。
综上,高校毕业生的去向问题受到个人和家庭等多方面的因素影响,因此在临近毕业之际,毕业生应当结合实际情况,选择适合自身条件的发展方向。
参考文献:
[1]于春波.基于多分类Logistic回归模型的会计舞弊影响因素研究[D].吉林大学,2011.
[2]何宜庆,白彩全.基于结构方程模型的当代大学生毕业去向选择行为研究[J].数学的实践与知识,2015,45(3): 22-29.