孟 宪 涛
(沈阳师范大学 数学与系统科学学院, 沈阳 110034)
研究生的综合素质除了基本的书本知识学习和毕业论文之外,还包括发表学术论文、获得各种荣誉和奖励、讲课水平等,这些因素对就业都具有一定的影响。本文利用沈阳师范大学数学与系统科学学院2013-2016年的实际数据,对研究生综合素质与成功就业关系进行了统计学分析。
对沈阳师范大学数学与系统科学学院2013—2016级研究生的论文(A)、奖学金(B)、荣誉获奖(C)、讲课比赛(D)及其就业情况(S)进行量化统计。
选取多元线性回归方法作为分析工具,研究A、B、C、D这4个解释变量对相应变量S的影响。在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用2个或2个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元线性回归。
将研究生发表论文分为4类:SCI检索论文、EI检索论文、核心期刊论文、普通省级论文,分别赋予15分、7分、2分、1分的分值,然后将每个学生于研究生在读期间所有发表论文的分数求和,得到每个学生的发表论文分值(记为A);同样,研究生奖学金的特、一、二、三等奖分别赋予4分、3分、2分、1分的分值(未获奖赋0分),然后将每个研究生在二三年级获奖的分数求和,得到每个学生获得奖学金分值(记为B);荣誉获奖的量化较为困难,主要源于不同竞赛和奖项难以有客观的标准进行横向比较。为了简化模型,将任何竞赛奖项和其他奖项都赋值1分,对每个学生的所有荣誉获奖分值求和(记为C);讲课大赛成绩因为不同的打分尺度所以先进行均值为0标准差为1的标准化处理后,再将处理后的每个学生所参加过的所有讲课大赛的得分取平均值(记为D);本文涉及的学生信息中最为难以量化的部分是就业情况,为此采取如下措施对其进行赋值打分:将样本中学生的就业信息单独抽出(去掉学生个人信息,只保留工作去向),根据评判结果,将样本中的研究生工作分成优、良、中三档,分别赋予3分、2分、1分的分值(记为S)。
用R语言建立数据集并进行一般性分析。首先需要对选取的多元数据集通过lm()函数定义多元线性模型,再利用summary()提取计算结果,然后进行参数估计,对估计出来的参数进行显著性检验,残差分析,异常点检测,最后确定回归方程进行模型预测。设S为因变量,A、B、C、D为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为
S=b0+b1A+b2B+b3C+b4D+ε
其中,b0为常数项,b1、b2、b3、b4为回归系数,ε为残差,是其他一切不确定因素影响的总和,其值不可观测,但参数估计法并不需要考虑残差。进行t检验,p<0.05时差异具有意义。t检验就是检验一个样本平均数与一个已知的总体平均数的差异是否显著。大致过程:
1) 计算t值
2) 计算R2值
系数R2是反映模型拟合优度的重要的统计量,为回归平方和与总平方和之比。R2取值在0到1之间,且无单位,其数值大小反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系所能解释的百分比。R2是最常用于评价回归模型优劣程度的指标,R2越接近于1,所拟合的回归方程越优。
从表1可以看出,对于任意2个变量之间的协方差,如果2个变量的变化趋势一致,那么2个变量之间的协方差就是正值;如果2个变量的变化趋势相反,那么2个变量之间的协方差就是负值。在这里可以看出A与S这2个变量变化趋势相同。
表1 任意2个变量间的协方差Table 1 The covariance between any two variables
表2列举了各个变量之间的相关系数,一般认为0.3以下为弱相关、0.3~0.7之间为中相关、0.7~1.0为强相关。可以发现,A、B、C、D与S之间的相关系数分别为0.65、0.87、0.67、0.51,这就说明这4个自变量都与因变量具有相关关系。从表3可以看出,置信度P小于0.001。
表2 任意2个变量间的相关系数矩阵
表3 任意2个变量间的概率或显著性
表4列出了残差的最小值点,1/4分位点,中位数点,3/4分位点,最大值点。
表4 剩余残差的四分位点Table 4 The quartile of residual residuals
表5就是本文最终要求的回归方程的显著性检验结果,其中Estimate表示回归方程参数的估计,即b0、b1、b2、b3、b4的估计值,Std. Error表示回归参数的标准差,tvalue为t值,Pr(>|t|)表示P值。
表5 回归方程的显著性检验Table 5 Significance test of regression equation
从计算结果可以看出,回归方程通过了回归参数的检验与回归方程的检验,因此可以得到回归方程:
S=0.897 07+0.419 40A+0.541 64B+0.402 36C+0.289 12D
最下面表格中“***”说明极为显著,“**”说明高度显著,“*”说明显著,“·”说明不太显著,没有记号为不显著。因此通过P值可以知道A与S极为显著;B、C与S高度显著;D与S显著。Multiple R-squared是拟合优度,Adjusted R-squared是修正的拟合优度,是指回归方程对样本的拟合程度几何,也就是R2,其值明显接近于1,所以拟合较优。
F-statistic也就是常说的F统计量,常常用于判断方程整体的显著性检验,其P值为2.431×10-11,显然是<0.05的,可以认为方程在P=0.05的水平上还是通过显著性检验的。
从模型结果可见,研究生在校期间的论文、奖学金、荣誉奖项、讲课比赛这4项因素都与其毕业后的就业情况有显著的正相关。这进一步印证了本文所阐述的各项观点。
本文通过对学术论文、奖学金、荣誉获奖等因素与研究生就业之间关系的统计分析,得出研究生综合素质对于就业的重要性,所以研究生要及早明确自己的目标,给自己将来一个定位,是考博还是当老师,早早动手准备,不断积累成果,丰富自己,提升自身质量和综合素质,做到有备无患,这样才能在考博或就业的激烈竞争机制中脱颖而出。