孙小素,尹思源
(1.山东工商学院 统计学院,山东 烟台 264005;2.山东财经大学 统计学院,济南 250014)
古有文人志士寒窗十载苦读争名利,今有有志青年奋起读书考研求提升。随着国家实力不断增强,科技文化力量被更多的人认识并重视。一方面,十九大明确提出我们要增强文化自信,“文化兴国运兴,文化强民族强”,而考研是除高考外再一次相对公平的打破文化阶层的利器;另一方面,强大的就业压力也迫使即将毕业的大学生通过考研来提升自我的学历与能力。佩一把更锋利的宝剑,抱一块更厚实的敲门砖,对于越来越多的大学毕业生来说不可或缺。
而今,考研热已然成为一种现象和趋势。据《2017年全国研究生招生数据调查报告》显示[1],我国硕士研究生考试报名人数已连续20年约逐年递增10~20万,而这一数据在刚刚过去的2018年研究生招生报名处被刷出了新高:238万!较2017年的201万,增加37万,增长18.4%。
在考研过程中,有部分考生平时表现并不突出却考上了一所比多数同学好的学校;还有些同学平时成绩优异,却意外落榜。难道这一切只是运气作怪?本文将各学生的平时成绩、综合表现得分、以及报考信息等个人因素进行整合,建立考研结果与各因素间的logistic回归模型[2],以期得出影响考研结果的关键因素,从而指导大学毕业生更有效地应对研究生入学考试。
在用统计方法分析成绩的相关研究中,研究内容大至教育评估,小到具体课程如运筹、四级成绩分析,但对于考研成绩分析研究者屈指可数。丁澍[3]基于因子、聚类等多元统计方法,对各高校间的本科生及研究生的高考成绩、在校成绩、心理素质等方面进行问卷分析与对比;杨莉[4]基于HLM从个人、高校、家庭三个方面,以调查问卷的形式对贵州省经济类考研成绩进行了分析,深刻又全面;ElchananC等4位学者[5]研究了学生高中时期的表现及学习成绩对大学期间成绩有无影响;Maureen A.C[6]通过研究得出影响学生研究能力的因素包括学生的个性特质和学术表现。这些研究对本文思路的开阔大有裨益,不过他们大多以问卷调查的形式获取数据,并做出进一步的分析。不可否认的是,这种研究其结论难免具有一定的主观性,并且其科学性也会受问卷设计的好坏影响。
近十年来,logistic回归模型在人口普查、疾病控制、卫生统计、消费者意愿分析、农业工程、信用评级、地理研究等学科领域都取得了不错的进展和效果,尤其是医学方面的研究,对于logistic回归模型的构建已取得长足发展。然而却鲜有关于成绩处理方面的研究成果,前些年的研究者们用于成绩分析的研究方法也大致分为线性回归、决策树模型、数据挖掘、多元统计、软件算法几类。
综上,本文拟以考研学生学籍档案中的数据为基础,通过建立logistic回归模型,精准研究考生的个人因素对考研录取结果的影响。本文的创新之处在于,其一,克服了现有成绩分析的研究大都采用调查问卷形式,由于主观填写,其数据真实性不能保障的局限性;其二,构建logistic回归模型更符合考研问题的本质。因为研究生招生单位专业课涵盖范围不同、难度不同、评分标准不同,从而导致分数的不可比,而以考研结果成功与否为研究变量,寻找其影响因素构建模型,这正是logistic回归模型的价值所在。
影响高校应届毕业生考研结果的因素众多,包括宏观与微观因素。宏观因素包括社会经济发展状况、国家有关就业与高校补助相关政策、专业相关行业前景等等;微观因素包括家庭因素、心理因素、高校因素、个人因素、综合素质水平因素等等。由于宏观数据指标不易量化,本文选择微观因素中最重要且易根据结论进行及时调整的个人因素进行研究。通过广泛的调研,这些因素主要有政治课基础、数学能力、专业课基础、四级成绩、综合测评、性别、生源地、报考学校性质、报考硕士类型。
下文以山东工商学院统计学院2017、2018共两届考研学生为样本,以学籍档案中实际保留的数据为基础,对上述影响考研结果的因素进行实证分析。
当然,这种分析的前提是影响因素的量化[7]。相关因素与考研的关系及其量化方法如下:
政治课基础(X1)。政治是考研的必考课之一,考研是否成功与其有着重要的关系。本文选择考生大学四年学习的思想道德修养和法律基础、中国近代史纲要、马克思主义基本原理、毛泽东思想和中国特色社会主义理论体系概论等课程成绩,通过加权平均(见公式1),作为政治课基础的衡量指标。
(1)
数学能力(X2)。对统计专业而言,数学能力不仅直接影响考研时的数学成绩,而且还会影响统计专业课的学习。本文中,选取了各位考研者在校期间的数学基础科目(数学分析、线性代数、概率论与数理统计)的考试成绩并根据学分做加权平均(同公式1),用来反映考生的数学能力。
专业课基础(X3)。专业课基础对每位考生同样是至关重要的一个指标,专业课考试贯穿于初试和复试始终。本指标根据不同类别考生所报考学校和专业,综合考虑初复试考试科目及学院开设的课程,将考生在这些课程上的成绩按学分进行了加权平均,方法同公式1。
英语能力(X4)。英语对于每一位考生来说至关重要,不论是初试还是复试,无论是考英语一还是英语二,总有一些考生因为英语单科成绩不过线而被拒之门外。本文英语能力指标选取考生英语四级成绩(以考研前获得的最高成绩为准)。选择四级成绩作为英语能力指标的原因有二:其一,大学本科阶段的英语成绩存在突击、运气、不同班老师给分标准不同等不确定因素,故该数据不具有说服力;其二,有些考研者未过六级,为了避免缺失值,使用四级成绩更为合适。
综合测评能力(X5)。我们常常见到学习好的人各方面素质同样优秀,不积极进取的人在学习上也不会太上心。但这是铁律吗?它对获得研究生入学资格是否有直接影响?为了研究这个问题,我们引入了综合测评能力(包括卫生得分、出勤得分与奖励得分)这项指标,并将每位考生大学期间前3学年6个学期所得综合测评分做简单算术平均。
表1 logistic回归分析主要变量赋值表
性别(X6)。考生的性别在众多文献中也作为个人因素被考虑在内。大量资料表明性别差异会制约学习能力及各方面发展,那么性别差异是否在考研结果方面同样制约显著呢?故引入该变量来反映性别差异对考研结果的影响。
生源地(X7)。由于不同区域教育水平不同,故引入出生地(区分为大城市、中小城市、农村3类)作为个人教育背景因素引入模型。其中大城市是指一线城市以及2018年划定的新一线城市:北京、上海、广州、深圳、天津、成都、杭州、武汉、重庆、南京、苏州、西安、长沙、沈阳、青岛、郑州、大连、东莞、宁波;中小城市即二三线城市;农村是指所有出生地为县、镇(乡)、村的考研同学。
报考学校性质(X8)。不同学校被录取难度差异显著,故引入该变量来反映个人选择因素对考研结果的影响程度。具体分为普遍认同的三类:985大学,211大学以及普通本科大学。其中,调剂生的此项指标按最后调剂学校计。
表2 考研学生分布表
注:(1)原始数据来源于学生学籍档案;(2)由于资料缺失,报考硕士类别仅统计了2018届的考生。
报考硕士类别 (X9)。专业硕士近些年来报考火热程度已远超学术硕士,本因教学目标的特殊性而降低难度的专硕报考录取比率现已不复当年。而专硕与学硕的考研成功率孰高孰低?这一问题的答案仍扑朔迷离。为了解决这个问题并找到报考硕士类别与考研成功率之间的关系,本文引入了该项指标。
为了使结构更为清晰,将各变量的统计属性汇总于表1中。
没有描述统计的logistic回归是不完整的。通过描述分析可以加深我们对问题的理解,同时也可以对因变量和自变量之间的关系有一个初步认识,便于后面分析解释回归模型。
山东工商学院统计学院2017、2018届学生总人数为329,研究生考试报名165名,其中,有56人考研成功,考研成功率为34%。考研学生在各影响因素上的分布情况见表2(数据根据第二部分给出的方法整理)。
1.政治成绩、数学成绩、专业课成绩与考研结果之间的关系分析
政治成绩与考研结果。通过表2可以看到,大部分学生政治课基础处于中等水平:约有97%的同学政治课成绩在(70,90)内;只有极少数同学政治成绩比较极端且无政治不及格的同学。政治成绩刚及格的同学考研率最高,达到67%,(70,80)与(80,90)之间的同学考研成功率相差不大,分别为33%与35%,而政治成绩最高者(不低于90)的同学考研成功率几乎为0。
政治成绩与考研结果并非想象中的正相关关系,而是负相关。究其缘由,这是由于调查数据取自理学类别——统计专业的考生。政治相关学科成绩越高,说明该生文科素养越高,而统计学专业需要的是理科素养高的学生[8]。
数学成绩与考研结果。表2表明,考生中约有80%平时的数学成绩处于(60,90)之间,数学平时成绩与考研成功率之间呈正相关关系。数学平时成绩不及格的同学考研成功率仅有8%;当数学成绩处于中等水平(70,90)时,考研成功的可能性增至35%左右;数学成绩高于90分以上时,考研成功的几率高达57%。
专业课成绩与考研结果。由表2可以看出,专业课成绩在(70,90)之间的考研同学最多,约占总体的75.6%。专业课平时成绩不及格的同学,考研成功的希望几乎为0!随着专业课成绩的不断增加,考研成功率率也呈直线上升:专业课成绩达到优秀时,考研成功率可高达66.67%。
2.英语四级成绩与考研结果
由表2可知,统计学院2017、2018届考研报名者中四级成绩没有高于600分者,而考研前四级能力测试水平刚及格的同学最多,占总体考研者的64.8%,良好(500,600)的同学与不及格(低于425)的同学较少,分别占总体的13.3%与21.8%。
直至考研前都未过英语四级的同学,大部分也未通过考研;而随着英语成绩的提高,考研被淘汰的几率逐渐缩小;当四级考试分数达到中以上(不低于500)时,考研成功的希望最大,达到最高的50%,二者呈现正相关关系。
3.综合测评与考研结果
由表2可知,综合测评分数相差较大,综测得分低于40的有3人,同时得分高于100的有46人,占比最大的综测得分范围在(80,100)。除了综测得分很差(低于40)的同学考研成功率几乎为0外,其他分数段内的同学考研成功率差别不大,基本都在35%左右。这说明,综测成绩对考研结果无显著影响。分析原因,可能是考研的同学一心为研究生考试做准备,不会将综测成绩太放在心上。
4.性别与考研结果
山东工商学院统计学院2017、2018两届共有329名学生,其中165名选择考研,考研报名率为50.16%。其中,男生共有77名,考研31人,考研报名率为40.26%,31人中最终上线10人,上线率32.2%;女生共有252人,参加考研134人,考研报名率为53.2%,最终上线46人,上线率34.3%。显然,性别与考研成功之间没有必然的联系。女生的勤奋踏实恰好与男生的聪明、反应敏捷在考研这件事上的优势得分旗鼓相当。
5.生源地与考研结果
如表2所示,大城市考研者个数极少,大部分考生来自于中小城市和农村;生源地差异对考研结果影响不大,中小城市考研成功率为34.85%,农村考生考研成功率为33.3%。
生源地对于考研结果同样无显著影响。中小城市与农村考生考研率相差不大,此处原因有二:其一,随着城镇化进程的提速,农村学生大多在城镇接受了初高中基础教育,而中小城市与城镇教育资源水平相差不大;其二,大学期间的努力比高中时期的基础教育对于考研的结果影响更大。
6.报考学校性质与考研结果
由表2可得,山东工商学院统计院报考三类高校人数差别不大,但是其中报考普通本科大学被录取比例超过50%;报考211大学与985大学考研成功率差异较小,其中报考211大学被录取比例为23%,而报考985大学被录取比例较小,仅为20%。可见,报考学校性质对考研结果有显著影响。
7.报考硕士类别与考研结果
由于2017届考研者该项数据有部分缺失,故此处只描述分析2018届考研者报考结果。
由表2可知,2018届共有91人考研,其中报考专硕的最多,有78人,占比85.7%;报考学硕的仅占14.3%。报考硕士类别不同对于考研结果差异影响不大,专硕考研成功率比学硕略高5个百分点,为36%。
报考硕士类别对于考研结果的影响不太显著。即使专硕报考人数的大幅度增加,由于专硕点开设院校众多且所收学生名额也相对更多的原因,专硕考研成功的几率仍然略大于学硕。
1.logistic回归模型的构建
通过前面的描述统计,我们发现,有些影响因素对考研成功影响较大,有些则影响不大。这些结论虽然直观,但并不严谨。考研影响因素是否具有统计显著性,它们之间数量规律如何,尚需通过建模,进行科学严谨的分析。由于我们重点关注考研是否成功而非考研的具体分数,成功赋值为1,不成功赋值为0,则可构建考研结果关于其影响因素的二分类logistic回归模型(见表3)。
表3 初始回归模型
注:(1)由于报考硕士类别存在较多的缺失值,故将其从解释变量中剔除;(2)表3是将被解释变量——考研是否成功(成功赋值为1,不成功赋值为0),解释变量政治课基础、数学能力、专业课基础, 英语能力、综合测评能力、性别, 生源地、报考学校性质的数值录入SPSS后,软件输出的结果。
在α=0.05的显著性水平下,p<α时认为该项指标有显著的统计学意义。依据这一原则,表3的输出结果中,对考研结果影响显著的指标有3个指标:专业课基础X1、英语四级成绩X4及报考学校性质X8,与前面的描述分析基本一致。剔除不显著的解释变量,得到最终的回归模型[9](见表4)。
表4 最终回归模型
根据表4,写出最终的回归模型:
2.logistic回归模型的评价
模型构建完成后,能否直接解释回归系数,进而提出相关的建议,还依赖于回归模型的整体评价[10]。为此,我们将每位考生解释变量的数据代入上述模型中,观察其理论值(即根据模型估计出来的结果,如果计算出来的考研成功概率大于0.5,则预测考研成功;反之则不成功),并与实际情况进行对照(结果整理在表5中),反映模型构建是否成功。
表5 模型预测结果与考生考研结果对照表
根据表5,模型判定正确的比重近76%,其中对考研未成功判定正确的比重达到78.51%,成功判定正确的比重达到68.18%。可见,模型整体预测效果较好[11]。
另一方面,最终模型显著性总体情况为:似然比卡方的观测值为48.919,自由度df为4,概率p值=0.000。因概率值小于0.05,故应拒绝原假设,采用该模型合理。在反映拟合优度方面,H-L检验的显著性统计量值为0.409,不拒绝原假设,模型拟合优度较理想(为节省篇幅,过程略)。
3.回归系数的解释
关于logistic回归模型系数的解释,学者们的看法不尽相同。这里参考A.H.施图德蒙德在《应用计量经济学》[12]中给出的第3种方法,对表4的回归系数加以解释。
对于专业课基础这个解释变量,保持其他变量不变,其成绩每增加1分,考研成功率将增加2.5%;
对于英语能力,由于其分数不是百分制,影响它与专业课基础之间的可比性,因此先将分数换算为百分制,得到可比的回归系数为0.045。这说明,保持其他变量不变,英语能力每提高一分,考研成功率将增加1%多一点。对比专业课基础,它的作用小一些,其实这很好解释,在考研成绩中,专业课满分150分,而英语只有100分;
就学生报考的学校性质,保持其他变量不变,相对于报考院校为985学校而言,报考普通本科考研成功的概率是它的9.032倍,报考211学校考研成功的概率是它的1.319倍。看来就山东工商学院统计专业的学生而言,要想升入985学校,就要比其他同学付出非同寻常的努力才能得偿所愿。
综合表3、表4、表5,从计量模型的角度,我们得到如下的结论:
本文选择8个解释变量对考研结果进行回归,在α=0.05的显著性水平下,最终有3个变量(专业课基础、四级成绩、报考学校性质)对考研结果影响显著。模型总体拟合良好;专业课基础、英语能力对考研结果有正向的显著影响:得分越高,考研成功的希望越大;报考学校性质对考研结果影响显著。要想从普通本科学校升入985学校,就要比其他同学付出非同寻常的努力;综测水平虽然没有通过0.05的显著性水平检验,但显著性水平依然较高(0.130)。研究生录取虽然依据的是考试成绩,但成绩背后的内涵却很丰富;政治课基础、性别、生源地等变量对考研结果影响不显著;数学能力对统计专业考研的结果影响不显著(见表3)。这一结论不仅与前面的描述分析不一致,而且十分令人费解。众所周知,数学不仅是统计学专业研究生入学考试最重要的科目之一(与专业课一样,都是最高的150分),而且与统计专业课学习的好坏息息相关。如何对这一现象做出合理的解释?我们知道,回归模型中的经典假定之一是解释变量不存在线性相关关系,如果违背该假定,就可能导致某个重要的解释变量通不过显著性检验,并据此做出该解释变量对研究问题影响不显著的结论。对于我们研究的问题,是否属于这种情形?为此,我们测算了解释变量之间的简单相关系数,发现相关性最高的两个变量是数学能力与专业课基础,达到0.689,反映这两个变量相关性是否显著的统计量的t值为12.14,对应的p值为0.0000。同时,如果在这两个变量保留其中的一个,其回归系数都非常显著(仅保留专业课基础,回归系数的p值为0.000;仅保留数学能力,回归系数的p值为0.002)。答案出来了,因为专业课基础与数学能力高度相关,两个变量同时进入模型时,数学能力的作用被专业课基础掩盖掉了。这个研究结论再次警醒我们,定量技术一定要与定性分析相结合,才能揭示研究对象的本质。
对考研学生的几点建议:
苦练内功。英语、数学属于基础课,需要长期积累。专业课方面,要热爱自己的专业,学一行爱一行,让统计不仅成为自己的职业,更要成为自己的事业。
全面提升。学习能力固然重要,但它只是综合素质的一种体现。一个综合素质高的人,必定是一个具有科学的世界观、人生观、价值观的人,是一个具有崇高理想和信念的人,是一个内心无比强大的人,是与人为善,时时处处受到欢迎的人。具有这样素质的人,在学习方面也必然会得心应手、游刃有余、事半功倍。
丢掉名校执念。建议各位同学考研报名一定要慎重,客观衡量自己各方面的表现,做出最适合的选择。为加大胜出概率,普通考生建议报考与自己学校层次差别不大的高校,别让你的能力追不上野心。选择第一,努力第二!脚踏实地才能仰望星空!
放下虚无的自卑感。不要害怕性别不同但报考同一所学校的他(她),不要认为自己是农村来的就考研希望渺茫,不要因为自己社交能力不够突出而自卑。在考研面前,性别差异、生源地差别这些都不重要!对于考研来说,努力大于出身!