蔡经汉
(黎明职业大学教务处,福建泉州 362000)
随着高校教育评估工作开展的日益深入和数字化校园的日益普遍,网络评教手段使得学生评教(Student Evaluation of Teaching,简称 SET)成为一项低成本高效率的教学管理手段。高校学生评教活动开展得越来越普遍。学生评教的目的主要是作为形成性评估向教师反馈学生意见以改进教学质量和作为总结性评估为职称评定、晋升、各类评选或绩效考核等提供相应的定量数据。作为评教体系的主要组成部分,学生评教结果的准确度关系重大。
但是,作为一种主观测量的结果,评教分数必定存在一定的误差。在评教分数的误差来源中,来自课程以及学生个人的非系统性误差严重影响了评教的合理性及公平性。学生、教师、课程特征等因素都会影响到学生所作的评价,但这些因素却与所谓能够促进学习的良好教学的评判标准无关。如果学校管理层将学生评教数据作为绩效考核或人事决定的依据,那么评教中存在的误差就必须加以注意并设法消除其影响。
SET真正要测量的是教师在课堂内的表现,不应该受到外部因素的影响,因而绝大多数的研究都试图回答教学以外的学生、教师、课程等因素是否产生SET偏差。在其中,有两个因素受到了学界的特别重视:一为性别因素,一为成绩因素。
1.性别因素
性别差异问题在教育领域中历来都受到特别重视,这也包括了性别作为评教影响因素。学生的性别、教师的性别以及两者的交互关系,可能极大地影响学生对教师的评价,因而在国外研究中受到相当大的关注。这些研究中,有些仅涉及学生或教师单方面的性别因素,如部分研究发现,女性学生平均给分较高,而女性教师获得的评价也一般优于男性教师[1];而大多则同时考虑学生和教师两者性别的互动关系,如部分研究发现,在学生与教师的所有四种性别组合中,女性学生给男性教师所打的评价分数是最低的[2]。一些研究提出了所谓的“性别认同假说”,认为学生与教师性别相同时,会倾向于给出更高的评价分数[3]。但另一些研究则认为性别认同假说仅是部分成立,发现女性学生在给女性教师打分时要高于男性学生所打分数,但却未能发现男性学生对于男性教师给出比女性教师更高的评价[4]。综合这些研究成果,可以认为性别因素确实影响到教师的评教表现,但性别组合的影响作用还需要更多的经验证据和进一步的分析。
2.学生成绩因素
学生成绩对于学生评教分数也可能产生相当大的影响。在这方面,国外实证研究较多,得到的结论也较为一致,即学习成绩与评教分数之间存在着较为显著的正相关关系[5-8]。但是,学生成绩如何影响其评教打分?在这一问题的成因上意见却不统一。一种的观点认为,学生成绩与评教分数的正相关现象是学生评教合理性的证明。如果评教分数确实反映了教学质量,那么更高的评教分数就意味着更高的教学质量,而接受更高质量教学的学生理应在考试中有更好的表现。但另一种的观点则认为,评教分数与成绩之间的正相关关系仅仅是一种伪相关。第三方因素同时驱动了学生的评教分数与学习成绩。例如动机,学习动机强烈的学生更专注听讲,对教师的表现也有更高的评价,同时,他们在考试中也有更好的表现。而仅从实证研究中的评教分数与成绩之间的相关度来看,不同研究估算出来的结果虽然较为一致地支持正相关,但估算结果在数量值上仍存在较大的波动幅度。因此,本文对这一因素的考察将有助于在这个问题上提供更多的经验证据。
在国内外研究中还考虑了其他一些影响学生评教分数的因素,如教师年龄[8-9]、教师学位[9]、上课班级规模[10]、上课时间[11]、高低年级差异、文理学科差异以及专业课和公共课的差异[12],以及学生是否第一次接触评教[13]等。关于这些因素的研究结论也存在一定的差异,有必要加以考虑。
通过对以上文献的回顾,本文将研究以下几种变量对学生评教分数所产生的影响:
(1)是否存在性别差异,性别交互效应如何?特别地,性别认同假说是否成立?
(2)是否存在成绩与评教分数的正相关关系,影响力度如何?这一影响力是否会由于班级群组效应的存在而发生波动?
(3)其他各种个体水平或班级水平因素对于评教分数的影响如何?
一些实证研究只是简单地比较不同课程评教分数的均值差异的统计显著性[12],而一些也仅使用了普通的方差分析方法[14]。这些简单的统计方法无法区分多个因素可能产生的混合作用。对此,一些研究转而采用多元回归分析方法。多元回归分析相对于方差分析来说是一种改进,但仍存在不足。普通多元回归分析仅使用单一层面数据,或者仅使用个体层面的数据,或者仅使用班级层面的汇总数据。但是在实际上,由于学生上课必然是在一个班级的结构下,因此就产生了多水平的分层数据,必须考虑班级的固定效应与任课教师的特征。从这个角度来看,如果仅将学生个体的数据作为分析的单元的话,普通回归分析所依赖的独立性假设则不能成立,此时回归系数的标准误通常会被低估,从而使检验的p值过低,错误地接受原本并不存在的“真实”效应。而如果使用班级层面汇总数据,则会出现聚合偏误,采用班级水平均值而非学生水平的个体数据进行分析可能会掩盖住由同一班级内学生个体差异而导致的评教分数差异[15]。而分层线性模型最大的优点就是使研究者可以调查组水平特征或情境变量对个体作用的效果。因此,在解决这个问题时,有必要使用同时利用学生层面数据与班级层面数据的两水平分层线性回归模型加以研究。
具有随机截距与随机斜率项的两水平分层线性回归模型可以用以下公式表述:
其中,M个解释变量xmij具有随机斜率,而N个解释变量znij具有固定斜率。模型的随机效应体现在随机截距u0j与随机斜率umj上,其中u0j~N(0)以及 umj~N(0),∀m=1,…,M 是服从正态分布的组水平随机变量。eij~N(0,)为个体水平误差项。
在文献回顾的基础,本文将研究以下几种变量对学生评教分数所产生的影响,这些变量包括:学生个体层次因素,如学生性别、学生成绩以及学生是否具有评教经验;由上课班级构成的群组层次因素,如包括教师性别、教师年龄和是否具有硕士以上学位等的教师因素以及包括课程类型、上课班级规模和上课时间在内的课程因素。在样本上,本文选取黎明职业大学2011—2012学年第一学期的学生评教数据,共33688个数据。之所以选取这一学期的数据,是由于在这一学期2011级的学生是第一次参加学生评教,因此他们并不具备评教经验,从而能够与已具有评教经验的高年级学生形成对比。
表1 研究中所用变量
本文采用两水平分层线性回归模型,水平1为学生,水平2即为班级,学生被嵌套于班级之中。在进行分层线性模型估计之前,应首先对群组效应进行检验和确认。为此,需要先估计一个“空模型”,即不纳入任何水平解释变量,仅考虑群组效应的最简单的分层线性模型。只有在空模型检测到数据存在显著的组内相关性时,才有必要继续构造更详细的分层模型加以进一步研究。适用于本研究的空模型方程如下:
表2 “空模型”参数估计与检验结果
通过模型预估计,发现在随机效应部分,三个可能存在随机斜率的水平1变量中,仅“学生成绩”这一因素显著,而学生性别与是否有评教经验这两个因素都不显著。因此,在接下来的模型中仅设置在“学生成绩”这一变量上具有随机斜率。
模型1:只考虑教师与学生各自的性别,没有考虑其交互项
模型2:不仅考虑教师与学生各自性别,还考虑其交互项
模型3:使用“是否相同性别”变量
如表3,不管是从对数似然值还是从Wald χ2值来看,模型2都是三个模型中的最优模型。此外在师生性别交互效应的解释力上模型2也是三个模型中最优的,因此,本文随后的分析都将基于模型2的结果。
表3 各模型参数估计结果
1.师生性别交互效应
在模型1中,仅学生性别对于评教分数有显著影响,男性学生打分显著高于女性学生。而教师性别的影响则无显著差异。而在模型3中,是否相同性别这一因素也造成显著影响。相同性别的情况下比不同性别的情况平均打分要高出0.255分。但通过对模型2的结果分析,可以看出,模型1与模型3的结果都蕴含在模型2中。无论从统计意义上还是从解释力上来说,模型2显然优于另外两个模型。
由表4,首先,男学生打分水平显著高于女性学生,这一点包含了模型1。其次可看出,女学生给女教师打分高于男教师,而男学生给男教师打分高于女教师。这一结果包含了模型3。虽然包含了模型1和3,但模型2的结果显然更加丰富。从模型2估计结果中我们还可观察到:模型1未能区分开教师性别的影响,而模型2可以。模型3虽然确认相同性别组合评教得分较高,但只是估计了男-男和女-女两种情况的平均效果。模型2则使我们知道同性打分高于异性的现象主要应归因于男性学生给男性教师以较高的分数。
2.学生成绩
本研究证实,平均来说学生成绩与评教分数之间确实存在正相关关系。在排除由班级群组效应而产生的随机斜率的影响之后,可以看到两者之间的偏相关系数为正的0.0205,并且在统计意义上显著。但这种正相关关系受到班级群组效应的影响,其95%置信区间位于0.0205±1.96×0.0176之间,即-0.014至0.055之间。大多数班级存在学生成绩与评教分数之间的正相关关系,但有部分班级为负相关关系。
表4 学生与教师性别交互效应
3.学生评教经验
学生具有评教经验者打分较低,并且从数值上看较大。这提醒我们,部分开设两个或以上的学期课程,如果出现评教分数下降的情况,不能简单地归因于教师教学质量的下降,而可能是源于学生总体的一种倾向。
4.教师年龄、职称和学历
在年龄的影响方面的结论是,教师的年龄越大,评教分数越低。在模型选择过程中,曾试图加入年龄平方项,但该项系数不显著。其他条件相同的情况下,如老师性别职称学历等相同的情况下,可以理解为越年轻的教师越有活力,与学生之间的沟通更多更有效,越受学生的欢迎。相反,随着年龄的上升,教龄越长越容易出现职业倦怠问题。而在职称方面,教师的职称等级越高,评教分数越高。这一点与预想相符。其他条件相同的情况下,研究生学历或学位者反而获得更低的评教分数。这与通常的预想相反,但与 Cochran等(2003)的结论相类似[9]。借鉴Cochran的分析,我们推测是由于目前高职院校教师的研究生学位大都是在职期间获得的,其在职学习行为在一定程度上影响了其教学上的精力和时间投入。
5.课程类型和课程安排
从估计结果来看,在其他条件相同的情况下,必修课或公共课的评教得分都较高。从数量上看,公共必修课与专业限选课相比,平均得分要高出0.617分。在上课班级规模方面的结论则是人数越多,评教分数越低。以平均一个班级50人计,合班上课与分班上课的平均得分可相差0.6分。这一结论也与通常的看法相符,即大班上课师生互动不足,教学效果差,应尽量安排小班上课。
关于课程时间安排方面的结论则是下午上课的课程得分较低。这一结论与表2中相应分组均值检验结论相反,说明在控制了其他因素情况下下午上课的真正效果是比较差的。这也说明简单的进行分组统计不能区分不同因素的影响。例如,安排在下午上课的公共课较多,老师年纪可能偏轻,这些因素混合后,使得下午的课程与其他时间对比起来似乎学生的满意度会更高,但真实情况却正好相反。
通过应用能够控制班级群组效应的分层线性模型来研究学生网上评教结果的影响因素,研究发现,教师与学生性别交互效应造成偏误,学生成绩与其评教分数之间存在正相关关系。此外还发现,在其他条件相同的情况下,年龄低、职称高、没有获得研究生以上学历的教师获得的评教分数较高;而没有评教经验的学生对于评教分数则较为慷慨;必修课或公共课的得分较高;课程安排于上午或晚上上课的教授获得的评教得分较高;上课班级人数较少的教师获得的评教分数也较高。
网上评教手段的应用在带来极大便利的同时,也带来了学生敷衍对付的问题,这必然对研究的可信度造成一定的影响。因此,在进一步的研究中有必要对数据进行甄别,剔除可信度不高的数据,再对新的数据样本进行分析。此外,本文的研究仅限于一些较为客观的因素。教师职业倦怠、学生的学习动机、自我效能等等主观心理因素对于评教的影响也是值得研究的。
[1]Tatro C N.Gender Effects on Student Evaluations of Faculty[J].Journal of Research and Development in Education,1995,28(3):169 -73.
[2]Rowden G V,Carlson R E.Gender Issues and Students’Perceptions of Instructors’Immediacy and Evaluation of Teaching and Course[J].Psychological Report,1996,78:835-839.
[3]Lueck T L,Endres K L,Caplan R E.The Interaction effects of Gender on Teaching Evaluations[J].Journalism Educator,1993,48(3):46 -54.
[4]Bachen C M,McLoughlin M M,Garcia S S.Assessing the Role of Gender in College Students’Evaluations of Faculty[J].Communication Education,1999,448(3):193-210.
[5]Greenwald A G,Gilmore G M.Grading Leniency Is A Removable Contaminant of Student Ratings[J].American Psychologist,1997,52(11):1209 -1217.
[6]Langbein L.The Validity of Student Evaluations of Teaching[J].Political Science and Politics,1994,27(3):545-553.
[7]Krautmann A C,Sander W.Grades and Student Evaluations of Teachers[J].Economics of Education Review,1999,18:59 -63.
[8]McPherson M A.Determinants of How Students Evaluate Teachers[J].Journal of Economic Education,2006,37:3-20.
[9]Cochran H H,Jr.,Hodgin G L,Zietz J.Student Evaluations of Teaching:Does Pedagogy Matter?[J].Journal for Economic Educators,2003,4(1):6 -18.
[10]Liaw S H,Goh K L.Evidence and Control of Biases in Student Evaluations of Teaching[J].The International Journal of Educational Management,2003,17(1):37-43.
[11]Badri M A,Abdulla M,Kamali M A,et al.Identifying Potential Biasing Variables in Student Evaluation of Teaching in a Newly Accredited Business Program in the UAE[J].International Journal of Educational Management,2006,20(1):43 -59.
[12]闫志明,张光旭,张立新.影响高校学生网上评教的因素研究[J].中国电化教育,2007(3):45-47.
[13]沈毅俊,孙林,刘慧敏.高校学生评教客观性的影响因素研究[J].中国高等教育评估,2008(2):54-57.
[14]韩明,陈启山,王鹏辉.教师与课程特征对高校学生评教分数的影响[J].华南师范大学学报:社会科学版,2010(4):44-48.
[15]Griffin B W.Grading Leniency,Grade Discrepancy,and Student Ratings of Instruction[J].Contemporary Educational Psychology,2004,29:410-425.