王天剑
(贵州财经大学 外国语学院,贵州 贵阳 550004)
为激励教师提高教学质量,教务管理部门会以不同方式对教师进行教学水平评价(评教),如领导评价、同行评价、学生评价等。其中,学生评价比较普遍,并且往往受到高度重视。在一些高校,评价结果可能直接关系到学期奖惩、年度考核,甚至职称评聘。学生评教的工具主要是问卷。为了使评教客观、公平、公正,问卷必须具有较高的信度和效度。评价信度离不开现代测量理论。
概化理论是一种关于教育、心理、行为测量信度的理论[1]。它是在经典测量与方差分析理论基础上,逐步发展而来的测量评价与优化技术[2-4]。经典测量理论将测量结果区分为两部分:真分数与误差。借助方差分析,概化理论进一步将误差区分为各种不同来源成分,计算各自所占比重,并估算概化系数和可靠性指数[4-5]。概化系数是衡量相对测量(常模参照测量)信度的指标;可靠性指数是衡量绝对测量(标准参照测量)信度的指标(注:概化理论中的“信度”与经典测量理论中的“信度”类似但计算有别)[6]。前者是指测量结果用于跟据某种特质将对象排序时的稳定性;后者是指测量结果用于衡量对象某种特质绝对水平的可靠性。概化系数和可靠性指数的估算公式如下:
式中(1)式(2)中:ρ2为概化系数,Ф为可靠性指数,σ2(τ)为测量对象的全域分方差(有效变异),σ2(δ)为相对误差方差(测量对象的观测值离均差,与其全域分上的离均差之差) ;σ2(Δ)为绝对误差方差(测量对象的个人观测分,与其全域分之差。σ2(Δ)包含了σ2(τ)之外的所有变异)[6]。
概化分析可分为G研究(概化研究)和D研究(决策研究)两部分。前者可在观测全域上(universe of admissible observations)披露各种方差来源及其比例;后者可以在概化全域上(universe of generalizability),借助于G研究的方差比例估计,通过调整测量条件(样本、侧面关系、权重),展示误差变化,从而给测量者提供优化测量设计的信息[7]。正因为其在测量中的重要应用价值,概化理论被誉为三大测量理论之一(另外两种是经典测量理论和项目反映理论)。概化理论可分为一元概化理论和多元概化理论。一元概化理论将研究对象(研究焦点)视为单个侧面进行研究,多元概化理论可以研究“复合侧面”包含的多个“子侧面”及其整合成一个“复合侧面”的相关特征。
本文以某高校教学范式改革实验任课英语教师为样本,以概化理论为工具,考查该校学生评教问卷的信度。之所以选择如上样本,是因为教学范式改革目前正在实验推广阶段,学校高度重视评教结果。
本研究采用实证、定量研究方法[8]。数据源于一套网上问卷评教结果。该问卷包含四个指标:教学内容、教学技能、教学方法、教学效果。每个指标包含二到三个打分项目。四个指标的满分分别是:30分、15分、25分、30分。学生在网上对教师进行打分评价。软件系统会将同一教师承担的同一课程对应的所有学生评教结果平均后呈现在教务系统中。本研究从某高校参加教学范式改革实验的英语教师中,随机抽取25名为样本,从学校教务系统中导出这些教师的评教数据(共25组)进行分析。每组数据代表着至少有50名学生对教师打分的平均结果。分析采用mGENOVA 软件进行。
为考查每个指标(评教维度)及其整合后的分数信度,本研究采用多元概化分析。问卷中的每个指标视为一个“因子”,各个因子总分以其对应的项目得分之和表示。研究采用四因子(教学内容、教学技能、教学方法和教学效果)单侧面交叉设计为p˙×iº,p代表被评教师,i代表量项目(字母p的上标圆点表示每组数据中,各个因子评价的对象相同;字母i的上标圆圈表示,不同因子包含的项目不同)。
依据如上四因子单侧面交叉设计,可以获得被评教师(p)、量表项目(i)以及被评教师与量表项目之间的交互效应(pi)在四个因子上的方差等指标的估计矩阵(表1)。
表1 各效应在四个因子上的方差等指标估计矩阵
根据表1可知,教师效应(p)在各因子上的方差分量从大到小依次是:0.04556(教学效果)、0.02514(教学内容)、0.01765(教学方法)和0.01237(教学技能)。这意味着,对教师教学水平区别作用最大的因子是教学效果,其次是教学内容。教学方法和教学技能区别作用微小。项目(i)的主效应显示,它在教学技能上的方差最大(10.97453),在教学方法上的方差次之(7.11375),在其他两个因子上方差相对较小。由于项目是测量的工具,而不是测量的对象,所以项目在教学技能和教学方法两个因子上的方差较大,说明这两个因子测量误差较大。教师和项目的交互作用(pi)在各因子上的方差都不大。观察教师效应(p)的协方差可知,教学内容和教学效果之间的协方差相对较大(0.03302),其他的协方差都比较微小。这说明教学内容和教学效果的关联度相对较高,如分别用这两个因子得分对教师的教学水平进行排序,结果趋向一致。表中的多数相关系数大于1,是因为样本较小,或者存在隐藏因子,但这并不影响如上协方差的解释。此外,评教中如上四个因子是整合在一起产生最终结果的,这样整合是否合理,需依据如下D研究结果决定。
概化理论采用全域(universe)取代并拓展了经典测量的总体(population)概念。表2呈现的是教师效应在四个因子上的全域分方差、误差方差、概化系数、可靠性指数、信噪比等估计值。
表2 四因子的全域分测量精确度估计
根据表2,教学内容的相对误差方差(0.00185)和绝对误差方差(0.00185)较小,其概化系数(0.95127)和可靠性系数(0.93142)较高,相对和绝对信噪比(S/N)也都较高(信噪比 = 全域分方差 / 误差方差),所以教学内容测量精确度较高,其全域分无论用作对被评教师教学水平排序(相对测量),或者用作对被评教师教学绝对水平的确定(绝对测量),都有较高的信度和可靠度。其他三个因子全域分的相对误差方差较小,概化系数均超过了0.80,但绝对误差方差较高,可靠性指数均低于0.80,故能用于教学水平排序,但用于教学绝对水平衡量不够理想。
按照各因子所占比重(30%、15%、25%、30%),设定权重系数,对四个因子测量结果进行整合,可得全域合成分测量精确度估计值(表3)。
根据表3,全域合成分相对误差方差较小(0.00095),相对信噪比较高(27.45761)概化系数较高(0.96486)。但是全域合成分绝对误差方差较大(0.27538),可靠性指数较低(0.08691),绝对信噪比较低(0.09518)。这表明,评教结果如用于对教师教学水平排序,具有较高的信度,各因子整合具有合理性(信度有所提高);评教结果如用于对教师教学绝对水平衡量,信度远低于可接受水平。
表3 全域合成分的精确度估计
虽然各因子的赋分权重分别为30%、15%、25%和30%。但各因子对全域合成分方差的实际贡献并不一定如此。表4比较了赋分权重与实际贡献。
表4 各因子的分值及其对全域合成分方差的贡献
表4显示,教学内容对全域合成分方差的贡献与其问卷赋分权重基本一致,教学技能和教学方法两个因子贡献不足,教学效果贡献超额。
由于实际贡献与预期贡献差别较大,尝试调整各因子权重,并进一步估计全域合成分信度,结果见表5。
表5 权重与全域合成分信度的协变关系
根据表5,随着教学技能和教学方法比重的下降,以及教学效果比重的上升,可靠性指数逐渐上升;当两者降到0时,随着教学内容比重的上升,以及教学效果比重的下降,可靠性指数继续上升。当教学内容调到60%,教学效果调到40%,概化系数和可靠性指数都达到理想水平。
本研究考查了教学范式改革实验教学背景下,大学英语教学水平评价结果的信度。根据多元概化分析,教学效果对教学水平的区别作用最强,其次是教学内容。教学技能和教学方法测量误差较大,区别作用微小。如用于对教学水平排序,四个指标无论是单独使用,还是整合在一起使用,信度均可接受,尽管整合后信度更高。但是,如用于衡量绝对教学水平,在单独使用条件下,唯有教学内容信度可以接受;在四个指标整合使用条件下,教学内容应占60%,教学效果应占40%,其他两个指标归零,方可保证问卷整体信度可以接受。但是,这样调整虽然达到统计要求,却不是实践中的理想选择。实践中,更为可取的做法是保留教学技能和教学方法两个指标(或者将其合而为一),重新设定有效的题项,以便使问卷在保持完整全面的前提下,保证评教结果的相对与绝对测量信度。
本研究结果与其他同类研究发现具有一定的类似性。黎光明[9]分析了学生在教学态度、教学内容、教学方法和教学效果四个变量上的评教结果,发现教学效果是区别度最强的变量,教学内容和教学效果对教学水平的排序一致度较高(协方差较高),教学方法的区别作用较小,测量误差较大。当然,本研究与黎光明的研究也存在分歧之处。如黎光明发现教学内容的概化系数和可靠性指数并不高。分歧可能源于两问卷的考查指标不同,各个指标的测量项目不同,或者研究样本不同。
对于教师的教学水平而言,本研究中的教学效果和教学内容之所以区别度较高,可能是因为效果和内容是相对客观、容易感知的变量。教学方法和技能测量误差较大,区别度较小,可能是因为方法和技能的优劣因人而异。一把钥匙开一把锁,不同人适应不同的方法和技能。当然,不排除另外一种可能,那就是教学方法和技能的题项设计不当,导致学生无法进行有效评价。
本研究对评教结果的适当应用具有一定启示。当问卷仅有可以接受的概化系数时,评教结果可以用于辨别教学水平的相对优劣,但不能确定绝对水平。因此,不能用这样的评教结果是否高于某个分值,给教师贴上是否达标、合格或者过关之类的标签。更不宜将这样的评教分数用于职称评聘资格审查。如果需要将评教结果用于这些目的,就必须通过调整问卷的内容、结构、施测模式、赋分权重等,使其获得可接受的可靠性指数。
基于对教学范式改革实验背景下大学英语教师评教结果的概化分析,本文结论如下:
1)该问卷概化系数理想,但可靠性指数不可以接受;
2)问卷的因子“教学效果”对教学水平区别度最高,“教学内容”次之,而“教学技能”和“教学方法”区别度微小,且测量误差较大;
3)调整问卷权重,可以使问卷的概化系数和可靠性指数同时达到理想水平。
本文对评教结果的适当应用具有一定启示。未来研究可以通过改变评价者的数量,调整问卷的内容、结构,根据专业创建有针对性的测量工具等,探索优化评教信度的方案。
[1] Shavelson R J, Webb N M. Generalizability theory: A primer[M]. Sage Publications, 1991:1-1.
[2] Cronbach L J, Rajaratnam N, Gleser G C. Theory of Generalizability: A Liberalization of Reliability Theory[J].British Journal of Mathematical and Statistical Psychology,1963(2):137-163.
[3] Cardinet J, Johnson S, Pini G. Applying generalizability theory using EduG[M]. Routledge, 2011:1-2.
[4] Graham S, Hebert M, Paige Sandbank M, et al. Assessing the writing achievement of young struggling writers: application of generalizability theory[J]. Learning Disability Quarterly,2016(2):72-82.
[5]王天剑, 彭中梅. 概化理论和EduG在教育测量研究中的应用——以试题难易度分析为例[J]. 文山学院学报,2016(6):88-93.
[6] 王天剑. 概化理论在中小学英语测试研究中的应用[J].绥化学院学报,2017(2):119-123.
[7] Brennan, R. L. Generalizability theory [M]. New York:Springer, 2001:3-14.
[8] 黎光明. 概化理论G研究方差分量及其变异量估计影响因素[J]. 心理学探新,2016(5):458-463.
[9] 黎光明, 张敏强. 基于学生评教的多元概化理论分析[J].教育测量与评价:理论版, 2013(7):4-6.