朱 适
(南京大学外语部,江苏 南京 210023)
大学英语教师的教育质量直接影响非英语专业学生的大学英语四、六级成绩,甚至包括出国深造学生的标准化考试成绩(如托福、GRE、GMAT等),因此如何科学评估大学外语教师的教学质量成为目前许多高校都极其关注的一个问题。Bachman(1990)将“评估”定义为对人们的特征进行定量的过程,其主要作用在于为人们进行正确决策提供信息[1]。
通过观察教师课堂表现并给教师的课堂表现打分是教学质量评估中的重要环节。一系列的研究证明,标准化的课堂观察打分有助于学生的发展以及提高教师和学生间的互动质量[2],但评分标准的差异、评估者打分松弛度的不同、专家评委人数的不同等因素造成了不同的测量误差源(sources of measurement error)。应用概化理论(generalizability theory)可以帮助确定测量评估中的误差来源问题,确定评分者的人数,提高大学英语教学评估的信度。
经典测试理论关注的核心是测量信度(reliability)与效度(validity),概化理论与此相似。概化理论属于随机抽样理论,运用统计学中的方差分量模型,通过确定不同的测量目标(object of measurement)和侧面(facets)的做法,有针对性地考察多种信度和效度[3]。概化理论中的概化系数(generalizability coefficient)、相对测量误差(relative error)、绝对误差(absolute error)以及Phi系数是我们在概化理论设计中需要特别关注的重点。
概化研究分为两步:第一步为概化研究,又叫G研究,在该研究中研究者根据已有数据获得概括推论测验结果时所获得的概化全域(universe of generalization);研究者在概化全域上对各测量面、测量对象或它们之间交互作用的研究被称为D研究(decision study,决策研究)[4]。
Brennan(2001)指出运用概化理论首先要确定测量的目标(object of measurement),这个目标的方差即真实变异部分,也是概化研究的重点,剩下的就是随机变异部分,又称作测量侧面(facet),相当于试验设计中的干扰成分。概化理论中,研究者希望测量目标的变异越大越好,而测量目标以外的测量侧面则被认为是系统的误差来源。Brennan和他的同事开发了进行概化(univariate generalizability)分析的软件GENOVA、urGENOVA和mGENOVA。虽然SPSS也可以帮助进行方差分析,但SPSS无法提供决策研究的结果,需要研究者自己去运算,而整个运算过程相当烦琐。GENOVA和mGENOVA的出现极大提高了运算的效率和准确性。一元概化理论的概念基于方差分析(ANOVA)之上,而多元概化理论则是基于多元方差分析(MANOVA)[3]。
刘远我和张厚粲(1998)是我国最早进行概化理论研究的学者,他们介绍了概化理论中的基本概念,应用了概化理论对作文评分的误差控制问题进行应用探讨,分析了评分员和试题效应,探讨了评分者一致性系数和概化理论系数[5]。杨志明等(2004)通过多元概化理论研究广东省高考综合能力测试,通过多元概化理论的决策研究发现,当把高考综合考试各个部分的题数扩大一倍时,总分的信度将会提高。不过,地理和政治所提供的方差贡献程度远远低于相应的赋分比例,而化学和历史的方差贡献比例又远远高于相应的赋分比例,这意味着历史和化学较好的考生得到了较高的综合考试分数[6]。胡谊和顾春梅(2007)使用多元概化理论分析了上海市2006年的高考历史考卷。他们的研究更多关注于各误差来源的方差贡献率而非试卷本身的信度。研究者发现,在高考历史试卷结构方面,各部分试题具有较好的测量信度,但各部分分值比例存在一定问题;此外在主观题评分方面,评分教师对分数影响微弱,说明最后的评分能比较可靠地反映不同学生之间的知识水平和学术能力差异[7]。
在外语研究和教学领域,运用概化理论研究外语教学的文章极少,最近的一项研究是孙海洋和韩宝成(2011)所做的将概化理论应用于一项针对职前中学英语教师的口语考试设计研究。他们对这项考试的试测数据进行了一元概化和多元概化分析,确定了成绩误差的来源,分析了不同考试设计模式的信度。本研究的结果对英语口语考试的设计有比较重要的意义,考试设计者可以根据一元概化理论和多元概化理论研究分析的结果选取相对恰当的考试任务,确定评分员的数量,提高主观测试的信度,选择比较满意的考试设计模式[8]。汪顺玉和席仲恩(2008)运用多元概化理论,演示了如何利用该理论计算旧版六级考试语言测试结果的信度系数并分析考试结构[9]。
尽管我国目前已经有了一定数量的概化理论研究成果,但是还没有研究者将多元概化理论运用于大学英语课程的评估之中。
美国弗吉尼亚大学教授Pianta,La Parro和Hamre(2008)设计了一种在美国被广泛使用的课堂评估评分系统(CLASS)[2]。本研究在他们研究基础之上设计一套适合中国大学外语教学的英语课堂教学质量评估表,使用标准化的观测手段来测定中国大学英语教师课堂教学质量的标准。其包含两个维度:情感交流和授课。情感交流包括五个项目(1为是,0为否),描述的是a.英语阅读课堂教学气氛是否活跃;b.英语阅读课上师生之间是否相互尊重;c.英语阅读课上师生之间是否积极互动;d.英语阅读教师对学生需要的是否敏感;e.英语阅读教师能否从学生的视角去分析问题;授课包括五个项目(1为是,0为否),即a.英语阅读教师的授课能否提高学生的学习能力;b.英语阅读课是否有助于语言水平(proficiency)的提高;c.英语阅读课能否拓展学生的语言学习能力(aptitude);d.英语阅读课能否提高学生的学术英语思辨能力;e.英语阅读课能否组织好学生参与课堂英语讨论中来。每个维度(情感交流和授课)的总分为5分,0为最低分,5为最高分。
在本研究中,我们选取了来自全国三所不同层次大学的共五位大学英语阅读课程的教师。五位教师都在35岁以下,一位为男性,其余四位为女性。这五人全部取得了英语专业的硕士学位。在一个月内按照我们初步设定的评分标准对他们的课程进行两次评估(两周一次)。参加课程打分的共有两位评估者,全部为受过培训的、有多年教学和研究经验的大学英语教师,均取得博士学位。
研究的基本假设之一就是教师的能力、水平和教学态度在短期内不会发生改变,其次我们假设这五位教师大学英语阅读课程是从容量无限的全国大学英语教师阅读课程总体中随机抽取的一个课程样本,能代表我国大学英语教师的基本状况。同样,评分者侧面样本也可以被看作是我们从全国受过相关培训,具有博士学位的评分员总体中抽取的样本,能够在相当程度上代表根据两次评估的结果。
由于一元概化理论模型无法得到各效应在不同时间段评估之间的协方差估计,因此我们选择建立多元概化理论模型,模型中教师的课程将被作为测量目标对待,课程在模型中表示为(c),评估者表示为(r),他们的交互作用为(c x r),两次评估获得的成绩可以被理解为多元结果的两个因子。因此我们的多元概化理论模型为c·x r·。其中c为测量目标(object of measurement),r是测量的侧面(facet)。我们利用mGENOVA软件得出大学英语阅读课程评估的总体信度和两个维度各自的信度,同时估计各误差来源的方差对总体方差的贡献率。理论上评估者人数的增加,可以提高大学英语阅读课程评估的信度,减少评分误差,提高评分的准确度,但是定性分析和传统测试学理论无法告诉我们具体的评估者数字,通过多元概化理论模型我们可以根据不断变化的概化系数值和实际预算要求决定评分者人数。
通过mGENOVA的运算,我们可以分别得到5位教师在情感交流和授课两维度上的两次观察所获取的平均分。情感交流方面,第一次观察的总均分为3.71667,第二次为4.06667;授课方面,第一次为4.31667,第二次为4.40。结果可以看出,大学英语教师在单纯的传授知识方面达到了基本的要求,但是在与学生的沟通和调节课堂气氛方面在一定程度上仍然缺乏有效的手段和技巧。
根据mGENOVA软件。我们得到课程(c),评估者(r)以及课程与评估者(cr)之间相互效应在两个因子上的方差和协方差分量的估计矩阵(表1和表2)。
表1 情感交流评分中各种变异来源方差与协方差矩阵
表2 授课评分中各种变异来源方差与协方差矩阵
由表1和表2我们发现共有三个变异来源得到了分析。从表1可以看出,测量目标(教师课程)的方差贡献率是81.7%,说明不同教师在与学生的情感交流层面有较大差异。而评分者侧面的方差贡献率是7%,这意味着评分者因素给分数变异带来的系统误差很小,评分前后一致,比较稳定。测量目标与评分者侧面的交互作用占总变异的11.3%。从表2看,最大的变异来源为评分者侧面与测量目标的交互作用,占总变异的49.2%,说明评分者给部分教师的打分具有较大变化。我们还可以看到,测量目标的方差贡献率最小,占22.5%,说明教师间的授课水平差异相对不大。造成以上问题的原因可能是授课维度的评分标准不好把握,造成评分者给部分授课教师的打分浮动较大。这启示我们,概化理论还可以用于提示研究者如何改进完善测量工具。
由于测量目标在决策研究中是固定的,因此我们通过改变评分者侧面来观察概化系数(generalizability coefficient,又称G系数)的变化。
表3 cxR设计的情感交流D研究
为了研究改善整个大学英语阅读课程评估的信度,我们可以通过改变评分者侧面的样本容量来观察信度的变化特点。在情感交流维度,当评分者为2时,概化系数为0.95245,Phi系数为0.83576,而当评分者为3和4时候,概化系数有小幅提高变为0.95568和0.96639,Phi系数为0.92676和0.94404;在授课维度,评分者侧面人数的改变会极大影响整个评估的信度。从表4我们可以发现,当评分者为2时概化系数最低,为0.47909,Phi系数为0.36842,说明在授课维度评分者人数较少时,测量的可靠性极低,而将评分者人数升到3时,概化系数可以提高到0.57975,评分者人数为4时,概化系数和Phi系数分别跃升到0.64781和0.53846,相较于2人时,提高幅度约为35.2%和46%。0.64781是一个中等偏下的信度,不过在主观性很强的评估打分中,此信度可以接收。
表4 cxR设计的授课D研究
当我们观察两个维度的全域相对误差方差量和绝对误差方差量时,可以发现在情感交流维度,评分者数目为4时,全域相对误差方差量(0.01387)和绝对误差方差量(0.02363)最低。同样在授课维度,当评分者为4时,全域相对误差方差量(0.00892)和绝对误差方差量(0.01406)都相对较低。由上述数据可以看出,评分者人数的增加,可以提高大学英语阅读课程评估的信度,减少评分误差,提高评分的准确度。当然增加评分者人数以提高整体信度的前提是要在评分前对评分者进行严格的培训使评分者本人对评分标准有非常透彻的了解,能够准确把握评分尺度。此外,我们可以发现,评分者在情感维度的打分非常准确,信度极高,这里面可能有两点原因:一是,情感维度的标准容易把握。情感交流关注的是课堂气氛、师生互动以及教师对学生需要的敏感度等,这些指标相对容易衡量,往往可以通过上课时候学生表现是否积极以及课堂讨论是否热烈等来判断,因此评分者在此维度上的打分比较稳定。二是,在授课维度。一些具体指标(教师的授课能否提高学生的学习能力,是否有助于语言水平的提高,能否拓展学生的学习能力,能否提高学生的学术思辨能力及能否组织好学生参与课堂教学中)很难通过两个小时的课程完全反映出来。我们也许需要收集更多的数据,采访更多的大学外语教师,通过因子分析的方法找出更加恰当适合的指标来评价授课维度。
通过多元概化理论分析,我们可以发现评分者侧面在主观性极强的大学英语阅读课程评估中的作用是极强的。因此减少评分者因素造成的误差在评估中具有重要意义。研究可以发现,增加受过训练的评分员的人数是提高整个评分信度的最佳方案。就多元概化设计而言,当评分员数目为4时,整个设计的信度特别是授课维度的信度得到了极大提高。现有大学英语阅读教学评估经常使用纯定性方法,简单描述教师上课时候的表现并给予一定的评价。这种评估方式具有极大的主观性。非标准化的评估原则以及经常模糊的评估用词很难使广大英语阅读教师从评估中获益。即使使用传统测试学指导下的定量方法,评估中的误差控制问题始终是棘手的难题。
本研究充分吸收了Cronbach和Brennan两人关于概化理论和多元概化理论的精华,利用国内外已有的先进研究成果,探讨如何将多元概化模型运用于我国大学英语阅读课程的教学评估中,如何通过多元概化理论中的方差协方差分析和概化系数等帮助建立一套适合我国大学外语实际教学情况的评估标准,使评估标准科学化和标准化。本研究对大学英语阅读课程评估的设计具有重要意义。课程评估要求的设计者可以根据多元概化理论的结果选取合适的评分员人数,选取合理的评分要求,建立最佳的评估模式,从而提高阅读课程的质量,节约评估的费用并且有效提高英语阅读课程评估的效率。