鹿士义
(北京大学对外汉语教育学院商务汉语考试 (BCT)研发办公室,北京 100871)
商务汉语考试 (BCT)与欧洲语言共同参考框架 (CEFR)的等级标准关系研究①
鹿士义
(北京大学对外汉语教育学院商务汉语考试 (BCT)研发办公室,北京 100871)
商务汉语水平考试 (BCT);标准设定;欧洲语言共同参考框架 (CEFR)
本文主要运用标准设立的方法探讨了商务汉语考试 (BCT)与欧洲语言共同参考框架 (CEFR)之间的等级对应关系,研究结果表明:商务汉语考试 (BCT)和欧洲语言共同参考框架 (CEFR)之间存在着一定的等级对应关系,商务汉语考试 (BCT)涵盖了《框架》中从A2到 C1这样一个标准等级序列;这种等级序列的分距之间在商务汉语考试 (BCT)中表现得非常和谐,体现了商务汉语考试 (BCT)作为跨度考试的特点;文章最后总结了BCT与 CEFR之间的等级关系。
商务汉语考试 (BCT)是我们国家向海外推广的几个主要对外语言测试之一,因此如何与国际现行的标准和考试接轨,根据国际现有的等级标准来进行统一的分析解释,以便于各语言考试之间能够相互比较,促进不同语言文化背景下资格之间的相互认证,这是我们向世界推广汉语时必须要解决的首要问题。为此,商务汉语考试研发办于 2008年启动了商务汉语考试 (BCT)与欧洲语言、学习、评估共同参考框架 (CEFR)(以下简称“《框架》”)的匹配研究工作,以寻求建立起具有心理测量学基础的、用以测试商务汉语能力的标准测试——商务汉语考试 (BCT)与《框架》的对应和联系,促进汉语教学和汉语测试的国际推广。
商务汉语考试 (BCT)与《框架》进行匹配研究的一个重要方面就是考试的“标准化”(Standardization)。“标准化”的目的就是通过专家对考生的实际行为表现所进行的评定,进一步验证商务汉语考试 (BCT)与《框架》之间的联系,最终根据《框架》的水平描述由专家划分出商务汉语考试 (BCT)相对应的“合格分数线” (cut score)。根据欧洲理事会所颁布的《语言测试与 <欧洲语言学习、教学、评估共同参考框架 >匹配手册》(试用版),考试与《框架》的“标准化”主要包括以下三个方面:1)对《框架》的水平和能力描述能够取得充分的理解,并将考试任务、考试成绩与这些能力水平进行匹配;2)确保所有参与评定的专家能够取得一致的理解,并能在匹配实施过程中保持一致。3)标准设定,对分类或选定的测试项目、任务以及学习者的成绩进行评定,划分出不同水平之间的“合格分数线”(cut-off)。
《匹配手册》将考试的“标准化”过程分为熟悉 (Familiarization)、培训 (Training)、行为样本的标注 (Benchmarking Performances)以及标准设定 (Standard-setting)等 4个阶段。本文主要报告“标准设定”的研究过程,这个过程包括以下两个方面的内容:一是 “标准设定”的过程和方法;二是数据验证,通过考生对试题的实际作答表现来验证专家设定的“划界分数线”,最后报告“标准设定”的最终结果。
《教育与心理测量标准》(1999)在论述“标准评定”时认为,应该对“标准设定”的原理、所使用的评定方法,专家的资格、专家挑选的标准以及培训的方式清楚地记录备案。评定专家应该清楚“标准设定”的目的和目标,熟悉相关考试,熟悉评定过程和方法,并进行必要的培训。本项“标准设定”的研究方法就是根据这些指导原则进行设计的。
商务汉语考试 (BCT)“标准设定”的目的就是由专家确定考生成功完成考试中相关的测试任务时所需要的最低的《框架》水平。换言之,就是确定与商务汉语考试 (BCT)目标相关的、考生所达到的《框架》水平的 “合格分数线”。《框架》用了 6个水平等级量表来分别描述听、说、读、写的语言能力,这 6个水平为 A1– A2(Basic User),B1– B2(Independent User),and C1– C2(ProficientUser)。本项研究所确定的“合格分数线”分别指《框架》B1和 C1水平的考生在完成商务汉语考试 (BCT)的测试任务时表现出来的成绩和水平,B1水平的“分数线”是初、中级之间的一条重要划界分数,而 C1则是中、高级之间的一条重要的划界分数,其他的“划界分数”可以通过这两条重要的“分数线”来进行推导。
为了提高“标准设定”的有效性和权威性,评定小组主要由对外汉语教学、语言测试以及商务汉语教学三方面专家组成。考虑到商务汉语考试 (BCT)是面向全球的语言测试,在选择专家时还充分考虑到了地域的分布,评定的专家分别来自中国大陆、中国香港以及美国等地。国内的专家选择主要将选定的范围集中在国内几所较大的从事对外汉语教学的院校,因为这些院校的教师所教授的学生地域性分布较广,水平多样。这些有利的条件会使“标准设定”的结果更加全面、可信。
为了能够使得评定专家尽快熟悉所评定的任务,我们根据“标准评定”的特殊性有针对性地设计了一系列培训活动。我们将商务汉语考试 (BCT)中听力、说话、阅读、写作各部分所测试的不同的语言技能,根据《框架》对 B1和 C1水平的描述进行归纳总结。归纳时主要考虑这些描述能够区分出不同水平的应试者应具有的足够的技能去完成相应的测试任务。例如 B1水平的考生能够完成比A2水平更高且A2的考生所不能完成的任务,但对于 B1水平的考生来说他不能完成 B2水平的任务。对于 C1水平的考生而言能完成比B2水平更高且B2所不能完成的任务。我们将这些归纳总结的描述表格请评定专家们结合《框架特征描述》 (《匹配手册》表2.1)以及《框架》中的《测试总表》(表1)、《自我评价表》 (表2)和《口语能力量表》 (表3)进行讨论、补充,并提出修改意见。这些练习有助于评定专家确定B1和 C1水平的考生最低的 “合格分数线”,使评定专家在评定时能够对《框架》取得一致性的理解。
商务汉语考试 (BCT)“听力”和“阅读”两部分的试题多为选择题。对选择题的 “标准设定”方法,《匹配手册》建议采用安戈夫修订方法 (A modified Angoff approach)。这种方法是目前选择题的“标准设定”中使用最广泛的方法 (Hurtz&Auerbach,2003)。
标准设定时,评定专家首先阅读试题,并考虑每个试题所测的语言技能的难度,然后判定 B1水平的应试者正确回答该题目的概率,并将判断记录在标有 0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9概率的表格上,比如 0.1相对应的正确回答概率为 10%。专家凭借自己的经验可以判断,对于汉语水平要求相对比较高的题目,可能会落在 0.1~0.3之间,正确回答的概率为 10~30%,对于汉语水平要求相对比较低的题目,可能会落在 0.7~0.9,正确回答的概率则为 70~90%。中等难度的试题可能会落在 0.4~0.6之间,正确回答的概率则为 40~60%。
专家在正式评定之前,首先进行试评,试评的题目不包括在正式评定的题目之中。用作评定的试卷都是参考人数在 2000人以上的正式施测的试卷。每个评定专家都被要求记录下 B1水平的应试者和 C1水平的应试者正确回答该试卷中每道题目的概率。一旦每个专家评定结束后,即进行小组讨论,这样每个专家可以分享其他专家对每个题目水平标注的原则。讨论结束后,即公布正确答案,同时将正式施测的考试数据 (难度值)提供给评定专家参考,比照经验判断该道题目是属于容易、中等还是难度较高的题目,对该题的难度水平进行讨论,判定 B1和 C1水平的汉语语言学习者回答该题所遇到的困难。通过讨论,评定小组中不同专业领域的专家的观点能够得到充分地反映,帮助专家廓清在评定过程中所出现的偏差,校正自己的评定标准。评定专家完成 4道题目的试评后进行讨论,以确保每个专家确实都掌握了评定方法。
第一轮评定任务结束后,由课题组成员根据每个评定专家对 B1和 C1水平的评定,计算出其“听力”部分 50道题的概率。例如如果某个专家对B1水平的应试者 50道题答对的概率评定为 0.5,那么该专家评定的B1水平的得分则为 25,根据专家的判断,这 25题就被视为《框架》B1水平的应试者所需要的正确作答的题目数。如果某专家评定 C1水平的应试者 50道题目的正确回答概率为0.8,那么该专家评定 C1水平的得分为 40分,根据该专家的评定,40道题目就被视为《框架》C1水平正确作答的题目数。同时还分别计算出小组评定的均分、中数、标准差、最小值和最大值。然后报告第一轮的评定结果,每个专家根据各自评定的结果与小组的评定结果加以对照进行讨论,重点讨论专家评定的最低分和最高分。根据小组的讨论结果,专家校正自己对整个“听力”的评定得分,要求评定专家只校正整个“听力”部分的得分而不是某个具体题目水平的得分,因为这时候的讨论是在整个“听力”部分完成以后进行的。评定专家可以保留自己第一轮评定的结果,不强求改变他们的分数。专家们记录下他们第二轮的评定结果。商务汉语考试 (BCT)“阅读”和 “听力”大致遵循着相同的方法和步骤,只是“听力”部分的评定是根据播放的录音来进行的。
共有 15位专家参加了商务汉语考试 (BCT)“听力”和 “阅读”部分的 “标准设定”。“听力”和“阅读”第一轮和第二轮的评定结果详见表1和表2。表1为B1水平的专家小组评定结果的统计,表2为 C1水平的专家小组评定结果的统计。《BCT·听读》总分的均分、中数是根据商务汉语考试(BCT)分数转换公式推导出来的,导出分数表示专家建议的 “BCT·听读”部分所对应的《框架》B1水平和 C1水平的最低 “合格分数线”。
表1:“BCT·听读”B1水平专家评定结果统计
表2:“BCT·听读”C1水平专家评定结果统计
B1水平和 C1水平的 “合格分数线”无论是 “听力”部分还是 “阅读”部分从第一轮到第二轮变化均很小。标准差从第一轮到第二轮则呈现出减小的趋势。这表明专家们的评定一致性在提高,可以将第二轮的均分作为专家评定的“合格分数线”,即《框架》B1水平和 C1水平最小的对应分数。因此商务汉语考试 (BCT)“听力”的B1水平和 C1水平的分数分别为 230分和 428分,“阅读”的B1水平和 C1水平分别为 216分和 426分。其他级别的分数是分别根据商务汉语考试 (BCT)的导出分数推导出来的。
表3:“BCT·听读”各级别所需的最低合格分数
图1:商务汉语考试 (BCT)听力所需的最小合格分数
图2:商务汉语考试 (BCT)“阅读”所需的最小合格分数
商务汉语考试 (BCT)“口语”和 “写作”测试都是要求考生构造性地回答问题,而不是从给定的答案中进行选择。构造性试题的“设定标准”方法通常采用的是“考生试卷选定法” (a modified examinee selection approach)(Hambleton,Jaeger,Plake,&Mills,2000)。该方法的评定步骤如下:评定专家首先阅读需要评定的商务汉语考试 (BCT)“说写”部分的 2个题目以及评分规则,然后听或读选定的每个级别 (“口语”和“写作”各 5个级别)的作文样本或口语录音。要求评定专家思考每道题所测试的商务汉语技能的难度、任务特征、语言特征、评分规则以及《框架》中B1水平的技能描述。然后评定专家独自评定 B1水平的应试者最恰当反应的作答样本应是属于哪个级别。例如,在写作评定中,评定专家评定B1水平的应试者作答某题应该和该题作答样本的 3级相当,那么就可以认为《框架》B1水平对应于商务汉语考试 (BCT)的 “写作”3级。对 C1水平的评定重复相同的评定过程。两个题目评定的方法一样。专家独立完成第一道题目 B1和 C1水平的评定后进行讨论,阐明各自评定的理由,目的是让不同领域的专家充分表达自己的观点,促使专家能思考自己所没有考虑到的方面和问题。另外一道题的评判也照此进行。全部两道题的B1和 C1水平评定任务完成后,则第一轮评定工作结束。
项目小组成员计算出评定小组及每个专家评定的均分、中数、标准差、最小划界分数和最大划界分数,并报告每个专家的评定结果,然后进行讨论。每个评定专家将自己的 B1和 C1的划界分数对照小组的评定结果,并对评定的最低划界分数和最高划界分数的结果进行小组讨论,其他专家分享他们的评定结果及经验。小组讨论后,专家可以根据小组的最终讨论结果,从整体上来修订B1和C1的划界分数。第一轮评定时每个项目是分开来评定的,而第二轮评定时专家被要求从整体上的表现来进行评定,同时根据两个题目总的得分进行讨论,讨论与总分相关的评定原则。第二轮的评定是依据第一轮讨论的结果从总体水平来进行评定的。如果专家们坚持自己第一轮的评定结果的话,那么他们并不强制修改自己的分数。然后专家将第一轮和第二轮的评定的结果分别记录在评定表格内。
“口语”和“写作”的评定专家各为 8人。评定结果见表4和表5。表4为 B1水平的专家评定结果,表5为 C1水平的专家评定结果。 “BCT·说写”总分的均分、中数是根据商务汉语考试(BCT)分数转换公式推导出来的,导出分数表示专家建议的 “BCT·说写”部分所对应的《框架》B1水平和 C1水平的 “合格分数线”。
表4:“BCT·说写”B1水平专家评定结果统计
表5:“BCT·说写”C1水平专家评定结果统计
统计结果显示 B1水平和 C1水平的“分数线”从第一轮到第二轮变化均很小。B1水平和 C1水平之间的标准差呈现出一种减少的趋势,表明专家小组评定的一致性在提高。虽然B1水平写作部分和 C1水平口语部分之间的标准差有所增加,但这种变化微乎其微。因此第二轮的评定结果可以认定为专家建议的《框架》B1水平和 C1水平最小的对应分数。商务汉语考试 (BCT)“口语”的 B1水平和 C1水平的分数分别为 3.32级和 4.6级,“写作”的 B1水平和 C1水平的分数分别为 3级和 5级。其他各级别由商务汉语考试 (BCT)的导出分数推导而来。
表6:“BCT·说写”各级别所需的最小合格分数
图3:商务汉语考试 (BCT)“口语”所需的最小分数
图4:商务汉语考试 (BCT)“写作”所需的最小分数
我们这里所说的“数据验证”就是将专家所确定的最低《框架》水平,通过应试者在商务汉语考试 (BCT)中的实际作答表现来考察考生的实际水平处于《框架》哪个水平上,同时我们还将进一步验证商务汉语考试 (BCT)“听力”和“阅读”所划分的五级的 “合格分数线”与专家评定结果之间的关系。因此我们将用专家确定的“合格分数线”来推断实际的测试水平,说明商务汉语考试 (BCT)“听力”和 “阅读”的五级分数是如何与《框架》的相关水平匹配的,进而建立起上述专家所确定的分数线与实际考试之间的联系。
根据Abdullah A.Ferdous,Barbara S.Plake(2008)等人研究,我们将上述专家评定的分数(Mri)转换成基于 2参数的逻辑斯蒂克模型所估测的能力值,我们假设应试者的最小能力值 (minimally competent candidate,MCC)最有可能落在 -3和 +3之间,所对应的项目概率 Pi(θ*)表示该试卷中项目的正确回答的期望概率。这样在“标准设定”研究中专家对项目评定所获得的分数线(Mir),通过求得Mir=Pi(θ*ir)转化成θ*ir。对于每个评定专家而言,这些θ*ir是每个专家 (k)评定的均值,代表每个项目 (i)的能力水平,θ*iR就是 K个评定在每个项目 i上最小能力值 (MCC)的表现。那么θ*iR值就是依据每个项目的均值来确定的整个能力水平,θ*即是运用考试的项目特征曲线来表示的最小的合格分数。同时我们用 2参数模型来估测应试者对每个项目反应的正确概率,计算出商务汉语考试 (BCT)“听力”和“阅读”5个级别的划界分数所对应的能力值,结果如下:
表7:商务汉语考试 (BCT)“听力”和“阅读”划界分所对应的能力值一览表
图5显示出商务汉语考试 (BCT)“听力”的五级分数线与相关的《框架》“听力”水平之间的关系,可以看出在商务汉语考试 (BCT)“听力”二、三、四、五级分数线 (实线)均低于《框架》的 A2、B1、B2和 C1水平 (虚线),B1和 B2水平的 “最小合格分数线” (cut-off)比商务汉语考试 (BCT)的二级和三级分数稍高一些,而A2水平和 C1水平的 “最低合格分数线”则与商务汉语考试 (BCT)的二级和五级的分数线非常接近。图 6显示了商务汉语考试 (BCT)“阅读”的五级分数线与相关的《框架》“阅读”水平之间的关系。“听力”水平的情形在商务汉语考试 (BCT)“阅读”中得到了相同的反映。从图 6可以看出 B1、B2和 C1水平 “最低合格分数线”(虚线)稍高于商务汉语考试 (BCT)的三级、四级、五级划界分数线 (实线),而 A2水平的合格分数线则几乎与商务汉语考试 (BCT)二级的划界分数线重合。
图5:商务汉语考试 (BCT)“听力”成绩划界分数与相对应的 CEFR水平分布图
图6:商务汉语考试 (BCT)“阅读”成绩划界分数与相对应的 CEFR水平分布图
本文主要探讨了商务汉语考试 (BCT)和欧洲语言共同框架 (CEFR)之间的等级关系,所得主要结论如下:
1)商务汉语考试 (BCT)和欧洲语言共同框架 (CEFR)之间存在着一定的等级对应关系,商务汉语考试 (BCT)涵盖了《框架》中从 A2到 C1这样一个标准等级序列;2)这种等级序列的分距之间在商务汉语考试 (BCT)中表现得非常和谐,体现了商务汉语考试 (BCT)作为跨度考试的特点;
商务汉语考试 (BCT)的 “听力”、“阅读”、“说话”和 “写作”5级水平和《框架》之间的对应关系可以概括为:
表8:商务汉语考试 (BCT)5级水平与欧洲语言共同框架 (CEFR)之间的对应关系
国家汉语国际推广领导小组办公室 2007 《国际汉语能力标准》,外语教学与研究出版社。
王建勤 2008 《汉语国际推广的语言标准建设与竞争策略》,《语言教学与研究》第 3期。
中国国家汉语国际推广领导小组办公室、北京大学商务汉语考试研发办公室编 2006 《商务汉语考试大纲》,北京大学出版社。
Abdullah A.Ferdous,Barbara S.Plake 2008 Item response theory–based approaches for computing minimum passing scores from an Angoff-based standard-setting study.Educational and Psychological Measurem ent(5).
Alderson,J.Charles,Neus Figueras,Henk Kuijper,Günter Nold,Sauli Takala,Claire Tardieu 2006 Analyzing tests of reading and listening in relation to the Common European Framework of Reference:The experience of theDutch CEFR construct project.Language Assessm ent Quarterly(3).
American EducationalResearchAssociation,American PsychologicalAssociation,NationalCouncil 1999Measurem ent in Education Standards for Educational and Psychological Testin.Washington,DC:American PsychologicalAssociation.
Hambleton,R.,&Plake,B. 1995 Using an extended Angoff Procedure to set standards on complex performance assessments.Applied Measurem ent in Education(1).
Hurtz,G.M.,&Auerbach,M.A. 2003 A meta-analysis of the effects of modifications to the Angoff method on cutoff scores and judgment consensus.Educational and Psychological Measurem en(4).
The Study on the Corresponding Scales between Business Chinese Test(BCT)and Common European Framework of Reference(CEFR)
Lu Shiyi
(Peking University BCT R&D Office,Beijing100871,China)
Business Chinese Test(BCT);standard setting;Common European Framework of Reference(CEFR)
This paper utilizes the standard setting approach to research the corresponding scales between“Business Chinese Test”(BCT)and“Common European Framework of Reference” (CEFR).The findings show thatBCT and CEFR exhibit a certain level of correspondence,and BCT covers a standard sequence from levelA2 to C1 in CEFR;the sub-sequence of this level in BCT is reasonable,reflecting the characteristics of BCT as a evaluation test;finally,hierarchical relationship between BCT and CEFR is summarized.
H177;H178
A
1674-8174(2011)02-0056-08
2010-11-16
鹿士义,男,北京大学对外汉语教育学院副教授,博士,主要研究方向为语言测试和二语习得。
① 本项研究为国家汉办考试处资助项目,北京大学对外汉语教育学院为本项研究提供了一切便利。陈绂、崔永华、冯胜利 (美国)、李泉、李晓琪、刘乐宁 (美国)、王惠玲、王若江、吴伟平 (香港)、吴中伟、张黎、张晓慧、赵金铭、赵悦、周守晋、周小兵等专家参加了评定工作,特此致谢。
【责任编辑 匡小荣】