潘茹君 王佶旻
对接(linking或alignment)指将两个独立的测量工具连接起来的研究过程,它包括考试与考试对接、考试与量表对接、量表与量表对接[1]。考试与量表对接实质上是将考试成绩关联到描述语言能力表现的语言标准,这种关联将抽象的考试分数赋予具体的意义[2],提高了考试的使用效度[3],促进考试之间的沟通和互认[4]。自《连接语言考试与欧洲语言共同参考框架手册》(Relating Language Examinations to the Common European Framework of Reference for Language,以下简称《对接手册》)及修订版发布以来,对接研究在国际语言测试领域迅速发展。我国以《中国英语能力等级量表》的研制和发布为契机,也展开了一系列量表与大型考试或校本考试对接的相关研究。汉语作为第二语言的评价领域,也应考量汉语各类测试与语言能力标准的现状,积极建立二者之间的关联。
欧洲理事会于2001年正式出版《欧洲语言共同参考框架》(Common European Framework of Reference for Languages,简称CEFR),为语言教学和评估提供了标准,也为欧洲语言教学的课程指南和教材编写提供了共同的参考框架。CEFR研制并发布后,欧洲各国的考试研发机构开始尝试将自己研发的考试与框架进行对接,但很多对接未采取科学的方法,缺乏效度。为了改变这种现状,欧洲理事会于2003年和2009年分别颁布了《连接语言考试与欧洲语言共同参考框架手册》及修订版,为对接工作提供了科学、系统、有效的框架和依据。自此,语言考试与量表对接的研究和实践在全球范围内展开。《对接手册》将整个对接工作分为内在相互联系的三个阶段:框架熟悉(familiarization)和试题检视环节(specification,又称考试说明)、标准设定(standard setting)、效度研究(validation)。
(1)框架熟悉和试题检视环节
框架熟悉和试题检视是整个对接流程的开始,是对接工作开展的先决条件。框架熟悉指经过一系列培训,确保对接专家深度熟悉语言能力标准框架、等级描述语,以及每个等级的典型特征。框架熟悉包括框架熟悉会议的前期准备、对框架的质性分析、评分准备工作等。试题检视则是通过一系列练习和培训帮助对接专家了解将要对接的考试的要求和题型,然后通过一系列将考试与描述语进行对照的练习,帮助对接团队了解考试能够多大程度覆盖语言能力框架中的能力要求。
(2)标准设定
标准设定是整个对接流程至关重要的一环。这一环节实质上是专家依据标准判断将考生划分等级,再划定临界分数的过程。主观判断在这一环节的每一个步骤中均有体现,诸如:决定水平的等级数量、培训和挑选评判专家、挑选标准设定方法等。标准设定常用的方法有很多种,大致可分为试题中心法和考生中心法。试题中心法指专家对临界水平考生在每道题目上的预期表现做出判断。常用的方法有:投篮法、Angoff法、书签法等。其中Angoff法是最常用的方法之一,它被称作“行业标准”(the industry standard),是最简便、最广泛应用和最易解释的一种方法[5]。考生中心法指以考生为中心,专家凭借对考生的了解而非考试题目或成绩判定考生等级。典型的方法包括临界组法、对照组法和分析判断法。其中最常用的是对照组法。
(3)效度验证
由于标准设定的每一个环节都涉及主观判断,效度验证就尤为重要。需要明确的是,效度验证并不是整个对接的最后一步,而是贯穿对接的整个过程,且是一个循环论证的过程[6]。《对接手册》提出从以下三个角度收集效度证据:内部、外部和程序。内部效度即专家自身判断一致性、专家之间的判断一致性、结果稳定性以及标准设定分类的准确性和一致性[8]。外部效度指通过收集外部证据验证专家组的对接结果,例如收集同一批考生在不同测试中的成绩或同一批专家采用不同标准设定方法所得到的结果[8]。程序效度指对接程序的每一步骤是否确保对接的有效实施,如专家对量表的熟悉程度、对考试和对接步骤的充分认识等。
国外的对接研究由来已久。欧美著名的语言教学机构和测试研发机构都将自己推行的语言测试产品与CEFR对接,使考试分数获得统一的解释[9]。Tannenbaum和Wylie采用改良Angoff法和行为档案法(Performance Profile Approach)将托业(TOEIC)、托福(TOFEL)、托业桥考试(TOEIC Bridge)与CEFR进行了对接[10]。Tannenbaum和Baron又沿用改良Angoff法将托福ITP分数与CEFR进行对接,为政策制定者提供与CEFR的A2、B1、B2等级相对应的临界分数建议[11]。剑桥ESOL考试中心推出的雅思(IELTS)和培生学术英语考试(PTE Academic)也通过对接,使其成绩报告同时包含CEFR和GSE(Global Scale of English,全球英语能力等级量表),以便更详尽地解释考生的语言水平[12]。Bechger等人将荷兰语国家考试(State Examination of Dutch)中的两项产出性技能测试与CEFR进行对接,并得出结论:以进入荷兰学习普通课程或获得较低技术要求的工作为目的,需达到CEFR的B1水平;以接受高等教育或进行技术性工作为目的,则需达到B2水平[13]。加拿大的语言能力标准CLB(Canadian Language Benchmarks)也完成了与CEFR的对接[14]。
研究者们不仅完成了对接,同时还关注对接的效度问题。Fleckenstein等人将托福(TOEFL iBT)写作考试与CEFR等级进行了对接:研究不仅为德国和瑞士的大学准入考试划定了分数线,探究了托福考试、CEFR等级和两国高中教育评价标准的一致性程度,更重要的是,研究还通过专家填写反馈的方式为对接提供了程序效度证据,通过专家间和专家内部的一致性提供了内部效度证据,又通过其他考试的成绩的关联度提供了外部效度,同时还讨论了分数线设定是否合理,是否符合两国学生的实际水平,为后续效度提供了证据[15]。De Jong认为测试的先验和后验效度同样重要,他采用先验和后验效度验证相结合、考生为中心和试题为中心相结合的方式,以CEFR为模型框架编写试题,实现了培生考试(Person Test of English Academic)与CEFR的对接,为考试提供了效度证据,也为考生在高利害考试中所获分数提供了更加充分的解释[16]。
自《对接手册》发布以来,国外测评与量表的对接已然经过了较为充分的理论探讨和实践积累。根据考试的类型、题型、目的等采取不同的标准设定方法、临界分数划定方法和效度验证等。这些研究基本都遵循了《对接手册》的步骤,研究成果为语言测试提供了详尽的分数解释,也为语言能力标准的设定提供了重要的证据。
我国对接研究起步较晚。在中国拥有符合国情的英语能力等级量表之前,有一些与CEFR相关联的研究[17-20]。中国英语能力等级量表(以下简称“量表”)的研发为国内量表与考试的对接提供了契机,相关研究集中在国内大型英语考试和校本测验的对接。揭薇尝试对接大学英语四级考试(College English Test Band Four)和量表中的口语分量表,她运用了逻辑回归和中点分析法计算临界分数,同时检验了专家决策一致性和标准设定的结果[21]。王华采用“共同被试设计”和调查问卷将校本英语水平考试与量表进行了对接,将考试的7个等级对接到量表的四级到八级[22]。同样关注校本考试对接的还有闵尚超、姜子芸,他们采用改良Angoff法和对照组法将校本听力考试对接至量表五级,同时收集了程序效度、内部效度和外部效度证据[23]。校本考试的对接能够为学生提供更加明确的反馈信息和学习目标,同时也为教学大纲和教学设计提供了参考。
除了对接考试的尝试,还有针对效度验证的研究。何莲珍对内部、外部和程序效度的证据收集观点提出质疑,认为这一效度框架具有明显的缺点:证据零散不全面,三方面效度的简单叠加不等于对接效度;只针对对接结果进行解释,忽略对接结果使用的后效[24]。因此她基于Bachman&Plamer[25]的评估使 用 论 证 框 架(Assessment Use Argument,简 称AUA)提出对接使用论证框架(Linking Use Assessment,简称LUA)。该框架通过四条主张,描述对接后效、对接决策、对接结果解释、对接纪录以及考生表现五者之间的线性循环关系。她主张通过一系列理据和相应证据将各个重要属性有机联系记起来,构建对接效度整体观。基于该框架,闵尚超以雅思阅读试卷与量表为例,以对接专家团体对雅思阅读样题的判断为数据,得出结论:雅思阅读卷与量表对接结果一致性较高,但是高级别对接结果一致性有待提高,专家团队之间的反馈能够有效提高判断结果的一致性[26]。蔡宏文研究发现,雅思考试写作与量表描述语描述的内容一致性程度高,涉及语言知识运用及表达策略的描述语覆盖程度较高,但不同文体的描述语覆盖程度较低,涉及互动的描述语则更少[27]。吴莎同样基于LUA框架,从对接项目管理者和参与标准设定的专家视角,以调查问卷和访谈的方式对雅思、托福、普思(APTIS)等国际英语考试对接量表进行了预期后效的探究,认为对接的后续积极效应体现在三个方面:(1)宏观层面推动国家外语教育现代化发展;(2)中观层面推动教学和评价方式的改进;(3)微观层面促进学生自主学习能力和教师能力[28]。张洁和王伟强同样从对接团队的培训师职责视角探讨对接效度问题,认为培训师是标准设定环节中的关键人物,培训师的专业知识、经验及严谨的作风为标准设定提供了效度保障[29]。
总之,对接研究在我国刚刚起步,现有的研究主要集中关注国内大型考试及校本测试与量表的关联性,同时围绕内部一致性和概推性、后效性等效度验证框架展开实证研究,这些研究促进了中国英语能力评价体系的完善和规范,也为中国英语能力评价体系与国际接轨提供了切实的证据。
语言测试与能力标准的对接具有十分重大的意义,但目前汉语作为第二语言的量表与考试对接工作还未展开。由此,提出汉语能力标准与来华留学预科结业考试对接的初步设想。
对接工作具有重要的实际意义和社会影响,对接的考试必须确保高质量、高信度,且具有社会影响力和认可度。来华留学生预科教育是汉语作为第二语言测评领域的重要一环。“汉语综合统一考试”是面向中国政府奖学金本科来华留学生的预科结业考试。考试根据汉语教学和社会实际需求开发,在考试设计、考试实施、分数解释和选拔标准等环节中贯彻了预科教育的理念,体现了预科综合考试对学习者的要求[30]。预科考试具有以下两个不同于一般汉语考试的特点,使对接的展开具有重要性和必要性:首先,预科结业考试用来衡量学生的汉语水平是否能够达到进入本科进行专业学习的要求,是对考生具有重要意义的高利害考试。第二,已有研究和实践证实,汉语综合统一考试试卷质量优良,能够满足对中国政府奖学金预科留学生的汉语教学成果的考查和对学生汉语水平的评测需求[31],是具有高质量高信度的考试。将来华留学生预科考试与汉语能力标准相关联有助于探查来华留学预科生的语言能力处于汉语能力标准的何等级别,这一对接对于汉语预科教育评价体系和汉语作为第二语言能力标准的制订均有重大意义。
“汉语综合统一考试”依据学生的专业需求,分类设置文科、经贸、医学和理工四个试卷版本,每个版本均由基础汉语部分和专业汉语部分组成。基础汉语部分四个版本的试题相同,用于考查基础语言知识及日常交际能力,共81道题。专业汉语部分依据不同专业设置,用于考查专业领域的语言运用能力,共40道题。试卷均由听力理解、综合阅读和书面表达三大部分组成,全卷共121题,12种题型,考试时间约160分钟,各部分设置详细信息见表1。由于专业汉语部分的题目因专业不同有所变化,因此可将面向所有考生的基础汉语试题作为与语言能力标准对接的对象。
表1 “汉语综合统一考试”试卷结构
与考试对接的能力标准为“汉语作为第二语言能力标准”(以下简称能力标准)。该能力标准是2015年度国家社科基金重大项目“汉语交际能力标准与测评研究”的重要成果,对汉语作为第二语言能力的评价体系具有重大现实意义和参考价值,同时也为来华留学预科教育评价、海外华人华侨汉语水平考试以及少数民族汉语水平考试提供了参考。该标准遵循科学、全面、实用和兼容的原则,通过定性定量相结合的方式,构建了适用于汉语作为第二语言的能力标准体系。体系包括三个部分:语言水平等级描述、配套水平测验和词汇大纲。其中,语言水平等级描述是主体。能力描述语指标库由听、说、读、写四个子库组成,每个子库都包括总说、描述语及其分类、难度值与能力等级。总说是概括描述该语言技能具有的区别性特征。听、说、读、写每一项技能的描述语都被归为初级、中级和高级三个水平等级,每个等级下再分低、高两等。各等级描述语均包含相应的难度值,能够较好地描述该等级的二语者“能做”什么。各等级描述语数量如表2。该描述语指标库为考试提供了详尽的对标对象。
表2 汉语作为第二语言能力等级描述语数量
考虑到来华留学预科结业考试的特性和重大意义,将其中的基础汉语考试部分与汉语作为第二语言能力标准进行对接,能够为中国政府奖学金来华留学生语言能力水平提供强有力的解释和评价,促进来华留学生预科教育规范化和体系化。
对接是一项复杂且意义重大的工作,基于《对接手册》的科学步骤及前人研究经验,结合汉语能力标准以及预科考试的特性,可以首先将输入型技能测验即“汉语综合统一考试”中听力和阅读的基础汉语部分试题与能力标准对接,对接的具体步骤和关键问题如下:
(1)确定对接程序
《对接手册》为对接的研究和实践提供了具有可行性的操作框架,但需要明确的是,不能完全照搬前述的四个步骤。既要以《对接手册》提供的科学步骤为基准,还要依据汉语考试的题型和能力标准描述语的实际情况,对实施步骤进行适当调整。除对接的基本四个步骤外,还需要提前将以下三个具体问题纳入对接框架的设定考量:①项目描述语库中的描述语仍存在匮乏或模糊等问题,可能会导致专家判断面临挑战,因此需要将其再度完善、修改和增加;②经过试题检视和熟悉量表环节后,为验证专家对量表的理解没有偏差,需要设计专门的调查问卷和访谈,了解专家的熟悉度;③试题检视和框架熟悉环节之间没有明显界限,但需要考虑两环节的过渡问题,或将两环节交替进行,再辅以问卷和访谈,确保专家对试题和框架的熟悉度。
(2)组建对接专家团队及培训
专家对量表等级描述语和试题的理解直接影响其做出的判断,而专家的判断又会直接影响对接的有效性。因此,对接团队必须由组织者、协调者和富有测试及教学经验的专家组成。此外,专家培训也必不可缺,尤其要重视培训师角色,让培训师真正发挥职能,提升专家团队整体的专业性和协调性。
(3)熟悉框架和试题
该环节是对接真正开始的重要工作。该环节的重点在于基于《对接手册》中试题检视环节的练习和培训,利用对接的目标描述语库和考试题目,设计制定描述语和能力匹配的练习题,促进和检验专家对能力标准及考试内容的熟悉程度。此外,需要提取每个等级的显著特征制定成表,帮助专家厘清各等级之间的差异,达成关于等级划分的共识。
(4)设定标准和临界分数
标准设定是对接的关键环节。这一环节的重中之重是选择适当的标准设定方法。不同题型、不同类型的考试适用于不同的标准设定方法,不同的方法又会带来不同的结果。需要经过前期的预测及与专家的讨论,商定出适用于输入性技能的标准设定方法。需要考虑的问题有:①预科考试中,一张试卷包含听力题目35道、阅读题目35道,如采用最广泛运用的Angoff法,题量是否超出评判负荷,导致专家疲惫度增加,判断正确率下降?②专家对被试的熟悉度如何,即应该选择试题中心法还是考生中心法,或采用二者相结合的方法?③标准设定程序经过几轮方能满足程序效度需求?此外,标准设定实质上是向考试机构提交临界分数建议的过程,高利害考试与量表的对接如采用不恰当的临界分数可能会产生严重的社会后果。来华留学生预科结业考试的成绩将直接决定学生能否进入更高学府,是具有重大意义的高利害考试,作为考试的研发者和对接的组织者,需要考虑是否需要对专家建议的临界分进行调整后再公布使用。
(5)确立效度验证框架
严密的效度验证框架是对接具备良好效度的保障,是对接工作展开的前提。标准设定方法的选择、专家判断的一致性与有效性、对接流程的科学性和可操作性、考试构念与标准构念的匹配度、考试自身的信度与效度、标准及描述语的清晰度与一致性等因素都会影响对接的整体效度。效度的验证贯穿在对接程序当中的每一环。在确立效度框架时要结合AUA框架和LUA框架,除前面几个步骤中提出的关于内部效度、程序效度的检验证据,还需要从对接后效、对接结果解释和考生表现等方面考量和收集效度证据。需要先行计划的包括:①设计用于探查学校、教育工作者、学生等层面后期效应的调查问卷及访谈,从国家政策制定的宏观层面、学校和分数使用的中观层面以及学生和教师个体发展的微观层面广泛地收集效度证据;②建立来华留学预科生进入本科学习阶段的长期监测平台,切实观测依据对接所做出的决策是否有助于完善和发展汉语国际教育的评价体系,是否对学生的自我评价、自我发展和教师的教学产生积极作用,以及是否需要及时作出政策调整。
最后,对接是一个持续的动态发展过程。考试与量表的对接还会随着教育政策、评价体系等因素的变化而变化,因此效度验证也是一个循环往复的过程。后期效应的证据收集还需随着教育政策、考试规划、教育水平等其他因素的变化而不断进行调整。
量表与考试的对接是对汉语作为第二语言能力评价标准的重要推进,汉语能力等级量表与考试的对接研究对于汉语作为第二语言的评价体系建设具有重要意义。一方面可以为不同的考试提供更为详实的分数解释,为不同考试之间搭建桥梁,促进学习成果的沟通与互认;同时促进考试质量的提升,发挥考试对教学的正向反拨作用。另一方面,能够为政策制定者、教育者和分数使用者提供重要的参考依据。随着汉语作为第二语言的评价体系的逐渐完善和能力标准的逐渐成型,量表与考试的对接研究亟待展开。应充分借鉴国内外对接研究的方法和经验,积极开展科学有效的对接,促进汉语作为第二语言能力评价体系的完善。