教育公平视域下的英语社会化考试测量标准刍议

2015-07-12 14:14河北经贸大学050000
学周刊 2015年19期
关键词:公平考试测试

(河北经贸大学050000)

教育公平视域下的英语社会化考试测量标准刍议

吉丹丹 王玉秀(河北经贸大学050000)

考试测量标准由心理测试专家和教育工作者制定,以规范测试者的行为,提高测试专业化水平为目的,涵盖考试的监管、设计、评估和使用整个过程,为考生及其他利益相关者提供指导和佐证。本文回顾了国际上较有影响力的测试标准,基于项目反应理论中的等值技术和测试方法提出教育公平视域下的考试测量标准。考试标准的制定有助于高考英语社会化考试的推行,推动我国语言测试开发与研究的国际化,提升我国自行开发的英语考试在国际上的认可度,为教育机构及其他利益相关者提供入学、就业等决策依据。

英语社会化考试测试标准教育公平

一、前言

2013年12月7日,教育部已经制定完成了考试招生改革总体方案中的部分细节:我国将探索外语考试不再统一高考时举行,进行社会化一年多考,2017年正式推广实施,到2020年基本形成新的考试招生制度。社会化考试在形式上和内容上不同于以往的统一高考,以往高考英语测试使用考试大纲指导考试的完成。但是鉴于外语社会化考试所带来的后效作用和影响,教育测试专家应该制定更为全面的教育和心理测量标准,以期指导、规范测试者的行为,使测试从设计、评估到使用的整个过程有章可依,最终的考试结果公平有效并能够为考生和利益相关者负责。国外在语言测试标准研究和实践方面已经取得了许多重要成果,如国外的考试机构分别颁布了《ETS质量和服务标准》《欧洲语言测试者协会行为准则》《国际语言测试协会行为准则》等,但目前还没有适合我国国情并能指导、规范考试设计者和使用者行为的语言测试标准。正如杨惠中和桂诗春教授(2007:372)所指出的,政府机构相关部门应尽快制定适合我国国情的测量标准,起到“量同衡”的作用。

二、国内外测试标准研究回顾

国际上目前有多部具有影响力的考试标准,考试标准涵盖从命题到实施的各个阶段,本文按照标准的侧重点不同分类介绍。第一类,侧重考试实施方式的标准。如《教育与心理测试标准》(1985,1999)规定了测试的制作、测试适用范围、评估标准等方面,侧重于考试内容的测试标准为考生备考和教师指导提供了方向,减轻了考试负担,同时标准的制定与公开体现了测试的公平性;《欧洲语言测试者协会行为准则》(1994)和《教育领域公平测试行为准则》(1984,2004)告知相关人员考试的开发过程、施考、评分细则、考试成绩的报道方式和分数如何解释等信息,透明的评分过程和分数报告方式令人信服,确保为参考考生提供公平的竞争平台;《ETS质量和公平标准》是专门针对该考试而制定的标准,包括ETS评估类和非评估类产品和服务。第二类,侧重道德标准的规则。《教育测量中的专业责任准则》(1995)详细规定了参与教育测量各个步骤相关工作人员(如测试开发人员、营销推广人员、施考人员、评分员等)的责任与道德规范;《考生的权利和责任:准则及期望》(1998)与前者相反侧重了考生在考试全过程中的责任和权利;《国际语言测试协会道德准则》(2000)规范了测试全过程中测试者的道德准则。第三类,为使用者制定的责任。《考试使用者资质工作小组报告》(2000)报告指出了考试使用者应具备的核心知识和技能以及在特定环境下考试使用者的资质;《标准化考试使用者的责任》(2003)强调了考试使用者的资质、专业知识以及在考试选择、施考、评分、分数解释及报道等方面的责任。

由于我国英语教学层次复杂、考试种类繁多,目前还没有适合我国国情并能指导、规范考试设计者和使用者行为的语言测试标准,但是近年来关于制定我国统一的语言能力等级量表(韩宝成2006;杨惠中等2012)和语言测试标准(范劲松、金艳2010)的呼声越来越高。在一些语言测试中,由于缺少测试项目的命题范围,导致内容难度没有明确的描述,出题者在命题时题目的类型和内容随意性很大,出现各年题目难易不等的现象,如果调换出题成员,试题思路和测试项目也可能变化,增加了考生的复习难度和学习负担。从教育公平性的角度来看,会使教育资源匮乏地区的考生备考更加苦不堪言。刘建达(2014)提出了我国英语考试等级量表的制作思路和步骤并提出利用RASCH模型进行等值和锚题的选定。

由此,本文提出运用项目反应理论中的等值技术来制定标准框架,目的在于提高语言测试者的出题质量和专业意识,并向考试的利益相关群体传播考试开发和使用的基本知识以及考试在各个阶段的实施做法。

三、我国英语社会化考试测试标准的框架

制定测试标准的目的在于公开考试政策、考试程序、录取结果等,力求考试的每一个环节和细节都能够成为共享信息,借鉴国外其他考试标准的制定框架,我国外语社会化考试测试标准可以分为以下几个维度。

(一)道德和法律维度

高考是常模参照的大规模标准化高风险考试,因牵涉到千万考生的命运而历来受到国家和社会的高度重视,被称为“中国第一考”。外语考试改为社会考试需要制定相对稳定的制度以保持考试的公平公正。考试制度的公平则体现在基本原则公平、技术公平与社会公平三个方面。高考要确保人人都享有平等参与考试的权利和义务,提供相对平等的参与考试机会和条件,考题资源和考试相关信息向大众公开,保证考试结果和教育效果的相对均等,即每个学生接受同等水平的教育后能达到一个最基本的标准。

(二)基于项目反应理论的考试大纲和考试内容界定

首先,外语测试标准是实施标准化考试的前提。标准化考试严格要求测试方式的客观性,必须制定统一的测量标准并采用有效措施来减少和控制测量的误差。标准化考试是一个系统工程,它要求考试在各个环节上都按照已有规定实施,包括测试方式、考试时间、评分、分数解释等。其次,外语考试的构念效度在测试标准中的体现。考试的构念是指考试测量和考察到了什么,测量能力分为语言技能,社会交际能力和语言使用能力,根据测量能力制定考试细目表是测试标准中考试内容维度的组成部分。本文提出以项目反应理论中等值技术来制定考试标准,其前提条件是要保证在测量语言能力时,不同的试卷具有相同的构念并具有较高的信度。项目反应理论克服了考生样本对于试题参数的影响,试题难度的因素主要来自于考生对题目的认知和反应过程。题目测量了目标的认知层次、知识含量、心理加工时间和复杂程度。以项目反应理论为理论基础的试卷等值后试卷具有分数转化对称性,分数不变性和跨样本一致性等诸多优势,这样就满足社会化考试一年多考分数的可比性要求。

(三)考试实施维度

考试的实施包括考试环境,考试时间和地点,监考和参考人员的权利与责任等。此外,还应该规定在特定环境下考试使用者的资质等。考试实施维度的制定确保了考试的可行性。考试的实施在时间上可以分为三部分。第一,考试前的备考阶段。此阶段要选定出题人员,理论上出题人员要包括任课教师,测试专家和招生方,并对他们进行培训和指导;确定考试时间和考场环境要求等条件;然后针对考试内容制定考试命题双向细目表,细目表的制作方法可参考李筱菊(2000)的制定方法;此外还要给出评分标准,考试范围和考试大纲。第二,考试的实施阶段。考试实施过程中各类突发事件的处理和应对方法,考场指令和考试规则等,还应该包含监考人员须知和考生须知等实施细则,并告知考生遵守考试纪律以及违反规定后的惩罚措施。第三,考试结束后。此阶段包括分数的公布,分数解释和试题信效度检验等。考试后收集考生和教师的反馈信息,总结考试和出题经验。

四、结语

我国对于语言考试的公平性研究较少,已有的研究多是基于考试技术层面上的公平性,即DIF(试题差异性)研究、评分员或试题的偏颇研究等。测试的公平性不仅包括测试的技术层面还应包括考试的社会层面,以测试公平为目的的测试标准则从考试的社会层面顾及考试的公平性,应贯穿和指导考试的各个阶段。测试标准的开发与起草,往往取决于命题组或者起草人员的主观性或者经验性的认识与了解,项目反应理论中等值技术可以把测试题目放置于同一量尺之上,从而实现试卷等值。同时,该理论还可用于构建题库,设立锚题,项目分析,裁定评分标准和评分员与试题是否拟合,是教育测量中常常使用的测试理论。等值技术的实现条件也是测试标准必要条件,测试标准除了告知使用者应具备的核心知识和技能外,更重要的是要为试题等值做好前提准备。

国外针对测试标准和语言能力的研究成果显著,尤其是欧共体语言框架(CEFR)的颁布对语言能力等级做出了详尽的描述。很多测试学家以该框架为标准比较和衔接本国的语言能力标准,如我国学者将HSK汉语考试和CEFR比较和对接。我国学者目前正在积极开展外语语言能力等级和测试标准等方面的研究。制定外语能力的测试标准是测试实施的首要任务,是保证测试公平和有效的唯一途径,是我国测评体系与国外测评接轨的方式,同时更是为考生,教师和招生院校服务的考试实施方案。

[1]Weir,J.C.et al.Measured Constructs. Cambridge∶Cambridge University Press,2013.

[2]Boyd K&Daviesa.Doctorps orders for language testers:The origin and purpose of ethical codes[J].Language Testing,2002(3).

[3]韩宝成,罗凯洲.语言测试效度及其验证模式的嬗变[J].外语教学与研究,2013(3):411-425。

[4]范劲松,金艳.语言测试标准研究:回顾、反思和启迪[J].外语界,2010(1):82-91.

[5]金艳,张晓艺.技能综合对语言测试构念效度的影响—英语考试与大学英语六级网考的对比研究[J].外语电化教学,2013(6):3-10。

[6]李清华.《语言测试与效度验证—基于证据的研究方法》述介[J].现代外语,2007(2):214-217.

[7]刘建达.我国英语能力等级量表研制的基本思路.中国考试,2015(1):7-13.

[8]杨惠中,杜诗春.制定亚洲统一的语言能力等级量表[J].中国外语,2007(2):33-37.

吉丹丹(1977-),黑龙江人,讲师,研究方向:语言测试。

王玉秀(1972-),黑龙江人,副教授,研究方向:翻译与外语教学。

(责编 张翼翔)

河北省教育厅人文社科招生考试专项课题“项目反应理论下的英语社会化考试测试标准研究”(项目编号KSZX201415)结项文章,本文同时得到国家留学基金委资助。

猜你喜欢
公平考试测试
公平对抗
怎样才公平
幽默大测试
笨柴兄弟
“摄问”测试
“摄问”测试
“摄问”测试
公平比较