语言能力评估的社会维度

2016-05-30 10:48:04杨旸赵守辉

语言战略研究 2016年5期

关键词：效度

杨旸　赵守辉

提要本文从语言规划视角出发，讨论语言能力评估的社会应用，目的在于揭示隐藏在语言技术功能背后的象征性本质，从而为读者提供理解语言能力的另一个视角。文章简要综述了语言能力测试的历史进程，展示了海外学术界对语言能力评估在研究理念上发生的两次重大转变，即由关注被试者对语言本体结构知识的掌握到对在特定场景中实际交际能力的强调；由聚焦测试效度描述语言能力的客观准确性到对应用测试结果及所产生的社会影响的关心。基于对海外语言测试领域有关语言能力测试结果社会应用研究文献的调查，本文整理讨论了施测者或政府利用语言能力评估实现各自教育或政治目的四个主要的社会维度。文章结合中国实际情况，探讨了该领域发展的国际趋势对中国相关领域研究的启示。

关键词语言评估；社会结果；心理测量；效度；反拨

Abstract Language is embedded in society. As a symbolic capital， language also serves as the main component of the human resource. The use of language assessments thus has significant consequences for individuals material life and personal fates. Accordingly， language assessments will inevitably become a means for resources management and social control exploited by governments. Through examining the use of language assessments from the perspective of language planning and policy study， this paper attempts to unpack the symbolic nature of language under its technical attributes， thus providing Chinese audience with a new perspective of understanding language proficiency. In this paper， based on a succinct review of the international literature on the developing trajectory of language testing and evaluation， we first show the two milestone changes occurred in the theories of the language testing study， i.e. a shift of focus from measuring linguistic knowledge and language forms of test takers to their pragmatic skills in the actual communication settings， and a shift of concern from the objectivity and accuracy of validity of the test battery to the impact of social application of the test results. Drawing upon the vast investigation of the international literature about social applications of language testing， the paper then identifies and discusses the four main social dimensions of how language assessments being utilized by testing authorities or governments to achieve their educational or political ends. In the closing part， we further unravel the very nature underlying the social dimensions of language assessments， and explore the implications of the international trends in this field for Chinese researchers and practitioners.

Key words language assessments； social consequences； psychometrics； validity； washback

一、引言：语言能力及

语言评估发展进程

Chomsky（1965）将“语言能力”（linguistic competence）定义为本族语者内化的语言知识体系，包括语音、词法、句法和语义等规则。具体说来，是指能辨识和造出合乎语法的句子的能力。1972年Hymes提出了与Chomsky相对立的“交际能力”（communicative competence）。Hymes认为交际能力应包括语用知识和能力，即在语言运用过程中，交际双方不仅需要知道交际话语的结构正确与否，还需要知道交际话语在特定语境中的可行性、得体性和目的性。为区分Chomsky提出的“语言能力”和“恰当使用语言的能力”，Hymes（1972）把前者称为“语言能力”（linguistic competence），后者称为“交际能力”（communicative competence）。戴曼纯（2002）进一步将通常意义上的语言能力概括为：抽象的陈述性知识体系、运用语用知识的技能（自动化的程序性知识体系）和语言的实际运用（即我们听、读、说、写的语句、语篇）。语言能力的内涵已从传统意义上的语言技能，转变为融入多种因素的综合能力。

与此相适应，作为检验语言能力的语言测试也沿着对语言能力这种认识的过程发生了第一次质的转变。

语言测试作为一种具有理论基础的评估制度实践始于20世纪后半叶。当时，语言测试是结合心理计量学与应用语言学的跨学科研究，而心理计量学是语言测试的基础，为其提供测量规范及方法。与心理计量学结合后，语言测试在很长时间内都沿袭传统心理计量学方法来测试语言本体知识，致力于研究如何采用并开发新的测量手段以提高测试的信度和效度，而较少系统地研究更广泛的问题。

随着语言能力内涵的丰富，二语教学中交际能力范式的兴起，语言教育学家认识到，对语言能力的评估应该是语言技能的综合测评。而要全面测量语言能力，就必须测量它在一定的社会情景下的双向互动。测试的重点应放在实际“交际水平”和“交际能力”上，而不是单方面的语音、词汇、语法知识等的运用上。

为此，Carroll（1961）设计了考试规范二维框架。其中一个维度表示技能，另一个维度表示语言知识。两个维度的交叉部分形成网格，每一个栅格代表一种技能以及与之对应的语言知识。Carroll分别放入了四种语言技能项目（辨音能力、口语能力、阅读能力及写作能力）和四种语言要素项目（音位或拼写法、词法、句法及词汇）。

20世纪80年代，Canale & Swain（1980）区分了“语法能力”和“社会语言学能力”。而后，Canale（1983）又进一步区分了“社会语言学能力”和“话语能力”。90年代初，在语言学与应用语言学研究深入发展的影响下，Bachman（1990）提出了新的语言交际能力模型（Communicative Language Ability，简称CLA）。该模型被认为是语言测试领域对语言能力研究的里程碑，使语言交际能力把语言知识和语言使用的场景特征结合起来。

语言测试不仅需要测试者具备一定的语言知识，还须具备语言以外的社会文化规则等方面的知识和能力，体现使用者创造并解释意义的能力。在以后的研究中，Bachman & Palmer（1996）发展并细化了Bachman（1990）的CLA模型，并把它和语言测验的实践紧密联系起来，最终使得基于Bachman的交际语言能力模式产生的交际语言测试在外语教学界备受推崇，成为占绝对主导地位的语言测试模式。

然而，一个心理计量学意义上好的测试不一定是一个社会意义上好的测试，因为任何测试都有深远的、无法预料的社会结果（McNamara & Roever 2006）。这个亟待研究的议题曾长期湮没在心理计量学的个人认知差异理论之下。

语言测试的社会维度是语言能力评估研究者所关注的重要方面。它涉及语言测试在社会中扮演的角色及影响。将考试效度的概念扩展到包括考试使用、社会后果等在内的先驱是Messick。他认为效度并不是对考试本身的评价，而是对测试结果的解释和使用的评价，效度研究是收集不同方面的证据来考察使用者对测试结果的解释，以确保使用的合理性（Messick 1989：13）。

Messick对测试效度理论的贡献之一是明确了效度的对象。更为重要的是他把其涵盖范围由分数意义扩展到相关性，使用、价值意义及社会后果（Shepard 1993，转引自王立群 2009a）。 Messick（1989）称他的这一主张为统一效度理论，其核心是构念效度（construct validity），涉及社会维度的两个方面：测试分数赋有社会、文化特性；测试使用具有社会后果及道德价值。

综上所述，自20世纪90年代，语言测试和评价的形式在认识论和哲学观上发生了变革。语言评估最初的主要作用是用于对教育体系的管理，更具体地说，以往人们对测试在教育领域内的反拨作用关注较多，而不大注意其他方面。从只关注结构本体，到加入交际维度，又跨越到关注其社会结果与道德价值，人们认识到语言在交际中的使用受情景因素影响，语言能力不但包括语音、词汇、语法知识，还应包括社会语用能力，语言能力具有社会维度。这可看作测试学研究在世纪之交发生的第二次转向。

中国学者也较早地意识到了本文论述的语言能力评估研究所经历的前两次重要转变并进行了及时的介绍。如王立群（2009a）从教育社会学的理论发展过程中论证语言测试社会维度的基本理论构建。张艳（2014）认为，语言测试的社会维度起源于效度理论和反拨效应的拓展，强调测试的社会后果及分数所赋予的社会价值，其核心问题包括责任、公平及道德准则的建立和发展。杨秀芬（2015）研究了效度在语言测试领域的发展轨迹，认为效度是衡量测试质量的重要指标之一，其发展经历了从单一效度观到分类效度观再到整体效度观的蜕变。同样及时捕捉到海外学术焦点，并做出深刻分析的还有何莲珍、吕洲洋（2013），他们从批判语言测试的角度研究了语言测试。

从本文综述到的学者所发表的期刊来源看，语言能力测试的社会效度仍远未引起中国主流测试研究领域的重视。少数学者的相关研究是在国际主流语言测试中得到充分践行以后，直到近年才引起一定关注，而且主要是从英语能力评估的角度加以引进和应用。如王立群（2009b，2011）分析了美国托福考试的社会维度，提出了改善中国英语语言测试社会维度的策略。黄倩（2013）研究了大学英语四、六级与其社会影响的关系，并从如何提高其积极影响等方面提出了相关建议。此外，国内相关介绍在梳理和归纳语言测试发展历程时，缺乏较为深入的探讨和对具体情形的挖掘与描述。

二、语言能力测试的社会结果

如前所述，语言测试除了尽一切可能保证测试对应试者的语言能力提供准确、客观和公正的测量及对教学有好的反拨作用外，还要确保测试的良好社会维度。语言测试的社会维度指语言测试在社会中的使用情况、社会特征以及测试所产生的社会影响和后果。Filer（2000）认为测试领域历来有两个取向：技术话语（technical discourse）和社会话语（sociological discourse）。前者关注测试本身的质量，如信度、效度、标准等技术指标；后者关注测试在社会中的使用及产生的影响。McNamara（2000）提出用“反拨”（washback）和“影响”（impact）这两个术语来表达语言测试在不同层面上产生的结果。前者表示语言测试对教学产生的影响，后者则表示语言测试对社会和教育系统等产生的影响。测试的教育学意义自不待言，测试的反拨作用是研究教学与评估的传统话题。它可以形塑教育体系及学习过程并作为可以带来教育变革的政策工具，在某种程度上被看作教改的替代品，借以达到政治目的。Bachmann（2004）指出语言测试已成为我们教育体系和社会组成的一部分。我们使用测试来帮助做出多种决策，所以它应该可以帮我们收集有关考生的有用信息，从而使个人和群体受益，这要求测试的施测者去倾听被测试者和决策者的声音。

语言能力测试，除了教育学的应用，还成为证明语言能力的工具，正如McNamara（2000）所强调的，效度必须与结果相关涉才是有意义的效度。正是因为对语言测试领域许多非技术性问题的关注，特别是对其社会影响所涉及的道德责任与规范的公平等问题的关注，才使语言测试成为语言政策学者持续关注的一个重要话题（如 Cooper 1968；Spolsky 1978，1994，1995；Shohamy 2001，2006，2007）。下面，我们将从语言规划与政策的宏观视角出发，考察语言能力测试在社会资源分配、规范的建立、社会准入和意识形态的构建四个方面的作用，旨在展现语言能力测试社会维度的具体情形。

（一）语言能力评估与资源分配

自从法国社会学家Bourdieu提出语言资本理论以来，语言对个人福祉的作用在语言政策研究领域获得广泛认可与应用，而语言能力测试正是语言由象征性资本转化为实物资本这一过程得以实现的手段。自20世纪 60 年代以来，伴随着大规模、标准化语言考试的迅猛发展，应试者的语言考试成绩已经成为政府部门、企业等做出相关决策的重要依据之一，这些决策都会对考生的生活产生重要影响（Spolsky 1995；Shohamy 2001）。然而，常常被人们忽略的是，语言评估在现实生活中不但在个人稀有资源如职位、教育机会分配方面起着重要作用，高风险测试（high-stakes tests）更成为调配社会资源与实现集团政治目的的重要手段（Shohamy 2001；McNamara & Roever 2006等）。

美国NCLB法案（No Child Left Behind Act）便是测试被用来决定资源分配的典型例子。该法案“不让一个孩子落后”是2002年1月8日由美国总统乔治·布什签署的一项美国联邦法律。该法案规定全美超过95%的学生必须参加英语语言文学和数学考试。考试成绩好的学校将得到更多的财政支持。考核时，学校被分为若干群组，其中一个常见群组是英语作为二语的学习者。考核会同时考虑学校整体和群组两个层面的表现。只有两个层面全部达标，才算考核合格。①该法案的实施产生了一些计划外的效果，例如双语服务资助缩减、学校教育应试化严重等，某些学校甚至鼓励说其他语言的少数族裔学生退学，以提高学校的平均成绩。该法案的设计初衷是关注弱势学生（英语作为二语的学习者），优先满足他们的需求，提高他们的成绩。但该法案实际起到的是负面反拨作用，给利益相关人带来了严重影响。

（二）语言能力评估与规范的确立

语言能力测试与评估的标准以什么为依据呢？换句话说，为什么标准音是伦敦音而不是牛津音？对最基本语言能力的评估容易判别，可以依据常理，认为只要是可以辨识意义的发音，就是正确的，同时也是标准的。但对个体语言能力级别的确定则需要依据规范。规范意味着选择。语言的高声望变体可以在人们的现实交际中自然形成，然而，语言规划与政策研究的结果表明，语言规范更多地是一种政府行为，而语言的评估测试正是在这一过程中推动某一变体成为人为规范的手段。

语言测试以牺牲区域性或本土化变体来维护标准变体。美国托业考试（TOEIC）②使用的规范是标准美语、英式英语和澳洲英语，其他区域性变体中的常见词汇、语法或风格变体形式均被判定为错误形式（Young 2012）。这些所谓“错误形式”在使用非本土化英语变体且受过教育的使用者看来是可以接受的（Lowenberg 1993）。可以说，以标准美语、英式英语或澳洲英语为规范是通过测试的形式被人为建构的。

Fulcher（2009）将社会称为集体主义（collecti?vism），认为个人身份和价值等同于他们在集体中的成员身份，维护其成员身份的方式就是使用共同语并制定统一标准规范。语言测试采取一套评判标准是背后集体主义意识形态支撑的结果。与集体主义相对的另一种政治哲学是个人主义（individualism）。例如Canagarajah（2009）提到的印度社区发展出的英语区域性变体。这些变体使英语在印度变为“多种英语”（Plurilingual English），并且成为当地教学和测试中使用的“规范”。

（三）语言能力评估与社会准入

语言能力测试的性质使其最初被用作身份甄别手段，测试失败甚至可能导致危及生命的后果。最典型的莫过于犹太人历史传说中的“shibboleth”发音测试。McNamara（2005）搜集了历史上用于军事阵营和种族甄别的大量语言测试实例，这类测试都具有简单（通常为一词一音）、直接、暴力、临时性和非正式的特点。而语言测试的社会准入功能是指语言测试具有使被测试者获得某项认可，证明其具备某种水平或能力，从而使被测试者得以获准进入社会或社会某一领域的功能，所以McNamara（2005）便直接称其为21世纪的shibboleth。

现代语言测试虽不再直接产生危及生命的后果，却是晋升、入职、移民、入籍或避难等社会准入具体形式的先决条件，在归属感、公民权、文化身份建立等问题中扮演着重要角色。近年来相关事件频频发生，如荷兰专为移民设计荷兰语测试，英国提高了境外牧师入关的语言要求，澳洲国会议员敦促提高移民语言测试难度等。在瑞典，自由党曾积极提出建议，拟将瑞典语考试纳入申请公民身份的强制要求，并借此获得2002年选举多数席位。近年来，入籍语言测试问题在瑞典变成烫手山芋。反对者认为该测试会成为阻挡移民的高门槛；支持者认为该考试可以考察申请人在非正式环境下使用瑞典语的交际能力，以预测申请人能否参与社会活动，融为社会成员，行使诸如投票权等公民权利，以及在劳动力市场是否具竞争力等。目前，因所有政党一致认为这一话题太具争议性，政府已不再将其提上政治议程（Nygren-Junkin 2009）。

（四）语言能力评估与意识形态建构

语言作为象征共同体成员的标志，对其能力的评定也需要通过测试才能得以实现。一体化是欧洲各民族自古罗马时代就一直被广泛认可的意识形态。《欧洲共同语言参考框架》（Common European Framework of Reference for Languages，简称CEFR）的建立正是体现了这样的意识形态。该框架是欧洲委员会在2001年11月通过的一套建议标准，为欧洲语言在评量架构和教学指引、考试、教材方面提供基准。其政治与教育上的意义在于可用来评估语言学习者在所学语言上的成绩，同时也可以作为教育评估的指导方针。③Blackledge（2009）介绍CEFR在英国的使用情况时指出，一方面，该标准为参与考试的移民提供了基本知识和读写能力；另一方面，如考试失败，该标准也起到拒绝人们入关、居住和获得公民身份的作用。把语言能力作为公民资格和国籍的基本要求，反映了当本民族意识形态遭遇外来冲击时，语言作为国家和民族显性认同标志的重要性，语言在民族主义运动中起着对内唤醒民族意识、提高民族向心力，对外与其他民族相区隔的重要作用（陈平 2008）。

语言能力测试的内容及方式也常被研究者批评为起到了意识形态建构的隐性作用。国际上最有影响的托福对不同文化背景的全球考生形成一种十分隐蔽而有效的文化控制，在施考和应考的过程中，向世界宣传了美国的政治、经济、文化和价值观念，使考生对美国文化和教育产生了认同和归化倾向。它的功能与作用已远远超出了考试工作本身（王立群 2009b）。

语言测试也常通过划分语言文化等级来达到建构意识形态的目的。在以色列，根据《回归法》（Law of Return），所有犹太人都有权成为以色列公民。此外，1948年间生活在巴勒斯坦的阿拉伯人及其子女也有权获得以色列公民身份。其他群体只有在极少数情况下能被授予以色列公民身份，其中一个要求便是掌握“希伯来语知识”。虽然以色列政府并未针对性地设置官方语言测试，但所有高等教育的入学考试都使用希伯来语进行。若想进一步获得受教育的资格，就必须掌握该语言。希伯来语和阿拉伯语均为以色列官方语言。但希伯来语代表了以色列作为一个犹太国家的集体身份认同（the collective national identity），因此享有优先地位。这种考试行为降低了阿拉伯语在以色列社会的地位与威望。语言测试作为一种工具，肯定并加强了语言的等级（Shohamy 2007；Shohamy & Kanza 2009），体现了特定意识形态，辅助政府实现其政治目标。再如上文提到的美国NCLB法案。因强调学生的英语语言文学水平，该考试进一步强化了英语在美国的社会地位。不少学者因此批判该法案忽视移民语言，贬低其他语言的价值，甚至致其消亡。这种边缘化移民语言的信号，也传递了一种信息，即任何使用这些语言来表现的知识都是无价值的，这些知识也因此而贬值（Evan & Hornberger 2005；Menken 2005，2006）。由此可见，语言测试强调的是同化性政治议题，而非互动性议题，因为它们强化了主导语言的地位，压制并解构了少数群体的独有知识。即使官方课程大纲中有倡导多元化的表述，语言测试仍可以超越表述，使得真正的官方政策及其背后的意识形态取向暴露无遗（Shohamy 2004，2007）。

三、结语：社会效度的本质及现实意义

语言根植于社会，作为一种象征性资本，语言也是人力资本的主要组成部分。对语言能力评估结果的运用，可以对个体的现实生活及命运产生巨大影响。正因为对语言能力的评估必然会成为政府资源管理及实现社会控制的工具，职是之故，必须从批判的视角对其本质进行反思及再审视。批判测试学聚焦社会结果，它突破了停留在计算是否精确的阶段，将语言能力评估置于更加广阔的社会政治语境中，对测试后效的反思不再局限于反拨效应，而是重新审视测试中渗透的权力与控制以及测试所具有的社会价值和政治功能。这是一种不同于以往传统测试和评价的途径和思路，应该将其视作研究范畴和评价文化的飞跃。这种方法认为课程、课堂教学、语言测试这些看似中立的学校知识场已成为不同利益群体的角逐场。文化实践中包含权力斗争，教育中充满不平等与压迫，语言测试则成为种种权力斗争、社会公平、社会价值等的一种重要的呈现形式（王立群 2009a；楼荷英 2014），从而使考试的测试后果、道德和公平性等社会问题成为研究热点。语言作为一种隐性的文化资本，对其能力的评估会不可避免地涉及对社会稀有资源的分配，因此也常常被用作社会控制与阶级压迫的手段。当然不是所有的测试都是“坏的”及充满压迫的，批判的方法只是提醒我们时刻以谨慎怀疑的目光审视司空见惯的现象。

同辞书一样，语言能力评估在规划人们语言行为方面发挥一种声誉规划的作用。如前所述，语言能力测试在将象征性资本转化为实在资本的过程中起着至关重要的作用，从这个意义上说，在一个多语社会，语言能力决定个体的生存质量和自身命运。社会越发展，语言能力在决定人的自由度方面的作用也必将越大。因此，对语言能力测试的研究进入了语言政策学者的视野。语言能力与语言评估密切相关。能力意味着标准的度量，能力与评估是两个密不可分的概念。提醒人们关注语言本质的社会历史文化层面和语言测试的实质，是对基于结构主义心理测量（psychometric-structuralist）的解构。

本文从社会结果的角度具体分析语言测试的社会维度，包括资源分配、规范确立、社会准入及意识形态建构等。就我们视野所及，国内还没有看到汉语能力评估社会维度的文献。至今中国政府职能部门、学术机构及个人已经研制开发了若干基于国家通用语（或汉语）的水平测试系统。这些系统在应用过程中因社会维度导致对应试者语言能力效度的影响，也无疑值得关注。例如，HSK（尤其是阅读理解试题）将日本、韩国等东亚文化圈学生与欧美学生同等看待，使用同一标准。在海外汉语教学中，同一个班的学习者来自不同的语言背景，既有零起点的纯外语学习者，又有家庭语言是汉语的华裔学生；即使同是零起点的真正外语学习者，也有东方文化背景与西方文化背景之别。简单且不加批判地使用测试，在语言能力评估社会维度学者看来是短视而不负责任的，应将测试道德纳入语言水平测试实践，以期实现测试的正面反拨效应和效度最大化。

毋庸置疑，中国目前的语言能力评估理论与实践，仍将以心理计量测试为主流。本文从语言规划与政策视角对测试本身的设计公平性、目的及社会应用的公平性进行了再审视，对语言评估使用最广的量化工具，效度理论的两个重要观点提出质疑，指出心理计量方法评估语言能力的局限性，目的在于为我们思考语言能力提供了一个崭新的视角，呼吁关注语言评估的人文层面。

注释

① 参见https：//en.wikipedia.org/wiki/No_Child_Left_Behind_Act。

② 美国托业考试为测试和提高职业英语交流能力的职业英语考试。

③ 参见https：//zh.wikipedia.org/wiki/。

参考文献

陈平 2008 《语言民族主义：欧洲与中国》，《外语教学与研究》第1期。

戴曼纯 2002 《外语能力的界定及其应用》，《外语教学与研究》第6期。

何莲珍、吕洲洋 2013 《语言测试研究的新视角：批评语言测试》，《浙江大学学报》（人文社会科学版）第6期。

黄倩 2013 《语言测试社会维度之社会影响研究——基于大学英语四、六级考试的分析》，西北大学硕士学位论文。

楼荷英 2014 《配对（组）口语测试的社会性及其微观研究》，《浙江工业大学学报》（社会科学版）第2期。

王立群 2009a 《教育社会学视角下的语言测试社会维度》，《无锡商业职业技术学院学报》第2期。

王立群 2009b 《美国托福考试的社会维度分析及其启示》，《江西电力职业技术学院学报》第2期。

王立群 2011 《托福考试社会维度分析——兼谈大学英语四、六级考试》，《衡水学院学报》第2期。

杨秀芬 2015 《语言测试的效度研究：回顾与展望》，《景德镇学院学报》第4期。

张艳 2014 《语言测试的道德维度：研究理路与实践反思》，《江海学刊》第6期。

Bachman， Lyle F. 1990. Fundamental Considerations in Language Testing. Oxford： Oxford University Press.

Bachman， Lyle F. 2004. Statistical Analysis of Language Assessment. Cambridge： Cambridge University Press.

Bachman， Lyle F. and Adrian S. Palmer. 1996. Language Testing in Practice： Designing and Developing Useful Language Tests. Oxford： Oxford University Press.

Blackledge， Adrian. 2009. Inventing English as Convenient Fiction： Language Testing Regimes in the United Kingdom.In Guus Extra， Massimiliano Spotti， and Piet Van Avermaet （eds.）. Language Testing， Migration and Citizenship： Cross-national Perspectives on Integration Regimes. New York： Continuum.

Canagarajah， Suresh. 2009. The Plurilingual Tradition and the English Language in South Asia. AILA Review 22， 5-22.

Canale， Michael and Merrill Swain. 1980. Theoretical Bases of Communicative Approaches to Second Language Teaching and Testing. Applied Linguistics 1（1）， 1-47.

Canale， Michael. 1983. From Communicative Competence to Communicative Language Pedagogy. In Jack C. Richards and Richard W. Schmidt （eds.）. Language and Communication. London： Longman.

Carroll， John Bissell. 1961. Fundamental Considerations in Testing for English Language Proficiency of Foreign Students. In Harold B. Allen and Russell N. Campbell （eds.）. Testing the English Proficiency of Foreign Students. Washington， D. C.： Center for Applied Linguistics.

Chomsky， Noam. 1965. Aspects of the Theory of Syntax. Cambridge： MIT Press.

Cooper， Robert L. 1968. An Elaborated Language Testing Mo?del. Language Learning 18， 57-72.

Evan， Bruce A. and Nancy H. Hornberger. 2005. No Child Left Behind： Repealing and Unpeeling Federal Language Education Policy in the United States. Language Policy 4（1）， 87-106.

Filer， Ann. 2000. Introduction. In Ann Filer （ed.）. Assessment： Social Practice and Social Product. London： Routledge.

Fulcher， Glenn. 2009. Test Use and Political Philosophy. Annual Review of Applied Linguistics 29， 3-20.

Hymes， Dell. 1972. Models of the Interaction of Language and Social Life. In John Joseph Gumperz and Dell H. Hymes （eds.）. Directions in Sociolinguistics： The Ethnography of Communication. New York： Holt， Reinhart and Winston.

Lowenberg， Peter H. 1993. Issues of Validity in Tests of English as a World Language： Whose Standards？ World Englishes 12， 95-106.

McNamara， Tim. 2000. Language Testing. Oxford： Oxford University Press.

McNamara， Tim. 2005. 21st Century Shibboleth： Language Tests， Identity and Intergroup Conflict. Language Policy 4（4）， 351-370.

McNamara， Tim and Carsten Roever. 2006. Language Testing： The Social Dimension. Oxford： Blackwell Publishing.

Menken， Kate. 2005. When the Test Is What Counts： How High-Stakes Testing Affects Language Policy and the Education of English Language Learners in High School. Doctoral Dissertation. Teachers College， Columbia University.

Menken， Kate. 2006. Teaching to the Test： How Standardized Testing Promoted by the No Child Left Behind Act Impacts Language Policy， Curriculum， and Instruction for English Language Learners. Bilingual Research Journal 30（2）， 521-546.

Messick， Samuel J. 1989. Validity. In Robert Linn （ed.）. Educational Measurement （3rd edition）. New York： Macmillan.

Nygren-Junkin， Lilian. 2009. Language， Migration and Citizenship in Sweden： Still a Test-Free Zone. In Guus Extra， Massimiliano Spotti， and Piet Van Avermaet （eds.）. Language Testing， Migration and Citizenship， Cross-National Perspectives on Integration Regimes. New York： Continuum.

Shohamy， Elana.2001.The Power of Tests： A Critical Perspective of the Uses of Language Tests. London： Pearson Education.

Shohamy， Elana. 2004. Assessment in Multicultural Societies： Applying Democratic Principles and Practices to Language Testing. In Bonny Norton and Kelleen Toohey （eds.）. Critical Pedagogies and Language Learning. New York/London： Cambridge University Press.

Shohamy， Elana. 2006. Language Policy： Hidden Agendas and New Approaches. London： Routledge.

Shohamy， Elana. 2007. Language Tests as Language Policy Tools. Assessment in Education 14（1）， 117-130.

Shohamy， Elana and Tzahi Kanza. 2009. Language and Citizenship in Israel. Language Assessment Quarterly 6（1）， 83-88.

Spolsky， Bernard. 1978. Linguistics and Language Testers. In Bernard Spolsky （ed.）. Papers in Applied Linguistics： Advances in Language Testing （Series 2）. Arlington： The Center for Applied Linguistics.

Spolsky， Bernard. 1994. Policy Issues in Testing and Evalu?ation. The Annals of the American Academy of Political and Social Science 532， 226-237.

Spolsky， Bernard. 1995. Measured Words. Oxford： Oxford University Press.

Young， Richard F. 2012. Social Dimensions of Language Testing. In Glenn Fulcher and Fred Davidson （eds.）. The Routledge Handbook of Language Testing. New York： Routledge.

责任编辑：戴燃