语料库在语言测试中的应用：回顾与反思*

2016-12-22 06:32邹绍艳

中国海洋大学学报（社会科学版） 2016年6期

关键词：效度语料库学习者

邹绍艳

(1.上海交通大学外国语学院，上海 200240；2.青岛农业大学外国语学院，山东青岛 266109)

语料库在语言测试中的应用：回顾与反思*

邹绍艳1,2

(1.上海交通大学外国语学院，上海 200240；2.青岛农业大学外国语学院，山东青岛 266109)

近年来，语料库在语言测试领域的应用得到广泛认可，其应用潜力和前景也备受关注。本文首先回顾并梳理了语料库在国际语言测试领域四个方面的应用：考试开发、考试效度验证、自动评分系统、语言能力量表构建，然后对语料库在国内语言测试领域的应用情况进行了反思，并以中国英语学习者写作能力量表的构建为例，阐述了语料库在构建写作能力量表中的应用。

语料库；语言测试；中国英语学习者写作能力量表

一、引言

自20世纪60年代第一个计算机化的语料库——Brown语料库在美国问世以来，语料库作为一种新兴的研究方法逐渐渗透到语言学研究的相关领域。20世纪90年代中期，随着大型本族语者语料库的建立(例如，英国国家语料库British National Corpus，以下简称BNC和美国国家语料库American National Corpus，以下简称ANC)，语料库在语言测试领域的应用前景开始引起语言测试界的关注。 Alderson在1996年就预测了语料库在语言测试中的一系列用途：设计考试题目、确立考试构念、分数评定与报道等等。[1]自此之后，语料库开始被频繁地用于大规模标准化考试、整体性测评以及发展性测评中。2003年，在英国雷丁大学召开的第26届国际语言测试研究大会专门就语料库和语言测试的关系成立了一个专题研讨会，学者们分别聚焦本族语者语料库和二语学习者语料库在写作测试、阅读测试以及口语测试中的应用，阐明语料库在语言测试领域的应用前景。[2]

当前，我国正在调动英语教学和测试各方面的资源制定中国英语能力等级量表(China Standards of English，简称CSE)。在这种背景下，我们重新回顾和反思语料库在语言测试领域的应用，不仅有助于丰富学界对这一领域研究现状的认识，也希望发现值得借鉴的经验亦或可能存在的不足，进而探索语料库在构建中国英语能力等级量表中的应用前景。

二、语料库在语言测试领域的应用回顾

纵观语料库在语言测试领域的应用，基本涉及以下几个方面：第一、语料库用于开发、设计试题；第二、语料库用于考试效度验证；第三、语料库用于开发自动评分系统；第四、语料库用于构建语言能力量表。以下将结合语言测试领域的相关理论和研究，分别回顾与梳理语料库在这四个方面的应用情况。

(一)考试开发

20世纪80年代中期以来，随着交际语言能力理论在应用语言学领域逐渐被接受并得到广泛应用，语言测试的模式也从传统的分离式语言测试(discrete- point language test)转向交际语言测试(communicative language test)。交际语言测试是一种行为测试，是在真实或接近真实的情景中通过完成实际的交际任务来测量考生运用语言知识的能力。[3]可见，真实性、情景化是交际语言测试的关键。Bachman认为，真实性就是语言测试任务特征和目标语言使用特征之间的吻合程度，是根据语言测试的成绩做出推断的前提。[4]

语料库研究方法的兴起为提高语言测试的真实性提供了有效的解决途径。20世纪90年代中期，除了本族语者语料库之外，大型学习者语料库(如CLC)以及一些学术英语语料库(如Michigan Corpus of Academic Spoken English，简称MCASE；British Academic Written English corpus，简称BAWE语料库，等)也相继建立。这些语料库的主要用途之一便是开发与目标语使用相一致的测试。[5]例如，CLC就是一个含有错误标注(error- tagged)、测试文本和学习者信息的语料库，剑桥考试中心的测试设计者们利用该语料库来设计和修订考试。具体而言，测试开发者可以借助语料库了解本族语者在语言使用中的词汇、语法特点，包括词汇和短语的相对频率、句式、搭配和类联接、语法结构、程式化表达、词序等。Park指出，考试的构念(test construct)正是通过观察这些特征而产生的。[5]

在语料库用于考试开发的研究方面，Sharpling报告了BAWE语料库在设计Warwick英语测试的语法和语言使用部分试题中的应用，他建议在计算机化考试和语料库之间建立更加紧密的联系，通过相互关联的数据库来辅助考试开发。[6]Weir和Milanovic指出，在设计侧重考核词汇、语法的测试任务时(如多项选择式的完形填空、句子转换等)，可以利用语料库设计真实的测试题目，以及潜在的干扰项。[7]Barker肯定了语料库对于提高语言测试真实性的作用，他认为本族语者语料库和学习者语料库的建立，使得语言测试的设计者们能够根据更加真实的语言和文本来设计测试任务，而且在设计任务时能够更直接地定位到与目标受试者最为相关的语言使用。[8]剑桥大学出版社的官方网站上提供了语料库使用的诸多案例，其中一例便是学习者语料库有助于甄别处于某种水平的学习者易犯的典型错误，使得这一受试群体的测试题目或测试任务设计更有针对性。

Park总结了语料库在开发、设计试题中的应用，即语言测试的设计者们可以根据本族语者语料库或学习者语料库中包含的丰富信息，如词汇、语法、搭配、句式、程式化表达等等开发和设计语言测试，而且正是通过观察语料库中的这些信息，语言测试的构念才能得以确立。[5]总之，正如邹申等人所言，在设计与编制试题方面，语料库可以为我们提供真实的、可供参考的语料，为制定决策提供客观的数据。[9]

(二)考试效度验证

效度是语言测试最重要的属性，[4]也是语言测试的基本出发点。效度研究贯穿于考试的整个过程:即从开发到验证其有效性，具体包括：语言能力构念的界定、测试任务的设计(如何实现其真实性和交互性)、评分标准的制定(如何保证其科学性和可行性)、评分信度(如何实现评分员之间或自身的一致性)、考试分数的解释和使用等等。[4]Alderson(1996)曾指出，语料库的应用可以提高考试的内容效度，因为测试材料选自真实语言文本，具有自然语言特征。[1]继Alderson之后，Hawkey和Barker也指出，语料库用于语言测试的效度验证，主要优势在于语料库的发现可以为效度检验提供证据。[10]

美国教育考试服务中心(简称ETS)就是采用基于语料库的方法来验证其旗下的TOEFL考试和GRE考试的效度。例如，为了检验TOEFL 2000听力和阅读测试中使用的文本是否代表真实的口语和学术语言使用，Biber等人建立了TOEFL 2000学术口语和书面语语料库(T2K- SWAL)，并从语法、词汇量、词块、词汇分布等方面对该语料库的文本进行了语言分析，然后把分析的结果与课堂活动中所用语言的特征进行了对比，从而验证TOEFL 2000听力和口语测试的效度。[11]Biber还利用T2K- SWAL语料库检验了词块的用法，发现立场标记词块(stance bundles)在课堂教学中的使用频率远远高于在课本中的使用频率，尽管这两种语域在态度确定和目标实现这两方面都包含了丰富的信息，但是它们却采用不同的会话来实现各自的目标。[12]换言之，词块体现了一种语域的语言模式，因而对词块的分析有助于完整地描述学习者的语言和语言需要。根据这一发现，Biber建议在对TOEFL考试以及其它同类考试进行效度验证时，可开展类似的语料库分析。总之，Taylor和Barker强调，可以定期地运用学习者语料库验证测试设计者对于语言特征以及不同水平等级的语言频率的直觉判断。[13]

(三)自动评分系统

在语言测试领域，自动评分系统主要用于口语和写作这两种产出性语言能力的评分。最早利用语料库开展写作自动评分系统的国家是美国。上世纪60年代，美国杜克大学的Ellis Page教授等人应美国大学委员会的请求，开发了Page Essay Grade(PEG)。PEG首先对一篇文章的可测量特征如长度以及平均句长等进行多元回归分析，然后基于人工评判的大量作文语料库建立评分模型。[14]PEG的评分准确率高，但该系统使用的文本特征都是与语言的形式特征有关，对内容、组织、体裁等语义方面的信息却束手无策。为了弥补这些不足，上世纪90年代，美国的ETS和Vantage learning又分别研制了E- rater和Intellimetric。这两种评分系统同PEG一样，也是基于人工评判的作文语料库建立评分模型，但是包含了更多关于语义信息方面的元素，因此操作起来更加复杂。到本世纪初，由以上评分系统衍生的自动评分软件如My Access、Criterion等被先后开发出来。除了提供总分之外，这些评分系统还针对写作的内容、组织结构、语体使用、词汇和语法等方面提供单项分。不仅如此，这些评分系统还能提供详略不等的个性化反馈。Park详细介绍了现代化自动评分系统(以下简称 AES)的运作：该系统通过测量作文中蕴含的多种特征，并参考一个囊括结构、衔接词、错误、词汇和句法复杂度、篇章组织和展开的特征集进行评分。[5]在把特征集和相关理论应用到实际评分的过程中，大多数AES系统都会启用一个培训数据库，即一个已经被人工评阅的作文语料库，该语料库被设为最佳基准，与人工评阅高度相关的特征被筛选出来收录入特征集。

AES系统的设计初衷是节省成本、时间和人力，提高评分信度。但是，正如Park所言，AES系统究竟在多大程度上实现了这些目标，尤其是在评判内容和语言的说服力方面，仍然不得而知。[5]有的学者指出，AES系统的使用导致写作从一种思辨型极强的创造性活动降格为只追求表面特征和形式特征的活动，这必然对学生的写作产生负面影响。[15]显然，目前的AES技术还不足以仿效人工评阅，但是很多研究已经表明在机器评分与人工评分之间的存在很高的相关关系，[16]说明这方面的技术在不断进步。Warschauer和Ware认为，随着性能的提高，AES系统必将在语言测试领域大放异彩，广泛应用于评分员培训、交互性语言测试、以及展示学生的历时语言表现等多个方面。[17]

(四)语言能力量表构建

除上述三个方面的应用之外，语料库在语言测试中发挥的又一个重要作用便是对传统的评分大纲进行补充，对不同水平学习者的语言能力采用“能做”描述。Park曾指出，语料库能够帮助测试开发者发现哪些语言特征是哪种水平的学习者所特有的。[5]例如，Hawkey和Barker通过对学习者语料库进行分析，筛选出不同水平学习者的写作特征，然后根据这些特征构建了一个二语写作能力量表。[10]Granger和Thewissen利用一个包含错误标注的学习者语料库展示了学习者的错误如何与现有的评定标准(例如《欧洲语言共同参考框架》，简称《欧框》)进行关联，以便达到评估的目的。他们指出，如果人工评分员参考《欧框》对国际英语学习者语料库(ICLE)中的某一部分进行评分，就会标识出与《欧框》的每个等级相吻合的错误，这些错误可以进一步用于判断一篇作文的错误类型以及错误频率。[18]Thewissen则更具体地实现了这一想法，他在语法错误类型与《欧框》具体的等级之间建立了关联。[19]

在利用语料库补充语言能力量表方面，欧洲理事会自2005年起开展的EP项目(English Profile Program)备受瞩目。该项目旨在利用CLC语料库补充与完善《欧框》从A1级到C2级的描述语，弥补某些等级描述较为粗略、笼统的不足。Hawkins和 Buttery指出，EP项目引入的一个重要概念就是“判别性特征”(criterial features)，即与《欧框》的六个等级相对应的语言特征。[20]具体而言，该项目旨在确立这些特征与学习者变量(如水平和母语背景)之间的相关关系，核心理念是我们可以期望低水平的学习者犯某种类型的错误或者表现出一些不太地道的语言使用特征(即消极特征)，而高水平的学习者表现出这些负面特征的频率相对较少。另外，与低水平的学习者相比，高水平学习者的语言使用具有更加复杂的语言特征(即积极特征)。例如，新手写作者所产出的文本中很少会包含语法上比较复杂的结构，如主从句、述谓结构或者程式化表述以及搭配等等；而与之相反，高水平的学习者写出的文本包含的消极特征较少，除了复杂的语法和程式化表述、[21]更加恰当的应答标记词、[22][23]短语动词以外，[24]还有更多其它的积极特征。一旦确定某种判别性特征与特定的水平或等级相关联，就可以采用更加客观的描述语来补充传统评分大纲的不足。

目前，尽管这种利用判别性特征来补充评分量表的做法的准确性还有待于进一步验证，但是与传统的评分大纲相比，这种基于语料库和语言学理论构建的评分量表无疑为测试设计者以及测试的使用者提供了更多关于受试者语言使用的真实案例。

三、语料库在中国语言测试领域的应用反思

如前所述，语料库在语言测试领域的用途广泛。但是与国外研究取得的成果相比，目前中国学者对于语料库在外语测试领域的应用仍然缺乏足够的认识和重视。

首先，在考试设计方面，国内几乎没有关于语料库在该领域应用的报道。一方面，可能由于大规模考试的高风险与机密性，相关的研究人员无法获取考试设计的相关信息；另一方面，尽管国内学者建立了一些学习者语料库，但这些语料库并没有随着时间的推移得到及时的更新与补充，因此在考试开发方面的作用有待进一步探索。例如，杨惠中等人2003年建成的中国学习者英语语料库(Chinese Learner English Corpus，简称CLEC)和文秋芳等人2005年建立的英语专业学生口笔语语料库(Spoken and Written English Corpus of Chinese Learners，SWECCL)的规模都较大，但是都已建立10年有余。在这10年中，自然科学领域、社会科学领域新的成果不断涌现，网络信息技术飞速发展，新的词汇、新的术语源源不断地补充到英语语言中，而且学习者的认知能力和学习方式也发生了很大的变化，这一切都使得库中语料的代表性受到挑战。Park曾指出大规模考试的设计者可以利用语料库甄辨某种水平的学习者易犯的错误，并对考试的难度进行相应的调整。[5]但如果语料的代表性不强，那么基于语料库开发的考试内容的真实性也会因此受到威胁。

其次，国内学者利用语料库开展考试效度研究的案例比较匮乏，即便开展此类研究，所用语料的代表性和相关性也不够充分。例如，穆惠峰借助自建小型语料库、SWECCL语料库、以及BNC语料库对大学英语四级考试完形填空题的内容效度进行了验证。[25]但SWECCL语料库中的口、笔语语料均来自中国高校的英语专业学生，因此其在该研究中的相关性和代表性值得探讨。中国的外语考试种类繁多，而且规模较大，风险较高。在考试的效度验证方面，语料库的作用仍有待进一步挖掘和发挥。

再次，与国外研究相比，国内学者在利用语料库开发自动评分系统方面起步较晚，而且大都偏重于介绍和探讨。例如，王金铨和文秋芳回顾了国内外机器自动评分系统的现状、内容和特点，并进一步探讨了现有的机器自动评分技术对中国学生翻译自动评分系统开发的启示。[26]近年来，国内学者在作文自动评分系统的研发方面也取得了一定的成果。例如，梁茂成教授研制的大规模英语考试作文自动评分系统(EFL Essay Evaluator，简称EEE)1.0，基于大量人工评判的中国大学生作文语料库建立评分模型，从语言、内容和组织结构三个方面对作文进行评价。还有基于网络的作文批改系统(如句酷作文批改网)，已经在全国许多高校的大学英语教学中使用。但是，这些自动作文批改系统在被广泛应用的同时，也饱受诟病。例如,蒋艳和马武林指出，目前的自动评分系统“只能从语言上判断水平,不能从语义上判断内容,无法对作文内容错误进行识别、部分语言错误无法识别”。[27](P76)可能正是因为存在上述弊端，目前这种基于语料库开发的自动评分系统尚未在国内大规模外语考试中得以推广和应用。在未来的研究中，如能继续改进或完善语料库在这一领域的应用，必将极大地缓解大规模考试中人工评分的压力，节省阅卷的成本，提高评分的信度。

最后，在国内，尽管有学者开始倡导利用现有的语言能力量表对语料库中的语料进行分级，[28]但如何利用语料库构建语言能力量表仍未得到相应的关注。目前，我国自主开发的英语能力等级量表项目正在如火如荼地开展进行中。根据该项目负责人刘建达教授的介绍，CSE量表描述语的分级主要采用专家判断、教师评定学生和学生自评的方式进行，[29]这在很大程度上与《欧框》的构建方法相吻合。尽管有了Rasch模型等先进统计手段的支撑，这种“自上而下”(top- down)构建量表的方法能够比较科学地对不同来源的描述语进行难度排序，但也存在一定的问题。例如，Hustijin曾批判《欧框》制定过程中所采用的实证研究方法并非以二语学习者真实的数据为基础，在很多情况下，教师不得不参照自己所教的某位学生的能力判断描述语的难度，这在一定程度上影响了描述语判断的客观性。[30]鉴于此，我们建议在构建中国英语能力等级量表的过程中充分发挥语料库的作用，尤其是在量表的后期效度验证阶段，可以利用语料库对量表进行自下而上(bottom- up)的效度检验。以下就以中国英语学习者写作能力量表(以下简称写作能力量表)的开发为例，具体阐述语料库在量表开发中的应用。

四、语料库在构建中国英语学习者写作能力量表中的应用

写作能力量表的构建主要遵循CSE总的构建方案，基于前期收集、整理的大量写作能力描述语，邀请专家、教师和学生对描述语的难度进行判断，从而实现描述语的分级验证。但是写作能力作为一种产出型语言能力，其独特的优势在于大量可收集、可保存、可观察的写作文本。而且我国学者已经建立了一些大型的书面语语料库(见表1)，我们应该充分利用语料库提供的信息，弥补专家和教师判断过程中可能出现的主观性过强的问题，从而对量表进行补充和完善。具体方案如下：

表1 我国学者建立的汉语为母语的英语学习者书面语语料库

首先，从表1可以看出，目前我国学者建立的书面语语料库主要源自大学阶段的英语写作文本。低端(如小学和初中)和高端(英语专业硕士、博士和高翻人才)学习者的语料库比较稀缺，因此建议相关研究人员或机构广泛收集这两个群体的写作语料，建立高、低端英语学习者的写作语料库，使得各个英语学习阶段的写作语料库互相衔接，形成“一条龙”。对于已经建成的语料库，可以利用近年来大规模考试的写作文本或学生的日常习作对库中的语料进行补充和完善，使得库中的语料更具代表性。

其次，在对语料库进行补充和完善之后，需要重新审核和修订库中语料的分级。王丽和张立英介绍了四种不同的语料库分级方法：学习者背景、教师判断、测试成绩以及量表等级。[28]第一种方法需要考虑学习者学习目标语的时间以及受教育的程度；第二种方法一般是教师对学生水平或学生作文进行判断，划分不同的等级水平；第三种方法是根据学生在标准化考试中的成绩进行分级；第四种方法是在语料库和比较知名的语言能力量表(如《欧框》)之间建立对接，根据量表的等级划分语料库的等级。由于我国目前尚未建成符合我国英语学习者特点的语言能力量表，所以第四种方法暂时无法采用。在构建写作量表的过程中，我们可以综合运用前三种方法，对写作语料进行初步分级。

再次，语料库初步分级之后，可以利用相关的语料库分析工具(如Wordsmith，Coh- metrix，Concordancer等)，并借助先进的统计手段，对库中不同水平的文本从词汇、词频、搭配、衔接、句长等方面进行特征分析和对比。在这方面，我们可以参考欧洲理事会EP项目的研究成果。例如，2012年由Hawkins教授和Filipovic教授主编、剑桥大学出版社出版的CriterialFeaturesinL2English这本著作展现了英语学习者的语法特征。另外，剑桥大学出版社的官方网站上也在EnglishProfileJournal这本电子期刊上定期刊载该项目最新的研究动态和成果，这些研究采用的工具和方法值得我们学习和借鉴。

最后，根据语料库分析提取的文本特征或做出的发现对前期通过“自上而下”的方法初步构建的写作能力量表进行效度验证，并在此基础上补充、修改和完善量表，使得量表的等级划分更加科学，语言能力描述更加细致、具体。当然，在写作能力量表建成之后，也可以反过来用其验证语料库的分级。量表和语料库相互验证、互相补充，共同服务于我国的外语教学和测试。

五、结语

在大数据时代，语料库提供的丰富信息无疑是其他研究方法无法比拟的。但是，语料库的补充、完善和修订如同CSE量表的构建一样，需要语言教学部门、测试机构、专业技术人员以及教育管理部门的通力合作。在构建CSE的过程中，我们需要综合运用不同来源的证据，例如理论上的证据、专家和教师以及学习者评判情况的证据、语料库分析的证据。唯有如此，量表的效度才能得到充分验证，开发出来的量表才能既有相关理论支持，又能反映我国英语学习者的特点和规律，从而更好地服务于中国的英语教学、学习和测试。

[1] Alderson，J. C. Do corpora have a role in language assessment?[A]//Usingcorporaforlanguageresearch. London：Longman，1996：248- 259.

[2] Taylor，L.，Thompson，P.，McCarthy，M. & Barker，F. Exploring the relationship between language corpora and language testing. In Symposium at 25th Language Testing Research Colloquium， Reading，UK，2003: 22- 25.

[3] Carroll，B. J. & Hall，P. J.MakeyourownlanguageTests：APracticalGuidetoWritingLanguagePerformanceTests[M]. Oxford：Pergamon Press，1985.

[4] Bachman，L. F.FundamentalConsiderationsinLanguageTesting[M]. Oxford： Oxford University Press， 1990.

[5] Park，K. Corpora and language assessment：the state of the art[J].LanguageAssessmentQuarterly，2014，(11)：27- 44.

[6] Sharpling，G. P. When BAWE meets WELT：the use of a corpus of student writing to develop items for a proficiency test in grammar and English usage[J].JournalofWritingResearch，2010，(2)：175- 189.

[7] Weir，C. & Milanovic，M.ContinuityandInnovation：RevisingtheCambridgeProficiencyinEnglishExamination1913- 2002(StudiesinLanguageTesting，Volume15)[M]. Cambridge：UCLES/Cambridge University Press，2003.

[8] Barker，F. Using Corpora in Language Testing：Research and validation of language tests[J].ModernEnglishTeacher，2004，(13)：63- 67.

[9] 邹申，杨任明.语料库在试题设计和验证中的应用研究[J].外语电化教学，2008，(5)：10- 15.

[10] Hawkey，R. & Barker，F. Developing a common scale for the assessment of writing[J].AssessingWriting，2004，(9)：122- 159.

[11] Biber，D.，Conrad，S.，Reppen，R.，Byrd，P.，Helt，M.，Clark，V.，Cortes, V.，Csomay，E. & Urzua，A.RepresentingLanguageUseintheUniversity：AnalysisoftheTOEFL2000SpokenandWrittenAcademicLanguageCorpus，report Number：RM- 04- 03. Educational Testing Service，Princeton，NJ，2004.

[12] Biber，D.UniversityLanguage：ACorpus-basedStudyofSpokenandWrittenRegisters[M]. Amsterdam：John Benjamins，2006.

[13] Taylor，L. & Barker，F. Using corpora for language assessment [A]//EncyclopediaofLanguageandEducation. New York：Springer Science+Business Media，LLC，2008：241- 254.

[14] 唐锦兰，吴一安.在线英语写作自动评价系统应用研究述评[J].外语教学与研究，2011，(2)：273- 282.

[15] Ericsson，P. F. & Haswell，R. H.Machinescoringofstudentessays：Truthandconsequences[C]. Logan：Utah State University Press，2006.

[16] Attali, Y. & Burstein, J. Automated essay scoring with e- rater®v. 2[J].TheJournalofTechnology,LearningandAssessment, 2006,4(3)： 3- 30.

[17] Warschauer, M. & Ware, P. Automated writing evaluation: Defining the classroom research agenda[J].LanguageTeachingResearch, 2006，(10)： 157- 180.

[18] Granger，S. & Thewissen，J. The contribution of error- tagged learner corpora to the assessment of language proficiency[A]. Paper presented at the 27th language testing research colloquium. Ottawa，Canada，2005.

[19] Thewissen，J. The phraseological errors of French- ，German- and Spanish- speaking EFL learners：Evidence from an error- tagged learner corpus[A]//Proceedingsfromthe8thteachingandlanguagecorporaconference. Lisbon，Portugal：Associação de Estudos e de Investigoção Científica do ISLA- Lisboa，2008: 300- 306.

[20] Hawkins，J. A. & Buttery，P. Criterial features in learner corpora：Theory and illustrations[J].EnglishProfileJournal，2010，(1)：e5.

[21] McCarthy，M. Spoken fluency revisited[J].EnglishProfileJournal，2010，(1)： e4.

[22] Farr，F. Engaged listenership in spoken academic discourse：The case of student- tutor meetings[J].JournalofEnglishforAcademicPurposes，2003，(2)：67- 85.

[23] McCarthy，M. Good listenership made plain： British and American non- minimal response tokens in everyday conversation[A]//UsingCorporatoExploreLinguisticVariation. Amsterdam：John Benjamins，2002：49- 71.

[24] Negishi，M.，Tono，Y. & Fujita，Y. A validation study of the CEFR levels of phrasal verbs in the English vocabulary profile[J].EnglishProfileJournal，2012，(3)：e3.

[25] 穆惠峰.基于语料库的大学英语四级完型填空测试内容效度验证研究 [J].外语电化教学，2011，(4)：66- 70.

[26] 王金铨，文秋芳.国内外机器自动评分系统评述——兼论对中国学生翻译自动评分系统的启示[J].外语界，2010，(1)：75- 81，91.

[27] 蒋艳，马武林.中国英语写作教学智能导师系统:成就与挑战——以句酷批改网为例[J].电化教育研究， 2013,(7)：76- 81.

[28] 王丽，张立英.学习者语料库分级方法研究:反思与启迪[J].中国海洋大学学报(社会科学版)，2016，(2)：107- 113.

[29] 刘建达.我国英语能力等级量表研制的基本思路.中国考试，2015，(1)：7- 11.

[30] Hulstijn，J. H. The shaky ground beneath the CEFR: Quantitative and qualitative dimensions of language Proficiency1. The Modern Language Journal，2007，(4)：663- 667.

责任编辑：周延云

The Application of Corpora in Language Assessment——Review and Reflection

Zou Shaoyan1,2

(1. College of Foreign Languages, Shanghai Jiao Tong University, Shanghai 200240;2. College of Foreign Languages, Qingdao Agricultural University, Qingdao 266109, China)

The application of corpora in language assessment has gained wide recognition in recent years and the potential and prospects of its application have been attracting increasing attention as well. Situated in such a context, this research firstly reviewed and combed the application of corpora in the four areas of language assessment: developing and designing test items, validating tests, scoring essays and constructing rating scales. Based on the review, the research reflected the use of corpora in language assessment in China and further elaborated its potential use in developing the writing scales of China Standards of English. writing scales.

Corpora; Language assessment; the Writing Scales of China Standards of English

2016-09-09

教育部哲学社会科学研究重大课题攻关项目--中国英语能力等级量表建设研究(15JZD049)

邹绍艳(1979- )，女，山东青岛人，上海交通大学外国语学院在读博士，青岛农业大学外国语学院讲师，主要从事语言测试和外语教学研究。

H05

1672-335X(2016)06-0109-06