基于多面Rasch模型的初中英语口语测试EBB评分标准研究与效度验证

2016-06-05 14:14:54高淼

中国考试 2016年12期

高淼

高淼

评分标准是测试构念的可操作化体现。本文介绍了EBB评分标准的定义和优势，尝试了如何基于考生真实的测试表现数据，为一项低风险的大规模初中英语口语测试制定EBB评分标准，并基于项目反应理论，利用多面Rasch模型对其进行效度验证。研究结果表明，包含语音语调、准确性、交际有效性和任务完成度四个评分维度的EBB评分标准符合分割指数、平均测量值和未加权均方拟合指数等关键测量指标要求，具有较好的效度，并且分数段划分合理，可操作性强。

EBB评分标准；口语测试；多面Rasch；效度

1 研究背景

随着信息技术的发展和数据模式的爆炸式增长，当今世界已经进入网络化的“大数据时代”，美国等发达国家已将对“大数据”的研究上升至战略高度[1-2]。在教育领域，构建和发展“教育大数据”对于制定教育政策、优化教育制度、促进教师教学、提升学习质量意义重大。长期的、大规模的、科学的教育质量测评是收集“教育大数据”的重要工具，如国际学生评价项目（PISA，国际经合组织OECD主持），美国国家教育进步评价项目（NAEP，美国国家评价管理委员会NAGB主持）以及国际数学与科学趋势研究项目（TIMSS，国际教育成就评价协会IEA主持）。我国自2007年开始的义务教育阶段学习质量监测体系即创建和发展于这一时代背景下，该体系通过在全国范围内对小学四年级和初中二年级学生进行全方位的测试，获取有关中国基础教育质量以及影响因素的大量数据，从而为决策制定提供依据和建议。作为质量监测体系的重要组成部分，英语学业质量监测（以下简称“英语监测”）涵盖纸笔测试（听、读、写）和口语测试两个部分。

《义务教育英语课程标准》（2011年版）[3]（以下简称《课程标准》）明确指出口语能力的培养和评价是英语教学中的重要部分。但就口语测试来说，人力、物力及财力等实施方面的种种困难一直制约着英语口语测试的大规模开展，长久以来在中国，高考、中考等大规模高风险测试由于受制于上述因素，也多不包含大规模的口语测试。作为一项国家层面的大规模低风险测试，英语监测项目克服重重困难，采用分层不等概率抽样方法，从参加纸笔测试的大样本考生中，抽出一小部分考生（如2011年年底口语测试中，各年级均抽出900名考生）来进行口语测试。

英语监测项目的初中口语测试属于标准参照性测试，旨在检测初二学生的口语交际能力，并为教和学提供反馈信息，试题的命制依据是：《课程标准》相应级别对“说”的能力标准描述，英语监测指标体系对“说”这一表达能力的指标描述。测试目的是考查学生使用英语进行交际的能力，表1介绍了2011年初中英语口语测试试题的任务结构。

本研究从2011年口语测试中获取的真实口试语料出发，根据测试的构念来制定分项评分标准，对考生的口试表现进行不同层面的精确评分，可以更加清楚地理解分数的意义，进而对考生的口语能力作出更有效的推断，也为本测试的效度论断提供实证证据。再者，本分项评分标准的制定过程和具体内容可用于课堂口语评价，有助于教师为学生的口语表现提供明晰、具体的反馈。

2 相关研究文献

评分标准在口语测试中至关重要。无论采用什么形式，评分标准都是抽象的口语测试构念在具体评分过程中的可操作的判断标准，反映出测试设计者对不同水平考生的语言表现的理解[4-5]。制定评分标准的方法总体上有3类：（1）基于直觉和经验的方法（intuitive approach），如美国外语教学委员会外语能力标准指南（the American Council on the Teaching of Foreign Language Guidelines，ACTFL）。（2）量化方法（quantitative approach）。即对众多语言能力指标描述语进行量化统计，如CEFR。CEFR产生于欧洲独特的社会经济和教育文化的情境下，适应了欧盟社会经济和教育文化的发展[6]，但它是通过对大量现成的、基于直觉的评分标准描述语（descriptor pool）进行多面Rasch分析统计来制定的[7]，本质上同上述第一类评分标准一样。（3）基于考生的测试表现数据来制定评分标准，主要倡导者有Fulcher，Upsher和Turner等。大致又可以细分为两种：第一种倾向于尽可能精细入微地描述不同水平考生的表现（thick description approach），Fulcher[8-9]具体报告了这种方法的研究过程。“详细、具体”这一优势同时也带来了操作性较差的弊端，因为过细的评分标准会加重评分员的记忆负担，影响评分信度[10]。第二种基于考生真实语料的评分标准制定方法是基于实证的、二元选择性的、边界定义式的概念评分标准制定方法（empirically derived,binary-choice,boundary definition scales，以下简称EBB）[11-12]。它与前述所提到的评分标准的区别在于它不是通过细致地分析考生语料来制定，而是借鉴了Thurstone的成对比较方法（Thurstone’s Method of Paired Comparisons）和凯利网格技术（Kelly’s Repertory Grid Technique）[13]，由专家对考生的真实口试语料进行水平评判，并拟定能够将样本划为特定级别的关键特征，即EBB中的一系列“二元选择问题”或能力指标描述语。之后通过反复讨论和协商，最终达成对描述语所表达的内涵的一致看法[14]，形成能够判定不同级别的二元是非问题，或有关区别性关键语言特征（criterial features）的描述语，最终形成的评分标准如图1所示。

表1 初中英语口语测试试卷结构

图1 EBB评分标准

由此可见，EBB不同于传统评分标准线性地描述考生口语能力的做法，而是尽可能客观地给出不同水平的考生具体能够用语言做什么样的评判标准。其主要优势在于：（1）设计原理简单，可被用来制定特定口语或写作测试任务的评分标准；（2）制定出的评分标准便于使用，特别是当由参与标准制定的人员来评分时，会实现更为理想的评分信度；（3）针对每一特定任务而生成的评分标准若用在教学情境中，可准确反映学生的表现并为学生提供反馈。

总之，评分标准应该根据特定的测试目的以及测试对象，根据基于分数意义所欲作出的决策来制定[15-16]。因此，本研究采用EBB标准制定方法，为英语监测项目的口语测试制定分项评分标准。目前国内大规模口语测试评分标准多是依凭专家经验并借鉴已有评分标准来制定，基于考生真实测试表现数据来制定评分标准的相关研究几乎没有，本研究是对这一缺陷的弥补，也是对评分标准制定方法的尝试和创新。

3 研究问题及步骤

本研究旨在回答以下3个研究问题：

（1）分项评分标准的效度如何？

（2）考生在语音语调、准确性、交际有效性、任务完成度这4个评分维度上的表现如何？

（3）评分标准各分数段在以上4个维度是否发挥了预期的作用？

3.1 制定EBB评分标准

3.1.1 确定构念

本研究中，EBB评分标准的制定依据考生的口试录音语料，通过明确能够区分不同水平考生的“显著语言特征”这一指标来制定。同时参照《课程标准》四级及本测试项目的监测指标体系对口语能力要求的水平描述，确定了评分时需关注的4个方面（见表2），实现了测试构念的可操作化。

对每一个维度的具体指标描述通过采用EBB标准制定方法。

3.1.2 确定级别数

通常口语评分标准有4～6个水平或分数档[9]。CEFR认为4个维度和5个维度就开始增加评分员的认知负荷，而7是心理学上的记忆负荷上限。同时由于分项评分标准是概念独立的，所以至少从某种程度上来说，5～6个水平已经接近评分员的认知负荷极限。本研究所制定的评分标准包括1～6这6个分数级别。

3.1.3 参与人员

表2 评分标准的4个维度

从本研究的样本数量及研究目的出发，参照Turner&Upshur[12]的EBB评分标准制定方法，最终决定参与评分标准制定的研究人员共4位，包括研究者本人。其中一位是有15余年教龄的中学英语教师（高级职称，英语语言测试方向博士），一位是英语测试研究方向的在读博士生，一位是高校英语教师（应用语言学方向硕士）。

3.1.4 研究对象及语料

考生群体为参加口语测试的来自全国5个省份的900名初三年级新生（测试于2011年9月进行，学生刚刚结束初二学习），从中抽取了140位考生的录音样本进行转写（用于后续的会话分析子研究），在其中又抽取16位考生的录音样本，代表不同水平考生的口试表现，据此制定EBB分项评分标准；之后在剩余的124个样本中随机抽出24位考生的录音样本，使用新制定的EBB标准对其进行评分，验证评分标准的信效度；最后，对剩下的100个考生录音样本，使用分项评分标准进行评分，进一步验证评分标准的效度。

3.1.5 具体步骤

制定评分标准分为初步制定标准、修订、专家审阅、试评、试评数据分析、讨论修订，以及形成最终的评分标准6个主要阶段，如图2所示。

在具体的EBB标准制定中（第1步），评判标准是通过提出标准制定人员都认同的可以区分两个水平的二元判定问题（binary questions）来实现。如：“Are grammatical errors present in the sample?”，在对此问题回答“是”或“不是”后，进入下一层级的区别特征判断。具体操作过程如下：

（1）标准制定人员各自独立精听所有的样本（共16个）并做记录，之后等分出“较好”和“较差”两组录音，每组各8个样本，记下能区别这两大组的区别性语言特征。提出一个可以区分这两组样本的主要二元判定问题。

（2）通过充分讨论和协商，尽可能对此划分标准达成一致。

（3）各人在“较好”一组的录音样本中，分出级别为4、5、6三个自低向高的等级，每个等级下有2～3个样本。

（4）确定能区别级别4与级别5、6的区别性语言特征，写出二元判定问题，或描述出可区别这两个水平的显著语言特征。

（5）通过充分讨论和协商，尽可能对此划分标准达成一致。

（6）确定能区别5、6两个级别的区别性语言特征，写出二元判定问题，或可以区别这两个水平的显著特征描述语。

（7）通过充分讨论和协商，尽可能对此划分标准达成一致。

（8）重复以上环节，对“较差”的一组语料样本，确定能区别1、2、3三个级别的二元判定问题或区别性特征描述语。

评分标准的最终呈现形式是对应于语音语调、准确性、交际有效性和任务完成度4个维度的4个图示型分项评分标准。为更直接、直观地呈现判定标准，没有采用二元判定问题的形式，而是用描述区别性语言特征的短语（如“几乎所有语法使用都不准确”）。

4 研究结果

图2 评分标准制定流程

4.1 评分标准效度的初步验证

使用这一分项评分标准，请3位语言测试专业的研究生作为评分员，对24个被试录音文件进行试评分，之后使用统计分析软件FACETS 3.68[17]，对评分进行了多层面Rasch模型分析。由于本次评分中3位评分员从整体上对3个口试任务从4个维度来评分，所以本多面Rasch模型包括考生、评分员、评分标准3个层面。3个层面之间的关系可用以下数学模型来表示：

其中，pnjik表示评卷人j在题目i上给考生n评分为k分数段的概率；pnji( ) k-1表示评卷人j在题目i上给考生n评分为k-1分数段的概率；Bn为考生n的能力；Di为题目i的难度；Cj为评卷人j评分的严厉程度；而Fik为对于题目i取得k分数段的难度。表3是评分量表4个维度的多面Rasch分析结果。

从表3可看出，表达的准确性（测量值为0.48洛基）是考生失分最多的评分方面，实际上也没有考生在该维度上得到满分，是考生口语表达中的难点；在语音语调方面考生最容易得到分数（测量值为-0.54洛基）。评分标准4个维度的分隔指数为2.16，分割信度为0.82（χ2=16.3,d.f.=3,p＜0.01），4个维度整体上有显著区别，表明4个评分维度分别考查的构念层面不同，且4个方面相对独立。此外，4个维度的加权均方拟合统计量（InFit MnSq）介于0.70和1.00之间，且多都基本接近理想值1，说明观测值与模型期望的情况拟合较好，说明4个维度虽然侧重于不同的方面，但都属于“口语能力”这一整体构念。任务完成度维度的拟合值偏低（0.70），应是由于试评分时不分任务、评分员对该维度的标准难以把握，进而引起较多评分差异所致。因此，在进一步修订评分标准时，分3个任务分项评分。对4个分项维度层面的具体分析结果如下。

4.1.1 任务完成度

表4为任务完成度维度的多面Rasch数据分析情况。主要关注两个测量指标，即第4列的平均测量值（average measures）以及第5列的未加权均方拟合统计量（Outfit MnSq）。平均测量值应从低分数段向高分数段单向递增[18-19]。

从表4可以看出，6个分数段的平均测量值从-6.82洛基单向递增到4.67洛基。这种单向递增的趋势从图3也可以看出。

表3 评分量表的4个维度统计结果

表4 任务完成度维度的分数段统计

图3 评分量表分数段的概率密度曲线图（任务完成度维度）

从图3可以看出，6条概率密度曲线（分别代表6个分数段）分布较均匀，而且都有一定的尖顶，表明能力处于该分数段的考生很有可能获得这个分数段的分数[20]。虽然，1～6个分数段的曲线间间隔距离不是很均匀，但从左到右依次排列，呈现出单向递增趋势。

此外，未加权的均方拟合指数不可超过2，否则此分数段就不能正确反映考生的实际能力[18]。表4第5列显示，6个分数段的未加权均方指数值均小于2，说明这6个分数段均起到了它们应有的评判作用。另外一个和评分量表有关的特征是分数段标定（step calibration）[21]，该指标也应从低分数段向高分数段单向递增。从表4第6列可以看出，分数段标定测量值随分数的升高呈单向递增趋势。一般来说，每个分数段标定之间应至少有1.0洛基的间隔[17]。表4显示，6个分数段之间基本符合这个要求，但第2级和第3级之间的间隔过大（4.71洛基），3级和4级之间的间隔又小于1.0洛基，这一情况从图3也可以直观地看出。所以可在2分和3分级别之间进一步区分，并考虑合并3分和4分的分数段，或修改评分量表的指标描述语。

总体来看，在任务完成度这一维度上，平均测量值单向递增，且各分数段的未加权的均方指数都在可接受的范围之内，表明该评分标准在任务完成度维度上的表现尚可。

4.1.2 语音和语调维度

语音语调方面的多面Rasch分析数据如表5所示。

从表5可以看出，6个分数段的平均测量值（第4列）从-7.75洛基单向递增至5.57洛基，这种单向递增的趋势从图4也可以看出。

图4 评分量表分数段的概率密度曲线图（语音语调维度）

表5 语音语调维度的分数段统计

6条分数段概率密度曲线从左到右依次整齐地排列过去，呈现出单向递增的趋势；表明能力处于各个分数段的考生得到这个分数段的概率较高。此外，各曲线之间的间隔非常均匀，这一特征对应于表5的第6列的分数段标定指标。分数段标定呈单向递增趋势，且之间的间隔均匀，并都大于1.0洛基值。在未加权的均方指数指标方面，表5第5列显示，6个分数段的未加权的均方指数均小于2，说明这6个分数段起到了预期的评分作用。因此，在语音语调维度上，本口语测试评分量表的表现非常好。

4.1.3 语言准确性维度

语言准确性维度的多面Rasch分析数据如表6所示。

语言准确性维度的多面Rasch分析数据只有5个分数段。从表6可以看出，1～5个分数段的平均测量值（第4列）从-5.29洛基单向递增至4.24洛基，这种单向递增的趋势从图5也可以看出。

图5的5条概率曲线自左向右分别代表1～5个分数段，呈现出单向递增的趋势。此外，表6第5列显示，5个分数段的未加权均方拟合指数均小于2，说明这5个分数段都发挥了预期的评分作用。此外，从表6第6列可以看出，分数段标定也呈单向递增趋势，且各分数段标定之间的间隔都大于1.0洛基，只是2分和3分之间的间隔稍大，6分这一分数段没有使用到。从对3位评分员的访谈中可以得知，在表达的准确性方面，几乎没有考生能够得到满分（6分），印证了这一数据分析结果。从表6可以看出，分数段2使用频率过高（26%），其余分数段使用频率相当。因此在进一步修改评分标准时，考虑了对分数段2的指标描述进行细化和拆分。总体来说，在语言准确性维度，评分量表的表现较好。

4.1.4 交际有效性维度

交际有效性的多面Rasch分析数据如表7所示。

从表7可以看出，6个分数段的平均测量值（第4列）从-6.37洛基单向递增至4.49洛基，这种单向递增的趋势从图6也可以看出。

图5 评分量表分数段的概率密度曲线图（语言准确性维度）

表6 语言准确性维度的分数段统计

图6中的6条概率密度曲线都有自己独立的尖峰，且呈现出单向递增的趋势。此外，在未加权的均方指数指标方面，表7第5列显示，6个分数段的上的作答表现来评出各维度得分，所以本维度的评分结果易受到考生在朗读文段任务上的表现的影响。此外，评分员基本上都反映如果考生在朗读时的语音语调较差，会影响对考生在交际有效性方面的评分。因此，在正式评分时采用分任务评分，可从一定程度上解决这一问题。未加权均方拟合统计量均小于2，说明这6个分数段起到了预期的评判作用。分数段标定方面（第6列），除了分数段4之外，其余分数段标定都呈单向递增趋势，且分数段之间间隔都大于1。总体来说，在交际有效性维度上的评分标准具有较好的效度。此外，分数段3和6的使用频率过低，分别仅为8%和4%。因此，在进一步修改评分标准时，考虑将分数段3和4、分数段5和6合并，并可结合评分员的反馈意见调整分数段3和4的指标描述语。

表7 交际有效性评分量表分数段统计

图6 评分量表分数段的概率密度曲线图（交际有效性维度）

此外，通过对3位评分员的访谈发现，“交际有效性”这一维度主要体现在对任务1（交际会话）和任务3（看图说话）的评分上，而任务2为朗读文段，不涉及“交际有效性”方面的表现。由于本次评分时要求评分员不分任务、从考生在整个口语测试

4.2 EBB评分标准修订

在请3位评分员使用分项评分标准试评24个录音样本的同时，请他们随时记下使用评分标准评分时遇到的任何问题、或想到的可改进之处。在完成各自的评分任务后，研究者召集评分员，对其进行集体访谈并共同讨论评分情况，请其汇报对评分标准的看法及使用心得。3位评分员都表示，相对于传统的文字描述式的评分标准，这种图示型的分项评分标准看起来更加直观、简洁，更便于操作。尤其是在熟悉评分标准内容之后，可以大幅度提高评分速度，听录音的同时即可完成评分任务。此外，本评分过程是一个不断地进行“是”与“否”的“二元判定”过程，评分员经过首次判定即可确定考生所属分数段，保证了评分不会产生过大误差。在对评分标准的修订讨论会上，评分员基于各自的评分实践，对评分标准提出了以下建议：第一，图示型评分标准应以语音语调、准确性、交际有效性和任务完成度这一先后顺序来排列4个所评维度；第二，修改语音语调维度的指标描述语，使表述更加清楚。第三，评分标准在形式上应更加便于评分员使用。可采取如下措施：统一图形中判定指标的“是”“否”箭头指向；将4个维度的评分标准放在一页纸上，统一调整箭头方向。第四，分任务评分，对朗读文段的评分只关注语音语调和任务完成度两个维度，具体评分维度如表8所示。

表8 修订后的分项评分标准对各任务的评分维度

基于此，研究者和3位评分员使用分项评分标准，随机挑选4个口试录音样本分任务评分，发现分任务、分维度评分更易操作，评分速度更快，并且3位评分员在每个任务的每一维度上的给分也较为一致（由于样本过少，无法做量化分析）。虽然评分结果与不分任务所评得分在各维度上的结果差异很小，但3位评分员反映：分任务评分时，可专注于对每一个具体任务的评判，减少了认知负担；在不分任务评分过程中遇到的许多问题也得到了解决，对分项评分标准的把握更加清楚，从而提高了评分效率。

第五，在准确度和交际有效性两个维度上，3位评分员和研究者一致认为，考生在回答问题时若句子不完整，只要所答与所问意义相关，那么在准确性和交际有效性维度都可得一定分值，将这一具体说明也写入了评分标准。

基于以上反馈信息以及多面Rasch的分析结果，研究者对评分标准的内容进行了修订，对其呈现形式也进行了优化，并调整评分过程的具体要求和评分员计分表。

4.3 评分标准的二次验证

基于以上多面Rasch分析结果以及评分员的反馈信息，对评分标准进行了较大调整，并经过一位测试学专家的审读和修改，形成了最终的评分标准。使用新的评分标准，请3位参加分项标准制定的成员对随机抽取的100名考生的口语录音进行重新评分。将使用新评分标准所评总分与原基于经验的总体印象评分标准评分进行相关分析，进而验证新评分标准的效度。获得结果如表9所示。

表9 新旧评分标准相关研究描述性统计量

原始评分标准为整体评分标准，分3个任务来评，总分为10分，平均得分为4.80分，标准差为3.37；新的评分标准为分任务分项评分标准，总分为6分，考生最终得分平均分为3.12分，标准差为2.09分。相关统计量如表10所示。

表10 新旧评分标准相关统计量

两次评分结果显著相关（r=0.926，p＝0.000＜0.01），这一分析结果进一步印证了新评分标准的效度。

5 讨论与结语

从考生真实的测试表现出发制定评分标准，是一种自上而下的数据驱动的标准制定方式。使用多面Rasch分析可以验证评分标准的质量，结果表明，考生在语言准确性方面还需要提高；语音语调、语言准确性、交际有效性、任务完成度4个维度独立测量了不同的方面，且都隶属于“口语能力”这一总的测量构念，表明该评分量表具有较好的效度。此外，拟合统计分析结果表明，6个分数段的划分合理，每一个分数段都发挥了预期的评分功效。基于初次验证结果，修订了任务完成维度2级、3级和4级的描述语，细化了语言准确性维度2级的描述语，合并了交际有效性维度的3级和4级的描述语，并决定在评分中采用分任务评分（对3个任务分别从语音语调、语言准确性、交际有效性和任务完成度4个维度评分）。对新修订的评分标准的相关分析印证了本EBB评分标准的效度。

本研究的结果为英语质量监测口语测试的效度论断提供了来自“分数解释”层面的证据支持[22]，更对评分标准的研制有非常重要的意义：因为不再使用相对模糊的描述语，而是采用二元判定的方法，减少评分员通过参照上下不同级别的考生表现评分的现象，提高了评分信度；这一标准制定方法简单易行，在日常口语教学中，英语教师可以基于所教学生的口语表现、所评任务的特点，制定具体的、有针对性的EBB口语测评标准，不仅能够获得关于学生口语表现的更准确等信息，更能够基于标准对学生的口语表达水平作出有效的反馈。

未来研究首先需通过更大的样本对评分标准进行进一步的验证，此外可以通过观察、访谈等质性研究手段探究EBB评分标准在课堂评价和形成性评价中所发挥的反馈作用。

[1]郭晓科.大数据[M].北京:清华大学出版社,2012.

[2]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012（6）:647-657.

[3]中华人民共和国教育部.义务教育英语课程标准（2011年版）[M].北京:北京师范大学出版社,2011.

[4]DAVIES A,BROWN A,ELDER C,et al.Dictionary of Language Testing[Z].Cambridge:Cambridge University Press,1999.

[5]MISLEVY R,STEINBERG L,ALMOND R.On the structure of educational assessments[J].Measurement:Interdisciplinary Research and Perspectives.2003,1（1）:3-62.

[6]FULCHER G.Testing Second Language Speaking[M].London:Longman,2003.

[7]NORTH B.The Development of a Common Framework Scale of Language Proficiency[M].Peterlang,2000.

[8]FULCHER G.Test of oral performance:The need for data-based criteria[J].English Language Teaching Journal,1987,41（4）:287-291.

[9]FULCHER G.Does thick description lead to smart tests?A databased approach to rating scale construction[J].Language Testing, 1996,13（2）:208-238.

[10]LUOMA S.Assessing Speaking[M].Cambridge:Cambridge University Press,2004.

[11]TURNER C E.Listening to the voices of rating scale developers: identifying salient features for second language performance assessment[J].CanadianModernLanguageReview,2000,56（4）:555-584.

[12]TURNER C E，UPSHUR J A.Rating scales derived from student samples:effects of the scale maker and the student sample on scale contentandstudentscores[J].TESOLQuarterly,2002,36（1）:49-70.

[13]POLLITT A,MURRAY N.What raters really pay attention to[C]// MILANOVIC M,SAVILLE N.Studies in Language Testing 3:Performance testing,cognition and assessment.Cambridge:University of Cambridge Local Examinations Syndicate and Cambridge University Press,1996:74-91.

[14]UPSHUR J A,TURNER C.Constructing rating scales for second language tests[J].English Language Teaching Journal,1995,49（1）:3-12.

[15]CHALHOUB-DEVILLE M.Deriving oral assessment scales across different tests and rater groups[J].Language Testing,1995, 12（1）:16-33.

[16]FURNER G.Scoring performance tests[C]//FULCHER G,DAVIDSON F.The Routledge Handbook of Language Testing.Routledge, 2012:378-392.

[17]LINACRE J.A User’s guide to FACETS Rasch-Model Computer Programs[M].Chicago,IL:MESA Press,2011.

[18]LINACRE J M.Investigating rating scale category utility[J].Journal of Outcome Measurement,1999,3（2）:103-122.

[19]PIQUERO A R,MACINTOSH R,HICKMAN M.Applying Rasch modeling to the validity of a control balance scale[J].Journal of Criminal Justice,2001,29（6）:493-505.

[20]PARK T.Investigation of an ESL placement test of writing using Many-facet Rasch Measurement[J].Working papers in TESOL& Applied Linguistics,2004,4（1）:1-21.

[21]BOND T G,FOX C M.Applying the Rasch Model:Fundamental Measurement in the Human Sciences[M].Mahwah,NJ:Lawrence Erlbarm Associates,2001.

[22]BACHMAN L F,PALMER A S.Language Assessment in Practice:Developing Language Assessments and Justifying Their Use in the Real World[M].Oxford:Oxford University Press,2010.

A Study of Constructing and Validating an EBB Rating Scale for a Large-scale and Low-stakes English Oral Test of 8th Graders

GAO Miao

Rating scale is actually the operationalization of the construct of a test.This article first introduces what EBB is and states its advantages by comparing it with other ways of constructing scales.Then how to construct EBB scale based on students’test performance data is introduced by presenting the procedure and the selection of data. Lastly,the scale is validated by utilizing the Multi-facet Rasch analysis and revisions are made accordingly.The results indicates that the EBB scale is both valid and reliable and of practicality.

EBB Scale；Oral Test；Multi-facet Rasch Analysis；Validity

G405

1005-8427（2016）12-0029-11

（责任编辑：周黎明）

本研究得到国家社科基金项目“中国初中英语教师评价素养量表研制与验证研究”（批准号：15CYY022）及“中央财经大学外国语学院2014年度院级课题”的资助。

高淼，女，中央财经大学外国语学院，讲师（北京 100081）