中国英语写作能力等级量表应用阶段的信度检验方法*

2021-06-26 06:40:56胡文婷马晓梅

湖州师范学院学报 2021年3期

胡文婷,马晓梅

(北京工业大学文法学部,北京 100124)

语言能力等级量表，又称语言能力标准。其以语言能力习得结果为依据，根据语言能力发展的不同阶段分级描述语言能力层面[1]91-100，是语言测评构念及评分员量分的重要依据。中国英语能力量表(China’s Standards of English，以下简称“量表”)在开展广泛多样的量化及质性研究基础上，基于实验数据式(Data-based)方法设计而成[2]380-387，437。自2018年底发布以来，该量表受到外语教学界广泛关注。量表通过针对受试者提供的测试情景及受试结果，推算出我国英语习得者实际情况的拟合曲线分布符合分级描述[3]8-13。根据动态系统理论、多元能力理论、系统功能语言学及社会文化理论，量表进行了一定的英语学能预测[4]53-61。量表描述语以“我能……”为预测描述(1)Can-do statement：此处可理解为以能力作为核心概念的量表制定方法。，认为不同英语习得能力维度的发展可等同于相应的语言资源掌控能力[5]7-11，15。该量表通过不同构面预测二语学习者英语能力的认知情况和表达水平，是中国外语教学能力测评标准制定的里程碑。在量表投入使用的一至两年后，研究者需要对量表信度统计方法进行梳理和归纳，并不断深入收集历时信度证据，这对量表中后期的完善工作显得尤为重要。

一、写作能力量表及信度检验方法

(一)写作能力量表制定理据

英语写作能力的提升在动态螺旋发展过程中不断淬炼[6]32-44。因此，写作能力测评量表的设置考虑了写作能力提升过程中复杂糅合的多元过程和迥异的语言习得内在动因[7]28-35。据此，写作能力量表的制定理据认为：写作能力发展等同于语言能力发展，并将写作能力发展等同于语篇输出的操控能力发展[8]22-31。写作能力的螺旋发展过程，重点体现在量表编制的概念界定中，以学生写作能力感知情况进行对称性及非对称性分组，并将分组进行组间比较。基于对应场景化的写作测试，根据量表可针对学生写作学能进行评估，并得出测试结论。

(二)写作能力量表场景化分级标准

在大量前期研究(2)前期研究包括基于写作运用词汇的能力研究、句型语法对比研究、课堂环境构建研究、元思辨能力研究、写作声音研究等。基础上，写作能力量表的制定及场景化分级经历了系统的量化和质性研究[9]78-90，146。具体包括描述语收集、问卷调查、专家评判、教师评价、学生反馈、筛定描述语和分级验证等阶段[10]388-398，437。中国英语写作能力等级量表涵盖6个不同能力方向，包括书面描述、书面叙述、书面说明、书面指示、书面论述和书面互动等，且每一层面的能力描述又进一步划分为9个等级。刘建达针对完成的问卷，基于项目反应理论(IRT)，使用Rasch模型对每条描述语进行难度值计算，并且最终形成了222条写作能力描述语[11]1-6。根据量表建设思路，通过计算将所得数据值置于等距量表——洛基量尺(Logit Scale)上进行比较分析。结果显示：不同级别之间的IRT难度值呈现双端对称模式，拟合情况良好。潘明威以交际功能语境下的写作能力发展路径作为研究视角，将量表制定的描述语分成不同场景，且将其任务化，以较为严谨的实证研究手段明确了量表的场景化分级标准[12]78-85。然而，在该量表发布的两年内，通过实际使用和测试可知，针对写作能力构面的界定，仍存在一定的偏误，其未能全面考虑中国学生英语语言表达能力的真实情况和实际需求。因此在场景化分级标准上，应继续完善该量表，从而提高测试信度水平。

(三)测量信度及信度证据

测量信度(Measurement Reliability)是指采用同样的方法对同一对象重复测量时所得结果的一致性程度[13]85-92。量表信度的高低会直接影响效度论证逻辑和测量误差，而提升量表信度，能够有效验证量表效度。因此，在量表投放使用的初始实践阶段(3)此处指量表发布后的1～2年。，基于证据进行信度验证是制定和完善语言能力量表的核心问题。信度证据研究对量表成熟期测评可信性的完善、量表磨蚀期的效度修正具有重要的实践价值及应用意义[14]3-13。此外，量表测试信度需要通过各种有效途径进行长期的积累研究，而非仅在制定量表过程中进行信度效度检验[15]40-48。目前，我国学界针对语言量表效度进行了较为深入且系统的研究，但对于语言量表信度的研究并不充分，尤其对历时证据的获取与收集仍有所欠缺。这也在某种程度上阻碍了我国语言量表信度理论的发展，也影响了信度问题研究的开展和完善。

(四)信度研究理论体系

20世纪80年代起，信度研究在语言测试领域逐步发展深化。统计领域的信度研究理论不断被引入语言测试范畴的研究中。其中，经典真分数理论(Classical True Score)、概化理论(Generalizability Theory)及项目反应理论(Item Response Theory)被普遍应用在语言测试及量表信度检验过程中[16]138-152。本文就以上3项理论进行一定的梳理及阐释。

1.经典真分数理论

20世纪90年代起，语言测试学家Bachman将信度理论中的经典真分数测量理论引入语言测评领域[17]166-186。随后，相关研究逐渐围绕该理论展开。然而，在实际测量过程中，该理论不可能完全避免误差的存在。该理论引入观察分数和影响观察分数因素之间的关系假设，认为真实分数取决于个人能力水平和误差分数。真分数计算表达式为：

x=xt+xe

(1)

其中，x代表观察分数，xt代表真分数，xe代表误差分数。量表可信性体现在产生的分数代表被测变量在一定情形下的真实状态(4)真分数是指没有误差前提下施测得到的纯正分数。。换言之，信度就是潜变量真分数变异值与总分方差的比值。信度指标通常由相关系数表示，即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标，称为信度系数。其表达公式为：

(2)

(3)

因此可推导出，误差分数方差为：

(4)

信度统计研究方法各有千秋，但本质上都是通过计算真分数方差的估计与观察分数方差的估计比例得来[18]35-38。信度研究方法包括逻辑分析(Logical Analysis)以及实证研究(Empirical Research)。基于该理论可知，在后续的量表施测信度检验研究中，研究者应准确识别误差来源，并准确估计不同统计因素误差对测试分数的影响量级。对写作测试来说，所得测试分数误差来源、误差因素、误差量应是研究者关注的重点。因此，针对中国英语写作能力量表的信度研究，应重视量表测评过程中的误差分数估计方法，通过预估误差分数，不断估计量表与理想测评反馈能力的距离；通过误差修正反馈，针对量表构面和评价分级进行更为精准的界定，从而提高量表的整体信度。

2.概化理论

概化理论模型基于因子设计和方差分析得来，用于检验测试分数中不同来源方差的相对效果[19]21-27。概化理论将单一已知测量分数视为样本，将其推广至更为普遍一般的测量中去[20]41-46。因此，概化理论立足于总方差变异分解的视角，分解为误差源和非误差源的一般框架[21]20-30，37。语言能力等级量表的概化理论应用，主要针对研究个体某一项语言能力得出的测试分数，推广至其他项目语言能力表现中的相关研究。基于经典真分数理论的信度系数，概化理论信度系数逐渐被学界发展定义为：全域分数方差与观察分数方差的比值，其表达式为：

(5)

3.项目反应理论

项目反应理论被认为是经典语言测试理论的重要备选方法。与经典测量理论原理类似，项目反应理论区分了真分数变异和误差分数变异。但较之经典测量理论，项目反应理论针对不同能力水平受试，将同一个或同一组项目的不确定程度进行了更加精细的划分，且将该不确定程度和每一个项目的特征相关联。

作为项目反应理论的重要形式之一，Rasch模型在1961年由丹麦数学家Georg Rasch建立。在语言测试领域，尤其在语言能力量表的制定及其信度效度验证过程中，Rasch模型及各种衍生模型变体被广泛应用。Rasch模型的基本逻辑是：被试者能够正确作答的概率，与试题难度及被试能力有显著相关性[23]38-52。Rasch模型可将能力变量与难度变量参数化，通过计算将参数值置于等距量表上进行比较。一般的，该模型的数学表达式可归纳为：

log(Pnij/Pni(j-1))=Bn-Di-Fj

(6)

其中，Pnij代表第n个能力为Bn的被试者在评分项难度为Dj的i项目上评分为j的概率；Pni(j-1)表示同条件下该被试者得分为j-1的概率。此外，B代表抽样对象的能力，Fj为量表分级的阈值修正值(Threshold)。Di为与Fj相关的难度值。该阈值(5)此处指项目分梯难度。在所有项目上视为相同值。Rasch模型在量表制定和施测过程中均可作为重要的度量模型进行信度效度检验。

二、语言量表信度检验及施测方法

(一)内部一致性信度

内部一致性信度(InternalConsistencyReliability)是指用来测量同一个概念的多个计量指标的一致性程度[24]29-36。在语言测试中，内部一致性信度反映了量表内部所有项目间的一致性程度，故又可称之为同质性。换言之，量表不同项目之间的相关程度即为量表的内部一致性程度。因此，量表应由一组相关程度较高的项目组成，这些相关度高的项目能够较为可靠地从不同角度测量同一个问题。

根据文献检索结果显示，大部分量化写作测试研究及量表信度检验研究，均使用了内部一致性信度系数进行研究结果的信度校验[25]29-36。内部一致性信度检验方法也能够较为客观地反映测试结果的准确性和稳定性。

(二)阿尔法系数(α)

阿尔法系数(α)在1951年由Cronbach教授提出[26]297-299。阿尔法系数是教育或心理测验中常用的信度评估指标，是一种被普遍使用的内部一致性系数，用于检验量表对于某种受测品质的一致性信度。作为量表信度重要的量度方法，阿尔法系数在众多语言测试领域研究中被广泛使用。它被定义为：潜变量真分数(共源方差)与量表分数方差的比例。其数学表达式为：

(7)

阿尔法系数被国内外大量语言测试和语言量表研究使用，用于检验测量结果或量表制定的信度验证[27]71-89。基于内部一致性概念，该系数可以看作是信度系数的保守估计值。当该系数大于0.7时，表明量表可靠性较高。在写作测试应用阶段的研究中，以邹绍艳、范劲松的研究为例，其通过问卷访谈等实证研究方法针对量分员展开调查研究，经分析统计，得出内部一致性系数为0.781，证明评分员作答题目的可靠性，并推演了大学英语四级考试写作测评量表效度[28]148-156。由此可见，通过检验阿尔法系数可得出量表指定的信度验证结论，也能够被推广至大规模语言测试的信度调查中(6)如全国英语四六级考试写作测评、高考入学英语写作测试、专业英语四八级考试写作测试等。。

如果测试范围和规模为小样本研究，如大学英语入学分级测试、本科阶段英语专业写作课程测试信度检验等，则可根据受试者人数及受试条件进行检验方法的选取。通过协方差矩阵、以相关系数为基础的阿尔法系数，以及折半法求得的斯皮尔曼—布朗预测公式，均可在中小规模语言测试中实现信度系数检验实验。总的来说，针对写作测试信度检验的统计学方法选取，较为灵活多变，研究者应根据实际样本数和测试内容，进行信度系数检验方法的选择。

(三)信度系数的施测方法

语言量表如果针对某个有意义的语言能力构念形成度量，那么，在不同时间点上使用该量表测得的结果，应可相互比拟[29]2-10。因此，量表的信度系数需要在不同时间点，进行长期的历时性观察和抽样研究。中国英语写作能力量表的信度系数研究，需要研究者在不同时间点开展历时性的测试，并对不同时间点取得的测量结果数值的相关系数取均值。通过历时的持续性研究，语言量表的信度系数具有历时稳定性(Temporal Stability)，此时，该信度又可被称为重测信度(Test-Retest Reliability)[30]61-63。写作量表针对6个写作能力维度进行了细致的划分，将写作“能力构念”划分为9级梯度描述。在开始投入实际应用的过程中，应当采取历时性研究手段，估计量表一次性测量结果的信度。由此可见，制定及发展完善语言能力等级量表是一种长期的、多路径、多渠道积累的实证研究工作[31]3-7,41。在量表投入使用的初级阶段，在二语教学过程中不断收集积累各种信度效度证据，对量表进行历时性信度验证意义重大。

三、写作量表信度验证测试过程及方法

完善量表信度的过程，应基于科学的语言能力理论和语言测试理论，力求操作实验过程遵守基本操作原理，立足语言教学和语言测试的实际，采用翔实有效的科学方法，以不断提升量表的可操作性和测量结果的可靠性，实现语言量表制定的预期作用。另外，针对量表使用过程中的反馈问题，相关研究者应当进行大量的实证研究和实验调查，以保证实验数据的有效性和时效性。实验设计应更为严谨，研究者应有目的性地选取受试者，并根据研究问题制定标准化语言测试材料，严格记录实验过程(7)如撰写观察日志、反思日志等。，确定合适的研究问题、选取适当的研究设计分析方法开展语言测试实验。以英语写作能力等级量表为例：针对写作量表进行信度验证的实验设计，首先应充分考虑受试者的写作能力及语言习得条件[32]81-88。由于写作能力习得过程较为复杂，写作教学难度也随之提升；写作能力不仅指正确使用语法或修辞的能力，还包括概念和评价等(Conceptual and Judgmental)能力要素。其次，针对写作能力量表的信度验证，设计研究中抽样对象应具备正确理解量表构念的能力，并了解写作学能的测试意图。再次，抽样对象语言能力水平应与量表不同构面能力描述相对应，针对不同学术要求，开展分层写作能力评估。

同时，科学运用写作测试理论，合理设计写作标准化测试，是开展系统有效的语言能力测试的前提[33]82-91。以写作量表为例，根据写作学能发展特点及写作测试方法特质，针对该量表的信度验证测试过程应针对以下几方面开展：合理选取研究对象，并通过科学的抽样方法进行样本抽样；设计较为全面的写作测试内容，区分前测、中测、后测，并进行验证；基于测试数据，选取合适的信度检验方法，对数据进行信度验证；注意收集信度检验的历时证据，以保证较为完备的信度检验维度。对测验测试内容及结构的设计，应基本吻合量表能力层级中涵盖的所有层面内容。因此测试题目的分层化、区别化应是题目设计者应当重点考虑的问题，尤其在题设逻辑和结构上，应对应量表不同层间的考察内容进行设计。为达到量表评价描述语与受测者各项写作能力的对应性，写作标准化测试的设计方法和设计思路应着重注意以下几个方面：

第一，能够根据量表描述语的不同写作能力层面，设定标准化测试题。以写作能力量表中“书面互动能力”为例，量表中表47将“书面互动能力”分为9级。能力描述语分别涉及外事、商务合作协议或条约拟定、会议纪要、正式撰写信函、申请科研经费、产品投诉、活动祝贺、慰问、文化介绍、社交媒体沟通及求职等不同的写作语境。因此，在进行写作测试时，试题应根据量表给定语境进行匹配设计。第二，重视语言量表的心理测量功能，写作测试设计应能够将抽象的写作语言能力构念，转化为明确直观的检测结果。写作标准化试题应同语言学、心理测量学、社会学等诸多相关学科结合，不断调整更新，以适应不同时期语言教学的需求。第三，写作测试应具有区别性证据特征。区别性关系是指当一个变量提高(或下降)，另一个变量没有显著性提高(或下降)的趋势。由于写作能力提升过程较为复杂漫长，因此写作测试应假设——高质量的写作能力试题与考前辅导效应(Coaching Effect)的相关性不显著。施测者应能够获得写作能力测试题目的区别性证据。

四、写作测试对教学及政策的反拨

英语测试在应用语言学的学科发展过程中逐渐独立，但其核心内容与二语教学紧密相关。因此，语言本身是写作测试的核心逻辑所在。基于语言习得理论，语言测试应严格遵循语言本身进行构想评估并搭建相关施测框架。语言测试学家Bachman及Palmer指出，语言测试的效用性(Usefulness)重点体现为语言测试的“信度，构想效度、真实性、互交性、影响以及可实践性”6个质量因素。二语教师应能够从测试结果，也就是测试分数得出结论，发现并定义二语习得者真实的语言学习效果及能力。同时，二语教师应能够通过测试成绩的统计分析进行合理描述，从而对教学计划，教学手段，教学法进行相应的改进(见图1)。

图1 语言测试与教学的互动逻辑

针对二语教育过程中开发的语言测量，如果能够通过科学有效的实验方法和测试设计，在很大程度上能够提供更加纯粹的量化语言政策决策证据。首先，量化数据能够有效服务研究者对二语习得者语言能力的深入了解。针对写作教学来说，二语习得者的词汇运用能力、语言建构能力、篇章逻辑能力等均可从多层面得到测量。其次，语言能力的测量量化结果反馈，有助于二语教师诊断学生某一层面的语言能力并及时调整教学内容和教学方法，以避免学生单层面能力缺陷的扩大化。再次，量化的语言测试结果有助于教育决策者进行语言教育政策调整及再决策。因此，语言测试、成绩反馈、结果分析、教学反拨四者关系应互相牵制并能够形成有机共融体。以测试反观教学效果，调整教学手段，改进教学方法；以教学反拨语言测试设计，提升测试效度信度，是语言教学和测试的基本互动逻辑。

五、结语

近年来，围绕中国英语等级量表的相关研究成果斐然。国内众多语言教育及语言测试领域专家学者针对语言能力构念、语言能力等级量表的制定理论、语言能力量表研究设计验证、描述语形式规范化开展了一系列细致深入的调查研究。随着2018年中国英语能力等级量表正式发布，这一几乎涵盖所有能力层次语言习得者的中国语言能力量表也真正从幕后走到台前。量表开始施测，必然会对各语言能力测试领域产生巨大影响。有一些反馈和影响是积极正面的，有一些反馈可能是消极的，它们都能够协助量表不断地修正、完善。

语言量表的信度验证需要考虑施测过程中的潜在错误来源，同时以科学的方法有效预估错误对量表施测结果的影响程度。只有以历时性的视角不断收集相关语言测试中的信度证据，通过对测试潜在偏误进行界定，对量表描述层级不确定性进行厘清和核验，结合受试者二语语言认知方式、认知过程及认知视角多因素进行系统分析，才能最终全方面评估二语习得者的语言习得能力，并提升量表综合评估效果。

综上，在实施应用过程中，语言量表各种测试结果所产生的社会效果都应得到重视。语言量表的信度效度是衡量测试质量的两项重要的指标，其中，由于信度能够直接反馈测试结果的可靠性和稳定性，信度测试与检验尤其应当引起学界重视。目前，写作测试及写作量表信度检验过程及方法仍存在一些争论性问题。以问题视角为出发点，也为未来语言测试和语言量表研制发展打开了新的思路。为了能够更加准确地评估和量化写作测试分数可靠性和可信性，并通过分析量表测试分数时衡量错误的潜在根源，正确使用科学的信度概念及衡量理论，不断积累语言测试要素和量表测试的信度证据，完善量表描述语的准确性，是提升量表评价结果的可靠性、科学性和有效性的有效方法和途径。