国内口语能力量表研究综述

2020-05-29 06:21周春艳陈晓红
柳州职业技术学院学报 2020年2期
关键词:效度口语量表

许 鹏,周春艳,陈晓红

(1.南通开放大学,江苏 南通 226000;2.南通市卫生高等职业技术学校,江苏 南通 226000)

引言

口语能力是衡量学习者外语能力的显著标志,同时也是能力短板。一直以来,缺乏科学有效的评价机制是造成这种能力短板的一大原因。学习者口语能力评价也由此成为外语教学界重视的话题。近年来口语考试逐步纳入许多标准化外语测试体系中,成为其重要组成部分。

口语考试的评分是考试信度和效度的重要保证[1],一直是各种口语考试的研究重点。作为评分标尺的口语能力评分量表(rating scales,也称评分标准或等级)更是得到国内外研究者的广泛关注,其对于口语教学、教材开发和编写以及提升教育系统的透明度都有重要的意义。[2]

国内已有研究者从历史的角度对口语能力量表(评分标准)相关研究进行了纵向分析,将其发展划分“专家型经验”“实践者认知”“学习者发展”[3]以及“萌芽期”“发展期”“转变与成熟期”[4]等几个阶段。在一定语言观影响下,口语能力量表(或口语能力元素的相关语言能力量表)编制呈现出阶段性特征,大致经历了三个阶段。20 世纪50 年代,受结构主义语言观影响,早期量表注重对语言知识和语言技能的测评,评价标准制定依赖于专家经验。1955 年由美国外交学院制定的FSI 量表就是这一时期的代表,该表分语音、语法、词汇、流利度和理解度五个方面来评价美国外派军事人员的口语水平。FSI 量表影响很大,后来美国的ILR量表和澳大利亚的ISLPR量表都是在此基础上制定的。至20世纪70年代,社会语言学的发展和语言研究的功能性转向使得交际语言能力观得到推崇,人们意识到语言使用不仅涉及结构规则,还受到社会语言学因素影响,语言测试随之进入社会语言学时期。自Hymes[5]提出“交际能力”这个概念,一系列交际能力模型的提出为量表研制提供了理论框架,其中以Bachman[6][7]提出的交际语言能力模型最有影响力,应用也最为广泛。欧洲的语言能力共同量表、加拿大的CLB量表以及ALTE 量表都深受这种模型的影响。Wilkins[8]、North[9]等人也基于交际语言能力设计出功能意念大纲或量表。进入21 世纪,功能主义语言观的盛行使量表更加地关注现实生活中的语言运用能力,实证研究成为主流研究范式。目前欧美多国(地区)已制定出自己的统一语言量表,如芬兰的“国家证书描述量表”、美国的“美国口语测试量表”、欧洲的“欧洲语言通用参照框架”,实现了语言测试的科学化、规范化。

历史分析有助于把握口语能力量表的发展轨迹,但容易忽视研究对象中部分与部分以及部分与整体间的关系,且上述研究都是以国外文献作为分析文本的。随着语言测试学科在我国的发展成熟,口语能力量表研究也引起人们的广泛关注。本文对国内口语能力量表10 年来的相关文献从共时的角度加以剖析,分别以“口语量表”“口语评分标准”“口试评价”和“口试评分表”为主题词在中国知网上进行文献检索,主要选取了来自中文社会科学引文索引(CSSCI)的核心刊物文献共44 篇。在所得文献基础上进行文本研究撰写综述,以求把握国内研究的历史发展、目前状况及未来趋势。

一、研究方法

高一虹[10]将研究方法分为两大类:实证性研究和非材料性研究。实证性研究又称为材料性研究,以系统的材料采集和分析为特点,包括量化研究和质化研究。非材料性研究指不以系统采集的材料为基础的研究,包括用思辨的方法讨论理论及其应用、具体操作性描述和评价、个人经验与观点。据此方法,对收集到的44 篇国内口语能力量表研究文献进行了分类整理,结果见表1。

表1 国内口语能力量表研究方法

总的来说,国内研究非材料性方法研究比例高于实证性研究比例,但近几年实证性研究比例呈逐渐上升趋势。在实证性研究中,以往由于条件和认识水平限制,量表研制中通常采用经验法,如依赖专家经验对描述语进行分类分级。这种做法由于主观而缺乏科学性。近年来,随着统计分析理论和方法在语言测试中的广泛应用,量表编制的科学性得以提高。概化理论、方差分析、因子分析、Rasch 模型等理论和方法逐渐引入到描述语量化和量表质量检验中。[11]-[13]

二、研究对象

根据对象主体、使用目的和风险规模三个方面,对国内口语能力量表研究进行分类。

根据量表针对的不同对象主体,所编制出的口语量表可以说涵盖了大学、高初中等各阶段的学生群体。刘芹等[14]在大规模调研的基础上构建并验证了适用于我国理工科大学生英语口语测试的分析性评估体系。刘东杰[15]从语言运用、语言表达、交际策略、文化知识和行为表现五个维度构建用于评价高中英语课堂口语展示的标准,并运用多面Rasch模型测评该标准。高淼[16]针对初中生群体的大规模低风险的口语测试制定了EBB 评分标准,并利用多面Rasch 模型对其进行效度验证。而另一方面,专门针对其他学习群体(如成人学习者)的量表几乎没有。

根据不同的使用目的,量表研究多针对通用英语使用情境,很少针对特殊英语使用情境(如商务职场情境)。在国外,为满足工作实际需求,由企业、语言机构等主体机构共同开发的用于内部参考的商务英语量表在20 世纪50 年代便已出现。1976 年,首个专门用于ESP 教学和评估的ELTDU 量表也被开发出来。此外许多量表(如澳大利亚的ISLPR 量表和加拿大的CLB 量表)都包含了特殊情境中外语使用能力的描述。这些量表采用需求分析的方式构建,对接的是企业员工的实际工作或英语为二语的移民的学习需求。对于用于特殊情境中的口语评价量表,国内已开始有学者开始进行初步的理论初探[17]、实际量表编制[18]和综述介绍[19]。随着特殊英语教学的蓬勃发展和使用的日益频繁,编制针对特殊使用目的的英语能力等级量表的必要性日益凸显,成为今后相关研究努力的方向。

根据不同的风险规模,研究既包括大规模、高风险的量表(如大学英语考试口语评分标准),大规模、低风险的量表(如中国英语等级量表),也包括小规模、低风险的量表(如基于校本测试的量表)。目前研究多集中在大规模、高风险量表,这类量表多经过多轮质量检验,受到社会普遍认可。但同时值得一提的是,近年来,根据自身教学评价需求,包括复旦大学[20]、清华大学[21]、中国人民大学[22]在内的不少一流高校都已开发出相应的校本测试项目。这也许是今后量表研究的一个趋势。

三、研究内容

(一)量表制定的原则方法

欧美澳地区制定的语言量表较为成熟,影响也最为广泛。国内相关研究首先从介绍、评价这些量表开始,从中不仅得到教学上的启示和借鉴,也为建设符合我国国情的科学的语言能力量表提供了宝贵经验。韩宝成[23]介绍了ILR(FSI)量表、ACTFL量表、ISLPR量表等国外几个有影响的语言能力量表,并评述每个量表的优缺点。鄢家利[24]介绍了加拿大语言量表CBL2000 的口语标准,并从教学的角度探讨了该量表对语言口语能力培养的启示。王莺莺[25]则探讨了ACTFL 量表对构建我国CET口语测试评估新体系的启示。

上述量表是为了适应不同的教学需求或工作需要产生的,因此在描述体系和等级划分上存在差异,不利于相互之间认证。因此,欧洲相关语言政策部门力图建立共同的参照标准,并经二十余年努力最终形成“欧洲语言能力等级共同量表”。在这一趋势影响下,考虑我国外语教学层次复杂、测试种类多样的现状,同时面对缺乏统一参照标准产生的语言能力描述参数设置不一、精度不一、等级划分不一等诸多问题[26],国内语言教师和测试研究者越来越认识到有必要统一外语评价标准,构建具有中国特色的英语教学“一条龙”体系,以利于组织衔接全国范围内各层次教学,提高教学质量和效率,也便于测试用户对合理评价人才。同时我国的外语测试标准也需要逐步与国际语言测试界接轨。[23][26]-[29]

量表制定是统一我国外语测试标准的基础工程。在这一认识下,我国学者围绕着构建科学统一规范、符合我国国情的外语能力等级量表的原则方法开展了一系列卓有成效的理论探索,提出了一系列理论、原则和方法。杨惠中等[30]认为统一量表制定要以从社会需求出发,注重科学性、实用性和可操作性为根本原则,具化为五个方面:以交际语言能力理论为基础;分别描述听、说、读、写能力;对语言能力进行“能做”描述;语言能力等级描述根据需要决定详略;统一量表须便于理解和使用。在这些原则指导下,他们确立了具体可操作的工作步骤,并以口语能力评价标准为例,具体阐述了英语口语能力描述语量化与口语能力等级量表制定的原理和工作方案。刘建达[31]指出科学性、实用性和可操作性是我国英语能力等级量表研制中要注重的原则。其中科学性是要求量表的制定必须基于先进的语言能力和心理测量理论,采用科学的研究方法。围绕着科学性原则,专家们纷纷建言献策,提出自己的思路方法。刘建达和彭川[32]在指出《欧洲语言共同参考框架》存在问题的基础上,结合我国外语教学实际,从量表建设的总体原则、描述框架、描述语表述及分级验证等方面探讨了如何确保量表研制的科学性。

2018 年4 月12 日,教育部、国家语言文字工作委员会正式发布了《中国英语能力等级量表》(China's Standards of English,简称CSE)。CSE 量表的建设立足我国外语教育基本国情,同时借鉴国际上量表研制的成功经验,以面向使用为原则,分阶段、分项目地对各等级的能力特征进行描述,保障了量表的科学性、规范性。[33]可以说,CSE 量表的成功研制与前期扎实有效的理论研究是分不开的。

(二)描述语研究

在以能力构念为基础的结构框架下收集描述语,并对描述语进行分类分级,进而建立口语能力描述语库,是量表建设的关键步骤,也是描述语量化研究关注的主要方面。其中描述语的分类分级是量表编制的技术难点与核心任务。我国研究人员借鉴反思了国外相关研究的优缺点,摸索出适合我国国情的科学实施方法。对于中国英语等级量表中描述语的分级分类,一些国内研究者指出,与《欧框》主要通过定量分析不同,CSE量表描述语的实证和分级采用质性分析与量性分析相结合的方式,最大程度保障了分级的科学性[32][34]。此外,也有学者从定性角度分析了描述语的结构组成和语义特征。朱正才[35][36]不但从量化的角度提出了描述语量表化的可行性方案,还从定性的角度论述了描述语的语义结构和规范表述。揭薇和金艳[37]则从词汇特征、高频词、词类分布和名词化等方面分析了中国英语能力等级量表的口语能力描述语的语体特征。定性研究相对还是比较少。

(三)量表的效度研究

量表的信度和效度是其质量的重要保证。首先,信度是效度的基础和前提,没有信度的测试不可能有效度。因此口语评分量表的信度倍受国内研究者的关注,他们主要从评分员执行量表的一致性和严厉度上加以分析研究。但传统的信度研究仅考虑评分员因素,忽略了口语评分是受多种因素共同影响的事实,因而具有一定的局限性。而效度将评分员、评分标准、评分流程等多个因素考虑在内,能更为全面地体现评分的准确性,被预测为是21 世纪语言测试研究的热点问题之一[38]。效度对于口语、写作等表现型测试评分而言更是至关重要的[39]。因此,如何保证量表的效度成为语言测试研究者,特别是口语测试研究者关心的首要问题。

近年来,国内语言测试领域围绕效度从理论和实证两个方面展开了一些研究,研究过程也逐渐从单纯的理论引介转向运用创新。理论上主要探讨了用于效度验证的框架模型。朱正才[40]尝试从时间、科学道德和教育生活三个维度为中国英语能力等级量表的效度研究构建一个完整的理论框架。这一框架包括了即时效度、延时效度、构念效度、公平效度、教学反拨效度、社会影响效度几个概念,较为全面地涵盖了效度验证所涉及的方面。实证上主要针对实际量表编制中的效度质量控制。一些大规模标准化的外语口语考试评分量表(标准)都进行了多次的效度检验,包括大学英语考试口试[41]、英语专业四级口试[42]、高等学校英语应用能力考试口试[43],在此过程中量表不断得以改进完善,提高了考试的科学化水平。此外,研究者还对一些自主开发的用于校本口语测试的量表进行了效度检验[44][45]。

以上研究说明效度检验已成为量表编制过程中不可缺少的一部分。但总的来说,国内语言测试评分效度研究中针对口语的研究依然有限。同时这些有限的研究多集中在评分过程和评分员方面,专门针对评分量表的研究更不多见。

四、小结

国内口语能力等级量表的相关研究起步虽晚,但十多年来取得了不俗的成果。这既得益于借鉴国外已有成熟量表(尤其是欧框)的宝贵经验,更是与国内研究者自身努力分不开。我国特有的外语教学环境和教育体制决定了我们不可能直接照搬国外现成的语言能力等级量表。因此,我国学者立足国内实际教情学情,面向我国的语言能力量表建设,秉持服务本国外语学习者的理念,进行了扎实有效的理论研究和实践探索,使口语量表研究逐渐朝着科学化、规范化、标准化方向发展。

目前国内研究呈现以下特点:研究方法上,以非材料性研究为主,量表编制的实证研究相对缺乏;研究对象上,量表编制的目标群体主要为在校学生(尤其是大学生),几乎没有以其他社会群体(如成人等在职学习者)为对象专门编制的量表,量表使用情境也多以一般使用目的为主,很少针对特殊使用目的(如商务、职场环境);研究内容基本涉及了能力构念、描述语、效度等量表本身研制中的各核心方面,但量表应用研究较少,比如如何建立量表与教学评价的关联;研究趋势上,统一化、大规模、高风险的量表编制成为趋势,但小规模、低风险、基于校本的诊断性量表研究缺乏。不容否认,口语评分标准(量表)的研究仍处于起步阶段[46]。

回顾历史,展望未来,国内口语能力量表研究可以进一步地从以下两个方面进行拓展。一是拓展研究对象。未来研究可以收集代表多个语言使用群体和多种语言使用情境的口语实证数据,进一步扩展量表使用范围。二是扩展研究视角。现有量表多是从言语的单模态角度对学习者的口语能力进行评价。副语言和非语言特征是口语活动区别于其他语言活动的独特之处[47],这使得评价口语能力相对复杂。近年来虽有学者从非言语层面对口语评估进行了研究,但这类研究数量较少且缺乏系统性。未来研究可从多模态视角研究口语能力量表的编制。

猜你喜欢
效度口语量表
《广东地区儿童中医体质辨识量表》的信度和效度研究
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
胸痹气虚证疗效评价量表探讨
酒中的口语诗
提高口语Level 让你语出惊人
口语对对碰
三种抑郁量表应用于精神分裂症后抑郁的分析
慢性葡萄膜炎患者生存质量量表的验证
被看重感指数在中国大学生中的构念效度
初中生积极心理品质量表的编制