马利红 刘坚
(天津职业技术师范大学, 天津 300222;北京师范大学, 北京 100875)
提 要:作为21世纪技能之一,批判性思维在外语教育界越来越受到关注,但是批判性思维教学只有和批判性思维评价相结合才能真正培养学生的批判性思维。本文从测评内容、测评形式、测评题型、信度和效度证据等方面综述国外批判性思维测评研究的新进展,旨在为我国外语界开展批判性思维评价研究提供参考。
外语界近几年与批判性思维有关的研究数量不断上升,且主要集中在批判性思维培养与外语技能的融合方面(Razaei et al.2011:769-777)。但是批判性思维教学只有和科学的批判性思维评价相结合才能真正培养学生的批判性思维(Abrami et al.2014:275-314)。作为提升批判性思维培养质量的有效方式,批判性思维测评研究成为外语教育领域比较重要的研究课题。
目前,我国外语界对于批判性思维的测评研究以外语类大学生思辨能力量具(文秋芳等2010:19-26)、英语专业硕士生思辨倾向量具(张莎文秋芳2017:110-114)为代表,对其他学段外语学习者批判性思维的测评研究尚不足。本文探讨国外批判性思维测评研究的新进展,旨在为我国外语界未来相关研究指明发展方向。
从测评内容上,国外批判性思维测评分为批判性思维人格倾向测评、批判性思维技能测评和综合测评。
批判性思维人格倾向是一个人进行批判性思维的态度、特质和倾向(Bensley et al.2016:158-168)。有学者认为批判性思维人格倾向常常包括寻求真理、开放性、系统性、自信心、好奇心、认知成熟度等(Facione,Facione 1992)。
常见的批判性思维人格倾向测评工具包括加利福尼亚心理动机测评(CM3)和加利福尼亚思辨人格倾向量表(CCTDI)等。CM3 是针对美国中小学生的批判性思维人格倾向量表,包括学习导向(Learning Orientation)、创造性问题解决(Creative Problem Solving)、精神集中(Mental Focus)、认知完整性(Cognitive Integrity)4 个维度,研究表明这4 个维度与学生的学习动机和学业成绩显著正相关(Giancarlo et al.2004:347-364)。CM3 测量的批判性思维人格倾向不局限于特定学科课程,而是测量学生智力活动(如推理)的认知参与度和内在动机。CCTDI 是应用广泛的批判性思维人格倾向测评工具,主要应用于大学生和中学高年级学生(Facione,Facione 1992)。
近些年来,国际文献中报告研究者对批判性思维人格倾向量表做进一步开发和验证,如批判性思维人格倾向量表(CTDS)的发展和心理测量评价过程。CTDS 的题目由批判性思维人格倾向工具改编,运用CTDS 分别对两组被试(一年级本科生和研究生)进行心理测量评价,在第一个研究中,探索性因子分析结果表明CTDS 是两因子模型:批判性开放和反思性怀疑;第二个研究中,多组验证性因素分析进一步验证两因子模型,而且多组验证性因子分析结果表明两组学生理解题目的路径相似(Sosu 2013:107-119)。教育学家、心理学家都认为CTDS 是测评批判性思维人格倾向的有效工具(同上)。
对批判性思维技能及子技能比较有影响的分类是美国哲学协会德尔菲项目提出的解释、分析、评价、推理、阐释、自我调节6 项技能和16 项子技能(Facione,Facione 1992)。基于批判性思维是“一种认知,有助于决定做什么或相信什么”,研究者开发康奈尔批判性思维测评(CCTT),题目涉及假设、可信度、演绎、归纳、推理5 个方面,CCTT 将测试题目融入真实生活场景中,而且整套题目的测试场景是连贯的(Ennis,Millman,Tomko 1985)。根据元分析结果,CCTT 是应用最广泛的批判性思维测评工具(Abrami et al.2014:275-314)。
根据德尔菲项目对批判性思维测评的建议,研究者开发加利福尼亚思辨技能测评工具(CCTST)。之后,研究者根据德尔菲报告的测评指南进一步发展CCTST,旨在测评批判性思维的过程性技能,如演绎、评价、推理和论证等。
批判性思维是多维构念,既包括批判性思维技能,也包括批判性思维人格倾向和元认知(Bensley et al.2016:158-168),因此批判性思维综合测评是一项艰巨任务。哈尔彭批判性思维测试(Halpern Critical Thinking Assessment,HCTA)是基于日常生活场景将批判性思维人格倾向和技能融合在一起的综合测评,大量样本已证明HCTA具有较好的信度和效度(Halpern 1998:449-455)。最近 开发的 HCTAES (Halpern Critical Thinking Assessment Using Everyday Situations)从5 个维度评价大学生的批判性思维:推理能力、论证分析能力、假设检验能力、应用能力、决策和解决问题的能力,题目涉及25 个日常生活情境,每个情境下包含一道选择题和一道开放题,进一步完善HCTA(同上 2006)。
从测评形式上,国外批判性思维测评包括嵌套于特定学科的批判性思维测评和通用型批判性思维测评。
嵌套于特定学科的批判性思维测评用于评价某一特定学科领域的批判性思维,如外语界学者根据学生的外语写作表现评价学生的批判性思维(Stapleton 2002:250-257)、批判性思维特质调查CTAS(Critical Thinking Attribute Survey)主要测试与教育和教师发展相关的特定学科批判性思维技能(Forawi 2016:52-62)。语篇测试(essay test)和“真实情景评价”被认为是在特定学科领域提高批判性思维评价效度的两种测评方法(Tynjala1998:173-189)。
目前,嵌套于特定学科的批判性思维测评已经在下列学科领域得到发展,如心理学(Bensley et al.2016:158-168)、生物学(McMurray et al.1991:183-192)、外语教育(Stapleton 2002:250-257)等。但是目前这些嵌套于特定学科的批判性思维测评主要用于预测学科成绩,很少真正用于评价学习者的批判性思维技能和倾向。
通用型批判性思维测评用于评价学生的通用批判性思维技能,如CCTT 和CCTST.剑桥思维能力测评TSA(Cambridge Thinking Skills Assessment)也是一项评价学生学习任何专业都需要的通用思维技能的测评工具,目前已被剑桥大学、牛津大学和伦敦大学学院采用。
国外批判性思维测试采用选择题、开放题、选择题+开放题、语篇测试、表现性评价等形式。
选择题具有内容覆盖面广、评分标准客观、评分速度快等独特优势,可为评价批判性思维的基本方面提供证据,因此有人建议在开发批判性思维测试题时使用选择题。但研究证明利用选择题测评批判性思维受被试批判性思维复杂程度和测评理念影响,只能测量认知水平,难以测试批判性思维的核心内容,难以评价被试对解决复杂问题的态度(Ku 2009:70-76,Norris 1989:21-26)。
根据评价批判性思维测评工具的3 个标准:一是测评是否基于批判性思维的科学概念,二是测评内容是否全面,三是测评题目的难度是否符合学生水平,研究者发现目前很多批判性思维测评缺乏综合性内容,特别是选择题,往往漏掉批判性思维中的重要信息(Ennis 1993:179-186)。
尽管选择题测评批判性思维有诸多弊端,但综合科学性、有效性、评分一致性、经济性和可行性等多方面考虑,改善选择题仍具有重要的实践意义(Norris 1989)。因此,很多批判性思维测试仍使用选择题形式,比如美国大学学业水平测试CAAP(Collegiate Assessment of Academic Proficiency test)就采用选择题评价学生对特定语篇进行分析、评价和归类的能力。2015年11月ETS 推出的评估大学生学习成果的最新批判性思维测试也采用选择题形式,在每段语料后给出几个问题,主要考查分析和综合能力,分析能力包括评估证据本身及其使用、分析和评估论证过程、理解论证语言、区分有效论证和无效论证,综合能力包括展开有效论证等(刘欧2016:13-17)。
采用开放题测评批判性思维越来越引起学界关注(马利红2018)。例如,作为一种开放性批判性思维测评工具,EWCTET(The Ennis-Weir Critical Thinking Essay Test)适用于高中及大学生,评价被试辨别语篇中的推理漏洞以及如何捍卫自己的立场,即测评被试的分析能力和在真实情景中的反应能力和论证能力(Ennis,Weir 1985)。
影响力较大的开放性批判性思维测评方法是3 种基于语篇的批判性思维测评方法(Ennis 1993:179-186)。一是高复杂结构(high structure),运用议论文测评批判性思维,即提供一篇论证性文章,标出段落,但大部分段落中有论证错误,要求学生对每一段及整篇文章中隐含的写作者思维方式进行评价,并论证自己为何这样评价。EWCTET 就是高复杂结构语篇测验(high structure essay test)的例子。二是中等复杂结构(medium structure),也是采用议论文测评批判性思维,即提供一篇论证性文章但文章结构相对简单,要求学生对文章主题进行论证或者辩护,但是不具体阐述为何这样论证或辩护,可采用综合评分或分析评分方法。目前,国外有些大学的高级定位考试(College Board AP tests)一般采用这种题型。三是微复杂结构(minimal structure),用于测评的文章结构较简单,要求考生只回答一个问题或阐述一件事,比如要求学生就某个感兴趣的话题或问题发表看法或捍卫自己的立场,这种题型可以给学生更多发挥空间,但是为教师提供的诊断性信息较少,也可采用综合评分和分项评分方式。美国的伊利诺斯批判性思维作文大赛(The Illinois Critical Thinking Essay Contest)使用这种测试题型。尽管批判性思维语篇测试这种开放性测评模式有利于展示被试思维过程中的认知能力和认知倾向,但是很多人也认为特定情境和严谨结构限制了被试作答,难以充分显示被试的思维倾向,而且主观评分深受评分员信度影响(Bridgeman et al.2012:27-40)。
为测量批判性思维的教学成效,学者们积极探索更多开放性测评方式,如档案袋评价、采访、小组调查、假设情景应答、学生自我报告、认知测试等(Halpern 2006)。另外,研究者还建议使用半结构性开放题,即提供真实生活场景,让学生批判性表达自己的思想(Ennis 1993:179-186),这种测评题型可以考查批判性思维的更多方面。“开放题可反映被试的思维过程,可考查被试思维过程的清晰性、相关性与逻辑性,还可考查辩证思维的深刻性和灵活性,但是开放题也有一定的局限性,比如评分带有一定主观性,评分速度慢,信度低等”(文秋芳2012)。
选择题和开放题在测评批判性思维时各有局限性,比如选择题在命题时费时费力,难以全面、有效地测试出批判性思维技能和倾向,开放题则在评分时耗费精力,信度难以保障,开放题中的测试情景又太具体、主观性偏强(Liu et al.2014:1-23)。于是,有研究者提出一个折中办法,即采用选择+构答反应(constructed response)的测评模式,让学生在选出答案后写出原因,由于命题者和被试的立场与观念不同,被试可以论证自己的答案(Ennis 1993:179-186)。鉴于选择+构答反应这种题型综合性强,可弥补选择题的不足,允许学生背景差异和对题目阐释的差异存在,很多研究者力荐采用选择+构答反应的形式命制批判性思维题目。研究表明尽管构答反应题型可为批判性思维测评提供真实情景,但是表面效度很强,作答时间等同的情况下,构答反应题的信度低于选择题(Lee et al.2011:115-136)。
Halpern 研发的 HCTA 和 HCTAES 将选择题和构答反应相结合,每个情境下有一道选择题和一道开放题,测量被试的不同认知能力,选择题主要考查批判性思维技能,开放题主要考查批判性思维倾向。另外,EPP(ETS Proficiency Profiles),CLA+都是采用选择题和构答反应相结合的形式(Educational Testing Service 2010)。Ku(2009:70-76)指出选择题、调查问卷可能不是最有效的测评批判性思维的方式,并提出包括多项选择和开放题的综合性测评方式以监测被试选择某一选项时的思维过程,与Ennis(1993:179-186)和Halpern(2006)的测评理念一致。
近些年来,国际上出现通过完成某项任务测评批判性思维能力的方法,即表现性评价。自然观察是常见的表现性评价方法之一,如受过培训的观察者以一个人或一组人的活动为中心,进行观察并记录,描述一系列事情。结构稍复杂的表现性评价是运用学生档案袋记录学生批判性思维的日常发展和进步情况。尽管表现性评价是测评批判性思维的好办法,但是这类评价的效度难以建立(Ennis 1993:179-186)。
目前国际上已有的结构较严谨的表现性评价是美国国家教育进展评估(NEAP)开发的拓展性评价。2002年,美国教育援助委员会通过表现性评价测评大学毕业生的批判性思维技能,包括选择题和开放性写作题,其中开放性写作题比较成熟,要求学生阅读分析相关语篇后做出批判性回应。现在通过表现性评价测评学生的批判性思维已被拓展应用到美国中学生群体。
批判性思维具有多维特征,但是现有批判性思维测评大多报告分维度的得分表现。虽然分维度得分可提供批判性思维某一技能的详细信息,但这些维度的信度并不高,维度划分并没有足够的实证证据(Liu et al.2014:1-23)。更有甚者,基于60 项研究的元分析表明批判性思维其实只有一个单因子(Bernard et al.2008:15-22)。
批判性思维测评的效度研究主要通过与其他认知技能的相关性来验证,比如批判性思维与一般认知技能(如SAT 和GRE)具有中度相关,与GPA 和课程成绩中度相关(Halpern 2006),而且具有较高批判性思维的人比具有较低批判性思维的人生活更加积极。关于效度验证的研究表明批判性思维测评研究的数量和质量差异较大,批判性思维测评的普遍问题包括维度划分证据不充分,子维度信度低,效度验证证据不充分等(Liu et al.2014:1-23)。
批判性思维测试工具和测评方式的发展说明批判性思维测评越来越多样化、学科化和动态化,为我们开发研制适合中国外语学习者的本土化测评工具提供很好的借鉴。未来批判性思维测评要进行情景化、个性化和多样化的探索,量化测评和质性评价相结合,以更加详实具体的数据展示学生的批判性思维技能和人格倾向。
思维除具有普遍性特征外,还受文化因素影响(文秋芳2012)。国内学者对批判性思维的测评研究缺乏对文化因素的探讨,难以和国际上同类研究进行比较。因此,研究我国外语学习者的批判性思维能力,不能一味照搬西方理论,测评工具也不能停留在对国外工具的翻译和修订上,应结合我国学生的思维特点,开发适合我国文化背景和学段特征的批判性思维测评工具。