国外批判性思维开放题测评的发展及启示

2018-05-30 08:18马利红
中国考试 2018年3期
关键词:信度批判性语篇

马利红

(天津职业技术师范大学,天津 300222)

批判性思维能力不仅是21世纪公民必备的核心素养,而且是很多国家高等教育(甚至基础教育阶段)的重要目标。近年来,批判性思维培养引起广泛专注和热烈讨论,其中我国外语界尤其重视培养学生的批判性思维,但批判性思维培养只有和批判性思维测评相结合才能真正取得成效[1]。迄今国外已开发出很多成熟的批判性思维测评工具,如加利福尼亚系列、哈尔彭系列、沃森-格莱泽系列、剑桥系列等。国内开发的批判性思维测评工具以中学生审辩式思维测评和外语类大学生思辨能力量具为代表。国内外已有的批判性思维测评工具以客观题形式为主,但研究表明,利用客观题测评批判性思维受被试的批判性思维发展水平和测评理念影响,只能测量其认知水平,难以测量批判性思维的核心技能[2]。与客观题相比,开放题强调在真实生活情境中解决问题,能最大程度激发被试的思维过程,有助于多角度思考问题,具有测评批判性思维的天然优势[3]。目前,我国对于批判性思维开放题测评的开发和研究还处于初级阶段,西方国家的批判性思维测评研究历史悠久,成果显著。了解国外批判性思维开放题测评的发展能为我国开展相关研究提供借鉴与参考。

1 批判性思维的内涵

一般认为,批判性思维起源于古希腊的苏格拉底,而现代批判性思维则可以追溯到杜威的“反思性思维”。后来,恩尼斯提出批判性思维就是理性的反思性思维,用来决定信念和行动。20世纪90年代,批判性思维的内涵强调元认知能力和问题解决能力,著名的德尔菲项目提出批判性思维包括思维能力与人格倾向,并对批判性思维的6种技能达成共识,即阐释、分析、评价、推理、解释、自我调节[4]。近年来,随着对批判性思维培养的实证研究增多,有些研究者倾向于认为批判性思维是以一般方式定义并可以在多个学科领域广泛应用的技能,但需要依靠特定学科主题的知识、常识和工具进行表达,是内化于特定学科领域的[5]。批判性思维的内涵是批判性思维测评的基础,直接影响着批判性思维测试题目的开发。

2 国外批判性思维开放题测评发展现状

本研究以“critical thinking assessment”为检索关键词,对Web of Science核心子集数据库进行文献检索,检索年限不做限定,共得到87篇文献。为保证研究文献的全面性,本研究还对批判性思维专业测评网站Insight Assessment和Foundation of Critical Thinking官网上有关批判性思维测评的在线文档进行梳理。通过文献分析,共得到批判性思维测评相关文献93篇。通过对文献内容的二次分析,共得到批判性思维开放题测评相关文献34篇。通过对文献内容进行审读,笔者发现国外批判性思维开放题测评方式可以归结为三种:批判性思维语篇测试、批判性思维读写测试、批判性思维写作测试。

2.1 批判性思维语篇测试

测评批判性思维时,语篇测试比选择题形式更科学,因为选择题主要侧重批判性思维的评价技能,即被试作出正确判断的能力,而语篇测试可以评价批判性思维的创造性方面,即被试对语篇内容作出回应并有逻辑地捍卫回应的能力。有研究者曾提出三种批判性思维语篇测试方法:一是超复杂结构(high structure),即提供一篇标有段落的论证性文章,大部分段落中有论证错误,要求被试对每一段及整篇文章中隐含的写作思维方式进行评价,并论证为何这样评价;二是中等复杂结构(medium structure),即提供一篇结构相对简单的论证性文章,要求被试对文章主题进行论证或者辩护,但不具体阐述为何这样论证或辩护;三是微复杂结构(minimal structure),即提供一篇结构较简单的文章,要求被试就某个感兴趣的话题发表看法或捍卫立场[6]。上述三种批判性思维语篇测试方法对批判性思维开放题测评的开发和研究具有重要指导意义。

在批判性思维语篇测试中,运用最广泛的是《恩尼斯-韦尔批判性思维语篇测试》(Ennis-Weir Critical Thinking Essay Test,EWCTET)。 EWCTET在论证语境中测评被试的通用批判性思维技能,评价被试辨别语篇中的推理漏洞以及如何捍卫自己立场的能力。EWCTET往往就一个熟悉话题,以给报社编辑写信的形式提供语境,要求被试阅读和评价信件中表达的观点,写回信对此作出判断和评价并提供证据支撑。原始信件中的每一段代表批判性思维的不同方面,比如概括主旨大意,提供支撑理由,辨别其他可能性解释,识别或避免含糊、不相关、重复循环、过度概括、情绪化或带有偏见的语言等。命题时,首先要对原始信件的每个段落进行编号,要求被试对每一段内容都作出回应或辩护,然后再回应整封信的内容。这种递进式命题结构科学,设问层层深入,符合被试的思维发展过程,有利于批判性思维的充分发挥。

EWCTET的评分关注被试对原始信件内容的回应本身,而不是写作的质量。虽然有关语篇测试内容效度的证据并不多见,但是语篇测试强调在真实生活情境中应用评价和提出观点等批判性思维技能。有学者认为,语篇测试的真实性本身就蕴含了内容效度和生态效度[7]。

EWCTET具有开放性,允许不同风格的回应存在,这与批判性思维测评所要求的真实生活情境相吻合。但是语篇测试的开放性使得评分更加主观和耗时,评分员对较广范围内的作答反应作出合理判断时必须进行批判性思维,评分的主观性和非标准化导致语篇测试很难成为正式场合评价被试批判性思维的有力工具,但语篇测试可以成为评价学习者批判性思维发展过程和促进批判性思维教学的有力工具。

2.2 批判性思维读写测试

阅读和写作关系密切,为了能够进行批判性写作,学生必须能够批判性阅读。批判性阅读包括阅读前弄清文本材料的写作目的;阅读中与文本材料进行对话,比如通过质疑、概括、对比、关联等方式多角度思考文本内容;阅读后进行反思、概括和阐释文本,从自己的经验出发提供例证,综合考虑多种观点,有逻辑地分析段落大意,根据清晰性、准确性、相关性、逻辑性、重要性等标准评价文本内容。同理,作为交流思想和促进学习的工具,批判性写作包括深化对核心概念的理解,澄清概念间的关系,分析文本材料的观点与自己观点的差异。批判性写作也需要反思和监控写作过程,基于先前经验举例,综合考虑各种观点并阐释主题,根据清晰性、准确性、精确性、相关性、逻辑性、重要性、公平性、深度和宽度等思维标准评价写作内容[8]。

用批判性阅读和批判性写作相结合测评被试的批判性思维发展情况以Paul和Elder研发的国际批判性思维阅读与写作测试(International Critical Thinking Reading and Writing Test,ICTRWT)为 代表。ICTRWT包括五个水平,从低到高依次为释义(paraphrasing)、解读(explicating)、分析(analysis)、评价(evaluation)、模仿(role-playing)(详见表1)。

根据批判性思维阅读和写作能力的五个水平,ICTRWT包括五项基础测试,即Form A、Form B、Form C、Form D、Form E,每项测试所测评的思维能力从低到高依次为逐句释义文本的能力、解读文本命题的能力、分析文本逻辑的能力、评价文本逻辑的能力和模仿作者思维的能力(详见表2)。这五项基础测试不一定同时出现在同一个测试场景中,可以先采用考查水平一和水平二的测试材料,然后采用考查水平三、四、五的测试材料,特定测试情境下可根据需要可采用不同测试形式的组合。

ICTRWT中,每种测试形式都采用1~10的评分等级,包括unskilled(0~2分)、minimally skilled(3~4分)、beginning skills(5~6 分)、skilled(7~8 分)、highly skilled(9~10分)五个水平。评分方式包括两种:单独评分和整体评分。ICTRWT的评分程序有明确要求,比如评分之前,评分员应该先熟悉批判性思维、批判性阅读和批判性写作的内涵。为保证评分信度,评分程序应坚持如下原则:评分前评分员应亲自做一遍测试题,然后对比他们的作答与参考答案的异同,把参考答案看作合理答案而不是最正确的答案,因为释义文本、概括大意、解释推理的方法有很多种;至少三位评分员一起评分且对被试作答达成共识,评分误差控制在±1分区间内。ICTRWT已有充分的效度和信度验证,为我国外语教育界开展批判性思维教学和测评研究提供了可资借鉴的思路。

2.3 批判性思维写作测试

思维和写作关系密切。写作过程既是提出观点、组织论证和反复修改的过程,也是理解、分析、推理、评价和自我调控的批判性思维过程[9]。作为一种认知技能,批判性思维重视反思,反思既可促进思维发展,也可提高写作能力,因此写作过程是思维与写作相互作用、相得益彰的发展过程。以写作形式评价批判性思维在学术界和实践中都取得了令人欣喜的成果。

表1 国际批判性思维阅读与写作测试能力框架表

表2 国际批判性思维阅读和写作测试基础题型

在学术界,以写作形式评价批判性思维的测试方法主要分布在外语领域。Wade最早提出运用写作发展和评价批判性思维,并认为外语写作体现出的批判性思维能力包括提出问题、定义问题、提供证据、验证假设、分析偏见、避免情绪化推理、避免简单化、考虑其他解释等[10]。有研究者基于图尔敏论证模型提出以议论文为媒介,通过语篇分析评价日本二语学习者批判性思维能力的评价框架。具体来讲,通过论证数量、证据范围、相反观点、谬误数量、反驳等评价二语写作中的批判性思维[11]。一篇好论证是精心组织、多视角阐释并由充分证据支撑的,是观点清楚、证据充分、论证得当、反证有力的。论证和反证相融合评价二语写作中的批判性思维受到研究者青睐,比如Qin和Karabacak基于图尔敏论证模型提出六维度分析框架,即论断、证据、反证论断、反证证据、反驳论断、反驳证据[12]。

在实践中,美国教育考试服务中心(Educational Testing Service,ETS)认识到批判性思维的重要性并改革题型,在写作中渗透对批判性思维的评价。比如2002年GRE测试中增加的分析性写作包括分析问题和分析论证两种题型。在分析问题部分,被试可以给出具体理由或适当案例阐释观点或维护立场,拼写和语法错误不会影响分析问题的得分,但是语篇的逻辑结构和观点表达的模糊性会影响得分。在分析论证部分,主要评价被试能否发现所给论证中的逻辑错误,这类题目的得分与被试在论证逻辑中发现问题的数量和评价结论的合理建议有关。分析问题和分析论证相辅相成,分析问题要求建构自己的观点并提供证据支撑,分析论证要求通过分析论点和论据来评价他人的观点。正如ETS官网所说,分析性写作测评被试的批判性思维和分析性写作技能,评估被试表达、支持和评价复杂观点的能力。

总之,写作过程和批判性思维过程具有一定相似性,二者都要求运用充分相关的证据合乎逻辑地论证观点。写作能力在某种程度上反映了批判性思维能力,批判性思维能力也能通过写作外显。不管是在学术研究中还是在实践中,通过写作评价批判性思维已越来越受关注,有学者甚至认为,在写作中评价学生的批判性思维将是批判性思维测评发展的重要趋势[13]。

3 讨论与启示

近年来,我国批判性思维研究蓬勃发展,研究成果迅速增加,研究领域逐渐拓展,研究队伍不断壮大,但批判性思维测评研究还比较薄弱。通过对国外批判性思维开放题测评研究的梳理,我们发现批判性思维开放题测评呈现两大趋势:一是重视命题材料的选择,二是评分过程重视论证质量,而非语言本身,这对我国批判性思维测评研究的命题、评分等方面具有一定的启示作用。

3.1 命题

国际知名的批判性思维基金会(Foundation for Critical Thinking)提出设计批判性思维任务时要满足四个标准:一是应包括基本概念和核心概念;二是应要求学生运用合适的认知技能;三是应使学生思维满足一定的智力标准;四是应关注冲突语境中的推理判断问题或需要证据和推理的复杂问题。上述批判性思维语篇测试、读写测试和写作测试都包含与批判性思维任务标准一致的情景材料,且情景材料的信息都是被试熟悉的话题。这种命题形式有一定的理论基础。根据输入假设理论,只有获得足够的输入,才能有高质量的输出,因此作为输入的情景材料可以促进论证输出[14]。另外,监控(monitoring)、阐述(elaborating)、构造(structuring)、体现(projecting)四步以读促写也涵盖阐释、分析、评价等批判性思维技能[15]。

这启示我们设计批判性思维评价任务时要提供多样化的情景材料,可以是文字、表格、图示,或者文字加图示、文字加表格等多种表征形式。情景材料的内容要来自日常生活且具有正确价值导向,情景材料的语言应与考生的认知能力相匹配,一般不应包含新概念或新单词,或者所含新概念或新单词不影响考生对情景材料的理解。设问要语言清晰、明确、指向性强,能驱动被试利用先验知识和其他信息进行批判性思维,确立并捍卫自己的观点。

3.2 评分

批判性思维开放题测评的评分重视内容本身,而不是语言形式,即根据学生支撑其立场的论证质量(而非回答的正确性)来评价学生的批判性思维表现。批判性思维开放题测评依据被试在论证或得出结论过程中提供的证据质量和逻辑进行评价,这对在外语教学中通过开放题评价批判性思维的评分具有一定的启示作用。

因批判性思维具有多元性和复杂性,对于采用开放题形式测评批判性思维的评分要实行双评或三评。具体操作如下:

第一轮:两位评分员独立对随机抽取的若干份作答运用分析评分法进行评分,初步计算两位评分员的内部一致性信度系数。评分员需注意评分标准描述的特定细节,然后讨论评分标准的哪些方面影响给分。

第二轮:基于两位评分员的反馈,修改评分标准,确保评分标准的描述具体、细化、具有可区分性和可操作性。

第三轮:运用修改好的评分标准,两位评分员再次独立对随机抽取的另外若干份文本进行评分,计算评分员内部一致性信度系数,然后评分员对修改后的评分标准再次反馈,对评分标准进一步微调。

第四轮:两位评分员运用最后定稿的评分标准对所有作答进行评分,取两位评分员的均值作为被试的最后得分,如果评分差异超过一定阈值范围,可进行三评。

3.3 信度和效度验证

信度指测验结果的稳定性和一致性,信度越高,测评的标准误越低。常用的信度检验方法为内部一致性信度系数(即α系数)。α系数越高,代表测评工具的内部一致性越高。上述三种批判性思维开放题测评工具的信度检验都采用评分员内部一致性信度系数。这启示我们采用开放题测评批判性思维时,信度检验可采用评分员内部一致性信度系数。如果只有两人评N份试卷,或一人先后两次评N份试卷,用斯皮尔曼(Spearman)等级相关系数,如果三个以上(含三个)评分者评N份试卷,用肯德尔和谐系数计算信度。

效度指测评能够在多大程度上测量到所欲测的心理或行为特质。上述批判性思维开放题测评中,EWCTET没有报告效度信息,ICTRWT和写作测评都采用专家效度和效标关联效度进行效度验证。这启示我们采用开放题评价批判性思维时,效度验证可以采用多种方法,一是可以进行专家效度验证;二是可以用其他效标与批判性思维技能的相关来验证,国际成熟的批判性思维测评工具或学业成绩都可以作为批判性思维开放题测评的效标。

培养学生的批判性思维能力已成为我国外语教学的重要目标之一,如何准确测评学习者的批判性思维是影响批判性思维培养成效的重要一环。国外批判性思维开放题测评的经验对我国外语教学领域的批判性思维培养和评价研究具有参考价值。虽然开放题具有测评批判性思维的天然优势,但是运用开放题测评批判性思维也存在很多弊端,比如评分时耗费精力、信度难以保障、主观性偏强、评分受评分员信度影响等。因此,对于批判性思维测评,我们要理性对待,选择适合学生思维水平的最佳测评方式,才能助力我国学生的批判性思维培养。

[1]ABRAMI P,BERNARD E,BOROKHOVSKI D,et al.Strategies for teaching students to think critically:A meta-analysis[J].Review of Educational Research,2014(2):275-314.

[2]KU K Y.Assessing students’critical thinking performance:Urging for measurements using multi-response format[J].Thinking Skills and Creativity,2009,41(1):70-76.

[3]ENNIS R H.Critical testing assessment:Theory into practice[J].Teaching for Higher Order Thinking,1993,32(3):179-186.

[4]FACIONE P A.California Critical Thinking Skills Test Manual[M].Millbrae:California Academic Press,1990.

[5]VENTURA M,LAI E,DICERBO K.Skills for Today:What We Know about Teaching and Assessing Critical Thinking[M].London:Pearson,2017.

[6]ENNIS R H,WEIR E.The Ennis-Weir CT Essay Test:An Instrument for Testing and Teaching[R].Pacific Grove,CA:Midwest publications,1985.

[7]NORRIS S P,ENNIS R H.Evaluating critical thinking[M].Pacific Grove,CA:Midwest Publications,1989.

[8]PAUL R,Elder L.Critical thinking:Learn the tools the best thinkers use[M].Columbus,OH:Pearson Prentice Hall,2006.

[9]DEANE P.Writing Assessment and Cognition[M].Princeton,NJ:Educational Testing Service,2011.

[10]WADE C.Using writing to develop and assess critical thinking[J].Teaching of Psychology,1995,22(1):24-28.

[11]STAPLETON P.Critical thinking in Japanese L2 writing:rethinking tired constructs[J].ELT Journal,2002(3):250-257.

[12]QIN J,KARABACAK E.The analysis of Toulmin elements in Chinese EFL university argumentative writing[J].System,2010(38):444-456.

[13]PREISS D D.Writing and its assessment across life-span[J].Learning and Individual Differences,2013(28):131-132.

[14]KRASHEN S.Second language acquisition and second language learning[M].Oxford:Oxford Press,1981.

[15]STEIN V.Elaboration:Using what you know(Reading-to-Write Report No.6)[J].Center for the Study of Writing,1989(25):1-31.

猜你喜欢
信度批判性语篇
《广东地区儿童中医体质辨识量表》的信度和效度研究
作为数学教育研究质量分析的信度
新闻语篇中被动化的认知话语分析
思辨读写促进批判性思维的发展
思辨读写促进批判性思维的发展
平衡损失函数下具有时间效应和通胀因子的信度估计
分层次音乐欣赏教学与批判性思维训练
当前大众文化审丑异化的批判性解读
中文版脑性瘫痪儿童生活质量问卷的信度
从语篇构建与回指解决看语篇话题