2000-2018年PISA科学素养测评体系及其启示*

2020-09-26 13:26黄鸣春杨洁魏昕杨文源

教学与管理(理论版) 2020年8期

黄鸣春杨洁魏昕杨文源

摘要测评是教育质量监测的必要手段，高质量测评能够对教育教学产生积极正向引导。PISA是目前国际上覆盖面最广影响力最大的大数据测评项目，对基础教育质量监测和改革发展有很强的参考意义。对2000-2018年PISA科学素养测评体系的设计进行分析，发现PISA从测评目标、测评计划、设计论证到试题命制都有明显的先进性，但是，庞大的测评系统也不可避免地存在局限性。不论是先进性还是局限性，都值得各类科学教育质量监测项目关注。

关键词 PISA 科学素养教育质量监测测评体系设计

自第一次工业革命以来，人类科学技术进入飞速发展阶段，科技实力逐渐成为决定国家竞争力的关键因素，而科技实力很大程度上依赖于科技人才的水平。因此，国家和社会发展需要具备高水平科学素养的专业人才。与此同时，科技产品逐渐渗透到现代生活的各个方面，人们生活方式也发生了巨大变化。当代公民需要具备基本的科学素养，才能在面对生活中的科学相关议题和事件时做出理性判断和决策，从而更有效地生活在这个世界上。当今的青少年学生是未来的国家建设者，也是未来的社会公民，所以，基础教育阶段科学教育应当担负起培养学生科学素养的责任，一方面，为高等教育培养高水平专业人才打下基础，另一方面，为未来社会培养具备基本科学素养的公民。

测评是监测教育质量的必要手段。科学教育的质量水平最终体现在培养学生科学素养这一目标的实现程度上，因此，科学教育的发展离不开对学生科学素养水平的测评。由经济合作与发展组织（Organisation for Economic Co-operation and Development，OECD）发起的国际学生测评项目（Programme for International Student Assessment， PISA），是目前全世界规模最大、覆盖面最广、受关注度最高的国际性大数据测评项目。PISA自2000年起，每3年一次，以当年即将结束义务教育的15岁左右的学生作為评价对象，以面向当今社会和未来发展应当具备的素养作为评价内容，旨在找出影响学生素养水平的因素，为参评国家/地区教育政策和教育体系提供改进建议，并通过分析参评国家/地区历次测评结果的变化追踪反馈教育举措的成效，推动各国/地区基础教育改革和发展。已经发布的最近一次（2018年）测评中，共有80个国家/地区参与PISA，所有参与国/地区国内生产总值（GDP）之和超过了全球所有国家/地区GDP总和的90%。PISA已然成为国际主流测评项目。科学素养作为国际上普遍重视的基本素养，是PISA测评的主要内容之一。

一、PISA科学素养测评体系设计

目前PISA已经开展了7次测评，随着时代的发展，PISA科学素养测评的设计也在发生着变化。下面将从科学素养界定、测评框架、试题案例3个方面来分析PISA科学素养测评体系设计的发展变化。

1.PISA对科学素养的界定

PISA强调其测评意图不是考查学业成绩，也不是选拔人才，而是诊断当前学生的素养水平。为此，PISA对所测评的素养进行了界定。分析历次PISA对科学素养的界定，发现2000与2003年界定一致;2006年较前两次有明显变化，随后2009和2012年与2006年一致;2015年界定再次出现明显变化，之后2018与2015年一致。

2000、2003年PISA认为科学素养包含3个方面[1，2]：科学过程，科学概念，运用科学过程和概念的情境。

2006、2009、2012年PISA认为科学素养是指一个人所具备的[3][4][5]：科学知识以及对这些知识的运用，关于科学的典型特征的理解，关于科学和技术如何塑造我们的物质、精神和文化环境的理解，参与科学相关议题、具备科学知识、成为具有独立见解的公民的意愿。

2015、2018年PISA认为科学素养表现为以知识为基础的3项能力[6，7]：科学地解释现象，评价和设计科学探究，科学地解释数据和证据。

历次PISA对科学素养界定的变化，实际上反映了时代对具备科学素养的人的要求的变化。相较于前5次测评，2015和2018年PISA对科学素养的界定角度，与美国2013年发布的科学教育文件《下一代科学教育标准》（Next Generation Science Standards， NGSS）关于学习目标的表述理念高度契合，以表现预期（performance expectation）来描述学生达到一定水平后应当能够做什么;同时，表现预期本身则需要以概念理解为基础。鉴于NGSS是时代发展的产物，吸纳了科学教育领域的重要研究成果，并且具有广泛的国际影响力，引领着世界各国科学教育改革方向[8]，2015和2018年PISA对科学素养的界定方式与该文件的理念高度契合，说明PISA与时俱进，走在时代发展前沿。

2.PISA科学素养测评框架

在PISA测评中，框架是试题命制的依据。与对科学素养的界定类似，2000和2003年测评框架较为一致（图1）;2006年测评框架出现显著变化，之后2009和2012年延用2006年测评框架（图2）;2015年测评框架（图3）再次出现显著变化，2018年测评框架同样延用2015年测评框架。

图1 2000、2003年PISA科学素养测评框架

比较历次科学素养的界定，发现PISA科学素养测评框架都是与其对科学素养的界定相对应的。测评框架是科学素养内涵的进一步细化，将科学素养各个要素有机整合起来，凝结成试题开发理念，具体指导测评试题命制。此外，测评框架随时间推移出现的变化，更具体地反映了时代对具备科学素养的人的要求的变化，同样标记了PISA科学素养测评的发展进步。

在具体题目命制时，PISA还会按照现实生活中的运用频率来进一步规划题目分配比例，现实生活中使用频率高的知识和能力则题目量较大，使用频率低的则题目量较小。这种题目比例分配原则，与PISA测评意图完全吻合，即测评内容是面向未来生活和社会发展，而非依据学校课程内容。历次PISA科学素养测评的题目分配比例，与科学素养界定以及测评框架的发展变化规律类似，即2000、2003年题目比例相近（表1），2006、2009、2012年比例相近（表2），2015、2018年比例再次出现明显变化（表3）。

从题目分布比例来看，在科学过程/能力方面，对科学现象的解释在历次测评中都占到最高比例，而表1和表2中的识别科学议题以及表3中的评价和设计科学探究所占比例则相对较低。这一比例分配与现实生活中的实际使用频率相符，相对来说，日常生活中需要解释现象的情境相对较多，而需要提出问题、开展研究的情境则相对较少。在学科知识方面，生命科学知识在历次测评中都是占比最高或并列最高，这一比例分配同样符合现实生活中的实际需求。生命科学是关于生命世界的科学，是关于人类自身的科学，也必然是日常生活中涉及频率最高的内容，食品安全、健康、呼吸、生育、人口問题、气候变化等这些与人们日常生活息息相关的话题都属于生命科学研究的范畴。

除了设置考查内容的比例分配外，PISA还会设置题型的比例分配。题型的设计以尽可能准确地反映学生的素养水平为目标。历次PISA科学素养测评的题型比例分配见表4。

表4 历次PISA科学素养测评的题型比例分配

从表4可以看到，PISA科学素养测评主要有选择题和主观题两大题型，其中，选择题分为简单单选题（四选一）和复杂选择题（包括多选、判断、连线、排序、归类等）;主观题分为封闭式主观题（答案相对固定唯一）和开放式主观题（答案相对开放，例如，作图）。从历次测评的题型比例来看，简单单选题比例呈现逐渐减少的趋势，而复杂选择题比例则呈现逐渐增加的趋势;封闭式主观题历来占比都非常微小，而开放式主观题则历来占比较大。这样的题型比例说明PISA科学素养测评看重学生处理多样化问题的能力以及在真实情境中分析问题、解决问题的思维能力。

3.PISA科学素养测评的试题案例

PISA测评题目的命制以测评框架和题目比例为指导，整套试卷按照测评内容和题型比例来选题;除“态度”要素放在背景问卷中调查，每个题目都包含测评框架的其他所有要素，具有多维度的属性。下面将以2015年PISA科学素养测评中一道中等难度的试题为例，分析具体题目如何整合测评框架的各个要素。该试题（图4）是“鸟类的迁徙”这一情境的第3题[9]。

对照2015年PISA科学素养测评框架（图3），“态度”要素属于背景问卷调查的内容，其余3个要素“能力”“知识”“情境”都能在图4所示的试题案例中体现。从“能力”来看，该试题要求学生基于迁徙路线图进行推论，考查的是能力要素的第3个要点“科学地解释数据和证据”;从“知识”来看，鸟类的迁徙属于生命科学的范畴，该试题考查的知识是学科内容知识中的生命科学知识;从“情境”来看，鸟类的迁徙在区域尺度上是一个跨地域的事件，属于全球化情境。另外，从题型来看，该试题属于复杂选择题中的多选题。PISA科学素养的所有试题都与这道例题一样，具有“能力”“知识”“情境”3个维度的属性。

二、PISA带给科学教育质量监测的启示

早在2000年PISA第一次测评之前，OECD就已经在科学素养测评指标方面进行了扎实的研究。历次测评都会从参与国/地区征集试题，并进行反复打磨筛选。此外，每次正式测评之前都会对试题进行小样本试测，根据试测结果进一步对试题进行修订。因此，PISA在科学素养测评的设计上具有广泛认可的先进性，对于其他测试（包括学业水平测试）有着很强的借鉴价值。但如此庞大的测评系统，涉及的人员、事项庞杂多元，PISA也不可避免地存在局限性。

1.PISA的先进性

（1）具有明确的“以评促建”目标

教育实际上是一项目的性极强的事业，以培养学生为国家建设和社会发展服务为根本目标，教育事业的各个环节都应当围绕这一目标来展开。测评是教育质量监测的必要手段，是教育事业不可缺少的环节，也天然地带有目的性这一属性。因此，所有的教育测评都需要具有明确的目标定位。PISA的根本目标是通过测评来促进教育事业的发展，以面向未来生活和社会发展的必备素养为测评内容，以15岁左右的学生为测评对象，结合配套的背景问卷调查，探查影响学生素养水平的因素，从而为参与国/地区教育政策和教育系统改革提供对策建议;同时也能为参与国/地区提供国际比较视角，了解本国/地区学生素养水平在国际上所处的位置，从而更加客观地看待本国/地区的教育水平。明确的目标定位是高质量测评项目的首要属性，而在所有目标定位当中，“以评促建”是测评价值最大化、最有意义的目标。各类测评项目应当综合评估自身服务对象、拟测评群体等要素来确定测评目标，有针对性地围绕测评目标设计测评体系。

（2）测评设计具有前瞻性和延续性

PISA测评自2000年起，至今已经持续了十几年，可以预见的是在未来更长时间里还将继续延续下去。在过去的测评当中，测评目标、测评人群一直延续着最初的部署，从未改变过;测评内容虽然随着时代发展增加了问题解决、经济素养和全球素养，但最初选定的科学素养、阅读素养、数学素养仍然是考查的主要内容;从科学素养的界定、测评框架、试题命制来看，科学素养的测评设计虽然随着时间推移在不断发展变化，但根本的理念却是一以贯之的，并未出现颠覆性巨变。最初设计的蓝图能够在随后十多年甚至更长时间里践行下去，说明最初的测评设计经过了相当充分的论证，具有很强的前瞻性。此外，PISA每3年举行一次，具有很强的延续性，能够为参与国/地区提供学生素养水平变化趋势的数据，反映教育政策改革成效，为参与国/地区做出有针对性的调整决策提供参考，形成良性循环。教育是一项长远的人类事业，教育系统的规划需要有前瞻性和延续性，与之相称的，每一个测评项目也需要有远景规划，建立良性机制，以真正发挥测评在教育发展中的作用。

（3）测评设计的论证扎实详尽

在PISA第一次测评之前，OECD就做了非常详实的论证工作，之后的每一次测评也都会提前一年以上开启筹备工作。每次测评发布的官方报告里都会有好几百页的篇幅用来论证所测评素养的定义、测评框架、试题命制、测评结果分析方法等，几乎所有与测评相关的事项都会有非常详尽的论证。正是有了这样的论证，才有了测评结果的可靠性。从前文关于科学素养测评体系的分析也可以看到，从素养定义到测评框架再到具体试题，这一体系具有很强的内部一致性，并且能够很好地服务于测评目标。内部一致性是测评效度的重要指标，是测评结果可靠性和有效性的保障，PISA对测评体系的论证范式为各类测评项目提供了参考。

（4）试题有机整合知识、能力、情境三大要素

与测评框架一致，PISA科学素养的每个试题都包含知识、能力、情境三个维度的属性。传统测试中，试题常常被分为知识题和能力题，但实际上，知识和能力是不太可能截然分开的。根据布鲁姆的认知层次分类，水平从低到高依次为识记、理解、运用、分析、评价、创造，除识记仅涉及知识记忆不涉及能力外，其余层次都需要知识和能力相结合才能达到。知识与能力相结合也是国际科学教育领域长期以来在课程、教材、教学和评价方面的普遍共识。此外，学校教育成效只有放到真实情境中才能得到检验，学生的知识和能力也应当放到真实情境中去考查。PISA科學素养试题有机整合知识、能力、情境三大要素，为科学学科的命题工作提供了很好的示范。作为质量监测的必要手段，测评也是教育体系中备受关注的环节，一些高质量的测评甚至能够成为学校教育的风向标，所以，高质量的测评试题能够对学校教育起到正向、积极的引导作用。

2.PISA的局限性

（1）测评逻辑存在矛盾之嫌

PISA的目标是为教育系统改革提供对策建议，但强调所考查内容不是学校教育的学业成绩，而是学生面向未来生活和社会发展的必备素养。这就存在矛盾之嫌。首先，如果考查内容不是学校教育的成效，那么，考查结果如何反映教育系统存在的问题，如何成为教育系统改革的依据？其次，测评对象15岁左右的学生获得科学知识和能力的渠道主要依赖于学校教育，其科学素养水平本质上还是学校教育的成果，所以，PISA最终测评的还是学校教育的学业成绩。再次，如果学校教育不以培养科学素养为目标，但却能够很好地服务于本国、地区科学教育目标，那么，PISA科学素养测评对于该国、地区可能并不适用，测评结果并不能反映教育系统运作成效问题，只能反映教育理念和追求的差异。

（2）语言差异对测评结果存在影响

每年PISA，所有参与国家/地区共用一套题，以保障测评结果公平性和可比性。但这就不可避免地存在语言差异对测评结果的影响。以2015年PISA为例，官方试题只有英语、法语和西班牙语三个版本，为了覆盖所有参与的72个国家、地区，试题又翻译成了其他90种语言。尽管每次PISA测评都会采用双向翻译来保证试题翻译的准确性，但如此繁多的语种，不同语种本身难易程度和表达习惯必然导致不同语种考生所面对的题目的理解难度和阅读量的差异，从而潜在改变了不同语种试题的难度，进而影响到测评结果公平性和可比性。

PISA作为目前国际上认可度最高、覆盖面最广、关注度最高的大数据测评项目，有着扎实的理论和实践积累以及丰富的测评经验，其测评体系设计为各类教育质量监测项目提供了很好的范例，测评结果也能为参与国/地区教育系统改革提供参考。但是，由于测评系统庞大，PISA也不可避免地存在局限性，这也是值得各类教育质量监测项目关注的方面。

参考文献

[1] OECD.Measuring Student Knowledge and Skills：A Framework for Assessment [M].Paris：OECD Publishing，1999.

[2] OECD.The PISA 2003 Assessment Framework Mathematics，Reading，Science and Problem Solving Knowledge and Skills[M].Paris：OECD Publishing，2003.

[3] OECD.Assessing Scientific，Reading and Mathematical Literacy：A Framework for PISA 2006[M].Paris：OECD Publishing，2006.

[4] OECD.PISA 2009 Assessment Framework：Key Competencies in Reading，Mathematics and Science[M].Paris：OECD Publishing，2009.

[5] OECD.PISA 2012 Assessment and Analytical Framework：Mathematics，Reading，Science，Problem Solving and Financial Literacy [M].Paris：OECD Publishing，2013.

[6] OECD.PISA 2015 Assessment and Analytical Framework：Science，Reading，Mathematic，Financial Literacy and Collaborative Problem Solving（Revised Edition）[M].Paris：OECD Publishing，2017.

[7] OECD.PISA 2018 Assessment and Analytical Framework[M].Paris：OECD Publishing，2019.

[8] 杨文源，刘欣颜，刘恩山.美国《下一代科学教育标准》的出台背景及其对科学教育的导向[J].当代教育科学，2015（21）.

[9] OECD.PISA 2015 Test Questions [EB/OL].[2018-8-22].http：//www.oecd.org/pisa/PISA2015Questions/platform/index.html？user=&

domado=SCI&unit=S656-BirdMigration&lang=eng-CAN.

[作者：黄鸣春（1981-），女，湖北孝感人，首都师范大学教师教育学院，讲师，教育学博士;杨洁（1986-），女，青海西宁人，人民教育出版社课程与教材研究所，高级编辑，教育学博士;魏昕（1986-），男，青海西宁人，人民教育出版社课程与教材研究所，编辑，教育学博士;杨文源（1987-），女，四川峨眉人，首都师范大学教师教育学院，副教授，教育学博士。]

【责任编辑刘永庆】