经合组织对全球教育的“规训”
——国际学生测评项目排名政治批判

2021-12-17 07:01蔡娟刘云华

比较教育研究 2021年12期

蔡娟，刘云华

（1.北京体育大学教育学院，北京 100084;2.北京师范大学国际与比较教育研究院，北京 100875）

经济合作与发展组织（Organization for Economic Co-operation and Development,OECD）通过国际学生测评（PISA）的一系列精巧设计，包括测试时间和内容的安排、纪律规定和要求、层级渗透的分层抽样、制定规范的级别以及呈现国家的个案，一步步地渗透了OECD对全球教育的规训。在福柯眼中，规训不仅是“一种把个人既视为操练对象又视为操练工具的权力的特殊技术，是一种谦恭而多疑的权力，是一种精心计算的、持久的运作机制”[1]，而且还是“一种权力类型、一种行使权力的轨道，包括一系列手段、技术、程序、应用层次和目标，是一种权力‘物理学’或权力‘解剖学’、一种技术学”[2]。OECD试图通过一系列技术和机制，把各国和地区的公民塑造成符合其价值理念、知识结构的“全球公民”，并全面影响全球教育改革的发展和走向。在一定程度上，由评分（rating）和排名（ranking）构成的PISA测试排行榜（leaguetable）扮演了相当重要的角色，并堂而皇之地作为客观“事实”出现在所有人面前。这让教育研究者、政策制定者和教育实践者不断地讨论PISA排名、不断地用OECD的话语体系来言说PISA。进而，PISA排名背后蕴藏着独特的政治学意涵，对于扩大OECD对全球教育及各国的规训具有重要作用。本文旨在讨论PISA排名是具体通过何种方式、技术和手段来帮助OECD施加全球影响的。对此问题的探讨，能够更加深刻地揭露OECD是如何通过PISA排名这一世人所关注的焦点来实施其规训的。

一、建立排名转化关系

排名是PISA测试结果最为直观的呈现方式，其中涉及了两个环节的转化关系。首先，OECD通过PISA将复杂的学生学习转化为简单的排行榜；其次，用各个国家或地区的教育排名来预示其经济发展以及国家竞争力。由此，作为学校系统和国家经济发展竞争力的焦点，PISA排名成了OECD的重点关注对象，形成了一条独特的从学校教育系统的水平、学生学业表现到排名、国家经济发展和竞争力转化的完整链条。

（一）将“复杂世界”转化为简单排名

人类社会形成和产生了各种各样的排行榜，而人们似乎也早已习惯了它们的存在，比如奥运会金牌和奖牌数的排名、各种世界大学排名、各国GDP排名、福布斯各种排行榜等，涉及体育、经济、教育及政治等多个领域。有学者认为，这是一种兴起于20世纪末期的“审计文化”（audit culture），并快速传播至全球，扩散到每一部门，特别是那些与国家繁荣密切相关的领域。教育一直被视作影响经济和政治权力国际竞争的重要因素。[3]有学者认为，用量化的排名来呈现研究结果，能够对外部世界进行完整和确切的描述。[4]而正是随着通信技术的进步，排名这一量化方式能够概括和呈现复杂事件与各类事物，最大限度地将复杂现象的内核抽离出来，通过最简单、直观的方式向公众讲述社会生活和事物的状态。[5]排名的量化表述，通常被认为是减少社会认知差距的技术，即通过标准化的手段把统计学和科学思维的认知内容转化为人们熟悉语言环境中容易理解和认知的内容，进而控制和掌握人们对问题的理解。媒体大众不需要像专业研究者那样熟悉相关的专业知识、统计学知识以及科学研究就可以解读PISA排名呈现的基本信息。①世界大学学术排名、世界大学排行榜和QS世界大学排名均为基于网络计量的世界大学排名。除此之外，作为一种量化表述，排名还呈现出精确性和一致性的特点，在人们看来便成了不受时空限制、颠扑不破的客观事实。因此，正是因为PISA排名所具有的简单化、中立性的特征，并充分体现了科学主义所强调的客观性，才被认为是完全遵循了公平、正义的先验性规则，得以广泛传播。而媒体在报道PISA测试报告的结果时，也大多聚焦排名[6]，于是OECD的规训得以进一步加强。

（二）用教育排名预示经济竞争力

PISA报告声称，对于参与国或地区的政策制定者而言，关于学生表现的国际比较研究已经成为评估其国家教育系统成果的重要工具，并且可以通过比较为客观评估教育系统的有效性提供外部参考。更直接的是，PISA用参与国家或地区的样本学生在数学、阅读和科学素养测试中所取得的平均分数代表参与国或地区在相应学科中的表现，进而评价各参与国或地区教育系统的绩效。[7]在排名中表现较好的国家或地区被塑造为成功教育系统的典范。[8]

教育日益成为人力资本和国家财富的象征[9]，因此当前的教育发展预示着未来的国家竞争力。[10]于是，PISA的数学和科学素养测试分数，成了未来经济繁荣的预测变量。这似乎成了一个常识，这也是PISA测试背后的假设。并且，很多教育研究者、教育实践者以及政策制定者都将PISA测试结果视为客观事实。如果在PISA测试中取得较差的排名，预示国家在未来发展中可能会发生较大的危机；而这些国家自己也认为在PISA中表现不佳，在未来将是一个“失败者”。[11]因此，各国都为PISA排名展开了激烈的竞争，很多国家采纳OECD提供的建议，进行教育改革，以期能够在PISA测试中取得较高的分数和更好的排名。

为增加说服力，OECD还资助学者卢德格尔·伍斯曼（Ludger Woessman）开展教育对经济促进作用的研究。所形成的报告《改善PISA结果的长期经济影响》（The Long Run Economic Impact of Improving PISA Outcomes），指出了提高PISA分数对各国经济的影响。如，随着时间的推移，如果PISA分数增加25分，将使丹麦的GDP增加5860亿美元，挪威将获得8410亿美元；[12]如果德国将PISA分数提高到芬兰的水平，那么将会获得16万亿美元的经济增长，或者GDP将是当前GDP的5倍多。[13]OECD试图以此说明PISA测试结果以及教育排名对于一国经济发展的重要性，但这一论述遭到了一些学者的质疑。论文《建立在无效统计基础上的新全球政策体系？哈努谢克, 伍斯曼, PISA和经济增长》（A New Global Policy Regime Founded on Invalid Statistics?Hanushek, Woessmann, PISA, and Economic Growth）使用了完全相同的数据，但却得出了截然不同的结果。文中指出，OECD的意图是促进对教育政策进行更加广泛的全球讨论，希望将新的全球教育政策制度建立在令人敬畏的统计数据之上。[14]在PISA排名中，最为直观的便是形成了个体的纵向排名曲线和描绘了全体的横向排名图景。OECD在这一横一竖之下，“编织”了参与国或地区，甚至全球教育的“全貌”。

二、形成个体的纵向排名曲线

由于PISA测试每3年进行1次，从2000年到现在一共进行了7次，由此形成了每个参与国或地区的纵向排名曲线。当一个国家或地区初次参与PISA时，会形成排名结果和预期的比较，包括对本国教育的预期和认知以及对别国教育的预期和认知。当一个国家或地区多次参与PISA测试后，便会形成不同轮次排名的比较。

（一）排名与预期的比较

当一个国家或者地区首次参加PISA测试时，其结果的参照是对其学校教育的预期。

首先，对本国教育的预期和认知。例如，PISA2000结果报告公布之后，时任挪威总理克里斯汀·克莱梅特（Kristin Clemet）发表评论说：“在此次PISA测试中，挪威无疑是学校教育的失败者，就好比参加冬奥会未获一枚金牌。”[15]作为一个北欧国家，挪威在历届冬奥会中都有非常出色的表现。如，在2018年平昌冬奥会中获得了14枚金牌及其他各类奖牌39枚，位居榜首。把挪威在PISA测试中的失利比喻成在冬奥会中未获一金，可见其政府官员将挪威在PISA2000中的表现视为极大的灾难性事件。但在挪威政府眼中，挪威的学校教育是非常优质的，至少不能仅仅与OECD国家的平均水平持平。①在PISA2000和PISA2003测试中，挪威学生的平均分数接近OECD国家的平均水平。也就是说，挪威学生在PISA测试中的表现与挪威政府和民众对其学校教育的认知和预期存在差异。

其次，对别国的教育预期。例如，中国上海2009年第一次参加PISA测试，便取得了非常优秀的成绩。中国2009年的GDP总量排名世界第三，且与位居第二名的日本差距不大，并在2010年便超过了日本，GDP总量排名居世界第二，但人均GDP依然处于中等水平。在西方发达国家的逻辑中，中国的教育水平自然也不会十分卓越。因此，上海在PISA2009中的优异表现激起了全球的“PISA震惊”。据《纽约时报》的报道，时任美国总统奥巴马（Barack Obama）和时任教育部长阿恩·邓肯（Arne Duncan）就声称，上海的表现为再一次的“卫星发射”，而美国的基础教育却正面临着下降的风险。时任英国教育部部长迈克尔·戈夫（Michael Gove）也指出，在全球参与的国家和地区中，上海学生的表现最优，英格兰需要从中国上海这样的优秀教育系统中借鉴经验。[16]澳大利亚的智库格拉特协会（The Grattan Institute）也发布了分析报告《奋起直追：向东亚最好的学校系统学习》（Catching Up: Learning from the Best School System in East Asia），聚焦中国上海、香港地区和新加坡等国家和地区的教育体系。[17]

（二）不同轮次排名的比较

在开展多轮PISA测试之后，每个国家或地区会获得专属的各个素养排名曲线。而人们在OECD和各国媒体的广泛宣传下，会对排名的上升、下降有着不同的解读。一般认为，排名下降意味着当前教育政策出现了问题，排名上升则意味着之前的教育改革产生了相应的效果。

1.排名上升的表象与实质

在OECD的逻辑中，PISA测试的分数和排名上升意味着一国15岁学生的学业成绩显著提升，并且国内教育改革和教育政策取得了显著成效。以德国为例，在PISA2000年测试中，德国学生在阅读、科学、数学等方面的素养排名分别为22、22、21，此后德国开始了包括建立全国教育标准和评估机制、改革中等学校结构和学制、新建扩建全日制学校、强化幼小衔接、加强对移民背景学生的教育等系列改革举措。[18]到了PISA2015年测试，德国在阅读、科学和数学素养等方面排名均有显著提升，分别为8、12、12。德国学生的总体成绩在OECD国家的PISA排名已经由2000年首次排名的中下游水平提升到2015年的中上游水平。[19]但这是否意味着德国学生的学业水平得以提升？德国基础教育质量水平得以提高了呢？

从德国国家教育质量发展研究所①2004年，在洪堡大学成立了德国国家教育质量发展研究所。该研究所由拥有多年教育及管理经验的专家学者、教育科学以及学科教学法专家等组成。研究所旨在促进基础教育发展和保障课程教学整体质量，主要职能包含两个方面：一是确定国家教育发展的整体标准，并检验国家标准的落实；二是依据学校教育的基本情况，对国家课程标准进行一定程度的修正，提高德国课程评价的系统性和科学性。任平，迈纳特·迈尔.从PISA危机到能力导向的革命：世纪之交德国基础教育改革的困境、举措与效果[J].比较教育学报,2020(01):117-130.2016年的教育质量监控报告来看，相较于2011年，德国四年级学生达到最佳阅读标准的百分比显著下降，且其中的听力和正字法②2005年8月，新正字法开始在德国中小学推行，主要目的是使德语的书写更加规范。达到最佳标准（优秀）的百分比显著下降；在数学学科中，全体德国四年级学生超过规范标准（平均水平）的百分比下降了6%，未达最低标准（及格）的学生百分比上升了4%。[20]并且，德国各州学生在听力和正字法的能力显著变差。[21]另外，从2011年到2015年的质量监控报告均显示，德国学生的社会经济地位与能力水平具有显著性差异，2015年的国际数学与科学趋势研究项目（The Trends in International Mathematics and Science Study, TIMSS）报告中也有相关佐证。[22]换言之，德国基础教育群体异质性更加明显，由于家庭社会经济背景导致的教育不公平并没有得到解决，学校教育如何处理好教学异质性以及学生个性化仍然是德国基础教育亟待解决的重要问题。[23]不仅如此，若按前文所述，如果德国的PISA测试分数提升到芬兰的水平，那么将会获得16万亿美元的增长。但是，德国在PISA2015阅读、科学和数学等方面的得分比PISA2000各相应增加了25、26、16分，与芬兰学生学业表现的差距也不断缩小，但德国2015年的GDP比2001年仅增加了2.02万亿美元。

2.排名下降的表象和实质

同理，在OECD的逻辑中，PISA测试分数和排名下降意味着一国15岁学生的学业水平显著下降，并且国内教育改革和政策并未发挥预计的作用和效果。以澳大利亚为例，虽然各轮PISA测试中，澳大利亚学生的平均成绩皆高于OECD平均分，但从2000年至今处于总体下滑的趋势。由此，澳大利亚政府采取了一系列的改进政策以期改善学校系统，包括：对内关注薄弱学校，让处境不利的学生获得发展；对外面向全球，培育有竞争力的澳大利亚人；在教育改革过程中强调问责, 让每一分资助都尽其所用；在结果上崇尚优质, 试图全面提升基础教育质量。[24]澳大利亚总理朱莉娅·吉拉德（Julia Gillard）甚至在2012年表示，澳大利亚联邦政府将利用PISA追踪澳大利亚与世界其他地区的教育发展进展，到2025年，澳大利亚要进入PISA排名的世界前五。[25]但从PISA结果来看，这一系列的改革举措并没有帮助澳大利亚扭转下滑趋势。按照OECD的逻辑，这是否可以说明澳大利亚学生的学业水平不断下降？澳大利亚的基础教育质量不断下滑呢？

澳大利亚课程、评估和报告局（Australian Curriculum, Assessment and Reporting Authority）开展的全国学业评估（National Assessment Program）对澳大利亚全体学生的识字和计算能力（Literacy and Numeracy）、公民道德水平（Civics and Citizenship）、科学素养（Science Literacy）、信息和通信技术素养（Information and Communication Technology Literacy）等进行了测评。[26]从2008年到2019年的全国识字和计算能力测试结果来看，澳大利亚三、五、七、九年级学生的学业成绩非常平稳，并未表现出下降趋势。[27]另外，澳大利亚2000年到2015年的GDP并没有下降，反而增加了近1万亿美元。

综上所述，PISA排名的上升抑或下降并不能说明一国的教育质量提升或者下滑以及经济水平的增长或者下跌。但OECD却在PISA测试的结果报告中，用关于各国教育卓越和公平的描述以及排名作为各参与国或地区教育系统优劣的评判，PISA数据看似“可计量”和“标准化”的特征，也让政策决策者们将其认定为进行教育改革和政策议程的“合法”和“可靠”证据。各国媒体的渲染和广泛传播，更是让PISA排名和测试结果成为各国公认的“客观数据”，成为教育改革的“重要证据”。更进一步，OECD在此基础之上提供教育政策改进建议，最后再通过各国或地区在PISA测试中的结果是否发生改变作为评判其教育改革或政策是否取得效果的依据，由此形成了一个影响参与国或地区教育改革的完整闭环（如图1）。然而，很可能让各国政策制定者和众人忽视的是，PISA排名结果所反映的问题是否就是当前本国教育体系所面临的严峻问题。

图1 PISA排名影响参与国或地区教育改革的逻辑

三、描绘全体的横向排名图景

除了形成每个国家或地区的纵向排名曲线外，PISA测试更为直接地描绘了全体的横向排名图景。一方面，以“矩阵式”呈现各参与国或地区排名的相对“位置”；另一方面，以“顺序式”排名呈现各个参与国或地区排名的绝对“排位区间”；最终形成了自2000年以来所有参与国和地区在科学素养、数学素养和阅读素养排名的“全貌”。这不仅让各参与国或地区知道自己的排名优于或次于哪些国家，而且还让其了解自己在全球教育以及国际比较中处于什么样的“位置”，而这一切都是以PISA排名作为评判依据和标准。

（一）排名的相对“位置”

2003年，OECD和联合国教科文组织联合发布的PISA2000报告便开始采用“矩阵式”的排名方式。具体而言，结果报告不仅呈现了各参与国和地区在数学、阅读和科学等素养上的得分，而且还标示出两个国家样本学生之间成绩是否存在统计显著性差异，进而判断相互间的排名先后是否具有科学性。PISA项目组的技术专家认为，如果两个样本存在差异的概率不超过5%，那么两个群体之间没有事实上的差异，可能仅是抽样和测量所造成的误差。因此，为了进一步分析和比较特定国家和地区的排名时，还须考虑与之“临近”国家的成绩是否与其有显著性差异，并且以矩阵的方式标示每两个国家的成绩差异及其是否存在显著性，这样便可以判断哪个国家或地区的样本学生表现更好或者更差。[28]以PISA2000为例，在PISA2000年测试中，阅读素养平均成绩显著高于OECD国家平均分的有芬兰、澳大利亚和中国香港等12个国家和地区。芬兰15岁学生阅读素养的成绩显著高于其他所有参与国家和地区学生的表现，位居第一。加拿大学生的表现显著低于芬兰学生的表现，但加拿大与新西兰、澳大利亚、爱尔兰、中国香港和日本学生的表现并没有显著性差异，并显著高于其他参与国家和地区学生的表现，因此加拿大与新西兰、澳大利亚、爱尔兰、中国香港和日本等国家和地区的排名不分先后，且高于其他国家和地区的排名。

从PISA2000到PISA2018，PISA报告对各参与国和地区的成绩均用“矩阵式”进行排名。OECD的PISA测试专家认为，比较任何两组学生时，必须考虑学生所处的社会经济背景，在对各个国家和地区教育经济状况及资源进行比较的基础上，来比较各国教育系统的优劣。因此，各国在解读PISA测试时常常会考虑其他国家的情况，可能会把特定国家作为“对手”，时刻关注自己与“对手”的排名。

（二）排名的绝对“排位区间”

OECD在PISA2000和PISA2003中仅采用“矩阵式”排名的方式对各国进行比较，得出一个相对排名。从PISA2006开始，结果报告就开始采用“顺序式”排名的方式来展示各参与国和地区在阅读、科学和数学素养中的表现，呈现参与国或地区的绝对“排位区间”①排位是电子竞技游戏中的概念，即在一定分数段的选手处于同一个排位区间，水平不相上下。，以增强排名的科学性。以PISA2018为例，在阅读素养中，中国四省市取得了555分，从分数上看排名第一，但是统计分析发现，中国四省市与新加坡（549分）之间并没有显著性差异，因此二者均位列第一“排位区间”。紧接着是中国澳门、中国香港和爱沙尼亚的平均得分是525、524和524，由于三者之间没有显著性差异，因此排在第三到第五的“排位区间”。[29]在数学素养中，中国四省市取得了591分，排名第一；新加坡以569分排名第二；之后是中国澳门、中国香港，这二者之间没有显著性差异，因此排在第三到第四的“排位区间”。[30]在科学素养中，中国四省市以590分排名第一；紧接着是新加坡、中国澳门分别以551分和544分排第二和第三；之后便是日本和爱沙尼亚，分别得分为530分和529分，但二者之间并没有显著性差异，因此排在第四到第五的“排位区间”。[31]

（三）PISA排名的“全貌”

在排名的相对“位置”和绝对“排位区间”的基础上，PISA测试形成了所有参与国家和地区在不同年份科学、数学和阅读素养上的得分及其排名（如表1）②不同轮次参与国家和地区有所不同，从PISA2000到PISA2018一共涉及85个参与国家及地区。。各国借此来分析其学生学业水平和教育质量在全球的位置。OECD也借此构建了全球教育发展的“全貌”，仿佛构建了一个全球教育的实验室，形成了一个如边沁所说的圆形监狱般的全景敞视建筑。正如福柯在《规训与惩罚》中所揭示的：“全景敞视主义是一种新的‘政治解剖学’原则，其对象和目标不是君权的各种关系，而是规训（纪律）的各种关系。”[32]OECD似乎变成了圆形监狱的“瞭望塔”，“它具备一种持久的、洞察一切的、无所不在的监视手段，能够使一切隐而不现的事物变得昭然若揭，像一种无面孔的目光，把整个社会机体变成一个感知领域：有上千只眼睛分布在各处，流动的注意力总是保持着惊觉，有一个庞大的等级网络”[33]。在这个全球教育实验室中，每个参与国家和地区都不断寻找着自己的位置，力图通过多种方式和手段“调整”自己的位置。

表1 部分参与国家或地区在各轮PISA数学素养测试中的排名情况

四、结语

边沁的全景敞视建筑是建筑学形象，其中心是一个瞭望塔，四周是一个环形建筑，从窗户中可以看到一个被分割成许多小囚室的环形空间。在瞭望塔中安排一个监督者，环形建筑的小格子里是被监视的对象，比如一个癫疯者、一个罪犯，从窗户中可以观察被囚禁者的行为。全景敞视建筑推翻了一般牢狱的原则，它只是封闭了个体的自由，但是并没有剥夺被囚禁者的光线，也没有隐藏被囚禁的个体。[34]由此，全景敞视建筑最主要的产物便是：“在被囚禁者身上造成一种有意识的和持续的可见状态，从而确保权力自动地发挥作用。”[35]OECD开展的PISA测试逐渐成了教育的科学实验室。[36]在其中，OECD借此构建了一个虚拟的全景敞视教育，试图通过增加测试的内容和调查问卷的范围以及扩大参与PISA测试的国家版图，呈现全球教育的“原貌”。进而，OECD将PISA测试排名作为参与国家或地区学校质量的体现和未来发展的指示器，堂而皇之地以颠扑不破的“客观事实”展现在世人眼中，不断吸引媒体和公众的“眼球”。OECD通过建立从学校教育系统的水平、学生学业表现到排名、国家经济发展和竞争力的转化关系，形成各个参与国家和地区的纵向排名曲线，呈现所有参与国和地区排名的相对“位置”、绝对“排位区间”以及全貌来描绘全体的横向排名图景等，“施加”了排名政治影响。最终，OECD将所有的参与国家或地区的教育置于一个全球监控的体系之中，并对所有国家或地区进行比较，让它们“自觉”地发现自己的位置，并尝试去改变自己的位置，并促使它们通过各种举措和手段来做出改变，让它们在潜移默化之中、自然而然地顺应了OECD的规训。

经合组织对全球教育的“规训”——国际学生测评项目排名政治批判