美国NAEP 2019数学能力评价体系研究

2021-03-05 04:15徐柱柱

比较教育学报 2021年1期

徐柱柱

当今世界，拥有数学能力或数学素养已成为现代公民的基本素质。尽管不同国家、不同文化对其都有不同的理解，但如何对数学能力进行评价始终是世界教育迫切要解决的问题，而厘清数学能力评价的内涵并构建相应的测评体系，则是其中的关键所在。从最初的文献来看，国外数学能力的评价也就是在基本读写基础上考察学生对运算等基本技能的掌握，而当时国内的数学教育评价领域也重点关注学生在运算、推理和空间等三大形式化能力上的表现。①孔企平. 西方数学教育中“numeracy”理论初探[J]. 全球教育展望, 2001(4): 6, 56-59.随着各国对数学学科能力的重视，其评估内容和范围也在不断深化。使用数学作为日常生活的沟通方式，懂得欣赏和理解用数学语言进行表达，这些再也不只是知识与技能上的要求。运用数学思维和数学技能来解决现实问题以满足日常生活的需求成为全球普遍的共识。而为了成功地实现数学问题解决，未来的学习者不得不利用各种知识、经验和背景，在跨学科和跨能力的理解中达到精熟程度。②徐柱柱, 綦春霞. 初中生数学问题解决能力及影响因素的调查研究--以河北省S市八年级学生为例[J]. 教育测量与评价, 2018(7): 41-46.③张舒, 曹一鸣, 王宽明. 国际视野下问题解决在数学课程发展中的争鸣与走势[J]. 比较教育学报, 2020(1): 10-22.总体上，国内外对数学能力的测评大都是通过学科内容、认知要求、表现水平与问题情境等方面加以描述。④曹一鸣, 刘晓婷, 郭衎. 数学学科能力及其表现研究[J]. 教育学报, 2016, 12(4): 73-78.其中，数学内容领域几乎统一于知识与技能两大方面，但认知和情境方面的考虑则不尽相同，从早期的布鲁姆教育目标分类到“知识与认知”二维结构的修正，再到与数学学科的紧密结合，认知水平划分存在明显的不同，并且影响数学能力的环境和背景要素也在不同能力框架中不同程度地加以运用。⑤徐柱柱, 张迪, 綦春霞. 初中生数学学科素养测评的实证研究--以北京市T区八年级为例[J]. 教育测量与评价, 2019(1):53-58, 61.⑥陈月兰. 2015版韩国义务教育数学课程标准特征分析与启发--从能力的视角[J]. 外国中小学教育, 2019(8): 73-79.然而到目前为止，学术界关于数学能力的评价仍不够统一和细致，因此未来教育领域开展系统科学的数学能力评价更加需要汲取各国教育测评的优秀经验，尤其是要学习和仿效国内外相对成熟的能力评价体系，进而研发出适合本土特点的数学能力评价框架。作为美国唯一具有代表性的基础教育评价体系，NAEP数学能力评价对我国开展基于课程标准的数学教育评价极具参考价值。并且，相较于以往的多次测评，NAEP 2019数学能力评价体系在测评要素的更新、测评工具的平衡以及测评结果的解释等方面都进行了细致的调整和完善，从而使其测评体系更加完整，也为我国实施基础教育质量监测带来许多重要的启示。

一、美国NAEP数学能力评价体系简介

（一）NAEP数学评价体系发展沿革

自美国建国初期，教育实权就一直掌握在各州政府手中。然而在二战以后，面对日益复杂的国内外形势，联邦政府开始干预教育，并试图统筹全国学生的学业评价。于是，在1963年，时任肯尼迪总统教育专员的凯普尔（Francis C. Keppel）、联合国内教育评价专家泰勒（Ralph W. Tyler）以及卡内基基金会主席共同促成了全美教育进展评价（National Assessment of Educational Progress，简称“NAEP”）项目的诞生，并于1969年实施了第一次全国性的评价。⑦周红. 美国国家教育进展评估(NAEP)体系的产生与发展[J]. 外国教育研究, 2005(2): 77-80.在NAEP发展初期，项目构成上仅有国家层面的学科评价，直到2001年联邦政府才开始强制要求各州必须承诺参加两年一次的数学和阅读科目的州层面评价。并且自此以后，国家与州一级的学科评价得以整合，NAEP成为美国唯一长期的且具有全国代表性的教育评价体系，并被多个国家借鉴和效仿。①陈晨, 潘苏东. 美国全国教育进展评价体系的发展历程: 40年回顾[J]. 外国中小学教育, 2009(12): 14-18.

1969年以来，NAEP项目逐渐确立起以国家和州层面的主评价、长期趋势评价以及辅助性专题研究为代表的能力评价体系。主评价是为了检测全国及各州学生在几大核心学科（如阅读、数学、科学、写作、美国史、经济学、公民学、地理和艺术）相关知识和技能方面的掌握程度。其中，4年级和8年级每2年施测一次，而12年级则每4年进行一次；②罗文蔚. 美国教育质量评价体系的构成及启示[J]. 教学与管理(中学版), 2017(3): 82-84.长期趋势评价旨在为学生学业的长远发展提供有效的变化趋势信息，并且每4年对9岁、13岁和17岁学生的数学、阅读、科学和写作等学科表现进行一次系统评估；而辅助性专题研究则重点关注特定学生群体的学业成就，如口语阅读研究、中学毕业成绩单研究、特许学校试验性研究、印第安教育研究和私立学校成绩研究等。③苏红. 美国基础教育学业质量评价: 体系、机制与启示[J]. 世界教育信息, 2012(5): 40-43.

作为NAEP评价长期必测的科目，数学学科评价旨在收集和报告国家、州和地方等各级学生的学业表现信息，并为公民、课程专家和教育政策制定者提供有关学生对数学学科性质的理解以及学校教育因素与其数学能力关系等方面的资料。④周红. 美国国家教育进展评估体系述评[J]. 全球教育展望, 2004(8): 66-69.四十多年来，NAEP数学评价在内容目标和认知要求上进行了多次调整，从而使其评价框架更加完善，数学能力评估也更加科学。⑤NCES. History of Mathematics Framework Changes for National Assessment of Educational Progress[EB/OL]. (2019-09-25)[2020-08-25]. https://nces.ed.gov/nations report card/mathematics/framework comparison.aspx.2019年，全美多达50个州、哥伦比亚特区、国防部学院以及27个大城市管辖的8 280所学校的296 900名4年级和8年级学生参与了测试。

（二）NAEP 2019数学能力评价目的

在NAEP 2019数学能力评价中，测试的主要目的是为获取当前学生学业发展的综合信息，如了解学生在数学学科领域应该“知道什么”以及“可以做什么”、在一段时间内其数学学业成绩的变化趋势、数学知识学习方面的薄弱点以及家庭、社会等背景变量对他们学业表现的影响等。通过观察和分析学生在数学问题解决过程中运用数学能力的相关信息，来系统评估他们对数学知识和技能的掌握程度。此外，NAEP数学评估还重点关注某些特定群体（如女性、少数民族和家庭经济地位较低的学生）的数学学习特征，以便获得全国学生数学学业成就的整体表现。⑥方晓东, 李新翠. 美全国教育进展评估述评[J]. 比较教育研究, 2009(2): 58-62.

（三）NAEP 2019数学能力评价结果汇报与解释

从学生历次NAEP数学能力评价的表现来看，都主要以量尺分数和成就水平两大指标来衡量学生数学学业成就的整体表现。其中，量尺分数是先采用项目反应理论模型估计出学生能力参数，然后经线性转换后获得测验的标准分数，该分数值可以表示学生在数学能力评估中的成就表现，同时其结果也能在不同州、地区以及学校之间进行横向比较；而成就水平则是为了描述学生在了解、理解和应用数学知识和技能方面的精熟度水平，总体上可划分基础水平、熟练水平和高级水平这三个等级。①周达. 国际大规模测试数学学业水平描述框架之比较及启示[J]. 教育测量与评价, 2017 (4): 23-27.另外，在数学能力评价结果的解释上，NAEP 2019指出对学业成就表现的预测不应被简单理解为各测试变量之间的因果效应，还要综合考虑人口和教育系统因素（如教学趋势、学龄人口变化、社会需求和期望）的干预作用以及其他未测变量的潜在影响。②王烨晖, 张岳, 杨涛等. 义务教育数学相关因素监测工具研发的探索与思考[J]. 数学教育学报, 2018, 27(5): 8-12.

二、美国NAEP 2019数学能力评价框架微观探析

（一）NAEP数学能力评价框架的历史变迁

每一次NAEP学科评价都是基于一个特定的组织框架，以系统指导评估流程的展开和评估内容的确定。通常情况下，该组织框架的形成会经历一系列研发设计与调整过程，从而保障学科评价内容及时地适应教育目标和课程的变化。对于数学学科而言，学业表现最终需要通过刻画出学生成功解决数学问题时所运用的数学能力来加以表征。因此，NAEP数学评价的关键在于构建反映当前教学实践和课程改革的数学能力评价框架。一方面，需界定好数学能力概念中的核心元素和范围，并且尽可能从不同维度去研制相关题目来覆盖这些元素；另一方面，还应根据既定的数学能力框架和数学课程标准的相关要求，选定好学生在应对课内外各种复杂问题时所需的特定数学知识和数学技能。迄今为止，NAEP数学能力评价框架共进行了两次重要的调整和变化。

第一次调整是在1990年至2003年（1990年、1992年、1996年、2000年和2003年）期间，受全美数学教师理事会（NCTM）制定的《学校数学课程与评价标准》的影响，国家评估管理委员会（NAGB）逐步确立了早期的数学能力评价框架，并从内容领域、认知要求和能力要素等三个方面加以描述。③全美数学教师理事会制订, 蔡金法等译. 美国学校数学教育的原则和标准[M]. 北京: 人民教育出版社, 2004: 29-62.其中，内容领域包括“数感、属性和操作、测量、几何与空间意识、数据分析及统计与概率、代数与函数”等5个部分，认知要求覆盖了“概念理解、程序性知识和问题解决”这3个方面，而能力要素则包含了“推理、联系和信息交流”等3个部分。④张迪, 王瑞霖, 杜宵丰. NAEP2013数学测评分析框架及试题特点分析[J]. 教育测量与评价, 2018(3): 51-56, 64.

第二次调整是在2005年，由于原有的数学能力评价框架开始受到学者质疑，于是新的框架在不同年级开始相继实施。自2005年开始，国家评估管理委员会逐步完善原先的框架，并确定从内容领域和数学复杂性这两个方面对学生的数学能力表现加以系统描述。其中，在原有的内容维度基础上，4年级和8年级框架的内容领域变更为“数与运算、代数、几何、统计与概率以及测量”这5个板块，而在12年级该维度的“测量”与“几何”合并成一块；数学复杂性则是整合了原先的认知要求和能力要素两大维度，并形成了低、中、高三个复杂性水平，①NAEP. Mathematics Framework for the 2013 National Assessment of Educational Progress[EB/OL]. (2013-12-18)[2020-08-25].http://www.nagb.org/publications/frameworks/math-2013-framework.pdf.其中每个水平都会涉及“概念理解、程序操作、推理和问题解决”。由于2005年数学能力评价框架体系相对完备，故一直到2019年，4年级和8年级测评框架的相关内容都未作大的改变。但是，近年来学者逐渐意识到高中课程改革对学生适应未来中学后教育的重要意义，因此后期的数学能力评价框架的局部变化主要体现在12年级的评估上。并且，在2009年和2019年，国家评估管理委员会分别对12年级数学能力评价的内容领域和数学复杂性这两个维度进行了略微调整，如更新的数学内容的掌握目标以及数学复杂性的分类标准和相关描述（见图1）。

（二）NAEP 2019数学能力评价框架的测评要素分析

国内外大规模数学测评经验表明，构建能力评价框架的关键在于确定数学能力及相关元素的概念和范围，然后基于能力框架中各测评要素设计相对有效的评价工具。②张奠宙, 鲍建生, 徐斌艳. 数学教育研究导引(二)[M]. 南京: 江苏教育出版社, 2013: 448-452.如前文所述，NAEP 2019数学能力的评价依旧是从内容领域和数学复杂性这两大维度（测评要素）进行操作的（见表1）。其中，4年级和8年级框架的内容领域为“数与运算、测量、几何、统计与概率以及代数”等5个部分，而12年级框架的内容领域为“数与运算、几何、代数及统计与概率”等4个部分，并且不同年级考察的数学内容的分布比例也各有差异；而数学复杂性维度则主要包括低、中、高三个水平，其中低复杂性水平是指学生在问题解决时只需要识别与回忆某些数学知识即可，中等复杂性水平需要学生在问题解决时能将各内容领域中的数学概念和推导过程结合到一起，而高复杂性水平则要求学生在问题解决过程中能够进行完整推理和系统证明。此外，不同年级内容领域的掌握目标和各水平数学复杂性的描述也略有不同。例如，对于“数与运算”领域的数感知识点来说，低复杂性水平的掌握目标要求4年级学生能够标志整数的位数，而8年级学生需要学会通过位值来描述整数和小数，但在同等复杂性水平下，相关内容的掌握目标则对12年级学生不作要求。①NAEP.Mathematics Framework for the 2019 National Assessment of Educational Progress[EB/OL]. (2019-10-30)[2020-08-25].https://www.nagb.gov/content/nagb/assets/documents/publications/frameworks/mathematics/2019-math-framework.pdf.

表1 NAEP 2019数学能力评价框架的测评要素

（三）基于NAEP 2019数学能力评价框架的试题编制

为了全面细致地刻画学生在数学问题解决过程中的能力表现，NAEP 2019数学能力评估使用了较为均衡的试题编制结构，以确保测试题在不同背景、年级、内容领域、数学复杂性以及题目类型上保持相对均匀。具体来看，首先将不同年级的内容领域按照课程目标要求确定好各数学模块（如数与运算、测量、几何、统计与概率以及代数）考察比例；然后根据对所有测试题难度的预估制定出各数学复杂性水平题目的时间分配方案，其中低、中、高水平题目测试时间比例依次为25%、50%和25%（仍见表1）；接下来将学生在选择题和主观题上的测试时间比例设定为50%和50%；最后还要充分考虑到不同背景（如纯数学背景和现实背景）测试题内容分布的均衡性。

此外，更为重要的是，NAEP 2019数学能力评价的核心仍然是题目的编制和题型分配（见表2）。自1992年测试以来，NAEP数学评估一直沿用选择题（Multiple Choice）、简短式主观题（Short Constructed Response）和拓展式主观题（Extended Constructed-Response）3种类型。并且，从2017年至2019年，项目组开始将各类型题目逐步过渡到数字平台。其中，选择题是让被试参与者从既定备选答案中选出正确答案的题目。4年级的题目答案为4个选项，而8年级和12年级的题目有5个选项。由于整体覆盖面较广，故通过该题型可以很快确定学生是否已掌握某些数学知识和技能；主观题是指那些能更好地考查学生具体情况或个性的试题。在NAEP 2019数学评价中，简短式主观题和拓展式主观题都是为了更加细致地了解学生对于特定领域数学知识和内容的理解和掌握情况，并且还可以考察他们的识别与回忆能力以及对数学问题本质的认识，从而有助于学生清晰表达问题解决的思路。①NCES. History of Mathematics Framework Changes for National Assessment of Educational Progress[EB/OL]. (2019-09-25)[2020-08-25]. https://nces.ed.gov/nations report card/mathematics/framework comparison.aspx.

表2 NAEP 2019数学能力评价试题编制的考察要点

三、美国NAEP 2019数学能力评价过程分析

（一）NAEP 2019数学能力测试评分标准解读

测试题的评分标准一般是由命题专家团队结合命题原则并根据经验制定，然后参照学生的具体作答进行编码。总体来看，目前主要有双位编码评分法和SOLO分类评分法。SOLO分类评价法是一种以等级描述为基本特征的质性评价方法，当中涉及的各种等级分别代表了考生对于某项特定知识的掌握程度，从而根据他们的作答情况，评分者便可以参照上述分类标准就考生对知识内容的掌握程度进行评判；而双位编码评分法不仅要确定好计分等级，还要预估出每个等级可能存在的种类并且归纳出其基本特征，从而兼顾答案的多样性和考生能力水平的差异性。②许世红. 两类教育测评的碰撞与启示--参加PISA2015试测数学阅卷编码的思考[J]. 广东教育(综合版), 2015(3): 31-35.具体而言，双位编码评分法和SOLO分类评分法都是先将选择题和大部分封闭式解答题采用0、1两级计分，而开放式解答题则使用多级计分方式（如0、1、2等），然后结合具体的评分标准进行编码。因此，两种评分体系本质上具有内在一致性。③罗兰英. “双位编码”评分与SOLO评分方法的比较研究--以初中物理开放题评分为例[D]. 桂林: 广西师范大学,2015: 27-34.

此外，为了适应大规模测试的需要，NAEP对于学生数学学业表现结果的处理也是基于项目反应理论，即将试题难度与考生数学能力的高低建立在同一个量尺上。与PISA和TIMSS不同，NAEP 2019试题的评分原则采用的是SOLO分类法，即使用评分量规（Scoring Rubric）对学生的原始作答进行评分，先将学生的作答与相应的评分量规进行比较，然后根据学生答案中所包含的得分点由高到低分为3个层次，分别赋予“满分”“部分正确”和“零分”。①李贵安, 何嘉欢, 徐小红. NAEP科学能力测评对我国物理学科能力测评的启示[J]. 教育测量与评价, 2015(5): 30-35.其中，“满分”表示被试者已理解题目内涵并作答正确，但不意味着其作答已接近完美；“部分正确”表示被试者不完全理解问题且作答呈现出部分问题解决步骤；而“零分”表示被试者并没有理解题目，但不意味着整个作答过程完全错误。当然，这种类别还包含空白作答的情形。下面将通过几个具体的例子分别对选择题、简短式主观题和拓展式主观题等3种题型的评分标准予以说明：

例1：下列哪个直角三角形（见图2）不可能是由30°、60°和90°构成的三角形？（选择题）

图2 选择题：例1中的选项

由题意可知，本题主要是考察学生能否识别几何图形中的数量关系，即“在直角三角形中，30°角所对的直角边等于斜边的一半”（评分标准见表3）。

表3 例1具体的评分标准

例2：校园内现仅停放了自行车和货车，如图3所示。在星期二时，校园内的车轮印总数为24，那么当天可能有__辆自行车和__货车经过（简短式主观题）？

图3 简短式主观题：校园内停放的车辆

由题意可知，该题主要是考察学生在现实情境下如何利用二元一次方程知识进行数学推理与运算（评分标准见表4）。

表4 例2具体的评分标准

例3：上图中的房间地板要铺设瓷砖（见图4），而通常一盒瓷砖会覆盖25平方英尺的面积。请先用尺子测量面积，然后确定需购买多少盒瓷砖才能铺满整块地板（拓展式主观题）？

图4 拓展式主观题：例3中的房间地板

由题意可知，本题主要是考察学生能否在生活情境中识别几何图形的性质并且进行相关计算（评分标准见表5）。

表5 例3具体的评分标准

（二）NAEP 2019数学能力评价样题分析

数学测试题是NAEP数学评价最为重要的测评工具之一，它主要按照先前制定好的数学能力测评框架来命制题目。具体地说，从内容领域、数学复杂性、问题情境以及题目类型等多方面去考察学生在数学问题解决过程中的能力表现，也就是说需要通过题目的命制来覆盖这些要素。下面将借助对几道典型样题的细致分析来重点说明NAEP 2019数学能力评价的过程。

样题1、音乐厅里面目前有30人，而自助餐厅里现有74人，请问自助餐厅里现在比音乐厅里面多__人？（）

A.40 B.44 C.54 D.104

样题1命题意图：通过依托现实生活背景来认识整数的加减法运算。

内容领域：数与运算

数学复杂性：低水平

问题情境：现实情境

题目类型：选择题

此题主要考查4年级学生在现实生活情境下是否掌握整数的四则运算。而为了成功地解决问题，学生首先要理解上述两个数字代表的意义，然后结合题目要求找出74和30之间的差异，最后再进行减法运算。显然，在数学复杂性上属于低水平层次。只要学生能够理解题意，那么很快就能得出结论，即“44=74-30”。具体来看，有80%的学生选择了正确选项B，仍有20%的学生选择了其他错误答案，说明少部分学生还不能在具体的情境中识别整数的性质。

样题2、今日气象部门报道，一龙卷风中心位于西偏南75°的位置，下面请

使用量角器在图5中从P处绘制龙卷风的方向？（）

图5 样题2中龙卷风的方向

样题2命题意图：通过依托现实科学背景来认识测量学中的坐标方位角。

内容领域：测量

数学复杂性：中等水平

问题情境：现实情境

题目类型：简短式主观题

此题主要考查8年级学生在现实科学情境下是否掌握坐标方位角的概念并进行相关绘图操作。为了成功地解决这一问题，学生首先要理解西偏南75°的概念，然后借助图中的指南针来确定龙卷风的精确方向，最后再进行绘图操作。总体来说，该题在数学复杂性上属于中等水平。只要学生能够理解“西”为主方位，而“南75°”为偏向，那么就能很快定位龙卷风的方向，即方向在从P点处与指南针坐标系的横轴成75°夹角的位置。具体来看，只有21%的学生绘图过程完全正确，还有47%的学生绘图过程部分正确，说明仍有不少学生还不能完全理解方位角概念。

样题3、如图6所示，若该图形的12条边的边长都相等。（1）∠ACG是__度；（2）请证明：任意连接图中三个顶点所形成的内角都不可能为50°。

图6 样题3中几何图形

第（2）小问命题意图：①由于此处主要是就高数学复杂性水平的题目展开说明，故该题仅对样题3的第（2）小问进行分析。通过依托纯数学背景来考察学生的几何推理能力。

内容领域：几何

数学复杂性：高水平

问题情境：纯数学情境

题目类型：拓展式主观题

此题主要考查12年级学生在纯数学情境下是否掌握圆中内切角的性质并进行相关几何推理。关于这道题的解决，学生首先要理解正十二边形的概念，然后借助内切角的性质来进行运算和几何推理。在数学复杂性上，该题属于高水平层次。因为学生只有在综合理解内切角的概念和性质后，才能厘清上述几何图形中的数量关系，即确定正十二边形中任意连接三个顶点所形成的内切角的度数必然为15°的倍数，故题中的结论得到了证明。具体来看，多数学生在解决该题的过程中存在概念理解错误，并且还有不少学生在推理和计算中出现失误。

四、NAEP 2019数学能力评价对我国基础教育质量监测的启示

大规模教育评价已成为国内外教育研究与实践领域广泛关注的主题。尤其是对数学教育来说，科学规范的测评研究更有待学术界积极尝试。但长期以来，我国基础教育领域缺乏系统的、基于课程标准的数学能力测评，一些研究更多的是考察学生在某些数学领域能力的外在表现，并且很少会执行一系列严谨、复杂的测试流程来进行深入挖掘。还有些研究虽然也关注到了不同群体、不同背景学生的数学表现，但也只是通过标准化测试所获得的原始分数来衡量学生的数学能力，从而无法克服样本的依赖性问题。相形之下，NAEP 2019数学能力评价体系始终坚持立足于美国本土数学课程标准和国际课程改革趋势，使用项目反应理论等现代测试手段来保障整个测评工具的质量和实现学生能力特质的获取，并且在评价框架完善上更加注重测评要素的优化、测试工具结构的调整和测试结果的系统解释。有鉴于此，未来我国开展基础教育质量监测可以从数学能力测评框架的系统构建、数学能力测评工具的质量保障以及关注学生数学能力表现的分析和解释等方面加以合理借鉴。

（一）注重数学能力测评框架的系统构建

事实上，测评框架合理性不仅需要科学的测量方法，还要依靠严谨的研究设计和评价维度的系统构建。国外大规模教育测评经验也表明，设计能力评价框架的关键在于根据既有文献确定能力概念中的核心要素和内容范围，并且尽可能从不同角度或维度去研发相关题目来覆盖这些要素，以便能够全面刻画出学生成功解决数学问题过程中所运用的数学能力。当前，为了使测评任务的实施更具有操作性，NAEP 2019数学能力评价项目组构建了相对稳定可靠的测评框架，进而相应地研发测试工具。具体而言，首先根据已有相关文献和数学课程标准对数学能力进行概念界定，然后厘清其内涵、并确定相关维度以及相应的行为表现特征。如2005以前，项目组结合《学校数学课程与评价标准》中对数学知识和技能的掌握要求，确定了数学能力评价的三大维度，即内容领域、认知要求和能力要素。2005以后，考虑到认知要求和能力要素可能存在的交互关系以及各年级数学内容掌握要求的差异状况，项目组开始将原先的三大测评要素（维度）修订为内容领域和数学复杂性两个方面，并且在12年级将内容领域中的“测量”与“几何”合并成“几何”一类。上述数学能力评价体系的构建过程表明测评框架的形成并非简单地根据文献梳理，进而模仿其他测评项目所得，而是在制定测评框架的过程中，善于结合国内外评价经验、学科专家意见以及适应数学课程标准的即时变化，从而适当地调整和完善原有的测评要素，进而能够形成科学稳定的测评框架。

（二）重视数学能力测评工具的质量保障

数学能力测评一般都涉及两个关键问题，即评什么和怎么评的问题。而如何评价直接指向的是测评工具的研发，测评工具的科学性、可信性、有效性直接决定了收集到的数据能否反映测评对象的真实水平。①张丽. 研发测评工具是评价过程的关键一环[J]. 湖北教育(综合资讯), 2016(6): 68-69.因此，整个测评工具的质量保障是教育测评过程中的重中之重。①Stacey K, Turner R. Assessing Mathematical Literacy [M]. Berlin:Springer International Publishing, 2015: 127-143.和其他代表性国际教育测评项目一样，NAEP 2019数学评价主要采用的也是学业成就测验等工具，并辅之以数字测试环境。另外，所有评价或测评，实际都需要综合利用质的资料和量的资料来进行价值判断，从而确保测评工具具有良好的信效度。作为大规模的教育调查工具，NAEP 2019数学能力评价执行了一系列严谨规范的测试流程。在框架搭建初期，项目组梳理了国内外数学能力研究的经典文献，并结合已有数学测评经验构建理想模型，然后根据数学课程标准的相关要求以及数学学科专家的意见逐步完善理想模型；在试题编制阶段，NAEP数学测试项目组严格按照能力框架中各测评要素要求设计评价工具，并且在试题背景、测试年级、内容领域、数学复杂性以及题目类型等方面保持相对均匀；在制定评分标准阶段，组织命题专家团队结合命题原则以及预测试结果制定并调整评分细则，然后参照学生的具体作答进行编码。具体地说，采用SOLO分类法对学生的原始作答进行打分，先将学生的原始作答与相应的评分标准进行比较，然后根据学生答案中所包含的得分点进行等级和作答类型划分，从而准确了解考生对各类数学知识的掌握程度。特别需要说明的是，项目组在正式施测之前还会根据专家意见并结合前期部分试题测试的结果重新组卷。以上的这些评价措施，最终保证了整个测评工具的质量。

（三）关注对学生数学能力表现的分析和解释

大规模数学测评研究表明，要想全面细致地刻画出学生在数学问题解决过程中的能力表现和学业成就状况，需要构建量尺分数并对数学能力测试结果进行分层描述。与PISA和TIMSS类似，NAEP 2019学生数学能力评价的表现主要通过量尺分数和成就水平两个维度来衡量。其中，量尺分数的形成是以项目反应理论为基础，通过构建统计模型估计出所有测试学生的学业或能力特质以及测评试题的难度，并将学生学业或能力特质和试题难度置于同一尺度上，从而一定程度上克服了测试过程对试题和学生群体的依赖性问题，也为学生的实际表现特征与他们在测评内容上的学业或能力之间的联系奠定了基础；②王鼎, 李宝敏. 综合素质评价中量尺构建及结果解释再思考--基于PISA测评及TIMSS测评的启示[J]. 教育发展研究,2017(2): 63-69.而成就水平或精熟度水平量尺旨在获取整体数学学业或能力的基准以及不同基准上学生在内容领域及数学复杂性上的实际表现。具体而言，首先通过学生群体在量尺分数上由高到低的排列，并且根据各部分数学知识的重要性以及认知层面的相关要求（如测试考察比例）来获取基准点，进而采用量尺锚定的方法获取学生在内容领域或数学复杂性方面的表现特征。上述估计方法可将连续的量尺分数划分为不同分数段，并对不同分数段上的学生群体特征进行详细描述。一方面，便于不同地区间在不同群体上再次进行分析比较，从而获取对本地区数学教育有用的信息；另一方面，对高分段和低分段学生的学业表现进行分析，将有助于调整当前数学教学的进度和策略安排。③王鼎. 国际大规模数学测评研究--基于对TIMSS和PISA数学测评的分析[D]. 上海: 上海师范大学, 2016: 163-164.此外，在数学学业成就或数学能力表现影响因素的分析上，NAEP 2019指出对数学学业表现的因果分析不应被理解为简单的回归预测，还要将人口和教育系统因素以及其他未测量变量纳入分析范围，从而获取学生出现当前数学学科测试结果的系统解释。①Maxwell, J. A. The Importance of Qualitative Research for Causal Explanation in Education[J]. Qualitative Inquiry, 2012, 18(8):649-655.