小学语文质量监测阅读题命制再探

2021-09-08 10:54池朱兴施茂枝

语文建设·下半月 2021年2期

池朱兴　施茂枝

【摘要】教育部首轮义务教育质量监测于2015年到2017年在各省市以抽测方式进行，省市级监测迅速跟进并延续成常态，其中小学语文监测阅读题命制“交流并接轨”以九岁学生为对象的国际阅读素养测评项目PIRLS。监测结果哀鸿遍野，未问所以然而盲目“接轨”是原因之一，还体现在：未根据质量监测所覆盖的内容调整文长、题量，未根据课程标准学段目标要求确定评价指标并控制高阶思维含量的试题数量。

【关键词】小学语文，质量监测，阅读题命制，对比国际项目

教育部首轮义务教育质量监测于2015年到2017年在各省市以抽测方式进行，省市级监测迅速跟进并延续成常态。小学语文以四年级学生为对象，监测结果，哀鸿遍野！试题命制，“依据课程标准研发指标和工具，吸收了国际上较先进的测量学技术，与国际项目实现了交流并接轨”。具体到小学语文，“交流并接轨”是以九岁学生为对象的国际阅读素养测评项目PIRLS。教育部和各省市监测试卷均不对外公开，但借助个别省份严格仿制教育部质量监测试卷内容、结构、题量、题型的公开样卷可间接窥其全貌。对比某省小学语文四年级质量监测样卷的命题文本《一碗水》及試题与PIRLS若干文本及试题，便可发现，此“交流并接轨”其实是知其然而未问所以然的不成功嫁接。《语文建设》2019年8月下半月刊发表的施茂枝的《小学语文质量监测阅读题命制初探》，涉及监测结果的原因，从与PIRLS的对比中又可进一步加深认识。

一、文长、题量未作调整

学生阅读命题文本和答完题都有速度极限，故命题文本难度和题量必须与测试时长相适应，这本是常识，也是命题科学性的重要组成部分。若多数学生读题、答题时长恰好，说明文本难度和题量适当;若多数学生时长不足或有剩余，则说明文本难度和题量过大或过小。有经验的命题者，总是谨慎地根据测试时长调控文本的难度和题量。

文本难度决定于深度和长度。所谓深度指文本表层意思与深层意蕴的距离。表层意思与深层意蕴距离越大，越有深度，含蓄蕴藉，意味悠长，耐人咀嚼。表层意思与深层意蕴距离越小，越无深度，直白平易，通俗浅近，一目了然。单从表层意思与深层意蕴的距离考察《一碗水》与《小海鹦鹉之夜》《裁缝》《倒立的老鼠》《钱学森》等PIRLS命题文本，应该说深度基本接近。《一碗水》是一篇叙事散文，情节比较简单，但有些语句，如“看着她善意真诚的笑容，我感到心虚”“我仿佛被洞悉了内心的秘密，窘迫不安”等，对于四年级学生而言，理解起来有一定的难度。《小海鹦鹉之夜》是儿童故事，文字比较浅显，无过多含义深刻的语句，但文本较长。《裁缝》应是微型小说，深度与《一碗水》相当。《倒立的老鼠》是类似于童话的寓言，故事部分文字浅近，揭示寓意的句子是：“这个故事教训我们，当看见这个世界似乎是极度倒乱时，记得确定自己是脚踏实地。”含义深刻，理解难度超过《一碗水》中的任何一个句子。《钱学森》总体上略浅于《一碗水》。除低级别质量监测或各地模拟试卷无底线地选择深度过大的文本外，在小学就直接使用高考命题文本，省级以上的小学语文质量监测命题文本深度与国际项目总体接近，从这个角度看，貌似接轨。

文本长度与测试难度也密切相关。从某种意义上说，阅读过程是消弭文本表层意思与深层意蕴距离的过程，而这一过程需要时间，所谓书读百遍其义自见可证。若测试时长相同，较长的文本，用来消弭相同单位字数表层意思与深层意蕴距离的时间则较短，难度便加大。表1是《一碗水》与PIRLS相对应的文学文本长度。

就平均字数而言，我国质量监测阅读文本与PIRLS相对应的文学文本长度大体相当，也貌似接轨。

PIRLS试卷只有两个板块：文学文本阅读和信息文本阅读。我国小学语文质量监测“交流并接轨”国际项目，其实并非全盘复制PIRLS，试卷有积累与运用、阅读、写作三个板块，“接轨”的只是阅读板块。这是因为我国小学语文质量监测与PIRLS测评目的不同。我国小学语文质量监测意在全面考查各地学生实现义务教育语文课程目标的程度，并对问题作出诊断，以完善课程实施，故测评内容涵盖本课程全领域，尤其是识字写字、阅读、写作，试卷相应地有了三个板块。而PIRLS测评目的单纯是为了解各国九岁孩子阅读水平进展情况，以供各国制定教育政策和规划参考，只考查文学文本和信息文本阅读。

PIRLS考查两个文本阅读，测试时间为80分钟;我国小学语文质量监测总时长和阅读板块的文本数量、题量都与之相近。表2是《一碗水》题量与PIRLS相对应的文学文本题量对比情况。

有些省市质量监测，外加一个非连续性文本阅读文体，题量则超过了PIRLS。那么，学生有多长时间可以用来答完“接轨”的阅读题呢？近三年，笔者利用负责或参与各级各类教师培训等机会，以及到各小学讲座交流，对来自福建省各市区累计不少于1000名的小学语文教师进行调查，结果发现，对于答完积累与运用、写作两个板块试题的时长，绝大多数教师选择50分钟左右;对于答完阅读题的时长，大约2%的教师选择20或40分钟左右，大约98%的教师选择30分钟左右，无人选择超过40分钟的选项。换言之，真正与国际项目接轨的阅读板块，文长和题量大致相当，但学生读题、答题时间还不到PIRLS时长的38%。所有接受监测的学校无一例外地反映，学生根本就答不完题。

严重忽视二者测评内容范围和容量的差异，未依据阅读文本和答题所需时长调整文长和题量，是质量监测结果不太乐观的最直接原因。

二、高难度试题不加控制

国际阅读素养测评，所考查学生的是阅读素养，核心是阅读能力，我国小学语文质量监测阅读板块也在此与国际项目接轨。PIRLS以提取信息、直接推论、解释并整合观点为考查指标;细察那些公开的样卷，我国质量监测在此不全与PIRLS相同，似欲将所有阅读能力要素都作为评价指标。

阅读能力要素为何？其实并无公认或一致的看法，《小学语文质量监测阅读题命制初探》从可作为评价的角度将阅读能力要素分为：检索与复述、了解与转述、解释与推论、概括与整合、欣赏与评价、反思与审辨，六个层次十二个要点。对比《一碗水》和PIRLS诸文本考查六个层次能力的试题权重，可从另一角度具体还原“接轨”的真实情形（见表3）。

“选择、简答比”是指选择题和简答题所占百分比，《一碗水》各占70%和30%。PIRLS诸文本简答题占30%～50%，平均占比38.5%。若將平时所见质量监测阅读题纳进来考查，我国质量监测阅读题题型及其比例，与PIRLS也基本接轨。但从考查各层级能力要素的权重看，则显示出较大差异。

检索与复述为第一层级能力要素，考查学生直接找到时间、地点等故事情境要素及其他特定信息的能力。“‘她做了件什么事，把‘我给镇住了？”（《一碗水》）“海鹦鹉在哪儿度过寒冬？”（《小海鹦鹉之夜》）“这个故事发生在哪里？”（《裁缝》）“罗伯把老鼠夹放在哪里？”（《倒立的老鼠》）“新中国诞生后的中秋夜，钱学森和中国留学生们谈论了什么？”（《钱学森》）等，属检索与复述。《一碗水》此类题目占比20%，此文本有一道题：“‘这阵势指什么？”考查第二层级能力要素了解与转述，一、二两级相加占30%;而PIRLS各文本未考查了解与转述，考查一级能力题目占比38%～50%，平均为43%，显著高于《一碗水》一、二两级相加的30%占比。

解释与推论为第三级能力要素，包括解读人物外在动作行为和情绪所表现的内在心理或缘由、人物话语的弦外之音，诠释事件的前因后果，用事例证明结论等。“‘我下意识地从自己原来待的地方往后站了站表现出‘我怎样的情绪？”（《一碗水》）“为什么要选在白天，孩子们才能将海鹦鹉载到海边去放它们飞翔？请利用文章的资料解释。”（《小海鹦鹉之夜》）“Totio为Sofia做的最有帮助的事情是什么？解释它为什么是最有帮助的。”（《裁缝》）“你认为那些老鼠容易受骗吗？试想出一个理由解释容易或不容易受骗。”（《倒立的老鼠》）“课文第一小节中，钱学森希望脚下的是火箭舱壁说明了什么？”（《钱学森》）等，均属此类。此级题目，在PIRLS各文本试题中占比为43%～50%，平均为48%，显著高于《一碗水》同级题目的30%占比。

概括与整合为第四级能力要素，包括聚合分散信息、形成完整形象或整体，归纳内容要点、人物性格，提炼文章主旨等。例如，《一碗水》中“文章第二自然段写‘我打量她的衣着外貌，其实她也在打量‘我。请你展开想象，写一写她眼中‘我的衣着外貌。要用到文本中有关‘我的信息”。PIRLS文本《钱学森》有道题：“为表现钱学森的品质，课文中写了他哪些事例？请概括地写下来。”这也是比较典型的概括与整合题目，其他题目其实两属于解释与推论和概括与整合，如“试用流畅而准确的语言解释荷拉如何利用手电筒和纸箱拯救了幼小的海鹦鹉。”（《小海鹦鹉之夜》）“通过罗伯的行为，你明白他的性格，试描述他的性格，并从他的行为举两个例子，显示他有哪种性格。”（《倒立的老鼠》）此外，PIRLS虽未将欣赏与评价单独作为评价指标，但“为什么‘生活的改变与继续是本文的另一个好名字？”（《裁缝》）归于欣赏与评价更合适，因其涉及对全文内容的整体把握，这里算在概括与整合内。我国质量监测此级题目占比略高于PIRLS。

欣赏与评价为第五层级能力要素。《一碗水》设计了两道题。其一，“是啊，我在都市的地铁看到乞讨的人，儿时的恻隐之心都已经麻木了……也有着自己的人格和尊严”。作者发这一通议论在表达情意上有什么作用？其二，作者写到“秋刀割过的麦地”在表达情意上有什么作用？处于阅读能力最高级的反思与审辨，《一碗水》也设计了一道题：“有读者认为，‘她不可能做出‘先洗碗后盛水喝的举动。你同不同意这种观点？请根据文本内容说明理由。”《一碗水》考查这两个层级能力要素题目占比为30%，而PIRLS除《裁缝》那道类似欣赏与评价的试题外，其他文本均未涉及。

一般来说，当简答和选择题型比例相近时，高层级能力要素或高级思维试题越多，试卷难度越大。我国质量监测考查高层级能力要素或高阶思维能力的试题明显偏多，这是不容乐观的又一重要原因。

三、评价指标非依标而定

综上，我国质量监测阅读板块的文量、文长、题量、题型都参照PIRLS，形式上的确与国际项目“接轨”，但阅读板块读题和答题时长却不及它的一半，且试题本身难度更大。与其说这是“接轨”，不如说是粗疏简单甚至盲目的嫁接。

国际阅读素养测评取向阅读能力，PIRLS考查提取信息、直接推论、解释与整合观点三项能力;而另一国际项目PISA（国际学生评估项目）以获取与检索、整合与解释、反思与评价为考查指标，增加了属于高级思维能力的反思与评价。所以有此区别，这是因为测评对象年龄不同，前者九岁，后者十五岁，故笔者更愿意认为，其评价指标是依学生身心发展包括阅读能力发展阶段而有所取舍的，而非视之为阅读能力的全部，特别是PIRLS。

那么，我国小学语文质量监测阅读板块应如何确定评价指标？是全盘照搬PIRLS，还是将阅读能力所有要素全部作为评价指标？

我国小学语文质量监测以全面考查各地学生实现义务教育语文课程目标的程度为目的，课程标准中各学段阅读目标才是直接、可靠的依据。

“欣赏文学作品”是课程标准第四学段的目标，“对作品中感人的情境和形象，能说出自己的体验;品味作品中富于表现力的语言”。当然，这并不表示小学阶段完全不能涉及欣赏与评价层级能力的考查。课程标准第二学段目标有“体会课文中关键词句表达情意的作用”，第三学段有“辨别词语的感情色彩，体会其表达效果”。这些要求就属于欣赏与评价的范畴，故第二、第三学段质量监测或其他测评可以进行局部和粗浅的语言品味等，但不可要求过多、过难，同时应尽可能选择难度较小的题型，尽量少采用或不采用简答题，尤其是在第二学段。《一碗水》欣赏与评价类题目占比为20%，题量过大，其中一道题涉及议论表达方式的作用，这在课程标准的目标或教学建议中都找不到依据，从教学实践层面看，也极少有教师将其作为教学内容，况且采用了简答题型，难度显然偏大。

课程标准第二学段要求“能初步把握文章的主要内容”，第三学段要求“了解事件梗概”，属于概括与整合的范畴，但“初步”和“了解”都意味着不可要求过高，命题难度必须严格控制。

关于阅读命题文本选择、试题难度控制等，《小学语文质量监测阅读题命制初探》已有比较全面和深入的探讨，这里补充两点。

其一，不效颦文量、题量。PIRLS考查两个文本阅读，PISA考查三个文本阅读及其文长和题量，都不足以作为选择文本个数、长度和确定题量的依据，必须根据我国质量监测学生阅读文本和答题只有30分钟时长的实际进行周密调适。同时，还必须正视被严重忽略的一点，即在文本选择上，小学质量监测与中考、高考和中学质量等监测相比，有一特殊的难题：难以找到文长适当的现成文章，所以更不必在文本数量上向PIRLS看齐，考查单个文本更具有可行性。课程标准第二学段未提阅读说明文的要求，即说明文不属于此学段必考文体，命题文本应以文学文本为主。因本学段教材有说明文，平时进行低级别监测或训练，适当兼顾此类文体阅读未尝不可，但必须严格控制文本总长。

其二，不求全能力要素。关于阅读，语文课程标准总体目标要求“具有独立阅读的能力”。我国质量监测阅读命题取向阅读能力，确定评价指标就绝不能忽视其要素，但这并不意味着无论哪个学段都要全面考查所有能力要素，面面俱到，不偏不倚。PIRLS根据学生实际不考查高级思维能力，我国质量监测也必须根据学段目标有所侧重，第一学段以前二级为主，第二学段侧重考查前三级能力，第三学段可适当涉及后三级，但一定要借助题型等措施控制难度。

（施茂枝为通讯作者）