政策视角下综合素质评价的定位与实施路径研究

2024-12-25 00:00:00郑勤华刘司卓宋义深
中国电化教育 2024年12期

摘要:尽管经过多年的探索,综合素质评价在各地的实践中仍面临诸多现实困境。因此,厘清政策视角下综合素质评价的定位和实施路径,以为其有效落地提供方向指引尤为关键。该研究基于大语言模型和K-means聚类等量化分析方法,对1985年至今的80份国家上位政策文件展开分析,深入挖掘政策文件中关于综合素质评价内涵定位、目标定位、评价方法、结果应用的核心话语主题,并系统梳理这些主题在不同发展阶段的演进脉络及相互关系。基于研究结果提出以下发展建议:完善理论体系建设,体现综合素质评价全面性与发展性的内涵定位;构建长周期诊断性评价体系,平衡选拔与育人双重目标定位;加强技术赋能,建立兼具方法科学性与地方适应性的评价体系;探索数据转换机制,提升综合素质评价在教育宏观治理中的调控作用;构建内涵定位、目标定位、评价方法与结果应用四位一体的闭环机制,推动综合素质评价向与社会需求相适应的动态优化体系发展。

关键词:综合素质评价;评价改革;政策文本分析;大语言模型;K-means

中图分类号:G434 文献标识码:A

*本文系国家重点研发计划“社会治理与智慧社会科技支撑”2021年度揭榜挂帅项目“大规模学生跨学段成长跟踪研究”(项目编号:2021YFC3340800)、2023年度北京师范大学中央高校基本科研业务费专项资金资助项目“智能技术支持的学生综合评价方法和技术的创新研究”(项目编号:1233200007)阶段性研究成果。

一、研究背景

改革开放以来,随着社会不断发展进步,对大规模高素质人才的需求愈发迫切。传统应试教育模式的弊端日渐凸显,已无法满足现实社会发展和人才培养的多元化需求[1]。在此背景下,素质教育成为我国教育改革与发展的主旋律。而综合素质评价,作为扭转传统考试与评价制度的关键一环,也由此应运而生,并在过去几十年的实践探索中,从初步尝试逐步走向全面实施。尽管如此,综合素质评价仍面临评价内容不明确、方式不可靠、结果难使用等诸多现实困境,致使其始终未能充分发挥应有的导向作用。因此,厘清我国综合素质评价的定位与实施路径,梳理其发展关键节点和痛点,探寻未来突破方向尤为重要。

政策文本,作为高度凝练国家意志和精神的重要载体,是洞察特定时代背景下领域发展战略走向和演进过程的重要依据[2]。综合素质评价作为一项在顶层设计下不断获得推动与支持的重要制度,深入解析国家层面的相关政策文本,有助于全面理解掌握其发展历程、洞悉其发展机遇、预见其未来走向。尽管已有学者就综合素质评价相关政策文本进行分析和梳理[3-5],但多采用解释主义视角下的定性研究,一定程度上限制了对文本内容特征与规律的客观提炼和直观呈现。此外,已有研究多围绕教育部发布的操作层面的政策文件,对国家上位文件的分析略显不足。

鉴于此,本研究旨在从新经验主义视角出发,聚焦于综合素质评价相关上位文件,借助大语言模型和K-means聚类等量化研究方法对政策文本进行分析,旨在从更宏观的政策视角来分析我国综合素质评价的内涵与实施路径及其演进发展历程,并基于此提出发展建议,以期为综合素质评价的落地提供参考。本研究主要围绕三个研究问题展开:(1)政策视角下我国综合素质评价的定位是怎样的?(2)政策视角下我国综合素质评价的实施路径是怎样的?(3)政策视角下我国综合素质评价的定位与实施路径之间呈现怎样的关系?

二、研究设计

(一)研究范式选择

研究范式是指研究者所秉承的基本信念和研究立场,指引着研究者明确要研究什么、如何开展研究以及如何来理解和阐释研究结果[6]。既有相关研究多遵循解释主义研究范式,基于定性研究方法来理解政策文本背后的含义、意图和社会语境。然而,解释主义强调研究者个人对文本的理解与阐释,研究过程往往缺乏充分的客观证据支撑,研究结果也就难以避免地高度依赖于研究者的主观判断和个人经验,缺乏足够的普遍性。鉴于此,本研究将遵循新经验主义(New Empiricism)研究范式[7],基于大语言模型和K-means聚类等量化数据分析手段,识别和挖掘出国家政策文本中蕴含的规律,并结合社会文化与政治背景对其进行解读和阐释,以更全面和深层次地理解政策视角下我国综合素质评价的定位与实施路径。

(二)政策文本选择

1985年,邓小平在第一次全国教育工作会议上指出:“我们国家,国力的强弱,经济发展后劲的大小,越来越取决于劳动者的素质,取决于知识分子的数量和质量”[8]。同年发布的《中共中央关于教育体制改革的决定》明确指出:“在整个教育体制改革过程中,必须牢牢记住改革的根本目的是提高民族素质,多出人才,出好人才”[9],这成为素质教育以及后来综合素质评价实践的思想源头。基于此,本研究将1985年作为起点收集相关政策文件。考虑到本研究旨在从宏观政策视角,围绕上位文件探索综合素质评价发展情况,因而将对综合素质评价定位和落地实施具有重要指导意义和价值的国家层面政策文件、法律法规、教育方针以及党的教育指导思想作为文本选取依据,选取历次党代会报告、政府工作报告、五年计划(规划)纲要、教育法律、全国教育大会(工作会议)领导人讲话以及中共中央、国务院发布有关教育评价重要指导性文件6种类型的政策文件。对于党代会报告、政府工作报告、五年计划(规划)纲要等综合性文件,仅截取与教育直接相关的内容段落,以确保研究的针对性。最终确定80份政策文件共计239819字作为本研究分析样本(如表1所示)。

(三)文本分析框架

为更深入地回答本研究的三个研究问题,即理解政策视角下我国综合素质评价定位、实施路径及其关系,研究将定位细化为内涵定位和目标定位,将实施路径细化为评价方法和结果应用,并围绕这四个维度对相关政策进行分析。内涵定位作为综合素质评价定位的逻辑起点[10],决定了评价所承载的教育理念和价值取向;目标定位确保了评价的方向和重点是否与教育远景目标和社会发展需求相匹配;评价方法是综合素质评价从政策概念走向落地实践的关键桥梁;而综合素质评价结果的应用则是确保评价发挥指挥棒效用的重要一环。

为把握我国综合素质评价政策的演进脉络,研究对其发展阶段进行划分,并分析各阶段的主题演进规律。对综合素质评价起关键导向作用的政策文件作为阶段划分的依据。1985年《中共中央关于教育体制改革的决定》推动应试教育向素质教育转变,奠定了综合素质评价的思想基础。1999年《中共中央国务院关于深化教育改革全面推进素质教育的决定》正式提出要突出对能力和综合素质的考查,成为综合素质评价探索实践的关键起点[11]。2014年《国务院关于深化考试招生制度改革的实施意见》正式将综合素质评价纳入考试招生制度改革,推动其走向常态化实施[12]。2020年发布的新中国首个有关教育评价的系统性文件《深化新时代教育评价改革总体方案》则为评价体系的创新和完善指明方向[13]。鉴于此,研究将综合素质评价发展划分为4个阶段:1985-1998年的基础奠定期、1999-2013年的探索实践期、2014-2019年的常态实施期、2020年至今的创新完善期,并据此展开分析。

(四)文本分析方法

在新经验主义范式指导下,研究基于大语言模型、文本聚类等量化分析手段提取海量政策文本数据中的特征和规律,以洞察综合素质评价在上位政策文件视角下的定位与实施路径。文本分析大体可分为以下五个步骤:

(1)数据预处理:研究首先依据句号、问号、感叹号、换行符作为自然分隔符对所有政策文本进行分句处理,并移除句中空格。考虑到语义信3e703d056c1250dc043f5256053a42783af501c98576753ee7b116f1a86a58d5息的完整性与丰富度,舍弃文本长度不足10个字符的语句片段,最终得到5417个内容丰富、结构完整的语句。

(2)文本向量化:研究首先将内涵定位、目标定位、评价方法、结果应用四个维度转换成对应的查询问题(如下页表2所示),然后使用讯飞星火大模型向量化接口将所有政策文本及查询问题进行向量化处理。依托大语言模型的深度语义理解能力,确保转换后的向量能够精准地反映原始文本的语义内容和上下文信息。

7849191611b0c216d1a34c7883dcd41e80acc33281ddec9e5e654bc335edaef6

当余弦相似度阈值提高,平均匹配量(每个查询问题匹配到语句数量的平均值)与重叠率(不同查询中重复出现的语句比例)均开始下降。当阈值达到0.8261时,重叠率降到最低并开始回升,平均匹配量趋于稳定。这表明在此阈值前提高相似度能有效减少不精确匹配,超过则可能导致信息损失和查询结果混淆。因此,研究选择0.8261作为最佳阈值,以平衡信息精确度和完整性。为确保匹配准确性,进一步进行人工筛选,去除相关程度较低的匹配项。最终得到551条匹配语句。

(4)向量聚类:为识别政策文本中的潜在主题特征,研究采用K-means算法对每个查询问题匹配的语句进行向量聚类,遵循肘部法则(Elbow Method)确定最优聚类个数[14]。通过分词提取及词频统计,以初步掌握文本中的关键特征。

(5)主题演化分析:为考察综合素质定位和实施路径的政策变迁,研究依据四个阶段分析主题间演化规律。首先通过余弦相似度量化连续时间区间内主题间距离(如公式2所示),距离越小表明两个主题在内容上更接近,有演化基础[15]。然后将距离关系进行最小-最大标准化(Min-Max Normalization)处理,分析主题间相对位置变化[16]。

(6)主题共现关系分析:为考察综合素质评价定位与实施路径间的关系,研究对内涵定位、目标定位、评价方法和结果应用四个维度的主题共现关系进行分析。若不同查询问题下的两个主题在同一政策文件中同时出现,则视为一次共现,通过计算共现频次揭示主题间的关联和互动。

三、研究结果

(一)政策视角下的综合素质评价定位

研究首先对政策文本中内涵定位和目标定位相关语句进行主题聚类分析,提炼出政策视角下的核心话语主题。然后对这些主题在综合素质评价四个发展阶段的演进进行分析。通过绘制桑基图(如图1所示),直观展示其演进脉络。图中,从左到右依次展示了四个发展阶段的主题分布,线条表示各阶段间主题的流向,流域的宽度则反映了前后主题间关系的强弱。

1.内涵定位话语主题及其演进脉络

政策文件对综合素质内涵概念的探讨共涉及五个主题。第一,强调学生的全面发展。从1993年《中国教育改革和发展纲要》提出要培养“四有”新人[17],到2018年全国教育大会上习近平总书记提出的德智体美劳全面发展[18],全面发展的理念不断深化,也逐渐成为综合素质评价的根本遵循。第二,关注学生面向终身学习的素养能力。政策文件多次指出,素质教育应为学生的终身发展奠定基础,要培养与终身学习密切相关的能力[19][20]。第三,强调爱国主义精神,将其作为实现培养社会主义建设者和接班人教育目标的必要条件。如《国务院关于基础教育改革与发展的决定》便明确要求学生具备爱国主义和集体主义精神[21]。第四,强调文化修养,特别是对中华优秀传统文化与革命传统的继承与发扬,如《关于深化教育教学改革全面提高义务教育质量的意见》便明确提出传统文化教育是发展素质教育的重要一环[22]。第五,强调社会实践能力。多个政策文件均强调理论与实践结合,倡导培养学生的创新和实践能力[23][24]。

从主题演进分析结果可以看出,“全面发展”和“爱国主义”是政策文件中综合素质内涵的核心主题,保持着高度的政策连续性和稳定性。自1999-2013年的探索实践期起,“文化修养”也融入并扩充了两个主题的内涵。推动人的全面发展是马克思主义教育理论的基本观点,是社会主义教育的本质追求;爱国主义则在任何历史时期都对国家的凝聚力和向心力有重要影响,因而这两个主题始终被视为学生综合素质的核心要素,其内涵随着时代发展不断丰富和扩展。“社会实践”和“终身学习”两个主题自探索实践期以来也逐渐被强调,并持续至今。随着知识经济和信息技术的飞速发展,个体持续学习和理论实践能力日渐成为现代社会人才所必备的关键素质。

2.目标定位话语主题及其演进脉络

综合素质评价目标定位相关语句经聚类后得到5个主题。第一,贯彻全面发展的教育理念。这一目标根植于马克思主义哲学思想,强调人的全面发展是历史发展的必然要求和终极目标,因而综合素质评价实施也致力于促进学生在知识、能力、品格、价值观等各方面的全面发展。第二,强调推进教育高质量发展。如党的二十大报告指出,要加快建设高质量教育体系、发展素质教育[25]。综合素质评价作为素质教育的核心组成部分,即成为实现教育质量全面提升的关键策略。第三,强调促进学校制度改革。综合素质评价旨在推动教育评价体系的多元化和科学化,打破应试教育模式,如《国家中长期教育改革和发展规划纲要(2010-2020年)》[26]与《关于深化教育体制机制改革的意见》[27]均提出,建立科学、多样的评价标准是促进学生全面发展的长效机制。第四,强调推进考试招生制度改革。通过综合素质评价,突破“一次考试定终身”的局限,引导考试招生制度向更多元化、科学化的方向发展。第五,强调培养学生综合能力。通过科学的评价体系,培养具有学习、创新、实践、合作等多方面能力的高素质人才,推动社会的进步与创新。

尽管各主题间经历了相互分流与合并,但整体u02re6JkBkf/A77Bi1zZgA==来看,自1985年我国从应试教育向素质教育转型以来,“贯彻全面发展理念”“推进教育高质量发展”“促进学校制度改革”“推进考试招生制度改革”以及“培养学生能力”五个主题在不同历史阶段的政策文件中始终受到关注,展现出极强的政策稳定性和连贯性,反映出这些目标与国家长期的教育发展战略以及社会需求之间的高度契合。

(二)政策视角下的综合素质评价实施路径

研究对政策文本中评价方法和结果应用相关语句进行主题聚类分析,并对各主题间演进脉络进行分析,绘制桑基图如图2所示。

1.评价方法话语主题及其演进脉络

从主题聚类结果来看,综合素质评价方法包含六层意蕴。第一,强调对学生过程表现的客观记录。政策多次提到要注重过程性评价,如《国家中长期教育改革和发展规划纲要(2010-2020年)》便提出要做好学生成长记录,完善综合素质评价[28]。第二,强调评价的科学性。如《深化新时代教育评价改革总体方案》就明确提出要充分利用信息技术,提高教育评价的科学性、专业性、客观性[29]。第三,鼓励建立政府、学校、社会等多方协同参与的评价督导制度,以提高综合素质评价的透明度和可信度。第四,强调需要建立完善综合素质评价使用办法。多个文件均强调要根据城乡差异和学生群体等实际情况制定综合素质评价的具体实施和使用方案[30][31]。第五,倡导评价与课堂教学活动的有机结合。政策文件认为教学活动与资源是学生综合素质发展的重要载体,评价活动应融入教育活动的各个环节,实现以评促教和以评促育。第六,鼓励地方因地制宜制定具体办法,允许地方展现自主性和灵活性,以适应不同地区的教育需求和特色。

根据主题演进分析结果,政策文件中对综合素质评价方法的探讨逐渐丰富和深入。在1985-1998的基础奠定期,综合素质评价尚处于理念萌芽阶段,政策主要集中于“结合课堂教学活动”这一主题,旨在通过日常教学活动来提升学生的综合素质。从1999年往后,随着政策文件的不断发布,“记录学生过程表现”“提高评价科学性”“建立评价督导制度”“建立健全使用办法”“结合课堂教学活动”“制定地方具体办法”等主题相继涌现,并在发展过程中不断演化、分流和合并,可见综合素质评价逐渐从理论构想走向实践应用,并在实施中不断完善。

值得注意的是,“提高评价科学性”这一主题虽然自1999-2013年的探索实践期起一直是政策文件中反复强调的重点,但在2020年至今的创新完善期,这一主题并未从前一阶段的任何主题中演进或分流而来,而是作为独立主题重新出现,这表明当前阶段综合素质评价的科学性面临着新的挑战,传统评价体系亟需进一步改革和创新,以适应新时代教育发展的需求。

2.结果应用话语主题及其演进脉络

主题聚类结果显示,政策文件对综合素质评价结果应用的探讨集中在三个层面。首先,强调将综合素质评价结果作为招生录取的重要参考依据。如《国家中长期教育改革和发展规划纲要(2010-2020年)》便提出要完善综合素质评价,为高中招生录取提供更加科学的依据[32]。其次,强调将评价结果作为教育发展质量的评价标准,既用于对学生个人发展质量的评估,也用于对学校办学质量及义务教育质量的全面评价。最后,强调评价结果承担社会导向和调控的职能,引导社会对人才素质的重视,调整教育政策与资源配置,以推动社会整体教育质量提升和人才培养的优化。

随着综合素质评价逐渐发展推进,政策对其结果应用赋予的期待愈加丰富和细化。在1985-1998年的基础奠定期,文件主要聚焦于“教育发展质量标准”这一主题,旨在建立和确保基础教育质量的统一标准和规范。到了1999-2013年的探索实践期,随着经济社会的发展和对高素质人才的需求增加,“教育发展质量标准”逐渐细化并分流出“招生录取参考依据”这一新主题,旨在通过完善评价体系为招生录取提供更科学、公正的依据。在2014-2019年的常态实施期和2020年至今的创新完善期,政策文件进一步丰富,“社会导向调控诊断”这一主题出现,反映出社会对综合素质评价的期待已超越教育质量保障和招生制度优化,还希望其能够在更广泛的社会层面发挥导向和调控作用。

(三)政策视角下的综合素质评价定位与实施路径关系

研究分析了不同发展阶段中内涵定位、目标定位、评价方法与结果应用四个维度主题间的共现关系,并通过无向带权图展现各主题间的关联(如图3所示)。线条越粗,代表主题之间的共现频率越高,关联程度越紧密。

可以看出,在1985-1998年的基础奠定期,内涵定位与目标定位的共现频率较高,而与其他主题间的关联相对较少,表明该阶段政策更多集中于如何将综合素质这一抽象理念转化为明确的目标框架,而尚未落实到实操层面。进入探索实践期和常态实施期后,四个维度间的共现关系明显增强,特别是目标定位与评价方法的联系更为紧密,反映出政策愈发重视如何通过具体评价方法实现目标,将理念付诸实践。然而,2020年至今的创新完善期,内涵定位与其他维度间的共现关系明显减弱,结果应用与其他维度间的联系增强,这可能意味着在这一时期政策更加注重通过评价方法和应用手段达成既定目标。这种对操作导向的强化,导致内涵定位与其他操作性维度间的联系相对弱化。

四、研究结论与发展建议

(一)围绕全面性和发展性的内涵定位核心,推动评价理论体系建设

从研究结果来看,政策文件对综合素质内涵的探讨主要聚焦于两个核心方面。一方面是对学生全面性基础素质的关注,特别是学生在德、智、体、美、劳等多个维度的均衡发展。政策文件尤其突出对学生爱国主义情怀与中华传统文化认同方面的重视。这些素质不仅是个体健康成长的基石,也是塑造具有全球视野、同时深植本土文化土壤的全面发展人才的关键要素。另一方面则是对发展性高阶素养的关注,即注重培养学生独立思考、创新思维、语言表达等面向学生终身学习的素养能力。特别是当前百年未有之大变局下,这些高阶素养能力对学生适应快速变化的世界和个人持续成长至关重要,因而在政策层面被愈发强调。总体而言,政策视角下对综合素质的内涵定位可以归结为以德智体美劳全面性素质为基础,以面向终身学习的素养能力为追求,旨在培养出合格的社会主义建设者和接班人。

尽管政策上对综合素质内涵提出了较为明确的原则性指向,但“综合素质”这一概念该如何准确界定,仍然缺乏清晰统一的答案。对于具体实施而言,内涵上的模糊性致使其难以为评价实践的探索提供清晰、有效的理论支持与操作指导。2014年,教育部发布的《关于加强和改进普通高中学生综合素质评价的意见》,将评价内容界定为思想品德、学业水平、身心健康、艺术素养、社会实践五个维度[33]。随后,各地政策制定者与实践者便遵循这一文件,试图通过逐步细化和拆分这五个维度,以此来诠释究竟何为“综合素质”。然而,文件中这所提出的五个维度更多是为了满足实际操作和量化评估需求而设计出的“操作性逻辑”,其本质在于为评价提供一套可操作、可实施的框架,而非对综合素质内涵的全面阐释,且尚未完全体现出政策层面对其内涵的原则要求。若简单将其等同为综合素质的完整内涵,则可能在评价与培养中忽视学生成长发展的多样性。为解决这一问题,亟需进一步明确综合素质的内涵,并依此构建融合全面性与发展性原则的科学的评价理论体系。目前,国内学者在该领域已进行了初步探索,为综合素质内涵与评价体系的完善提供了有力参考。例如,柴唤友等人提出,综合素质可被界定为“学生在受教育过程中形成的跨越学科的关键能力、必备品格和深化价值观的个性化有机融合”,并构建了以自主发展、文化修养、社会参与三大维度为基础的评价理论模型[34]。此外,张治等人基于核心素养视角,构建了涵盖学生品德发展、学业发展、身心发展、人文底蕴、实践创新等维度的综合素质评价指标体系[35]。但当前理论研究在地方实践中的转化仍然有限,因而需要在完善综合素质理论体系建设的同时,加大政策层面的推动和支持,以促进理论研究在地方实践层面的有效转化和广泛应用。

(二)聚焦选拔与育人双重目标定位,构建长周期诊断性评价体系

政策视角下综合素质评价的目标定位紧扣全面发展的教育理念,旨在以选拔和培育作为突破口,扭转长期以来的应试教育倾向。具体而言,政策文件强调将综合素质评价作为考试招生制度改革和学校制度改革的撬动点,期望通过将其纳入高利害考试的选拔依据,从根本上打破过去以分数为唯一标准的选拔机制。同时,政策进一步突出综合素质评价在学生培养中的核心作用,视其为培育学生全面发展能力和素养的关键途径,试图通过评价的育人功能,在潜移默化中逐步引导社会形成对素质教育的正确认识,推动教育理念的转型和社会观念的革新。

然而,选拔和育人双重目标的实现却面临现实上的困境,根源在于选拔背后的功利主义导向与育人背后的人本主义导向的内在冲突与矛盾。当前,各地综合素质评价实践大多遵循2014年教育部发布的《关于加强和改进普通高中学生综合素质评价的意见》[36],以学生日常表现的客观记录作为重要质料来进行评级与赋分。尽管这种评价手段在一定程度上能够反映学生全面而长期的成长过程,并关注能力、品格、价值观的培育,但基于质性材料的简单粗暴的主观评价难以保证评价结果在选拔中的科学有效性。另一方面,若评价体系过于注重其在升学和选拔中的决策功能,并倾向于通过快速、标准化的方式衡量学生的能力,则极易导致育人价值被边缘化,从而背离综合素质评价的初衷[37]。因此,如何有效平衡两个目标之间的张力,使综合素质评价的目标定位能够真正指导实践落地,成为当前亟待解决的难题。在此背景下,素质导向的长周期诊断性评价或可为育人和选拔之间的矛盾提供解决方案。即通过建立一套面向学生成长发展的科学评价工具体系,以持续、周期性的诊断和反馈方式,精准、客观地衡量学生在各个素养和能力维度上的发展情况。此类评价既可以通过多元化的评价标准,引导社会更加重视学生全面而个性化的成长,使育人价值回归教育评价的核心;同时,也为高利害选拔提供了更加科学、全面的量化数据支持,从而提高了评价结果在选拔中的公信力和有效性。

(三)强化评价方法科学性与地方适应性,加大技术赋能探索力度

从研究结果来看,政策层面对综合素质评价方法的探讨主要集中在两个核心层面:评价科学性与地方适应性。首先,政策文件强调评价的实施应该以科学性为首要前提。尤其是自2020年综合素质评价进入全新发展阶段以来,政策文件开始以新的话语体系,强化了对评价科学性、专业性和客观性的要求。这也反映出政策层面期望通过信息技术,特别是人工智能、大数据等先进技术手段的应用,构建起更加具有可信度和公正性的评价体系,以在全球竞争加剧、人才需求迫切的背景下,让综合素质评价真正肩负起选拔与育人的双重使命,来帮助识别和培养出符合国家发展战略需求的人才。其次,地方评价的适应性与自主性也是政策文件中另一重要讨论点。政策层面强调各地能够根据自身的教育环境、资源配置、学生情况等特点,设计符合本地的综合素质评价督导制度、评价具体实施办法以及学评融合方案,形成适应本地需求的教、管、评一体化方案。

但遇到的现实阻碍在于,技术赋能的评价方案往往需要大量的前期投入与持续的维护成本,而各地区在经济发展水平、资源条件、技术基础等方面存在显著差异。对于欠发达地区而言,面临技术基础设施薄弱、资金匮乏、专业人才短缺等多重挑战,其在构建适宜本地的评价体系时不得不选择技术要求较低、易于实施的替代方案,进而可能导致其评价体系的科学性上受到削弱。而政策方面其实已意识到技术赋能在综合素质评价实践中的潜在瓶颈,开始集中调动资源,探索全国范围内技术支持的评价解决方案。2022年,教育部发布《关于开展信息技术支撑学生综合素质评价试点工作的通知》[38],并在全国范围内遴选了30余试点区域,计划通过五年的先行探索,由国家牵头组织建设评价工具和平台,提供专项培训和技术指导,最终形成适应不同地区的技术驱动的综合素质评价方案。然而,试点工作受限于时间和区域,成果覆盖范围仍显不足。要确保技术赋能的评价体系能够在更大范围推广应用,未来仍需依赖长期的政策支持,将试点的成功经验辐射到更多区域。同时,需进一步加大对技术支撑教育评价的研究投入,加速科研成果向地方实践的转化,以推动综合素质评价向更科学和专业的方向发展。

(四)深化评价结果宏观调控功能,探索构建评价数据转换机制

政策视角下对综合素质评价结果应用的期待逐渐丰满。首先是从微观层面,综合素质评价结果被赋予作为招生录取参考依据的重要功能,用以建立更加符合全面发展教育理念的评价选拔机制,满足社会对高质量人才的迫切需求。随着政策实施的不断深入,对综合素质评价结果应用的期望也逐渐扩展至宏观调控层面。政策期待将其作为把握教育质量发展全局的关键工具。通过对评价数据的持续收集和系统分析,为全面掌握全国教育发展水平提供客观的决策数据,并据此来优化教育政策、促进教育资源的合理配置,调整和完善人才培养战略布局,以确保教育体系能够持续回应社会和经济发展需求。

然而,当前政策层面存在着一定的冲突矛盾,阻碍了评价结果的有效应用。一方面,想要综合素质评价结果为宏观战略调整提供科学依据,这就要求评价结果在跨学校、跨区域间具备可比性,方可对全国教育发展状况进行全局把握。而另一方面,如前所述,政策鼓励各地因地制宜建立综合素质评价方案,甚至许多地区的综合素质评价已实施了“一校一案”的灵活评价模式,导致评价结果的适用范围往往仅局限于校内或区域内。这种地方适应性与国家一致性需求之间的割裂,使得综合素质评价结果难以在国家层面发挥其预期的调控作用。综合素质评价政策在地方已积累了长期实践,无论教育行政部门、学校亦或社会,都在现有政策框架下形成了路径依赖。如完全推翻现有评价方案,强制执行统一的评价标准,以获取全国性的可比结果,可能会增加执行成本,引发地方的抵触情绪,甚至导致教育系统的不稳定性。鉴于此,如何在保留原有评价框架的基础上,协调地方与国家层面的政策需求,实现各地综合素质评价结果的可比、可用,成为亟待解决的问题。在此背景下,建立综合素质评价数据的转换机制,或可作为一种低成本且高效的解决方案。依托人工智能、大数据等先进技术,对不同区域和学校的评价数据进行标准化处理和转换,以实现全国范围内数据的有效整合。但各地评价理论体系的差异如何协调?如何构建适用于多样化评价数据的标准化算法,实现统一的转换和比较?这些理论和技术上的关键问题仍需进一步探索,以确保转换机制的可行性和科学性。

(五)打破评价定位与实施脱节困境,建立四位一体评价体系

从研究结果可以看出,早期政策文件中,综合素质评价内涵定位与目标定位间呈现出相对紧密的联系,随着政策的逐步推进和综合素质评价的不断发展,目标定位与评价方法及结果应用的联系日益加强,然而,内涵定位与其他维度的联系却逐渐减弱。这转变反映出政策层面已从理念构建过渡到实践执行阶段,但在过程中却忽视了对综合素质内涵的持续关注和动态更新,导致实际操作层面的反馈未能有效反哺理论构建,进而削弱了理论对实践的指导作用。这种缺乏闭环的反馈机制可能使综合素质评价改革陷入局部优化、全局乏力的困境。即便如何在评价方法改进、技术手段应用上进行深入探索,都无法触及其背后的教育理念,致使所谓的改革创新最终沦为一场缺乏广度和深度的形式化表演。因此,当下亟需完善综合素质评价的闭环机制,构建起“内涵定位、目标定位、评价方法、结果应用”四位一体的综合素质评价体系,确保各环节的内在一致性和逻辑连贯性(如图4所示)。

具体而言,综合素质评价的内涵定位是评价体系的基础,决定了评价的理念与价值取向能否契合当下时代发展与人才培养需求;目标定位为评价提供了方向指引,确保在实施过程中既能服务于选拔功能又不偏离育人初衷;评价方法则是实现内涵和目标的关键桥梁,通过科学、有效的评价手段将理念落地执行;结果应用不仅是评价方法的输出成果,更是对整个评价体系的反馈与检验,推动体系的动态更新和自我完善。而想要实现这一评价体系,仍需要政策层面加大对综合素质评价的系统性研究力度。目前综合素质评价相关研究众多,部分学者专长于对其理论构建,部分聚焦于技术赋能。这样分散的研究格局虽然有助于推动评价的局部优化,但难以支撑形成具有完整逻辑链条的评价体系。为此,建议国家层面进一步设立融合理论、技术和实践的综合性课题,促进各学科和领域的学者共同参与,通过集体智慧推动综合素质评价的整体改革与创新。

五、结语

本研究在新经验主义范式的指导下,利用大语言模型和K-means等量化数据分析手段,深入剖析1985至2024年间我国发布的80份关键政策文件,重点挖掘了政策层面对综合素质评价内涵定位、目标定位、评价方法与结果应用四个维度的核心话语主题,并系统地梳理了这些话语主题在不同历史阶段的演变过程及主题间的关联关系,以明晰政策视角下对综合素质评价的导向与期待,并提出针对性的发展建议。然而,当前的研究框架主要聚焦于综合素质评价的内涵、目标、评价方法和结果应用四个维度,对于评价实施过程中其他环节的关注尚有不足。未来将对分析框架进一步细化和完善,以更全面、更深入地理解政策视角下综合素质评价的发展导向,为教育评价改革提供更加丰富、更加精准的理论支持和实践指导。

参考文献:

[1] 刘志军,徐彬.综合素质评价与核心素养:关系辩证和联动发展[J].课程·教材·教法,2023,43(10):33-41.

[2][3][11] 王洪席.我国综合素质评价政策的演进历程及特征分析——基于(1999—2014年)政策文本的分析[J].课程·教材·教法,2016,36(12):28-34.

[4] 邓凡,余亮.我国学生评价政策的回顾与展望——基于NVivo11的政策文本分析[J].中国人民大学教育学刊,2022,(4):91-106.

[5] 饶丽,卢德生.学生综合素质评价改革的政策走向及阶段特征[J].教学与管理,2019,(31):76-79.

[6] xN5PW/l5nyw+zbgRX+QvMPjjof77BRunJ+CZX32aeXU=Bryman A.Social research methods [M].Oxford:Oxford University Press,2016.

[7] 张婧婧,于玻.指向复杂性的“新经验主义”:论教育研究的范式演进与创新[J].中国远程教育,2024,44(2):47-61.

[8] 求是网.邓小平文选第三卷[EB/OL].http://www.qstheory.cn/books/2019-07/31/ c_1119485398_39.htm,2024-07-01.

[9] 中国共产党中央委员会.中共中央关于教育体制改革的决定[EB/OL]. https://www.gov.cn/gongbao/shuju/1985/gwyb198515.pdf,2024-07-01.

[10][37] 肖磊,陈雪纯.论综合素质评价定位的偏差及其回归[J].教育发展研究,2020,40(22):42-48.

[12] 肖磊,李本友.综合素质评价的制度化:历程回眸与系统谋划[J].教育研究,2018,39(4):68-74.

[13] 檀慧玲,王玥.贯彻落实《深化新时代教育评价改革总体方案》的几个关键问题[J].中国考试,2021,(8):14-20.

[14] Syakur M A,Khotimah B K,et al.Integration K-Means Clustering Method and Elbow Method for Identification of The Best Customer Profile Cluster [EB/OL].https://doi.org/10.1088/1757-899X/336/1/012017,2024-07-01.

[15] Nakamura T,Taki K,et al.A shape-based similarity measure for time series data with ensemble learning [J].Pattern Analysis and Applications,2013,16(4):535-548.

[16] Patro S G K,Sahu K K.Normalization: A Preprocessing Stage [EB/OL]. https://doi.org/10.48550/arXiv.1503.06462,2024-07-01.

[17] 中共中央、国务院.中国教育改革和发展纲要[J].中国高等教育,1993, (4):8-17.

[18][24] 新华社.习近平出席全国教育大会并发表重要讲话[EB/OL].https:// www.gov.cn/xinwen/2018-09/10/content_5320835.htm,2024-07-01.

[19][21] 国务院.国务院关于基础教育改革与发展的决定[EB/OL].https:// www.gov.cn/gongbao/content/2001/content_60920.htm,2024-08-01.

[20][22] 新华社.中共中央 国务院关于深化教育教学改革全面提高义务教育质量的意见[EB/OL].https://www.gov.cn/zhengce/2019-07/08/ content_5407361.htm,2024-08-01.

[23] 中共中央、国务院.中共中央 国务院关于深化教育改革全面推进素质教育的决定(1999年6月13日)[J].中国高等教育,1999,(Z1):3-7.

[25] 新华社.习近平:高举中国特色社会主义伟大旗帜 为全面建设社会主义现代化国家而团结奋斗——在中国共产党第二十次全国代表大会上的报告[EB/OL].https://www.gov.cn/xinwen/2022-10/25/ content_5721685.htm,2024-06-29.

[26][28][30][32] 新华社.国家中长期教育改革和发展规划纲要(2010-2020年)[EB/OL].https://www.gov.cn/jrzg/2010-07/29/content_1667143. htm,2024-08-01.

[27] 新华社.中共中央办公厅 国务院办公厅印发《关于深化教育体制机制改革的意见》[EB/OL].https://www.gov.cn/zhengce/2017-09/24/ content_5227267.htm,2024-08-01.

[29] 新华社.中共中央 国务院印发《深化新时代教育评价改革总体方案》[EB/OL].https://www.gov.cn/zhengce/2020-10/13/content_5551032. htm,2024-06-29.

[31] 国务院办公厅.国务院办公厅关于新时代推进普通高中育人方式改革的指导意见[EB/OL].https://www.gov.cn/zhengce/content/2019-06/19/ content_5401568.htm,2024-02-08.

[33][36] 教育部.教育部关于加强和改进普通高中学生综合素质评价的意见 [EB/OL].http://www.moe.gov.cn/srcsite/A06/s3732/201808/t20180807_344612. html,2024-02-08.

[34] 柴唤友,陈丽等.学生综合评价研究新趋向:从综合素质、核心素养到综合素养[J].中国电化教育,2022,(3):36-43.

[35] 张治,刘小龙等.基于数字画像的综合素质评价:框架、指标、模型与应用[J].中国电化教育,2021,(8):25-33+41.

[38] 教育部.教育部办公厅关于开展信息技术支撑学生综合素质评价试点工作的通知[EB/OL].http://www.moe.gov.cn/srcsite/A16/s3342/202211/ t20221118_995825.html,2024-02-08.

作者简介:

郑勤华:教授,博士,博士生导师,研究方向为在线教育、人工智能教育、教育大数据、学习分析。

刘司卓:在读博士,研究方向为智能技术支持的教育评价。

宋义深:在读博士,研究方向为人工智能教育应用。

Positioning and Implementation Pathways of Comprehensive Quality Evaluation from a Policy Perspective

Zheng Qinhua, Liu Sizhuo, Song Yishen

The Research Center of Distance Education, Beijing Normal University, Beijing 100875

Abstract: Despite years of exploration, the practical implementation of comprehensive quality evaluation continues to face numerous challenges. Therefore, clarifying the policy perspective on the positioning and implementation pathways of comprehensive quality evaluation is critical to providing clear guidance for its effective execution. The study utilizes qualitative analytical methods, including large language models and K-means clustering, to analyze 80 national-level policy documents from 1985 to the present. Then, the study explores the key discourse themes in these documents concerning the connotation positioning, goal positioning, evaluation methods and result application in comprehensive quality evaluation, and traces the evolution and relationships of these themes across different developmental stages. Finally, the study proposes the following recommendations: enhancing the theoretical framework to reflect the dual connotation positioning of comprehensiveness and developmental orientation; constructing a long-term diagnostic evaluation system to balance the dual goals of selection and student development; strengthening technology-enabled solutions to establish an evaluation system that combines methodological rigor with local adaptability; exploring data conversion mechanisms to enhance the role of comprehensive quality evaluation in educational governance; and building a closed-loop mechanism to drive comprehensive quality evaluation toward a dynamically optimized system aligned with societal needs.

Keywords: comprehensive quality evaluation; evaluation reform; policy analysis; large language models; K-means

收稿日期:2024年9月25日

责任编辑:赵云建