初中化学实验操作考试智能赋分的试验与思考

2024-04-22 16:47:09徐睿

化学教学 2024年3期

关键词：初中化学

徐睿

摘要：从国家课程教学改革背景下化学实验操作考试对智能赋分系统的迫切需求出发，在实际应用场景中对四家公司的智能赋分系统开展试验，通过对试验数据的收集和分析，评估系统的赋分能力和存在的典型问题，并对系统的进一步开发与应用提出建议。

关键词：初中化学；实验操作考试；智能赋分

文章编号： 10056629（2024）03002207中图分类号： G6338文献标识码： B

1背景

1.1改革的导向和成效

2019年11月，教育部发布《关于加强和改进中小学实验教学的意见》，其中主要举措的第6条“健全实验教學评价机制”中明确指出“2023年前要将实验操作纳入初中学业水平考试，考试成绩纳入高中阶段学校招生录取依据”［1］。截至2021年12月，全国共有19个省（自治区、直辖市）统一加试实验操作考试，其中8个省采取省级统一命题、统一组织实施［2］。

2021年5月，根据《上海市进一步推进高中阶段学校考试招生制度改革实施意见》，上海实施了中考改革后的首次化学实验操作考试，考试由上海市教育考试院统一命题并组织实施。化学实验操作考试作为上海市初中学业水平考试综合测试的一个组成部分，满分5分，考试时长15分钟，为减少实验操作考试的偶然性，每位考生需要连续完成2次化学实验操作考试，取2次考试中的高分记入中考总分［3］。

将实验操作考试纳入中考计分的改革举措，对一线的实验教学起到了很好的导向作用。教师在教学中普遍增加了学生动手开展真实化学实验的机会，关注学生实验操作规范性的落实，对提高学生开展科学探究活动的效率、丰富学习经历、增强学习体验、全面发展核心素养具有重要意义。在2021年秋季对上海某区的课程与教学调研中发现，某节高一、高二学生均可选修的化学拓展课中，新入学才两个多月的高一新生（新中考政策的第一届初中毕业生）在实验操作的规范性和效率等方面明显优于已就读一年多的高二学生，并由此影响到学习的积极性和方案设计、观察记录、数据处理、结论获取等各个探究环节的质量。可见改革举措产生了立竿见影的效果。

1.2实验操作考试面临的挑战

中考的实验操作考试是实作评价的一种形式，具有大规模、高利害的性质，相比纸笔测试，必然在考试的组织和公平性等方面面临巨大的挑战。

2021年上海的实验操作考试采用现场一评和在集中评阅点的视频二评相结合的方式开展，由于现场一评1人监考4名考生，监考教师具有一定的缺口，有的区需要组织高中化学教师参加为期2天的一评。二评几乎需要投入所有的初中化学教师，周期也较长，由于5月份正值学生复习迎考的关键阶段，给学校和教师造成较大的压力。人员多、周期长也给各区的经费投入造成了一定的压力。2023年，该考试取消现场评分，全部改为视频评分，尽管随着评分方式和考务流程的优化，组织工作压力有所减小，但仍无法解决视频阅卷中人员多、周期长的问题。

撇开命题、评分标准、考试组织管理等方面的因素，尽管事先对相关的评分人员都有专门的培训，但无论是现场评分还是视频评分，都存在评分员的个体差异性和主观性造成的公平性问题。现场评分中评分员有时很难同时观察多个考生的关键动作，甚至很难做到长时间的高度关注；视频评分中镜头视角的信息往往不够全面，需要评分员进行主观推测。

开发和应用智能赋分系统不仅是解决上述问题的一种重要思路，也可以促进日常教学中对学生实验操作的训练、矫正和过程性评价等。上海在新中考方案设计之初，就为实验操作考试的智能赋分预设了各种硬件条件。截至2021年5月，共建成理化实验操作考点391个，每个考点至少有一个化学标准化考场。标准化考场中的仪器配备实现了区内统一，每个实验台上都至少配有前视和俯视两路高清摄像头，可以记录学生在实验台上规定范围内完成的所有操作。这些条件已经在两年的真实考试运行中发挥了重要作用，也是智能赋分的基础。

智能赋分系统的核心是智能算法，全国已有多家公司在实验操作考试智能赋分方面投入了研发力量，这些已有的方案能否满足大规模高利害考试的要求，需要开展基于实证的教学研究。

2实验操作考试智能赋分的试验

2.1试验的对象

K、 L、 M、 N四家公司的实验操作考试智能赋分系统，每家公司的系统除了智能赋分的软件和考试管理软件，还包括实验台、摄像设备、相关实验仪器设备、网络传输系统、数据存储系统、算法服务器等。其中L公司在一些玻璃实验仪器上做了一些标记，在天平中植入了蓝牙模块用于传输天平读数给系统；M公司采用了三摄像头的方案，第三个摄像头位于实验台的侧面。

2.2使用的试题

试验采用历年上海化学实验操作技能考试的2组试题，其考查内容和评分点见表1。2组试题涉及的实验操作具有一定的代表性和覆盖面，可以较好地检验智能赋分系统在实验操作考试中的可靠性。

2.3试验的设计

试验由12位青年教师模拟考生参加测试，每位教师先后完成A、B两组试题，由智能赋分系统进行打分。表1试题考查内容和评分点〖XB，HT8.H，J*2;Y2<续表>〗组别考查内容评分点编号A气密性检查气密性检查操作正确A1气密性检查中现象与结论一致A2搭建制备二氧化碳的装置仪器选择正确A3集气瓶口向上A4用电子天平称取一块大理石放上称量纸，正确“归零”A5质量记录准确A6将大理石转移至大试管底部固体由试管口缓缓滑到试管底部A7将稀盐酸倒入大试管中倾倒方法正确A8鉴别氢氧化钠溶液与氢氧化钙溶液现象描述正确A9结论正确A10B量取20mL蒸馏水量筒读数方法正确B1液体体积正确B2搅拌使粗盐溶解玻璃棒搅拌动作正确B3制作过滤器滤纸紧贴漏斗内壁B4搭建过滤装置漏斗下端尖嘴处紧靠烧杯内壁B5过滤操作转移液体时烧杯紧靠玻璃棒，玻璃棒末端轻抵三层滤纸处B6液面低于滤纸边缘B7用滴管吸取滤液后滴加入试管中胶头滴管使用正确B8鉴别硝酸钡溶液与硝酸银溶液现象描述正确B9结论正确B10测试前一天专门组织参加测试的教师开展研讨，完成以下任务：

（1）明确每个评分点得分的操作要领，例如B3的动作要领包括：①玻璃棒不敲击烧杯内壁；②液体不溅出；③可溶性固体完全溶解。

（2）通过讨论尽可能罗列每个评分点可能出现的错误操作，例如B3可能出现的错误操作有：①使用玻璃棒以外的物件（如滴管、药匙等）进行搅拌；②玻璃棒敲击烧杯内壁；③搅拌时有液体溅出；④有搅拌动作，但玻璃棒未伸入液面甚至未伸入烧杯；⑤玻璃棒伸入液面，但没有搅拌；⑥用玻璃棒碾压烧杯底部未溶解的固体；⑦有搅拌动作，但是持续时间很短，可溶性固体未完全溶解……

（3）明确每位教师在测试时的分工：在哪些评分点得分，哪些评分点故意做错失分，以何种错误动作失分。

最终，每位教师在参加测试前都会拿到一份个性化的任务清单，明确每个评分点需要做出的动作，例如6号教师的任务清单如表2REF_Ref155130302所示。

对各公司导出的原始评分数据进行处理后得到的总正确率、对正确操作判断的正确率、对错误操作判断的正确率、逐个评分点正确率情况如图1、图2所示。

图1总正确率、对正确操作判断的正确率、对错误操作判断的正确率

图2各评分点正确率

（1）从图1可知，几家公司的智能赋分系统评分的总正确率普遍不高，其中M公司由于数据导出时出现错乱，无法在规定时间内解决问题，故正确率接近猜测概率50％，即接近理论上系统最差的表现，因为正确率达到0与达到100％具有同样的难度。鉴于M公司的数据已不具有分析价值，在后续分析中将其剔除，其三摄像头的方案是否更加有效也无从分析。

（2）從图1还可以发现，各系统对正确操作和错误操作的判断能力各不相同，K判断正确操作的正确率远高于判断错误操作，N正好相反，而L两者比较接近。自动赋分的要求是两者相当且都比较高，显然三个系统都没有达到这样的要求。K可能是对正确的标准定得比较低；也可能是研究正确的操作比较多，而忽视了研究各种可能出现的错误操作。而事实上，考生在实验操作过程中可能出现的错误情况是远多于正确操作的，赋分系统如何进行判断需要投入更多的研究。N可能对正确的标准定得过于严苛，造成很多正确操作被判为错误。当然，以这样的标准来评判错误的操作正确率就高了。

（3）从图2REF_Ref155209370可以发现，同一系统在不同评分点、不同系统在同一评分点的正确率都存在较大差异，各系统未体现出应有的可靠性和稳定性。在有些评分点上，部分系统的准确率已经可以达到90％以上甚至100％。例如：A4、 A5、 A7、 A9、 A10、 B10。其中A4、 A5、 A9都是对状态而不是过程的判断，相对容易实现。A7的操作尽管是一个过程，但是其中的状态和过程相对比较容易量化评判，所以有的系统能达到较高的正确率。A10、 B10在提供考生实验用品时就有固定答案，因此输入系统的判断标准非常明确。但各系统获取考生答题信息的方式不同，有的是通过让考生在屏幕上直接选择或输入，有的是通过摄像头拍摄考生答卷中的手写内容进行识别，显然前者在评分时的难度较小，正确率较高的正是前者。另外考生的书写也会出现各种可能，如“氢氧化钠”“氢氧化钠溶液”“NaOH”“NaOH溶液”等，再加上手写笔迹的识别、答卷放置的位置和角度等因素，需要系统具有一定的“应变能力”，这也是有些系统在这两个评分点正确率不高的原因。

（4）从图2中部分正确率较低的评分点出发，结合测试前对这些评分点的一些操作预设，发现K、 L、 N三个系统都将错误操作判断为正确的有：①用手捂试管进行气密性检查，但是持续时间很短，只有1秒，然后下结论（A1、 A2）；②用烧杯作为收集二氧化碳的容器（A3）；③电子天平读数比示数略大（A6）；④用量筒量取液体时刻度未朝向自己（B1）；⑤有搅拌动作，但玻璃棒未伸入烧杯（B3）；⑥搅拌时玻璃棒敲击烧杯内壁（B3）；⑦滤纸紧贴漏斗壁，但侧面或底部已有破损（B4）；⑧实验现象中没有沉淀，但是试卷上回答“有沉淀”（B9）。三个系统都将正确操作判断为错误的有：①将大理石转移到大试管底部（A7）；②过滤器的制作（B4）；③使用滴管滴加液体入试管中（B8）。这些问题的产生，主要有以下方面的原因：①系统对正确操作的“理解“不够全面细致，判断时利用的信息不够全面，断章取义抓局部来进行评判；②对持续的过程进行评判的能力不足；③在多个评分点之间存在关联时，评判逻辑存在问题；④对实验中的某些信息捕捉不够全面、精准，影响后面的评判；⑤对某些评判标准的阈值设定与人工判定存在差距。

（5）从图2中L系统的表现来看，由于其在一些仪器上使用了一些辅助手段，使容器口等部位更加容易判断，实验数据更容易传输，使得A4、 A6、 A7、 B2、 B8等相关评分点正确率高于平均值。但提升并不显著，远未达到优秀水平。测试过程中也发现，由于在天平增加蓝牙模块后降低了天平的灵敏度，严重影响了正确的称量操作和读数。

3试验中反映出的问题

从测试的情况来看，各家公司都能通过智能赋分系统多角度地捕捉考生的行为，并能通过一定的算法校正图像畸变后对考生的行为进行进一步的判断，判断一般都是通过物体识别、空间定位、关键帧捕捉等方式实现。但在真实环境中的测试结果并不理想，还远未达到大规模、高利害考试自动赋分的要求。通过试验中的数据分析和日常的调研访谈，可以提炼出以下一些需要解决的问题或困难。

3.1系统获取信息的完整性

各系统获取考生实验操作信息的方式比较单一，即依靠固定式双路摄像头的纯视觉方案来获取信息。

即使考生严格按照要求，所有操作都在实验台划定的框线范围内进行，也可能无意中发生以下情况：手部或头部在活动过程中遮挡部分或全部摄像头，就算只是瞬间，也可能丢失关键信息；实验过程中可能有液体溅到摄像头上或者产生雾气影响视频质量；仪器之间互相有遮挡，甚至个别仪器直接放在完全遮挡镜头的位置……

另外，考生在实验过程中肯定优先满足自己的实验和观察需要，而摄像头却是从正对考生的视角进行信息采集，从而导致丢失关键信息。例如：考生在使用量筒时会优先将有刻度的一侧对准自己，而摄像头就只能拍到量筒没有刻度的一侧。

3.2系统所获信息的准确识别

通过记录的视频进行准确的识别对系统也极具挑战性。化学实验中的很多仪器、试剂都是无色透明的，有时还存在反光的问题，这些因素会对其识别增加很大的难度，更何况还有光强、颜色、照射角度等环境因素的变化。

化学实验中，有些时候会涉及微小量或微小变化的判断，例如：一滴水是否滴到试管以外，漏斗下端是否紧靠烧杯内壁，固体是否完全溶解，颜色是否全部变白……这些都对系统提出了很高的要求。

此外，如何识别考生视角的信息也有难度。例如：如何从视频中判断考生视角下的量筒读数，如何准确识别考生在屏幕上或者答卷上书写的文字、符号、图示等。

3.3评分的标准把握

系统不会天生就有评分的标准，一定需要人为提供基本的原则或者典型的案例来生成。但是，人不可能给系统穷举出所有可能的情况，甚至无法提供一个明确的划分标准。例如：在固固加热制氧气的装置中，要求试管口略向下倾斜。从系统开发者的角度，当然是希望能从化学教师这里问出这个试管倾斜的角度在几度到几度的范围内，但我们能说得出来吗？即使说得出来，考生如果超出0.5°就要扣分吗？我们只知道这个倾斜的程度要让固体不会滑向试管口而水却能流向试管口，系统开发者的任务就是要将这样的要求转化为系统的评判能力。

3.4系统的普适性

好的系统应该能够在面对不同的场景、不同的考生、不同的实验内容、不同的仪器设备、不同的操作方法等时都有很好的适应性和稳定性。例如，同一个基本实验操作会在不同的实验中进行考查；有的实验会有多种合理的操作顺序；有的考生会在实验失败后在考试允许的时间内进行重做等。这就需要系统有能力从一个过程的角度对实验行为的规范性、合理性等方面进行全面判断，而不是仅从一个时间点或一个关键帧。

4对于化学实验操作考试智能赋分系统开发与应用的建议

4.1基于课标要求和考试测量规范

智能赋分系统的开发是为教学和评价服务的，应严格遵守化学课程标准规定的内容与要求，不能为了系统开发的方便而随意改变教学内容、操作方法、实验仪器等。

如果为了智能赋分的方便，而专门制造一些看上去非常特殊的仪器，往往会对教学和评价产生很多负面影响。例如，有的公司在量筒的底部装了一个绿色LED灯珠，读数的时候打开灯光，凹液面一目了然，人和系统辨识起来都非常容易。但是，这样的量筒可能会对液体颜色的观察造成干扰，依赖特殊灯光的读数方法对学生实验能力的培养也未必是好事，另外这样的厚底量筒也显得很笨重，操作起来并不方便。有的公司在有些玻璃仪器的特殊位置画上粗线条，如试管口、距试管底部三分之一处等。这样的仪器有可能会影响学生对凹液面的观察，在考试中也会对考生产生提示作用（有时可能是误导）。

在考试过程中，系统不应对考生提出额外的要求。例如，有的系统为了方便将考生的行为与评分点对应，要求考生在每个小题的操作完成后都要通过点击才能进入下一环节的操作。这样的额外要求不利于原本连贯的实验操作顺利进行，也必然会影响考试评价的效度，因为在实验操作技能之外还附加了“考试技能”的要求。

4.2利用多元的信息采集设备

系统在视频采集方面，除了原有的固定式摄像头，还可以增加考生视角的摄像头，将很大程度解决遮挡和视角差异造成的一系列问题，智能眼镜、头戴式摄像头等都是可以考虑的方案。

目前在智能驾驶方面，除了极个别品牌还坚持用“纯视觉”方案外，很多厂商都采用了包括摄像头、激光雷达、毫米波雷达、超声波雷达等传感器在内的多传感器融合方案。这也可以为智能赋分系统的建设打开思路。例如，在实验台面和试剂瓶底部埋设霍尔传感器，就可以很方便地感知试剂瓶被动用的时间、顺序等；如果再加上质量传感器，就还可以知道试剂的用量；其实前面提到的天平增加蓝牙模块也是很好的思路，前提是不能影响天平原有的性能。

多元信息采集设备使用时，不能改变原有的教学要求和操作方式等，要“无感”地发挥作用。另外，在系统开发时，要关注不同采集设备获取到的信息之间的相互印证。例如，前面提到的搅拌过程中玻璃棒是否敲击烧杯壁不容易判断的问题，就可以结合视频和音频进行综合判断。当然，成本也是需要考虑的重要因素，但是在探索阶段不妨可以大胆一些，毕竟有些硬件在技术成熟和大规模使用后成本会大幅降低。

4.3加强系统的智能算法研究

算法是智能赋分系统的核心和灵魂，仅靠穷举和简单的条件判断还算不上真正的智能。智能的系统应该具有不断学习和优化的能力，需要用人工标注的数据集来对其进行训练。训练素材一定要保证高质量，需要组织优秀教师团队，通过研讨、培训统一标准，然后才能生成可靠、优质的训练素材，促进系统的不断迭代优化。历年的实验操作考试中积累的视频素材和赋分未必符合系统初期训练素材的质量要求。

4.4形成应用和完善的良性循环

优秀的智能赋分系统不可能一蹴而就，需要在实践中发现问题、不断完善。我们可以让其先在简单的场景中使用起来，一是可以积累更多的系统训练素材，二是可以减轻部分工作压力。例如，可以让系统先在一些客观性强、变数少的评分点取代人工进行评判；或者在教师对视频进行评分时，通过系统的算法对需要教师重点观看的时间段进行提示，从而提高教师阅卷的效率。

除了将智能赋分系统应用于实验操作考试外，还可以探索在日常教学中将其用于化学探究能力的训练、评价和反馈，包括实验设计、操作、测量、观察、数据和现象的呈现、分析、结论、评价等各个方面［4］。这样的应用不仅可以推动系统充分发挥文本分析、图形分析等方面AI技术的优势，还可以进一步提升系统的利用率并提高教学效率，同时也让我们的实验教学更贴近育人的本源。

4.5提高标准化考场的利用率

化学实验操作考试的标准化考场不应是每年只用一次或只用一季的教学场所，其价值更应该体现在日常应用中。从标准化考场的建设阶段就要考虑其将来的利用率问题，提前从设计上实现考试和日常教学的兼顾。目前不少建成的标准化考场中显示屏、摄像头林立，且无法方便拆卸。在不使用视频记录功能时弊端尽显，一是挡视线，不利于教学中交流活动的开展；二是不方便，实验活动时碍手碍脚，且容易损坏设备。于是平时教师不愿意用，校长舍不得用，造成闲置浪费。建议在标准化考场建设时，相关的装备要考虑能够方便拆卸，按需组装，提升使用的灵活性。

L3级别的自动驾驶已经在国内获准路试，期盼化学实验操作考试的智能赋分系统也能早日投入实际应用。

参考文献：

［1］中华人民共和国教育部.教育部关于加强和改进中小学实验教学的意见［EB/OL］. http：//www.moe.gov.cn/srcsite/A06/s3321/201911/t20191128_409958.html.

［2］王慧，孙可，杨觊风，陈谦，何智. 全国各地中考实验操作考试实施现状调查报告（一）［J］. 中国现代教育装备， 2022，（6）： 4～10.

［3］盧致杰. 数字化考试背景下的上海初中理化实验操作考试实践［J］. 招生考试研究， 2022，（2）： 23～41.

［4］梁正誉，邓峰，石子欣，杨维震. 新加坡GCE OLevel化学实验操作考查评介与启示［J］. 化学教学， 2023，（10）： 85～91.聚焦课堂案例研究聚焦课堂案例研究“模型认知”素养：内涵与教学进路*全国教育科学规划教育部重点课题“指向核心素养的中学化学深度学习教学评价研究”（课题编号：DHA210347）的研究成果。——以“电解原理的应用”为例