大语言模型在小学生计算思维评测中的应用

2023-06-26 09:01沈成柏毅
中小学数字化教学 2023年6期
关键词:人机交互评测计算思维

沈成 柏毅

摘要: 在现代社会中,培养计算思维能力对于学生的发展来说有着重要意义。通常用于评测学生计算思维的方法有编程与非编程两类,为了科学评测没有编程基础的小学生,教师宜采用不插电、不涉及编程的问卷等方法评测。教师借助ChatGPT等大语言模型工具,利用其智能交互、理解文意、实时反馈功能进行辅助评测,可灵活调整评测内容,评测形式多样,操作便捷、快速、节约人力。ChatGPT、文心一言等生成式人工智能工具将日益完善,它们在教育评价和教学评测领域有广阔的应用前景。

关键词:计算思维;评测;人机交互;LLM;ChatGPT

目前,教师要科学评估小学生计算思维能力并非易事,小学生缺乏编程基础、语文水平不高使得评测设计变得困难。教师用传统方法评测,如基于选择题的测试或纸笔任务形式的测试,难以准确反映学生的思维过程,耗时费力。此外,教师这样评测可能无法捕捉到计算思维的细微差别,也无法全面反映学生的技能和能力。ChatGPT等大语言模型工具可以辅助教师设计评測试题,也可以扮演评测计算思维教师,与学生进行交流并记录相关数据,帮助教师评估学生的计算思维能力。使用ChatGPT来评估计算思维有几个明显的优势。一是ChatGPT已在各种文本上接受训练,具备与学生进行自然语言对话的条件。二是通过提问或采访,ChatGPT可以对学生的思维过程实时反馈,并确定其优势和劣势领域。三是人机交互会话使学生更容易解决问题并相对真实地表达他们的想法,使得评估更加准确和全面。此外,智能评测不仅省时省力,而且能实时提供结果。对于精准评测一至六年级小学生计算思维能力有何更优方法,已有的研究相对匮乏。不同年级的学生其计算思维水平、文本阅读能力、语言表达能力存在较大差异。智能语音交互工具的应用可以避免学生语文水平对于评测的干扰,能对学生的计算思维能力进行更全面和准确的评估和描述。笔者以ChatGPT为例研究智能工具在评估小学生计算思维方面的潜力,给出应用的思路、方法和建议。

一、相关概念及研究目的

(一)计算思维

计算思维是运用计算机科学的基础概念进行问题求解、系统设计,以及人类行为理解的一系列问题解决方法和思维活动。计算思维的运用就是行为主体将复杂的问题分解成较小的、可管理的部分,并应用逻辑和系统推理来寻找解决方案。人们生活在越来越依赖信息技术的世界,在中小学义务教育中培养学生计算思维的重要性也逐步提升。中央电化教育馆发布了《中小学人工智能技术与工程素养框架》,提到“既要使学生学会如何利用人工智能技术制定问题解决方案,又要培养学生根据具体问题、场景选取合适的人工智能技术的能力,尤其要注重计算思维和系统思维的培养”。

近年来,人们对培养小学生的计算思维能力越发重视。研究表明,在早期发展这些技能,对孩子未来的学业和职业成功,以及他们解决问题和批判性思维的能力都有积极影响。在开展计算思维教学之前,对于学生计算思维能力的评价尤为重要。

(二)大语言模型(LLM)

近年来,大语言模型(LLM,Large  Language  Model)快速发展。随着开放人工智能研究中心(OpenAI)在2022年11月30日发布ChatGPT,相关研究受到全世界关注。ChatGPT是OpenAI开发的一个基于多模态预训练大模型GPT3.5的LLM,可以实现上下文语义的理解,与人进行自然对话,在设定好各类条件的情况下,可以扮演拥有背景设定的角色。2023年2月,谷歌公司发布了聊天机器人Bard,它由谷歌的大语言模型LaMDA驱动。2023年3月16日,百度公司开发的文心一言正式上线,底层技术基础为文心大模型。此外,还有清华团队开发的开源的ChatGLM-6B等可以部署在本地的LLM。ChatGLM-6B是一个具有62亿参数的中英双语语言模型。

(三)研究目的

笔者研究ChatGPT等智能工具在评估小学生计算思维方面的应用,目的在于:讨论LLM在教育评估领域运用的可能性,探究如何在教育评估领域运用LLM,用以评估小学生的计算思维水平,最终促进教师对LLM用作教育评估工具的理解,并探讨这种方法的优点和局限性,为该领域的研究提供建议。

二、借助LLM评测计算思维的方法

(一)设计试题或问卷

教师设计试题,应该针对计算思维进行细化,如问题分解、模式识别、抽象、算法设计和评估等。这些试题的类型可以是选择题也可以是开放式问题。教师借助LLM设计的试题,其难度应当与小学生的年龄和理解能力匹配。在试题或者问卷回收评分环节,教师也可以借助LLM这一辅助工具对学生数据进行管理,收集和储存学生的作答信息以备分析。

教师借助LLM设计试题,需要设定背景。例如,研究者在ChatGPT对话框中输入如下指令:“请给出一些例题用于评测小学生的计算思维。题目的类型为选择题,共4个选项。题干不宜太复杂,且不直接出现编程相关概念。请给出各题的答案和解析,说明该题用来评测学生哪方面的具体计算思维能力,给出分类和关键词。”

ChatGPT给出以下例题:莎拉想用密码给她的朋友发送一条信息。其中每个字母都被它后面的第三个字母代替。例如,A将被替换成D,B被替换成E,以此类推。信息“hello” 的密码是什么?

选项: A.khoor B.khoot C.ehoor D.ehoot

答案:A

分类:算法与编程

关键词:加密;替换密码;字母转换;模式识别

可以看出,LLM使用密码学中的恺撒密码很好地完成了命题工作。尽管题目难度是否适合小学生,以及题目的信效度仍需要进一步检验,但确定的是题目的完成度较好,背景设定中提到的要求都列出了,基本符合要求。教师设计试题时,可以运用LLM生成大量题目,进行筛选和改编。

(二)对学生进行访谈

LLM可以扮演教师的角色,以访谈的方式对学生的计算思维进行评测。为了实现这一目标,教师要事先给LLM设定身份,设定项目要尽可能周详,包括评估学生的年级、有无编程基础、选用什么类型的题目进行评测、打分的基准等。教师对小学生评测时,通常还需要结合运用语音识别的插件,或用语音录入的方式完成评测。

Edge-TTS是一个Python库,它使用微软的Azure Cognitive Services来实现文本到语音转换。Whisper也是一个Python库,可以通过本地电脑进行语音识别和输入。笔者将Whisper—LLM—Edge-TTS组成一套实时语音交流系统,实现了学生与LLM所扮演的教师实时语音交流。这一技术手段在评测小学生计算思维方面,尤其是对于低年级学生的评测,有广阔的应用空间。

(三)利用LLM进行数据分析

对于从试题或访谈中收集的数据,教师可以利用LLM进行统一分析,以评估学生的计算思维能力。教师可以采用统计学方法,如平均值、标准差和检验来定量分析数据,也可以采用内容分析方法来定性分析。教师可以将收集到的数据与其他数据来源(如标准化考试成绩)比較,以确定评估方法的可靠性和有效性。ChatGPT给出的数据分析结果简洁明了,教师可以根据需要选择适当的视觉辅助工具和表格呈现。需要注意的是,教师分析数据时,要保护学生的信息隐私,并采取适当的措施确保信息安全。

三、借助LLM评测计算思维的实例

(一)ChatGPT

在中文环境下,笔者让ChatGPT扮演一名评测计算思维的教师。 ChatGPT很容易将中文“计算思维”理解成数学计算的思路(Calculation Thinking)。注意:在中文语境下,使用国外的LLM进行有关计算思维的研究时,需要着重标注计算思维是指Computational Thinking,甚至需要全部使用英文表述。在修正有关计算思维的表述之后,ChatGPT给出的题目质量有了显著提高(如图1),但是在中文表述方面还存在一些问题,比如语言生硬造成学生理解困难。

在英文环境下,ChatGPT回复速度更快,对于计算思维的理解也不会出现偏差。教师给出叠加多个条件的指令,仍可以获取较好的结果。ChatGPT在给定的条件下,可以给出完整的题目,并且给出相对应的解析。这些题目通过教师的翻译和润色,以及信效度检验之后,将其应用于实际评测也不是不可能。在英文环境下,ChatGPT可以近乎完整地模拟一次对于学生计算思维的访谈评测,并且在预先设定的条件下,引用相对成熟的计算思维评测——Bebras挑战赛的信息。在模拟情境中(如图2),ChatGPT首先统计了学生姓名和年级信息,其中年级信息决定了后面试题难度,其次基于学生没有编程基础的预设,对于学生是否了解计算思维进行提问,在简短描述Bebras挑战赛的背景之后,分别从空间推理、逻辑思维等方面出题,综合考查了学生的计算思维水平。

(二)文心一言

文心一言是百度公司开发的LLM,用户可以通过App直接使用,不需要借助其他插件就可以实现语音输入。尽管由于厂商限制,其并不能扮演特定角色(如评测教师等),但仍可以在提供命题思路等方面为教师提供帮助。

(三)ChatGLM-6B

ChatGLM-6B可以部署在本地计算机上,无需联网,使用门槛较低。但由于预训练参数比前两类LLM少,ChatGLM-6B在逻辑推理等能力方面存在差距。ChatGLM-6B尽管能够扮演教师角色(如图3),但是在语言表达方面仍存在一定的问题。不过作为一款开源LLM,它可以通过微调参数来进行针对性修正。

四、借助LLM评测计算思维的结论与展望

(一)LLM扮演教师评测小学生计算思维具有可行性但仍有提升空间

以ChatGPT为代表的LLM在人机交互方面有能理解上下文、提供实时反馈的特点,先发优势明显。在实际应用于计算思维评测时,用户借助ChatGPT可以快速生成大量与评测主题相关的英文试题,经翻译润色和信效度检验后完成问卷,用于评测,预期可以取得较好的效果。在整个评测的过程中,教师可以运用LLM来完成数据记录和分析。但LLM在扮演教师以访谈方式评测小学生计算思维方面仍存在不足:一是对于语音输入,不能保证识别的准确性;二是国外的LLM在中文环境下容易误解词义,各类LLM在中文表述上都略显生硬;三是各类LLM的预训练模型不同,质量不稳定,并且没有针对需要评测的项目进行微调,这使得借助LLM来单独评测学生的计算思维尚不可行。随着各类LLM的发展和更新,未来它们在评测相关领域的表现会越来越好。

(二)人机结合、优势互补、综合评估是LLM评测应用的发展趋向

LLM在教育评测领域发展前景良好,但它作为教学辅助工具的定位是不变的。LLM设计的题目是依据现有内容二次生产的,不具备原创性,需要教师甄别。在与学生的访谈实践时,LLM可以与学生进行有关评测主题的对话,但是不具备判断对话内在逻辑的能力。LLM的打分只能作为参考,需要教师依据对话内容进行研判。

在有条件的情况下,教师可以将LLM实际用于小学生计算思维评测。LLM可以用于线上数据的收集。教师可以对LLM评测的结果与其他现有评估方法的结果进行比较、分析,比如将LLM的评估结果与传统的笔试或口试的结果比较,或者与其他形式的基于技术的评估结果进行比较,还可以尝试讨论每种方法的优点和局限性,进而综合优化评测,让LLM为教学赋能。

参考文献

[1] 惠恭健,兰小芳,钱逸舟.计算思维该如何评?——基于国内外14种评价工具的比较分析[J].远程教育杂志,2020(4): 84-94.

[2] Peter B H, Thomas J C, Jeannette M W. Computational thinking[J]. ACM SIGCSE Bulletin,2007(1):195-196.

[3] Jeannette M W. Computational thinking[J]. Communications of the ACM,2006(3):33-35.

[4] 中央电化教育馆. 中小学人工智能技术与工程素养框架[EB/OL].(2021-11-30)[2023-04-25].https://www.ncet.edu.cn/zhuzhan/tztgao1/20211130/5505.html.

(作者沈成系东南大学儿童发展与教育研究所、儿童发展与学习科学教育部重点实验室硕士研究生;柏毅系东南大学儿童发展与教育研究所、儿童发展与学习科学教育部重点实验室教授)

责任编辑:祝元志

猜你喜欢
人机交互评测计算思维
次时代主机微软XSX全方位评测(下)
次时代主机微软XSX全方位评测(上)
攻坡新利器,TOKEN VENTOUS评测
Canyon Ultimate CF SLX 8.0 DI2评测
某型柴油机虚拟维修系统研究
人机交互课程创新实验
程序设计课程中计算思维和应用能力培养问题研究
民族高校C语言程序设计课程教学改革的研究
算法的案例教学探析
浅谈艺术专业学生计算思维能力的培养