基于大语言模型的协作式两阶段考试实践研究

2024-12-15 00:00:00邓倩妮雷佳乐
电脑知识与技术 2024年34期
关键词:形成性评价合作学习

摘要:针对学生编程基础差异影响合作学习积极性的现状,提出一种将大语言模型与协作式两阶段考试相结合的考试流程。文章以程序设计思想与方法课程为例,介绍两阶段考试的实践过程。学生首先独立测试,再在大语言模型的辅助下进行小组协作考试。研究结果表明,大语言模型在知识总结和凝练上具有显著的辅助学习效果,结合大语言模型的两阶段考试,不仅是一种新颖的形成性评价方法,也是构建以学生为中心的合作学习共同体的有效手段。

关键词:两阶段考试;大语言模型;程序设计教学;形成性评价;合作学习

中图分类号:G642文献标识码:A

文章编号:1009-3044(2024)34-0037-03开放科学(资源服务)标识码(OSID):

0引言

采取多样化的教学手段有利于突破“教师讲、学生听”的教学模式,促进学生的自主思考和合作交流。协作式两阶段考试[1]作为其中的一种策略,分为学个人独立完成和小组合作完成两个阶段,有利于激发学生的主动学习。学生个人独立完成第一阶段考试,紧接着多人合作再次完成内容接近的第二阶段考试,考试成绩由两个阶段各占一定比例构成。在计算机教学领域[2-4]和其他学科[5]上开展的教学实践都肯定了两阶段考试对提高学生学习积极性的作用。然而,两阶段考试也存在局限,如学生学习基础参差不齐,导致部分学生在讨论中参与度不高。

大语言模型的出现恰好能克服上述问题。诸如ChatGPT[6]等大语言模型具备丰富的知识储备,能够在知识问答、信息检索等方面发挥独特优势。将大语言模型引入两阶段考试的第二阶段考试中,充当机器人合作者,提供自适应的个性化学习支持,有助于激励学生理解大模型生成内容,积极讨论其正确性。本文以程序设计思想与方法课程为例,探讨了基于大语言模型的协作式两阶段考试的实践过程。研究表明,该方法不仅是一种新颖的形成性评价方法,也是构建以学生为中心的合作学习共同体的有效途径,为与生成式人工智能融合的计算机专业课程,以及相关专业的新工科课程的教学实践提供参考。

1基于大语言模型的两阶段考试

1.1两阶段考试

协作式两阶段考试不同于传统的终结性评价考试,通过重新组织考试形式,创造高效的学习环境,增加合作与交流,激发学生的学习动力的。协作式两阶段考试形式灵活,不受班级人数的限制,既重视个人努力、又强调团队合作。考试分为个人独立完成和小组合作完成两个阶段,成绩由两部分按比例构成。在考试结束后及时的结果反馈,能加深学生对团队合作的认同感。但两阶段考试也存在一些局限性,例如:由于学生的学习基础和复习程度有差异,基础差的同学难以融入讨论,而基础好的同学直接代替整个小组完成了协作阶段的任务,出现“搭便车”现象。教师要精心设计考试内容、管理策略和激励措施,以应对两阶段考试可能出现的副作用和挑战。

1.2大语言模型

大语言模型是指通过大规模文本数据进行训练,能够理解和生成自然语言的深度学习模型。基于Transformer架构,大语言模型能够分析用户输入,并生成符合上下文逻辑的文本序列。大语言模型和生成式人工智能在技术基础上有着紧密的联系。生成式人工智能依托于大语言模型发展的同时又结合了多模态生成能力,能够创造出包括文本、图像、音频、视频等多种形式的内容。在未来,生成式人工智能则用于生成虚拟学习环境、创造性教学内容和沉浸式教育体验。随着技术不断发展和演进,两者将可能融合,形成更强大的实时生成与交互系统。然而受限于硬件算力及存储的限制,尚未出现成熟的可大规模使用的多模态生成式人工智能应用,以文本对话为主要形式的大语言模型仍然是生成式人工智能的主要呈现方式。因此,本文中的实验设计主要采用大语言模型对话的形式开展。

大语言模型在教育教学领域被用于自动化教学助手、个性化学习路径的生成等,为教育教学研究提供新的视角。以ChatGPT和百度文心一言为代表的商用大语言模型对话系统已被初步用于高等学校的计算机专业课程教学中[7],为学生提供更为先进和智能的教学模式。大语言模型对程序设计代码也具有良好的兼容性,既可以根据用户需求生成代码片段,也可以对用户提供的代码输入进行解释和分析,有望在程序设计基础教学中辅助学生解决疑难问题,加深对知识的理解[8]。尽管国内外许多高校出于学术不端等风险考量,对学生使用大语言模型进行限制[9],大语言模型与高等学校教育的结合仍将是不可阻挡的主流趋势。

2大语言模型辅助的两阶段考试设计与实验

2.1两阶段考试的过程安排

将大语言模型引入到两阶段考试,采用对照实验的方法。将两个教学班的学生分为实验组和对照组。两组学生均为成绩分布无差别的大一新生,且由同一教师采取同样的教学方法教授。为促进积极交流允许自由分组,每组人数为3~4人。一次两阶段考试的过程如图1,包括个人独立测试、小组合作测试、后测和问卷调查,实验组在合作考试中使用大语言模型,对照组则不使用。两阶段中的个人独立考试与小组合作考试所占成绩比例分别设置为70%和30%;一次考试的各个阶段的具体安排为:

1)前测:独立完成。

学生独立完成测试,测试共设置20道选择题和2道编程题,测试完成后,答卷马上回收进行评测。

2)复测:小组合作。

随后3~4人自由分组进行小组复测,精选前测中的部分难点题目开展讨论,包括8~10道选择题和1道编程题,组内协作完成试题并回收答卷。测试完成后立即下发答案并讲评。

3)后测:独立完成。

两周后再次进行测验。选择与两周前的测验中相同主题的相似题目,以检测上次合作考试的效果。将上一次测验的后测检验与本次测验的关于新主题的独立测试结合,称为一次测验。

2.2流水化的多次两阶段考试设计

在一个学期中,开展了三次两阶段考试,考查的主题分别为指针与字符串、递归程序设计、构造与析构。给出了各次测验的前测与后测中对应的一道样题(见表1)。每一次两阶段考试的后测与下一次两阶段考试的前测是嵌套的,将上一次考试的后测与下一次考试的前测合并,形成一个如图2的流水化过程,既检验了学习效果,又简化了考试管理。

2.3统计分析方法

引入学习增益和成绩的归一化变化值作为统计分析指标,分别对三个测验主题进行分析,检验大语言模型在各个测验主题上对学生成绩提升的显著性。

1)学习增益。

学习增益g被定义为个人独立测试的后测和前测正确率的差值,用于分析学生成绩的提升程度。由于某些原因,可能导致部分学生第二次考试的成绩低于第一次考试成绩,如果将学习增益进行归一化,会导致负向增益无法解释。因此,在统计分析时,不会对学习增益进行归一化。基于收集的学生测验成绩,计算每个学生的学习增益比例,并对实验组和对照组的学习增益比例进行方差分析。

2)归一化变化值。

归一化变化值c是不同于学习增益的另一个评估指标,定义和取值分不同情况(见表2)。

其中Gpt是后测的成绩,Git是前测的成绩。如果学生后测的成绩高于前测,评估的是增益值;如果学生后测成绩低于前测成绩,评估的是缺失值;二者统称为归一化变化值。使用这个评估指标可以消除低分值偏差,分值分布对称并容易解释,具体可见参考文献[10]。统计分析时计算每个学生的归一化变化值c,并对c进行独立样本t检验。

3大模型辅助的两阶段考试的有效性与学生评价

3.1有效性分析

每一次测验都将学生分为实验组和对照组。实验组在小组复测阶段采用了大语言模型辅助工具,而控制组在小组复测阶段不使用大语言模型辅助工具。不同组的学生在三次测试中的平均成绩(见表3)显示,实验组和对照组在前测中的表现大致相当。测验1和测验3中实验组的平均成绩提升幅度明显高于对照组,测验分数提升达到10分左右,而在测验2中,实验组与对照组的平均成绩提升幅度无明显区别。这说明,大语言模型辅助的协作式两阶段测验在部分测验中,能够有效提升学生成绩。

为了评估大模型辅助的两阶段考试效果的统计学意义,计算了每个学生的学习增益比例g和归一化变化值c,并进一步分别对g进行方差分析(见表4)以及对c进行独立样本t检验(见表5),从这两个参数上进行多维度验证。

从结果来看,测验1和测验3的两个参数P值均小于0.05,且F值或t值较大,呈现出统计学上的显著性;而测验2中两个参数的P值远大于0.05,且F值或T值很小,未呈现出显著性。因此,对于测验1和测验3,基于大模型的两阶段考试显著提高了学生学习成绩。而对于测验2递归程序设计,显著性不足以从统计学上证明实验组的效果更佳。结合对应测验的主题和内容,实验结果表明,基于大模型的两阶段考试的直接学习效果与所考查知识点的类型和题型有关。对于考查程序语法以及编程概念的测验1和测验3,大语言模型总结和凝练了问题所涉及的相关知识,给出的答案能促进学生交流讨论,并帮助学生快速掌握基础知识中的重点和难点,因此成绩提升更显著。但是对于测验2递归程序设计,虽然大模型能迅速生成程序设计的解决方案,但由于它只是一个知识总结助手,而非一个知识传授工具,学生在阅读工具自动生成的程序后,仍难以真正理解对应的算法设计思路和技巧,无法保证学生在考试中有限的时间内能够开展有效的互动和交流。

3.2学生评价

为了理解大语言模型对学生学习态度和学习方式上的影响,课程结束后通过发放问卷对全体学生进行调查统计。问卷调查期内,回收有效问卷数共计74份,其中38位学生参与了有大模型辅助考试的实验组,36人参与了无大模型辅助的对照组。根据问卷结果,88%的学生表示在过去教育经历中从未接触过类似的考试模式,其余12%的学生表示有过类似的考试和学习方式。这说明,对于多数学生来说两阶段考试仍然是一种比较新颖的考试形式。

对照组中,81%的学生认为这种考查方式对学习有帮助,54%的学生认为对促进同伴沟通交流有帮助,仅有3.5%的学生明确表示这种方式没有帮助。这说明大部分学生接受两阶段考试。实验组中,95%的学生认为这种考查方式对学习有帮助,其中71%的学生认为引入大模型有助于促进主动思考和积极交流,21%的同学认为是否引入大模型不影响考试中的积极交流与思考,但也有3%的学生认为自己在讨论过程中因直接参考大模型生成的答案导致没有积极思考。

所有参与调查的学生都在日常学习中尝试过使用大语言模型作为学习助手,其中69%的学生认为大语言模型对知识总结有帮助,但对编程能力提升的帮助不大。82%的同学认为在两阶段考试中引入大模型作为辅助工具对促进同伴交流有积极意义。

4总结

本文将大语言模型引入协作式两阶段考试的合作环节,进行了多次流水化两阶段考试实践探索。研究发现,在基础知识理解和总结上,大模型的辅助学习效果明显;但在算法编程思想的培养形成方面,提升则不够显著。本文的研究结果可以为人工智能技术在程序设计以及其他课程教学中的应用实践提供参考。

来随着硬件算力的进一步提升,以及大语言模型的不断进化,大语言模型将有望能够更加深入地参与两阶段考试的团队合作环节中,缓解小组内学生水平不均衡的差异,让基础较差的学生也获得相应的参与感和成就感,从而激发学习兴趣和热情。融合文本、图像、音频、视频等多种数据的多模态生成式模型也将在不久的将来落地,多模态生成式模型能够为学生提供更加舒适的交互体验,以机器人伙伴的身份平滑地融入两阶段考试的讨论过程中,扮演小组讨论中的记录员等角色。同时也可以预见,尽管大语言模型仍在高速发展,在很长一段时间内,算法编程思想的培养和形成仍是大模型辅助学习的难点。让大语言模型能够辅助学生培养诸如算法编程思想等专业性和逻辑性强的思维方法,既需要更加先进和智能的大语言模型技术突破,也需要广大教师和教育工作者的探索和实践。

【通联编辑:王力】

基金项目:上海高校本科重点教改项目“以智能化分类分级考试平台为抓手,构建面向学科交叉的计算机教学生态链”(2023-2024,No.152);上海交通大学2024年教学设计师培育专项(CTLD24TD0001)

猜你喜欢
形成性评价合作学习
形成性评价在农村初中英语阅读教学中的运用研究
形成性评价在羽毛球技术教学中的实施
如何在高中英语教学中实施形成性评价
形成性评价在初中英语教学中的有效实施
高中化学课堂小组合作学习的有效性分析
考试周刊(2016年76期)2016-10-09 09:54:50
培养团精神,开展合作学习
考试周刊(2016年76期)2016-10-09 08:55:36
中药分析综合教学评价方式的改革思路与实践
大学教育(2016年9期)2016-10-09 08:48:24
浅谈语文课堂阅读教学
推进合作学习激活中职英语教学研究
成才之路(2016年26期)2016-10-08 11:24:19
合作学习在语文阅读教学中的运用研究
成才之路(2016年25期)2016-10-08 10:50:12