大模型在学业测评中的研究与应用

2024-02-09 00:00:00王小佳杨淳沨黄宇聪张淑娟
电脑知识与技术 2024年36期

关键词:大模型;学业测评;反思报告;课程自反馈平台;课程高阶目标

中图分类号:G642 文献标识码:A

文章编号:1009-3044(2024)36-0107-03 开放科学(资源服务) 标识码(OSID) :

0 引言

在教育领域,学业测评是衡量学生学习成效的核心指标,寻找既能精准评估学生核心技能,又能充分激发他们内在潜力的新型学业测评方法,不仅是对现有教育评价体系的创新,也是推动教学公正性和个性化教育发展的重要举措。基于结构化反思报告[1,2]的学业测评,实施方法是要求学生对一个知识点进行深入反思并在实际场景中加以应用,目的是加深他们对知识点的理解。虽然反思报告已经在多个院校得到推广,但存在人工批改效率低下、反馈不及时等问题,限制了其进一步的普及。鉴于此,利用大语言模型的强大算力,设计并开发基于大模型的课程自反馈系统,以实现结构化反思报告的自动批改和个性化反馈,显得尤为重要。

1 新型学业测评

近年来,随着教育理念的演进和信息技术的创新,国内外高等教育机构正在积极探索多元化评估体系[3]。这些新兴模式包括项目作业、课堂参与、小组讨论、在线测试和实践操作等,旨在全面评价学生的知识整合能力、批判性思维、团队合作精神和创新潜力。在国际上,欧美顶尖学府倡导以过程为导向的评估框架,强调学生在学习过程中的主体地位[4]。美国的杜克大学与英国的牛津大学已运用数据分析技术精炼课程结构,通过集成智能算法分析学生的学习动态,预测学习趋势,并提出针对性的学习策略建议。澳大利亚的墨尔本大学,则通过自然语言处理技术自动化批改作业以减轻教师的工作量,同时确保反馈的即时性与精确性,从而有效提升教学效率与质量[5]。此类测评不仅能客观公正地评估学生的学习成果,还能促进教师教学策略的迭代升级,激发学生的学习兴趣和动力。

经调研,选择结构化反思报告作为新型学业评估工具,旨在激发学生的深层次学习动机,并促进批判性思维及自我反思能力的提升。结构化反思报告主要是让学生针对某个重要的知识点进行深入地研究和探索,并在理解的基础上回归学习初心(应用知识) 。即学生需要根据一个明确的框架,详细描述自己的学习收获、实际应用以及未来计划,以此展示他们的知识整合和创新应用能力,目前结构化反思报告已在上百个院校实施。依托数据分析与可视化课程,每份反思报告需要回答三个问题,评价标准见表1。

问题1:知识或技能获取。作答要求:选一个课程中你认为最重要的知识或技能,详细展示,并标明出处。

问题2:应用实践。作答要求:用此知识点来评价自己的学习,说明哪些是需要保持的,哪些是坚决停止的,哪些是需要改进的。

问题3:其他应用展望。作答要求:设想新的应用情景,为实际应用做准备。

2 教学实施

大数据专业核心课程数据分析与可视化的教学实践围绕两大核心目标展开:一是基础目标,侧重理论知识的传授与吸收,通过期末闭卷理论与实践相结合的综合考试,系统评估学生对数据分析与可视化基本原理的掌握程度;二是高阶目标,着重于理论向实践的转化,激励学生将抽象知识转化为解决实际问题的能力,要求学生在复杂情境中灵活运用所学,以展示批判性思维与创新解决问题的技能。

为了实现课程的高阶目标并提升学生的实际应用能力,引入了结构化反思报告。这一机制旨在引导学生深入剖析自身学习历程,反思知识应用的得失,促进批判性思维和自我提升。具体的实施流程如图1 所示:(1) 设计学业测评方案,根据课程的高阶目标,教师设计反思报告的问题、要求,数量、频次、公布评分标准;(2) 教师在超星系统发布任务;(3) 学生提交反思报告,部分报告实行互评;(4) 教师对反思报告进行校正并给出反馈;(5) 收集反思报告样本,构建结构化反思报告的训练数据集;(6) 部署大模型平台;(7) 通过训练集对大模型平台进行微调;(8) 搭建课程自反馈大模型平台;(9) 学生使用课程自反馈大模型平台进行反思报告的批阅及反馈;(10) 学业测评方案和课程自反馈大模型平台的优化和迭代。

在一学期的教学实践中,积累了980份详尽的结构化反思报告。在实施的过程中,反思报告依赖人工批改,这一过程不仅耗时且容易产生滞后,导致反馈的及时性和有效性大打折扣。另外,教师工作量的剧增,使得个性化指导难以实现,这无疑成为结构化反思报告机制广泛应用的一大瓶颈。课程自反馈大模型平台的引入,不仅解决了反馈机制中的人力资源瓶颈,还极大丰富了学生的学习体验,促进了个性化学习路径的形成。学生能够自行获取反思报告的评价,并根据评价及修改建议进行相应的调整,以提高效率。

3 课程自反馈大模型平台的部署

作为智谱AI与清华大学KEG实验室共研的Chat-GLM3大语言模型,其出色的语言理解和多轮对话能力,为教育革新提供了强大技术支持。ChatGLM3大语言模型的内置代码和网络搜索增强功能,丰富了教学资源和互动方式,丌源特性也降低了教育技术应用门槛,因此选它作为大模型平台。

在部署过程中,选择了Ubuntu 22.04作为操作系统,PyTorch 2.1.0作为深度学习框架,Python 3.10作为编程语言,以及Cuda 12.1作为GPU加速库。

通过访问ChatGLM3 大语言模型的GitHub 仓库以获取模型的源代码。随后,从Hugging Face平台下载预训练模型。接下来进行安装和配置,这一阶段包括了解压缩模型文件、设定环境变量、安装所需的依赖项以及运行demo以进行测试。

模型部署是ChatGLM3大语言模型应用的关键环节。在服务器上部署该模型时,必须对模型的输入输出接口进行配置、设定推理参数以及优化模型性能等步骤。为了保障模型的稳定性和可靠性,还需要进行全面的测试和验证。具体步骤见表2。

4 数据处理与模型微调

为了针对结构化反思报告构建一个更高效的自反馈系统,需要对大模型进行微调。具体的操作流程如图2所示。

4.1 数据处理

为构建结构化反思报告的训练数据集,首先需要精心选择用于微调的训练样本,以适应未来多样化的反思报告需求。选定样本后,进行样本预处理,并根据模型要求,将反思报告的三个问题及其答案整理成标准的json格式。例如,以一位学生的反思报告为例,处理后的数据集如图3所示。conversations指的是数据集格式的一部分,代表一个对话的集合,role是标识消息发言人的角色。常见角色有“system”(系统) 、“user”(用户) 和“assistant”(助手) 。role为user代表实际与AI系统交互的用户,role为assistant代表AI系统所扮演的角色,负责回应用户的问题或请求,content 是与每条消息相关联的内容文本,内容反映了发言人的意图、请求或响应。

4.2 模型微调

模型微调利用预训练模型与训练样本,通过选择性调整高层参数而非从头训练,来适配新任务。此策略特别适用于小数据集,因预训练模型已蕴含丰富特征与泛化力,通过微调即可快速适应新需求。

通过研究P-Tuning 与LoRA 这两种主流微调方法,并对其进行系统性对比,如表3所示,结果显示LoRA在对学生建议的捕捉和反馈上显得不够敏感,这可能会导致一些重要信息的遗漏。而P-Tuning方法则较为出色,能够更精确地调整模型以适应特定的建议,从而提高整体的性能表现。另外在处理大规模数据集时,P-Tuning能更快地收敛并达到更高的准确率,LoRA则需要更多的训练时间和计算资源才能达到相同的效果。基于上述研究,最终选择了P-Tuning 作为模型微调的方法。

4.3 模型融合

模型融合其核心理念在于挖掘模型间的互补性。各模型对数据特性的感知差异赋予了它们各自的优势与局限,通过融合这些模型,能够构建出兼具多种视角的预测体系,有效弥补单一模型的盲点,提升模型的泛化性能,让模型在面对新颖数据时展现出更强的适应性,增强预测的准确度与稳定性。

为了优势互补,改善模型在复杂场景下的表现,将训练完成的自反馈大模型与原有的通用模型进行融合。通过对比融合前后模型的性能,融合前的模型在处理反思报告时,出现了过拟合现象,表明模型在训练集上表现优异,但在未见过的数据上泛化能力较弱。

4.4 模型验证

采用P-Tuning微调后的模型,在学业测评这一专业领域的理解能力和响应质量得到了显著提升,如学生反思报告的结构、学术语言的规范、评估标准的适用性等。模型学会了如何在反思报告的上下文中,对学生的作业进行细致入微的分析,提供既有深度又具针对性的反馈,使其能够更好地适应和处理学业测评领域的问题。

5 课程自反馈大模型平台的搭建

5.1 模型部署

云服务器有强大计算能力和存储能力,这不仅可以大大减轻本地电脑的资源负担,而且可以确保模型运行的稳定性和效率,因此本平台将API服务部署在云端,在算力云服务器中使用FastAPI部署API服务端,本地着重于数据处理,部署网络服务等。如图4所示。在云服务器端,大模型接收到来自本地的请求后,立即启动深度计算流程,对文本进行精细分析与处理。计算完成后,生成的响应结果将沿着相同的通信路径回传至本地自反馈平台,从而完成一次完整的远程模型调用周期。这一架构充分利用了云端的高性能计算资源,还确保了本地系统的轻量化与灵活性,为自反馈大模型平台的实时分析与反馈提供了坚实的技术支撑。

5.2 应用开发

第一版课程自反馈大模型平台的设计聚焦于提升教学效果和学习效率,其核心功能在于自动批改结构化反思报告并提供即时反馈,并将结果保存在MySQL数据库中用以数据分析,以满足教师和学生的不同需求。该平台通过区分用户角色(教师与学生) ,实现了定制化的界面和功能,确保了双方都能从平台中获得最大价值。整体功能如图5所示:

1) 学生端介绍

学生端的核心功能是报告评估页面,是建议性网页对话系统,如图6所示。该系统的核心目标是辅助学生在提交作业前进行自我审查,为他们提供即时的反馈和建议。在系统中,学生能够上传他们的作业,并向系统提出关于如何改善作业、应注意的问题等咨询。根据学生上传的作业,系统会提供相应的报告分数和反馈,帮助学生在最终提交之前对作业进行自我检查和修订。通过这种方式,学生可以在完成作业的过程中获得及时的反馈,提高自主学习的能力,有效提升作业的质量。

2) 教师端介绍

教师端的核心功能集中于提升作业处理的效率和减轻教师的工作量。教师只需简单上传或输入学生的作业文件,即可激活平台内置的智能算法,自动批改作业。这一过程不仅覆盖了语法、逻辑、内容深度等多维度评估,还能根据预设标准给出综合评分,为教师的后续审阅提供初步筛选。如图7所示。

一旦自动批改完毕,平台会生成详尽的评价报告,包括每个学生的具体得分、批注以及改进建议,所有信息均以直观图表和清单形式呈现,便于教师快速查阅和分析。通过这一功能,教师能够显著节省用于常规批改的时间和精力,将更多注意力转向课程设计的优化、学生个体需求的满足以及课堂互动的深化,从而全面提升教学质量和学生的学习体验。

此外,平台支持复审功能,允许教师在自动反馈的基础上,进行针对性的复核和补充,确保评价的公正性和有效性。这不仅提高了批改的效率,还保证了评价的深度与精度,为教师和学生之间的沟通搭建了更加高效和精准的桥梁。

6 总结与展望

为实现课程的高阶目标,提升学生的批判性思维与实际操作能力,采用了结构化反思报告这一新型学业测评方式。针对反思报告存在反馈延迟及批改困难的问题,构建了课程自反馈大模型平台。该平台可提供反馈与个性化指导,不仅能对学生的学习成效进行更为全面的评估,更是教育与科技融合的有益实践。

课程自反馈大模型平台通过教师端和学生端的设计,提升了教学和学习效率,同时推动了教学的个性化与智能化发展。在后续版本中,拟进一步强化平台功能,如引入更为多元的评估标准,提升人机交互的自然程度,以及提供更为丰富的学习资源与工具,从而满足不断变化的教育需求。此外,还将探索将该大模型应用于其他类型学业测评的可能性,研究如何提升其在学业测评中的公平性与有效性等问题。