王文晶,闫俊伢
(山西工程科技职业大学信息工程学院,山西 太原 030619)
国际人工智能教育大会2020(AIED),大会主旨将人工智能与教育深度融合,实现“增强智能赋能教育”。Marbouti等(2016)通过挖掘本科生的课堂测验、考试、作业等,使用朴素贝叶斯、人工神经网络等组合为一个模型,并对学习成绩达到好的预测效果。Leah P.Macfadyen 等对在线生物课程数据进行多元回归分析、Logistic 分析以及社会网络分析,开发预警系统。Lily Sun 构建基于学习行为的模型,利用学习成绩对学习的效果进行验证。维也纳大学的学者通过搭建在线学习平台,对平台产生的学习数据进行分析后,对学生学习效果进行评价。
随着人工智能的快速发展,如何使用大数据技术对在线学习产生的海量数据进行深度挖掘,对教学效果进行精准测试,是当前智能教育研究的热点。近几年,我国将学习分析技术应用于在线学习方面的论文数量呈现上升趋势。数据挖掘技术采用的模型没有固定模型,比较多样化。如陈晋音利用神经网络的方法分析上线学习行为,对学生的成绩进行预测,分析学习行为,得出学习者的学习规律。牟智佳通过学生的学习行为和心理学、教学学理论,构建基于学习行为序列的识别模型,将学习者分类,并进行干预和提出学习策略。通过文献对国内外情况进行研究对比,从文献数量上看,2007年之前比较少,2015年以后论文数量逐渐快速增长,表明在线学习行为的研究,不断受到关注和重视。从文献学科分布,该学科作为一个交叉研究领域,基于数据挖掘的学习诊断研究受到了教育学、教育信息技术、计算机科学等不同学科的广泛关注。从关键词高频度看,通过高频词看出“网络学习行为”和“在线学习/网络远程/教育”是学术界关注的焦点,同时反映出网络学习行为主要研究慕课平台的自主学习行为。
通过参阅文献,发现目前在线研究的落脚点基本都是与成绩相关的学习行为的数据分析。例如,研究学习者参与线上教学活动地活跃度,相比之下,在线学习行为序列以及行为各要素之间的规律研究较少,并且行为序列更能反映学习者的认知过程。同时,相关研究缺乏通用的框架,忽略学习行为投入的多层次和多维度特点。
本研究用数据挖掘方法探究以下两个问题:①学习者在自主学习的过程中,分析哪些行为序列与成绩为正相关,以期获得与成绩有显著相关的关键序列。②通过对在线学习行为聚类分析,探究不同行为序列的学习者在学习效果上的差异。
收集268 名同学SPOC 平台和MOOC 平台中“智能信息处理”和“编译技术”两门课程的数据,包括学习者产生或者发布的数据。利用数据处理流水线Logstash 工具,采集学生日常在两个平台生成的数据日志,例如课程数据、作业数据、考试数据、观看教学视频等,利用Elasticsearch 软件,对数据进行清洗、抽取。通过交互序列分析软件GSEQ 工具进行频次矩阵统计,得到关于学习者数据的231 个行为序列。通过参阅文献中学习行为分类的方法,同时结合在线学习的特点和学生学习行为的特征,本文将在线学习划分为四种:访问课程行为、参与讨论行为、学习资源行为、测试学习效果行为。将231 个行为序列分别划分到四类行为中,如表1所示。
表1 行为序列分类和编码
通过分析工具SPSS20.0,得到18个课程访问序列和成绩之间的关联表,具体如表2 所示。CJGW、LYCJ、CJTZ 与成绩有显著的关联,CJGW、LYCJ 相关系数分别0.567 和0.543,三个学习行为显著概率均为0.000,表明这两种行为序列转换与课程成绩有显著的正相关关联。学习者在关注自己学习进度的情况下,会针对自己薄弱的环节进行学习,例如再次进行课程学习和参与一些学习主题的讨论,对提高学习成绩有显著的作用,学习者在教师授课前,主动对教学内容预习、计划,这些行为都是积极有效的。CJTZ 学习序列没有与成绩有显著的关联,显著性为0.002,相对查看学习进度页面后,再进行课件学习,对成绩的促进起更重要的作用。
表2 课程访问行为与成绩相关分析
由表3可得出,学习者通过网页->查看课件资源,与成绩的相关系数为0.823,显著率为0.000,与成绩有极高的相关度。通过数据显示,学习者在课程资源上预习,投入时间和精力,学习成绩会更好学习者先查找网络资源然后参与讨论,此序列与成绩相关系数为0.712,显著率为0.000。学习者学习完教师的课件文档转至讨论发帖,表明学习者对课程的掌握程度以及吸收、转换知识的程度。CJBC 与课程成绩相关系数为-0.415,显著率为0.000,负相关表明学习者可能在观看视频中可能出现拖动进度条或者学习频次低,或者挂线。其他两个行为序列与成绩为低度相关(0.462和0.456),涉及到共享资源学习和其他序列之间的转换,反映出学习者学习的多样性,但学习成绩较中等,说明学习者的行为为低层次投入的序列转换。
表3 资源学习行为序列与成绩相关分析
从表4 可看出,三个测试行为序列与学习者成绩有低相关度,也反映出学习者在测试之前的行为序列踪迹。LCBC 行为序列表明,学生在测试之前,通过课件文档,复习所学内容,然后进行测试,学习效果会得到提升,符合学习者学习规律。BCCJ 行为序列表明学习者测试后对学习进度进行追溯,可看出学习者比较重视学习情况和知识点的掌握程度,间接与成绩发生关联。CJGW 行为序列表明学生在进行测试完成后,发现问题,重新返回查看文档,这个动作序列被不断重复,一方面,表明学习成绩的导向性导致学习者不断重复学习资料,另一方面,也表明课件是学习者学习课程的重要资料,也是测试的依据。
表4 学习行为序列与成绩相关分析
表5 中可看出,新讨论主题->上传共享资源行为序列与成绩相关性最高,说明学习者通过讨论方式对知识有更好的理解,循循渐进的学习,对知识有更深的理解,从而进一步发帖,表明对教学知识点的深入掌握,同时也表明对学习有高的积极性和学习动机。LTGW 行为序列与成绩相关度为0.006,表明此序列转换与成绩没有关联,同时反映出讨论参与行为与学习效果是由强的关联关系。通过研究LTGW 行为序列的学习者参与的讨论和发表的主题,基本偏离主体内容,可能是由于学习者缺乏知识的建构和成绩导向的引导,导致学习者的参与度较低。
表5 参与行为序列与成绩相关分析
由于单变量分析不一定能正确反映学习者的情况,故本文又采用多元线性回归方法,探讨行为序列对学习效果的影响。根据聚类分析结果得到,访问课程行为参与数(C)、学习行为序列参与数(S)、参与行为序列参与数(I)、学习资源行为参与数(R)四类行为序列特征。通过聚类方法对行为序列特征进行聚类分析,聚类结果为四类,如表6 所示。在聚类分析中,各个行为序列都有显著性,都为0.000,同时可看出,聚类选取的变量比较合理,但是各个行为序列变量在不同类之间的显著性有所差别。故在此基础上,对四类行为序列的参与程度做相关分析,如图1所示。
表6 聚类结果
图1为四类学习者参与访问课程、学习行为、参与行为序列、学习资源四种活动的参与数。学习者参与程度最高的是C活动,参与数最低的I活动,每一类学习者体现到不同的学习行为上的数据也不同,这就体现出学习者在线学习中的个性化、差异化,具体如下:
第一类,学习自主型,共计5人,占总人数3.9%,此类学习者人数占比是最低的,参加C1R1S1I1的均值均高于其他三类,活跃度较高,能够充分利用在线学习提供的资源来重构知识,主动学习者,有强的自主学习动力,较少依赖教师,有较好的学习习惯。
第二类,游离型,共51人,占总人数39.6%,此类学习者讨论参与数高于第三类和第四类学习者,参与行为序列高于平均水平,参加讨论活动的积极性较高,参与学习的时长也高于总体平均水平,但参与课程测试、访问课程资源次数较低,不活跃,所以需要提供给此类学习者学习策略和有效的个性化学习路径,从而提升学习动机和自身自控能力。
第三类,顺应型,学习者的重心放在测试、资源和课程学习上,共21 人,占总数16.1%,从图1 可看出,此类学习者对资源和课程访问的序列值相对高,有可能只是跟随教师进行浅层次的学习,学习积极性较高,但是参与讨论行为较少,对此类学习者,应考虑推荐更优质的资源和个性化学习方案。
图1 各类学习者参与行为序列活动数
第四类,低投入型,共178 人,占总人数40.4%,此类学习者比其他三个类别参与学习序列值低,在平台中缺乏学习动力,不是很重视成绩的高低,只是为了完成教师布置的任务,由于此类人数占比大,所以教师更应关注此类学习者,加强教学设计、注重情境教学,激发其对知识的渴望和学习动力,并实时跟踪其学习路径,推荐有效的学习路径和教学策略。
本文将在线学习行为投入理论与行为序列聚类结果相结合,研究基于学习序列与成绩之间的关联,从而帮助学习者建立正确的学习行为模式,进而提高学习效果。首先使用单一相关分析四类学习行为与成绩之间的关联,然后用多元线性回归方法,确定四类学习行为中影响学习效果的关键行为序列,并分析行为序列变量对学习效果的影响。由于本模型的实验样本是建立在两门计算机专业课程的数据上,选取的学科样本和年级有一定的局限性,所以收集的数据不能完全反映在线学习的全貌,下一步将增大样本的数量,进一步完善分析结果。同时采用多种学习分析技术进行对比实验,遵循个性化偏好和差异,给学习者量身定做有效的个性化学习路径。