肖年志,郭 俭
(苏州市园区教师发展中心,江苏 苏州 215000;苏州百智通信息技术有限公司,江苏 苏州215000)
随着基础教育信息化的推进,基础教育资源平台面临着从简单的资源集成平台向自适应学习系统的转变。苏州园区教育局于2016年建成的易加互动学习平台通过近一年的推广使用,集结了“17000+”原创微课。随着课件、题目资源建设的进一步到位,平台的资源集成功能已经实现。但是,面对数量日益增加的海量资源,基于师生对平台的使用数据,构建更加智能化的自适应学习平台,成为下一步建设的重点。
自适应学习系统,意味着系统可以根据学习者个性和学习行为特征,提供个性化的学习路径和适宜的学习资源。从其实现的路径来看,实现资源的个性化推送是关键环节。以往基于资源的推送研究往往基于孤立的简单算法,例如基于内容的推送、基于关联规则的推送等。但是,由于学习资源有其自身的特点,例如知识的关联性,学习的场景化、资源类型多等,因此,实现自适应的学习资源推送,必须建立相应的资源特征库,以便系统通过对相关资源特征的提取,进行快速有效的推送。
本文旨在研究通过使用大数据分析的方法,对平台上各种与资源有关的用户行为进行分析与理论研究,挖掘出其中蕴涵的对资源价值的评价倾向性,找到资源间隐含的关联关系,建立相应的资源特征库,以助平台进一步向智能化方向进化。
面向基础教育的教学平台,其学习资源的组织与学校教学高度关联,因此,在资源的组织上表现出鲜明的特点。首先,其教学内容表现出高度组织化。通常与教材的章节保持着高度的一致性,反映了基于学科逻辑和学生学习逻辑综合考虑的知识结构化的需求。章节的设置,充分考虑了知识的逻辑关系和学习者的认知规律。在具体的内容组织上,既有强调上下位关系的层次结构,又有强调并列组合关系的组合结构。其次,同样的知识内容,基于不同的学习目标达成,就可能有不同的资源形式。基本目标(知识、理解、应用)和高层次目标(分析、评价、创造)对学习资源有着不同的承载要求。此外,从学习资源具体应用来看,基础教育领域学生的学习,通常需要按照学校教学进度,与课堂教学保持同步。例如,学生的个体学习主要发生在课前的自主预习和课后的作业练习。因此,自主学习的场景因素成为我们考虑学习资源特征时必须考虑的重要维度。
基于以上分析,我们认为,作为自适应学习最基本引擎的资源特征库,可以考虑以下需求:
(1)资源依赖于教材章节
资源必须有明确的教材章节性质,即一个资源绑定一个或者多个教材章节。鉴于教材章节从数据结构上一般而言是树结构的,故绑定的章节,需要尽可能是树枝上的最终分叉节点。
(2)资源依赖于特定的场景
每一个资源,都是为了特定的场景而制作出来的,资源需要有明确的场景特性。在一个教材章节内部,有些资源是面向课前先学这一场景的,此时资源一般难度较低,主要用于满足认知层级分类上的识记与理解。
(3)资源难易度适中
资源对学习者来说有点难而又不太难,是价值最高的,有点难是有挑战性,不让人掉以轻心;不是太难,是自己主观能动努力一下就能有收获,能够享受到学习的乐趣。而学习者千差万别,资源需要有复杂的难易等级,以满足不同层次学生的需求。
(4)资源是优质的
优质的资源能使学习难度曲线降低,提升学生的学习乐趣与成就感,满足快乐教与学的目的。
(5)资源间是关联的
学习一般都是基于多个资源的学习,资源与资源之间有种种关联,有时间先后关系的,有相似关系的,资源模型需要重点描述资源间的关联关系。推荐引擎通过对关联资源的引用,来计算出一个学生具体的学习路径。
基于前述智慧学习推荐引擎的需求,我们认为需要从如下几个方面来构建资源模型:
学习平台支持的常见的教与学场景有课前预习、课堂互动、课后巩固、单元加强、考前冲刺。虽然该五类场景有较为明显的知识逐渐加深的因素,但是一个资源未必只用于其中的一个场景,还可以根据其他的因素考虑,被用于多个场景。比如:一道题目,可以用于课后巩固,用于检测学习效果;它也可以用于后续章节的课前预习检测环节,达到检测掌握是否牢固等目的。
作为一种属性,资源的场景特性,可以是系统运营要求的,强制共享者在分享资源之前进行显式的标注,不标注不能进行共享。此种方式依赖人力标注,一方面有可能标注得不够全面,另一方面标注所耗费的人力巨大,故一般未必能够形成常态化的操作。而通过资源在具体的课程使用情况的分析,可以得出具体的场景。如:
·课前任务单可以认为是课前预习环节,其所使用的资源均自动带有课前预习场景特性;
·课堂任务单或者教师备课的课堂素材所包含的资源,可以归类到课堂互动环节;
·课后任务单或者课后练习中所使用到的资源,可以归并到课后巩固环节;
·横跨多个小章节的练习作业或者学习任务,可以认为是单元加强所需而产生的学习使用行为;
·从时间上判断资源需所属的章节有较大的跨度,并且资源难度相对较高,可以用于考前冲刺环节。
资源场景特性的自动识别与隐性标注,是在用户无感知的情况下进行的,不会因此而受到教师用户的阻挠,对平台的推广使用非常有益。
通过对资源在各种场景中的使用行为的分析,能够得出一个资源的章节及场景使用属性:
·教材章节编码;
·场景编码;
·以教材章节和场景为单位出现的次数;
·学生学习汇总情况,如微课资源的平均观看时间、覆盖度;题目资源的答题平均用时、正确率等信息。
随后,在其他教师用户使用时,平台可以结合教师当前的具体场景,使用一定的算法,推荐最符合该场景的资源列表,或者资源的详细信息里辅以上述分析得出的汇总及分析信息,帮助教师判断,选用最合适的资源。
学生认知基础不同、认知能力不同,使用同一份资源进行学习与测试往往效果会不同,分层式学习是最近几年教学与信息化结合后出现的新做法,特点是学生分层,如分为提高、普通、薄弱,资源也分层,分别对应于学生的三个分层。典型的一个做法是一份测试题,教师进行了分层设置,除了一部分所有人都需要答的题之外,设定另外一部分题目,比如30%左右的题量,按照难中易三个层次布置,分发给学生作答。学习能力强的作答其中共通部分及较难的题目;学习能力一般的作答其中共通部分及一般难度的;学习能力较弱的,作答其中共通部分及简单的题目。分层式教学对学习的促进作用已经得到广泛验证。分层教学,依赖的主要就是资源的难易度特性。
资源的难易度,可以是教师用户或者资源供应商主动标注提供的;而在大数据时代,通过对各种数据进行分析汇总,来智能取得难度信息是比较可行的一种做法。
我们把难度分为5个等级,分别为极易、易、一般、难、极难。
资源的难易度,需要综合如下几个方面:
(1)资源使用场景所包含的难易度信息
根据布鲁姆六层认知论,我们可以把平台所支持的5种场景与前5层进行对应,并根据该流程分别设定难易度,即:
表1 资源使用场景难易度层次
如表1所示,考虑到课前课中课后会随着课堂主题变化而不一样,故我们针对一个场景设定了多个难易度值。资源在不同的场景里面出现,基于上表的规则把难易度设定到该资源的难易度等级列表里面去,并以二维数组的形式保存:
[场景编码,难易度编码],[场景编码,难易度编码]……
※保存场景编码的目的是日后根据需要,进行算法精度的调校时,能够基于此信息重新计算所对应的难易度信息。
(2)学生群体的认知能力信息
学生的学习能力有差别。一个班级作为一个群体,在每一个班级均会出现优良中差的等级;在一个学校,一般也可以把班级分为ABC(尖子班、普通班、薄弱班)三个等级;在一个区域,也可以将学校进行横向的等级划分,分为名校、普通校、薄弱校等。不同级别的群体,所需要的资源难易度不同;资源分配给各班级群体使用时该群体的等级比例也可以作为资源难易度判断的数据来源。
我们一般将班级群体分为5个等级:优、优良、一般、较弱、薄弱,与资源的难易度正好一致。
(3)资源使用完毕后学生群体的反馈
如前所述,当一个普通班级在作答完毕一份练习后的统计数据表现出来平均分数过低,系统可以据此认为该练习的难易度等级较高。不同的群体,在资源学习或者题目检测以后所反馈的信息(正确率等)也需要根据这个群体的认知等级进行二次处理。
基于上述分析,一个资源,可以通过使用学生群体的等级特性及使用后的反馈来进行难易度的补偿修正。
(4)关联使用时的难易度信息
在日常的教学过程中,教师一般会把难易度相等的多个资源组合以后形成任务单发放给学生学习或者作答。即一个资源和其他资源组合用于教学时,这个资源的难易度可以从这个组合内部其他资源的难易度来衡量。我们可以采用组合难易度的标准偏差来衡量,并对超出偏差阈值的资源进行难易度的修正。
以往,对资源的评价使用如排名、专家评审等方式进行,该类评价以主观评价为主,较易受到人为因素的干扰。到了大数据时代,我们可以基于对资源的各种使用行为进行分析,挖掘其中所蕴涵的对资源评价的信息,形成资源的客观评价。由于是基于数据的评价,数据量越大,受人为干扰的因素越小,客观性也越有保障。
当前,在线学习平台对资源的使用,主要会发生如下多种行为,行为及评价的方法简单列举如下:
(1)观看:可以从观看的覆盖率、观看次数、学校分散性、观看热度等方面进行评价;
(2)点赞:点赞数越高,评价越高;
(3)收藏:收藏数越高,评价越高;
(4)引用:实际的使用行为,引用数越高,评价越高;
(5)下载:同引用类似,下载数越高,评价越高;
(6)评论:可以通过文本情感分析技术进行分析,算出好感度来进行评价;
(7)投诉:一般是比较负面的评价;
(8)追踪使用:前述都是对单个资源单独的评价,追踪使用是分析多个关联性的资源,通过找到其共性,在共性内寻找差异,并形成客观的评价;
(9)跨时段使用:通过追踪分析每一个资源一段时间内的动作变化,来进行横向的对比与评价;
基于上述9个方面,可以对资源做一个较为全面的评价,生成一个资源评价的七角雷达图和综合的评价指数。
基于用户行为的资源评价模型,已经以微课资源为例,以独立文章的形式进行了表述,在此不再赘述。
资源一般不是独立使用的,而多以组合形式进行,最常见的场景是各类学习任务当中的“微课+题目”的形式,微课教授知识,题目检测学习效果。本节和后续的两小节是对资源与资源间关系的一种描述。
在资源库中,在同一个细分的类目下还会有较多数量的资源,以易加互动学习平台上的微课视频为例,如图1所示,同一个章节下有8个微课资源,实际教学时,8个资源的使用有先后限制,如需先学完《有趣的乘法计算(一)》才能学习《有趣的乘法计算(二)》。
图1 学习平台上的微课资源
当前的视频是围绕教材章节进行建设的,如图1所示,在一个章节下面其实包含了多个课时的内容,教师选用某个章节的资源时,当前还不能直接选用,还需要再仔细看一下到底是第几课时的微课,自己能不能直接选用。作为一个智能的推荐引擎,应该将这个过程也省掉,要实现贴心的推荐。
资源间先后顺序的计算是基于场景的,即从业务角度考虑需要计算先后的场景,然后对实际的使用行为数据进行分析,找出其间的先后关系,并标以一个确信度,用于衡量先后关系的稳定性。在碰到相似的使用场景时,基于这些信息进行推荐优先度的排序。
我们举几个较为常见的场景:
(1)某学科章节的一个学习任务单,使用了一个“微课+一套练习题”。微课和这套练习题,将会默认形成一个先后关系。当其他用户引用了微课后,系统应智能地提示是否把经常一起使用的、后续的那套练习题也引用进来。
(2)一个章节下面的微课,使用者是按照课时推进使用先后顺序的。现在建设的微课资源已经形成规模,一个章节下面有5个以上微课的资源有很多;通过外购的题库资源,平均每个章节均有超过100个题目的资源。实际使用时,有部分题目会在第一课时课前使用,有部分题目会在课后使用,有部分题目会在第二课时课前课后使用。这些题目的使用先后关系,系统都需要收集起来,经过计算以后记入资源前驱后置属性当中去。
(3)学生做题目检测时,系统发现有一个前置的知识点的掌握程度较低,系统需要从与当前章节关联的前置微课列表中进行寻找。此时系统需要返回那些属于前驱章节、又是在学习了本章节后使用的那些题目,此类题目优先展示给学生,可能是最满足其期望的。
资源的前驱后置顺序关系,在系统中保存为一个二维数组,每一项需要包含的信息包括前驱后置资源类型、前驱后置资源ID、前驱后置确信度。
当两个资源的细分类都一致时,我们使用相似性代替其他属性来进行描述。资源相似来源场景也有多种,举例如下:
·基于资源关键字的比较计算所得,两个资源拥有越多的关键字,则相似性越高;
·资源内容的比较,如多题经过对题目文本内容的语义分析,可以算出一个处于0~1的相似度指数;
章节知识点的相似性、地域的相似性等因素可以通过其他方式进行计算,可以不列入资源相似性的比较。
资源相似性通过相似资源这一属性进行描述,包含的信息包括相似资源ID、相似确信度(确信度越大越相似)。
资源的相似性,是对同一类型的资源进行的相似度描述;而资源的聚簇性,则是对多种资源可以一起使用这一特征的描述。
一起使用的场景如:
·在多个学习任务单中被一起使用;
·多个题型的题目在同一份练习/试卷中被一起使用;
·在同一课程中被一起使用;
资源的聚簇特性,使用外链的聚簇因子 (唯一的ID)进行描述,包含的信息包括:
·聚簇资源ID。
·聚簇距离,该值为业务场景定义的距离,取决于具体的业务场景,如同一题在同一个课前学习任务单中被使用的距离要小于在同一课程中其他学习任务单中使用的距离,距离越小,聚簇性质越明显。
·聚簇发生次数,次数越多,一起使用的倾向越大。
针对智慧教学,本文提出了适用于智慧教学智能化推荐场景的资源信息化系统的模型,并提供了一部分的实现思路。
基于行为数据分析的资源关联与评价,能够大大简化费时费力的资源标注工作,且行为数据全部自动收集,用户无感知,所计算出来的结果也能够保证其客观与公正,是学习平台智能化的基石,也将是下一代学习平台所必须具备的基础性功能。
基于行为数据分析的资源关联与评价,当前研究尚处于起始阶段,模型场景、模型参数均会随着研究与应用的深入得以进化。
[1]方海光,刘静,黄荣怀,李玉顺.基于学习对象化的移动学习资源自适应引擎的研究[J].中国电化教育,2009(7):51-55.
[2]刘俊.泛在学习中学习资源自适应环境系统设计[D].武汉:华中师范大学,2012.
[3]李晓,李浩君.基于片段式资源协作构建的自适应移动学习系统设计[J].中国教育信息化,2011(5):38-41.