马相春 钟绍春 徐妲
摘要:随着云计算、物联网和移动互联技术的快速发展,我们由信息时代迈入了数据时代。尊重个体差异,促进个性化学习,是教育改革核心理念之一;个性化自适应学习,日益成为教育界关注的热点问题。基于以上背景,该文从大数据的视角出发,对个性化自适应学习系统的核心要素进行了分析:针对学习者需求的演进,分析了学习者的学习自主性、群体社会化和学习情感;面对学习资源的新诉求,探讨了资源的情境化和多维立体关联性;就系统架构的新特性,强调了系统生态化、数据采集精细化及系统自我修善与重生的必要性。通过以上对系统核心要素的分析,提出了基于大数据的个性化自适应系统架构模型,并从学习者模型、领域知识模型和自适应引擎三方面对其实现机制进行了探析,提出了基于多种群选择的学习路径推荐策略和基于加权协同过滤的学习资源推送方法。
关键词:大数据;个性化自适应;支撑模型;实现机制
一、引言
互联网技术的发展,极大地延伸了传统的学习空间和学习时间,随着智能移动设备的技术发展,社会已经进入了泛在学习时代,学生获取知识的便利性和可使用的学习资源形式都得到了质的提升,自主学习的门槛降低了,学生进行学习的效能却没有得到明显的提升;当今社会对创新型、智慧型人才的需要使得教育从业者更加重视唤醒学生的潜能,使学生具有个性化的成长路径,但师资短缺与教育资源的不均衡,课后辅导与课堂教学的脱节,学生学习问题得不到及时解决和科学性引导,个性化学习无法有效开展。在这样的时代背景和社会对人才的需求下,我们需要一种更“懂”学习者的个性化自适应学习系统,它能够感知学习者的学习需要,根据其水平能力的高低,时间地点的变换、学习设备的更换以及其学习的偏好给学习者推荐最适合的学习内容与路径。
大数据被认为是继云计算、物联网之后IT产业的又一次重大变革,具有数据规模大(Volume)、数据种类多(variefy)、数据要求处理速度快(veloeity)、易变性(Variability)、真实性(Veraeity)和数据价值密度低(Value)六大特征。教育大数据能有效实现学习行为与过程的精准分析、学习绩效提升、科学规划学习路径和策略,从而为个性化自适应学习系统提供强大的支持。本文基于大数据视角,在云平台、物联网等技术的背景下,提出了个性化自适应学习系统支撑模型,并对实现机制进行讨论。
二、大数据视角下个性化自适应学习系统核心要素分析
个性化自适应学习系统是以教育大数据为背景,在个性化学习和自适应学习的基础上,通过大数据的分析过程和结果,为每个学生提供更适合其个性化特点和需求的学习内容。与传统自适应学习系统相比,个性化自适应学习系统有了新的需求,下面从学习者学习需求的演进、学习资源的新诉求以及系统架构的新特性等方面对个性化自适应学习系统进行分析。
(一)学习者需求的演进
1.学习自主性向纵深发展
传统的自适应学习系统一般是给学生规划出固定的学习路径,提供需要的学习资源,而忽略了学生的自主特性。大数据背景下的个性化自适应学习系统应该不再是封闭的系统,而是应该给学习者足够的空间,让学习者感受到对学习的掌控感与成就感,具有在可控制范围之内学习路径、学习内容的选择权,以实现个性化学习。在愉快完成学业的同时,也满足学生探索知识的欲望,并更关注学习者的能力发展。
2.学习的群体社会化日益凸显
在学习过程中,尤其是在大数据背景下的学习系统中,学生并不是孤立的学习者,他还存在于各种各样的人际网络当中,如所属学校、班级和小组,以及网络上的虚拟群体和兴趣小组。群体的学习历史和学习经验都对学生的学习具有参考和借鉴意义,同时他人的学习痕迹和与他人交互还可以降低学习者在线学习的孤独感。
3.学习情感亟待关注
自适应学习系统都有这样一个研究假设,学生能够持续利用在线学习系统进行学习,系统能够对学生的学习行为进行分析,但是实践证明,很多在线学习系统的结业率相当低,有很多学习者会由于这样那样的原因退出在线学习系统。柏宏权博士在其毕业论文的实验数据部分就遇到了这样的问题,其研发的“I-Tutour”系统在实验中只有2位学生完成了课程的学习。格雷泽(Graesser)等人在关于在线学习过程中的情感研究中记录了在学习过程中起着重要作用的六种情感状态,即厌烦(Boredom)、热情(Flow/Engagement)、困惑(Confusion)、挫折(Fmstration)、高兴(Delight)和惊奇(Surprise),它们对学习产生不同程度的影响。当学生出现困倦、厌烦情绪时不能很好地完成学习过程。
个性化自适应学习系统中对学生的情绪感知和情感交互有助于保持学生在学习过程中的注意力与参与兴趣。我们可以通过捕捉学生情感的变化来辅助当前的学习状态诊断,并及时预警,当发现有退出学习预兆或者学习出现困难时,给予正向的学习激励策略和指导策略,尽量保证学生能够顺利完成学习活动。
(二)学习资源的新诉求
1.资源的情境化
由于学习时间、学习场所、以及接人设备的灵活多样,当前学生进入学习的场景更为多样化,所以要求学习资源的设计目标更为明确,并具有相对独立、更小粒度、实效性强等特点,而且考虑到多终端呈现,那么学习资源还需要有适应性呈现的特点。
2.资源的多维立体关联
虽然学习资源向碎片化发展,但并不是无组织的碎片化,学习资源聚合在知识点周围,使得知识点成为一个“资源包”,包含学习该知识点需要的所有资源,包括微课、课件、音频、动画、习题、活动等等。知识点之间的关系除了具有学科知识结构关系外,还应具有灵活的组织关系。如前所述,学习者学習某个知识点带有一定的随意性,以随时开始某个知识点的学习,而且不一定按照知识结构进行,也可以挑选自己感兴趣的知识点,或者学习系统推荐的知识点等。所以,我们可以构建多维的知识点关联关系:按照知识结构的关联、按照某一群体的学习历史进行关联以及其他关联关系。
(三)系统架构的新特性
1.系统的生态化
传统的自适应学习系统大多数是在科研试验阶段,并没有广大的用户群体,基本上是本学校或本专业的几十、百人左右用户数量,并不能达到大数据的数据量级标准。个性化自适应学习系统首要的需求就是系统架构的重构,能够承载庞大的数据量和多样的数据来源。以作业帮为例,截止到目前总激活用户1.75亿,已为国内中小学生累计解决超过100亿次的学习请求,这样的数据量是传统实验室级自适应学习系统无法承担的。
在大数据和云计算的支持下,系统之间可以实现连通。个性化自适应学习系统可以与其他系统关联,获取更广泛的数据,作为个性化自适应学习系统分析的基础。一个系统的输出可以是另一个系统的输入,比如成绩管理系统中学生历次参加考试的成绩可以通过数据连通导人到个性化自适应学习系统中,成为评价学生学习水平最直接的手段。
2.数据采集的精细化
如前所述,云计算、移动互联网以及物联网技术为大数据提供了基础支撑,学生学习终端呈现多样化,除了传统电脑,还通过手机、平板等设备进入学习过程,网页日志、点击流、GPRS、视频、语音、传感器、红外感应、全球定位信息,甚至是情感信息等数据均可被采集和记录,数据类型突破了传统结构化的数据形式,还包含半结构化和非结构化数据。可见,数据已经按多种形态以更精细化的方式被识别并保存起来。
3.系统的自我进化
所谓适应,是指个体与环境之间构建和谐关系的动态过程;适应性是指个体与环境在相互适应的过程中所形成的适应能力。构建个性化自适应学习系统的规则是有限的,但是学习活动本身又是复杂的,所以有限的规则无法有效地支撑无限的过程,这就需要系统不应该只是单向为学生推荐资源和信息,同时也应该根据学生的学习效果和其他学习者的成功和失败数据动态调整自身,能够不断进化,提升适应能力。系统应该具有自调适参数,随着计算、运行次数的增多,通过学习逐步提升和自我改善,使挖掘和预测的功能更为准确。
三、大数据视角下个性化自适应学习系统架构
基于以上分析,对个性化自适应学习系统的基本架构进行设计,系统分为感知层、数据层、信息层、控制层和应用层五个层次,如下图所示。
感知层由个人电脑、手机、平板等各类应用终端,摄像头、话筒等采集硬件以及物联设备等构成,主要负责学习者各种学习数据的感知和获取。数据来源还包含其他系统,如学生信息系统、成绩管理系统、职业生涯规划系统、作业系统等等。
数据层通过感知层对数据的持续采集,形成图像、声音、影像、学习者使用系统的网络日志、数据流、点击流等信息,形成丰富的结构化、半结构化的原始数据池。
信息层是有意义的数据集合。数据层中的数据通过ETL等技术进行整合、转换和清洗,将数据转化为信息,汇聚到信息层,存储到学生信息库、学习者行为信息库、情感信息库、规则库等数据库当中,根据持续的数据采集、转换,不断形成增量信息,对各种数据库中的内容进行更新。
控制层是个性化自适应学习系统的核心,自适应引擎根据学习者特征模型和领域模型进行个性学习服务,在服务的过程中,不断对服务结果进行评价,更新引擎规则,实现引擎的自我进化。
应用层是面向用户的各种业务服务集合,包括学习内容呈现、学习工具、学习情境、学习策略等内容。
四、实现机制
个性化自适应学习系统的核心模块是学习者模型、领域知识模型和自适应引擎,下面对这三部分的实现机制进行讨论。
(一)学习者模型
学习者模型对学习者个性化特征信息进行描述,能够反映学习者的个性化差异,是学习系统提供个性化服务的依据。本文根据个性化自适应学习系统的要求,给出了如下的学习者模型:
学习者模型(Student Model)=(Basic Information,Knowledge Structure,Cognitive Level,LearningPreferences,Emotional State,Learning History)。
其中,Basic Information表示学习者基本信息,记录学习者姓名、ID、密码、性别、年龄、班级、学校、联系方式等内容。
Learning Preferences表示学习偏好,通过大数据分析学习者的行为获得偏好信息,包括学习资源和工具的类别偏好、学习时间偏好、学习场所偏好、常用设备偏好、交互习惯等内容,系统会综合分析学习者的偏好信息,“投其所好”地为其推荐学习路径和资源。
Knowledge Structure表示学习者知识结构,包括课程编号、知识点编号、知识点绩效矩阵等内容,用于表示学习者已掌握的知识结构情况。Cognitive Level表示学习者认知能力水平,此部分信息通过对学习者测评、作业、考试、交流等活动中获取。
Emotional State表示情感状态,通过分析学习者面部表情和文字等信息,诊断学习者当前的学习状态,对异常情感状态进行预警,及时调整学习策略,关注学习者情感需求,提供适当的激励资源和工具,保证其能够顺利完成学习过程。
Learning History表示学习历史,记录课程编号、登录次数、登录时间、登录时长、学习地点、使用设备、学习活动记录等信息。其中学习活动记录可以是作业记录、自学记录、测试记录,以及活动序列等,也可以包含活动时的情感状态。系统可以从大量的学习历史数据中进一步挖掘出学习者的学习习惯等偏好信息,以便更好地了解学习者,对学习者的学习进行更精准的预测;以及发现学习过程中遇到的困难,为系统科学干预提供依据。
(二)領域知识模型
领域知识模型是对应用领域的各组成元素及其结构的描述,表示领域知识内部各组成元素及元素之间的相互关系。领域模型的构建须有利于知识资源的表示、管理、查找、评价、共享和交互,是自适应呈现知识资源的基础。
如前所述,泛在学习环境下的学习者学习行为是随饥进入型,且对知识点的学习要求是隋境化的,很有可能就只针对某个知识点进行学习;而且知识点学习的序列具有很强的自主性,并不一定按照知识框架进行;在进行某个知识点学习时,资源的呈现方式和呈现顺序等也具有很强的个性要求,所以领域知识的模型不能采用传统的知识树的方式。本文采纳了余胜泉等人“学习元”的观点,即在学习内容的基础上附加了一定的语义描述信息、生成性信息、格式信息、学习活动和KNS(Knowledge Network Service)网络信息,能够帮助学习者在任何时间、任何地点通过任何途径获取所需学习资源,在一种轻松愉悦的学习体验中学到自己所需要的知识。但是在实现过程中,本文做了部分调整。
1.学习元对应知识点,学习元之间的关系一方面是教材上规定的知识点之间的关系,同时还有学习关联关系,也就是系统在运行过程中,从众多用户群体行为中挖掘出来的知识点之间的序列关系。所以,学习元之间的关系具有多重性。
2.学习内容独立性。由于某个知识元的学习资源和工具并不唯一,学习者在进行学习的时候系统推荐和自主选择的资源个数、类别、学习序列具有个性化,而学习内容本身也具有相应的语义信息、生成信息与KNS网络信息,所以本文将学习内容单独作为元素表示出来。
3.强调不同的学习方式。智慧学习方式包括听讲、读懂和探究三种方式,不同的学习方式所对应的学习内容及呈现序列均不相同,需要将学习元与学习内容按照学习方式的不同组织起来。
(三)个性化自适应服务引擎
个性化自适应服务引擎根据学习者模型,对学习者的知识水平与认知能力加以分析与诊断,动态地安排高切合度的学习内容与呈现方式,并且对学习过程进行检测与管理,并不断监测、修改、维护学习者模型。大数据背景下的自适应服务引擎还应具有自我学习和进化的功能。
1.个性化自适应学习引擎基本服务原理
个性化自适应学习引擎根据学习者模型(学生当前认知状况、学习历史、学习偏好、客观因素等内容)和学习目标,制定学习服务策略,跟踪学习状态,记录学习历史,当学习结束时,对学习者进行评价,验证学习策略是否有效。当学习者未达成学习目标时,进行问题分析,考慮教师干预和群体性干预,改进学习策略。当学习者效率较低、时间较长时,改进学习策略;当学习者学习兴趣较低、情绪低落时,改进学习策略,进行策略调整,直到高效且愉悦达成学习目标。在此过程中,引擎不断修正和优化规则,进行自我进化。其中,教师干预是指教师可以根据自己的教学进度、教学计划、教学经验以及对学生的了解对学习策略进行强干预,作为引擎规则;群体性干预是指学习者所在群体的学习过程对个体的学习策略生成具有指导意义,最常用的是协同过滤算法。学习者学情诊断、学习路径推荐与学习资源推荐是个性化自适应服务引擎的三个核心工作。
2.学习者学情诊断
个性化自适应学习系统对学生学情的诊断与评价分为两大主要方面:一是知识结构与认知水平的诊断,二是学习情感诊断。
(1)知识结构与认知水平诊断
个性化自适应学习系统联通了作业系统、成绩分析系统等,采用了多维诊断的方式,包括学生测试情况、作业情况、考试情况等,综合评定学习者的学习状况。同时,学习者学习水平是一个相对值,所以还将学习者放在其所在群体中进行对比和分析,综合分析其在同龄用户中的认知水平。从进步曲线、知识点掌握程度、在群体中的位置等多个方面对学生的学习成果进行分析。
(2)学习情感诊断
学习情感信息一般通过表情和文字来表达,通过采集学习者学习过程中的表情变化和与他人的沟通方面的文字表述来分析学习者的情感信息。其中基于学习表情的情感诊断是指实时捕获学习者在学习过程中的面部表情和姿态表情,计算学习者的学习情感。首先对学习者的面部进行识别,然后进行表情特征的提取和识别,根据表情分类字典计算学习者当前的情感倾向。
基于文本的情感诊断是指从学生在社区或者与他人沟通的文字等方面抓取情感信息,计算学生的学习情感倾向。首先通过网络爬虫技术和信息截取,对学习者发布的文字信息进行抓取,提取其中的敏感信息,然后依据情感字典,进行情感倾向计算。
3.基于多种群选择的学习路径推荐
个性化自适应学习系统关于学习路径的推荐分为两个层次:一个是知识点学习路径,另一个是资源呈现路径。在学习元的知识模型基础上,知识点的学习顺序不一定是按照知识树结构关系,还可能是依照学习者所在某一群体的学习路径,学习者还有自主选择所学知识的权利。而关于某一个知识点的学习,有很多种类和数量的学习资源进行支撑,每个学生关于知识点学习的资源组织路径也不相同。所以,需要个性化自适应引擎根据学习者的特征模型为学习者推荐个性化的学习路径。
蚁群算法是意大利学者Dorigo M等于1991年提出的一种群体智能算法,通过模拟蚁群觅食的过程来求解旅行商问题。即蚂蚁在寻找食物的过程中,会在走过的路径上留下一种“信息素”,其他蚂蚁在寻找食物时会识别出信息素,并选择信息素最大的路径进行,逐渐形成一条最优觅食路径。赵铮等人提出学习路径推荐服务与蚂蚁搜索食物的过程具有相似性,学习者可以看作蚂蚁,学习目标可以看作蚂蚁觅食的目标,学习者对知识点的评分可以看作蚂蚁留下的信息素,推荐的路径可以看作蚂蚁觅食过程中走过的最优路径。
本文结合基于“学习元”理论的领域知识模型,提出了多种群选择的学习路径推荐算法。学习者属于不同的群体范围,即存在于实体学习小组群体、班级群体、学校群体、区域群体当中,也存在于具有某类学习偏好的虚拟群体当中,对于每个学习者来讲,不同的群体同伴留下的“信息素”“浓度”不同,对应不同群体同伴评分所对应的权值不同,由此可以生成更符合学习者个性化特点的学习路径。
4.基于加权协同过滤的学习资源推送
协同过滤算法是当前应用效果较好的推荐算法,其核心思想是通过计算用户之间偏好的相似性继续推荐,相对于其他推荐算法一个显著的优点就是能够推荐难以进行内容分析的项目,如信息质量等抽象的资源对象。其个性化程度较高、能处理机器难以自动分析的数据,由于共享了他人的评价和经验,所以共享程度较高。不过协同过滤算法本身还存在一些缺陷,如冷启动、稀疏矩阵、用户信任等问题。
本文在基于项目的协同过滤技术的基础上,提出了基于加权协同过滤的学习资源推送算法。在构建项目—用户评分矩阵时,采用了权值启动法,解决冷启动和稀疏矩阵的问题,综合学习者风格,兴趣偏好,知识结构等因素,并考虑教师干预,分别转换成权值,先对矩阵进行初始填充,在运行过程中,通过学习者的行为变化,修正评分矩阵,以解决用户信任问题。由于在大数据平台下进行应用,还要考虑算法的并行化问题。
五、结束语
随着数字化校园、人人通等信息化工程的推进,越来越多的教师教学和学生学习的行为能够被数字化并记录下来,海量的数据汇集成教育大数据,为教学决策、过程优化、效果提升提供重要数据依据。本文在大数据视角下,对个性化自适应学习系统的新诉求进行了分析,提出了新框架,并对学习者模型、领域模型和自适应引擎等关键环节的实现机制进行了研究。在后续的研究中,我们要进一步对个性化自适应学习系统的实现和实际应用效果进行探讨和研究。