智慧教育研究现状与发展趋势

2019-02-20 03:38郑庆华钱步月魏笔凡张未展
计算机研究与发展 2019年1期
关键词:图谱学习者个性化

郑庆华 董 博 钱步月 田 锋 魏笔凡 张未展 刘 均

1(西安交通大学电子与信息工程学院 西安 710049)2(西安交通大学继续教育学院 西安 710049)3(大数据算法与分析技术国家工程实验室(西安交通大学) 西安 710049)

教育信息化是信息化时代构建学习型社会和终身学习体系的基本技术途径,是《国家中长期科学和技术发展规划纲要(2006—2020)》和《国家中长期教育改革和发展规划纲要(2010—2020)》的战略任务之一.回顾国内外教育信息化的发展历程,主要经历了数字化、网络化、智能化3个阶段的演进.

在20世纪70,80年代,随着信息技术,特别是个人电脑(PC)的出现,国内外首先出现了以计算机教育为着眼点的教育信息化热潮.邓小平同志在1984年的讲话“计算机的普及要从娃娃抓起”深入人心.随着信息技术发展与PC的进一步普及,教育信息化进入了教育资源数字化、教育管理信息化的时代,各种电化教育手段与电化教育馆、广播电视大学的出现,正式标志着教育信息化进入了数字化时代.

20世纪90年代到本世纪初,随着互联网的高速发展,教育信息化逐步进入了网络化时代.远程教育、在线教育等网络化教育手段成为了缓解教育数字鸿沟和教育公平问题的重要途径.1993年我国建成了中国教育与科研计算机网(Cernet);在国际上,Internet也在同一阶段迅速成长壮大,为开展网络化教育提供了重要的支撑平台.进而,随着智能终端与移动互联网的迅猛发展,具有4A特性(Anywhere,Anytime,Anyone,Anydevice)的移动学习,成为了网络化时代教育信息化的主要特征之一.

2010年以后,随着移动互联网、人工智能、云计算、大数据等技术的发展,教育信息化进入了一个全新的阶段,呈现出智能化、泛在化、个性化、开放化、协同化的趋势.2011年大规模开放在线课程(massive open online course, MOOC)在全球范围内推广,随之而来的是对教育信息化的智能需求与日俱增.人工智能与教育的深度融合已成为提升教育信息化发展水平和质量的重要手段.2017年国务院印发的《新一代人工智能发展规划》中,明确指出“利用智能技术加快推动人才培养模式、教学方法改革,构建包含智能学习、交互式学习的新型教育体系.开展智能校园建设,推动人工智能在教学、管理、资源建设等全流程应用”,这标志着教育信息化的智慧教育时代正式拉开序幕.

智慧教育是指融合现代教育理论与大数据分析、人工智能等信息技术的新的教育信息化范式.当前,国内外对智慧教育尚未形成共识,但是从不同角度指出了智慧教育应具有的特点.例如国内学者祝智庭等人分析了“智慧”的内涵,指出智慧教育中的学习时空环境应具有感知、推理、辅助决策等智慧特性[1].杨现民则认为智慧教育是依托新一代信息技术的物联化、智能化、感知化、泛在化的教育信息生态系统[2].新加坡在iN2015计划中明确了智慧教育的3个特点,即泛在学习、交互式数字学习资源、适应不同学习风格的智能学习体验[3].

本文中,我们将智慧教育定义为基于新一代信息技术的教育信息化新范式,旨在通过教学、管理、评估、决策等教育全过程涉及的资源、行为、情境、管理等教育大数据进行挖掘、分析、融合,建立具有智能导学、精准推荐、精细评价等特点的学习生态系统.

本文的贡献主要有2个方面:

1) 在对国内外智慧教育研究与应用调研分析的基础上,从3个层次建立了智慧教育的研究框架.最底层是教育大数据分析与挖掘,包括以教学行为等结构化数据为对象的教育大数据分析,以及以非结构化海量知识资源为对象的教育知识图谱构建,这是构建智慧教育平台的基础.中间层是针对教学中导学、推荐、答疑、评价等环节的4项关键技术,包括学习路径生成与导航、学习者画像与个性化推荐、智能在线答疑以及精细化评测.最上层则是主流的国内外智慧教育平台.围绕上述框架,对国内外相关研究进行对比分析,总结了其特点与存在的问题.

2) 总结出当前智慧教育研究4个方面的局限性.①如何应对大规模学习者的在线辅导;②如何对学习者、教师、环境等要素进行精细化、全过程的评测;③如何应对有限认知带宽问题导致的个体学习局限性;④如何通过分析教育大数据发现影响教学的潜在致因与规律.针对上述局限性,指出了智慧教育后续研究的4个方向,即在线智能学习助手技术、学习者智能评估指标与方法、网络化群体认知模型以及教育大数据的因果关系发现方法.

1 教育大数据分析挖掘

1.1 结构化教育数据分析

结构化的教育数据主要包括学习行为(如鼠标点击次数等)、学习效果(是否获得证书等)以及学习者基本属性(如年龄、性别等).近年来,国内外学者对大规模在线学习平台(如Coursera,edX,Udacity等)的海量结构化教育数据已开展了分析研究工作.这些研究有助于揭示人类更深层次的认知机理,挖掘有价值的学习规律与模式.当前对教育数据的分析主要是相关性分析.相关性用于衡量变量间具有线性关系的程度,主要包括假设检验、回归分析等分析手段.

在假设检验方面,典型研究工作如:Kizilcec等人[4]采用Fisher精确检验对MOOC学习轨迹数据进行了分析,并采用非监督学习方法将学习模式分为Completing,Auditing,Disengaging,Sampling Learner四种类型,为理解在线学习者的学习持续性提供了依据.Coetzee等人[5]也采用Fisher精确检验分析了edX平台上中“软件工程”课程的行为数据,发现学习者在论坛上的访问次数与学习成绩之间存在正相关性.Wilkowski等人[6]采用T检验分析了Google MOOC平台上的行为数据,发现了不同学习目标下学习行为与课程完成率之间的相关性.

在回归分析方面,典型研究工作如:Firmin等人[7]对3门MOOC课程进行了逻辑回归分析,发现学习者及格与否与个人努力程度相关.Coffrin等人[8]根据学习者的交互数据,运用生存回归方法对社交行为的中心度和课程学习的参与度进行了分析,揭示了能够预测MOOC学习流失率的显著性指标.Ramesh等人[9]基于随机逻辑回归分析出学习持续性相关的行为特征,用以预测MOOC学习的完成率.He等人[10]采用逻辑回归方法预测学生是否能完成课程学习,并对边界学生提供干预.国内蒋卓轩等人[11]结合逻辑回归方法与相关图方法分析Coursera上6门课程的学习行为数据,挖掘出学习行为与学习间的相关性.

上述研究得到的相关性大都是类似“学习效果好坏与个人努力程度相关”的结论,对构建当前急需的智能化导学、推荐、评价等机制,还缺乏可操作性.而支撑这类机制的核心是在教育数据中蕴含的因果关系.因果关系是指变量间的作用关系,一个变量的变化是由另一个变量触发.尽管相关性分析在因果关系挖掘中具有重要作用,但是相关性既非因果关系的必要条件,也非充分条件[12].与因果关系相比,相关性还很难作为决策的依据.

1.2 教育知识图谱构建

随着Linking Open Data等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布.互联网正从仅包含网页和网页之间超链接的文档万维网(document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(data Web).知识图谱(knowledge graph)旨在描述真实世界中存在的各种实体或概念以及它们之间的关联关系.和传统的Web页面网络相比,知识图谱中的节点从网页变成了各种类型的实体,而图中的边也由连接网页的超链接(hyperlink)变成丰富的各种语义关系.研究机构及商业公司以知识图谱为基础开展大规模知识库构建,目前Google、百度和搜狗等公司均构建了自己的知识图谱,分别为Google Knowledge Graph、知心和知立方.知识图谱不仅可以改进搜索质量,同时也可以直接回答问题.

知识图谱在检索领域获得广泛应用之后,逐步扩展到教育、医疗等其他领域.教育知识图谱可将分散、无序、海量的教育信息聚合成结构化、优质的知识,并智能地推荐给用户,使用户从海量信息的人工筛选中解脱出来,快速进行认知升级.如百度研制的百度教育知识图谱主要用于K12教育市场,将题目与知识点进行对应,聚合相关知识点的多态优质资源,能够支持并完成高效的人机交互.

知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的数据挖掘技术,从原始数据中提取出知识主题等节点及节点间语义或认知关系.这是一个迭代更新的过程,每轮迭代包含2个基本阶段:信息抽取和知识融合.教育知识图谱的构建也遵循这2个阶段,差别主要是节点及节点间关系类型不同.

信息抽取从各种类型的数据源抽取构建知识图谱所需的各种候选实体(概念、知识主题)及节点间的关联关系(包括语义关系、认知关系等),形成一个个孤立的抽取图谱(extracted graphs).知识图谱主要来源于百科类网站和各种垂直站点的结构化数据,这类数据特点是质量较高、更新较慢.比如Google的知识图谱很大一部分来源于Freebase,Wikipedia和IMDB等网站.而另一方面,知识图谱通过从各种半结构化数据(如HTML表格)抽取相关实体的“属性-值”对来丰富实体的描述.通过信息抽取得到的知识数据更大,并能及时发现最新的实体或事实,但其质量相对较差,存在一定的错误.Cafarella等人[13-14]开发了WebTables系统,该系统使用分类技术从海量HTML页面的150亿表格中抽取了1.5亿条的高质量关系数据.该系统后来被Google收购用于构建Google的知识图谱.Venetis等人[15]开发了一个用于HTML中海量表格的语义标注系统.该系统首先从Web上抽取得到含有噪音的类标签及它们之间的关系形成一个数据库,基于该数据库及Web上观察到的实例标注表格的每个列,从而获得表格的语义.Mintz等人[16]提出一种Distant Supervision的方法从Web抽取各种关系,该方法假定,如果已知2个实体存在特定的语义关系,那么包含实体对的句子在某种程度上就存在表征二者语义关系的作用.这种方法充分利用了现有的知识库,如Wikipedia、本体或者人工标注的小规模实体对,将这些高质量关系实体对作为种子,从Web中挖掘包含已知实体对的大规模文本,作为自动标注的语料库,然后使用监督学习解决关系抽取问题.

为了形成一个完整的知识图谱,还需要通过实体对齐(消歧)、模式层构建、可信性验证等技术将这些信息孤岛集成在一起.Bordes等人[17]基于深度学习技术将不同的符号框架嵌入(embed)到一个连续的向量空间中,从而可以方便地计算实体间语义相似度,进而完成预测及检索任务.Google创建了名为 Knowledge Vault的知识图谱[18],迄今已经收集了16亿件事实,其中,2.71亿件是“可信的事实”.微软创建的Probase[19],从多达16亿网页数据中抽取出270万条核心概念、2000多万条概念间关系,是目前概念空间最大的知识库.

目前还没有成熟的教育知识图谱产品,研究机构及商业公司侧重于扩展现有知识图谱技术,并研究基于知识图谱的个性化资源推荐、导航学习、知识发现等技术.

2 教学环节的智慧教育技术

在线学习中主要包括导学、推荐、答疑、评价等教学环节,以下对各个环节中的学习路径生成与导航、学习者画像与个性化推荐、智能答疑、精细化评估等关键技术进行综述.

2.1 学习路径生成与导航

学习路径推荐是根据学习者的先验知识与学习目标,规划一条由认知关系组成的路径,其核心问题是如何自动生成高效的学习路径.目前,针对学习路径推荐的研究仍然处于探索阶段,针对不同的需求和应用背景尚没有公认的权威经典方法解决这一问题.已有的代表性研究工作可以分为基于学习者特征、基于语义关系、基于认知关系的3类学习路径生成方法.

基于学习者特征的学习路径生成方法是通过分析学习者在学习过程中表现出来的学习行为特点来完成学习路径推荐.典型的研究有:Salehi与 Kamalabadi[20]提出了一种基于序列模式挖掘和多维属性的协同过滤的新型推荐系统框架;Lin等人[21]开发了基于决策树的个性化创新学习系统,为学习者提供个性化的学习路径;Dwivedi等人[22]通过可变长度遗传算法,综合考虑学习者的学习风格和知识水平,为学习者提供有效的学习路径;Basu等人[23]提出了一种基于用户模型的系统,该系统考虑了学习者的偏好、先前的表现、学分要求以及推荐学习路径的时间等参数.Bendahmane等人[24]提出了一种基于学习数据、学习者特征、期望和能力的方法CBA,通过对学习者进行聚类和跟踪,最后给出合适的学习路径.Salehi等人[25]引入了学习者偏好树,将学习者所接触材料的多维属性、学习者评分、有序模式和顺序模式组合到模型中.该模型使用混合、加权和级联混合方法形成最终推荐的学习路径.

以上6种方法都是从学习者的角度解决学习路径推荐问题,大多采用集体智慧或表现优秀学习者的学习行为特征来提高生成的学习路径的精确度和有效性.但是,这种思路需要花费大量时间构造优秀学习者的先验知识库,而且可能会面临优秀学习者的日志缺失问题;同时由于并未考虑学习者当前的先验知识到学习目标的必要性,以及不同学习者在学习过程中所表现的不同学习行为特征,因此,所推荐的学习路径会或多或少地偏离学习者的原本需求,无法为学习者提供有针对性的指导.

基于语义关系的学习路径生成方法是利用知识元本身的语义信息指导学习路径的推荐.典型的研究有:Chu等人[26]提出一种基于本体的学习路径生成方法,该方法首先根据知识元之间的关系建立知识元本体库,进而根据本体之间的关系指导学习路径的推荐;Colace等人[27]提出了一种基于贝叶斯网络生成学习路径的方法,利用领域本体中的概念关系,将学习路径推荐问题视为一种排序约束满足问题;Tam等人[28]提出了明确的语义分析,然后通过概念聚类增强本体分析,并应用优化器来寻找所涉及的概念或模块的最佳学习路径.Tseng等人[29]构建了自适应学习的概念图,并为个体学生提供了知识点推荐.以上方法大多缺失目标知识元学习的必要条件,忽视了知识间认知序关系对认知的影响;此外,本体之间的联系是多种多样的,这种联系不一定是认知角度的学习先后顺序,用这些各种各样的联系去建立学习路径并不太合适.

基于认知关系的学习路径生成方法主要是通过知识图谱解决大量的异质学习资源导致学习者的知识迷失和认知负载问题.朱艳茹等人[30]在学生能力的引导下,构建了一个能够自动诊断用户学习能力的用户模型,并为不同特征的学习者提供“最佳契合”的个性化学习路径.赵琴等人[31]提出一种基于改进蚁群优化算法的微学习路径推荐方法,该方法主要用于检测学习者的知识水平、知识领域和学习目标的学习迁移;Durand等人[32]提出一种基于图论的学习路径推荐系统,用贪心算法求最短路径的局部最优解.这些学习路径推荐方法不足之处在于:不能根据学习者的学习过程和学习能力提供多样化的学习.

2.2 学习者画像与个性化推荐

精准学习者画像是现阶段个性化教学的核心内容,即如何有效地利用学习者的静态和动态信息来建立学习者画像,为个性化教学提供基础.陈海建等人[33]结合学习者的基本信息、在线学习行为、课堂表现以及脑认知实验,利用标签化的形式进行个性归纳和画像,从而有效地服务于个性化教学.何娟[34]利用用户借用的图书词频分析结合用户静态特征属性,分别进行单个、群组的用户画像的构建,实现图书的个性化推荐.黄文彬等人[35]采用频繁模式挖掘、构建概率矩阵、计算熵等方法,从用户日志中所包含的地理位置信息中构建移动用户行为画像,分析移动用户群体行为及用户间交互行为.杨捷[36]提出一种结合主题模型和用户属性的用户画像建模方法,并与因子分解机模型相结合,有效地解决了数据稀疏问题.费鹏[37]提出基于多粒度神经网络结合多种机器学习模型对文本特征进行特征萃取的多视角融合框架来构建用户画像.

在资源推荐方面,典型的推荐策略包括:基于内容的推荐、协同过滤推荐、基于社交网络的推荐、基于关联规则的推荐、混合推荐等.

基于内容的推荐方法是应用于资源推荐领域最主要的推荐策略,最早应用于信息获取领域[38],主要思想是根据用户的交互项目,选择与用户交互项目相似的项目作为推荐结果.梁婷婷等人[39]提出基于内容过滤PageRank语义相似替换的Top-k学习资源推荐方法.该方法首先基于内容的向量空间滤波建立学习资源过滤推荐模型,然后通过计算资源间匹配方式以取代语义相似性,从而避免多义词或同义词的漏检问题.

协同过滤推荐技术在个性化推荐领域是最成功的策略,适用于存在大量用户行为数据或者具有大量资源信息时的学习资源推荐.骆金维等人[40]结合课程教学资源数据间的相关性及学习者行为数据给学习者进行教学资源推荐,提高课程教学资源共享效应.

随着在线教育的发展,基于社交网络的推荐快速发展,Wan等人[41]在充分挖掘学习社群成员之间社会关系的基础上,开发了QSIA(questions sharing and interactive assignments)系统用于提升推荐效果和协作水平.贺超波等人[42]设计了一种基于兴趣社区的学习资源推荐模式,首先通过构建基于社交网络的在线学习服务为学习用户提供交流协作以及学习资源评价环境,然后利用兴趣社区挖掘技术发现兴趣高度相似的用户群体,最后基于相似用户群体对目标用户进行学习资源推荐.

为实现精准的学习资源推荐,需要整体考虑数据之间的关联关系,对学习者、资源等进行多维关联分析,由此产生基于关联规则的推荐.丁继红等人[43]引入张量理论构建“学习者-资源”融合张量,利用高阶奇异值分解算法挖掘学习者和资源的关联关系,实现学习者和资源之间的精准匹配.多维关联分析方法有利于大数据环境中对个性化学习资源的推荐,提高在线教育和个性化学习的质量.

以上推荐策略都有各自的优缺点,而在实际应用中可以针对具体问题采用推荐策略的组合进行推荐.通过组合不同的推荐策略,主要的混合方式可以分成2种:1)对推荐结果进行组合[44];2)对推荐算法进行组合[45-46].混合推荐模型是对多维度特征推荐的一种有效方法,依赖于大数据的支持[47].

2.3 智能答疑

智能答疑系统是将机器视为一个认知主体的人机交互系统,是人工智能领域的一个重要分支.随着计算机硬件技术和移动互联网的迅猛发展,能够有效处理非精确信息交互的、符合人类自然交互习惯的认知型智能答疑系统受到了越来越多的关注,并在网络自动答疑、在线学习平台、智能教师(intelligent tutor)、个性化学习助手等方面得到了广泛应用.目前,国内外智能问答系统的研究主要涉及问题理解、对话管理、对话生成和对话评测4部分.

1) 问题理解.目前自然语言处理领域主流的对话理解研究多是对问句进行关键词提取和扩充、语法分析、句法分析等,一般包括问题分类(如what,when,who,where,why,how)[48-50]、关键词提取和关键词扩展.通过确定问题的类型,制定关键词和答案抽取的规则,提取出关键词后,依据问题类型等因素对关键词进行适当的扩展,然后将关键词提交到信息检索模块来查找相关文档[51].基于语法、句法分析的问题理解的方法也是一种重要的问题理解方式,这类方法主要是以语义角色标注为代表的基于语义表示模型的分析方法[52-53].国内研究人员根据中文语言的独有特点也提出了很多中文语义表示模型[54],例如汉语问句语义组块[55]、融合事件信息的复杂问句分析方法[56]、基于句法分析树的查询语义图语义理解方法[57]以及基于主题和焦点的问句分析方法[58-60].此外,随着深度学习的发展,基于词向量的语义理解也逐渐得到关注[61-63].

2) 对话管理.对话管理通常包括问答知识库构建、对话策略管理、搜索引擎3个核心功能.建立问答知识库并从中构建高质量的问答模型是对话管理的核心问题,同时还是人机对话顺利进行的必要保证.对知识库进行建模就是利用已有的大量问题答案对、自由文本等语料构建问题答案之间的匹配模型.目前解决问答匹配的方式主要是问题建模、对答知识建模和答案建模,另一种技术路线则采用了Encoder-Decoder框架,通过构建端到端(end-to-end)的深度学习模型[64-65],从海量对话数据中自动学习提问和回答之间的语义关联,达到对于任何用户提问都能够自动生成回复的目的.在对话管理策略功能方面,目前应用的模型主要包括有限状态机、填槽法、Markov决策过程(Markov decision process, MDP)、部分可观察Markov决策过程(partially observable Markov decision processes,POMDP)、基于实例的、基于规划的、贝叶斯网络等近10种方法.而搜索引擎技术是问答系统的重要支撑之一,智能答疑系统中的搜索引擎就是根据从用户已输入的自然语言中提取有用信息,使用不同的搜索技术,在已有的数据库、文本库、模型库或是网络中搜索与用户问题最为相关的信息,并交给对话生成模块以构成对用户问题的回答.

3) 对话生成.在使用智能答疑系统进行人机交互时,生成语句通顺流畅的类人(human-like)对话是交互能不断进行的前提.自然语言生成是根据对话管理部分产生的非语言信息,自动生成面向用户的自然语言反馈[66].近年来,在智能答疑系统上的对话生成主要涉及检索式和生成式[67-69]2类技术.检索式对话生成代表技术是在已有的对话语料库中通过排序学习技术和深度匹配技术找到适合当前输入的最佳回复.这种方法的局限是仅能以固定的语言模式进行回复,无法实现词语的多样性组合.生成式对话生成代表技术则是从已有的对话中学习语言的组合模式,通过类似机器翻译中常用的“编码-解码”过程去逐字逐词地生成一个回复,这种回复有可能是从未在语料库中出现的、自主“创造”的句子.

4) 对话评测.评测一个任务驱动的多轮对话系统,主要涉及评测自然语言理解、对话状态跟踪[70-71]和对话策略[72-75]3个部分.自然语言理解是一个典型的分类问题,可以通过准确率、召回率和F-score等指标进行评测.对话状态跟踪,作为辅助对话策略的一个中间环节,业界已总结出一系列的评测标准,详情请参考历届DSTC[76]公开评测.而对话策略的质量通常需要通过对话系统的整体效果来体现,其主要评测指标是任务完成率和平均对话轮数.

随着计算机科学、自然语言处理以及人工智能技术的进步,智能答疑系统也取得了巨大的发展和突破.但是,就目前智能答疑系统的应用和发展来看,当前的智能问答系统仍存在诸多问题,并且大都以“一问一答”的单轮简单对话形式呈现,多采用基于规则的和数据的信息检索方式实现,都比较短视,并没有考虑前后多轮对话之间的连贯性,缺乏有效的知识支撑,在专业领域自然语言理解也存在诸多困难,而交互式多轮对话管理机制缺乏多学科融合和新技术的推动.对此,可以从智能答疑问题的基本定义出发,深入探索所研究问题的背后机理,据此建立其数据与基本算法支撑,聚焦到解决问题的核心算法与数学理论,构建出以知识推理为支撑、深度学习语义驱动的多轮对话系统,以此解决目前智能答疑系统所面临的挑战和问题.

2.4 精细化评估

精细化评估指以学习者、教师、教学环境等要素为对象对教学过程进行精准、细粒度、全过程的评估,主要包括过程性评估和终结性评估2方面.以对学习者的评估为例,过程性评估关注学生学习过程中的学习方式,通过对学习方式持续的过程性评估,将学习方式由表层式或成就式引导到深层式的方向上来,从而形成“深层式学习方式—高层次学习结果—深层式学习方式”的良性互动[77].终结性评估关注学生学习的结果,对其最终学习效果作出结论和判断.

精细化评估一直是教育领域的研究热点,其应用场景既包括在线教育又包括近年来兴起的MOOC.例如国际计算机学会(ACM)规模化学习会议(Learning at Scale, 简称L@S)每年都设立专门的分组(Session)研讨评估技术的进展.

在在线教育场景方面,典型研究工作如:Admiraal等人[78]提出了一种基于语义Web技术的在线教育评估框架,基于学习者动态的学习过程评估学习者的知识水平.刘力红等人[79]提出一种基于矩阵的二级模糊综合评估模型,量化评估学习者的学习状况.Ozkan等人[80]提出一种面向在线教育的六角形评估模型,从内容质量、学习者观点等六个维度对在线学习环境进行多元回归分析.

在MOOC场景方面,典型研究工作如:Huisman等人[81]利用分层线性回归的思想把学习者的终结性评估分为自我评估和同伴评估,并探讨了学习者成绩与其同伴自身能力水平的关联性.Gamage等人[82]提出一种IPR(identified peer review)评价框架,通过设置激励条件和随机条件,识别出关联性高的学习者进行同伴评估,对比盲目同伴评审有更好的反馈结果.Alcarria等人[83]设计了一种强化的同伴评分算法,通过检测并剔除异常反馈来纠正同伴评价偏差,以此提高同伴评估的效果.

上述研究从学习者、教师、教学环境等不同角度进行评估,特别是在MOOC场景下关注同伴评估.但现有研究成果对构建智慧教育的精细化评估还缺乏可操作性.首先,教师与学习者在空间上是分离的,他们之间缺少情感交流和反馈,不利于为学生找到适合自己的教学方式[84],尽管目前个性化推荐系统丰富多样,但并未以精细化评估学习者的兴趣为基础.其次,在线上授课系统中,学习者的积极性无法保证,具体体现在学习过程中学习者之间难以形成学习共同体,学习动力不足[85].对此,综合考虑学习者、教师、教学环境3方面的因素,在考虑学习者隐私的情况下捕获并分析其学习环境[86-88],建立学习者与教师间的反馈机制与情感沟通,进而实现精细化评估,是评估技术的一个重要发展方向.

2.5 小 结

对在线学习中的导学、推荐、答疑、评价4个教学环节涉及的关键技术进行总结,如表1所示:

Table 1 Representative Methods and Their Characteristics in the Four Processes of Teaching表1 教学4个环节的代表性方法与特征

Continued (Table 1)

3 主流的智慧教育平台及应用

近年来,随着移动互联网、物联网、大数据、云计算等技术的发展,更得益于人工智能的浪潮,新兴的教育平台不断地朝着更加智慧的方向发展.智慧教育平台相对于传统的教育平台,实现了人工智能技术与教育核心业务的深度融合,体现出智能化个性化学习服务、教育资源智能化组织管理、人机协同智能交互、教学过程与效果智能评测、智能化沉浸式学习环境等诸多鲜明特征.

基于学习者行为的智能分析,提供个性化的学习服务,是智慧教育平台的基本特征,可显著提升平台用户的学习效率.国际上三大MOOC平台Coursera[89],edX[90]和Udacity[91],及国内的主流MOOC平台,如MOOC中国[92]、学堂在线[93]等,都已经具备不同方式的个性化学习功能,包括通过收集数据分析学生的学习进度和理解情况,提供与个人学习水平相当的作业、测试及分组任务.此外,主流的学习管理系统(LMS)、课程管理系统(CMS)等,也均提供个性化的学习管理服务.例如,世界上最知名的开源学习管理系统Moodle平台[94]已支持个性化的学习环境.而著名的商用系统Blackboard[95]也能够提供个性化、基于能力的掌握式学习(mastery study).此外,在混合式教学领域,Edgenuity[96],Fuel Education[97]等均为面向K12混合学习的个性化智慧教育平台,使学生个性化地合理安排学习时间与内容,显著提升混合式学习的教学效果.

在教育资源的智能化组织管理领域,为了实现教育资源的有效组织,为个性化导航式学习及智能人机交互提供技术支持,知识图谱技术已逐步地被采用.Yotta系统[98]侧重于实现海量教育资源的有效组织与管理,基于碎片化资源聚合的“知识森林”,为学习者提供方便的学习导航服务.网易云课堂[99]在其最新版本中,实现了基于“学习图谱”关联碎片化知识的功能.好未来K12智慧教育产品[100]构建了跨年级的知识网络,用于个性化学习推荐以及评测.乂学教育的松鼠AI智适应学习系统[101]同样构建了以细粒度知识点为单位的知识图谱,以助力自适应学习.在国外,MIT公开课[102]、Khan Academy[103]均构建了相应的知识图谱.其中,MIT公开课进一步将面向本科教育的课程图谱可视化.

在人机协同的智能交互领域,随着自然语言处理等相关技术的发展,AI虚拟教学助手逐步得到应用,为学习者提供互动的教学辅助手段,以提高课程的关注度与完成率.2016年美国佐治亚理工学院Ashok Goel教授使用的智能虚拟助教Jill Waston,实现97%的回答准确率,该虚拟助教基于IBM Watson Assistant[104]平台技术实现,大幅度减轻教师教学压力,同时帮助学习者进行在线智能答疑,提高学习效率.在国内,学堂在线也发布了个性化的学习伴侣“小木”,在减轻教师教学负担的同时,帮助学习者提高学习的积极性.

在教学过程与效果的智能评测领域,一方面,众多智慧教育平台及应用具备了面向教学过程的自动化评测,包括智能题库、阅卷、作业批改等,以减轻教师的教学压力,并及时反馈评测学生的学习状态.例如,科大讯飞的智慧教育系列产品[105]实现了面向英语教学的智能评分,能够完成智能化的英文写作批改与英语口语评测.Khan Academy开发的练习记录系统,对学生的学习状况进行评估测试,与同阶段学生比较后进行教学班级的重编.另一方面,基于教育大数据的深度分析,众多智慧教育平台及应用同时也为教育管理者提供教学效果的精准分析.例如,Blackboard提供抄袭检测、电子档案袋、自动评分和重新分级、交互式评价和风险跟踪等功能.好未来的智慧教育产品面向教育管理者,可预测学生的学习意愿,为培训机构的管理运行提供参考.

在智能化沉浸式学习环境的构建领域,Agilix平台[106]在混合与虚拟现实的沉浸式学习环境中,提供个性化服务.Web Courseworks[107]通过AR,VR等技术,基于3D视频实现人机协同的智能交互.SkyClass[108]在提供基于Web的实时多媒体交互课堂的基础上,引入了人脸检测与增强现实的功能,既可以用于确认学生身份,也可以通过AR提升学习者的兴趣与沉浸感.在国外,谷歌的VR,AR教育产品Google Expeditions[109]允许教师引导学生浏览360度场景和3D对象,并智能显示学生的兴趣点.

Table 2 Comparative Analysis of Mainstream Intelligence Education Platforms and Applications表2 主流智慧教育平台及应用对比分析

人工智能与互联网教育的结合使得智慧教育平台高速发展,主流智慧教育平台及应用对比分析如表2所示.然而,现有的智慧教育平台依然存在诸多不足之处,如老师与学生、学生与学生之间的时空隔离,在线智能学习助手与虚拟导师还无法通过图灵测试,网络化群体学习环境下的协同认知机理有待挖掘与利用等.

4 智慧教育的研究展望

4.1 研究方向1:在线智能学习助手

近年来,在线智能学习已经从计算机辅助教学、智能教学系统、智能教室逐渐演化为以学习者为中心,强调普适化、个性化的学习技术.随着人工智能技术的发展,如何在学习过程中通过学生与在线学习系统的交互,实现个性化的教学和辅导受到研究者们越来越多的关注.

在利用智能学习助手进行学习的过程中,个体具有能力、背景、学习方式、学习目标等各种差异性,即使是个体本身,在学习过程中,知识状态也在不断的变化,所以针对每个个体实现个性化的自适应在线智能学习系统是必然发展趋势.未来的教育必须是个性化的,学生必将从与在线智能学习的交互中受益,但是在线智能学习中的人机交互(human-computer interaction, HCI)不仅仅是简单的界面交互,而是在学习的过程中学生与机器之间知识的连续传授与更新[110].目前最新的认知计算技术(cognitive computing, CC)在在线智能学习领域的应用方面具有良好的前景,借助于其教育数据挖掘(educational data mining, EDM)、学习分析(learning analysis, LA)等相关的技术,可以通过分析学习者的学习活动中产生的数据,为学生、教师和管理者提供实现其各自目标的参考,并动态追踪学习者的学习活动,提供个性化的学习体验,此类技术有望实现传统以内容为主的在线学习到以人为主的个性化学习的转变.此外,在在线智能学习的过程中,如何评估学生的接受程度、学习状态的变化以及如何更新知识,是个性化自适应在线智能学习实现智能化需要解决的重要问题.随着深度学习和大规模人工神经网络的蓬勃发展,人工智能时代的到来使教育具有可追踪性和可预见性,通过进行学生知识建模,如贝叶斯网络的学生知识点追踪模型(Bayesian knowledge tracing, BKT)[111]、基于神经网络的学生知识点追踪模型(deep knowledge tracing, DKT)[112]、效果因素分析模型(performance factors analysis model, PFA)[113]等.通过相关的模型分析,可以对学生知识点的变化进行追踪,实时了解学生知识点的掌握情况,并根据学生的实践和知识生成相关的问题来评估每个学生的熟练程度,依照每个学生的知识结构、智力与熟练程度来设计个性化的教程.

目前,研究者们在已有研究中对在线智能学习系统的知识建模方法、认知计算技术和生物传感技术的应用方面已经做了较为深入的探讨,但是以人机互适应学习、自主探索学习等核心技术为基础,以人类智能与机器智能协同互适应学习为目标,个性化、高效的新型在线智能学习系统的构建方式仍需继续探索.

4.2 研究方向2:学习者智能评估

当前,对于学习者的智能评估,传统且普遍的方法是通过间接测量比如试卷检测、问卷调查等来判定学习者的能力、智力发展水平[114-115],但这种方式模糊且不精确.利用无线传感、人机交互、虚拟现实等技术,可实现实时监测学习者学习状态,全方位多维度采集学习者第一、二课堂及生活数据,以机器学习算法为支撑进行全面且高效的学习者能力评估.然而其中还面临一系列的挑战:1)数据的来源广、维度高、规模大[116],使得评估指标难提取;技术发展的不成熟使得数据采集存储存在隐私泄露隐患[117].2)思维与能力具有复杂映射关系,且其各自本身具有不同层次,设计有效的测试方案是一大难题,同时,结果的评价存在不可证实性.

围绕上述难题,需要开展的研究工作包括:1)采用数据降维去噪、多模态融合解决数据的规模大、维度高等问题,同时采用互联网+云计算、访问控制等方式进行隐私保护;2)针对不同背景的学习者,采用定量和定性结合、个体与整体结合的方式进行测试,从能力与思维的不同侧面全面综合进行评价方案的设计.

4.3 研究方向3:网络化群体认知模型

人类个体存在有限认知带宽问题,表现为获取、处理、理解信息的能力受生理特点限制,例如:大脑同时处理最多4个概念,理解文本的速度低于60 bps,短期记忆(short-term memory, STM)仅能存储7±2个信息块.

网络化群体智能(networked collective intelli-gence, NCI)是指网络环境下个体通过以竞争和合作等协同方式在完成特定任务过程中涌现出来的超越个体的智能.利用NCI能够实现网络化群体认知,是突破个体认知局限的重要途径.其难点在于:如何对NCI进行建模与评测、如何发现影响NCI的关键因素.

需要开展的研究工作包括4个方面:1)面向群体认知的NCI协同学习模型(synergetics model);2)群体认知行为对NCI的影响机理与关键因素;3)网络化群体智能的涌现特性分析;4)基于NCI的知识聚合机理.

4.4 研究方向4:教育大数据的因果关系发现

当前对于教育大数据的分析,主要侧重于相关性分析,对于因果关系分析的研究还非常薄弱,而后者是构建智能化的导学、推荐、评价机制的重要依据.然而,教育大数据的因果关系还面临一系列技术难题:

1) 教育大数据包含了学习者、内容、效果、行为等多个维度的变量.挖掘高维变量间的因果关系通常存在较高的复杂度.例如因果图构建的复杂度与变量个数呈指数函数关系[118].

2) 从高维的教育数据中识别出混淆因子(con-founder variables)和偏倚(selection bias)等隐变量也是一个难题.隐变量是指未能观察或无法度量的变量[119],通常是事件的隐性致因,对于简化因果关系、提升其可解释性具有重要作用.

围绕上述难题,需要开展的研究工作主要包括2个方面:1)针对教育数据的海量、高维和稀疏等特性,研究高效的因果图生成方法,解决图学习与方向学习中时空开销大的问题;2)研究教育数据的隐变量识别问题,并基于认知科学分析因变量的可解释性.

5 结 论

当前,教育信息化经历了以解决教育资源及场景时空受限问题的计算机辅助教学、网络教育、MOOC等阶段,逐步过渡到大数据、人工智能驱动的智慧教育阶段.由于具有智能导学、精准推荐、定制辅导、精细评价等特点,智慧教育成为国际上教育信息化发展的趋势,也成为一个热点研究方向.本文在对国内外智慧教育研究与应用调研分析的基础上,从教育大数据分析挖掘、主要教学环节的关键技术以及国内外智慧教育平台3个层次对国内外相关研究进行对比分析,总结了其特点与存在的问题.本文进一步分析了当前智慧教育研究的局限性,总结了在线智能学习助手、学习者智能评估、网络化群体认知以及教育大数据的因果关系发现4项研究问题,指出了智慧教育未来的研究趋势.

猜你喜欢
图谱学习者个性化
基于图对比注意力网络的知识图谱补全
一种融合PageRank和PersonalRank的多层个性化推荐算法
绘一张成长图谱
你是哪种类型的学习者
坚持个性化的写作
十二星座是什么类型的学习者
青年干部要当好新思想的学习者、宣讲者、践行者
图表
上汽大通:C2B个性化定制未来
主动对接你思维的知识图谱