计算教育学:研究动态与应用场景

2020-07-28 07:19:02王晶莹张永和宋倩茹马勇军
开放教育研究 2020年4期
关键词:教育学数据挖掘研究

王晶莹 张永和 宋倩茹 马勇军

(1.青岛大学 师范学院,山东青岛 266071;2.深圳大学 教育学院,广东深圳 518061)

一、计算时代已来

计算教育学不是个独创的教育学理论流派,也不是某种特定的研究方法。从当代大数据驱动的发展路径看,计算教育学是教育学领域借助计算机、互联网和人工智能等新兴科技手段,利用数据挖掘、机器学习等技术获取与分析数据,基于跨学科视域研究,解释教育现象与教育行为的一种融和式研究范式或思维方式。目的在于融合与超越教育学传统预设-验证的经验范式,发现计算科学哲学资深学者拉斐尔·阿尔瓦拉多(Rafael Alvarado)和保罗·汉弗莱斯(Paul Humphreys)积极推动的第四类知识(未知的已知),即对人类未知而机器已知的机器认识论,基于计算教育学信息加工范式实现对教育现象与教学规律的真实认知与科学解释。2009年哈佛大学大卫·拉泽(David Lazer)等人在《科学》杂志发文提出“计算社会科学”(Computational Social Science)概念,并列举一系列包括教育学在内的计算社会科学的重要领域,历经十年的研究探索与领域发展,计算教育学不断趋向成熟。

当代社会线上线下的教学每天都产生海量教育数据,包括教与学及其交互数据与环境数据等,这些大数据资源给教育研究带来新的挑战,促使研究者躬身技术实践挖掘其背后的深层规律,推进教育研究肩负人工智能时代的崭新“学术使命”与“实践责任”。同时,教育大数据应用过程中也存在诸多困境,诸如技术层面的数据收集、储存、挖掘和处理,以及价值层面如何实现挖掘之数据信息反哺于教育理论与实践创新。正是为了解决这一系列难题,计算教育学应运而生。依托数据挖掘、机器学习以及人工智能等计算机技术与数据科学的发展,信息加工范式在教育领域跨界渗透,从本质属性、研究对象和研究领域等方面共同建构起计算教育学的发展内涵和概念框架。

从本质属性看,科技发展为计算教育学奠定了必备的技术条件和数据基础,以计算机技术和数据科学为核心发展而来的互联网科技、人工智能和大数据等新兴领域极大地丰富了教育研究方法。计算与教育不是并行的,计算是一种路径,是通向教育目标的方式与手段。教育是计算的目的与归宿,不能用计算替代教育。计算目标也不等于教育目标,教育是计算的根基(李政涛等,2019)。从研究对象看,计算教育学自立门户,随着大数据广泛应用于教育研究而成为必然(王晶莹等,2020)。在线学习数据是教育大数据的主要组成部分,计算教育学发端于慕课研究(孙洪涛等,2016),学习者在慕课平台依靠计算机交互技术,产生大量呈现结构化、半结构化和非结构化形态的教育大数据,包括记录学习过程的行为数据、记录学习结果的评价数据,以及学习形成的社会网络关系数据等(Murray et al., 2008)。随着在线课程和学习者数量的激增,教育数据井喷式增长,形成海量的教育大数据库,促发了基于教育大数据的研究领域和计算教育学的成熟。

2019年11月,陈玉琨在华东师范大学主办的第三届数据驱动的计算教育学研讨会提出,计算教育学是以大数据为基础,以算力与算法为支撑,揭示教育教学规律,乃教育学的升级版,认为计算教育学的突破体现在三个方面:以教材和教法为突破实现革命性的教育变革,并取得社会各界的认同;以数据与文本分析为基础的发展教育政策学,及时预测人民群众与国家政府对教育的期望;基于当代学生情绪的教育计算分析,重新定义教育心理学。目前,计算社会科学领域涉及的研究方法主要有自动信息提取系统、社交网络分析、社会地理信息系统、复杂性建模和社会仿真模型等。计算社会科学家正在利用先进的、日益强大的计算技术和数据科学工具了解跨学科和超越传统学科研究范畴的新问题与新规律。乔治梅森大学社会复杂性中心创始人和现任主任、计算社会科学系创始人和前任主任克劳迪奥·乔菲-雷维利亚(Claudio Cioffi-Revilla)2014年出版的《计算社会科学:原则与应用》(Introduction to Computational Social Science: Principles and Applications)认为,计算社会科学领域缺乏不同领域理论的统一框架。计算社会科学将信息处理视为关键要求,用作理解和揭示社会以及社会中的个体是如何运作或行动,从而产生复杂系统的;信息加工范式将计算作为建模和理解社会复杂性的重要工具性手段,提出计算社会科学是一门以传统社会科学、计算科学、环境科学和工程科学的新型交叉学科(梁君英, 2019)。由此可知,教育大数据是计算教育学直接却不唯一的研究对象,通过对教育数据的算法挖掘分析深层次的教与学互动作用机制,充分将机器认识论融入传统教育研究来构建高等与精准的循证教育理论与决策,是计算教育学的精髓。

二、全球研究动态

计算教育学的研究正从萌芽阶段不断快速发展,成果日益涌现。为透视计算教育学的全球研究动态,本研究通过Web of Science检索平台,在核心合集中选取“大数据+教育” “数据挖掘+教育” “机器学习+教育”为主题词,类别限定为教育研究、心理研究、家庭研究等领域进行检索,检索时间为2019年12月9日,检索文献经筛选后最终纳入分析的样本数为2139篇。本部分将题录信息的纯文本格式作为社会网络分析的源数据,揭示和解构计算教育学的全球研究脉络与研究主题。

(一)社会网络分析揭示研究脉络

凝聚子群是社会网络分析的核心部分,主要研究节点间的内在联系。几个节点有很强的联系甚至结成群体,称为凝聚子群。隶属于同一子群的关键词组成一个研究主题。因此,本研究采用UCINET进行凝聚子群分析,揭示计算教育学的研究主题。方法是将矩阵导入UCINET,利用CONCOR法进行凝聚子群分析并构建研究图景(见图1),数字代表关键词的频次排名。计算教育学研究可分为四大主题:第一个主题为基于数据挖掘、机器学习、人工智能、云计算等技术手段进行课程设计、学习行为、科学教育、创新教育、社会媒体等微观层面的教与学研究,教育大数据挖掘为其主流方向;第二个主题为在线的工程教育、学习分析、合作学习等认知与行为模拟,针对线上/线下与混合学习进行深度研究,包括网络合作学习及虚拟仿真环境,以提高学习者的学习成效;第三个主题为学生动机与情感参与研究,通过大数据技术和机器学习方法,探究课堂参与、课堂行为以及学习动机与学业成就的内在机制;第四个主题为师生人格和性别分析研究,多是通过五因素模型开展基于大量数据的人格分析,动态全面地了解教师和学生的人格特征,尽可能为师生心理健康与学习过程提供保障,体现了计算教育学的情感关怀。

图1 基于 UCINET凝聚子群分析的计算教育学研究图景

(二)四类研究主题的深度解构

第一类主题为基于数据挖掘的教与学规律研究。大数据与网络的融合帮助教育工作者更精准地了解学习者的技能水平、学习习惯等学情信息,从而实现个性化教学并提高教学管理效率;同时技术的飞速发展产生了人工智能教师和教育机器人等具有深度学习、专家系统和自然语言理解的复杂系统。基于大数据的学习过程、学习行为、学习态度等多模态数据分析,可以准确地评估学习者的在线学习水平和行为特征,进而精准地汇报测评效果,提出改进方案。欧卡娜-冯南德(Ocaa-Fernández, 2020)利用人工智能管理与整合不同模式的人类互动信息和通信技术,为个性化学习提供精准服务,并结合学习者的反馈,科学地评价教育质量。霍奇斯(Hodges, 2019)设计机器学习平台用以解释神经网络模型及R代码的实现机理,证实了机器学习平台对创新人才培养的价值。

第二类主题可以概括为模拟在线学习过程。在线教育以其课程资源丰富,对学习者宽松的时空条件要求等特点,满足当下流行的碎片化学习需要,成为后疫情时代学习的重要途径。模拟法能够再现教与学实践过程中的相互作用,展现多主体活动的复杂环境场域,可以用于增强学习者个人与真实学习经验的连接与互动(Warburton, 2009);同时,利用仿真技术对真实生活经验的生动模仿,还可以为学习者提供丰富、具体场景的“做中学”的感性认识与直接体验(Bell et al., 2008),从而开发学习者相应技能并促进实践能力学习目标的达成。模拟法被较多地应用于教师教育、医学教育和工程教育等。沃伯格(Warburg, 2009)研发了“第二生命”,即3D虚拟世界,用户可以使用语音和文字进行社交、连接、创建和学习;安德森等(Anderson et al., 2013)开发了“Voki”,即屏幕上用来模拟指令的会说话的数字;刘晨钟等人(Liu et al., 2011)通过模拟复杂的学习情景来增强学生的学习效果,这些平台增强了学生在医学和科学教育等的模拟学习体验。可穿戴设备增加了对模拟运动和行动密集体验的捕捉,为教育大数据的收集提供了技术支持。亨德曼(Hyndman, 2017)对在线教育潜力和性能进行了深入研究,利用GoPro视频技术进行在线教师教育创新的可行性实践,实时记录在线实验结果,为教师教育规划提供了循证依据。胡安(Huun, 2018)基于证据的模拟实体(电子模拟、视频模拟和远程存在模拟)提供异步和同步选项,便于学习者和教师使用,并为护理专业学生的学习提供模拟课程。塞姆(Siam, 2019)开发了一种新的教学方法来教授电动过滤器课程,新方法的设计将查询、计算机仿真、协作与群际竞争相结合,研究表明该方法可以提高电气工程专业学生的学习效果。

第三类主题为学生动机与情感参与研究,通过计算机技术和数据科学聚焦学生课堂参与过程中学习动机和情感的识别、监测与评估,并进一步分析其与学习行为、认知过程和学业成就之间的关系及其内在作用机制。研究者通过开发增强现实的多维概念地图学习系统进行移动学习。实验结果表明,学生的情感参与度与学习结果呈正相关(Chen et al., 2017)。另一项研究使用基于领域知识的贝叶斯网络预测情绪,研究的学习数据包括亮度、色温、声音、音量、气味、温度、湿度和情绪,网络结构是用两条染色体编码表示节点和弧;为探索最优结构,进化算法被用来传递集合中的信息,该研究还对未观察到的各种推理节点进行实验。结果表明该方法的准确率达85%,可以用领域知识代替网络设计来预测环境对学生情绪和情感参与的影响(Choi et al., 2017)。

第四类主题为师生人格和性别分析研究。机器学习和大数据研究带来社会各层面的变革,机器学习在心理科学领域的重要应用是开发预测人类行为和性格特征的评估工具。人格评估的机器学习方法一直专注于社交媒体和其他数字记录与既定人格测量之间的关联。诸多研究集中在对“五大”人格特征的可靠评估,即神经质、外向性、经验开放性、亲和性和尽责性,在大数据中识别这些特征的标记对于研究跨语言和文化的人格结构和发展具有重要潜力。该类研究侧重将机器学习置于测试和理论开发的结构验证框架并实现这一潜力,特别关注基于计算机之评估内容的有效性。例如,伯雷登(Bleidorn, 2018)将机器学习嵌入全面的结构验证框架来扩展可操作性评估的潜力。他回顾了近年机器学习在人格评估中的应用,将机器学习研究置于构建和验证基本原理的广泛背景下,对如何使用机器学习增进人格理解提供建议。同时,剑桥大学梅雷斯(Mairesse, 2007)基于数据驱动技术,通过从语料库中提取变异维度来控制语言风格,可以在不增加计算成本的情况下,以人类感知评价的数据驱动的文体变异方法,自动生成有意义的包括各种风格维度的人格可识别变量,进而开展数据驱动下的人格分析。

三、应用场景

场景是人类社会运作的微观单元。通过时空两个因素,人们对场景进行感知,而技术条件决定着人类场景感知的方式,一个个场景组成了我们的日常生活(夏蜀,2019)。与所有新兴研究主题出现所面临的特有场域一样,计算教育学也有其所适用的应用场景,表征了计算教育学的本质价值。因此,计算教育学及其相关技术的场景定位十分重要。

(一)技术与场景的共现策略

为全方位展示计算教育学的应用场景,笔者采用技术与场景共现的方式,进行可视化处理。将关键词提取并转化为简洁和层次结构清晰的JSON(Java Script Object Notation) 数据交换格式作为可视化分析的材料,将数据导入在线复杂网络分析平台进行分析,绘制关键词共现知识图谱,每个节点代表一个关键词,频次越多,节点越大。若两个关键词同时出现在一篇文章中,关键词之间会出现一条连线,代表关联性。连线上的数字代表其共现次数,即同时出现在同一研究中的次数。关联性较强的关键词组成同一研究主题。利用在线复杂网络分析平台进行关联性分析,进一步揭示研究主题,并利用在线平台内置的Louvain算法进行聚类,最终得到大规模网络社区图(见图2)。由此,计算教育学给我们展示了七个典型的应用场景,即教学环境设计、医学教育辅助、工程教育、师生人格品质研究、师生课堂互动与学生学习分析、个性化评价以及教育政策改革。每项技术对应其在教育领域的应用场景,如虚拟现实技术与互动学习环境有关,学生学习等微观层面涉及数据挖掘技术,政策、教学改革等宏观层面与教育大数据相关。机器学习与自然语言处理、分类算法等技术手段相关,这些可以看作是计算和教育相结合的基本现状和实现场域。

(二)计算教育学应用场景的多维分析

首先是教学环境设计与师生课堂互动和学习分析的两大学习环境视域中的场景。虚拟现实和模拟技术与教学环境设计应用场景紧密相关,打造交互学习环境成为主流趋势。交互式仿真技术通过创造沉浸式虚拟环境增强学生的课堂学习体验,为探讨虚拟现实技术丰富学生学习经验的有效性提供了便利。研究发现,虚拟现实可以通过为学生提供启发式、高度交互的虚拟环境提高学习体验。研究者建议,教师创设虚拟学习环境,如游戏环境,帮助学生在学习过程中形成积极的学习行为(Lau et al., 2015)。师生课堂互动和学习分析场景中,虽然目前学界对学习行为的研究取得了进展,但仍处于起步阶段,还有实际问题需要解决。例如,如何促进课堂的有效学习。在大数据背景下,基于智慧课堂的互动行为框架可以揭示师生互动的内在机制,实现学生的个性化或适应性学习,促进有效学习。基于知识模型领域的课堂教学行为数据,可以通过研究实时师生互动以及学生间的交互,揭示深层教学规律,为提高教学质量提供循证依据。

其次是医学教育辅助与工程教育场景。现代计算机应用程序能够模拟现实情境,丰富教育环境。在过去十年中,许多计算机辅助学习程序已经被开发出来,并在实践中应用,比如,cyberActive科技有限公司开发的计算机软件cyberPatientTM能够实现医学生和教育工作者的长期梦想——用计算机程序模拟真实的医患关系(Qayumi, 2009)。佩尔森等人(Persson et al., 2014)基于计算机的危重症医学技术创造情境式的学习体验以实现学习仿真。工程教育是社会工业和技术发展的基本支柱,它也具有自身特点。例如,工程专业学生的学习方式具有独特性,他们的视觉素养、主动性、归纳推理和工程感知等有特定取向。因此,运用学习分析和教育数据挖掘分析工程专业学习者学习环境和背景的风格十分必要,学习分析的目标是对存在于教育存储库中的数据进行分析,如学习管理系统,以理解和优化学习及其发生的环境,其分析结果可以为教师和管理人员决策提供支持。

最后是师生人格品质、个性化评价与循证改革场景。在数字时代,人们不断地产生认知、行为与心理足迹,这些足迹聚集成大数据,为研究者提供机会来跟踪、分析和预测人类的行为。这类研究的指导性假设是心理特征影响个人使用数字服务和在线环境认知与行为的特定方式。因此,个人使用数字服务的倾向和在线环境的认知行为等数据应该可以反过来用于预测用户的心理特征。例如,对师生人格品质的研究可以了解师生的心理因素对教育的影响。在个性化评价场景,大数据将在学生评估中发挥持久和重要的作用。由于数据结果几近实时发布,以及数据来源的广泛性,使用大数据可以精准作出价值判断和数据分析,使得决策者和评估人员作出更明智的政策。在教育政策改革场景中,基于物联网实时和全方位的信息采集技术,人们可以拥有教育系统的整体数据流。因此,学校、班级、教师和学生等诸多教育教学问题可以综合开展全链条式研究,比如,可以测量学生的缺勤频率,通过形成数据源预测潜在的因果因素,分析学生缺勤的原因,及时改善教育环境和相应政策。再比如,通过分析学生的入学数据,可以基于入学趋势预测学生的兴趣模式,从而分析引入新学科可能导致的结果,预测学生何时可以转移学分,确定学生的留校率,并试图评估学生辍学的潜在原因,及时制定相应的循证决策建议。

四、范式挑战

计算教育学作为一种新兴的大数据驱动的信息加工范式,融合了计算机科学、教育学、数据科学等多学科。大数据驱动下的计算教育学是大数据时代的产物,算法是其本质,数据、算法和算力作为计算机科学的三大核心支撑,均成为推动计算教育学发展的关键要素。在当代国际教育研究领域,作为数据密集型研究范式的计算教育学研究动态及其应用场景揭示了教育学计算范式的变革路径,并引发了对计算教育学范式挑战的深度思考。

(一)数据挖掘技术解构研究进程

为进一步揭示计算教育学纵向研究趋势,采用TFIDF数据挖掘方法深度解构计算教育学的全球发展动态。TFIDF是经典的词语权重算法,主要思想是假设某个词语在指定文本中出现的频率很大,并且在文本集的其他文本中很少出现,即认为这个词语是指定文本的关键词,可以用作分类或标签使用。利用TFIDF 过滤文本的常见词语,保留对研究分析有重要意义的词语,在很大程度上缩小文本词空间,更有效地对文本进行主要特征分析。TFIDF 被广泛应用于搜索引擎、文献分类及其他领域,是一种基础的信息检索模型。在 TFIDF 模型中,词频(Term Frequency, TF)指的是某一给定的词语在该文本中出现的频率。逆向文件频率(Inverse Document Frequency, IDF)用来度量词语的普遍重要性,计算文档集中包含某指定词语的文档数量,数量越小代表这个词语越能代表指定的文本。

将研究文本以一年为单位进行关键词TF-IDF值计算,基于共现频次、TF-IDF值以及与主题的关联度三个指标选取最能代表计算教育学研究主题的十个关键词,根据年度TF-IDF值的变化绘制折线图,横轴代表年份,纵轴代表TF-IDF值的大小(见图3)。2008年前的研究处于沉寂状态,是全球计算教育学诞生的孕育阶段,1994年教育为主要研究主题,2001年合作学习的TF-IDF值最高。2008-2014年之间,教育的重要性增加,尤其是高等教育成为计算教育学发端的重要场域。大数据的重要性逐年增加,与此同时,学习分析的变化如影随形。教育大数据挖掘逐渐成为计算教育学的重要研究主题,这一阶段可以视为计算教育学的萌芽阶段。2014年,计算教育学在我国被正式提出(李政涛等,2019),大数据作为首要技术支持,其重要性逐年增加且变化明显,同时,人工智能、教育数据挖掘和机器学习等技术逐渐丰富,计算教育学的研究整体上呈现技术支撑背景下的多元化发展图景。

图3 关键词TF-IDF值年度变化特征

(二)循证路径审思计算教育学变革

计算社会科学通过学科交叉帮助人们更好地认识复杂社会现象背后的规律和作用机理,同时打破了自然科学与社会科学的长期隔离(张小劲等,2017),既向传统学科分野及其研究范式提出挑战,又为新学科产生、发展及其方法论突破准备了条件(Alvarado et al., 2017)。计算教育学的出现是计算社会科学发展的必经之路,计算教育学在带来机遇的同时,由于自身学科融合的特点,必然面临以下挑战:首先,研究技术和跨学科素养的瓶颈。技术挑战是计算教育学面临的首要难题,计算教育学需要机器学习、数据挖掘和人工智能等诸多领域的专业人才,但是由于教育行业的大数据开发与分析起步较晚,能够处理教育大数据的专业人士较稀缺,而能对数据挖掘和机器学习结果的跨学科解构,并能深度揭示教育规律和机制的综合型人才更是凤毛麟角。跨学科人才的缺乏将成为计算教育学发展过程中的重大制约,这将影响教育大数据技术和理论的成熟,无论是在硬件涉及的量化数据采集、存储技术,还是数据的流通性、精确性以及调用的便捷性等方面都面临诸多困难,而来自量化数据分析和教育理论的协同共进将成为发展的最大瓶颈。其次,数据安全与伦理的危机。计算教育学通过对学习数据分析与挖掘研究教育现象和解决教育问题,但学习数据涉及个人隐私,不能随意对外公布。因此在如何保护学生个人隐私的同时, 对学习数据进行有效挖掘和分析,兼顾数据调用的便捷性与安全性成为两难问题(刘梦君等,2019)。最后,数据价值与循证教育的突围。目前教育大数据的主要来源是慕课等在线教育平台,以其在线运作产生的教与学数据为主,但是这种数据并非天然地适合于数据挖掘和机器学习。面对海量的在线教育大数据,目标数据的选择需要兼顾完整性和效率性,即在保证整个研究过程效率的基础上如何选择最有价值的数据依然面临困境。另一方面,由于教育大数据的非结构性和孤立化特征,如何基于教育的真问题和关键情境采取精准的数据挖掘也十分必要,更进一步的基于教育大数据及其学习过程的教育规律和机制挖掘,以及据此而进行的循证决策研究也是当代计算教育学面临的重大挑战。

综上所述,通过全球研究动态和应用场景分析,笔者认为计算教育学是技术创新并应用于教育领域的范式革新,它将优化小样本的量化研究,作用机制不透明,教育政策改革滞后等问题,拓宽传统教育研究的视域,提供基于高等级证据的教育研究成果。计算教育学的范式挑战告诉我们,机器认识论不同于传统教育研究的经验认识论。第四类知识的发现过程中,如何解构教育的复杂性问题与背后的深层机制,如何探究数据挖掘、模拟仿真、计算与机器学习等共进而生成教与学规律,成为重构教育理论体系的核心动力。我们清醒地看到,计算教育学并没有脱离现有的教育研究框架,而是以新的技术和数据密集型研究范式,利用新途径获取的教育大数据,在解决传统与新生教育问题上寻找突破口,这并不会改变教育研究领域现有的运行方式。“计算+教育”在很大程度上丰富了教育研究的算法与算力。我们有理由相信,计算教育学将会带来教育研究的跨学科甚至超学科变革,推动生成教育研究的新生态与跨边界理论。

猜你喜欢
教育学数据挖掘研究
究教育学之理,解教育学之惑
——《教育学原理研究》评介
实践—反思教育学文丛
中国德育(2022年10期)2022-06-20 09:09:52
FMS与YBT相关性的实证研究
辽代千人邑研究述论
探讨人工智能与数据挖掘发展趋势
视错觉在平面设计中的应用与研究
科技传播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系统研究
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
教育学是什么科学
一种基于Hadoop的大数据挖掘云服务及应用