郑娅峰,赵亚宁,白 雪,傅 骞
1.河南财经政法大学 计算机与信息工程学院,郑州450016
2.大连海事大学 航运经济与管理学院,辽宁 大连116026
3.河南财经政法大学 数学与信息科学学院,郑州450016
4.北京师范大学 教育学部 教育技术学院,北京100875
智慧教育作为我国教育改革与发展的重要组成部分,探索以大数据分析、物联网感知、人工智能算法等为代表的智能技术与教育研究的深度融合[1]。智慧学习环境下,基于人工智能、物联网、云计算、VR虚拟现实等先进技术支持下的智能学习支持服务不断丰富,使得学习者学习过程中的学习轨迹极易被系统全面捕获并记录,教育数据进入了大数据时代[2]。智慧教育环境中生成的数据通常是庞大、复杂和异构的,这些数据不仅包含学习管理系统中的课程参与、作业完成、阅读材料、讨论文本等异构数据,还包含学生在线学习产生的大量的点击流数据以及智慧环境下的视频、音频、生物电信号等多模态数据信息[3]。尽管这些数据蕴含了大量关于学生自身及其与环境交互的丰富信息,但对于没有掌握数据挖掘和分析处理技术的教师、学生和学校管理者来说,通常难以处理和解释这些数据[4-5]。
教育大数据可视化利用人类视觉认知高通量的特点,以可视化图形的形式呈现隐含于教育教学数据中的认知规律及行为模式,帮助用户从大量数据中推断有意义的信息,挖掘教育教学中隐藏的认知规律,理解复杂教育现象[6]。近年来,可视化方法成为教育教学的活动实施[7]、规律挖掘[8]、教学设计[9]、反馈干预[10]及教学评价[11]等活动的重要支持手段。大量的产生于教学活动、管理活动、科研活动、校园活动中的学生学习行为数据、课堂交互数据、课程管理数据、学生发展数据、区域管理数据等都可以用来作为教育数据可视化呈现的数据来源。
教育数据可视化主要面向学习者、教师、管理人员使用,以提高学生的学习成绩、改进教学活动、提升管理效率和挖掘教育规律为直接目的。对学生而言,可视化数据使得学生能够深入学习路径、回溯他们的学习过程,进行反思并理解它,促进自我调节的学习以及帮助他们评估和调整学习策略来增强学习目标的达成[12]。对教师而言,可视化数据帮助教师实时感知学习者正在做什么、如何做以及准确发现他们的行为模式,从而使实时的教学监督和及时反馈成为可能[13]。对于教学管理者而言,可视化数据帮助他们获得大规模学习规律,发现可能无法完成课程的学生,评估设计的项目是否达到目标,促进教育规律的认识和教育评价的科学决策[14]。在大数据时代,教育大数据可视化成为学生自主学习、教师教学监督以及管理者优化决策的重要方法和手段,对于新时代下提升教育教学质量起到了重要作用。
伴随数据规模及种类的不断扩大,如何有效地表征和呈现教育场景中的大数据已经成为一个重要的研究课题[15]。教育大数据可视化已经得到了大量研究者的重视,但总体上仍处于起步阶段,还有大量的空间值得探索。本文概述了教育大数据的特点,阐述了教育大数据可视化相关理论的发展脉络,更进一步,从学生、教师和管理者三个角度全面总结了教育数据可视化发展现状。基于文献分析,从实践角度展示了可视化呈现技术在教育大数据研究中的具体应用。最后研究提出了教育大数据可视化的现存问题及关键技术挑战,为教育大数据可视化方法研究指明未来方向。
教育大数据(big data in education,BDE)是指在整个教育活动过程中所产生的以及根据教育分析需要所采集到的一切用于教育发展并可创造潜在价值的数据集合[16]。每个教育相关者既是教育数据的生产者也是教育数据的消费者[17]。教育大数据主要来源包括学习管理系统(learning management system,LMS)、大型在线开放课程、开放教育资源(open educational resources,OER)和智慧课堂教学环境等。如在线学习活动中,学生学习进度、社交共享、论坛消息、教学干预、用户与系统的互动等数据信息都是教育大数据[18]。
教育大数据与传统教育数据具有显著的特征差异,不同研究者对其特征进行了阐述。陈德鑫等人指出教育大数据精准涵盖了与教育相关的所有记录,具有数据量大、类型繁多、连续性强、价值密度低等特点[19]。杨现民等人指出与传统教育数据相比,教育大数据具有更强的实时性、连贯性、全面性和自然性等特征[16]。美国教育部发布的《通过教育数据挖掘和学习分析促进教与学》报告中则提出教育大数据具有层级性、时序性和情境性的特征[20]。
本研究综合前人研究成果,并针对智慧学习环境下学习活动发生的特点,归纳提出教育大数据除具有大数据典型的4V特征外(规模大、价值大、数据流转速度快以及数据类型多),还具有多维性、时序性、异构性三种显著特征。多维性特征是指由于教育对象及教育活动的复杂性,与其相关的教育过程性数据都具有典型的高维特征。如一个用于预测学生辍学的学生线上学习行为可以达到200 多种[21]。这些高维数据增加了数据分析的复杂度,同时也对可视化呈现带来比较大的挑战。教育大数据还具有时序性特征。学习活动的发生具有时间上的连贯性,因而教育数据具有典型的时空属性。如学生伴随时间的知识进展、学生在线上学习中发生的学习行为序列等。这些基于时间序列的数据中常常蕴含重要的教育规律。因而,时序数据的分析是教育大数据挖掘的重要方面。教育大数据还具有典型的异构性特征。传统教育数据多为简单统计型数据信息。而在智能时代,移动通讯、虚拟VR、智能传感设备的普及使用,使得图像、语音、文本、生物电信号等多模态数据的采集变得越来越容易,这些数据不仅呈现了结构化、半结构化和非结构化等不同结构特征,而且数据表征的粒度、维度、形式各不相同,具有显著的异构特征。
教育大数据具有巨大的教育价值与潜力,其数据价值的释放需要三个阶段:教育数据采集、教育数据分析与处理、教育数据可视化和应用[17]。教育数据可视化和应用伴随着教育大数据时代的到来而兴起,成为教育数据分析的重要利器,对理解和挖掘复杂教育规律问题起到了极大的作用,是教育价值呈现的最直接体现。
可视化有助于分析和探索大规模复杂的教育数据,在可视化应用中,学习者的数据踪迹(trace)被认为是最有前途的数据来源。当前教育可视化从应用人群上可以分为学生、教师和教育管理者三类。基于数据痕迹的分析对学习者、教师和管理者等众多利益相关者的决策起到了重要的优化作用[22]。
面向学生的可视化工具旨在提高学生的自我意识,促进学生元认知发展[23]以及学习过程中的反思,从而激励他们改进学习行为,获得学业的成功[14]。一些研究通过展示学生的学习行为或学习路径促进学习者的元认知发展。如Law 等人[24]通过可视化呈现学生的目标设定、任务列表、完成进度以及对学习成果的自我评估等内容,促进和支持学生的自主学习。研究结果表明可视化在帮助学生设定合适学习目标,监控他们的表现并对学习进行自我反思方面都有显著的积极作用。Xia等人[7]提出了可视化分析系统PeerLens,通过挖掘同等级学习者学习情况给出学习者可选的三种学习路径,并使用新颖的类似拉链的视图可视化用户的详细学习路径,帮助他们高效地规划如何在在线题库中进行学习。
可视化工具不仅可以促进学生反思,还可以通过数据反馈使学生认知工作更加轻松,提高学生知识构建水平和协作参与等能力。如Barría 等人[25]提出一种基于协作学习环境的可视化工具,通过可视化团队之间的交流模式,来激励学生参与在线讨论,提高参与意识,结果表明该可视化工具能够对学生协作行为产生积极的影响。Corrin 等人[26]用学习分析仪表板的可视化方式向学生提供关于他们的表现以及所参与的学习活动的评估数据的反馈,研究结果表明,该方式使得在线学习的学生在学科成绩上会有所提高,并且表现出了更好的保留行为。
一些研究还探索了针对特定情境的可视化应用。Kamdi 等人[27]设计了一种用于科学教学的可视化工具,可以动态呈现科学过程及其变化。开展对照实验的结果表明,动态可视化教学相对于静态可视化教学更有助于学生对学习内容建立深刻的理解,使学生在认知过程中的记忆工作更加轻松,减少额外的认知负荷。Virata等人[28]将一种增强现实可视化的工具用来帮助讲师讲授化学键和简单化合物的课程,研究表明,虚拟增强的可视化呈现不仅可以提高学生的动机,还可以引发更多的互动,对于学生对化学与现实生活的关系以及其意义形成过程的理解方面有很大的改善。
面向教师群体的可视化主要将学习分析结果以可视化的形式呈现,帮助教师了解学习者的学习参与完成情况,形成对学习过程的动态监控,适时调整教学过程[12]。Xia等人[29]提出了一种分析K12数学在线学习平台的学生学习行为的可视化分析系统,帮助教师快速发现学习材料设计中的潜在缺陷。Shi等人[3]开发名为VisMOOC(visualizing video clickstream data from massive open online courses)的工具帮助教师和教育分析人员通过可视化学生的点击流数据来了解他们的在线视频观看行为。MOOC(massive open online course)在线学习可视化分析也是当前的主流研究内容。Wu等人[30]设计名为NetworkSeer的工具,可视化呈现参与MOOC学习的学生对论坛的使用情况,帮助教师了解学生在MOOC 论坛中的互动状况。Wong等人[31]设计了一种交互式可视化分析系统MessageLens,从交流话题、情感、论坛用户交互等不同方面支持对MOOC 论坛数据的多维可视化分析。同样的,Zheng等人[32]开发了针对协作学习论坛的可视化分析工具,从知识加工、社交关系和行为模式三个不同的维度可视化协作小组的交互状态,帮助教师及时了解并对比协作小组问题解决过程。
可视化工具还可以对学生的学习成绩、辍学、学习行为及表现进行监控和预测,分析学生学习行为或者学习序列背后的意义,帮助教师识别并及时干预有学业风险的学生。如Deng等人[10]开发出一个交互式探索学生课程成绩数据可视化界面——PerformanceVis,其将考试成绩路径、考试项目分析和预测模型的性能等视图动态链接在一起,并结合机器学习技术来预测学生成绩,帮助教师尽早发现有可能不及格的学生,做出学业干预措施。Chen等人[9]提出了DropoutSeer可视化系统,从点击流、论坛帖子和作业记录中提取数据进行分析,并利用时序视图等方式可视化学生的学习情况、辍学预测结果,帮助教师理解学生辍学原因并及时对课程做出相应调整。在Chen等人[33]的研究中,设计开发的ViSeq可视化分析系统呈现了学习者的学习顺序模式、事件过渡和比较相似个体等视图,通过可视化不同学习者群体的学习顺序,帮助教师进一步理解各种学习行为背后的原因和影响。
面向教育管理者的可视化工具旨在帮助管理者进行科学的战略决策和实践改进。如Guerra 等人[11]设计了呈现学生学术成绩与课程体系结构关系的可视化工具,帮助管理者检查学生的学业情况,及时发现体系结构中所存在的困难课程,促进课程体系结构的优化。杨现民等人[34]设计了区域教育大数据的分析架构与结果的可视化展示,通过采用基于图表、地图、数据流等多样的可视化形式,直观地呈现不同区域的教育发展水平、资源流动、信息交互等,为管理者实施科学决策提供支持。Cabanban-Casem[35]为简化行政和技术人员与高等教育机构相关人员之间的信息交换,开发了一个提供实时数据可视化的仪表板,帮助用户系统地组织和查看数据,并生成有效的报告,提高数据的有效性。更进一步,基于数据驱动的可视化系统还能够提供直接的教育分析报告,帮助管理者准确预测未来趋势,提供干预支持,并建立相关预警机制确保决策安全。如Krumm等人[36]为学术顾问开发出一个预警系统,对学生产生的学习数据实时汇总分析,可视化学生的学习进度和表现,用来跟踪识别成绩不好的学生。Charleer等人[37]则开发了LISSA(learning dashboard for insights and support during study advice)系统,通过可视化成绩的等级、趋势等数据来促进学术顾问和学生的交流,帮助管理者激发学生的积极性,触发学术顾问和学生之间更多的对话,更好地促进学术咨询的作用。
总体上而言,从应用层面来讲,当前的教育可视化大多数还停留在学习分析结果的直观呈现,如教育领域大量应用的仪表盘技术多呈现诸如学生互动信息、成绩统计比较等聚合信息,这些研究大多强调可视化技术对学习分析结果的呈现,支持学习者或教育者对数据的查看和理解。从技术层面来讲,可视化呈现正在从传统的统计图表向文本、时序、地理空间、网络等多样的呈现方式过渡,交互式技术也使得教育数据处理从传统的数据分析逐步转变为探索性数据分析。未来的教育数据可视化呈现将从浅层数据聚合呈现工具向支持教学全过程深度探索的智能决策工具跃迁,使教育研究者能够将人类能力(视觉感知、创造力和常识之类)与机器能力(大内存和快速计算)相结合,协同工作实现对内在学习过程的深入理解[38]。
教育大数据的可视化流程主要是实现从数据空间到图形空间的映射。根据Haber 和McNabb[39]在1990年提出的可视化流水线中描述的从数据空间到可视空间的几个阶段,可以将教育大数据可视化的基本流程归纳为教育大数据采集、数据清洗与预处理、数据存储、数据可视化这四个基本步骤。利用各种设备从教育场景中采集数据之后,进行数据清洗与预处理,以文件的形式(CSV、XML、Json 等)存储或存储在数据库中。其中,数据存储多采用Json 数据格式。Json数据格式是一种无序合集,合集中的所有元素都成对出现,一般由名称和对应的数值组成,这种数据格式对于教育数据可视化具有非常重要的意义,能够准确地实现数据的挖掘、筛选和调用,极大地提升数据挖掘的效果,增强数据可视化的便捷性,对于教育数据可视化具有重要影响。
数据可视化则是在传统数据采集、清洗、预处理、存储后进行的最后一个环节。其主要过程包括数据转换、可视映射和视图变换三个核心的交互过程。数据转换是指从原始数据到可计量数据表的转换,使得原始数据具备可视化映射的基础。可视映射是将数据表数据转换为坐标、比例等图形化属性的过程,该过程是可视化表征的关键。通过可视映射数据,将基于数学关系的数据表映射为能够被人视觉感知的图形属性结构。视图变换是指将可视结构根据设备属性转换为可视化的视图这一映射过程。根据设备属性的不同,可视化图形在大小、分辨率、位置和颜色等方面进行适应性调整,使得可以跨终端呈现和展示。
针对不同的数据类型和目的,数据可视化已经形成了从简单的Excel电子表格、Google文档等交互式可视化生成方式,到D3.js、Prefuse、ggplot2 等编程式生成等多种生成方式[40],表1给出了教育领域常用的数据可视化生成方式。
Table 1 Data visualization generation mode表1 数据可视化生成方式
交互式数据可视化生成方式操作简单、直观,用户无需编程,但是局限于系统功能,无法满足个性化需求。基于编程的数据可视化生成方式需要用户具有一定的编程能力,时间和人力成本较高,但是表达能力强,可以基于用户需求定制图表,实现个性化展示。
教育大数据可视化旨在将复杂、抽象的教育数据挖掘结果进行直观的呈现与表达,是教育大数据价值变现的最后一环[41]。可视化呈现的技术方法及其效果逐渐成为教育数据价值体现的关键问题。除传统的基于图表的可视化呈现外,一些创新的可视化技术方法也逐渐出现在当前的研究中。本文对教育可视化相关文献进行分析汇总,并从文本数据可视化、多维数据可视化、网络数据可视化、时间序列数据可视化以及地理空间数据可视化五个分类对现有研究进行回顾与总结。
文本可视化是通过对文本资源的分析发现特定信息,并利用计算机技术将其以图形化方式呈现出来的一种方法[42]。其主要包含两种可视化方法:一是基于词频统计的文本可视化,即常见的标签云技术;第二种是基于语义的文本可视化,要求通过关系计算、语义标注、统计和推断等技术手段,发现文本中隐含的语义关系,从而进一步发现知识[43]。
(1)基于词频的文本数据可视化
基于词频的可视化实现思路可以将教育文本看成词汇的集合,用词频表现文本特征。如郑娅峰[44]采用标签云的方法将在线协作讨论中的高频关键词按照大小、颜色等图形属性进行可视化,如图1(a)所示。图1(b)同样是采用标签云的形式对一门无线局域网课程周讨论的高频关键词进行可视化[45]。
Fig.1 Text data visualization based on word frequency图1 基于词频的文本数据可视化
(2)基于语义的文本数据可视化
基于语义的文本可视化的实现思路是将教育文本看成词汇及其关系的集合,通过语义标注及语义检索的方法反映文本内在结构和语义关系。Collins等人[46]的研究中采用文档散的形式来显示文本内容的结构,它还通过径向布局体现了词的语义等级,如图2(a)所示,最内层的关键字表示文章内容的最顶层概述,外层的词是内层词的下义词,颜色饱和度的深浅用来体现词频高低。而Wattenberg 等人[47]使用了单词树图(word tree)把文本中的句子按树形结构布局,可以很容易看出一个单词在文本中出现的频率和单词前后的联系,还可以对上下文中的关键字进行快速查询和浏览,如图2(b)所示。
(3)多信息文本数据可视化
文本数据的可视化不仅仅是关键词的信息提取,对于教育领域来说,文本信息是最为重要的学习数据,包含了诸如情感、学生参与、自我调节、交互意图等不同维度的信息。一些文本数据可视化方法则通过对同一文本数据的多维度信息处理形成联合数据可视化,获得对同一数据的多维视角。如Hoque等人[48]将关键词提取、情感识别的文本分析结果进行组合,并与用户id建立关联,直观反映博客中用户数量巨大的评论和回复信息,如图3所示。该图左侧呈现会话的关键词,中间的部分是对会话中的情感极性可视化,右边则将两者关联到了用户id上。
多维数据指的是具有多个维度属性的数据变量,多维数据可视化将多维或高维的原始数据经过处理后转换成人类易于理解的图形图像[49]。多维数据可视化技术不是简单的图形映射,而是要尽量反映多维信息及其各属性之间的关系信息,力图在低维可视空间中展现抽象信息的多属性数据特征[50]。目前主要的多维数据可视化技术主要有几何图技术、图标技术以及平行坐标技术等。
Fig.2 Text data visualization based on semantic图2 基于语义的文本数据可视化
Fig.3 Visualization of multi-information text data图3 多信息文本数据可视化
(1)几何图技术
在教育研究中,箱线图、雷达图以及堆叠面积图等通常被用来展现数据在多维度上的分布。箱线图能显示出一组数据的最大值、最小值、中位数及上下四分位数,如Laet 等人[51]采用箱线图来比较2018 年和2019 年之间工作量的变化,以及工作量之间的差异,如图4(a)所示。雷达图是将不同类系的多维度数据量映射到起始于同一圆心点的坐标轴上,于圆周边缘结束,将同一组的点使用线连接起来,用颜色区分系列,多被用来描述一个教育对象或教育活动的多个不同维度的表现。Vivian 等人[52]在研究中使用雷达图对团队整体实时提供情感分析和可视化,从成员的讨论中挖掘出八种基本情绪,包括“愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶、信任”,如图4(b)所示。而在Sung 等人[53]的研究中,将学生的评论类型分为六个维度,“一般会话、做笔记、提意见、提问、抱怨以及赞美”,并采用堆叠面积图的形式呈现了学生对课程评论的数量和类型沿时间线的分布,如图4(c)所示。
(2)图标技术
图标技术的基本思想是利用有多个视觉特征的图标来表达多维信息,不同呈现形式的图标用来表示多维信息的不同维度。通过图标用户可以直观、清晰并且准确地理解图标每一维度所表示的意义。如图5 所示,Charleer 等人[54]在研究中采用了点亮图标的方式来对学生的目标达成情况进行呈现,图中彩色徽章代表目标已实现,灰色徽章代表尚未实现,徽章旁边的数字(例如,红色圆圈突出显示的数字)指示班上有多少学生获得了此徽章。
(3)平行坐标技术
Fig.4 Geometric graph图4 几何图
Fig.5 Visual presentation of student goal achievement based on icon technology图5 基于图标技术的学生目标达成情况可视化呈现
基于平行坐标技术的多维数据可视化技术的基本思想是将N维数据空间用N条等距离的平行轴映射到二维平面上,每条轴线对应于一个属性维度。多维数据每个维度的属性值可以在N个坐标轴上找到对应的点。将这N个点连接成一条折线表示一个多维数据点。如Wu等人[30]从学生日志数据中提取出日期、发帖数、成绩等与学生行为相关的特征以及论坛活动中声誉、贡献度等特征,通过平行坐标系的技术来建立分析各个特征之间的相关关系,如图6所示。
网络数据关系是教育研究中的常见数据类型。如群组学生交互关系、作者之间的共被引关系等。在网络数据的可视化中,每个节点代表一个主体,节点之间的连接线表示主体之间的关联关系。常见的有社会网络表示法,同时层次数据也属于网络数据的一种[55]。网络数据可视化常用的有社交关系图、力导布局图、树图等。
Fig.6 Parallel coordinates图6 平行坐标
Fig.7 Hierarchical data visualization图7 层次数据可视化
(1)层次数据可视化
层次数据是一种常见的数据类型,它通常用来表达个体之间的包含和从属关系,可以采用树结构表示[56]。Pardos 等人[57]的研究中通过树图对课程的流程和结构进行可视化的呈现,如图7(a)所示。Deng 等人[14]的研究则采用了可折叠的放射状树,将考试问题和作业问题之间的相关性进行展示,教师可根据两个问题之间的相关关系反馈教学并及时改进,如图7(b)所示。
(2)社交网络数据可视化
社交网络是社会关系所构成的结构,可反映社会群体间的社交关系[58]。对社交网络数据进行可视化分析是最为重要的社会关系分析方法。通过将社会关系网络抽象成由点和线组成的图,可以直观地分析社会群体网络。再对图形中的节点分布位置、节点的大小以及点线密度等进行分析展示,可以有效观测社会群体行为[59]。Saqr等人[60-61]采用了带有方向的节点链接图来描绘学生主体之间的交互。其中节点的大小反映该点在网络中的重要性程度和处于网络中心的程度,链接的粗细代表交互的强弱,不同颜色则代表不同的协作小组成员,如图8(a)和图8(b)所示。
在大规模的社会网络可视化中,通常采用力导布局图来对大规模社会网络进行分析。在Qu等人[5]的研究中,对学生的交互和成绩进行可视化,点的大小表示学生的活动水平,颜色表示学生的成绩,点之间的链接代表学生之间的交互,可以清晰地看出不同成绩学生间的交互程度,如图9(a)所示。图9(b)则显示了一个讨论组中学生之间的交互情况。其中,节点大小代表成员活跃程度,颜色深浅表达成员影响力,链接宽度代表两个学生之间的相互回复频率[62]。
Fig.8 Social network data visualization图8 社交网络数据可视化
Fig.9 Large-scale social network data visualization图9 大规模社交网络数据可视化
除此以外,与其他领域一样,教育领域经常采用网络数据可视化进行共被引关系及引文关系的呈现,这被称为一种特殊的网络关系处理数据。如图10(a)所示,在与Park[63]等人的论文相关作者网络中,链接粗细表示两位作者之间的密切程度,圆圈大小指示作者在该主题上被引用的次数,由该图可以看出以网络学习主题为背景,多名作者之间依赖多个不同关键词展开了不同形式的深度合作。除了作者以外,共被引关系也存在于文章之间,如图10(b)展示了神经信息处理系统进展会议NIPS(conference and workshop on neural information processing systems)与顶级会议或期刊之间的相互总体引用量的关系视图。
时间序列可视化是针对具有时间属性的数据集进行的呈现方式[64],强调基于时间发展内容演变过程。基于时间序列的可视化的一般设计思路是基于不同的时间单元进行相关内容的抽取和分析,并在时间轴上呈现连续的分析结果,从而发现伴随时间变化的内容演变规律,如数据的周期性以及峰值等。在教育中,数据可以在不同的时间聚合级别进行分类展示,如按分钟、小时、日、周或学期,按课程模块,或在期中期末等。时间序列可视化是一个应用前景广阔的研究方向,但在教育领域的应用刚刚起步。
Fig.10 Network diagram图10 网络图
Fig.11 Time series图11 时间序列图
为了反映信息对象随时间进展所发生的变化及演变规律,可以采用桑基图来进行可视化呈现。如图11(a)所示,该研究中将学生考试成绩的等级分布与学期中不同时间开展的考试进行关联可视化,从而发现学生在屡次考试中成绩分布的演变关系[65]。Zheng等人[32]的研究中,将学生讨论的知识点随时间的变化进行可视化呈现,通过时间轴观察学生在讨论中不同等级知识点的出现时间,从而直观推断学生问题解决的推进程度,图11(b)所示。
随着教育大数据的不断发展,研究者更加关注数据的精细层面,因此传统的可视化图表也与时序数据进行有效整合,创新出更加适应教育数据表达的创新可视化形式。如Chen 等人[33]的研究中,将传统的和弦图与基于时间序列的在线学习行为进行融合展示,通过和弦的径向布局,可以更好地比较不同成绩等级的学习者在不同星期之间的学习序列过渡的差异,由图12(a)所示。热力图混合日历图的形式同样也被用到了教育中。在图12(b)中,学习者的学习历史信息被附加在日历图上展开,每一个活动矩阵记录了学习者某一天的历史学习活动信息,而当天的学习时长则通过热力图的形式进行表达,颜色越深,学习时长越长[8]。
地理空间数据通常是指用于描述自然现象和社会事件的发生及演变的空间位置、分布、关系、变化规律等的数据。地理空间可视化能够有效地融合数据挖掘和可视化设计来对地理空间数据中隐含的多维、时空、动态、关联等特征进行全面而细致的分析和探索[66]。在教育大数据中,地理空间数据通常应用于教育统计信息对比,多从点和区域两方面来进行呈现。
(1)基于点的地理空间数据可视化
在地理空间数据可视分析研究中,通常借助点的设计描述实体属性数据的分布和位置信息。Emmons等人[67]借助点状地图的形式对MOOC学生的生源地进行可视化的呈现,图中使用不同颜色显示了2013年和2014 年参与MOOC 学习的学生生源地,圆圈大小代表该区域参与学生的多少,如图13(a)所示。He等人[68]的研究中同样采用了基于点的地理空间数据可视化,如图13(b)显示了西安交通大学的在线远程教学中跨地区招生情况,图中显示了有很大比例的学生来自于学习中心所在省份以外的省份。
(2)基于区域的地理空间数据可视化
区域是地理空间数据中具有相邻空间位置或者相似属性的地域范围。例如,地图中的各个国家、省份、城市等行政区域或基于人类社交行为的属性区域等。通常基于区域的地理空间数据可视化需要结合热力图来进行呈现。图14(a)显示了通过Coursera提供的斯坦福密码学课程的每个国家的证书获得者与注册人数的比率[69],越深的颜色代表该比率越高。图14(b)显示的则是经合组织国际学生评估计划PISA 在2015 年首次评估的学生协作解决问题的能力,图中不同颜色代表该区域学生协作解决问题能力的分数高低[70]。
Fig.12 Time series图12 时间序列图
Fig.13 Geospatial data visualization based on point图13 基于点的地理空间数据可视化
Fig.14 Geospatial data visualization based on region图14 基于区域的地理空间数据可视化
不同的教育数据具有的特征不同,可视化呈现要基于数据的基本特征和展示的目标需求找到合适的可视化方式,帮助人们理解数据。教育大数据可视化视图的特征及其适用场景如表2总结所示。
目前,上述各种面向文本、面向过程、面向空间的可视化技术呈现,已成为教育大数据应用领域关注的研究重点。这其中涉及到如下的关键交互技术。
动态查询与过滤技术在教育可视化中具有重要作用。在教育场景中,大多数具有时序特征的数据需要进行实时状态呈现,应用动态过滤交互技术可以对数据迭代挖掘和过滤,达成数据动态刷新,以确保数据显示的准确性。当数据集规模非常大时,动态查询与过滤技术还可以解决由大规模密集数据引起的“视觉混淆”(visual clutter)问题。动态查询与过滤技术主要通过用户动态交互控制,依赖全局可视化视图,使用用户直接操纵的方式实施快速、增量式、可回溯的查询控制,同时可以在查询时动态调整参数使得查询结果做出相应改变。可视滑动条、过滤透镜等都是常用的动态查询与过滤控件。动态查询与可视化的结合,使得视觉编码和交互操作迭代进行,动态实时地反馈和更新过滤结果,达成用户对结果快速评价的目的,从而加速教育信息获取效率。
Table 2 Visualization features and application scenarios表2 可视化特征及应用场景
可缩放/变形界面技术是实现从高层概要性信息到底层细节性信息再到分层可视化的重要支撑技术。可视化信息探索的过程即为“信息觅食”的过程,分析人员需要在信息可视化界面中通过概览、缩放、查看细节、检索等交互操作完成从总览视图到获得有价值的结果信息,这其中的核心是语义缩放技术。即当需要在固定的屏幕空间内呈现从整体到局部的连续变化时,系统通过提供更改比例大小滑块实现视图的缩放展示,允许用户纵深跟踪观察个体学习行为信息。变形技术包括以较高的详细程度显示部分数据,而以较低的详细程度显示其他数据的交互变形方法。鱼眼视图技术[71]、双曲变形技术[72]、双焦点透镜技术[73]、透视墙技术[74]等是目前常用的交互变形技术。结合语义距离算法,这些技术能够在突出教育数据关注焦点时仍保持对上下文的整体了解,可以为大规模在线学习交互分析、教学视频情感及行为分析等密集型可视化界面和强调上下文关联的搜索分析行为提供有力的支持。
多视图关联技术强调多个角度数据的内在关联分析。教育数据对象往往是具有多个维度的信息,这些不同维度的信息之间又具有语义关联关系。运用多侧面关联技术,可以建立针对各个信息属性的视图,在交互过程中对多视图中的可视对象进行动态关联,以帮助更好地探索数据之间内在关系和规律。用户在使用时,在与任意一个视图中的节点进行交互时,都可以动态链接到其他视图中具有语义关联的节点集合,实现视图联动。多视图关联技术可参考基于本体的多侧面关联模式[55],多侧面关联技术强调从多个角度来分析问题,并且重在建立多个分析角度之间的内在关联关系,为多维的教育数据分析提供了相应的可视分析技术的支持。
未来的智慧学习环境下,VR/AR环境、生物电信号等多模态实时数据种类变得多样,皮肤电、眼动、脉搏、体态、脑电等数据信息的便捷采集,强化了多模态信息的可用性。多模态信息的整合利用对于教育数据分析与规律挖掘具有重要价值[75]。多模态数据在应用前必须经过数据的预处理、转换、融合等,以统一的形式进行表达。然而,由于教育环境的特殊性,保证数据的准确性、完整型、一致性等存在重要挑战。
解决这一问题,需要在数据采集的标准、教育数据融合机制、数据分析与集成等方面深入研究。在数据采集方面,构建教育数据采集标准,并借鉴当前不断发展的深度学习技术方法,提升表情、情绪、姿态、生理信号等数据采集与识别的准确度。在数据整合上,应建立有效的数据融合机制,加强语义关联的挖掘与获取,关注教育数据的时序特征及环境状态特征,建立时序数据与学习情境数据之间的映射关系,内隐数据与外显数据的关联关系,实现数据之间的统一表征与有机关联,精准表征数据变化规律后的教育行为。在数据分析与集成方面,探索高维大规模数据的有效降维,大规模教育数据的分布式并行运算,数据模型与可视化分析系统的松耦合接口关系,使得分析人员无需关注数据接口及数据分析与融合的复杂机理,提升可视化分析工具应用效率。
当前教育可视化工具与人的协同交互性不足,限制了教学参与者通过可视化交互深入理解和探索学习分析结果。现有研究主要通过学习仪表盘等可视化学习分析工具将关于学习者、学习过程、学习环境的不同指标聚合到一个或多个可视化界面中进行显示。这些工具信息呈现固定,且仅能采用简单的鼠标点击事件筛选需要呈现的信息。这使得教学参与者很难解释工具呈现的数据,更难以将工具中的反馈转化为实际可操作的教学决策,降低了教育大数据可视化带来的实际价值。另一方面,当前的交互模式还处于鼠标点击的单一交互模式,缺乏开展实际的教学环境中进行的自然交互可视化研究探索。自然交互可以使得分析者将注意力聚焦于分析任务上,而无需过多地关注分析过程中的具体操作方式和流程。尤其是在一些复杂的大型协同分析任务中,不依赖鼠标和键盘的交互方式可以大大地提升交互的自然性和效率。
解决这一问题一方面可以大力发展动态查询与过滤技术、可缩放界面技术、多视图关联技术等支持可视化推理与人机交互的重要技术方法[55],并加强这些方法的融合应用;另一方面,发展以动作捕捉、空间定位、眼动、语音交互、多点触控等交互模态的自然方式交互的教育可视化应用工具,使得可视化应用在教育中更具情境适切性,也是教育可视化交互方式上的重要技术挑战。当前已有一些初步的研究,如基于数字桌面多点交互协作可视分析[76]、基于手势的交互可视方法[77],但在教育领域还未见到有效结合和应用。
当前的教育大数据可视化分析仍是以基于数据挖掘结果的聚合展示为主。在整个过程中,数据分析与可视化呈现缺乏人类智能的参与,这使得通过学习分析工具获得的结果过于专业,教师和学习者无法轻易理解这些可视化结果中表达的信息。在教育领域中,强化人工智能技术和交互可视化技术与人类智能的协同工作范式,将人类教师具有的感知认知能力与人工智能具有的快速处理与响应能力相结合,可以在未来促进可视化分析工具从浅层数据聚合呈现工具向支持教学全过程深度探索的智能决策工具跃迁,实现对内在学习过程的深入理解。
人机协同范式是人机共同工作的理论基础与框架。发展教育可视化领域的人机协同范式,使得人类智能和人工智能更好地进行互动和协同,促进学生学习、教师教学以及管理者进行科学决策。更具体的说,教育数据可视化需要探索不同的教学参与者(如学习者、教师、管理者)和教育场景(如混合学习、在线学习等)的需求,提供个性化、适应性和场景化的人机协同范式。人机协同范式需要考虑人与机器协作的介入时机、介入方式、信息互换形式等核心问题,即需要清晰和细致地界定在问题分析过程中人机交互的多层次多粒度任务应该如何最优化地部署在人、机两端[55];以及各种交互技术如何最优地匹配具体场景的分析任务中的问题;探索人机可视化过程中如何通过恰当的人机信息互换,强化人机协同循环过程,使得可视呈现的内容不断得到迭代优化[78]。
当前,可视化研究领域开发和积累了大量的可视化呈现形式,为大数据呈现提供了有力的技术支持。然而,从可视化技术领域在教育应用中的诸多可视化表征形式来看,许多可视化图表仅追求技术角度的创新,而忽视了可视化应用符合人的认知规律、心理映像、视觉感知的本质需求[55]。已有研究表明,当前的教育数据可视化呈现较少在教育相关理论的指导下进行[30],因而造成很多创新的可视化呈现技术只能被少部分研究人员理解,而对于可视化应用的教师和学生主体群体,却难以获得广泛的接受。
针对这一问题,如何将认知科学、教育科学、信息技术有效结合,建立教育数据可视化设计的标准规范和有效评价体系,对可视化呈现设计进行评估,是未来教育数据可视化发展的重要研究方向。教育数据可视化分析的过程是从数据到知识的过程,分析人员与可视化界面平台交互的过程是人的内在认知与外部环境交互作用的结合,体现了分析人员进行有目的有意义知识建构的过程。现有的认知与信息科学相关理论为指导这一过程提供了理论基础,如认知发展理论[79]、意义建构循环模型建构主义理论[80]等。基于这些理论,可以构建评估教育数据可视化设计的标准规范,对于可视化设计的效能进行评估。对于教育数据可视化而言,有效性不仅体现在功能的可用性、有用性以及满意度等方面,更体现在可视化设计及其结果呈现对使用者的心理映像的改变。如可视化设计是否增强了学习者的意识和反思能力,是否促进了认知、行为或情感方面的变化,是否促进了学习者的自我调节能力等。可视化工具是否可以无缝集成到在线学习环境和学习者的常规学习活动中,促进教师对数据规律的再认识。因而,评估可以从认知、元认知、行为态度情感、自我与社会调节能力等多方面进行构建。
本文从教育大数据可视化应用这一视角出发,分析教育大数据的特征,并探讨了教育大数据可视化领域的相关概念的发展。通过文献综述,呈现了当前面向学生认知发展、教师教学监督以及管理者科学决策的三大类可视化教育应用。在此基础上,讨论了面向教育大数据主流应用的可视化关键技术及呈现方法。更进一步,基于对现存问题的分析,提出了当前教育可视化面临的问题和关键技术挑战。
当前,教育大数据可视化还处于起步阶段,面临较多的理论探索和技术应用挑战。未来的教育可视化工具绝不仅仅是解决最后一公里的呈现问题,而是发展人机交互及人机协同等关键技术,强化人工智能技术和交互可视化技术与人类智能的协同工作,将人类教师具有的感知认知能力与人工智能具有的快速处理与响应能力相结合,促进可视化分析工具从浅层数据聚合呈现工具向支持教学全过程深度探索的智能决策工具跃迁,为深度认识教育规律,解决复杂教育问题提供技术支撑。