汤希玮,胡秋玲
(湖南第一师范学院a 信息科学与工程学院;b 图书馆,湖南 长沙 410205)
教育大数据的出现至少要归因于数字时代的两大趋势。第一,传统教育机构产生了大量标准化教育信息。具体而言,学生信息系统已被广泛用于存储和组织学生的个人资料信息(例如人员统计、学术背景)和学术记录(例如课程注册和最终成绩)。这些数据往往涉及到几十年来在某个教育机构学习的学生,这些机构的学生信息系统使得大规模管理和分析这些数据成为可能。第二,某些在面对面的课堂上很难记录的学习行为现在可以被学习管理系统捕获。在大多数情况下,教师使用学习管理系统分发教学材料、处理学生作业以及与学生沟通交流。就某一学生而言,从点击课程模块到修改提交的论文,这些带有时间戳的日志相当于数千个数据点。除了学生信息系统和学习管理系统之外,数字学习环境(如各种社交网络、论坛、基于教育游戏的学习环境、学习存储库、虚拟环境、无处不在的计算环境等等)中的创新技术能够跟踪和收集学生的各种数字足迹,也产生大量异构和多模态的数据。
教育大数据具有数量大、更新速度快、多样化等特点,对分析学习者行为具有很高的价值。教育大数据为解决以前代价高昂甚至不可能回答的问题提供了坚实的数据基础。通过跟踪学生行为的数字足迹,研究人员能够更精细地把握学习过程。通过将行为数据与心理调查表结合,研究人员可以将学生的行动序列映射到认知特征上,并验证观察到的行为痕迹是否与理论假设一致,从而有针对性地完善学习理论。丰富的教育大数据有助于人们了解具体教育政策的影响,并解决与政策有关的问题。例如,将学习过程数据和管理数据关联起来可以揭示各种教育不平等现象的细微差别,并能以更短的反馈周期为采取切实的行动提供依据。几十年来,人们一直在寻找与一对一辅导相媲美的有效教学方法,而教育大数据及其分析结果可用于探索学生的学习轨迹,设计自适应和个性化的学习环境,使个性化教学从理想走向现实。在教育界,越来越多的人希望通过分析教育大数据提高学习成绩、推荐课程、分析学习模式、预测辍学率、提高教师工作效率、减少管理工作量等等。大数据分析正在改变教育行业,并为学习者和教师提供新的机会。
目前,国内教育大数据的研究论文不少,但是,这些论文往往局限于教育数据挖掘和学习分析两大研究领域中的一个或两个,全局性的分析文章还不多见。本文致力于填补这一空白,全景展现教育大数据的分类层次、平台技术、研究主题和面临的挑战。首先从微观层面、中间层面和宏观层面深入探讨教育大数据的内涵和外延,然后阐明教育大数据的各种平台处理技术,最后重点分析教育大数据的主要研究方向和面临的挑战。
为了更好地理解教育大数据的作用,我们从三个层面对其进行考察,即微观层面(如点击流数据)、中间层面(如文本数据)和宏观层面(如机构数据)。在微观层面,教育大数据是细粒度的交互式数据,活动之间的间隔短至数秒。大多数微观层面的数据是学习者与其学习环境交互时被自动收集的,这些环境包括智能家教系统、大规模在线开放课程(MOOC)、模拟仿真和游戏等等。中间层面的大数据涵盖了学生在智能辅导系统、在线论坛、社交媒体等学习环境中进行写作活动产生的各种数据。这些在自然状态下被系统捕获的原始数据能够反映学习者的认知能力、社交能力和学习情感状态等。宏观层面的教育大数据由各教育机构产生。具体的例子包括学生人员统计、入学数据、校园服务数据、课程时间表和课程注册数据、大学专业要求和学位完成数据等。宏观层面的教学数据通常是在很多年的时间跨度内收集的,很少更新,通常每个学期只更新一到两次(例如,课程表信息,成绩记录)。值得注意的是,这些微观/中间/宏观层面的分类不应该被视为严格不同的层次,因为它们在每个数据源中可能有相当多的重叠。例如,智能辅导系统中的击键日志是微观层面的数据,这些数据又可以表征写入行为(例如,突发写入、编辑过程等),而书面文本的内容和语言特征代表了可以用自然语言处理技术分析的中间层数据。类似地,社交媒体交互活动通常涉及微观层面的时间戳(有时还需要位置信息),以及每个帖子的中间层数据。
Hadoop、Spark 和Samza 是目前比较流行的大数据分析系统。Hadoop 用于复杂的离线教育大数据处理,Spark 经常用于离线快速教育大数据处理,Samza 主要用于解决流式教育数据处理过程中的的高数据率和大数据量问题。
Hadoop 是一种开源框架,由一组实用程序构成[1]。它使用简单的编程模型跨计算机集群分布式处理大型数据集,具有低成本、高效率、高可靠性、高可扩展性和高容错能力。Hadoop 包括一些核心模块,底层是hadoop 分布式文件系统HDFS,存储了Hadoop 集群中所有存储节点上的文件。HDFS之 上 是 由 JobTrackers 和 TaskTrackers 构 成 的MapReduce 引擎。除此之外还包括数据仓库工具Hive 和非关系型数据库NoSQL 等模块。
Apache Spark 是一个统一的分布式内存计算引擎[2]。Spark 的设计目标是为编写大数据应用程序提供一个统一的平台,它的应用范围限制在计算引擎之内,从存储系统加载数据并计算,但最终结果并不永久存储在Spark 中,Spark 可以和多种存储系统结合使用,如Kafka(一个开源的流处理平台)、Hbase(一种开源的分布式非关系型数据库)、Hive、HDFS 以及关系型数据库。Apache Spark的局限性在于没有文件管理系统,需要与其他平台集成,不支持完整的实时数据处理,内存消耗非常高,小文件发行问题,等待时间较长,支持算法偏少,不能自动处理背压,需要手动优化等。
Samza 是一个分布式的流式数据处理框架,它基于Hadoop 并使用Kafka 分布式消息系统处理实时数据[3]。Samza 的目标是将数据流作为接收到的消息进行处理,Samza 的数据流初始元素是一个消息,数据流是分区的,每个分区都有一个特定的ID(标识)或偏移量。Samza 将存储和处理放在同一台机器上,不加载额外的内存,尽管Samza 主要是依赖于Hadoop 的Yarn 和Kafka,但是它的Execution模块和Streaming 模块是可插拔的。
教育大数据研究可大致划分为四个方向:学习者的行为和表现、大数据建模和教育数据仓库、教育体系的改进、大数据融入课程。
这一研究方向包括如下主题:学习分析、用户行为和态度、适应性学习和学习满意度。
基于不断增长的教育大数据,学习分析可以增强对学习行为的理解,为决策者、讲师和学习者提供有用的建议,帮助教育从业者提高教学效率[4]。在学习分析领域中,许多研究已经开展并取得了相关的成果[5]。值得注意的例子包括对学习者失败风险的识别[6]和来自社区间互动的数据流分析[7]。
学习管理系统(LMS)在高等教育教学模式中发挥着基础性作用。通过学习管理系统分析学生的行为和态度并改善学习过程的新研究方向已经出现。例如,Cantabella 介绍了一个在穆尔西亚天主教大学进行的案例[8],该案例考虑了LMS 的访问量、学生使用的工具及其相关事件并根据学生的学习方式(即校内、网上和混合)分析了他们过去四年的行为。
自适应学习系统通过持续的互动为学习者提供建议。丰富而个性化的学习资源、及时的反馈系统、快速的沟通系统、自适应的实时评估更符合个人需求。个性化自适应学习已经成为教育大数据研究的新范式。例如,有研究考虑到MOOC 用户多、资源丰富,但缺乏自适应学习的特点,建立了以学习者认知需求为中心的自适应学习MOOC 教育大数据系统模型[9]。
在线学习平台产生的教育大数据提供了与满意度相关的各种信息如学习内容、服务、互动、努力程度等,它是一种适合实时处理的大数据集范式。教育大数据为在线课程提供了实施非侵入性和过程性评估策略的机会,对传统且耗时的收集反馈方式(如问卷调查)是一种有力的补充。例如,Elia G 设计了一种新方法,分析学生在线学习产生的数据,评估学生对课程的满意程度[10]。
随着学习人数的日益增加,在线学习门户网站或在线教育系统跟踪和记录的数据量越来越庞大,标准分析程序已经无法满足处理要求。需要建立和使用大数据模型加快分析进程。另一方面,许多NoSQL(非关系型数据库)平台,如Hadoop、Cassandra、MongoDB 等已经出现,且支持MapReduce范式,这为并行地计算和分析教育大数据,进而抽取相关模式提供了基础。许多研究人员根据不同的教学应用场景,提出了各种教育大数据分析模型。例如ahin M 基于多种机器学习方法开发的各种模型如决策树[11]、逻辑回归、支持向量机、集成学习和k-最近邻方法等,提出了一种自适应神经模糊推理系统(ANFIS)。ANFIS 结合了神经网络技术和模糊推理方法,能够高精度地预测MOOC学生的辍学率。
教育机构的管理人员需要及时的分析报告,以评估和跟踪学生的成绩、入学人数的增减、学术资格、实验室和建筑维护记录、学生访问记录和全体学生就业记录等。目前,大多数研究报告都需要花时间从分散在不同来源的数据库中收集数据,在约定的期限内,分析师们往往只能提供有限却昂贵的信息。因此,建立提供许多接口,能够兼容和管理各种数据类型的数据仓库成为教育大数据研究的核心挑战。Neamah 提出了一组构建教育数据仓库的步骤[12],第一阶段进行数据预处理、数据收集、数据输入和数据验证,第二阶段对高校不同资源库中的信息和数据进行加载、提取和转换,第三阶段存储所有信息和数据,创建数据仓库。
改进教育体系的研究涵盖了统计工具和分析软件的选择、教育排名系统、互联网的使用等主题。
当今社会,大数据软件专家的数量远远小于实际需求。解决这一问题的潜在方法是选择和使用专业的数据分析软件和统计工具。Ozgur C 比较了Excel 插件、SPSS、SAS 和R 四种数据分析软件[13]。作者概述了每种软件的授权费、培训时间和费用、统计方法和应用领域等,为大学师生提供有价值的参考。
目前有许多排名系统为高等教育提供地区性、全国性或国际性的评估服务,然而,由于它们通常采用主观性评价指标和权重因素,产生的排名结果在客观性和公正性方面备受质疑。教育大数据的涌现,为教育排名系统研发提供了全新的视野。例如,Qiu 等人在大数据技术的支持下,开发了一个实时、可扩展和模型驱动的高等教育排名系统[14]。
如何评估互联网对教育的影响一直是研究者感兴趣的主题。目前,两种大数据分析工具即谷歌趋势(Google Trends)和网络分析工具(Web analytics tools),为了解学习者使用互联网的情况提供了巨大的潜力。基于这两个创新工具,监测大规模教育互联网的使用数据,研究人员能够了解在教育教学中,互联网的使用是否缓解或加剧了现有的教育不公平、提高或降低了学习效率等问题。
越来越多的研究认为,在教学中,要对大数据的概念和技能进行实质性的覆盖,需要更多地、逐步地对学生进行干预,并将大数据主题整合到多个核心课程中。许多研究针对将大数据融入课程这一主题展开了有益的探索。例如,Buffum 等人开发了一个面向中学的大数据课程模块[15],该模块与美国课程标准结合紧密。他们的研究表明,在中学引入大数据教学,能够丰富包括科学、数学和语言艺术在内的核心学科。Nelson 等人针对电气和计算机工程专业的研究助理开发了一个大数据教育课程项目[16]。美国会计协会(AAA)和国际大学商学院促进协会(AACSB)一直强调将大数据及其处理技术整合到会计课程中的重要性。为了响应这些呼吁,并确定一个共同的教学资源主体,Sledgianowski等人设计了一个会计教育框架,帮助教育工作者将与大数据和商业分析相关的信息系统和技术能力整合到会计课程中[17]。
1.教育大数据采集和元数据(描述数据的数据)自动生成
数据采集的目标是在数据存储到数据仓库或其他存储设备之前对数据进行收集、过滤和清理。然而,定义数据过滤器是主要的挑战之一。而另一个挑战是如何自动生成元数据。元数据描述了需要记录哪些数据,以及如何记录和测量数据。需要新的方法和思路记录数据的上下文环境和语义。
2.教育大数据质量
数据的价值取决于数据的质量。通常情况下,数据包含误差、错误和不完整性。但是,目前低质量数据已经成为一个严重的问题。在许多数据仓库项目中,数据清理消耗大约30%至80%的开发时间和预算。提高教育数据质量是大数据分析专家面临的重要挑战。
3.教育大数据的共享和转移
尽管数据在急剧增长,但大多数数据仍然无法访问或无法全部访问。由于大数据的异质性和规模性,大数据的共享成为一项具有挑战性的任务。此外,将大规模的教育数据从一个位置无缝地转移到另一个位置也是一个潜在的挑战。
4.教育大数据的查询和索引
在教育大数据的查询和索引中,存在一些挑战。首先,大数据存储在分布式系统中,因此大数据集的索引结构和查询理论应该基于这样的系统来发展。其次,树状结构在传统的查询优化和索引技术中非常流行,但在大数据集上却不能很好地工作。第三,容错是大数据查询和索引中需要注意的一个重要方面。此外,在大数据分析中保持合理的查询性能和吞吐量是一个重大的研究挑战。
5.教育大数据的不确定性
当从多个异构来源收集教育数据时,数据的不确定性也伴随而来。通常,不断扩大的数据规模导致数据的不确定性发生突变,传统数据梳理工具失去作用。教育大数据的这种不确定性严重影响了深度学习算法的性能。近年来,不断有研究人员提出各种方法,试图解决数据的不确定性给教育大数据学习带来的问题,然而,为了确保从大数据分析中得出可靠的结论,仍然需要更合适的方法来理解数据的不确定性。
6.教育大数据的隐私、安全与伦理
数据隐私、安全和伦理是大数据创新生态系统的三大关注点。数据隐私涉及到如何查看和管理教育信息,数据安全涉及到个人重要信息的保护,数据伦理与数据分析的滥用有关,其中,隐私是最大的担忧。在相互联系和开放的当今世界,包括个人信息在内的信息共享越来越多,而大数据的阴暗面就是允许对这些信息进行监视。另外,即使有强大的网络安全,仍然可能存在隐私侵犯,因此,研究和开发新的工具和技术保护高度分布在网络中的大规模数据至关重要。
7.教育数据的可视化
可视化的教育大数据能够生成易于使用的、动态的、交互式的分析视图。然而,静态或动态教育大数据的可视化是主要的研究挑战之一。这种挑战来自数据感知、数据的实时性以及交互的可扩展性。降低延迟和减少数据是解决这一问题的思路之一,同时,随着自动化技术的不断发展,数据的分析解释工作在人类的适度参与下,下一代可视化技术预计会随着时间的推移而快速发展。
本文从数据分层、技术平台、研究方向和研究挑战等方面对教育大数据的研究工作进行了全面分析。各种各样的数据源(如学习管理系统、开放教育资源、大规模在线课程、社交媒体和关联数据等)产生了类型各异的教育数据。为了理解这些异构的教育大数据,本文首先从微观/中间/宏观三个层次探讨了教育大数据的产生和应用场景,然后研究了教育大数据的分析和处理平台。为了给研究人员提供积极的参考,本文着重分析了教育大数据研究的四个方向及其涵盖的主题,同时梳理了教育大数据研究面临的各种挑战。