▍上海交通大学高等教育研究院 魏昊卿
随着信息技术的发展,数据已逐渐成为信息时代社会发展及科学研究的重要资源。据IDC公司报告,2020年全世界产生的数据总量将高达40ZB。正如联合国发布的报告“Big Data for Development: Challenges &Opportunities”所说,大数据时代已经到来,数据在社会发展与科学研究中的作用逐渐显现。
根据McKinsey公司的界定,大数据是指数据量达到海量,无法通过常规数据软件进行获取、存储、管理和分析的数据。大数据的特征,根据IBM公司的定义,具有4V的特点,即:(1)Volum,数据量大,通常用海量来形容;(2)Variable,数据类型多样化,数据逐渐转变为半结构化;(3)Velocity,数据处理的快速化,大量数据的快速传输、运算和处理成为可能;(4)Value,价值高和密度低,有分析价值的数据仅占一部分。
大数据的应用带来了科学研究范式的变化。Jim Gray提出了数据密集型科学的概念,并对科学研究的范式进行了以下分类:(1)实验科学(Experimentation),通过对自然现象的描述,归纳其中的规律,该方法出现于 1000年前;(2)理论推演 (Theoretical),通过建模,由特殊到一般进行推进,归纳出理论框架,该方法出现于数百年前;(3)计算机仿真(Computational),摆脱对于实验的依赖,通过“干试验”模拟复杂现象,获取实验数据,该方法出现于几十年前;(4)数据密集型科学 (Data-Intensive Science),也称第四范式,基于前三种方法,通过IT技术,对于海量数据进行获取、处理、存储、分析。
2012年,美 国 开 始 启 动“Big Data Research and Development Initiative”计 划,旨在对大数据进行收集、处理、分析,从而加快科学领域的创新步伐,标志着正式将大数据提高到国家战略层面。在教育领域,美国学校管理者协会(AASA)和学校网络联合会(COSN),同Gartne公司进行合作,启动了“Closing the Gap: Turning Data into Action”项目,旨在促进大数据在教育领域的使用。此外,许多世界一流大学,例如耶鲁大学、哈佛大学、斯坦福大学都采取了相应举措,加强了关于教育大数据的研究。
根据学者的定义,教育领域大数据的定义有宏观和微观之分。宏观层面上,教育大数据涵盖了一切参与者在教学活动中的行为数据,具有层级性、时序性和情境性的特征;而微观层面上,教育大数据专指学习者的行为数据,主要来源为各类教育平台、教育管理系统等。
LA是近年来大数据在教育领域运用较为典型的技术手段。首届教育领域学习分析与知识国际会议提出,LA以理解、优化学习情境为目的,对于学习者及其环境所产生的数据进行测量、收集、分析。
在“NMC Horizon Report 2012 Higher Education Edition”报告中,NMC阐释了LA的定义:LA是指利用数据收集技术和分析方法,对于学习者学习参与、表现的相关数据进行研究与分析,从而达到评估学业、预测未来表现、发现潜在问题的目的。
美国国家教育部发布的报告“Enhancing teaching and learning through educational data mining and learning analytics”认为,LA需要综合运用信息科学、社会学、心理学等学科中的相关理论,通过教育大数据的收集、统计、分析,建立相关模型,对学习行为进行评价,从而为学习者提供个性化反馈。
Bienkowski将LA的应用领域分为几类,包括用户建模、领域建模、趋势分析等。而这些应用领域中LA的实现,都需要相应的数据来源,也需要相应的技术方法。
首届技术促进教育变革国际会议上,Jui-Long Hung博士提出了教育数据挖掘(EDM)这一概念。EDM是综合运用机器学习和数据挖掘的技术,对学习者行为相关数据进行研究,使行为模型化显示,探究各变量的相关关系,预测学习者未来发展趋势。
Baker R. S.认为,EDM的研究包括四方面:(1)建立学习模型,收集并分析学生的学习动机、学习掌握程度、学习态度等相关数据,对于学生将来行为进行预测;(2)建立领域模型,对于教学者教学内容进行展现,调整教学序列;(3)评价支持效果,对于各类学习辅助软件的支撑能力进行判断与评价;(4)建立计算模型,模型中涵盖了学习模型、领域模型涉及的数据,可用于辅助教学的相关科学研究。
关于EDM的相关技术方法,Romero C和Ventura S归纳出五类:统计分析与可视化、聚类、预测、关系挖掘、文本挖掘。
常见的可视化技术包括标签云、历史流以及空间信息流等。通过对数据分析结果的可视化处理,可以发现其隐藏的关联,提供给用户直观观测形式,最终用于指导决策。
许多网络教学平台都有对用户行为进行记录的功能,例如系统登录时间、学习测试情况、与同学的交互等。学生的学习情况能够直观呈现,对于教学者而言,能够增加对于学生的了解与理解,更有针对性地对学生进行指导,从而有利于教学发展与进步;对于学习者而言,可直观地了解自己的学习行为,反思自己的学习过程,从而促进自我规划。
例如,鲁汶大学的Gantz J和Reinsel D在欧盟项目ROLE中,开发了一个应用程序,记录学生在课程中参与活动的情况,并将数据进行可视化分析,以图表来显示学生的学习情况,为学生提供反馈。
在高等教育领域,数据可视化技术可以帮助教学管理者建立学习者模型,对学习表现进行分析,进而发现课程设计上的问题,完善教学设计与平台功能,提供更好的教学支持服务,促进教学组织的发展。
随着互联网时代的发展,如何将学习科学和现代技术有机结合,为所有学生创造融入性、个性化的学习体验,使得学习能够映射到学生未来的现实生活中,是当代教育面临的全新挑战。而大数据为这一挑战提供了解决路径。利用大数据的技术方法,可以增进教学者对于学习者真实状态的了解,同时沉淀每个学习者的个性化数据,便于教学者提供个性化的学习资源,在教学规划、教学工具上都可实现个性化。
学习管理系统正在向个性化自适应学习平台发展。通过大数据技术,持续采集学习者的数据并进行智能分析,学习行为的记录更加精细化,可以完成从对结果到对过程的重视的转化。
例如,MOOCs的学习中,学习者的各个行为都会产生大量数据,通过对这些数据进行挖掘和分析,可全面跟踪和掌握学习行为、过程和特点,提供分析报告和研究服务,从而提高学习质量。
教育大数据相关技术带来新的教学方式变革,对于学习者的相关过程数据进行建模、分析、预测,有利于个性化教育的实现。美国在2010年发布的“National Education Technology Plan”中强调,各类教育系统要利用技术测量、评价学习过程,教育管理者应该利用技术收集学习中的实时数据,为持续改善学习效果提供依据。
随着互联网时代的发展,新兴的教学模式如MOOCs、翻转课堂逐渐兴起,而这些新兴教育模式的开发与推广,都与教育大数据技术的支持息息相关。教育技术的突破在于交互和大数据,这使得MOOCs与此前的远程和在线教育有本质上的差别,形成了一场真正的教育革命。
以MOOCs为例,利用教育大数据技术,在MOOCs学习过程中,系统对于学习者的过程性数据进行记录与分析,最终会汇集成学习大数据。MOOCs系统建立了由机器自动评测的交互式测验,可在分析中发现、总结数据中的规律,实现即时交互,使教学者能及时传播知识,掌握每个学生的学习进度与状态,并能随时对学习者进行引导。有别于传统的远程教育,MOOCs突破了单向的教师教书、学生学习的模式,提高了学习效率。
Course Signals System课程信号灯系统,是普渡大学所开发的。借助数据挖掘技术,该系统建立了相关模型,根据变量预测学生是否能够完成该课程,数据量化地监测学习进程,可以让学生更好地了解自身状态。
教育评价,Lee Joseph Cronbach将其界定为对任何于教育有指导意义的信息进行收集和分析的过程。而学者Daniel L.Stufflebeam提出,对于教育过程、教育成果涉及的资料进行收集,从而为教育决策提供一定支持的过程,是为教育评价。
随着信息时代的发展,教育评价的数据主义趋势逐渐显现,教育大数据在教育评价、教育决策方面发挥着越来越重要的作用,美国政府早在2002年便提出要重视教育大数据在支持教育决策方面的作用。
现阶段已有不少将大数据评价方式应用于教学中的实例。以LMS系统为例,LMS是用于教育管理自动化的软件,在使用过程中,LMS能提供较多元的测试方式和较完整的评价体系,跟踪记录学习者数据,并向管理者提交报告。同时,LMS中有个性化的学习轨迹数据,能对学习进行客观的分析,为教师改进教学提供重要依据。
而在我国,目前也已有完善的大数据教育评价应用,通过大数据技术方法,客观而全面地对学习者进行学习历程的记录与规划。并且《国家中长期教育改革和发展规划纲要》也提出了对大数据应用于教育评价的重视,提出“要改进教育评价,根据培养目标和人才理念,建立科学、多样的评价标准”。我国教育部已有相关的部门与人员,通过建立完善的数据库,对教学质量进行监测。而上海作为试点地区,在2011年已开始收集中小学学业水平数据,包括学习动机、师生关系等信息。及时向教育管理部门反馈评价结果,有利于促进形成性评价的开展与实施。
在教育管理方面,教育大数据相关方法与技术能够提供良好的支持。教育管理所涉及的数据量广泛,包括人员信息、资产设备信息、教学活动信息、社会服务信息等,运用大数据技术,能够对这些信息进行收集、分类、统计、分析,并加以可视化呈现,构建学校教育管理的Dashboard,让自下而上的数据收集服务于管理者自上而下的校园管理。
目前,我国大学已广泛将大数据用于教育管理之中。以复旦大学为例,其在多年前已有各业务数据库,对这些分散数据库进行整合,集成为全校范围的综合全局数据库,为学校的教学管理提供支持。同时,上海财经大学更是把教育数据仓库写入了本校信息化建设目标之中,计划依靠数据仓库技术对学校的校务管理提供决策支持。此外,在提升学校网络安全、改善教学和科研管理、完善学生救助体系、防范教育危机、促进教育均衡发展等方面,教育大数据都能提供相应支持。
综上所述,教育领域的大数据应用对于研究范式、教学方式、教育评价、教育管理都有所支持,但在应用过程中需要注意数据的整合和交流。数据的重组与联合、统一数据库不同部分、不同数据库之间的交流共享会产生比单个总和更高的价值。对于这一问题,美国有很多自组数据合作体进行数据交流共享,如COFHE、AAUDE、CSRDE等,都是较为成功的数据共享联盟。
教育领域大数据的应用,将增加学习透明性,但同时也有可能引发一系列社会伦理道德问题。针对这一问题,已有机构与大学制定相关文件对其加以规避。例如,美国将对于学生隐私的保护写入法案之中,美国颁布的《家庭教育权利与隐私法案》中就有相关规定;同时,在美国发布的“Big Data for Development: Challenges & Opportunities”报告中也提出,相关教育机构在获取学生个人数据信息后,如要交付给第三方机构用于技术开发,必须规避法律法规和相关国家政策。而我国目前正在积极推进大数据在教育领域的应用,在这一进程中,应注重相关数据信息的隐私保护,提升技术防范措施,制定相应法律法规,通过国家保障让教育大数据更好地发挥其真正的价值。