陆根书,李珍艳,王 玺
(1.西安交通大学,中国西部高等教育评估中心,陕西 西安 710049;2.西安交通大学,公共政策与管理学院,陕西 西安 710049)
大数据与大数据分析技术为高等教育应对当前面临的挑战提供了有效手段。美国教育部和中国国务院均在国家层面提出了建设教育大数据,加强教育大数据挖掘与分析,促进教育改革发展的战略部署[1-2]。中国教育部、国家发展和改革委员会、财政部在2013年4月下发的《关于深化研究生教育改革的意见》提出,建立质量信息平台,建设研究生学业信息管理系统和研究生教育质量信息分析和预警机制,改革质量评价机制。近年来,随着中国研究生教育规模的快速扩张,研究生培养规格更加精细化,研究生教育质量问题日益突出,因此如何评价研究生教育质量面临新的挑战。大数据分析技术可为研究生教育质量评价提供新的思路和解决方案。研究将在梳理大数据与大数据分析相关概念和方法的基础上,归纳总结高等教育大数据分析的关键应用,探析大数据分析技术与方法在研究生教育质量评价中的应用与发展趋势。
1.大数据的概念
严格地讲,大数据的概念在学术界还未形成统一的认识。1997年,美国国家航空航天局的两位研究人员在他们的论文中首次提出了“大数据”的难题,用以描述当时面临的数据过载及常规运算无法应对的巨大数据集现象[3]。之后,大数据的概念得到了高度关注,研究者从多个不同角度对其进行了诠释。
2011年,麦肯锡公司(McKinsey Company)发布的研究报告分析了大数据的巨大发展潜力,并认为“大数据”的数据量超出常规数据库采集、存储、管理和分析的能力[4]。麦塔集团研究人员指出大数据的机遇和挑战主要是数量(Volume,数据大小)、速度(Velocity,数据输入、输出的速度)与多样(Variety,多样性),简称“3V”或“3Vs”[5]。自此,大数据的3V定义被广泛使用,之后,一些研究者还加上了真实性(Veracity)、价值(Value)、可行性(Viability)等[6],将其扩展至4V、5V、6V甚至7V。
De Mauro等总结了学术文献中与“大数据”相关的四大主题,即信息、技术、方法和影响。大数据现象存在的根本原因之一,是在某种程度上可以获取和挖掘隐藏在其中的信息,因其数量集的大小和处理的复杂性,需要更加严格的存储和计算性能要求。对大数据的分析以及价值挖掘需要超越传统的统计方法,通过大数据分析得出的结论可能以意想不到的方式对社会和生产产生影响。基于此,他将大数据定义为信息量大、速度快、种类多的信息资产,且需要特定的技术和分析方法挖掘其隐藏的价值[7]。朱扬勇和熊赟在分析已有的大数据定义后,认为可用为决策提供服务的大数据、大数据技术和大数据应用等三要素来定义大数据[8]。
2.大数据分析方法
仅仅有海量的数据并没有什么“价值”,必须经过科学而合理的分析方法才能获得人们所需的价值。应用相应的分析方法从海量数据中快速挖掘有价值的信息才是“大数据”的核心要义。大数据分析有很多方法,如聚类分析、数据融合和数据整合、遗传算法、机器学习、自然语言处理、模式识别、社会网络分析、关联规则分析、预测建模、分类、回归分析、文本挖掘、可视化等[4,9-10]。有学者根据大数据的来源将目前的分析方法分为文本分析、视频分析、社交媒体分析等[11]。
随着大数据技术的不断发展,其分析方法也会随着数据本身的演化以及社会的需求而不断更新。有学者总结了大数据分析在教育领域内常用的方法,包括基本统计程序,分类、聚类分析和关联规则挖掘等[12]。这些方法的基本内容包括:①传统统计分析方法。根据分析目标和数据类型,可以同时应用描述性和推断性统计进行数据分析。②预测分析。常用的方法主要有分类、回归分析、时间序列分析等。分类预测主要针对离散变量,通过对已知类别数据的分析,预测新数据的类别;回归预测主要针对连续变量,如有研究利用分类和回归算法预测学生的表现和成绩等[13-14];时间序列分析则侧重考察数据在时间维度上的互相依存关系和发展趋势。③聚类分析。通常用于解释性分析,根据目标变量对案例进行分组。例如有学者利用学生在在线学习环境中的学习与互动模式数据,对学生进行分类,并对不同类别学生群体的特征进行分析[15]。④异常检测。异常检测的目的主要是对不符合预期模式或明显区别于数据集中趋势的项目、事件或观测值的识别,并且挖掘出异常数据点所反映出的有意义的潜在信息,如识别问题学生[16]和进行教育监测预警等。⑤关联规则分析。关联规则分析旨在发现不同变量之间隐藏的数量关系。例如,有学者利用关联规则分析挖掘基于E-learning的用户行为日志数据,通过用户学习路径分析,提出了教育资源个性化推荐方法[17]。⑥文本挖掘。文本挖掘是从非结构化或半结构化的文本数据中,获取有价值的信息和知识的一种过程,主要包括文本预处理、特征选择、获取知识模式、模型评估等。常用的方法有关键词提取、文本摘要、聚类、文本分类、主题模型、观点抽取、情感分析等。对非结构化文本数据的分析和挖掘也是教育大数据分析的重点研究领域,如有研究者将文本挖掘应用于学习分析[18]。
1.高等教育大数据
早期应用大数据为高等教育发展服务的许多分析工作都来自跨学科研究,涉及教育技术、统计学、数学、计算机科学和信息科学等领域。在高等教育与信息技术结合越来越紧密的背景下,高等教育大数据意味着对广泛的教育管理和业务数据进行收集、解释,旨在评估高等教育机构的业绩和进展,预测未来的表现并确定与学术规划、研究和教学相关的潜在问题[19]。在数据仓库中捕获、存储数据并应用数据挖掘技术是未来高等教育活动的重要工作[20]。有的学者将高等教育大数据定义为存在于高等教育领域,能够影响教育教学活动的一切隐性数据和显性数据的集合[21]。也有研究者认为,教育大数据是指教育过程中所产生的以及根据需要采集到的任何可创造潜在价值的数据集[22]。因此,高等教育大数据的研究应该关注和强调其服务教育发展的功能以及潜在价值的挖掘。
2.高等教育大数据分析应用
大数据可以从不同的方面影响高等教育实践,从提高学生体验到改进学术规划,到基于证据的教育决策,再到对全球变化趋势的战略响应。有学者认为,高等教育大数据分析主要有四种不同应用类型,即制度分析、信息分析、学术分析和学习分析[23]。也有研究将当前高等教育大数据应用分为两个方面,即学习分析和教育政策分析,其中学习分析涉及对学习者及其背景的数据进行采集、分析和报告,以提高学生表现和评估课程、学习计划和教育机构。同时,大数据也可以为教育政策的形成和实施提供实证支持[24]。也有学者认为大数据引导传统教育向数字化个性化教育发展,大数据支持的教育政策制定更具科学性和引领性,基于大数据的教育评价和学习分析向客观性发展[25]。下文将对基于大数据的高等教育评价和学习分析两大重点应用领域作简要概述。
(1)基于大数据的高等教育评价
教育评价作为教育过程中保障和提高教育质量的一个重要手段,只有采用科学的评价方式才能客观反应教育过程中存在的问题,促进教师和学生改进教学过程和方法,提高教育质量。在大数据时代,高等教育评价会更加注重教育全过程、全方位数据的采集与分析、数据处理的智能化与可视化、数据资源平台的共享化、评价诊断信息的个性化与及时反馈,为高等教育评价提供可靠的依据和精准化的判断[26-28]。已有关于大数据背景下的高等教育评价的研究与应用主要涉及机构评价、政策评价[29-30]、学业评价、教师评价[31]等不同领域。
(2)学习分析
随着网络学习、云教育平台和MOOCs等的发展,使得教学过程数据更加容易获取,学习分析也成为当前教育大数据研究的一个热点领域,来源广泛、动态增长的在线学习数据也为学习分析提供了更多可能性。通过学习分析促进学习的应用主要包括两大类:一是通过建立预测模型进行学习干预;二是促进教学反思和策略调整的学习分析报告[32]。一个整合的学习分析系统一般包括分析引擎、适应内容和个性化引擎、干预引擎、仪表盘、报告和可视化工具等组成部分[33]。用于学习分析的常用分析技术主要有可视化分析、聚类分析、相关分析、关系挖掘、预测分析、内容分析等[34-39]。
研究生教育涉及到政府、社会、研究生培养单位、导师和研究生等诸多方面,其质量是多因素、多角色共同作用的结果。研究生教育质量评价涉及研究生培养的输入、过程、输出等不同环节,需要围绕这些环节收集、获取大量真实、有效的信息,才能对研究生教育质量进行评价和判断[40-41]。当前中国研究生教育质量评价还存在评价主体单一、评价指标不够准确、指标构建缺乏实证研究等问题[42]。从发展趋势来看,虽然评价主体正从单一主体转向多元协同,评价对象日益细化,针对不同学科专业、不同层次学术与专业学位研究生、不同类型和行业高校的评价日渐增多,实证评价方法逐渐成为主流范式,聚焦研究生教育过程的问卷调查方法也成为新的趋势[43],但是,如何采集研究生教育教学全方位、全过程、细粒度的数据,如何更加科学地设计研究生教育质量评价指标,以及如何采用更加科学、专业的数据分析技术与方法,还有待进一步探索。在这方面,大数据分析方法具有广阔的应用前景,也可以为研究生教育质量评价提供有力支持。
下文将以笔者参与的教育部学位与研究生教育发展中心的“研究生教育质量大数据分析专项研究”项目为例,对研究生教育质量监测指标体系构建、研究生教育质量监测大数据采集、研究生教育质量监测大数据分析平台建设、研究生教育质量监测大数据分析模型构建及应用等进行简要概述。该项目旨在研究研究生教育质量监测的关键指标,在此基础上进行大数据采集、分析和挖掘,分析中国研究生教育发展的现状、问题及规律,为研究生教育质量监测与保障提供支撑。
通过对研究生教育质量内涵及其影响因素的研究,该项目构建了基于“输入(Presage)—过程(Process)—产出(Product)”的研究生教育质量监测3P模型。其中,输入质量包括研究生生源质量、导师等特质因素,以及研究生培养目标、课程设置、研究氛围等教学情景因素;过程质量包括研究生培养过程中课程学习、导师指导、科研训练等不同方面的质量;产出质量是指研究生取得的学习产出质量,如研究生认知能力与情感发展质量、学位论文质量等。一般情况下,输入质量会影响过程质量,过程质量会影响产出质量,产出质量又会通过反馈机制影响输入质量和过程质量。围绕上述三个环节,项目组从生源质量、师资队伍、培养过程、国际交流、研究成果、研究生发展六个维度设计了一套包括17个二级指标、47个监测点的研究生教育质量监测指标体系。
基于上述研究生教育质量监测指标体系,主要从三个方面汇聚相关的数据资源:一是来自教育部学位中心的各类业务信息系统的数据,涉及包括反映学位授予单位、学位授权点、学科等基本情况的教育基础数据,与研究生培养各环节相关的教育过程数据,反映研究生教育教学成果的数据,以及研究生科研经历调查数据等。二是通过人工采集、网络爬取等方式采集的外部公开数据,包括教育部、统计局、科技部、国家自然基金委等部门面向社会公开的教学科研项目、成果等方面数据。三是通过服务合作等方式获取的第三方数据,如研究生发表的各类科研成果数据。
研究生教育质量监测大数据分析平台旨在根据研究生教育质量监测指标体系,根据相应的算法模型,实现对研究生教育质量的监测和大数据分析结果的可视化展示。如图1所示,列出了研究生教育质量监测大数据分析平台设计架构,包含数据源层、数据采集层、大数据平台层,访问控制层、大数据服务层,以及数据标准体系和信息安全体系。
平台的主要功能模块包括质量监测、预测预警、主题分析、基础报表、数据资源管理等。其中,质量监测模块包含质量监测指标、质量监测分析、质量关联分析、学位论文质量关联分析等子模块,分别对各个监测指标从全国、省市自治区、高校、学科门类等四个层面进行多元、多维、灵活的可视化呈现。预测预警模块包含攻读学位时间预警、学位论文抽检合格率预测预警、硕士研究生导师人均指导硕士生数预测预警、博士研究生导师人均指导博士生数预测预警、研究生就读期间发表高水平论文研究生比例预测预警、导师中国国内期刊论文篇均被引频次预测预警等子模块。主题分析模块主要包含对一些非结构化数据、文本数据等的分析,如学位论文主题分析、高校研究生教育舆情分析。基础报表模块包含历年学位授予数据统计子模块。数据资源管理模块包含研究生教育质量监测数据库中各类数据资源的查询与展示。平台还根据不同级别的用户设计了相应的管理、使用权限,以便实现更加个性化的服务。
研究生教育质量监测大数据分析模型主要包括基于异常数据的质量监测预警、基于历史经验数据的质量预测、基于质量影响因素的关联分析、基于教育统计数据的结构分析、基于研究生培养过程数据的学习与研究行为分析等模型。下文对部分模型应用案例进行简要说明:
1.基于大数据的全国高校博士研究生学位攻读年限离群监测预警模型
该模型基于2008—2017学年全国高校博士研究生学位授予大数据,采用基于三个标准差的离群监测方法,构建了全国高校博士研究生学位平均攻读年限离群监测预警模型,对博士学位攻读年限处于异常状态的学位授权点进行监测预警,为对比分析博士研究生培养质量和培养周期提供参考。
2.全国研究生教育质量关键监测指标预测模型
为及时发现研究生教育的发展状况及存在的问题,基于全国研究生及研究生导师基础数据、全国学术博士学位论文抽检结果数据、研究生发表的学术论文统计数据等,应用Daniel检验法和局部加权线性回归算法,对硕士研究生导师人均指导硕士生数、博士研究生导师人均指导博士生数、学位论文抽检合格率、研究生就读期间国内核心期刊论文生均篇数等有关研究生教育质量监测关键指标进行预测,为判断其发展趋势和发展存在的问题提供技术支撑。
3.全国研究生学位论文质量影响因素分析模型
学位论文作为研究生期间最重要的科研成果,是检验研究生教育质量的一个重要指标。该项目采用相关分析、方差分析、回归分析等统计方法,探讨博士、硕士研究生培养过程中输入因素(如生源与导师质量等)和过程因素(如课程学习、导师指导、科研训练等方面的质量)与研究生学位论文质量之间的关系,分析影响研究生学位论文质量的关键因素,为提高全国研究生学位论文质量提供证据支持。
4.全国研究生学位论文评审意见大数据文本分析
同行专家评审是对学位论文质量进行的最直接、最全面的质量认定,专家的评审意见大数据为开展文本分析提供了很好的数据来源。专家评审意见是非结构化数据,通过人工难以从海量数据中挖掘有价值的信息,且费时、费力,而基于大数据的文本分析技术的发展为快速、准确地识别专家评审意见对学位论文质量评价的特征,深度挖掘专家评审意见的价值,为构建学位论文质量评价指标体系提供了新的思路和视角。该项目以40余万博士学位论文专家评审意见为样本。首先,采用Hanlp分词工具对抽检博士学位论文的专家评审意见进行分词处理,提取评价学位论文质量特征的关键词,并对这些关键词进行人工和机器筛选,去掉杂词,最终获得了共计100万左右的短语,形成了全国首个博士学位论文专家评审意见词库。其次,根据基于已经形成的专家评审意见词库,提取抽检博士学位论文质量评价的热点高频关键词,并绘制词云图进行可视化展示。最后,根据不同学科博士学位论文的评审等级(如优秀的博士学位论文),以当前抽检博士论文的四个评审指标(选题及综述、规范性、基础知识和科研能力、创新性及论文价值)为基础,应用神经语言网络模型在词库里提取近义词,得到不同学科博士学位论文在每个评审指标上近义词集,然后采用K-means聚类分析方法对每个指标的近义词集进行聚类,构建了不同学科博士学位定性评审的指标。
以大数据为契机,改进研究生教育质量评价工作,是进一步深化中国研究生教育改革,完善研究生教育质量保障体系的重要路径。传统的教育评价往往因为缺乏客观、可靠的数据支撑而过于依赖主观经验判断。大数据分析技术与方法为科学、客观、实时的研究生教育质量评价提供了机遇,因此,其有可能会深刻地改变传统的研究生教育质量评估方式甚至研究生教育的形态。
基于大数据分析的研究生教育质量评价注重对评价数据进行全方位、全过程的采集,注重对评价数据的深度挖掘分析,因而,可在一定程度上突破传统的研究生教育质量评价在数据采集方式、取样范围上的局限性,并通过揭示数据之间隐含的关联关系,强化研究生教育质量评价的客观性,为研究生教育质量的过程性评估和持续监测提供技术支撑[44]。开展大数据驱动的研究生教育质量监测与评价,需要加强如下三个环节:
一是研究生教育质量监测评价指标体系构建。应该围绕研究生教育输入、过程、产出等各个教育环节,并考虑不同利益相关者的视角进行系统设计。另外,随着研究生教育质量大数据的不断更新和研究生教育质量状况的提升与发展,指标体系也应该进行动态调整和改进,以提升评估的适应性。
二是研究生教育质量监测大数据采集。大数据时代,高校网络信息以及在线教学等技术手段的发展,使得与研究生教育质量相关的细粒度、全方位、全过程的数据采集与获取成为可能。大数据分析方法与技术的迅速发展也为从海量大数据集中挖掘出有价值的而信息提供了技术保障。研究生教育质量大数据采集,一方面,要注重整合多源、异构、海量的研究生教育相关的各类数据资源,构成相互关联、结构完整的研究生教育数据集,包括学业、实践、科研、就业等状态信息、培养过程、学术队伍、教育管理以及各类统计数据等;另一方面,要构建研究生教育教学过程数据实时采集机制,将实时、动态的研究生教学过程和交互状况数据化,便于教学监督、评价和改进。
三是研究生教育质量监测模型与监测平台建设。基于研究生教育质量大数据,综合运用大数据分析与挖掘技术,构建研究生教育质量监测模型和监测平台,可以实时、动态、直观、形象地多角度呈现研究生教育质量监测、评价体系的现状及变化趋势。依据不同的监测结果进一步构建质量反馈机制也是质量评价的关键环节,通过反馈改进才能真正为提升研究生教育质量提供支持。
由于大数据的获取、分析以及应用都具有一定的复杂性,目前,大数据及其分析技术在研究生教育质量评价领域还处于起步阶段,相关的研究与应用还有待不断完善和发展。当前,推动基于大数据分析的研究生教育质量评价,还需要注意以下三个问题与挑战:
一是要注意数据的安全性。研究生教育领域的许多数据来自于师生,隐私性较强,如果这些数据被滥用,会对师生造成潜在的伤害。而且教育的对象是人,在研究生教育评估领域应用大数据应更加关注伦理问题,以及数据的安全性和隐私性。有学者指出,在处理数据时必须考虑五个维度,即道德、技术、过程、组织和制度变迁、分析维度。特别是在道德维度上,必须明确处理数据的权利和义务,建立健全数据制度包括数据法制、数据规范、数据使用和发布制度等[45]。
二是在确保数据安全性的前提下,要打破不同业务系统数据之间的壁垒,实现数据之间的关联。目前,虽然在研究生教育管理中多应用了相关的数据管理系统,但不同业务系统数据和信息的“孤岛”现象还没有消除。数据的这种“隔离”破坏了其内在丰富的价值,也不利于挖掘其价值。只有打破学校不同业务系统数据库之间的壁垒,实现跨系统的数据关联,才能形成有意义的研究生教育质量评价大数据,体现其价值。
三是要积极推进大数据与研究生教育之间的融合程度。目前,有关研究生教育质量大数据的采集水平还不高、应用不足、利用效率偏低、研究生教育大数据分析技术发展还不成熟。大数据及其分析技术在研究生教育质量评价中应用的深入性、系统性和评估方式的多样性、实时性等还有待进一步研究和拓展。