南 钢, 夏云峰
(1. 上海市教育科学研究院, 上海 200032; 2. 中共邵阳市委党校,湖南 邵阳 422000)
随着计算机技术、互联网通信技术和传感技术的融合创新发展,大数据已成为IT产业又一次颠覆性的技术变革,并深深影响着人类的主观意识和生活方式,以及人类对客观世界的认知。“大数据”最早由著名未来学家阿尔文·托夫勒在1980年出版的《第三次浪潮》中提出,其后,Nature的“Big Data Special”专题、Science的“Dealing with Data”专题和麦肯锡全球研究院发布的报告等,都详细阐述了大数据及其在未来发展的趋势[1]。尽管如此,学界对大数据还未形成一个统一的界定,其中,既有基于产品的,也有基于过程的,还有基于认知的,更有基于社会运动的。当然,从已有的研究和相关论述来看,对大数据的界定总体可从广义和狭义两个层面来理解。广义层面强调的是大数据带给人类认知世界的新方法论和新世界观及其对社会政治、经济和文化所产生的广泛影响;狭义层面强调的是大数据注重利用科学工具对体量庞大的数据进行的梳理和整合。但无论是从狭义层面的数据整合,还是从广义层面的方法论和世界观来看,大数据都是以海量数据的挖掘和分析为基础,通过对相关关系的揭示,为人类对现状的研究、问题的发现和趋势的预测提供全新的应用工具和思维方式[2]。
虽然学界对大数据没有一个确切和统一的定义,但对大数据的四大基本特性却有普遍一致的认同,一般把其概括为“4V”[3]。一是数据容量浩大(Volume),主要体现在计量数据的单位呈指数级的增长,如计量单位从过去的GB一直跃升到TB、EB、ZB,甚至达到DB。二是速度(Velocity),可以从三方面来体现大数据的速度:其一,数据更新换代更快,主要是指数据的产生和更新速度随着计算机技术的发展在飞速增长;其二,数据获取速度更快,主要是指依靠飞速发展的网络信息技术,人们获取数据的速度也在同步增加;其三,数据运算速度更快,大数据处理技术可以在短时间内实现TB级甚至DB级的运算,大大提高了人类对数据的组织、分析和决策能力,为人类认知世界开辟了一条新的路径。三是数据类型多样性(Variety),主要指大数据涵盖结构化数据、半结构化数据,以及以图片、声音、视频等呈现的非结构化数据等各种数据。四是价值性(Value),主要指通过对大数据的深度挖掘和分析能直接为社会实践服务。
在新一代信息技术与社会各领域深度融合下生成的大数据,为推动研究的科学化提供了可能,同时也为认知社会现象提供了数据支撑,更为发现社会演变规律提供了最新的数据依据。因此,随着大数据时代的到来,探究大数据与教育科学研究如何有效结合既是时代发展的客观要求,也是教育科学研究顺应时代发展的必然走向。对此,需在准确把握大数据内涵的基础上,对教育科学研究的内涵进行深刻理解,才能精准把控大数据与教育科学研究的契合点。当前,教育科学研究总体上形成了理性主义的思辨、经验主义的人文和自然主义的实证三大传统,并且随着社会科学的发展,三大传统又交互影响并不断衍生出一些新的研究范式,如图灵奖获得者吉姆格雷就把科学研究划分为实验科学、理论科学、计算科学和数据密集型科学四种范式[4]。因此,在大数据时代,如何实现教育科学研究与大数据的有效融合,不仅关系到大数据的应用前景,更关系到教育科学的未来发展,影响到教育科学研究的科学化水平和学科地位。为此,探讨大数据时代为教育科学研究带来的现实可能及其面临的诸多风险,并提出可能的发展策略,就显得非常迫切。
计算机技术和互联网技术的发展不仅使人类进入了一个以海量数据为基本特征的大数据王国时代,而且促进了大数据分析与处理技术的发展,凸显了大数据在全景式、立体化展现人类社会生活方面的独特优势。今天,无论是在数据获取、数据存储、数据索引与可视化分析等方面的不断发展,还是基于大数据的抽样、分类、聚类、关联分析方法的产生,都极大地拓展和优化了以往的研究方法和研究范式。可以说,大数据不仅对自然科学产生了广泛而深入的影响,也同样深刻影响着人文社会科学研究,教育科学研究也不例外。正是在这一背景之下,教育科学也迎来了一个新的时代,面临着研究上的诸多可能与突破。
教育科学研究是指运用科学的研究方法和研究手段对教育现象和教育问题进行的有目的、有计划、有系统的探索和研究活动,本质上是人类认识和解释教育现象和教育问题的一个过程。纵观人类在教育科学研究上形成的若干范式,虽然极大地促进了教育科学研究的发展,但也不难发现,各种研究范式本身面临着自身无法克服的先天局限。例如,思辨过分注重对事物内部统一性的探求,从而容易忽视对事物内部的矛盾性或变动性的认识,容易出现用静止的观点看问题的倾向[5];而实证研究由于强调在时间、样本、情境等方面的特殊性,以及对过程性数据的忽视,因而得出的结果往往不能代表复杂的教育系统,也难以适用于整个教育系统[6]。在大数据时代,伴随数据密集型科学的快速发展,教育数据的来源渠道、存在方式、表现形态和处理技术也都发生了巨大变革,从而为教育科学研究突破以往的研究视域并拓展研究边界提供了可能。例如,数据的动态生成既打破了思辨对统一性的追求实现了多元性、全样本的连续性,也克服了抽样的局限性呈现出整体性等。其中,特别是通过对各种非正式的、非结构化的、非线性的连续性和日常性数据的挖掘,可以获得依靠传统方法无法得到的实时真实的教育活动信息所构成的系统大数据和个体大数据,进而揭示教育改革发展中一些复杂的深层作用机制,最终拓宽教育科学研究的边界。有学者明确指出:“大数据的‘大’是一种隐喻,不能从字面上理解。……大数据的‘大’不是量的追求,而是一种质的需要。”[7]他进而指出,“大数据是某种复杂适应系统的显现”[7]。这说明,之所以强调教育是大数据的,就在于大数据是对教育之复杂系统的表征和再现。而正是通过对海量教育数据信息的集群分析和处理,有助于我们从教育生活的不同侧面洞悉教育系统中的隐性观念和潜在机制。正如有学者指出的那样,“教育数据挖掘除继续教育研究的传统议题外,确实因大数据而可以切入一些过去教育研究不可能进行的新的研究问题和角度”[8]。的确,大数据时代的到来为教育科学研究注入了无限生机与活力,预示着教育科学研究的广阔前景。
传统教育科学研究普遍重视理论假设和判断的重要性。例如,就理性主义的思辨范式来说,它以演绎逻辑为基本框架,基本形式是三段论,其中特别强调前提的正确和科学,而前提的科学性又是源于人类的经验和理性判断;就自然主义的实证范式来说,它是基于理论假设驱动的知识发现理论,一般遵循“理论假设—归纳推理—验证假设—研究结论”的逻辑理路;就经验主义的人文范式来说,它所包含的研究方法,诸如诠释学、现象学、后现代主义、批判理论、后实证主义等都离不开一定的理论阐释和解读。可见,理论假设是传统教育科学研究遵循的重要原则。也就是说,无论是在理性判断、理论假设、理论诠释等方面,还是在研究中涉及的抽样分析和数据验证上,大多需要研究者在主观层面做出界定和判断,这就会由于研究者本身的知识结构、价值立场和意识形态等主观因素产生“个体依赖”等问题。而大数据时代的到来,则引发了教育科学研究范式中所蕴含的思维方式变革,并进而推动了知识发现方式的变革,即形成了“海量数据搜集→数据清洗→数据挖掘和分析→发现知识→知识推演和服务”[9]的知识发现及其运用模式。可见,在大数据时代,基于理性判断、理论假设和理论诠释的教育研究范式逐渐转变为基于“数据驱动”的教育研究。大数据技术以大数定律为基础,一方面通过对数据的清洗、提纯和降维等技术来保证数据的客观性、真实性和效用性;另一方面通过对海量数据的挖掘、对比、分析、聚类等方式来发现数据信息之间的内在联系。这样,“规模大、类型多、时效性强的大数据使人们可以应用教育测评模型更加精确地认识教育现象”[10],并进而发现问题、把握规律和预测趋势,这就使教育科学研究能在较大程度上规避研究者在研究过程中对已有知识结构、价值立场和意识形态等的依赖甚至偏见,有助于实现教育研究的科学化。
作为近代科学飞速发展的一个产物,科学方法成为自然科学发展的重要基础,并影响着人文社会科学包括教育科学的发展。科学主义提倡实证和定量,强调小规模抽样调查和实验研究的重要性,但由于受研究者主观因素和客观条件等的制约,尽管所获取的数据在来源、功能和特性等方面具有较强的代表性和针对性,但也存在一定问题。例如,从数据来源来看,主要是以主观框定的抽样调查方式来获取样本,但通过这一限定条件获取的数据范围较小,以致样本数量受限;从数据功能来看,既往教育实证研究一般是在若干小单元的基础上对数据进行收集、测量、分析和具体描述;从数据特征来看,以往教育实证研究所运用或产生的数据大都按照统一标准进行收集和处理,结果使数据呈现出较强的代表性和针对性,但导致不同类型数据间的交互性和链接性极为薄弱。今天,大数据时代的一个重要思维转变,就是“要全体不要抽样”[11]。它不仅可以提供事物之间的共性信息与普遍性规律,还可以提供个性化的特征信息,特别是对少数群体特征及微小规律进行揭示,这是传统抽样数据无法给予的[12]。这意味着,教育研究将突破原有数据的限制,并通过各类小数据汇集成大数据。由于各类小数据之间没有特定的边界和限制,即使存在一些不可避免的数据间隙,也会被整个大数据的规模优势所掩盖,从而使大数据在来源、功能和特性等方面发生变化。在来源上,教育大数据主要以布满传感器和人工智能数据处理设备的“互联网+”为获取通道。它们是未经研究者修剪和加工的自然原始教育数据,但也包括个体手动采集的相关教育数据;在功能上,教育大数据呈现出多角度、全方位、全过程的多点观测和整体描述;在特征上,以在教育活动中产生的全样本数据信息为主,包括了所有图像、语音和文本数据。正是由于大数据“排除了样本与总体之间的差异,排除了抽样带来的系统误差,排除了样本的选择性偏差等”[8],因而能弥合小数据之间的间隙并克服其对教育研究的限制,使教育研究中以前不能被描述或揭示的整体教育现象和趋势,也能通过数据化的形式来加以客观呈现和展示。
近代以来,教育实验法的运用极大地推动了教育学科的科学化进程,其中对数据的处理集中体现了对因果关系的探究。可见,探求因果关系是现代教育研究的主要追求,也是人们把握教育规律的重要切入点。但由于开展真正的教育实验研究并不容易,所以其推广一直遇到问题。与此同时,教育相关研究则受到学界的普遍关注。进入大数据时代后,由于大数据本身的特性,使其能更好地服务于相关研究。舍恩伯格等在《大数据时代》中就明确提到大数据下的一个思维转变,即“相关关系比因果关系能更好地了解这个世界”[11]。在此背景下,教育相关研究也受到学界的普遍推崇,而相对忽视对因果关系的追求。因此,“大数据的使用就意味着以放弃理解‘为什么’为代价换来对‘是什么’的了解”[8]。由于教育系统、教育结构、教育要素和教育对象的复杂性,决定着教育科学研究的复杂性。为了保证研究的科学性,以往仅仅依靠对局部教育现象的研究而达致对全局的把握的因果关系的探索,已经面临着诸多局限和不足,而大数据正好可以通过对海量数据的收集、挖掘和整理,以及分类、比较和聚类来洞悉教育系统的复杂性,并为分析教育系统、教育结构、教育要素和教育对象内部及其之间的相互关系提供了重要依据,进而探寻对诸多相关关系的合理解释,为教育改革和发展提供事实理据。换言之,基于大数据,“在理论上可以将总体全部纳入分析框架,而无须参数检验,这为更加全面、系统地反映和描述教育现象与问题、检测与评估过程、预测与规划教育发展,以及导向教育价值提供了更大的可能”[10]。而且,依托教育大数据开展的相关分析“不存在模糊性、不确定性和易变性,可以通过重复实践和研究加以检验、校正与论证”[6],从而保证了教育科学研究的科学性。
虽然大数据时代的到来为人类社会生活带来了诸多可能,也推动了数据处理方法的发展,但作为一种技术和分析方法,它与以往的任何一种研究方法一样,并不是万能的,也会给科学研究带来一定的风险和误区。2014年,加州大学戴维斯分校技术管理学教授巴格瓦(Bargava)博士就曾指出大数据发展的困境。就教育科学研究来说,应在享受其促进研究科学化、提升研究有效性的同时,及时预见其在教育科学研究中的风险,研判其风险可能给教育科学研究造成的不利影响,努力做好研究风险的防范和规避。
面对今天大数据时代暴增的数据及其对社会生活所产生的深刻影响,我们已然置身于一个“数据王国”,教育研究概莫能外。前已述及,大数据的产生将破除教育研究中对理性判断、理论假设和理论诠释等的过度依赖,有助于教育科学通过数据整理、挖掘和分析,规避对知识结构、价值立场和意识形态等的依赖,实现教育研究的科学化,这也正是现代教育学一再宣称的“真正的教育研究”所强调的。毋庸置疑,教育数据资料越充分,其中所隐含的教育信息之间的关联性也体现得越清晰,也就越能揭示多元教育场景中的复杂问题,并提出有针对性的解决方略。因此,大数据遵循自下而上的知识发现观和基于证据的分析预测过程,旨在从不确定性中发现确定性。这一基于数据累积的知识逻辑蕴藏着一种不可违背的形而上学哲学原理,“即认为世界构成基础是万物同质、万物皆数。也就是说,世界上所有事物的本质是数,其结构就是各种数关系的结合或分离”[13]。基于此,人们认为,教育研究只要通过数据挖掘和分析就能揭示其所蕴含的相关关系和规律,就能解决一切问题。在这种情况下,理性判断、理论假设和理论诠释开始变得可有可无,有学者甚至还指出了传统思辨方法在教育研究中的局限性。“哲学的方法或思辨的方法不以客观地认识世界和解释世界为目的,它不是科学研究方法。而且,由于主要从概念和命题出发而不是完全从事实出发,因此难以成为可积累的、可验证的知识。”[14]在这种背景下,教育研究中的数据存储代替了理性判断,数据挖掘代替了理论假设,数据分析代替了理论阐释。自此,数据成为人类社会生活的中心和思维方式的中心。数据崇拜、数据独尊、数据至上充斥着人们的头脑,人类理性的光环开始湮没在数据的洪流中,人类由理论积累所建构的文明史开始被由数据积累所要求的存储空间替代,人类的精神家园开始变得日渐虚无,并将最终迷失并消失在数据的混杂中。
基于大数据的分析注重从海量数据中发现数据之间的内在规律,强调无序中的有序、杂乱中的规律和不确定性中的确定性,因此更注重整体分析。但教育科学不同于其他社会科学的一个重要特征,就是具有较强的实践性。加拿大教育学专家马克斯·范梅南曾明确指出:“教育学是一门实践性的学科。”也就是说,教育科学是面向教育生活世界和教育教学实践的一门科学。这就决定了教育科学研究不仅要发现理论化的教育知识,完善教育理论体系,还要关注实践性的教育知识,即求真;与此同时,更要探寻教育生活世界的真谛,追求教育的可能生活与可能的教育生活,即求善和求美。这就是说,教育研究不仅关注客观世界,更关注作为主体的人的主观世界,并始终围绕人之发展与幸福这一核心主题探讨教育的意义与价值。因此,教育研究是一个事关意义世界和价值关涉的研究。与此同时,由于教育活动富有情境性、个性化、动态性和生成性,也决定了教育研究不可能只有一种固定的模式。在研究教育现象时,有学者指出:“一方面,要按照线性的观点来观察其中的有序性,从中寻找规律性、普遍性的东西;另一方面,要按照非线性的观点来观察其中的无序性、偶然性,从中寻找个别化的经验与体会。因为这种无序的‘噪声’或偶发事件也确切地承载着教育本真的奥秘与意蕴。”[15]但在大数据时代,教育的这一人文实践特质也开始受到巨大挑战。有学者在谈及大数据时代自然科学和人文学科的差异时曾指出:“反观各人文学科,较为注重个人体验,其主要方法为体悟、思辨等,多建立于个人假设基础上,用思辨的方法建构具有个性化的思想理论体系。人文学科由于缺少具有客观性的数据,从而无法用数据说话,造成因人而异、各说一辞的局面,主体间很难取得共识。”[16]可见,数据方法似乎与教育等人文学科天生就存在一种内在矛盾,它无法对人的情感和态度、心理和行为、意义与价值等进行体验、思辨、解读、阐释。因此,当我们处于数据王国时,鉴于数据的全序列、大规模、高速度,必然会弱化和消弭教育研究中的人文性、实践性和情境性。
与小数据基于抽样的精准性和代表性相比,大数据更重视规模,更强调感知。近代以来,正是依托实证主义,教育科学才跻身于科学之林,也才有资格分享教育科学的美誉。这说明,唯有依托数据资料,教育研究才能实现自身的科学化,这也使数据资料成为教育研究科学化的重要标尺。事实上,教育实证主义研究的一个重要特征就是注重数据抽样,它具有代表性、间隙性、针对性和工具性等诸多优点,并已经发展成为一种比较成熟的方法体系。今天,大数据的最大优势是其规模性,因此它的广泛应用和深度普及将使研究者不再担心数据的代表性问题。因为它囊括了全样本的数据信息,弥合了各个数据间的间隙,能进行海量数据的高效检索和“全景式”或“大背景”式的可视化展现[17]。舍恩伯格等就曾指出,“允许不精确已成为大数据的一个特点”。从来源、特征和功能三者来看,以大数据方法或大数据嵌入和应用为核心开展的教育研究具有较强的概然性和归纳性。这些研究多是做一个总体的趋势判断,并不追求数据背后的必然逻辑,而是通过对数据规律和关系的揭示来归纳结论。作为人文社会科学的重要领域之一,教育研究也必然受其影响而变得更加科学,如通过数据形式可以呈现更为复杂和多元的教育现象、在具体研究客体的选择和设立上也从“客观实在”走向“数据表示”[18]。与此同时,大数据也产生了一个重要问题,即对小数据精准分析的忽视和弱化。由于较少结合小数据来对大数据揭示的整体趋势或个别问题和现象作相应解读,结果导致相关研究结论多是四舍五入、泛泛而谈,以致研究缺乏应有的精准性和科学性。这表明,大数据在教育研究领域的广泛应用和深度渗透正在弱化和消解着“小数据”的精准性和适用性,且有蔓延之势,这是大数据暴力侵袭教育研究,引发“唯大数据”风险的直接表现。
大数据重相关分析,小数据重因果分析,这在目前学界已经达成共识。前已述及,数据对教育研究具有重要作用,但是否数据越多越好呢?回答是否定的。这是因为大数据产生的信息价值具有边际递减效应。当“数据体量大到一定程度,所提供的信息几乎不再增加,但是收集、处理的成本却在不断增加,同时所含有的数据噪声反而影响信息提取”[12]。由于大数据源于布满传感器和人工智能数据处理设备的“互联网+”,不受个体或群体主观意识的控制,具有明显的庞杂性和混沌性,且主要是对世界进行整体描述,因而在对大数据的激情崇拜中,相关关系受到空前重视。因为“相关关系比因果关系能更好地了解这个世界”。但“基于相关分析得出的结论往往是表面现象,反映它们有某种共同变化的趋势,但并不必然存在因果关系。如果直接基于相关分析结果做决策,有时可能会对决策造成误导”[12]。有学者进一步指出,由于大数据分析关注相关关系,认为在大数据时代有了足够的数据就会发现相关关系,因而在大数据时代有相关关系就足够了[19]。例如,全样本数据既可以避免因抽样限制产生的反向因果问题,也可以避免由于抽样偏颇所引起的样本选择偏差,还能通过全样本数据的筛选和匹配避免变量遗漏问题[20]。也就是说,通过数据分析,能够发现原来两个不存在直接因果关系的变量间存在一种相关关系,而对这种相关关系的揭示又能探索出新的因果关系或深化对已有因果关系的理解和揭示。因此,大数据在教育研究中的应用要避免深陷外部表象,就有必要深化因果关系研究[19]。事实上,对因果关系的研究可以在一定程度上满足大数据时代对深层次分析的需要。
教育科学在经历了理性主义的思辨、自然主义的实证和经验主义的人文三大范式后,今天又迎来了大数据时代。它既给教育科学研究带来了诸多可能与发展空间,但也使传统的教育科学研究面临一定的风险和挑战。那么,如何既扬其所长,充分利用和发挥其给教育科学研究带来的便利与可能,推动教育科学研究的科学化、理论化和精准化,又避其所短,努力规避、防范和化解大数据研究中的诸多风险与危机,这既需要勇气也需要智慧。为此,教育科学研究工作者必须认识到,大数据虽能推动信息处理方法的创新,但它不是万能的,其运用必然存在一定的边界。因此,如何在教育科学研究中理性、规范、科学、有序地运用大数据,如何实现大数据与教育科学研究自身属性的统整与融合,将成为未来教育科学研究发展的重要方向。
从历史发展来看,数据经历了原始数据的产生、科学数据的形成到大数据的诞生三个阶段,但无论是哪种数据,其本质都是一种数据。就后两者来说,最大的区别在于数据的量及其所能揭示的关系。相较于大数据而言,科学数据即“小数据”往往是基于特定科学标准而获取的,具有明显的代表性、针对性和解释性等特征,因而能对单个现象或问题进行深度挖掘和阐释。伴随科学数据的形成及其对统计研究方法的影响,教育科学也发展出了从描述性统计分析到推断性统计分析的方法和技术。大数据时代,更是带来数据分析技术和统计方法的大量使用,特别是其“所具有的数据特征使得部分传统统计方法不再适用”[12]。同时,虽然大数据能对教育问题或现象做出全景式的解读,揭示教育研究问题的大致趋势,并提供足够有价值的信息,但“大数据时代不应该也绝对不是‘理论终结’的时代……仅仅反映了现实中人们对大数据挖掘特点及其局限性的一种妥协甚至是无奈”[8]。由于处理成本、处理范围和处理要求等原因,并不能获得良好的数据分析结果,这表明以大数据及其技术的应用为核心的教育科学研究无法对局部和单个教育问题或现象进行深度挖掘和阐释。可见,作为数据呈现的不同形式,大数据与小数据对于开展教育研究工作各有利弊。也就是说,大数据和小数据在教育研究中并非完全对立。而且从研究对象来看,其既是一个集合体,又是一个集合元素,具体取决于研究的需要。因此,在开展教育科学研究的过程中,唯有大数据与小数据相结合,实现不同数据优势的互补相融和有机整合,即基于全数据开展教育研究,方能获得对教育研究对象的全方位和立体化理解。例如,在区域教育发展上,为了实现教育资源的科学配置、改进教育基本公共服务、完善教育质量的监测与管理,就有必要构建区域教育大数据系统模型并开展相关研究工作[21],以发现区域教育发展中的共性特征和普遍问题。但为了把握局部教育或特定学校的发展状况,就离不开对小数据的分析研究。
传统以统计学为中心的数据分析是近代以来科学研究的前提和基础,但这一方法对于大数据并不适合。哈佛大学的菲利斯·弗兰克尔和罗莎琳德·瑞德早在2008年就指出,大数据对于科学发展来说是激动人心的,但只有创造新的工具才能从大数据中获取意义[10]。可见,创新数据分析方法和技术是大数据能否产生的关键。今天,基于大数据驱动的数据分析已经突破了这一藩篱,成为“涉及统计、数据库技术、模型识别、机器学习等领域”的一个新兴交叉学科[8]。就教育而言,大数据技术为教育研究、教育决策及教育实践提供了一把利器,成为教育研究走向科学化的重要支撑[22],但要发挥其作用,“还取决于数据的收集、发掘、存储、整合、分析这样的技术手段,而且还取决于我们建立了什么样的数据分析模型。数据说话需要一系列的技术。一方面要挖掘整合数据;另一方面要形成高水平的数据分析模型”[23]。在数据挖掘上,由于深度学习算法“更具有灵活性和准确性,它可以弥补许多数据挖掘方法的缺点,其在语音识别、图像识别、情感分析、学习预测、自然语言处理等多个领域发挥了重大作用”[24],因而可以实现对教育大数据的有效挖掘,特别是已经开始广泛应用于学生学习追踪及表现预测、基于MOOC的教学辅助工具开发、大规模考试测评技术等方面,并取得了预期的成果。在数据分析模型上,以计算机仿真方法为基础的教育计算实验研究,“用虚拟现实、决策仿真对教育系统进行建模,抽取真实教育系统中的运行要素,梳理要素之间的关系与规则,建立虚拟的仿真教育系统”[6],进而探索教育现象的演化规律。在数据测评模型上,通过“将复杂的教育现象简单化,将纷繁复杂的‘大数据’变成‘小数据’,即通过应用成熟模型,把握教育大数据世界中的关键要素和信息,解决教育改革和发展中的实际问题”[10],这已经被认为是应对教育大数据时代的重要战略工具。此外,借助地理信息系统(GIS软件)和可视化软件CitespaceV、Tableau等,还可以进行大数据画像、知识图谱分析等,有助于研究教育资源的优化布局,发现教育科学各领域知识的隐含模式及其规律。
大数据时代的到来为教育研究注入了新的活力,但并不意味着基于大数据的分析将成为教育研究的唯一手段和途径。首先,大数据的“大”是相对的。即便人类社会生活和教育世界的所有方面都能数据化,人类也没有足够的理智来获取这些数据。而且相对于整个数据“宇宙”来讲,大数据仍显得微不足道。其次,大数据是客观资源。从其产生和存在来说,它不受人类个体或群体的左右。但由于大数据自身不具备主动思考的能力,所以人类在采集和应用时必然会面临技术工程师和研究者等人的各种偏见。再次,大数据是鱼龙混杂的数据,其中包含着大量的垃圾数据、无用数据、伪劣数据和重复数据。如果不能对这些数据进行及时清理,势必干扰大数据驱动的数据分析。最后,由于大数据的全样本、全流程、全类型等特征,使我们不再生活在一个“封闭”的世界,而是一个透明的社会,这就提出一个隐私数据的公开问题。这些都表明,大数据面临着一定困境,存在着一定陷阱,而要助推教育研究的有效性,就必须走出上述数据困境和陷阱。为此,一是针对教育数据的连续性和无限性,努力构建多层面多系统教育数据发展监测动态模型,努力做好教育信息的监控和预测。二是应发展一种关于数据分析的艺术以避免数据偏见,诸如“抽取足以满足统计目的和精度的样本,需要研究新的适应性、序贯性和动态的抽样方法”[25],并“针对总体的特点和研究精度的要求选择不同的抽样设计方案”[14]。三是通过去粗取精、去伪存真的工夫提取关键数据和核心要素,提升数据的价值密度和利用空间。四是应在不侵犯教师、学生等相关主体隐私并在符合法律法规的前提下公开教育数据,切实保证教育数据的合法公布和使用。此外,数据分析的本质是对现象的归一化处理,它在抹平差异的同时,又在制造新的差异,如在对教育现象进行描述时,可能将异质的“一”归结为同质的“一”。这种“归一”化处理在教育科学研究中极不可取[18]。
理论建构是科学进步的重要标志,教育科学也不例外。大数据虽然破除了教育研究对理论假设的过度依赖,同时在海量数据的浪潮中弱化着理论思辨的价值和意义,但这并不等于它不需要理论建构。今天,当我们在探寻大数据时代的教育研究之路时发现,大数据与理论建构不仅不矛盾,而且还互为补充。可以说,大数据的持续生成及其所蕴含的复杂联系不仅有助于建构新的教育理论,而且能够帮助我们重新审视既有的教育理论,进而实现对教育理论的修订与重构。正是“大数据的利用可以产生许多小数据时代无法涉及、难以进行操作的研究问题,并为新理论和新假设的产生提供了可能性”[8]。有学者进一步提出了教育研究的第四范式,即数据密集型科学研究范式,“主要利用计算机、数据管理和统计分析工具对大数据进行分析,发现复杂现象背后隐含的模式,并从中获取知识”[6]。这表明,大数据对发展教育科学研究具有积极意义。当然,大数据对教育理论的建构和推动并非数据自身的逻辑必然,而是理论思维与海量数据之间的互动生成。因为评价一项研究的理论性强弱,除了要考虑它是否基于事实和逻辑,还要考虑是否依托前人的理论提出假设,是否为研究步骤中进行演绎推理的元素,是否为了发现规律和形成理论[14]。可见,大数据时代的教育研究应注重数据生成、数据分析和理论建构的有机统一。一方面,数据驱动的教育研究需要更充分的理论指导和支撑,方能确保教育研究的证据性、学理性和科学性,并最终推动教育研究向着学科良性的方向发展;另一方面,教育理论的科学性也唯有通过大数据方法或大数据嵌入和应用来进行或相关或因果的研究才能得到验证。唯有如此,大数据时代的教育研究才能实现数据生成、数据分析与理论建构的有效融合,避免陷入“唯数据”的陷阱,不断完善教育研究的理论建构。
与自然科学和其他社会科学不同,教育科学的一个显著特征就是具有较强的人文性。换言之,它指向人的生活世界、意义诉求和价值选择,而其基本路径就是体验、感悟、理解和共情,这在自然主义、人文主义和人本主义的研究范式中已经得到一定体现。20世纪以来,伴随人类学、解释学及后现代哲学的兴起,这一传统得以延续并不断创新,并出现了多种形式的质的研究方法。进入大数据时代后,教育研究的范式开始转向大数据驱动,这虽然为教育研究开辟了新的研究路径与研究前景,但也弱化了实践情境与人文理解的多元,因而使研究无法触及教育领域的“真实”和“本然”,更无法揭示教育规律,似乎大数据时代的数据挖掘本身就与教育学科的人文性相抵触。同样,反过来,教育学科的人文诉求和价值关涉是否有助于数据挖掘和数据理解,似乎同样存在着一定的距离和鸿沟。事实上,不仅大数据本身内含着一定的人文价值,而且教育学科的人文性也体现在教育科学的方方面面。为此,要处理好人文理解与数据挖掘的关系,推动二者的融合,就需要做到以下两点:一是使数据有利于增进教育理解;二是通过人文关怀来提高数据采集质量。就前者来说,伴随大数据时代的到来及其所具有的规模化、客观化、混杂化和在线化等特征的出现,“社会科学迎来了数据采集的革命性新工具,并进入了与自然科学共享方法论平台的新时代。大数据革命让社会科学的数据采集进入智能化、自动化时代,并带来了客观、精准、在线的海量数据,让社会科学与自然科学一样,能够实现‘让数据说话’”[16]。正是通过这一方式,教育科学也实现了“让数据生成意义、让数据增进理解、让数据产生价值”的人文目标。就后者来说,教育科学可以通过自身的人文关怀来避免数据采集中的主观偏差和价值偏离,进而提升数据质量。换言之,使数据彰显人文价值和意蕴应成为大数据时代教育科学研究的自觉追求和研究品性。
综上所述,大数据时代的到来既给教育科学研究带来了新的机遇、新的可能和新的空间,但也潜藏着研究中的诸多风险。我们唯有充分认识到这些问题,才能走出“数据崇拜”的危机,推动大数据时代教育科学研究的良性健康发展。