艾伦 兴乔
教育界存在一个普遍的现象:当社会上一个新技术或新事物出现时,人们会立刻将它们拿到教育教学之中应用,或者作为教学内容与研究对象,或者作为教学工具与研究手段。作为教学内容与研究对象是无可厚非的,甚至应该是积极提倡的;而作为教学工具与研究手段则必须慎重,应该给予充分的分析论证后才行。因为教育与其他领域不同,形成教育装备的那些工具与手段的作用对象是宇宙间最为复杂的人的头脑,是人的“心”,不能总是试验错了、失败了之后再重新来过。目前在教育领域,正像对待其他新技术或新事物一样,当“大数据时代”概念出现时,关心教育的人们将又会面临这种抉择。
1 大数据时代与大数据特征
被称为大数据时代预言家的维克托·迈尔-舍恩伯格(英,Viktor Mayer-Sch?nberger)在他的《大数据时代》(Big Data: A Revolution That Will Transform How We Live, Work, and Think)一书中对大数据及其特点做了详细的描述。作者从大数据变革公共卫生开始,论述到大数据变革了商业行为,变革了管理模式,变革了社会服务,变革了人们的思维方式,并认为大数据开启了重大的时代转型,成为预测未来的重要依据与工具。
作为预测的重要工具,大数据具有三个非常典型的特征[1]。
1)“全数据模式,样本=总体”。在非大数据时代(以下称为“小数据”时代),人们利用数据研究问题的方式是从对象的各个变量中进行数据抽样,建立样本空间,然后对样本数据进行统计分析从而得出估算结论。而大数据时代不必这样,全部变量的全部取值已经放到了面前,人们不用再去抽样得到样本数据,直接使用总体数据就是了。
2)“不是精确性,而是混杂性”。大数据时代的数据混杂性代替了“小数据”时代追求数据的精确性,这是由于此时有了“样本=总体”,不必再去遵循以前抽样定理的规定而产生的必然结果。在“小数据”时代,为了使得样本数据能够携带不失真的原变量的全部信息,进行抽样时必须保证抽样的点数(或时机)以及变量样本数据尽量精确。大数据时代对待数据则采取一种“宽容”的态度:第一,允许变量取值的不精确性;第二,允许变量区分的混杂性。
3)“不是因果关系,而是相关关系”。在大数据时代,正是由于允许变量区分的混杂性,才使得人们不必关心事物变量因果关系,只需关心变量的相关关系;而在这一点上毋宁说,由于不能精确地控制变量,此时人们已经无法再得到变量之间的因果关系,而只能够得到变量的相关关系。
2 教育教学研究与大数据分析无涉
根据《大数据时代》一书中对大数据的描述,显然可以看出,教育的大数据时代尚未真正到来。退一步说,即使教育的大数据时代真的到来了,也必须对此做出理性和冷静的科学分析才是。教育学属于社会科学,对教育教学的研究人们常采用科学研究的方法,对此,人们认为大数据是十分有意义的,它使客观量化评价成为可能,让凭借主观评价而生的专家评价方式开始消亡,而使得数据科学家开始崛起。但是笔者要说,这可能是对大数据时代一种错误的理解,一种不现实的预期。其实,教育教学研究与大数据分析无涉,这是因为对教育教学的研究恰恰需要探索和发现那些影响它们的变量,或者说更加需要得到变量之间的因果关系,而不仅仅只是提供变量之间的相关性,但是大数据是无法提供的。
大数据分析在经济上是成功的,《大数据时代》一书中举出了大量的实例,用于说明大数据分析的作用和意义,其中最为典型的是一个购买低价机票的例子和一个股市波动分析的例子。通过大数据分析,人们能够预测到在什么时刻购买机票可以得到最优惠的价格,能够预测到在什么时刻进出股市可以得到最高的回报。在做这些分析时,人们并不关心影响机票价格的因素是什么,只要能够买到低价机票就达到了目的;人们也不去关心影响股市波动的原因是什么,而只要能够得到高额回报就行了。或者说,在经济学方面,大数据分析只需要提供变量之间是否存在高度相关性,并据此来进行预测,而不需要知道它们之间谁是因、谁是果。
但是,教育是绝对不行的,它的研究不能够仅仅停留在这个预测的水平上。对教育教学的研究必须能够找到那些影响教育教学效果的因素或变量,精确地知道它们,并能够掌握、控制它们,从而优化教育教学。从这一点上说,教育教学是与大数据分析无涉的,或者说大数据帮不上忙。
3 相关性分析与因果性分析
科学在于量化,并且科学结论是可以重复的,这乃是科学研究的特点。对于自然科学的研究,人们在北京大学实验室里做出的实验结果,在上海复旦大学的实验室里同样可以重复实现,保障这一点的就是研究者对研究对象变量的控制。教育学的实验研究正是仿照自然科学实验室中的研究方法与过程,来研究教育教学这个社会问题,人们称其为社会科学。它同样需要寻找变量,通过测量和量化来采集变量数据,同样需要对变量进行有效的控制。
变量控制在教育教学实验研究中是极为重要的一个环节,没有它人们将无法找到影响因变量的那些自变量,无法完成所期待的问题解决,无法得到确凿无疑的实验结论。在实验研究中,人们将系统中各种影响因素和所关注的现象进行编码,分别赋予它们自变量与因变量的意义与名称,然后通过采集数据,再通过对这些数据的分析得出它们的对应关系,从而找到影响因变量的那些自变量,即做出归因判断。这个过程中,人们使用的方法为归纳法,即从特殊到一般的研究方法。用这样的方法研究问题,使用统计学做多元回归分析,做变量的相关性分析等,常常可以得到各个变量之间的相关程度,会找出那些与因变量高度相关的变量,却不能就由此断定变量之间是因果关系。或者说,使用归纳法得出的分析结果,不能够足以证明其中的一些变量必然是影响另一些变量的原因。
要想确定因果关系,还需要做归因分析才行。而大数据分析得出的变量关系“不是因果关系,而是相关关系”。使用归纳法得出的变量之间的关系可能是高度相关的,但是没有充足的理由认定这些变量一定是因果关系。要想证明它们之间存在因果性,通常有两种方法可以帮助实现这一目标:1)使用演绎法对变量之间的关系进行验证;2)控制变量数,使得参与其中的变量数最少,仅为两个。endprint
方法1实际上是遵循了“实践是检验真理的标准”这一原则,因为用归纳法得出的结论是不完备的,需要用演绎法去验证后才具有完备性。对此,英国哲学家罗素认为:“归纳法不像演绎法那样确切可信,它只提供了或然性而没有确切性;但是另一方面它却给了我们以演绎法所不能给我们的新知识。”[2]也就是说,归纳法可以发现新问题,而演绎法可以证明发现问题的正确性。
前不久笔者参加了一个“视频多媒体设备对中小学生视力影响因素的研究”课题的论证会。研究者通过大规模的数据采集,使用多元线性回归分析找出了与学生视力呈高度相关性的一些变量,但是在确定其因果关系时却显得有些草率,将这些具有高度相关性的变量简单地认为其因果关系成立。为了说明这个道理,在这里举一个较为极端的例子:通过采集到的数据分析,可以得到近年来学生视力呈现非常显著的下降趋势,并且它与教育信息化的程度呈现高度相关性,进一步甚至还可以发现它与国民生产总值(GDP)的增长也呈高度相关性,但是不能就以此得出结论,说学生视力下降与GDP发展是因果关系。
北京师范大学杨开城教授撰文指出,教育教学研究的结果普遍存在“一试验就成功,一推广就失败”的现象[3]。这在很大程度是因为试验(或实验)过程是一个归纳过程,而推广(或实践)过程则是一个演绎过程。试验成功说明发现了变量之间的相关关系,但是并没有做建立因果关系的证明;推广失败说明正是因为变量之间并非因果性关系,从而也就不能真正解决教育教学中的实际问题。
方法2是自然科学研究经常采用的办法。人们在实验室里进行的实验正是通过各种途径来控制变量,让这些变量不要在同一个自然科学实验过程中都发挥作用。相对于社会科学实验、教育教学实验,这个在实验室中的自然科学实验是更加容易很好地控制变量数的,因为该系统是一个“简单”系统。当人们将一个被研究对象的自然现象中的变量有效地控制为仅剩下两个时,就可以轻松地得出结论:一个变量是因变量(或称函数),另一个变量就是自变量,它们之间的关系是因果关系。教育教学实验是在一个复杂系统中进行的实验,人们无法有效地控制各个变量。如试验者能够控制被试在教室中的学习行为,却无法控制他们在回家后的学习行为,因此也就不能将变量数目简单地控制在最少的范围之内。
4 教育装备管理与大数据分析
对教育装备管理的研究涉及到许多方面,其中有一些属于需求论证的管理内容,必然要考虑到教育教学的特点,运用大数据分析时应该慎重;而一些纯粹为教育装备本身的管理内容,是完全可以通过大数据分析来进行预测的,例如:教育装备经费投入的测算,教育装备均衡发展趋势等问题,因为它们都是一些无需做归因分析的问题。但是,对于教育装备管理来说,大数据时代还远未到来,目前的数据量还小得可怜,甚至连“小数据”时代都称不上,所以依据大数据分析的管理还没有任何可能。或许,随着物联网技术进入教育装备的管理体系,大数据概念将会逐渐建立起来。
参考文献
[1]舍恩伯格,库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[2]罗素.西方哲学史:上卷[M].何兆武,李约瑟,译.北京:商务印书馆:1963:256.
[3]杨开诚.从教学实证研究的合理性说开去[J].中国教育技术装备,2010(12):3-6.endprint