张务农
基于大数据的教育科学研究以“大数据”作为研究活动的基本质料,以大数据记录和实时分析作为研究活动的基本形式,延续了经典科学研究范式的“数据依赖”。但大数据研究方法的数据论基础又不同于“小数据”,它蕴含着人们对数据应用认识的“肯定—批判—再肯定”的辩证发展过程,由此构成审视大数据方法的三个理论视点。
对数字化方法的质疑是科学研究范式的危机,也孕育着科学研究方法突破的契机,大数据科学研究方法正是在这一危机、契机中间应运而生的。 大数据方法构建了有别于“小数据”方法的教育科学研究范式,但在超越中也存在着新的数据方法危机,需要加以甄别并恰当应对。
大数据方法 需其他研究方法补充
大数据方法的物质基础在于“一个布满传感器”的世界,可随时随地记录人类个体极其复杂和细微的行为,从而对任何触网的物体和个体实现数字化描述。技术的如此进步造就了新的数据功能论,即大数据的庞杂性、混沌性、跨界性使得大数据具有描述和揭示复杂社会现象的可能与潜力。但现代技术条件下的数据化过程仍存在一些问题。
首先,尽管在数字化时代,世界可以看成是由连续数字构成的,但技术工具记录的数据仍然是“有限数据”,仍难以实现付诸对象的无缝数据化。
其次,现代智能机器对人类个体的数字化描述主要基于“行为数据”而不是“思维数据”。人的思维涉及情绪、情感,涉及生活史、生命史,也涉及理性和非理性,变化莫测、难以捉摸,因此思维的彻底数据化仍存在极大困难。完全的数据化方法仍是以大数据为表现形式的“行为主义”科学方法。在教育研究中,学生的内部思维过程才是研究重点。对内部思维的研究也不是分析被现代人工智能借用的“形式化、数字化认知程序”,而是理解充满生命气息、人文气息的文化心理认知过程。在这方面,标榜超越人类智能的人工智能仍相形见绌,大数据尚不能记录并呈现人类个体昨夜的美梦,这说明教育研究作为人文的研究,不能仅靠数据化方法,教育研究仍需人文研究方法作为补充,并把它置于数据分析的基座之上,且使它成为整个数据分析过程的灵魂。
最后,大数据方法与“小数据”方法应互相补充。数据的增加,意味着数据结构更复杂以及数据资源量的增加,但价值密度降低,这需要“小数据”方法来弥补。由此也可看出从“小数据”方法到大数据方法并非彻底的范式转换,还涉及范式融合。
大数据方法 应融入教育价值原则
与经典科学研究方法不同,大数据方法取得的结果并非必然的逻辑因果说明,而是关联性说明。
因果性是事物之间明确的、确定的逻辑关联,代表着必然性;相关性则是事物之间非明确的联系,代表着盖然性。必然性,是教育活动中必须遵从的价值原则,因为“违背规律必然得到规律的惩罚”。
盖然性说明的是概率性事件,包括大概率事件和小概率事件。大概率事件和小概率事件对教育活动来说具有同等重要的意义。大概率事件使得我们在教育活动中要面向大多数、面向一般问题、共性问题,小概率事件则使我们重视教育活动中的个别事件、偶发事件。
而教育活动领域正是个别事件和偶发事件集中的场所。甚至在很多情况下,个别事件和偶发事件正是教育追求的东西,因为它们往往代表着学生发展的可能性。而大数据方法,从根本上看主要聚焦大概率事件,它反映的是数据的聚类、分类和趋势。“小数据”方法寻找的则是异常数据和小概率事件,如传统数理统计学中的P值正是追踪小概率事件的重要指标。因此,不妨说大数据方法能更好反映大数据的优势,因为在数据海洋里“小数据”往往被湮没。这也是由大数据的本质特点决定的,大数据由于其价值密度低,不可能筛查数据中的所有异常现象。因此,大数据方法对教育活动中的小概率事件及其价值并不够敏感。这说明,大数据方法在教育研究中的应用要重视两点:一是在研究设计中应当注重对“小数据”、异常数据的检测,另外是给予反映小概率事件的数据以足够重视。
大数据方法 需权衡具体适用情景
大数据并不是万能数据,大数据的数据来源、数据特征、数据功能决定了大数据有相对优势的使用领域。大数据的解释力和预测力还需要具体领域进行具体分析。
一般认为,社会科学(包括教育科学)是具有低解释力和低可预测性的科学领域,从大数据本身的功能看,则具有低解释力和相对高的预测力。虽然“社会学很少做预测,即便预测了也很少成功”,但大数据还是可能帮助其提高预测力的。而大数据的低解释力则会加剧社会科学的低解释力。由于教育學相对其他社会科学具有更浓厚的人文性、更弱的规律性,因此大数据对教育现象的解释力进一步降低。
不过,大数据方法在教育科学领域内部的适用性可以进一步细分。其一,从宏观教育现象与微观教育现象的对比看,大数据显然对宏观问题具有更好的解释力和预测力,这是由大数据之大形成的“宏观视野”决定的。比如,国家根据地方的经济数据对各地进行动态教育财政拨款。但运用国家宏观数据指导具体教学则不合理。其二,围绕微观个体的大数据仍远远没有形成,说明大数据在微观教学领域有比较低的解释力和预测力。其三,大数据在教育理论、教育实践、教育评价等领域的解释力和功用也有差异。大数据在教育评价领域的解释力好于教学实践领域,因为评价本身就是数据化过程,而在实践领域的应用效果则好于理论研究领域,因为教育实践领域是关系复杂的混沌领域,契合大数据的特点,而大数据分析没有确定的理论模型,也不指向理论因果,说明其理论性较弱。
大数据对外生性因素的解释力好于内生性因素。由于大数据善于对学生行为进行记录,因此,大数据分析学生学习外生性因素的效果要好于内生性因素。
大数据方法 应考量相关数据积累
大数据方法应用不能只从理想视角分析,而应对理想大数据和现实大数据进行区分,以免造成认识上和实践上的混乱。其一,从理想大数据看,大数据基于对世界万物的感知和记录。在技术基础上,可穿戴设备等传感器无处不在,世界的每个角落、物的样态和人的一举一动都在智慧网络的观测记录之内,数据在信息公路上自由流通。然而,大数据的现实是:传感器没有无所不在,智慧网络远未无孔不入,大数据仍是一张稀疏的数据网络。大数据只是相对的大数据、局部的大数据。另外,大数据方法产生于商业领域,在商业领域应用广泛,在教育领域发展滞后。其二,从大数据的挖掘和分析看,大数据的算法有限,诸如贝叶斯算法和决策树等有限种类。很难想象大数据无限的可能会被有限的算法捕捉到。因此,舍恩伯格和克里斯·安德森所宣称的“相关关系代替因果关系”的豪言壮语仍然缺乏物质技术基础。其三,数据伦理问题,包括数据隐私、数据开放、数据共享等。由于种种人为的、技术的和伦理的障碍,数据没有汇聚成大数据的海洋,而是被分割成了无数的数据湖泊,许多关于大数据方法的理想功用仍无法实现。
因此,着眼于教育科学研究的发展,应重视教育领域内的大数据库建设,开发针对教育科学研究和教育活动监测的数据搜集处理软件。
同时,尽量消除教育领域内各部门之间的数据壁垒,并通过合适的方式与学校外部数据实现对接。在方法论上,把领域内大数据的成熟度作为大数据方法应用及对其结果进行解释的重要依据。