丁国勇
(南京审计大学 教务处,江苏 南京 211815)
高校进行内涵式发展,就是要推进内部治理体系现代化和治理能力现代化,进一步提升办学水平和教育质量[1]。21世纪以来,现代信息技术的快速发展和广泛应用给高等教育带来了教学模式、管理手段、思维方式的变革[2]。以Coursera、edX、Udacity、爱课程网等为代表的国内外在线课程平台得到全面应用,不仅推进了教学模式的全面改革,也给我们带来了包含与教师、学生、教学过程相关的海量教育数据[3];同时,高校教育管理信息化手段的不断更新、智慧校园建设以及各类教育教学管理信息系统的应用,也产生了类型多样、内容丰富的教育数据。在高校治理的背景下,我们应当通过对这些海量教育数据的挖掘与分析,寻找出高校教育教学一般规律,促进高校决策科学化,推动利益相关者参与高校共同治理,实现教育治理现代化。
教育数据挖掘是指综合运用统计学、机器学习和数据挖掘的技术对教育数据进行处理、分析和数据建模的应用领域以及方法与工具[4]。高校治理现代化迫切需要借助教育数据挖掘的手段,使高校的治理体系立根于可靠的、可信的、科学的数据基础之上。
高校治理现代化是指通过民主化制度化的方式形成内外部利益相关者共同参与高校治理的体系,提升处理各种事务和关系的能力和水平,确保高校整体的协调性与效率性[2]。教育信息化是实现高校治理现代化的必由之路,为形成“教育共识”、推动“教育治理”提供了真实性、正当性和真诚性前提[5]。教育数据是教育信息化进程中的主要产物,各利益相关者承担着教育数据的不同角色:生产者、管理者、提供者、使用者等,以教育数据为媒介,实现协同共治。
在高校治理体系趋于完善、稳定的前提下,高校治理能力的提升将成为实现治理现代化的关键要素。高校治理能力提升的路径之一就是通过对于教育数据的充分和高效率的挖掘与分析,为高校多元治理主体提供准确的信息,更好地服务于高校教学质量的提升和学生的持续发展。因此,在推动高校治理现代化建设的背景下,教育数据挖掘的应用将进入蓬勃发展期,步入“新时代”。
教育数据产生于教育主体、教育客体和教育活动,覆盖教育全过程,是对教育世界的抽象与一般化,是教育数据挖掘的“原料”和“矿石”。高校中各种教学管理平台产生的多样态复杂化的数据,已经具备了大数据的基本特征。
高校教育大数据主要包括四种类型:基础数据、状态数据、资源数据和行为数据。基础数据包括保障教育活动的各类基础信息,状态数据包括教育装备、教育环境、教育业务的运行状态,资源数据包括教育过程中建设生成的教学资源,行为数据包括教学活动中教师和学生的教学行为数据等[6]。高校教育大数据来源于各种教育管理信息系统、在线课程平台等,既有存储于数据库中的结构化数据,也有文本、音视频等非结构化数据,一所万名学生规模的高校一年中产生的数据大概在100T(1T=1000G)左右。如此来源复杂、形式多样、规模巨大的高校教育大数据是一个巨型的“金矿”,教育数据挖掘应用的过程就是从“金矿”中挖掘中“金子”的过程。
教育数据挖掘应用的顺利开展离不开相关的学术研究以及专业的技术、算法和工具的设计与开发。国际学术组织对于教育数据挖掘的发展功不可没,从2000年成立第一个与教育数据挖掘相关的工作组到2011年正式成立了“国际教育数据挖掘学会”,推动了研究者之间的学术交流,相关研究成果不断呈现,比如罗米欧(Romero)等人编著《教育数据挖掘工作手册》、国际教育数据挖掘杂志等[7]。在国际教育数据挖掘学会的推动下,2008年至2017年在美国、加拿大、中国等国家连续召开了十届教育数据挖掘国际会议(International Conference on Educational Data Mining),汇集了各国学者的研究论文和研究报告700余篇,关于教育数据挖掘的研究已经产生了数据分析及可视化、为教育者提供反馈、为学生提供推荐、预测学生成绩、学生建模、监测异常学生行为、学生分组、社会网络分析、概念图开发、课件设计、计划与安排等多个分支研究和应用领域[8]。
由于教育数据的复杂性,教育数据挖掘需要在不同的阶段应用不同的工具来解决问题,这其中包括数据挖掘的通用工具以及进行教育数据挖掘的专门工具。通用工具包括SPSS Statistics、SPSS Modeler、RapidMiner、Weka、KNIME、Orange、KEEL等,专用工具包括用于文本挖掘的LIWC、WMatrix、Coh-Metrix等、用于社会网络分析的Gephi、EgoNet、NodeXL、Pajek、SNAPP等、用于贝叶斯知识跟踪的BKT-BF、BKT-SM等。斯拉特尔(Slater,S.)等分析了教育数据挖掘领域可能会用到的40个工具软件并比较了其优势和缺陷,提出了使用建议,这些工具都能为教育数据挖掘的顺利实施提供技术保障[9]。
伴随着信息技术的发展和大数据时代的来临,高校治理面临着“本领恐慌”,如何迅速跟上技术变革的步伐、不断提升治理能力,已经成为值得高校重视的课题。教育数据挖掘可以从精准化、智能化、个性化等多方面支持高校的科学决策、改进内外部利益相关者的治理体验。
决策科学化是高校政策制定与行政决策中的重要原则,也是完善高校内部治理的核心要求[10]。教育数据挖掘在支持高校决策科学化中的作用是将淹没在众多数据集合中的海量数据加以采集、挖掘与分析,为相关主题的决策提供方向、依据甚至证据,从而帮助学校领导者做出科学的决策。决策是高校治理中的关键性因素,科学决策十分重要,决策支持系统是决策体系的重要组成部分[11]。
美国大学中的院校研究办公室负责维护决策支持系统,实施教育数据挖掘。院校研究办公室负责收集校内外的各种类型的教育数据以及与教育相关的市场、环境等数据,然后按主题进行数据挖掘与分析,为高校治理主体提供重大战略性决策的建议[12]。美国加州大学建有近30名工作人员的院校研究办公室,主管领导为教务长(执行副校长),主要职能就是进行以数据为依据的决策方案设计和决策参与。近几年由于美国经济衰退的影响,公立大学教育经费遭受削减的困扰,有人提出“增加教师授课时间”“侧重职业培训”等方案,加州大学院校研究办公室进行数据采集与清洗、数据整合、挖掘分析、信息展示和结果验证等操作,证明如果增加教师的授课时数将弱化大学科研工作的力度,降低本科生参与科研的机会以及就读满意度。这些研究结论被写入校学术委员会的报告,影响了学校领导的决策,最终使“增加教师授课时间”等方案被否决[13]。
教学活动是高校最根本的活动,教师和学生是高校最核心的内部利益相关者。信息技术对于高校教学活动的改造,体现在学习管理系统和在线课程系统的广泛应用。这些系统中沉淀的大量教学和学习行为数据,能使教育数据挖掘更有用武之地。通过对这些教学和学习行为数据的挖掘分析,找出教学活动中的规律性信息,并及时反馈给教师和学生,改进教师、学生等内部利益相关者的教学体验和学习体验。
教育数据挖掘可以通过四个方面改进师生的教学体验,包括建立和改进学生模型、构建领域知识模型、分析教学支持的有效性和探究经验证据拓展教育理论,每一方面都已经有一些成果和案例[14]。基于教育数据挖掘技术,美国普渡大学开发了一套“课程信号”系统,综合学生背景特征、学业历史记录和从学习管理系统采集的课程学习行为数据,即时预测学生在该门课程中的学业表现,并给每位学生发送个性化邮件,以交通信号灯的形式显示学生的课程学习状态[15]。哥伦比亚大学教育学院设计了一套智能课程推荐系统“Pundit”,通过学习管理系统和图书馆电子数据建立课程内容索引,基于用户特征信息提取关键词,应用关联数据挖掘技术建立两者关系,为学生提供课程推荐建议[16]。
高校治理中的外部利益相关者包括政府、市场、社会、校友等,改善与外部利益相关者的关系对于高校自身建设与发展至关重要。校友是外部利益相关者中一个规模巨大的群体,通过捐赠等方式维系与母校的情感联系。校友捐赠是美国高校经费的主要来源,2012年美国高校获得的捐赠中约有44%来自于校友。相比而言,我国高校办学经费中校友捐赠的比例仍然较低,只在1%-2%之间,并且大都依赖于极个别的“富豪”校友。仅仅依赖“富豪”校友的模式并不可持续、不可复制,高校应该对所有校友一视同仁,建立面对全体校友的联系制度,发挥校友这一重要外部利益相关者的作用。
为提高效率,高校不可能对数量巨大的校友群体进行全面募捐,需要对校友进行细分并定向募捐。教育数据挖掘在建立校友细分模型中可以发挥较好的作用。伊丽莎白(Elizabeth J.Durango-Cohen)等对一所中西部研究型私立大学的34万余条历史捐赠记录进行分析,基于有限混合模型聚类方法构建校友细分模型,把校友细分为七个类别,每个类别的校友均具有不同的特征和捐赠模式,对于不同类别的校友发出不同金额的捐赠请求(Ask Amounts)[17]。
教育数据挖掘作为一个新的应用研究领域,具有独特的技术优势和发展前景,但也存在应用的困难和挑战,我们需要对教育数据挖掘的未来和问题进行更加深入的探讨,以期发挥其在高校治理中的适切作用。
教育数据挖掘的顺利实施,首先需要建立教育数据仓库,按照某种预定标准将相应数据采集到数据仓库中,再使用相关算法工具进行分析。这个过程中存在三种类型的挑战:一是建立教育数据仓库的挑战。教育数据仓库的建立主要包括分析与规划、设计与实施、上线与交付、回顾与优化等环节,在教育数据挖掘的全过程中占用30%-75%的时间,而且存在着失败的风险。二是采集教育数据的挑战。教育数据形式多样、规模巨大、来源复杂,需要对不同系统数据源的数据结构、数据字典及元数据都进行了解后才能进行数据采集。三是教育数据质量的挑战。要根据教育数据仓库中的数据标准进行数据标准化和数据清洗,特别要关注数据清洗后的整合、分析和价值利用。
人是实践活动的主体,具有实践能力并从事实践活动,教育数据挖掘的顺利实施必然离不开人这一核心要素。教育数据挖掘的技术再发达、工具再先进,在某一高校内部的应用,还是要依靠具有一定实践能力的人员。教育数据挖掘基于统计学、计算机科学等学科,需要掌握统计学、计算机科学的背景知识,所要解决的又是教育领域的问题,对教育学科的理论背景与现实状况也要熟悉。因此,教育数据挖掘实施需要多部门跨学科研究人员的协同推进。我国大部分高校中院校研究的功能还依托于高教所等教育研究机构,与信息化管理部门相对分隔,“想分析的不会分析,会分析的不知道分析什么”,这对教育数据挖掘的顺利实施是一大挑战。
教育数据挖掘实施的相关制度安排也是一大挑战。首先要对生产者、管理者、提供者、使用者等教育数据的利益相关者的权责进行安排,明确每种角色在教育数据的生命周期不同阶段的职责和权益。其次要对教育数据挖掘实施者的职责和实施流程进行规范,谁负责采集、谁负责分析、谁负责发布、谁负责解释都要明确,既有分工也有协作。最后还要落实教育数据挖掘实施的保障机制,包括经费投入、软硬件设备、风险估计、成本收益分析等等。
教育数据挖掘采集分析了教师、学生和教学活动过程中的大量行为数据,其中会包含着个人隐私数据,这些隐私数据存在着被泄露的风险,数据采集越完备越充分,泄露的风险就越大。利益相关者对自身数据享有知情权的在获得其授权后才能合理使用。通过教育数据挖掘形成的结果也应该被利益相关者知晓,并且结果中不能出现利益相关者的详细信息[18]。
教育数据挖掘在某些案例中的成功应用,也可能会被那些非理性的数据至上主义者奉为至宝,鼓吹数据就是一切,进行数据崇拜和数据迷信,片面夸大教育数据挖掘的作用,忽视教育中的其他因素[19]。教育数据挖掘的结果也存在被错用、滥用的可能性,比如通过基于学生特征和之前的学业表现记录,预测出某一类特征的学生学业失败的可能性大,这会使对这一类学生产生不良影响[20]。
总而言之,在高校治理的背景下,教育数据挖掘找到了其生存空间,进入了蓬勃发展期,在支持高校决策科学化、改进内部利益相关者教学学习体验、改善外部利益相关者关系等方面发挥其优势。作为新兴事物,教育数据挖掘还存在许多不成熟不完善的地方,还面临一些较大的挑战,但高校应学会“戴着镣铐跳舞”,趋利避害,充分发挥教育数据挖掘在高校治理改进中的作用,促进高校人才培养质量提升和实现内涵式发展。