阚淑丽
大数据的兴起,使得通过数据挖掘及分析实现高等教育的个性化、实时化已经迫在眉睫。
随着经济的快速发展,我国高等教育也步入了新的发展时期。尤其近年来移动互联网、云计算以及大数据的出现,更是在一定程度上对传统的高等教育模式提出了严峻的挑战。大数据的兴起,使得通过数据挖掘及分析实现高等教育的个性化、实时化已经迫在眉睫。
一、大数据概述
作为继云计算之后的信息技术领域的又一个热点,大数据在近几年受到学术界及实业界人士的高度关注。事实上,早在1980年,美国学者托夫勒就在其著作《第三次浪潮》中提出,“如果说IBM的主机拉开了信息化革命的大幕,那么‘大数据才是第三次浪潮的华彩乐章。”随后,美国SGI(Silicon Graphics)的首席科学家John R. Mashey在1998年首次使用“大数据”这一术语,并对其具体含义进行了详细阐述(如何使用和分析大型数据)。直到2008年9月,Nature杂志推出了名为“大数据”的封面专刊。从2009年开始,大数据才逐渐被各个行业所熟知。
通常而言,大数据由数据存储、数据处理和数据分析三部分构成。首先,数据需要通过存储层予以存储,其次再根据具体的目标或需求建立相应的数据模型,最后与指标体系相结合对数据进行分析得出所需的决策。在这个过程中,分布式计算架构必不可少,通过云计算的分布式处理、分布式数据库、云存储和虚拟化技术等才能更好地对大数据进行挖掘和处理。如果说云计算作为硬件资源的一种虚拟化来支持大数据处理的话,那么大数据技术则是对于海量数据高效处理,其未来的发展趋势就是通过实时交互查询和分析为各行业提供有价值的决策信息。随着大数据的出现,数据量的衡量单位已从之前的MB、GB、TB发展到现在的PB、EB甚至ZB级别。John Rauser(2012)认为,大数据是任何超过了一台计算机处理能力的数据量。当然,除了规模大(Volume)这一特征外,大数据还具有以下几个特征:
1.处理速度快(Velocity)
大数据优势的发挥就体现在处理速度方面。数据的更新和流动速度非常快,大量的数据只有通过借助移动互联网、RFID(电子标签)、传感器等加快数据处理速度,才能更好地发挥大数据的价值。
2.多样性(Variety)
随着网络技术的发展,人们可以通过社交平台、网购平台、行车记录等方式采集数据,数据的源头越来越多样化,数据来源的广泛性使得数据种类繁多。与此同时,数据的格式也不再仅仅局限于传统的结构化数据,包括音频、视频、网页、图片等在内的非结构化数据逐渐成为数据存储的中坚力量。传统方式下,为了便于数据的储存和处理,人们更多地使用结构化数据,非结构化的数据被压缩甚至删除,极大地影响了信息的有效性。而大数据处理过程中主要关注的是个性化信息,注重用户的体验效果,因此非结构化数据正在崭露头角。
3.价值高(Value)
大数据之所以规模大,就在于原始数据包含了大量的细节信息。尽管在解决问题时会有很多不相关的信息存在,会在一定程度上降低决策的效率,但是,在同样的数据库情况下,人们会用它来解决更多的问题。也就是说,虽然数据的绝对数量增加,但其中有效信息数量比例有所减少,数据的价值密度和数据量两者呈反向变动关系。
二、对于高等教育模式的影响
1.教师教学模式
长期以来,我国的教育实施都是依据主管部门或者课程讲授者总结的经验来进行,很多被公认为“重要”的因素会在教育执行过程中反复、多次强调。但是,在有些情况下,经验性的东西反而缺乏科学性。以苹果公司为例,他们在销售电脑过程中并没有采用传统的搞促销,而是不停地发布更新更时尚的广告方式,而是通过对门店采集的数据分析,发现电脑屏幕和桌子呈现70度角左右的时候,以这类方式摆放的电脑销售量要比其他方式摆放的电脑销售数量超出15%。原因在于,与桌面成70度角摆放的电脑屏幕刚好处于反光的状态,这时候,人们自然而然会去调整屏幕角度。而在销售过程中,只要潜在的顾客与实物发生了接触,那么产品售出的概率就增加了15%。这一结论是通过大数据分析而不是经验得出的。教学亦是如此,相关问题的解决不再依赖于停留在每位教师头脑中的模糊的经验,而是基于对海量的教学问题的描述以及教学问题解决方案的分析(梁文鑫,2013)。不难看出,相对传统的经验模式,“用大数据说话”的数据分析模式正在引领着各行业包括教育行业的思维变革。
不仅如此,我国的高等教育模式也都一直倡导按照教学大纲、教学计划等有步骤、有计划地因材施教,但是在具体执行方面,由于师资、学生数量、教学任务等各种原因,多数都未能实现因材施教的真正目的。大数据时代,对海量的教育教学数据挖掘和分析可以将学生的真实情况及时并如实反映,如课堂教学过程中,哪些同学对于理论部分较为感兴趣,哪些同学对于实务较为关注等,通过数据分析,将与学生学习相关的信息直接反馈给教师。在这种方式下,教师可以此为依据选择最适合学生学习的内容和方法,教学模式也从群体教育向个体教育转变,极大降低了双方信息不对称的情况,真正做到因人而异,因材施教(庆年,2013)。同样的情况,学生在做课后作业时,对于同一类型的题目,如果正确率达到一定程度,数据分析可以让系统跳过该类型的题目;而某类型的题目如果出错率较高,则系统也可以通过多次强化来达到学习的目的。
2.教学评价模式
众所周知,高校的教学评价模式包括两个部分:一个是学生对于老师的评价,主要是通过学生对老师的课堂满意度进行各项分数打分;另一个则是老师对于学生的评价,主要通过对学生的日常到课率和课堂表现进行综合评定。但是,传统的评价模式仅局限于教师教的及学生学的好坏与否,我们不能仅凭简单的数字加以解读,具体的细节方面还有待于改进。例如,学生最喜欢教师的哪些课堂教学方式?学生在学习过程中的学习习惯是什么?通过什么样的方式能够最快地掌握知识?这些都是无法通过简单的传统教学评价实现的,只能通过长期的数据分析得到规律(如教师的教学习惯、学生的学习方式等),而大数据则为我们提供了这一平台,教育评价由仅依赖于结果这一“单一维度”层面转变为关注整个过程的“多元维度”层面。例如,通过技术层面的分析,我们可以根据学生的浏览记录和内容点击量的统计来判断其对相关知识点的掌握情况,包括难度如何及需要用多长时间掌握等,挖掘出与学生实际情况相符的信息,形成针对学生个体的直接效果,从而制定更符合實际情况的个性化教育策略。
3.学生工作模式
由于大学生正处于世界观、人生观和价值观树立的关键时期,因此学生工作历来是高校的工作重点。除了知识外,对于学生的评价越来越倾向于多维角度。随着大数据时代的到来,高校可以通过数据分析随时发现并掌握学生的思想动态和心理变化情况。例如,通过学生银行卡、餐卡等校内购物的数据分析可以判断其经济状况如何以进行资助;通过学生间相互的微信关注或电话数据分析,以及进出宿舍楼和刷卡用电情况等,可以判断其日常关系如何来安排不同的寝室。如果有的学生社交状况异常,负面情绪严重,学校相关部门就可以及时启动心理辅导,提前介入和干预,避免悲剧的出现。以美国高校为例,当一名鲍尔州立大学(Ball State University)的学生校园卡刷卡识别系统显示其社交活动异常时,学校专业人员就会及时跟进,通过打电话或发邮件了解这个学生最近的生活及学习情况。实际上,包括招生资源的合理配置、学生消费行为习惯的引导等诸如此类的事情都可以将大数据的思维决策方式内嵌其中,通过大数据进行动态采集和实时监控,真正实现学生工作的精准化。
三、面临的问题及建议
虽然前文就大数据对传统高等教育模式的影响进行了详细的分析和阐述,但是在实际应用过程中,仍旧面临很多问题。
1.数据质量方面:时至今日,高校信息系统的数据资源虽已颇具规模,但由于在使用过程中被各教学及行政部门重复统计或维护,质量堪忧。与此同时,数据冗余、缺失或过时等问题也导致了对于数据的预期需求无法实现。究其原因,除了技术因素外,更主要的因素来自管理层面。虽然以规范的方式来管理数据资产的理念已经被高校广泛接受和认可,但多数高校由于缺乏大数据意识,数据公开和共享缺乏制度引导和保障,IT部门协调能力有限、部门壁垒严重等各种现实原因,在进行信息系统的设计开发或采购前均缺乏统筹规划,导致信息不完整或重复投资。因此,数据治理(Data Governance)工作将成为大数据时代有效提升数据质量的重要任务。建立适合高校的数据治理体系,明确高校IT战略,从组织架构、管理制度、操作规范、IT应用技术、绩效考核支持等多维度,全面梳理高校的数据模型、数据架构、数据质量、数据安全、数据生命周期等各方面工作并保证可持续性建设和改进,将是高校数据建设工作的重中之重。
2.数据使用方面:由于大数据具有低密度高价值的特点,因此,如何在大量的数据中通过快速分析提炼出有价值的信息,提高数据质量和利用效率成为当前亟待解决的问题。随着半结构化数据数量的快速增加,多类型的海量数据对处理能力提出了更高的要求。2005年,美国、欧洲等国家的高校就已经开始利用学校及社会的数据资源来为教育提供决策,截止到目前,已经发布了一系列关于本国高等教育及学校自身发展情况的研究报告。如,美国“新墨西哥大学教务长分析仪表盘”(University of New Mexico Provosts Analytics Dashboard)提供了4~8年部分美国大学生毕业率的数据。尽管大数据时代为教育决策的科学化现代化提供了保障和可能,但是相比之下,我国多数高校的信息系统却缺乏分析和决策支持功能,基本上还处于联机事务处理(OLTP,On-line Transaction Processing)阶段。以学生选课为例,我国几乎所有高校都在使用网上选课系统,学生可以根据系统中已有的学分情况、课表安排、后续学期课程的课容量及学分等信息结合个人的时间安排和兴趣爱好选择合适的课程。但是,要根据兴趣、学分、课程安排及市场需求情况等数据对学生的课程进行规划设置并在每学期进行实时推送却难以实现。这仅仅是高等教育中很小的一个部分,而一项教学或教育政策的制定通常要采集各类信息系统数据,经过大量的数据分析后才能做出适当的决策。尤其在高等教育竞争白热化的今天,数据对于决策的重要性不仅仅体现在量的方面,更重要的是如何使用,因此,要充分利用包括数据挖掘(DM,Data Mining)、數据仓库(DW,Data Warehouse)及联机分析处理(OLAP,On-line Analytical Processing)等在内的分析工具,提高数据的使用价值。
3、信息安全方面:大数据给高校的教学及学生事务等各方面带来发展机遇的同时,高校的信息安全也面临着严峻挑战。数据量呈现几何级数的增长,其覆盖范围也越来越广,数据结构也更为复杂,分布式处理也加大了数据泄露的风险,这种情况下,高校的网络更容易受到外部攻击,无论数据存储还是安全方面都对网络防护提出了更高要求。《2016年度互联网安全报告》(腾讯安全)数据显示,在电脑中毒的用户中,中学生和大学生群体占到了55.58%。尤其寒暑假及高校毕业季,由于实习、找工作的需求大增,更是学生个人信息泄露的高发期。据《2015高校网络信息安全调研报告》数据显示,各高校对于安全方面的资金投入力度在逐渐加大,相比2011年,虽然实施“数字证书”、“身份认证”、“重要数据加密”的比例平均上升了十个百分点,“网络分段”、“网络实时监测”、“恶意邮件处理”等新的手段也得到了广泛应用,但由于种种原因,仍有41%的高校缺少信息安全岗位,38%的学校仍然缺失安全团队,甚至部分高校没有做安全渗透测试。随着2014年中央网络安全和信息化领导小组的成立,信息安全的重要性已上升到国家战略层面。安全意识的提升,需要高校在信息安全方面的建设投入有所增加。
随着教育数据开放程度的不断提升,教育数据资产规模及数据的创新应用效应也不断扩大,而高等教育也逐步转为“以数据为基础的决策模式”。在这一趋势下,教育数据的挖掘将逐渐成为国内高校提高教学管理水平和教学质量的重要方式,教育政策的制定、学习方案与评价方式的确立以及学生工作的方式也将发生革命性变化。
在具体实施过程中,除了要加强高校数据平台建设外(云计算等),更要结合高等教育自身的特点通过算法创新进行针对性的技术开发。与此同时,也要尽快完善相关的制度和法律政策(包括学校数据使用权限和学生隐私保护等),在保证充分实现数据共享的同时防止数据被随意滥用。只有这样,才能使得学生和教师更主动、更积极地参与到教育过程中来,形成互动性更强的开放课堂,真正实现教育资源的优化配置。