李 丹
(陕西学前师范学院,陕西西安,710010)
大数据解析及其在教育领域的应用综述
李 丹
(陕西学前师范学院,陕西西安,710010)
从大数据的特征入手,给出了大数据的处理流程,分析了数据采集、数据分析、数据服务、数据可视化的要点,给出了教育大数据的应用模式,从个性化课程分析、教育领域的数据挖掘、监测学生的考试、为教育决策和教育改革提供参考、帮助家长和教师找到适合孩子的学习方法五方面论述了大数据的应用实践。
大数据;处理流程;教育大数据;应用实践
随着物联网、互联网技术的进一步发展,人们利用网络来处理各类事件,由此产生出大量的数据,这些数据大多都是无规则的。随着云计算技术的发展,将分布在各个角落的无规则的数据进行分析、整理,筛选出有用的信息,从而为各行各业服务,这是大数据所要研究的范畴。
大数据在全球范围内备受关注,对大数据的定义也有多种提法。IBM提出3V,即认为大数据具备规模性(Volume)、多样性(Variety)和高速性(Velocity)三个特征:规模性指数据量巨大,量级达到TB级及PB级;多样性指数据类型繁多,包括结构化数据和非结构化数据;高速性指数据创建、处理和分析的速度持续在加快。在此基础上,还有人提出4V定义:IDC(互联网数据中心)认为大数据还应当具有价值性(Value),大数据的价值往往呈现稀疏性;而IBM认为大数据还具有精确性 (Veracity),将精确性作为大数据的第四个属性凸显了应对与管理某些类型数据中固有的不确定性的重要性。除了3V定义,较典型定义来自维基百科,即认为大数据指难以用常用的软件工具在可容忍时间内抓取、管理以及处理的数据集。比较而言,3V定义对大数据特征进行了形象的描述,因此成为目前引用最多也最被认可的定义。
传统的数据服务(Data Services)指的是数据操作密集型Web服务,它们对用户提供接入数据资源的接口,对内则将数据源及操作进行封装,并对来自用户的搜索和分析请求进行处理。对于企业来说,数据通常被存储在多个应用系统当中,如果想要调用数据,就需要分别连接应用的数据存储系统。数据服务通过提供一个抽象层,为用户隔离了异构数据源的复杂性,使其能够以统一的方式访问或更新数据。目前来说,数据服务的理想应用是数据所有者将数据开放,具有相应权限的用户、客户端和应用程序可通过数据服务对数据进行访问和操作。
图1 大数据系统流程图
大数据系统实际上就是数据的生命周期,即数据采集、存储、查找、分析和可视化的过程,大数据系统流程图,如图1所示,其中Hadoop是一种开源实现平台,其结构如图2所示。
图2 Intel Hadoop组件结构
2.1 数据采集:
结构化数据通常是指可以用二维关系表达的数据,如关系数据库和非关系数据库存储的数据;而非结构化数据则是指难以用二维关系表达的数据。非结构化数据的存储方式有非结构化数据库、文件系统、内容管理系统,如WinFS、EXT3、HDFS、GFS、TFS等,大数据采集的大量数据是半结构化或非结构化的。因此,通过各种方法采集数据信息便显得格外重要。
数据采集是大数据处理流程中最基础的一步,目前常用的数据采集手段有传感器收取、射频识别、数据检索分类工具如百度和谷歌等搜索引擎,以及条形码技术等。
2.2 数据分析
数据分析在方法论上需要解决的课题首先就在于:如何透过多层次、多维度的数据集实现对于某一个人、某一件事或某一种社会状态的现实态势的聚焦,即真相再现;其中的难点就在于,我们需要洞察哪些维度是描述一个人、一件事以及一种社会状态存在状态的最为关键性的维度,并且这些维度之间的关联方式是怎样的等。其次,如何在时间序列上离散的、貌似各不相关的数据集合中,找到一种或多种与人的活动、事件的发展以及社会的运作有机联系的连续性数据的分析逻辑。其中的难点就在于,我们对于离散的、貌似各不相关的数据如何进行属性标签化的分类。不同类属的数据集的功能聚合模型(用于特定的分析对象)以及数据的标签化技术,是大数据分析的技术关键。
已有数据服务架构主要是为数据统一操作(增删改查)而设计的,而大数据服务架构是为了在屏蔽数据资源和操作复杂性的基础上实现数据资源服务化。表1将UE-BDaaSA(面向用户体验的大数据服务架构)和WCF DS、OSDI从数据对象、支持的数据模型、支持的数据类型、数据源、语义、数据服务描述、服务构建方式以及支持的服务操作等多方面进行对比。可以看出,每种架构都具有一定优势,而UE-BDaaSA主要面向大数据服务,通过引入非结构化数据模型GDM(星系数据模型)和语义技术,以及提供完善的服务模型和应用操作,使得UE-BDaaSA在数据模型支持、语义支持、服务描述完善度、服务方式、支持的操作等多方面都表现较好,尤其是UE-BDaaSA对非结构化数据提供支持,并提供了分析和可视化服务等多种服务类型,可见UE-BDaaSA是一种实用的大数据服务架构。
表1 WCF DS、OSDI 、UE-BDaaSA对比
从数据存储共享来看,一般会选用扩展性极好的hadoop平台,但是由于hadoop技术的成熟度的问题,在数据高效利用的方面就会出现很多问题,因此就必不可少的需要各类分布式计算的能力来做补充,这其中有数据加载问题,数据查询分析问题,以及准实时的分析和挖掘应用的问题,因此国内外各种产品和各类服务商也都围绕着这些现实问题在积极的寻找高效恰当的解决方案。其中actian提出的基于大数据2.0的计算中心解决方案,可以将分布式加载、高性能查询和流式计算等技术系统的整合在一起,为客户提供标准化服务。
actian大数据2.0分析平台具有丰富易用的数据挖掘分析功能,可驱动更快的价值实现。同时作为现有基础设施(如hadoop平台,结构化数据仓库平台)的补充,该分析平台可以部署在企业私有云或混合云之上,为适应不同的业务需要,提供了灵活的授权模式。
2.3 数据服务
目前,对外提供大数据服务的既有政府、企业,也有科研机构,其提供的数据服务集中在数据查询/验证服务,面向企业的
数据分析服务和数据集市。
(1)数据查询/验证服务:该类服务主要提供数据搜索服务或着基于底层数据源为用户提供验证服务,例如客户地址验证、Email验证、金融数据服务等。典型的有,Google提供的BigQuery搜索服务;StrikeIron、Xignite等网站提供的金融、电子商务、通信类验证服务。
(2)面向企业的数据分析服务:该类服务是以帮助企业分析数据为目的的服务,其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。例如,Precog提供大数据分析服务,可以从各种数据源抓取输入数据,同时还使用人群统计、态度、位置和其他信息使数据更为丰富,最后综合进行分析;埃森哲也提供一站式数据分析解决方案;量子恒道和“淘师爷”都是针对淘宝卖家提供电子商务数据的分析,帮助卖家提高销售量。这类分析服务提供的方式是由服务提供商通过自己的分析系统帮助数据拥有者分析数据,而不是为有分析需求的用户提供一个分析数据的环境。
(3)数据集市:是以数据提供和数据下载为目的的数据服务。例如,美国政府通过Data.gov向公众提供各类政府数据;Amazon在AWS基础上提供的公共数据集服务;实时数据交易网站Factual.com以数据服务的形式向应用软件开发商和内容发布商提供高品质低成本(甚至零成本)的数据;数据堂Datatang.com提供科研数据共享服务。
2.4 数据可视化
不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观地展示数据。数据可视化的前提是给定要进行可视化的数据,这些数据有可能是用户检索的结果,有可能是分析的结果。这样,大数据的可视化请求的处理流程可概述为,先执行大数据检索服务或者大数据分析服务,再将其结果数据输入到可视化型数据服务中,最后输出可视化脚本或包含可视化脚本的网页脚本。
数据分析能够帮助用户从大数据中洞察价值。然而,在大数据时代,海量数据分析结果依然海量,如果能够有一种简单的方式对数据规律进行直观展现,必将使大数据中的价值得到快速理解和发现,可视化就是这样的方式。可视化由来已久,随着20世纪50年代计算机图形学的出现,信息技术加速了可视化的演变。时至今日,可视化已经发展为数据可视化、科学可视化、信息可视化、可视分析这几大方向。可视分析起源于2005年,它是一门通过交互可视界面来分析、推理和决策的科学,通过将可视化和数据处理分析方法结合,提高可视化质量的同时也为用户提供更完整的大规模数据解决方案。
如今,针对可视分析的研究和应用逐步发展,已经出现很多重要而常用的开源可视化编程语言和环境,它们具备的一个共同特点就是为用户提供了常见的专业可视化模版或图形库,用户可以通过简单调用即可很快实现可视化效果,此外,由于软件的开源优势,专业用户可以根据其需求,对图形源代码进行定制修改。
Processing是由MIT Media Lab的Ben Fry和Casey Reas开发的开源软件,基于java构建,其特点是简单,通过使用Processing可以生成图形、3D图形、声音、实时影像等,用户还可以通过添加交互行为来实现实时的互动。通过该软件可以导出在浏览器中使用的文件,但前提是浏览器装有java插件,这也是该软件在web中应用面临的瓶颈。为了解决这一问题,Processing.js框架被设计出来,它主要针对不想使用Flash或 Java applets进行图片编程以及Web交互的开发者。Processing.js使用JavaScript在HTMLS的Canvas元素上绘制形状以及操作图像,这就要求目标用户的浏览器支持HTML5。D3.js是一个基于JavaScript的开源数据可视化库,它允许绑定任意数据到DOM,然后将数据驱动转换应用到Document中。用户可以使用它用一个数组创建基本的HMTL表格,或是利用它的流体过度和交互,用相似的数据创建SVG条形图[12]。诸多成熟的开源可视化组件库都为大数据可视化提供了便利,针对大数据可视化服务需求,充分利用现有可视化组件库,进一步降低用户学习成本,是大数据研究的重要目标之一。
基于数据挖掘、数据分析和在线决策面板三大要素的教育大数据应用流程具体可划分为六个步骤,如图3所示,一是学生使用在线系统进行学习;二是系统收集和记录学生的在线学习行为,存入数据库;三是进行数据分析和处理、预测学生的学业表现;四是对预测和反馈结果进行可视化处理;五是提供适合学生个人的学习材料;六是教师、管理人员和开发人员适时给予学生指导和帮助。
图3 教育大数据流程图
4.1 个性化课程分析
进行数据分析和处理、预测学生的学业表现,并向其推荐他们可能取得优秀学业表现的课程。系统首先获取某个学生以前(高中或大学)的学业表现,然后从已毕业学生的成绩库中找到与之成绩相似的学生,分析以前的成绩和待选课程表现之间的相关性、结合某专业的要求和学生能够完成的课程进行分析、利用这些信息预测学生未来在课程中可能取得的成绩,最后综合考量预测的学生成绩。
4.2 教育领域的数据挖掘
教育数据与其他领域中的数据比较起来,有一些独特的特征。总结起来就是教育数据是分层的(hierarchical)。有键击层(keystroke level)、回答层(answer level)、学期层(session level)、学生层(student level)、教室层(classroom level)、教师层(teacher level)和学校层(school level),数据就隐含在这些不同的层之中。
教育中的数据挖掘是迈向大数据分析的一项主要工作。互动性学习的新方法已经通过智力辅导系统、刺激与激励机制、教育性的游戏产生了越来越多的尚未结构化的数据。教育中最近的趋势是允许研究者积累大量尚未结构化的数据(unstructured data)。这就使得更丰富的数据能给研究者创造出比过去更多的探究学生学习环境的新机会。
4.3 监测学生的考试
监测学生的考试能让研究者有效定型学生的学习行为。大数据要求教育工作者必须超越传统,不能只追求正确的答案,学生是如何朝着正确答案努力的过程也同样重要。在一次考试中,学生个人和整体在每道题上花费了多少时间?最长的是多少?最短的是多少?平均又是多少?哪些此前已经出现过的问题学生答对或答错了?哪些问题的线索让学生获益了?通过监测这些信息,形成数据档案,能够帮助教育工作者理解学生为了掌握学习内容而进行学习的全过程,并有助于向他们提供个性化的学习模式。
用这些学生学习的行为档案创造适应性的学习系统能够提高学生的学习效果。利用学生是“如何”学习的这样重要的信息,考试的出题者们就能为学生量身定制出适合学生的个性化问题,并设计出能够促进记忆力的问题。
4.4 为教育决策和教育改革提供参考
数据不仅可以帮助改善教育教学,在重大教育决策制定和教育改革方面,大数据更有用武之地。美国利用数据来诊断处在辍学危险期的学生、探索教育开支与学生学习成绩提升的关系、探索学生缺课与成绩的关系。如果有了充分的数据,便可以发掘更多的教师特征和学生成绩之间的关系,从而为挑选教师提供更好的参考。
4.5 帮助家长和教师找到适合孩子的学习方法
比如,美国的麦格劳.希尔教育出版集团就开发出了一种预测评估工具,帮助学生评估他们已有的知识和达标测验所需程度的差距,进而指出学生有待提高的地方。评估工具可以让教师跟踪学生的学习情况,从而找到学生的学习特点和方法。有些学生适合按部就班,有些则更适合图式信息和整合信息的非线性学习。这些都可以通过大数据搜集和分析很快识别出来,从而为教育教学提供坚实的依据。
随着大数据理论及其相关技术的不断完善和发展,其在教育领域的应用将会更加广泛,对教育的影响力也会日益提高。
[1] 韩晶,大数据服务若干关键技术研究:北京邮电大学博士论文2013.4
[2] 刘智慧 张泉灵,大数据技术研究综述:浙江大学学报(工学版)2014.2
[3] Grobelnik,Marko.Big Data Tutorial [EB/OL]http:// videolectures.net/eswc2012_grobelnik_big一data/
[4] Hamish Barwick.The 'four Vs' of Big Data. Implementing InformationInfrastructure Symposium[EB/OL].http://www.computerworld.coin.au/ article/396198/iiis_four_vs_big_data/
[5] IBM. What is big data? [EB/OL].http;//wvvw901 .ibm. com/software/data/bigdata/
[6] 李国杰,程学旗大数据研究:未来科技及经济社会发展的重大战略领域—大数据的研宄现状与科学思考[J].中国科学院院刊,2012,(06):647-657.
[7] 马帅,李建欣,胡春明大数据科学与工程的挑战与思考[J].中国计算机学会通讯,2012, 8(9): 22-30.
[8] Google Big Query [EB/OL].https://cloud.google.coni/ products/big-query
[9] StrikeIron[EB/OL].http://www.strikeiron.com/ strikeironservices.aspx
[10] Xignite [EB/OL].http://www.xignite.com/Products/ ProductDirectory.aspx
[11] serviceobjects.NET http://www.serviceobjects.com/ products/directory ofwebservices.asp
[12] WebserviceX[EB/OL].http://www.webservicex.net/WCF/ webServices.aspx
[13] 张燕南,关于大数据应用于教育的思考:教育理论探索2013.12
[14] COLLEGESTATS.How Can Data Mining & Analytics Enhance Education?[EB/OL].http://collegestats.org/ articles/2013/01/how-can-data-mining-analyticsenhance-education/.
Big data analysis and in education domain application summary
Li Dan
(Shanxi Xueqian Normal University,Shanxi Xi’an,710100)
From big data characteristic obtaining,has given the big data processing flow,has analyzed the data acquisition,the data analysis,the digital data service,the data visualization main point,gave has educated the big data the application pattern,analyzed,the education domain data mining from the personalized curriculum,monitors student's test, provides the reference for the education decision-making and the education reform,helps the guardian and the teacher found suits child's study method five aspects to elaborate the big data application practice.
Big data;Processing flow;Educates the big data;Using practice