廖志平
(湖南环境生物职业技术学院,湖南 衡阳 421005)
大数据技术是科学家研究的热点[1]。云计算是在计算机中使用编程模型(Mapreduce)来工作的,包括根据相关计算进行数理分析,将数据来源归入各族群、利用各种数据来源测量数据的相似度和绘制数据,大规模数据分析与云计算有关。
目前,教育数据冗杂,信息量大,大数据技术在教育实践中十分重要。教育数据可为教师、学生、教育管理者、父母和教育研究人员提供以下服务。1)提供直接数据服务,例如基本信息、考试成绩和课堂情况等,通过分析数据,可以掌握学生的特征与学习需求,从而对不同学生进行个性化教学,通过统计数据发现学生在学习中存在的问题,从而改进教育方法,提升教师的教学水平,达到更好的教学效果。2)提供间接数据服务,包括成绩排名、及格率和优良率等。在教学活动的全过程中,教育大数据是提高教育质量和教育管理能力的关键。
由于大数据技术的应用越来越广泛,其含义也越来越丰富,因此无法精确地界定大数据[2]。大数据并不必然包括大量的数据,但是它们之间存在关联。当前大数据的4V概念已经得到了普遍认可,4V主要包括以下4个方面的内容。1)数据真实性(Veracity),品质。2)数据容量(Volume),根据资料数量和可能的资讯而定。3)数据种类(Variety),数据不同类型。4)传输速度(Velocity),获得数据的速度。
教育数据来源各异,因此,对其进行深入研究与发掘不仅需要专业的资料分析人员,更需要教师主动介入[3],本研究目的是挖掘资料数据。双方经过沟通,明确挖掘对象,提供有针对性的挖掘服务。研究主要包括抽样选取、评估指标、整理有关因子、筛选样本资料、检验并整理符合条件的发掘需求、尝试发掘(运用回归、分类、聚类和关联等)和发掘其他内在属性的性质[4]。将研究结果以可视化的方式呈现,并说明其意义,方便未来评估与介入,教育传播大数据可视化流程如图1所示。分析和挖掘数据是一个不断重复的过程,以便从中挖掘新的需求。
图1 教育传播大数据可视化流程图
1.2.1 FCM聚类算法
FCM聚类算法(Fuzzy-c-Means algorithm,FCM)[5]的基本原理是模糊理论,这种理论从客观事实出发,处理模糊不确定的实物,又称为模糊C均值算法。
FCM将n个用户数据作为n个向量Xi,其中涉及隶属关系,为一种表示模糊集合的方式。FCM模糊隶属程度的取值范围为[0,1],在数学上可以将模糊隶属程度进行分类,构建相应矩阵,表示其聚类情况。采用FCM 聚类算法构建模糊矩阵U,在矩阵中每个要素都是各矢量的模糊隶属度,值的范围在[0,1],归类后的每个元素的模糊隶属度之和均为1。
FCM聚类算法如公式(1)所示。
FCM聚类算法的目标函数如公式(2)、公式(3)所示。
式中:uij的取值范围为[0,1];ci为模糊类I的聚类中心;dij为第I个聚类中心到第j个向量之间的欧式距离;m为加权指数,其取值范围为[1,∞]。
为使目标函数取得最小值,进行以下改进,如公式(4)所示。
式中:λj为n个约束式的拉格朗日因子。
目标函数取得最小值需要前提,表明其必要条件,如公式(5)所示。
FCM聚类算法包括以下4个步骤(如图2所示)。1)求解各矢量的模糊隶属关系,构造1个[0,1]的初始模糊矩阵U,保证各类别矢量的隶属性和等于1。2)确定聚类的簇集中心。3)对该设计进行优化,确定优化后的算法。4)求得1个新的矩阵U。判断目标函数是否小于固定阙值,如果未达到,那么返回步骤二,反复循环,直至达到要求。
图2 FCM聚类算法的流程图
1.2.2 特征选择算法
特征选择(Feature Selection)是用相关特征来描述一个应用领域的方法[6]。在数学形式上,特征选择可定义为从N个原始特征中选择一个包括M(M≤N)个相关特征的最小子集,使包括M个特征的子集中不同类别的概率分布值接近N个原始特征。如果FN为原始特征集,FM为选出的特征子集,则可能的类别C,条件概率P(C|FM=fM)应当与P(C|FN=fN)接近,其中fM和fN为相应的特征矢量FM和FN的值矢量。在样本数量较多的情况下,采用高效的特征选择方法可以降低样本的维数,为后续的数据分析提供方便。
1.2.3 mRMR算法
最大相关最小冗余算法(Maximum Relevance Minimum Redundancy,mRMR)根据互信息极大化原则,在选取属性后,尽量保存大部分分类信息,同时降低各属性间的相关性。从原始特征集合{t1,t2,t3,...,tn}中选择一个特征子集{t'1,t'2,t'3,...,t'n}构成新的特征空间,并提出新的特征子集,在该子集上,各属性和各属性间的相关系数均尽量变小。特征的相关性用互信息I衡量,如公式(6)所示。
式中:I(x,y)为特征相关性;xi、yj为随机变量;p(xi,yi)为概率密度函数;p(xi)为xi的概率密度函数;p(yj)为yj的概率密度函数。
首先,利用互信息计算I(x,y),I(x,y)越大,它们之间的关联度就越大。先找出包括m{xi}个特征的特征子集S,使m个特征和类别C的相关性最大,即与c关系最密切的m个特征。其中,D为特征与目标的互信息值,|S|为特征集合中特征的个数,S为m个平均互信息最大的集合。maxD,D为特征与目标的互信息最大化,如公式(7)所示。
其次,消除m个特征之间的冗余,其中,R为特征之间的互信息值,minR,R为特征之间的互信息最小化,如公式(8)所示。
求得最大相关度—最小冗余度maxΔMID,ΔMID,如公式(9)所示。
通过上述运算,可以得到ΔMID值的特性,根据这些数值来分类这些特性,达到筛选目的。
教育大数据可视化系统的目标是在时间短、成本低的前提下,分析并展示在线平台的数据,侧重点为数据的可视化,但是这种可视化平台已经有丰富的商业产品和众多图表展示,系统可以自定义定制要实现的功能点和数据分析维度,系统使用大数据组件开源技术,搭建单节点Hadoop集群,使用MapReduce分析数据,由于市面上大屏可视化系统需要收费,因此用ECharts技术展示数据图表,降低经济成本。
登录注册功能。用户进入登录页,没有注册的用户可以进行注册,已有账号的用户登录后系统显示已登录用户名,点击注销用户可以退出登录。
数据预处理功能。将数据通过开源工具导入分布式基础架构(Hadoop)中的分布式文件系统(HDFS),使用MapReduce处理数据,并将处理好的数据保存至开源数据库(HBase)中。
每日登录人数分析。读取HBase中的登录数据,页面可以显示每月登录人数和不同月份的登录人数对比。
平均学习时长和学习行为次数分析。读取HBase中的相关数据,页面显示不同日期对应的学习时长和学习次数。
每日活跃情况分析。可用柱状图显示每日活跃学生人数,设定每日至少进行3次学习行为的用户为活跃用户。
分时段学习人数分析。可用热力图显示学生在什么时间段爱学习。
数据处理部分是开发MapReduce,用户只需利用Mapper类和Reducer类封装Map和Reduce函数,由客户端调用,即可实现分布式计算。
当在浏览器中输入系统地址时,系统会验证是否有用户已登录,如果没有则跳转登录页面,有则直接跳转首页。登录页面的动画效果是手写的echarts图标效果,有验证用户名和密码的步骤并提示信息。
大屏可视化界面使用阿里云DataV数据可视化平台,点击每日、每周和每月按钮,对应的折线图和柱状图会联动显示数据。地图显示学生的地区分布人数。气泡图显示不同时间段的学习人数。使用DataV数据可视化平台,数据展示效果更好。系统能够帮助非专业的工程师搭建专业水准的可视化界面,满足多种业务的展示需求。
综上所述,教育大数据可视化系统是对在在线教育平台中的学生上课、做作业和提问等多方面、多层次的数据进行数据分析和数据展示。教育大数据能够清晰地反映学生的学习能力、优势学科以及特长,教师能够有针对性地制定教学计划,为学生提供个性化的指导,帮助学生对自己的学习状况有一个全面的认识,并适当安排学习重点。通过分析大数据,教师能够得知每位学生的潜能与需要,针对不同的学生选择不同的教学内容,采用不同的教学方法,提供不同的教学服务;父母能够了解自己的子女在学校的学习和心理健康情况;教育管理者能够了解学生的优缺点,发现学生的问题,及时提供关怀与指导,还可以预测他们的职业发展情况,进行有目的的训练;研究人员能够了解目前的现状和问题,利用大数据推动教育决策由粗放型向精细化、智能化的方向发展。