谢光敏,罗光明,赵文杰,郭 妍
(四川水利职业技术学院信息工程学院,成都 610039)
随着信息技术的不断发展,大数据时代已经悄然来临,人们将进入全新的生活,适应新的工作环境。2015 年国务院发布《促进大数据发展行动纲要》,明确了数据已成为国家基础性战略资源,要求抓住数据发展的机遇,有效推动科技、文化、教育等领域的发展[1]。高校作为集教学、科研、实践、育人、管理为一体的综合场所,在高校开展各项育人工作中会产生海量的数据,但绝大部分数据没有得到充分的利用,导致许多问题无法解决。比如,学生学习效率不高、专业匹配度不高、就业率低等。因此,急需利用大数据技术来解决高校面临的问题。
本文根据每个学生的能力水平、学习兴趣、学习风格等数据,采用个性化的教学策略,让每个学生得到最适合自己的教育方式,提高学生学习效率。也可以根据学生学习情况、考试成绩、社会实践,结合就业形势来提高学生精准就业率,真正实现高校育人精准化。
大数据网络育人平台是一款能够全面统筹科研、文化、课程、实践、网络各领域的育人资源和育人能量,实现高校育人工作互联互通,协同协作的“新”平台。当今社会,大数据技术已经成为人们迈向信息化、数字化必不可少的核心力量。本平台通过数据采集、数据清洗、数据分析、数据可视化等技术[2]实现一个全方位的育人平台。总体技术框图如图1所示。
图1 大数据育人系统技术框图
本文采用的数据采集工具为Kettle[3],其可以采集本地数据、单机数据库数据、网页数据,进行多源异构数据整合,得到一个更加完整的数据;与此同时,也能使后续的数据分析结果更加可靠,提高数据的价值,解决数据孤岛问题。通过Kettle采集到完整的数据,数据中可能存在缺失值、重复值、异常值。针对存在的问题,采用Python 语言,结合Pandas和Numpy库,来完成数据清洗,从而去除错误、不准确和不完整的数据,提高数据处理效率和数据准确性。对于清洗后的数据,我们可以采用聚类分析、关联规则挖掘、异常检测、特征提取、预测分析等方法来最大化地开发数据的功能,发挥数据的作用。最后通过图形或图表等可视化方式进行展示,以便于帮助数据分析者更好地发现数据中存在的规律和关系,加强对数据的理解。
常用的数据采集方法有网络爬取、Kettle 工具采集。平台主要用于学校育人管理,所以采用内网模式部署,因此网络爬取的方式不适用于本平台。由于数据是由学校官方提供,一般为文本数据(比如excel,csv文件)和数据库数据(比如教务系统、财务系统、科研系统等信息化平台)。因此,本文采用Kettle作为数据采集工具。
Kettle采集工具是由UI层、核心层和数据源层三部分组成,其中UI层由工作区、转化/步骤控件、资源库、作业控件和流程控制控件五部分组成。核心层的核心组件由作业(Job),转换(Transform)和步骤(Step)三部分构成。可以支持JDBC/JNDI,LDAP,VFS,FTP,Mail,HTTP,WebService,SOAP 等格式的文件。数据源层则是由数据库、文件系统、LDAP 对象和应用服务器组成,整个模型架构如图2所示。
图2 kettle工具模型架构
一般在以下三种情况下采集的数据需要进行数据清洗:第一种情况是数据存在缺失;第二种情况是数据存在重复或冗余;第三种情况是数据存在极端值或异常值。
1.3.1 数据清洗判定
数据存在缺失值的情况,可以通过热流图判定、info 方法判定、apply 方法统计缺失值等方式进行缺失值判定。数据存在重复或冗余,通过唯一标识符、数据哈希值进行重复值判定。数据存在异常值,通过均值标准差、上下四中位数中位差方式进行异常值判定。清洗方法判定如图3所示。
图3 数据清洗判定
1.3.2 数据清洗方法
数据存在缺失值可通过删除法、填充法处理;数据存在重复值采用删除法;数据存在异常值采用删除、重写等方法进行处理。清洗方法如图4所示。
图4 数据清洗方法
本文以提高学生学习效率为例,首先需要采集学生的学习数据,主要包括课堂表现、作业完成情况、考试成绩、在线学习情况、课外活动情况、图书馆进出及图书借阅数据等。学习数据需要经过预处理,包括数据清洗、特征选择和数据归一化等。
通过对学习数据进行挖掘,分析出学生的学习模式、难点和瓶颈,以及学习进度和效果等。数据挖掘过程大致分为如下步骤:
(1)聚类分析:通过聚类分析算法,将学习数据分为不同的类,从而识别出不同的学习模式和趋势。例如,可以使用K-means算法[4]将学生分为优等生、中等生和差等生等不同的人群。
(2)关联规则挖掘:通过关联规则挖掘算法,找出学习数据之间的关联性,从而发现学习对象之间的联系和规则。例如,可以发现不同课程之间的关联性,从而为学生提供交叉学科的学习建议和资源。
(3)异常检测:通过异常检测算法,识别和学习数据中的异常行为和趋势,从而发现学生的学习异常行为和需求。例如,可以检测出学生的异常成绩和行为,及时发现学生的学习问题和需求。
(4)特征提取:通过特征提取算法,从学习数据中提取有用的特征,从而更好地理解学生的学习行为和需求。例如,可以提取学生的学习时间、学习频率、作业完成情况等特征,更好地理解学生的学习习惯和学习需求。
(5)预测分析:通过预测分析算法,利用学习数据预测未来的趋势和结果,从而制定更好的学习计划和策略。例如,可以预测学生的考试成绩和职业发展方向,为学生提供科学的学习计划、职业规划,提高学校精准就业率等。
根据分析结果,为每个学生提供个性化的学习方案,例如,提供针对性的学习资源、学习建议和辅导等。通过实时监控学生的学习行为和成绩,及时发现学生的学习问题,并给予相应的反馈和指导。定期分析学生的学习数据,评估学生的学习效果和进步,为学生学习计划的调整提供参考。
经过上述数据分析结果,大数据一体化育人平台可以为每个学生提供个性化的学习方案和实时反馈,从而提高学生的学习效率和效果。具体来说,平台可以通过以下措施实现大数据技术提高学生学习效率和精准就业率:
(1)建立学生的学习档案,全面记录学生的学习情况和行为。
(2)利用数据挖掘技术,分析学生的学习数据,为每个学生提供个性化的学习方案和反馈。
(3)提供在线学习平台,方便学生随时随地进行学习,并记录学生的学习行为和成绩。
(4)建立完善的数据分析系统,定期对学生的学习数据进行分析和评估,为学生学习计划的调整提供参考。
(5)提供针对性的学习资源和建议,帮助学生更好地理解和掌握知识,提高学习效率。
通过以上措施,平台可以利用大数据技术提高学生的学习效率和效果,为学生提供更加科学和个性化的学习服务,为学生提供更为精准的就业环境。
数据分析结果以更加直观和易于理解的方式进行可视化展示,从而更好地利用数据来提高学生学习效率和精准就业率。下面列举几种常见的展示方式:
(1)趋势图:可以将学生的学习成绩、学习时间、学习频率等数据以趋势图的形式展示,从而展示学生的学习趋势和变化。
(2)散点图:可以通过散点图展示学生的学习成绩和学习时间之间的关联性,从而展示学生的学习效率和效果。
(3)热力图:可以通过热力图展示学生的学习行为和习惯,如学习时间、学习频率、作业完成情况等,从而展示学生的学习方式和习惯。
(4)柱状图:可以将不同课程之间的关联性以柱状图的形式展示,从而展示课程之间的相互关系和影响。
(5)表格:可以将不同学习模式和趋势以表格的形式展示,从而展示不同学习模式和趋势之间的区别和特点。
通过以上方法,学校可以将通过大数据技术提高学生学习效率的分析结果以更加直观和易于理解的方式进行可视化展示,从而让用户更好地利用数据来提高学生学习效率和精准就业率。
本文大数据育人平台可通过多种方式将分析结果进行共享,便于授课教师、辅导员或管理员实时掌握分析结果。
(1)数据库共享:将分析结果存储在数据库中,并设置相应的权限,使不同的人员可以根据自己的权限进行查看和下载。
(2)文件共享:将分析结果以文件的形式共享,并设置相应的权限和密码,使不同的人员可以根据自己的权限进行查看和下载。
(3)链接共享:将分析结果以链接的形式共享,并设置相应的权限和密码,使不同的人员可以通过链接直接查看和下载。
(4)电子邮件或即时通讯工具:将分析结果以电子邮件或即时通讯的方式发送给相应的人员,让他们可以直接查看和下载。
大数据技术的不断发展,使其在教育领域的应用也越来越广泛。本文利用大数据技术构建一个高校网络育人平台,该平台可以提高学生学习效率,提高精准就业率。
首先,平台可以利用大数据技术分析学生的学习数据,包括课堂表现、作业完成情况、测试成绩、在线学习行为等,从而了解学生的学习模式、难点和瓶颈,以及学习进度和效果等。
其次,平台利用大数据技术可以为学生提供个性化的学习方案和反馈,根据学生的不同情况,提供针对性的学习资源、学习建议和辅导等,从而帮助学生更好地理解和掌握知识,提高学习效率。
此外,平台利用大数据技术还可以预测学生的未来学习趋势和职业发展方向,为学生提供科学的学习计划和职业规划建议,从而帮助学生更好地实现精准就业。
综上所述,本文提出的网络育人平台利用大数据技术可以提高学生学习效率,从而提高精准就业率。学校可以通过建立学生的学习档案、利用数据挖掘技术[5]分析学习数据、提供个性化的学习方案和反馈、预测未来学习趋势和职业发展方向等方式,实现大数据技术提高学生学习效率的目标,为学生提供更加科学和个性化的学习服务。