黄静霞,杨国龙
(湛江幼儿师范专科学校,广东 湛江 524084)
随着计算机技术的快速发展,互联网在高校的信息化应用中越来越广泛,大多数高校都启动了数字校园的建设,建设智慧校园是高职院校在信息化建设道路上更高层次的体现,智慧校园的建设与应用越来越广,师生所产生的数据较大,学校不仅获取了师生的基本数据、教学数据、管理与服务的数据,还有很多非结构化的数据,在海量的数据中,如何进行有效的管理与分析,通过对数据的深层次的分析与挖掘,探索数据中的价值,研究学生的行为特征及数据规律,从而得出学校的基本情况,师生的生活服务情况,教育教学情况及学生的学习情况,从而提高教学质量、提高学生的学习效率及教学质量。 特别是近年来,互联网技术的发展和普及,各高校在教学手段上,都使用了多种教学手段参与教学活动,在线教学平台、网络教学、翻转课堂、微课等,学生不仅可以很快捷、有效的进行学习,同时产生了很多数据,特别教学的评价数据,教学的过程数据以及教学的即时数据,通过大数据技术的使用,对学生的行为挖掘,构建相应的模型,为教学管理者提供数据支撑,同时为辅导员和教师能够全面了解每个学生的具体情况,为学校管理者提供决策参考[1-3]。
近年来,大数据技术的快速发展,为大数据相关研究提供了重要的基础,2013 年至今,从各类研究中发现,直接使用大数据进行研究的成果有很多的提升,主要体现的论文的数据和质量上。 2014 年,教育部发布了教育信息化的工作中要求,加强动态监测、对教育预测、教育决策的应用等,同时要求教育大数据能为教育决策提供数据支持,促进全国基础教育数据共享[4]。
目前,各个国家都投入了大量人力和财力来发展大数据。 例如,大数据作为美国增强竞争力的关键因素之一,并且将研究大数据和生产计划提升到国家战略水平,与此同时,大力发展相关的信息网络安全项目。 在2012 年3 月29 日,《大数据研究和发展计划》由白宫科技政策办公室进行发布,并成立了“大数据高级指导小组”。 而在2013 年11 月,信息技术和创新基金会发布了一份题为《支持数据驱动型创新的技术与政策》的报告。 2014 年5 月,美国发表《大数据:把握机遇,守护价值》白皮书,通过分析美国大数据的应用和管理现状、政策框架和改进建议。 目前,美国有较多大数据项目均涉及信息网络安全项目[5]。
随着大数据的建设与不断完善,许多学校积累了海量的数据,利用大数据挖掘技术对校园大数据进行分析,不仅可以为学校管理决策提供依据,还可以促进学校信息化建设,丰富数字校园和智慧校园的概念体系。
(1)本文利用大数据技术,通过数据挖掘、神经网络等方法,从学校的数据中心甩采集汇聚的数据中,深度挖掘教育教学中的教学数据,学生的学习行为数据、教学活动、教学过程等数据,从而发现教育教学中所存在的问题,学生学习生活的规律及行为习惯,充分利用学校大数据中心的业务系统的数据共享与业务应用优势,发挥海量的数据优势,为学校的各业务部门及学校的管理者进行决策支持,更进一步推动教育教学的改革,进一步提高教学质量及学生的学习效率,提高个性化教育教学评价与诊断应用,为学校的发展提供数据支撑,也为学校的管理者的决策提供可靠的数据依据,推动学校的高质量发展。
(2)构建基于Spark 的学生行为分析与预测平台,利用校园的人、财、物数据,重点关注学生行为数据,建立学习状况、学生的学习行为习惯、学习的生活规律等为重要的评价指标,形成有效的评价体系,构建基于学生行为的学生画像,利用神经网络技术、贝叶斯算法、决策树等,生成学生可控可预测的学生行为模型,并通过模型对学生的行为进行预测与管理,及时发现学生在日常学习生活中所存在的问题,及时进行预警,有效地对学生进行管理。
(3)本文采用KNN 算法对学生的学习行为及学习能力进行分析,并通过多维度的向量,分析学生的学习能力与学生的学习成绩的关系,得出学习能力对学生学习行为的影响程度,给出学生的干预阈值并建立预警机制,建立基于大数据的学生行为分析与预警系统,挖掘学生的行为、心理等问题,为学生工作的管理者及学校领导有效地对学生的行为进行有效的控制与引导。 基于此,还可以采用Hadoop 分布式处理平台,运用决策树、关联规则、logistic 回归等,对所有学生的行为数据进行深度挖掘,找出数据之间的关系,研究学生的行为与学习质量的关系,学生的生活习惯与学习的效率的关系,结合大数据平台中的业务系统数据、比如消费数据、在线学习平台的数据、考勤管理数据、图书借阅数据、成绩数据等,利用所建立的预测模型,分析学生的行为特征与生活规律,方便学校掌握学生的生活和学习动态,及时有效地对学校的生活行为干预与有效管理[6-8]。
本文重点和难点运用大数据分析方法,利用大数据平台对各类业务系统的数据进行采集、清洗、转换、挖掘、数据建模分析和聚类分析NLP 技术,最后以学校的毕业生的岗位大数据可视化,并对就业的数据进行描述,提炼就业质量,构建预测职业变化的模型,系统技术实现原理如图1 所示。
图1 系统技术实现原理
本文所构建的系统采集学校数据、合作数据、第三方数据(如麦可思报告)、互联网数据(爬虫技术)和其他来源的数据,并将多源数据预处理到数据仓库中。通过用户图像分析技术、数据仓库特点、数据属性选择、工程和行为建模等,建立毕业生就业图片分析、数据可视化数据库,进一步支持就业、专业能力数据分析、择业满意度分析,推荐学生就业、就业群体分析和专业群体匹配就业群体分析系统功能,最后为系统用户提供Web 应用和微信应用界面[9-11]。
本文主要对现有信息进行数据挖掘分类分析,构建相关的预测模型。 随着研究的深入,采用不同的模型,算法也不同,各种算法都在不断改进和优化。 本课题主要对决策树、神经网络和朴素贝叶斯算法进行研究。 通过对算法的分析和比较,将决策树、神经网络和朴素贝叶斯3 种分类算法相结合,建立了组合预测模型。 现构造 Lagrange 函数如下,其中,公式(1)为:
划分数据集,其中60%为训练集样本,40%为测试集样本;选择3 种分类算法对训练集进行建模;对测试集中的样本数据进行单模型预测,得到预测结果;将步骤3 中的预测结果代入公式(1),计算权重系数,建立组合预测模型;根据式(2)得出组合预测结果[12-13]。
构建学生行为特征指数及制定行为管理规范。 在传统的学生行为管理过程中,一般是根据学生的成绩或同学生的交流过程中,对学生的管理,这些传统的方法所获取的数据不完整,有一些部门的主观性比较多,为了能对学生的各类数据进行精准有效的分析,为学生的管理者提供精细化的管理,本文以统计分析、预测、关系挖掘、文本挖掘等教育数据挖掘方法为基础,从学生心理健康测试、行为轨迹、情感态度、上课考试情况、课外活动情况等进行数据分析,进一步分析每位学生的个性特征、行为规律、生活习惯等,为建立学生校园行为管理规范提供基础。 以大数据中心的数据为基础,通过从各个业务系统所采集的数据进行归类、分析,利用大数据分析平台进行分析,获得学生的行为特征指数,制定学生管理规范,构建了能够准确反映学生在校行为和习惯的相关指标。
搭建基于大数据的学生行为特征分析预测平台。该平台以学生的各类数据为基础,是平台的数据源,主要包括学生的消费、学习成绩、图书借阅、上网行为等数据源。 首先,预处理的学生数据存储在分布式系统HDFS中,以确保数据转换的便利性和数据类型与关系数据库的一致性。 然后通过数据聚类分析算法以及对数据的关联规则进行挖掘,从而对学生的行为进行管理与分析,获取学生的行为特征,预测学生的生活规则和习惯[14-15]。
学生行为挖掘与预测的具体应用。 本研究能够根据学生在校园中的日常行为等来进行大数据处理与分析,预判学生的各种行为,为学校进行管理决策提供数据,为教学及生产安全管控提供有效辅助,比如推断学生出现旷课行为、挂科、学分不足等现象,同时对学生心理问题预测分析,辅导员可以对出现问题的学生及时进行引导及沟通。
本文基本大数据技术与的学生行为挖掘与预测的应用研究,是利用学校在建设智慧校园的过程中,所构建的大数据的管理与分析平台,采集学生的学习与生活等方面的数据,利用KNN 算法、决策树、支持向量机等,构建学生的学习能力对学习成绩的影响的模型,采用决策树、关联规则和logistic 回归3 种数据挖掘方法,对学生的各种生活行为、例如网行为、消费行为、学习习惯等之间的关系,建立基本校园行为的分析与预警系统,通过对学生的心理问题、学习生活问题以及各类的数据,构建学生的行为画像,从而对学生的行为监测与预警,引导学生的生为健康发展,提高学生的学习效率,从而实现学校的高效管理与数据共享,为学校的管理者决策提供数据支撑,取得了较好的预期效果。