张立辉
摘要:随着“数据中国”的深入开展,高校教育管理的信息化、数据化成为不可逆转的趋势。高校数据管理的重要任务是挖掘教学数据深层次的价值并使其为学校发展决策提供数据支撑。文章提出的大数据用户行为分析平台通过挖掘海量用户行为数据,解析用户行为喜好并进行智能推荐,能够从数据中精准识别用户基础行为及专题行为,通过行为匹配进而分析用户偏好情况。平台针对用户偏好进行智能推荐,对用户进行行为分类,有效掌握用户动态;针对预测群体进行精准推荐,为提升产品营销成功率做出贡献。
关键词:大数据;用户行为;智能推荐;预测
中图分类号:C37 文献标志码:A
0 引言
随着大数据应用的不断普及和发展,学生之间通过网络来进行信息交流逐渐频繁,如何有效地对学生行为进行分析是目前行为分析平台的主要難点之一。为适应高校学生平台的应用情况,文章提出结合大数据技术和互联网等多项技术,提出基于高校师生共同使用的基于大数据的学生行为分析平台。
1 平台的研究现状
从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步[1]。国家的多项规划中不止一次提到要加快信息化的发展建设,更要加强基于大数据技术的应用建设,大数据的应用不仅要实现对大数据的管理、大数据的清洗与挖掘,更要将基于大数据的信息化建设变成国家的发展战略。
我国是人口大国,高校林立,在高校的多元管理过程中会产生大量的数据信息,比如学生的基本信息管理、学生的成绩管理、学生的图书借阅管理等[2]。学生在学校论坛等平台会留下大量的数据信息。教师的工龄及薪酬管理、上课课件和视频传输、项目管理及经费应用等教学科研会产生大量的数据信息。除此之外,高校教务及行政系统的设备管理、办公自动化建设和学校主页建设也会产生大量的数据信息。学校在执行教学管理和学生管理的过程中会同时采用多个管理系统进行数据维护和管理,多年应用会积累大量的数据信息。对这些数据进行挖掘和分析尤为有意义。
2 立项的必要性
许多学校每学期都会统计教师和学生的信息,但是传统的管理模式都是通过Excel表格实行人工数据统计,每次的数据统计都会产生一定的误差。为此,使用数据平台实现教师和学生数据的统一管理,从已有数据中进行统计,不仅可以提高管理的可靠性,还能够提升管理人员的工作效率,甚至能改变教育领域传统的授课模式、学习模式和管理模式[3]。对现存海量原始数据分析的成果,可应用在科研计算、招生推广、学科管理、薪资统筹、教师和学生信息跟踪等多个方面。在新形势下,多数高校已经形成共识。在信息爆炸时代,开展数据的深度分析和应用工作,对高校的发展而言是非常有必要的一项工作。
2.1 学校科学决策,需要数据深度分析和应用的辅助
完善高校管理大数据工程支持体系。一方面,将大数据分析分别与高校中的垂直管理和横向业务联系起来并充分融合,形成“数描高校”,即通过大数据分析方法,将高校中的人、财、物,以及各类事件、活动、过程和现象进行可视化处理,既对高校各类主体、实体进行静态“画像”,也对各类活动或过程开展动态“摄像”,为推动高校管理科学化提供精准动态的认识和把握。另一方面,推动建立高校科学管理体系。建立高校管理决策中教育大数据分析结果使用原则和流程;成立专家小组,推动教育大数据“数描方法”与领域专家分析相结合,助推科学规划与科学决策。
2.2 教学质量评估,需要科学的数据深度分析和应用
每所高校都要定期开展教学评估工作,在评估工作中引入大数据分析技术不仅具备管理的依据,可以使教学工作的管理更加科学,还提高了学校数字化建设的步伐。在教学质量评估工作中引入大数据挖掘与分析技术,可以有效地提高教师的教学质量,还可以从教师教学的业绩、教学手段多样化、师生的互动、教学场所的使用情况等多个环节中寻找数据之间的内在关系,通过数据的分析可以为教学管理部门提供决策支持信息,为教师提供各方面的反馈信息,使教师可以更好地开展教学工作,提高教学质量。
2.3 教师教学能力的提升,需要数据支持
传统的教学都是凭教师的感觉进行设计,没有数据支撑,也不能和学生的实际情况契合。现在,通过深度分析学生在观看网络教学视频过程中的关注频次和浏览量,分析得出学生感兴趣或者难理解的课程关键节点,帮助教师有的放矢地改进教学重点、确定教学难点,势必会引导教师改革教学方式。
2.4 校企融合,解决技术难题
大数据分析工作涉及数据抽取、清洗、整理、建模与分析、测试优化、预警展示、手机App应用等方面,对技术要求很高,可与行业企业合作,解决技术难题。这些技术问题将是大数据分析工作最大的障碍,需要重点注意两个方面:(1)大数据分析及决策应用与智慧校园平台的关联关系。智慧校园平台支撑整个学校的运营管理,采集了各类业务的原始数据。已建设有智慧校园平台的学校,大数据分析与决策应用应基于智慧校园平台;未建设智慧校园平台的学校可直接建设整合集成大数据分析的智慧校园平台。(2)注意大数据分析平台及展示工具的选型。首先支持的数据源应全面,其次是应支持App接入,再者应支持电视、LED等展示终端接入。
3 平台研究目标
学校是一个育人的摇篮,师生会产生大量的数据信息,利用大数据技术将产生的这些数据进行分析,可以找出数据之间的关联关系,学校的管理人员通过数据即可掌握教师和学生的在校情况,掌握学生在各种活动中的行为规律,针对有问题的学生进行疏导,培养学生良好的行为习惯,帮助学生树立合理的学习和行为观念。通过数据的分析可促使学生的管理工作更加有效,在工作中能够更加切实地解决教师和学生遇到的问题,消除教师和学生之间的矛盾,减轻学生的消极思想,促进学生的良性发展。
4 平台研究主要内容
大数据的学生行为分析平台主要功能包括9个模块:(1)地址库生成模块基于学校多平台常用的地址,采取数据爬取技术生成地址库标签,最终生成便于程序使用的地址库。(2)数据清洗模块用于实现清洗学校平台的异常数据以及不作为分析范围的数据,包括加载基础数据、判断数据字段是否一致、判断url是否为空。(3)数据解析模块用于识别教师和学生在学校多个平台的操作行为,匹配出基础数据地址并根据地址库标识出访问标签。(4)用户画像模块用于对学生操作行为实施匹配后的数据进行画像,识别出学生的不同类别值,便于其他模块准确掌握学生的操作行为。(5)学生信息分析模块可实现对学生生源地、各专业学生性别等信息的统计分析。(6)学生平台访问管理模块负责记录学生对学校平台访问的持续时间,用于分析学生对平台的关注度。(7)数据统计模块可对清洗后的标准化数据进行可视化处理,通过饼图、柱状图等多种图形向学校管理人员展示数据分析结果,提供分析决策的数据支撑。(8)智能推荐模块主要用于实现对学生关心课程的推荐,包括加载同类学生喜欢的课程。(9)对外接口模块可为外系统提供教师和学生的最新状态查询服务,包括接口调用、验证调用权限、查询调用请求信息、返回查询结果。
5 主要关键技术及创新点
5.1 关键技术
基于大数据的用户行为分析平台,主要采用Hadoop,MapReduce,HDFS,Python进行数据清洗和处理,采用Spark数据分析等技术手段来实现学生数据分析。
5.1.1 Hadoop集群层
Hadoop是由Apache基金会开发的大数据分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理大规模数据的分布式程序,充分利用集群的威力高速运算和存储。
Hadoop是一个数据管理系统,作为数据分析的核心,其汇集了结构化和非结构化的数据,这些数据分布在传统的企业数据栈的每一层。
Hadoop也是一个大规模并行处理框架,拥有超级计算能力,定位于推动企业级应用的执行。
5.1.2 HDFS存储层
HDFS是Hadoop Distribute File System的简称,意为Hadoop分布式文件系统,是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。HDFS使用Master和Slave结构对集群进行管理。一般一个HDFS集群只由一个NameNode和一定数目的DataNode组成。NameNode是HDFS集群主节点,DataNode是HDFS集群从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。
5.1.3 MapReduce计算层
数据在进行清洗以后被存储在HDFS系统,使用MapReduce计算框架可对数据进行分析。根据学校管理人员的需求,系统设定分析角度和分析方向,每一个分析方向都需要通過专门的MapReduce程序实现,主要设定的分析角度有学费的收取情况、学生生源地分布情况、学生的分数分布情况、学生平台访问情况等。
5.1.4 数据清洗和处理
数据清洗是一项复杂且烦琐的工作,也是整个数据分析过程中最为重要的环节。数据清洗的目的有两个,第一是通过清洗让数据可用,第二是让数据变得更适合进行后续的分析工作。这样获取到的原始数据不能直接用来分析和处理,因为这些数据存在各种各样的问题,如包含无效信息、列名不规范、格式不一致、存在重复值、缺失有效值等。数据处理理念经历了三大转变过程,第一阶段是处理全体数据而不是处理抽样数据,第二阶段是提高效率而不是追求数据的绝对精确,第三阶段是处理数据的相关性而不是寻求数据的因果关系。具体的大数据处理流程可以概括为4步,分别是数据采集、数据导入和预处理、数据统计和分析以及数据挖掘。
(1)数据处理指由于数据量过于庞大,无法在较短时间内迅速解决,或者无法一次性装入内存[4]。解决方案是针对大量数据采用巧妙的算法搭配合适的数据结构。
(2)数据库存储层是一个支持多副本的分布式存储系统,包含多个存储服务器,主要提供数据存储服务。存储层支持持续的数据更新。数据更新是基于日志回放机制,而非传统数据库的检查点数据页刷盘机制,因此在CPU资源占用、内存带宽占用、资源峰谷差异等方面有更好的表现。
(3)用户接口层是整个系统与系统的使用者进行信息交换的媒介。将可视化界面及系统的全貌展示给学校管理人员,学校管理人员通过可视化层展示界面将请求直接发送给管理人员,用户层接收到可视化层发送的请求,将请求传递给平台的后台其他层,实现请求的处理并将处理结果利用可视化技术展示给管理人员。用户接口层的主要功能是实现用户的请求并接收分析结果。
5.2 创新点
技术方面:平台采用大数据技术,通过分布式存储技术实现数据的存储,在数据存储过程中采用一个NameNode和多个DataNode,利用MapReduce技术实现数据的初级处理,利用Spark技术实现数据的最终处理。
教学方面:大数据的用户行为分析平台可以根据用户的多种情况进行统计并展示数据,教师根据平台显示的结果,不仅可以对部分用户进行有针对性的教育和管理,还可以利用平台实现对用户兴趣的调查,寻找用户的兴趣点,在课堂上针对用户兴趣展开教学,提高教学质量。
6 结语
综合需求分析和功能分析可以看出,高校的师生在学生行为分析平台会产生大量的数据。在学生行为分析平台具体使用的过程中,可以根据不同的需求对数据进行清洗和可视化,为高校的各级领导及平台使用者提供数据支持和数据分析结果。
参考文献
[1]韩冰.大数据技术在图书馆读者借阅行为分析中的应用[J].科技视界,2021(24):61-62.
[2]李春艷.教育大数据背景下用户网络学习行为机制研究[J].电脑知识与技术,2021(20):41-42.
[3]叶力铭.基于Spark电商用户行为数据的分析与研究[D].沈阳:沈阳师范大学,2020.
[4]罗嘉龙.基于大数据分析技术的用户行为分析平台设计与实现[J].电脑知识与技术,2019(35):54-56.
(编辑 王永超)
Research and implementation of student behavior analysis platform based on big data
Zhang Lihui
(Changchun Polytechnic, Changchun 130033, China)
Abstract: With the in-depth development of “Data China”, the informatization and data transformation of university education management have become an irreversible trend. The important task of university data management is to mine the deep value of teaching data and make it provide data support for school development decisions. The big data user behavior analysis platform can accurately identify user basic behavior and thematic behavior from the data, analyze user behavior through behavior matching make intelligent recommendation for user preference, classify user behavior. It can effectively grasp user dynamics, make accurate recommendation for prediction group and make great contribution to improving the success rate of product marketing.
Key words: big data; user behavior; intelligent recommendation; prediction