基于大数据技术的高职招生平台建设研究

2019-05-30 03:31谢梅源
中国教育信息化·高教职教 2019年4期
关键词:大数据技术

谢梅源

摘   要:针对高职院校招生信息化面临的诸多问题,本文借助大数据技术,提出了基于大数据技术的高职招生平台建设研究,并对平台的整体架构和主要功能设计进行了探讨。本研究整合学校招生、培养、就业数据并抓取网络上的相关信息,为高职院校辅助制定招生政策提供指导服务。

关键词:大数据技术;招生平台研究;辅助招生决策

中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2019)07-0062-04

随着现代科技的发展,信息技术的应用越来越广泛,高校招生已经有了非常丰富的报考和招生信息。随着新高考改革的推进,高职院校的招生模式不断创新和多样化,优质生源竞争也越来越激烈,各高校在制定招生专业计划时,需对历年本校及竞争学校招生录取过程中收集到的各种招生数据信息进行研究分析,同时也需对市场上的就业招聘信息与招生工作进行相关分析,从而更科学地制定招生政策、招生计划,提高生源质量,促进学校发展。

一、问题及现状

1.招生各数据源信息不一致

大多数高校是面向全国招生的,各省份招生政策存在差异,下载数据在结构上有较大差异,考生信息数据列、数据含义也有较大差别。甚至同一个省份的多元化招生模式,如提前招生、五年制合作、普高高考、单独考试等,不同招生类型考生数据信息也不统一。生源数据结构和标准不统一,给数据共享和统计分析造成了很大工作量。

2.各系统各自独立形成信息孤岛

大多数高校各部门为了工作方便都会有信息化系统,但缺乏统一规划,系统间彼此独立,互不兼容,造成存在不同的数据格式标准和数据库;甚至同一部分在不同时期建立的系统之间也未能形成信息共享体系,如招生宣传网、招生数据管理、提前招生,就业管理等多个系统,这些数据孤立地存放在本地数据库里,对这些系统数据隐含的价值以及数据之间的关联没有深入挖掘和利用,无法提供更深层次的决策服务。

3.“招生-培养-就业”未形成联动

高校的人才培养由招生、培养和就业构成,三个环节紧密相连,共同构成高校人才培养的系统过程。通过多年的招生、培养、就业数据积累,数据体现出数据量巨大、数据价值增加、数据种类多样、数据处理复杂等重要特点,当前就业招聘市场的信息变化常常预示后继几年社会对人才需求的变化,高校当前招生专业及人数的精准管理需要同时研究就业市场的数据来进行优化,如果没有应用大数据平台来进行分析和挖掘,就不能充分利用招生、就业数据的价值,就无法形成三个环节数据的联动。

二、 招生平台整体架构设计思路

建立一个基于大数据的招生平台必须要有一个技术层次合理的系统架构(如图1所示)。平台从下往上可以分为四层:一是数据治理层,负责招生数据及相关就业数据的导入、抓取、清洗、规范化等数据治理工作;二是大数据平台层,运用以Hadoop为代表的大数据技术,对归集的招生、就业、招聘数据进行处理;三是数据应用层,对大数据处理层处理的结果基于招生业务需要进行功能设计、统计分析、数据相关性计算等,并进行大数据展示,以及历年招生大数据的展现,用于招生政策决策分析;四是应用门户,将数据应用层产生的业务结果数据以网站、手机APP、手机微信应用等多种形式提供给用户端使用。

1.數据治理层

招生平台数据来源:一方面有学校历年的招生数据,数据源格式有Excel、各类文件、关系数据库数据,这些数据的格式差别很大,需要进行数据规范化、标准化后导入招生平台数据仓库;另一方面,为了开展招生、培养、就业全过程数据的分析研究,我们还要导入学校学生培养期间成绩数据、企业招聘数据、学生就业数据等,这些数据来源有Excel、各类文件、关系数据库数据,以及通过Python爬虫爬取的互联网各类网站上的数据。简单来说,数据治理就是处理数据的策略——收集、验证、存储、访问、保护和使用数据。数据治理层就是针对这些不同的数据源、不同的数据格式,通过数据治理工具开展数据格式规整、数据值域规范化、元数据标准化相关工作,同时通过ETL工具去除一部分脏数据,将元数据、主数据、招生就业数据、企业招聘参考数据生成标准、规范、有价值的数据集并导入招生平台数据仓库。

2.大数据平台层

大数据平台层对数据治理后导入的招生、就业、学业、招聘相关信息进行数据处理。基于数据类型多样及数据量庞大,采用关系数据库、NoSql和Hbase数据库相结合的模式。Hadoop主要由两部分组成:一是HDFS,即Hadoop Distributed file System,是属于Hadoop的分布式文件系统;二是Hadoop MapReduce,它是一种分布式计算引擎,包括大规模的文字处理、数据挖掘等,它分两个阶段,一个是Map阶段,一个是Reduce阶段,Map阶段就是把输入来的诸多并行任务分给各个节点分别计算处理,Reduce则将Map分到各节点处理的结果进行汇总。Hive是一个构建在Hadoop上的数据仓库工具,通过Hive将存储在HDFS平台上的数据与传统SQL结合起来,轻松地向Hadoop迁移。

3.数据应用层

根据大数据平台层的基础数据与业务数据处理结果,开发招生业务相关的招生志愿填报智能服务、中高职衔接、招生宣传管理、招生数据综合分析展现等应用,同时将就业数据、企业招聘数据与招生数据进行相关性研究,提供招生政策、招生计划来辅助决策功能。

4.应用门户层

应用门户层是将招生平台的功能与数据向用户端推送。用户端的形式有Web门户网站、手机APP、手机微信公众号和微信小程序,同时将数据应用层开发业务逻辑封装成HTML5页面提供给第三方用户端门户,包括电视终端。用户端查询、交互性能基于业务逻辑及 Hadoop数据平台进行优化。

三、招生大数据平台主要功能设计

1.分析数据结构,设计万能导入模板

通过研究不同省份录取数据的含义及数据列的差别,分析浙江省不同招生类型的数据源,结合用户需求及业务管理流程,设计标准化数据结构。平台实现以用户自定义的差异化数据模板为基准,将导入平台的数据与对应模板进行自动匹配,转换成统一的数据格式。这种自定义的万能模板,支持各种无序数据的导入,大大缩短了以往手工处理与管理数据所需要的时间和精力。另外,随着其它省份新高考改革推进所带来的录取规则及数据变化,用户也只需要修改现有的模板规则,轻松完成数据导入。

2.利用爬虫技术,抓取招生数据和招聘数据

浙江省2017年新高考按专业投档后,各高校专业投档信息可以通过考试院网站数据下载处理分析获得,而其他省份招生数据并没有在其考试院进行公布,可以通过各高校招生网获取更多专业在省外的招生数据,但人工获取统计工作量极大,需利用爬虫技术进行获取。为了收集更多目标考生,进行精准宣传,通过爬虫技术在各高校招生网、百度贴吧等问答帖收集考生信息。另外,为进一步优化专业结构,不断提高人才培养和社会需求的契合度,通过爬虫技术在“51Job”、“智联招聘”等网站搜集招聘信息。爬虫技术分为三个部分:①Url管理器:对关注的招生就业网站URL进行管理,包括已爬取Url和待爬取Url。②网页下载器:根据爬取的Url地址,将网页下载并保存到本地,存储为字符串。③网页解析器:将招生和就业网页字符串中有价值的数据进行解析,将解析出来的数据导入大数据层的数据仓库加以利用。

3.规范招生流程,设计招生业务系统

“招生数据管理系统”具有招生过程数据管理、招生计划编制、生源校维护管理、各年份招生数据导入导出等功能。“招生宣传管理”包括专业介绍、历年分数线、招生动态、在线报名、在线咨询、在线查询、微信互动等功能。“高考志愿生成系统”包括各校各专业录取投档线查询及新高考志愿填报模板的生成功能,这种免费服务考生的系统,可以吸引考生访问网站,提高学校的口碑宣传,强化目标用户黏度,拓宽招生口径。“中高职衔接管理”这种分段制培养模式是在两个不同学校,分别完成各自的中、高职教育,培养和管理目标衔接性,可以分析中职学校招生情况、生源质量、在校生流失、人才培养计划、学习成绩和选拔升学成绩等情况,可以为高校是否继续与该中职学校合作招生的决策提供数据依据。浙江省各高校专业投档数据分析功能包括提前招生、单独考试、艺术类、普通高考等招生计划的处理,结合各段投档信息及剩余计划,生成浙江省各专业各段投档线、录取数、各专业录取分数线及未完成计划等信息。

4.分析招生工作流程,研究专业招生模型

专业招生分析模型(如图2所示)分为专业设置、招生宣传、专业录取、专业培养及就业等阶段,各阶段数据互相影响依赖,形成业务闭环。该分析模型对招生过程中的新老专业进行设置,并分析冷热门专业,对计划分配、人才培养方案制定、市场人才需求预测和精准招生宣传等具有指导作用。

例如:研究分析专业冷热度,专业热度代表当年社会对专业的向往程度。浙江省新高考实施后,分段进行投档,不同分数段考生选择专业的出发点会有所区别,因此分本科和高职进行统计。同一学校的不同专业往往越热门的分数越高,专业在每一所学校的相对位置以百分比来衡量,对位置百分比进行分段赋分,排名位置越前面对其赋分分值越大,表示专业越热门,最后把所有院校某个专业的热度值求平均值,用这个平均值来排名分析专业冷热度。

5.通过数据可视化技术,辅助招生政策制定

平台数据可视化让新生报到情况、招生录取情况、重点生源校、招生计划、冷热门专业、专业需求、招聘岗位需求等数据分析结果更直观生动,招生录取情况等可“一目了然”。通过分析专业热门度,可使招生相关领导及时关注到专业在社会、学生及家长中的认可度,以此调整专业招生数量,确保优势专业招生人数和生源质量,限制劣势专业的招生,科学规划学校的新旧专业设置。

6.就业招生数据相关性研究

通过爬虫抓取网上的当年招聘信息、学生就业信息等大数据信息,将前面两个因素设为与招生计划相关的因素。通过数据统计及相关性理论[3],我们尝试将两个因素大数据处理后算出相关性系统再分级标签化。比如将抓取的招聘信息按企业等级分类统计反映某类专业市场需求变化标签化(增长为+,最大为5+,最少为1+;减少为-,最大为5-,最少为1-),学生就业企业的等级与大致薪水也按此法标签化。给学校今年计划招生的专业根据以上算法都标上标签,供制定每个专业具体招生人数决策时参考,或者供学校领导根据这些标签化的信息来统筹分配各专业招生人数之间的微调。每年每个招生专业的具体招生人数根据招聘、就业大数据产生的标签微调执行后的结果存贮,可用于来年对产生大数据标签的算法进行改进,从而提高相关性算法的准确度。

四、平台应用初步效果

1.招生工作流程信息化

本平台从学校实际需求出发,合理规划流程,改变繁琐的数据处理过程,减少不必要的中间环节,提高招生工作效率。如招生计划编制,原来为各专业通过Excel文件报到招生处统筹安排,需多次优化调整并进行反馈,才能形成最終计划输入到全国普通高校来源计划系统中,并且还要进行多次核对。现在,通过使用大数据招生平台,可以智能调整专业招生计划分配,简化计划,优化次数,并自动生成数据模板导入全国普通高校来源计划系统,大大减少工作量。通过招生平台,可以针对不同类型考生进行招生宣传,提供相对应的生源基地建设与宣传,同时系统智能提供招生方案建议,并向目标考生推送感兴趣的信息,进行精准宣传。平台可为注册用户提供志愿填报智能服务,让考生们能够准确选上自己喜欢的专业。这些精细化的运营举措,不但能真正达到服务考生的目的,同时提升了招生宣传效果。

2.大数据辅助招生政策及招生计划决策

招聘、就业大数据与招生计划相关性的研究结果,通过标签化用于招生计划执行时参照,可以在一定程度上提高招生工作与市场招聘、历年就业之间的相关性,有利于下一步进行“招生-培养-就业”联动数据分析。

五、总结和展望

大数据招生平台的运用能够提高招生管理工作的效率,能够转变招生宣传模式,推动精准招生宣传,吸引高质量的生源报考,大数据可视化技术可以为招生决策提供更直观的分析参考。招聘、就业信息与招生、培养信息的相关性研究只是尝试,下一步将引入高维数据相关的语义分析算法再作深入研究,提高招聘就业信息对招生工作相关性价值的深度利用,促进招生政策与招生计划编制的科学性。

参考文献:

[1]李珊珊,王平月,杨阳等.基于共享数据中心的高校业务流程再造研究[J].中国教育信息化,2018(23):47-50.

[2]梁吉业,冯晨娇,宋鹏等.大数据相关分析综述[J].计算机学报,2016(1):1-18.

[3]王博文,浅析基于Hadoop的大数据分析与应用[J].数字技术与应用,2015(4):226-226.

[4]王光翔.数据仓库技术在招生决策系统中的应用[J].贵州大学学报(自然科学版),2006,23(4):359-391.

[5]廖素娴,张立迁,王顶明等.高校研究生招生计划分配及其优化研究[J].学位与研究生教育,2018(7):28-33.

[6]张伟.基于 Hadoop 的大数据分析管理平台架构设计[J].网络与信息安全,2018(11):30-33.

[7]张蕾,章毅.大数据分析的无限深度神经网络方法[J].计算机研究与发展,2016,53(1):68-79.

[8]崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012(S1):12-18.

[9]徐光伟,白艳珂,燕彩蓉等.大数据存储中数据完整性验证结果的检测算法[J].计算机研究与发展,2017,54(11): 2487-2496.

[10]向小佳,赵晓芳,刘洋等.一种正交分解大数据处理系统设计方法及实现[J].计算机研究与发展,2017,54(5): 1097-1108.

[11]张泽,李良,李晓峰等.大数据时代下高校决策支持系统筹划与探索[J].邢台职业技术学院学报,2014(6):42-45.

[12]陈乐.基于Python的网络爬虫技术[J].电子世界,2018(16):163-165.

[13]黄有福.数据挖掘技术在招生数據平台的应用研究[J].电脑知识与技术,2015(11):3-4.

[14]丁晶,李刚,谭毅培等.基于Hadoop系统大数据平台在天津市地震局的应用[J].电子技术与软件工程,2017(18):159-161.

(编辑:王晓明)

猜你喜欢
大数据技术
善用“互联网+” 提升政府善治能力
大数据技术之一“数据标识”
大数据技术在雾霾治理中的应用
浅谈大数据技术在互联网金融中的应用
大数据技术对新闻业务的影响研究