基于大数据背景的大学生就业预测平台设计与实现研究

2022-09-05 04:19刘国强
兰州职业技术学院学报 2022年4期
关键词:职位预测疫情

刘国强

(兰州职业技术学院 电子信息工程系, 甘肃 兰州 730070)

一、引言

近年来,我国高校毕业生人数不断增加(图1),2021届全国普通高校毕业生总数更是达到历史最高值909万[1]。随着毕业人数的逐年攀升,就业压力更加凸显。

目前大学生就业存在几个现象:一是“后疫情时代”全国各地尤其是大中城市疫情时有突发,高校毕业生毕业找不到工作,毕业等于失业;二是随着我国社会人口老龄化,很多行业人才短缺出现了用工荒;三是我国各地区经济发展不平衡,用工需求不平衡,导致很多毕业生不知到何处就业,而很多用人单位又找不到所需要的人才;四是我国近几年大力开展乡村振兴,急需大量的高校毕业生投入到家乡建设中去。解决这些问题需要对影响大学生就业的各个方面的数据进行收集分析,从而为高校毕业生就业提供就业指导,为高校教育教学调整给出参考数据,设计开发就业预测平台随之应用而生。

图1 2016—2021年中国高校毕业生人数变化趋势

二、大学生就业预测平台的建设意义

大数据分析和预测各城市的某职位饱和度,并通过多个角度分析职位热度,受欢迎度等信息,并以此来观测某区域的职位容纳、待遇等指标,预测其未来的趋势,为平台发布透明的分析结果,为求职者给予可信的职业建议。

从2015—2021年中国就业人员数据统计情况表1所示入手,利用大数据分析职位给出预测及建议是一种非常有用且有效的方法。利用Hadoop搭建大数据平台,结合近两年新冠肺炎疫情突发时间地点进行分析,并且将其不断优化及改善,为大学生就业提供可参考的数据。

表1 2015—2021年中国就业人员数据统计情况

三、大学生就业预测平台的建设现状

在现有的市场中,作为就业预测的平台并不多见,更为平常的则是形如“2020年就业调查报告”“2020年就业形势分析报告”“2021中国就业形势及职业发展前景大数据分析”这样的以文本内容和逻辑分析为核心的报告说明。在诸如此类的报告中,对于数据的把控,以及对求职者的具体需求涉及程度较浅[2]。故本平台在数据存储的成本相对便宜的前提下,将会爬取大量数据进行基础的相关分析,并进行分析结果的透明展示,以增加可行性以及真实性。

经大数据的分析,平台可以将大量的结果展示给用户,从而可以让用户更为直观的接收到我们的信息。再对用户的习惯,偏好,需求了解的基础上,可以进行一定程度上的定制、具体建议以及相关的服务,这将有助于提高平台的用户转化率。

传统的就业分析报告没有统一的标准,某些用语晦涩难懂,并且内容繁杂的问题势必造成不良影响。在将此平台化之后,各方面的问题将会得到一定程度的解决,将为用户提供优质的服务。平台将图形化展示所查询职业在各个地区具体需求情况、工资分布、学历要求、经验需求等等,而且通过多元线性回归模型输入本人城市、学历、经验可预测薪资等。

四、大学生就业预测平台的设计思路

利用大数据分析职位的数量,爬取选定的城市或地区的职位信息,再参考行业信息、地区职位饱和度等因素,多维度的分析职位数据,并以此来评估其接纳能力、发展潜力、晋升情况等指标,并且参考评价内容来预测其未来的发展趋势给出合理的建议,给用户提供详细的数据支撑,为用户提供最为合理贴心的服务。

本文所涉及的技术及平台:ECS上面的 CentOS、Linux 7.3、Hadoop、JDK 1.8、Echarts。根据平台分析,大数据分析就业情况时,结合用户因素和具体数据等几大要素,对于用户或某行业发展都具有极大的参考价值。在疫情影响后的就业整体情况来看,多数职位都在要求、待遇方面都做出了相应的调整,使其更贴合当下趋势。

(一)总体功能结构图

总体功能结构图2所示。

图2 总体功能结构图

(二)模块功能介绍

该平台主要进行数据展示、数据获取以及数据分析三方面,以确保达到目的。为了直观简洁,我们以网页为载体进行效果呈现。在数据获取方面,主要以爬虫为主的具体数据获取。数据分析方面分为两个重点:数据存储和Hadoop架构的大数据分析平台[3],利用这个平台将我们的数据进行清洗得到有价值的数据,再通过数据可视化进行呈现,最后结合统计学知识提取有效信息。

1.数据管理设计

数据层面主要涉及到数据的爬取、清洗、存储以及在展示和预测所需的查询。系统要求具有海量数据,在此前提下,尽量保证数据的更新。因为少量的数据会提升预测的局限性,过时数据将会极大的提升预测的不确定性。除此之外对数据的相应处理是必要的,例如:删除空白数据、剔除敏感数据、预测涉及不到的脏数据等,处理过后所产生的数据才可以提供给预测作为基本数据。大量的数据存储和查询势必造成数据库压力,适当的采用搜索引擎实现低延迟的数据检索是解觉该问题的有效方案,故采用基于Lucene的Elasticsearch适合该场景[4]。

2.设计流程

调查发现,很多同学碰到的最大问题是在各类平台上了解的职位信息较为片面,对于社会反响、满意度、城市的人员饱和度等因素了解较少,或者根本不了解,因而发现找到的工作并不满意等等一系列问题[5],该系统针对这一现象,给同学们提供最为全面的信息以及未来一段时间的预测,设计流程图3所示。

图3 设计流程

3.数据库设计

本系统涉及到多张表,数据职位数据存储设计到两张表。一是存放职位数据的主表,二是存放城市编号和城市名映射的城市表。

职位数据关系模式:职位信息关系(work_id,post_name, comp_name, salary, edu,experi, tags,ter_name,id);单个城市编号和城市名映射关系(id, city_name, city_num)[6]。

4.系统流程图

通过系统的分析,设计该系统的流程图如图4所示

(三)平台实现

使用Java语言编写,以MySQL存储数据,以Web应用的形式进行信息查看,利用大数据爬取数据、分析数据技术进行职业评估[7]。现以数据分析师中Python岗位为例进行分析报告。数据来源与51job,实现过程如下:

1.数据爬取

分析网页信息,爬取关键字段信息。

2.对爬取数据进行清洗,将空缺或杂乱数据进行处理

选取需要的特征,对数据进行差分和必要的计算,例如对城市字符串进行处理。

3.数据分析和可视化,分别进行区域分析;工资情况分析等

图4 基于JAVA的网络爬虫系统流程图

由图5可得结论:在一线城市中,Python岗位的需求最多,对于想要从事该行业的,一线城市选择就业机会大,不过人才比较集中,也意味着竞争压力也较大。

图5 前五个城市岗位需求量(万人)

由图6可得结论:从总体薪酬可以看出,Python的收入还是可观的。薪酬主要集中在5k-18k,但也有明显的断层,主要分为5k-10k,11K-13K,15K-16K,17K-18K几个阶段,中间有几个小分水岭,起薪相对较高,薪酬的提升幅度也很可观。

图6 工资分布

由图7可得结论:北京的工资最高,其次是上海,杭州,深圳,广州。

图7 前五个城市工资比较

由图8可得结论:2-3年经验的需求比较大,主要集中在这两个年限。从这个情况看,虽然该岗位需求大,但是不能盲目转行,毕竟对经验要求比较大。从长远看,5年以上经验的需求还是比较少的,10年以上近乎无,可以看出5年这个点是比较关键的,职业规划需要在前几年做好,尽快提升自己。

图8 经验要求分布

由图9可得结论:Python对本科生的需求最大,其次是大专,其他学历需求很少,对于博士需求基本没有。

图9 学历分布

由图10可得结论:随着工作经验的增加,相应的工资也会随着增加。

由图11可得出结论:随着学历的上升,相应的工资也会随着增加。这些均符合我们的常识判断。

图10 工作经验与薪酬相关情况

图11 学历与薪酬相关情况

4.疫情造成的就业数据分析

新冠疫情突发以来,对就业造成了许多不利影响。从国家统计局公布的城镇失业率如图12所示,2019—2020年期间,新冠疫情突发后就业总量比突发前减少约750万人,我国2019年各月城镇调查失业率均保持在5.0%至5.3%之间。而2020年1月城镇调查失业率同比上升0.2%,自2月起陡升至6.2%同比上升了0.9%,且连续数月均维持在6.0%左右的较高水平。预计2022年我国城镇失业率将进一步上升[8]。

图12 2019年1月—2020年5月城镇失业率

2020年2月13日,根据BOSS直聘网发布的《2020年春节后十天人才趋势观察》显示,2020年春节后十天,就业市场新增招聘需求较2019年同期有明显的减少,3月以后随着各地疫情得到控制,就业需求有明显的的增加。疫情突发后企业的招聘方式发生了变化如图13所示。疫情突发后传统的招聘方式所占比例有较为明显的下降,跨区域的招聘比例下降,现场招聘和校园招聘会比例下降。网上招聘方式和企业内部员工推荐所占比例明显增大[8]。

图13 疫情突发前后企业招聘渠道变化

5.数据分析

通过大学生就业预测平台对近几年的大学生就业进行分析可得出以下参考结论:

第一,就业机会主要集中在一线城市,如上海、深圳、北京等城市;但由于近几年受到新冠疫情的影响,一线城市疫情爆发频率较高,大学生就业岗位多但不稳定。

第二,岗位的薪资主要集中在5k-18k,中间有几个小分水岭,薪资有较大的发展空间,且一线城市中北京的工资最高,其次是上海,杭州,深圳,广州。

第三,岗位的经验要求集中在2-3年,该岗位对经验方面比较看重,且工作经验和工资呈正相关。值得注意的是从长远看,5年以上经验的需求还是比较少的,可以看出5年这个时间点是比较关键的,需要做好职业规划。

(四)根据数据分析指导性建议

新冠疫情突发,致使很多就业岗位不稳定。很多大学毕业生一边做着不稳定的工作,一边又要为应对随时到来的失业做好准备。在这种情况下,大学生就业观念、就业意向和态度都得发生根本性的转变才能适应后疫情时期。针对现在大学生就业给出以下几点建议:

第一,大学生就业不能一味的以薪资作为标准,更不能扎堆到一线城市;第二,鼓励大学生到基层就业;第三鼓励大学生创新创业;第四,鼓励大学生投身到家乡建设中去,为建设美丽新农村做出贡献;第五,对于大学生来说,一定要行动起来,做好简历,找好目标岗位和公司,通过多种就业渠道,加快求职进度;第六,新冠疫情期间,很多公司都选择了远程互联网办公的方式,大学生完全可以选择居家网络就业的方式来解决工作;第七,建议这段时间加强自身专业能力,分析下自己到底能力在哪,兴趣在哪,为就业做好准备。

五、大学生就业预测评平台建设的难点突破

本平台开发过程中,主要遇到3个技术难点,具体技术难点及解决方法如下:

(一)数据爬取技术难点

本平台使用的数据主要来自各大招聘网站,在爬取数据过程中,由于其反扒措施的影响,我们使用了其力度较低的 51job招聘网站和国家统计局网站。在后续使用过程中,在爬虫技术成熟的前提下,可以采用其他的招聘网站,使数据更加全面。

(二)数据格式技术难点

在研究数据存储时:页面数据解析,平台的不同导致了数据格式不尽相同(异步数据、js数据、页面数据),在存储时不得不提前将数据格式进行统一,并采用不同的方法进行解析数据,以便于将数据导入数据库的时候不会发生错误。

(三)WebMagic框架的应用场合

WebMagic 强大的页面抽取API、模块化的设计、灵活简洁嵌入、分布式多线程的支持使其在绝大数的情况下都可以应用,但是并不支持一些特殊资源的爬取,而且在超大数据量的爬取情况下,耗时较为严重。在使用过程并结合其上手难度来说,WebMagic是极为优秀的爬虫框架。

六、结语

大学生就业相关数据只是被相关人员进行简单的展示和统计,其背后蕴含的宝贵价值并没有得到最大化的利用,因此这一部分的数据需要我们进一步的开发和利用。笔者主要使用大数据技术对后疫情时期大学生就业情况数据进行了分析研究,主要目的是为了给大学生就业提供参考建议,助力完善高校就业指导工作。

猜你喜欢
职位预测疫情
领导职位≠领导力
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
战疫情
抗疫情 显担当
疫情中的我
疫情期在家带娃日常……
职位之谜与负谤之痛:柳治徵在东南大学的进退(1916—1925)
不必预测未来,只需把握现在