摘 要:网络招聘已成为市场招聘的主流方式,网络招聘的岗位数据可以反映市场对人才的真实需求。为培养社会需要的人才,高校普遍对网络招聘的大数据分析需求强烈,但往往受到技术条件与成本的困扰。云计算的普惠发展,为高校的岗位招聘需求大数据分析提供了便利。文章通过对网络招聘大数据分析系统进行需求分析,依托阿里云数加,设计并实现了网络招聘大数据分析系统,助力高校人才培养内容优化。
关键词:阿里云数加;网络招聘;大数据分析
Abstract:Online recruitment has become the mainstream way of market recruitment,and the job data of online recruitment can reflect the real demand for talents in the market. In order to cultivate talents needed by society,colleges and universities generally have a strong demand for big data analysis of online recruitment,but they are often troubled by technical conditions and costs. The inclusive development of cloud computing has facilitated big data analysis of job recruitment needs in universities. Based on the demand analysis of the online recruitment big data analysis system,and relying on Alibaba cloud data plus,the article designs and implements the online recruitment big data analysis system to help optimize the content of talent training in universities.
Keywords:Alibaba cloud data plus;online recruitment;big data analysis
0 引 言
大數据在化解大学生就业困难具有重要作用[1]。高校应对照岗位职业素质要求,构建学生综合素质培养体系,才能提升学生的职业综合素质[2]。对高校教学工作者而言,其对网络招聘文本数据的分析需求是强烈的。但是网络招聘数据体量巨大,且处于不断更新中。数据的获取需要实现自动化、周期性执行,需要流式的大数据分析技术支持。云计算发展带来的普惠性,较好地弥补了高职院校的大数据分析底层技术支持不足,依托云计算数据分析产品进行网络招聘数据的分析成为可能。本文基于作者主持的“依托阿里云DataWorks的大数据分析技术在高职实训教学质量监控中的应用研究及实践”(重庆市教育教学改革项目)项目研究,设计并实现了依托阿里云数加的网络招聘大数据分析系统。
阿里云大数据平台简称数加,是阿里云计算的普惠大数据产品,旗下包含一系列的大数据产品及服务,极大地方便了教学研究人员,在大数据时代快速拥有企业级大数据分析条件[3]。阿里云数加平台数据开发套件包括:
(1)大数据开发:集成可视化开发环境,可实现数据开发、调度、部署、运维,及数据仓库设计、数据质量管理等功能;
(2)报表工具:海量数据的实时在线分析、丰富的可视化效果,所见即所得;
(3)机器学习工具:集数据处理、特征工程、建模、离线预测为一体的机器学习平台,提供算法汇集,可视化编辑。
1 网络招聘大数据分析系统需求分析
网络招聘大数据分析系统的功能需求主要包括网络招聘大数据自动化获取需求、网络招聘大数据的分析需求、网络招聘大数据分析结果的展示需求。
1.1 网络招聘大数据自动化获取需求
网络招聘大数据从主流互联网招聘网站获得。为了使数据反映市场真实情况,数据应尽可能全面详尽,但互联网招聘网站的信息往往存在过期机制,即一段时间后该招聘信息可能不再存在。这也就意味着一次性的获取历史招聘数据是不可行的,网络招聘数据获取需要持续进行,必须依靠爬取程序自动化周期性进行。
因此,需要一个统一的招聘数据结构模式,统一不同数据来源的招聘数据。同时,需要实现一个容错机制好、可持续运行的爬虫。此外,在保证低频次爬取数据的同时,也需要准备一个代理IP池,保证数据爬取效率。原始数据获取后,进行简单加工即可提供给大数据分析平台进行分析。
1.2 网络招聘大数据的分析需求
网络招聘大数据分析系统需从两方面对数据进行分析:
(1)通过统计月度岗位招聘的发布数与薪酬范围,反应岗位招聘需求趋势;
(2)通过对网络招聘数据中的用人需求进行文本分析,提取岗位技能关键词,反映市场中岗位重要技能点。由于数据量较大,大数据分析平台需要能够支持此类大规模文本数据的分析,并提供文本分析中常用的分词、关键词提取、相似度计算等模块。
1.3 网络招聘大数据分析结果的展示需求
为了更加直观的展示网络招聘大数据分析结果以方便教学工作者的理解与使用,网络招聘数据分析结果需要采用图表方式进行展示,且提供各岗位的查询。对岗位招聘的招聘数量需求与薪酬趋势,宜采用折线图方式呈现;对岗位技能关键词,采用词云图方式展示。
2 网络招聘大数据分析系统设计
2.1 总体设计
网络招聘大数据分析系统主要包含数据采集、数据加工与分析、数据展现三大部分。数据采集部分使用容器服务编排构建Python爬虫与MongoDB服务;数据加工与分析部分采用DataWorks中的数据集成服务同步数据,使用其配套的MaxCompute与机器学习PAI服务进行数据分析;数据展现使用QuickBI的可视化图表模板实现。总体设计如图1所示。
2.2 数据采集设计
为了方便异常日志查询与服务的快速重建,本文基于容器服务采用容器方式运行Python爬虫、IP代理池服务、MongoDB数据库。MongoDB是一个基于分布式文件存储的数据库,内核由C++语言编写,可提供可扩展的高性能数据存储解决方案[4]。采集到网络招聘原始数据采用MongoDB存儲,核心字段如表1所示。
2.3 数据加工与分析设计
爬虫采集后的原始数据,由数据集成服务,定时同步到MaxCompute数据表中。依托MaxCompute与机器学习PAI服务,构建统计月度岗位招聘的发布数与薪酬范围以及对网络招聘数据中的用人需求进行文本分析任务,合理规划调度执行。
统计月度岗位招聘的发布数与薪酬范围的工作流任务中,需要将薪酬范围数据字段、学历要求、发布日期等进行加工,通过SQL完成拆分、合并等。然后按岗位、月份在MaxCompute中聚合数据,形成岗位的月度招聘发布数以及薪酬范围统计。
对网络招聘数据中的用人需求进行文本分析任务,需要对岗位需求的描述文本进行文本分析,主要采用机器学习PAI完成。在分析之前,要通过文本合并、摘要提取、子句划分、文本过滤等方式进行数据加工。
2.4 数据展现设计
数据展现采用的是阿里云QuickBI,其是一个基于云计算的灵活的轻量级的自助BI工具服务平台。针对本文中数据分析目标,QuickBI主要提供岗位查询、岗位月度招聘趋势数,岗位月度薪酬范围趋势图以及岗位需求的关键技能点云图。
3 网络招聘大数据分析系统设计与实现
3.1 数据集成
将数据采集后存储到的MongoDB数据库设置为数据源,再创建数据同步任务。MongoDB数据库的数据同步不支持向导模式,必须采用脚本方式设置。最后,设置数据同步的调度方式。本文将其设置为每日凌晨1:00进行数据全量同步。
3.2 对网络招聘数据中的用人需求进行文本分析
通过对网络招聘数据中的用人需求进行文本分析,提取岗位技能关键词,可反映市场中岗位重要技能点。需要指出的是,按照分词、关键词词频等方式进行的关键词提取,由于词汇过于短小,提取会丢失原有岗位需求描述的大量信息。因此,本文在实现对网络招聘数据中的用人需求分析时,采用句子拆分方式进行,意在找出“关键子句”,流程如图2所示。
3.2.1 提取岗位需求子句
按照岗位对岗位需求描述文本Detail字段使用分号进行了拼接,合并后的det字段进行文本摘要,参数保持默认。以“
”标签以及中英文状态的逗号、句号、分号、冒号作为间隔字符,进行句子拆分。对子句进行过滤,剔除如“岗位要求:”“岗位职责:”这类明显无关内容。并将岗位需求描述中常见的数字序号开头,子句结束位置的符号采用正则表达式剔除。语句如下所示:
由于数据处理过程中遗弃了jobid,需重新加入,以便后续使用。最终结果写入数据表job_format_requirement_sentence中。
3.2.2 找出“关键子句”
为了提取出每个岗位的关键技能点要求,需要从句子拆分数据中找出“关键子句”,主要使用数加中的机器学习PAI“字符串相似度TopN”组件进行实现。流程如图3所示。
每次调用分析只取出一个岗位的数据。本文通过一个tmp_job_analysis_list表来记录全部的岗位分析状态,数据表的字段结构如表2所示。每次取出一个尚未进行的岗位进行分析。从job_format_requirement_sentence表取出该岗位已准备好的岗位需求子句。采用机器学习PAI中的“字符串相似度TopN”组件,对子句进行字符串相似度分析。将每个子句的相似度值output求和并倒序取出前20条,作为该岗位的“关键子句”并写入数据表存储。
3.3 数据展现实现
数据集是QuickBI图表的数据来源。创建数据集之前需要把MaxCompute设置为数据源后才可以将数据分析的结果数据设置为数据集提供给图表使用。添加成功后可以查看我的数据源,在左侧列表中可以看到刚创建的MaxCompute数据源。点击后可在右侧列表浏览该数据源中的全部数据表。将数据源中gz_jobs_analysis_res数据表、job_requirement_result数据表设置为数据集。如图4所示,图表可以直观地查看具体岗位的月度岗位招聘低值与高值的平均薪酬变化趋势。
岗位的关键技能点提取效果亦达到预期。以Java岗位为例,实现效果如表3所示。
4 结 论
本文通过对网络招聘大数据系统的自动化获取、分析、展示的需求进行分析,依托阿里云数加进行了总体设计,数据加工与分析设计以及数据展现设计,实现了月度岗位招聘的发布数与薪酬范围趋势的直观展示以及岗位关键需求的获取,在此基础上通过添加更多的关键词过滤后可直接为高校技术技能人才的培养内容提供参考。
参考文献:
[1] 陈钧.大数据时代条件下大学生就业促进论析 [J].继续教育研究,2017(5):98-100.
[2] 赵建,程丹.高职人才培养与企业需求匹配度研究——基于珠江三角区域的实证分析 [J].教育评论,2015(12):103-106.
[3] 阿里云.飞天大数据平台 [EB/OL].(2020-05-07)https://www.aliyun.com/product/bigdata/apsarabigdata.
[4] 陈敬静,马明栋,王得玉.MongoDB负载均衡算法优化研究 [J].计算机技术与发展,2020,30(3):88-92.
作者简介:黄小冬(1986—),男,汉族,江西赣州人,讲师,硕士研究生,研究方向:教育学、教育信息化。