朱思霖 郭丽清
摘 要:随着大数据时代的到来,企业对数据人才的需求越来越大。如何成为企业青睐的数据人才,合理规划职业发展路径成为所有有志于投身数据产业的人需要思考的问题。该文爬取2019年3月前程无忧网站1万多条大数据相关的招聘信息,通过分析、挖掘得到如下结论:大数据行业中技术类岗位需求量最大,占总量的67.7%;具有3~4年行业相关经验的本科生最容易找到工作;Hadoop,SQL,Spark,Java,Hive等是从事大数据行业不可或缺的技能利器。此外,使用TF-IDF和TextRank两种算法对岗位职责进行关键词提取,排名前3的关键词均为“数据”“经验”“能力”,这验证了市场对数据分析人才的期望,除了基本技能外,同时看重是否有“数据”意识,具备相关行业经验。最后对大数据的岗位职责进行了挖掘,进而绘制出数据科学行业的职业路径图谱。
关键词:数据人才;需求分析;技能类职位;关键词提取;职业路径图谱;数据挖掘
中图分类号:TP391.3文献标识码:A文章编号:2095-1302(2019)08-0-05
0 引 言
随着互联网的发展及物联网的普及,行业应用所产生的数据呈现爆发式增长。据国际数据公司IDC发布的报道[1]:2018年中国的数据量大约为7.6 ZB,而到2025年,这一数字将增至48.6 ZB,中国的“数据圈”将以年均增长30%的速度领跑全球。海量的数据蕴含着难以估量的价值,有效合理的数据挖掘将成为推动经济发展的一大动力。伴随着海量数据,扑面而来的是数据相关岗位需求量的持续增长。关注市场需求,抓住时代机遇,培养数据人才,探索学科发展,众多国内外专家、学者在学生培养、课程设置、人才需求等方面进行了积极的探索与尝试。
在国内,文献[2-10]分别从各学科方面的人才培养、课程设计、需求分析等角度出发,通过对网络招聘信息进行调查、分析、挖掘,各自给出了大数据环境下的学生培养、课程设置、人才需求方面的建议。具体来说,周晓燕等通过对数据管理人才的招聘信息进行解析,得出了數据分析能力和计算机能力是社会对大数据管理人才的最真实需求的结
论[6]。在高等教育研究方面,何海地综合研究了美国大数据硕士研究生教育的背景及现状情况,并得出了“技术硬指标”和“人文软实力”是数据科学家的必备知识技能的结
论[7]。王曰芬等通过对Web of Science数据库中数据科学有关文献进行检索并分析挖掘,得出了国外的数据科学研究方向及趋势主要集中在数据的存储、归档、管理层面,系统设计、数据深度处理层面,高效的数据价值挖掘层面三个方面的结
论[8]。在招聘信息挖掘方面,张俊峰等通过对国内招聘类网站的数据类岗位进行特征挖掘,得出数据分析师、数据挖掘工程师和信息管理人员在能力、学历、专业知识、工具和计算机技能及工作经验方面的招聘信息有一定的相似性,也存在一定的差异的结论[9]。黄山等利用关联规则分析了大数据领域的招聘信息,并得出一线城市需求量大且大数据的人才需求趋势处于增长态势的结论[10]。
在国外,Baumer认为数据科学是一个跨学科的领域,对于文科生修读数据科学课程应该进行架构性的课程设计,即通过具体问题来获取、管理、分析、处理、查询、可视化数据后,并以书面、图形和口头的方式展示最终成果[11]。
Hardin等则通过对七个机构的案例研究,展示了不同的数据科学方法在课程创新方面的应用,并对本科生参与数据科学课程设计及进行数据研究提供了借鉴[12]。
Gonzales收集并分析了2008—2018年期间Code4Libs Jobs网站上492名图书管理员与档案管理员的职位发布情况,并对编程技术、工作类型、公司类型进行了讨论[13]。
Hammad Rauf Khan等通过对美国高校图书馆数据员招聘广告进行内容分析,讨论了市场紧缺的数据馆员的技能需求、技能偏好,并得出学术图书馆员需要创建和支持数据密集型研究的结论[14]。
众多学者对大数据环境下多个领域的人才需求作出了指引,但是大数据方向的未来职业发展路径仍不够清晰,市场需求的知识技能尚不够明确,招聘企业的关键岗位职责也不够明了。为了解决上述问题,本文爬取前程无忧网站中
10 033条大数据相关的招聘信息,经过对数据的处理分析后,绘制了数据科学行业的职业路径规划,重点分析了大数据技术类人才的技能需求,最后利用TF-IDF[15]算法和TextRank[16]算法对大数据的岗位职责信息进行关键词提取,进而得出大数据方向从业人员的能力要求与知识特点,以期为投身于数据科学行业的相关人员指明方向。
1 数据来源
本文数据源自2019年3月前程无忧网站大数据相关行业的招聘信息。通过网络爬虫方式获取,爬取的关键词设置为“大数据”“数据”,对城市、学历等词条均不设限。经过去重、去空、筛选等数据清洗操作后,有效招聘数据条目为9 608条,该数据词条基本情况如图1所示。本文后续的分析、挖掘等操作均基于此数据,此后不再赘述。
2 数据分析
2.1 不同工作岗位的数据人才分布情况
根据工作岗位将招聘需求信息进行分类,具体为:技术、销售、产品、运营、其他方面等五大类。
在图2中展示了大数据行业各类岗位需求分布详情。其中,图2(a)为大数据各类职位需求占比情况,技术类需求最多,招聘词条数为7 056条,占比67.7%,其余依次为产品(14.5%)、销售(7.9%)、教育(3.7%)、运营(2.6%)、其他方面(3.6%)等。图2(b)展示了大数据职位的各个需求类别的详细划分与占比情况。
以技术类为例,技术类中涵盖了开发、工程、分析、架构、算法、技术、测试、可视化等八个子类,其需求占比数据是根据招聘词条的关键词进行筛选,如开发类需求数目为2 856条,技术类总条目数为7 056条,所以开发类占比为40.48%,以此类推。
2.2 技术类职位挖掘
在大数据职位需求占比中,对于技术类职位需求最多,所以对技术类职位需求的技能信息进行重点挖掘。
(1)技能需求分析
在爬取的大数据行业招聘信息中,对岗位要求信息中的英文单词进行提取,并统计各个单词出现的频率,进而绘制大数据技能要求词云图,结果如图3所示。图中展示了词频排序前100的词语,所示单词的大小与其词频有关,所示单词的着色为随机着色。例如,在岗位要求信息的英文单词中,Hadoop出现的次数最高,词频为5 202次,故在词云图中字体最大、最显眼。通过词云图可以获知,想要从事大数据方面的技术类岗位,Hadoop,SQL,Spark,Java,Hive,Python,HBase等均是不可或缺的利器。数据库类单词SQL,词频第2,说明随着数据量的增大,存储、处理等问题越来越受到市场的关注。编程语言类单词Java词频最大,位于总词频的第4位,说明Java仍然是最受青睐的编程语言。
(2)编程语言及数据库需求情况
编程语言方面,Java,Python,Scala占据了75%以上的比例,足以说明这三门语言在大数据行业的重要性;数据库方面,SQL一枝独秀,几乎占据了所要求数据库的半壁江山,其次分别为Oracle,ETL,Redis,MongoDB,Sqoop等。详细数据如图4所示。
(3)工作经验及学历需求情况
在工作经验及学历要求方面,大数据行业更青睐于有经验的技术类人员,其中3~4年经验最佳。这在一定程度上说明,市场最需要的是具有行业经验以及一定技术能力的从业人员,而一般情况下,3~4年恰好在成本上也比较能让企业接受。这就不难看出,对于经验需求方面,3~4年经验需求最大。在学历方面,本科及大专学历占据了近80%的市场需求,这恰恰在一定程度上说明了大数据行业具有技能性的门槛以及经验性的偏好;而硕士、博士需求比例占比3.8%,则在一定程度说明了市场对用人成本的把控程度,详情如图5所示。
2.3 岗位职责关键词分析
对大数据行业招聘信息中的岗位要求信息进行提取汇总,并作为岗位职责信息的语料。使用Python中jieba库的逆文档频率(Term Frequency–Inverse Document Frequency,TF-IDF)算法和TextRank算法对岗位职责的文本信息进行关键词提取,并提取排序前50的关键词。其中,TF-IDF是一种对文档中关键词权重进行统计的方法,即字词的重要性与它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,具体计算公式
如下:
TextRank是对句子进行分割后,保留主要词性的字或词来构成有向无权图,通过计算图的节点连接权重来分析单词关键与否的算法,其具体计算公式为
两种算法的关键词提取结果如图6所示。通过观察可知,不论是依赖语料、基于统计的TF-IDF算法,还是侧重词语之间相互关联性的TextRank算法,所得的关键词提取结果大体一致。例如,两种算法提取出的前50个关键词中,重叠关键词占比接近80%。另外,可以通过关键词结果看出,对“数据”的理解,对“经验”的要求、对“能力”的要求是各个公司最看重的招聘要素,另外关于“团队”“技术”“业务”“产品”等方面也是各公司的关注重点。
2.4 综合素质能力要求
在综合素质方面,本文通过对岗位要求信息中的英文单词进行提取,绘制了综合素质方面需求的技能单词词频图,具体如图7所示。在综合素质方面,大多数招聘单位会要求应聘者熟悉常用办公软件,如Excel,PPT等办公软件;部分招聘单位更看重经验、解决问题的能力,如会在招聘需求中体现“experience”“bug”等信息;偏重技术类的岗位,在招聘时可能会更强调相应的资格,例如,某招聘公司需求的是数据库开发工程师,那么其招聘需求出现技能资格“dba”“ocp”的概率就较大。
3 数据行业职业发展路径
基于数据的职业之路,以数据为中心,对许多岗位进行重新定义,故在图8中绘制数据行业职业发展路径并对大数据的关键技术进行梳理。例如,以数据分析为中间岗,可向业务岗方向延伸,进而走产品经理相关方向的职业之路;而同时数据分析又为技术岗,可向技术类职位进行职业延伸,如数据工程方向、数据挖掘方向等。不管是从事技术岗、中间岗还是业务岗,在特定领域进行深挖都有可能成为具有特定行业经验、具有特殊技能的数据科学家。而不论是传统数据分析之路还是基于大规模分布式处理的新路径,都是以数据处理技术为基础,故在图8(b)中列出了大规模分布式数据处理的技术要点。
4 结 语
2018年4月,教育部推出了教育信息化2.0行动计划[17],
即实施数字资源服务普及等八大行动。大数据和人工智能已經上升到国家战略的高度,而基于相关技术推动经济社会各领域从网络化向数字化、智能化加速跃升已成为业界共识。
大数据技术已成为国家数字经济的重要生产要素,数据采集、数据安全、数据开发利用、数据共享等一系列围绕数据开展的产业链正在形成。紧贴市场走向,挖掘社会需求,为求职者理清职业规划,为应用型高校的专业课程设置给出建议,为社会解决行业缺口,每一个育人者都责无旁贷。
本文通过对前程无忧网站中数据科学相关方向的招聘信息进行挖掘分析,绘制了数据科学行业的职业路径图,并对数据科学行业的职业方向进行了简要说明。对于数据科学行业的技术类职位,学历、经验、技能均是该行业招聘单位考察的重点。
数据化的浪潮席卷使得传统行业正在受到巨大挑战,不论是个人求职者还是育人单位、用人单位,只有积极拥抱变化,不断追踪市场动态,紧贴技术走向,方能满足社会需求,与世界保持同步。
参 考 文 献
[1]长沙门户网.国际数据公司(IDC)21日发布的报告预测[EB/OL].[2019-02-25].http://www.hncstv.com/keji/shuju/62231.html.
[2]祝建华.大数据时代的新闻与传播学教育:专业设置、学生技能、师资来源[J].新闻大学,2013(4):129-132.
[3]李宗富,于佳会.国内档案学专业人才需求现状调查研究—基于2017年度“图情招聘”微信公众号招聘信息分析[J].档案管理,2019(1):63-67.
[4]郑月明.大数据背景下经济类学生培养模式研究[J].教育教学论坛,2018(42):172-173.
[5]黄崑,王凯飞,王珊珊,等.数据类岗位招聘需求调查及对图情学科人才培养的启示[J].图书情报知识,2016(6):42-53.
[6]周晓燕,尹亚丽.基于国内市场需求的大数据管理人才知识结构分析[J].情报科学,2017,35(1):29-34.
[7]何海地.美国大数据专业硕士研究生教育的背景、现状、特色与启示—全美23所知名大学数据分析硕士课程网站及相关信息分析研究[J].图书与情报,2014(2):48-56.
[8]王曰芬,谢清楠,宋小康.国外数据科学研究的回顾与展望[J].图书情报工作,2016,60(14):5-14.
[9]张俊峰,魏瑞斌.国内招聘类网站的数据类岗位人才需求特征挖掘[J].情报杂志,2018,37(6):176-182.
[10]黄山,刘学锋,毛建华,等.基于关联规则的大数据领域人才需求分析[J].工业控制计算机,2017,30(8):78-80.
[11] BAUMER B. A data science course for undergraduates:thinking with data [J]. The American Statistician,2015,69(4):334-
342.
[12] HARDIN J,HOERL R,HORTON N J,et al. Data science in statistics curricula:preparing students to“Think with Data” [J]. The American Statistician,2015,69(4):343-353.
[13] GONZALES B M. Computer programming for librarians: a study of job postings for library technologists [J]. Journal of web librarianship,2019,13(1):20-36.
[14] RAUF K H,DU Y F. What is a Data Librarian?:A Content Analysis of Job Advertisements for Data Librarians in the United States Academic Libraries [EB/OL]. [2018-07-31]. http://library.ifla.org/2255/1/139-khan-en.pdf.
[15]施聰莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(z1):167-170.
[16] MIHALCEA R,TARAU P. TextRank: bringing order into texts [C]// 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona: DBLP,2004:404-411.
[17]中国高等教育.教育部:到2022年建成“互联网+教育”大平台[EB/OL].(2018-04-25). [2018.11.15]. https://www.sohu.com/a/229450035_273375.