臧 芳,刘 跃
(湖南电子科技职业学院机械与电子信息工程分院,长沙 410205)
基于大数据的长沙高职毕业生就业分析系统建设研究
臧 芳,刘 跃
(湖南电子科技职业学院机械与电子信息工程分院,长沙 410205)
本文通过对大数据分析的预测性应用原理进行分析,提出了基于大数据分析的长沙高职学生就业分析系统的建设及大数据在应用分析中的注意事项。
大数据;长沙高职毕业生;就业分析;系统建设
近年来,许多企业急需动手能力强、工作在生产一线的优秀人才,而主要培养这类技能型人才的高职院校毕业生的就业情况却并不乐观。造成此情况的重要原因之一——就业工作与市场需求的信息隔断。实际数据显示:全国高职院校从3年前的1 113所增加到1 297所,毕业生从198万人上升为238万人,但实际就业率不到50%且专业对口就业率更低。另外,现阶段中小企业受国际金融危机的影响正面临大洗牌,势必会影响到高职院校毕业生的就业。长沙市范围内的高职院校就业情况亦是如此。
大数据分析是指对规模巨大、更新速度快、类型多、有价值的数据进行分析。而高职学生的就业与所选择的工作单位情况、职业岗位、月收入、工种、学生所学专业、课程等数据息息相关,这些均具备大数据的特征。如果能基于这些海量与就业相关数据(以长沙范围内的几所高职院校的就业相关数据为例)对高职毕业生就业模式进行深入探究,必将对提高长沙市范围内的高职院校就业工作起到一定的指导或参考作用。
基于云计算的信息采集与存储、数据清洗、维护和挖掘手段,能高效地将几十PB的海量数据存储下来,利用Hadoop HDFS、Hadoop MapReduce等工具进行分析与计算。大数据存储舍弃过度数据精准问题和数据间前因后果的关系,重点探索它们的相关关系,这就是大数据的应用原理。大数据分析在高职毕业生就业中的应用即通过分析就业有关的数据,如:选择工作单位情况、职业岗位、月收入、工种、学生所学专业等数据,发现未来就业趋势及如何利用大数据分析的结果来更好指导高职毕业生的就业。本文所提到的大数据分析预测范围主要有:专业对口情况、自主创业情况、薪资情况、对工作满意度情况、工作地分布情况等。
第一,不能依赖少量数据样本。少量的数据样本是采集长沙市某个职院就业情况的数据或某些专业的就业情况,通过整理分析来推测整个长沙市所有高职院校的就业情况,属于以点概全的方法。此种分析方法一般在特殊领域内有效,但通常情况下,特别是在学生就业问题上容易造成误差。以长沙市范围内的高职院校学生就业分析为例,对于已发生的就业行业分布的数据较容易做到精确,但在此基础上建立分析模型却较困难。假设湖南电子科技职院的“航海运输”专业是长沙所有高职院校中的独特专业,则该专业学生的就业因素维度较容易确定。但对于“计算机应用技术”这一类几乎所有高职院校都开设的专业,就难以搜集到既有分布提取分析因子以及建立相关分析模型。但如果将长沙市范围内所有高职院校的一切与就业相关的大数据,包括整体经济趋势、就业行业情况及区域分布、相关行业的人才需求情况、毕业学校的该专业师资力量与教学情况、学生素养以及家庭状况等,从以上数据中提取维度,经由交叉分析对比,可得出某段时期内影响长沙市高职毕业生就业的一些主要因素。第二,切忌一味地追求数据的精确性。本文涉及的数据包括社会、行业、学校、高职毕业生个人信息等海量数据,它们之间关系复杂,每类数据都采集精确的可能性不大。但采集的数据越多,这些海量数据可以抵消掉个别问题数据。如果单纯为了获得毕业生就业薪资的精确数据而牺牲更广泛数据的采集,忽视了其他应深入采集的数据。如:忽略性格倾向、思想独立性等因素对就业的影响,就无法对学生的心理健康采取更有效的对策。这将直接影响学生的就业。第三,注重某些在就业关系中起重要作用的因素。如:不要过度重视2011年—2015年这5年间“服装设计”专业学生就业率具体是多少,不要过度追究某因素对毕业生就业的影响,而是要预测好未来几年中该专业的高职毕业生就业率是上浮还是下降,以及上浮和下降的幅度。
就建设形式和出资方而言,可将该系统的建设形式分成自行构建和联合构建两种。自行构建指以长沙市为中心建立一个数据枢纽,再将这个数据枢纽连接到长沙市范围内各高职院校就业指导中心,结构如图1所示。每个院校的就业指导中心主要负责采集本校的就业数据,条件成熟的也可以适当负责数据分析。数据枢纽则负责全市范围内的各个高职院校毕业生的就业数据分析,负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。NameNode和JobTracker通过调用管理员配置模块中的APIresolve来获取集群里每个slave的机架ID。此种构建形式的特点:数据来源有指向性,有利于建立分析模型,对于趋势的分析周期较短。但建设周期长,成本高。
图1 就业大数据应用系统的建设形式之一自行构建Fig.1 One of the construction forms of big data application systems
联合构建是指长沙市范围内各高职院校与具备大数据分析能力的公司协作,由该公司提供云计算服务来采集与就业相关的数据,这些采集的数据经过清洗过滤后进入全市就业指导中心数据枢纽数据库,该数据库由具有海量结构化数据存储功能的分布式列存储系统—HBase,用其超大无模式面向列的HBase表以key-value对的形式存储这些就业相关数据,为后期做就业趋势分析或后期研究使用。该形式的特点:数据来源广泛,分析模型建立复杂,分析周期长。建设周期短,成本低。总地来说,联合构建相对于自行构建更经济一些。
图2 就业大数据应用系统的建设形式之二联合构建Fig.2 The second joint construction of big data application system construction form
A.因为大数据分析是通过云计算的手段将处理结果进行分析与预测,所以有关影响高职毕业生就业的数据分析维度不必深入探究,重点在于尽可能搜集与就业相关的海量数据。B.就业数据采集过程中遇到涉及敏感隐私数据,应通过合法的法律途径获取,如:毕业生的家庭关系、家庭收入等数据。C.大数据采集的海量信息的汇集构成了社会现实,所以不仅在高职毕业生就业研究方面,其他应用领域的大数据采集与分析也得到了发展与应用,体现了数据的价值。
对长沙市范围内的高职学生就业情况进行分析属于社会学与教育学交叉领域,其研究意义在于,为高职学生就业趋势的预测提供了一种高准确性的分析模式,政府和教育界对长沙市范围内高职院校学生就业工作的管理起到更好的指导作用。本文提出的两种大数据分析系统建设形式,从经济效益上来考虑,选择与企业联合构建的形式可以节省开支,也可以克服技术上的一些难题。
[1] 胡逸.运用大数据技术促进大学生就业[N].中国组织人事报,2013-09-04.
[2] 桑庆兵.大数据在高校的应用与思考[J].南通纺织职业技术学院学报,2013,(02):45-46.
[3] 王左利.大数据:大数据时代[J].中国教育网络,2013,(01):67-68.
Research on employment analysis system of Changsha higher vocational college graduates based on big data
ZANG Fang, LIU Yue
(Department of Mechanical and Electronic Information Engineering,Hunan Electronic Science and Technology Vocational College, Changsha 410205, China)
Based on the analysis of the application principle of big data, this paper puts forward the construction of employment analysis system of Changsha higher vocational graduates and the precautions of big data in application analysis.
Big data; Changsha vocational college graduates; Employment analysis; System construction
2017-04-27
臧芳(1980-),女,硕士研究生,讲师; 刘跃(1985-),男,经济学学士,讲师。
TP311.52
A
1674-8646(2017)13-0027-02