王燊成 周镇忠
在劳动力市场领域,随着互联网应用规模不断扩大,劳动力市场大数据应运而生(史珍珍、曾湘泉,2016)。与此同时,一系列大数据技术更迭涌现,也为广大就业群体带来了新的机遇与挑战。一方面,大数据可以扩大人群获得就业的机会,数字经济的发展可以帮助返乡农民、待就业人员以及残疾人等群体通过网络平台找到工作(张新红,2016);另一方面,由于算法决策工具中根深蒂固的偏见,低收入人群也有可能会被排除在机会之外。由于使用机会受限并且缺乏数字技能(Hargittai & Hinnant,2008),被排斥的群体也可能无法像更多特权群体那样从信息技术中获得收益(Blank & Lutz,2018)。因此,正确认识劳动力市场中的大数据并掌握相应的分析技术,对于激活劳动力市场具有重要的意义。
事实上,基于网络招聘信息的大数据分析已经成为国外劳动力市场研究的一种重要方法。劳动力市场大数据广泛地运用于雇佣标准、搜寻与匹配过程、搜寻持续时间、雇主偏好等研究议题当中(史珍珍、曾湘泉,2016)。而在我国,由于劳动统计数据不完备或不公开,统计口径和方法都存在较大争议,利用各类大数据深入开展我国劳动力市场理论研究和政策分析显得尤为重要(曾湘泉,2017)。不过,随着近年来互联网、人工智能、5G 等信息技术在我国劳动力市场的广泛运用,探讨劳动力市场中大数据及其技术应用的研究也开始涌现。基于此,本文利用范围综述的研究方法,全面呈现我国劳动力市场研究中大数据应用现状及其主要特点,并在此基础上尝试提出运用大数据及其技术促进就业的相关建议。
自20 世纪70 年代早期以来,随着循证实践的发展,一系列的研究综述方法也随之产生。在14 种最常见的评述方法中,范围综述(scoping review)是一种针对探索性研究问题的知识综合,即通过系统地搜索、选择和综合现有知识,并遵循既定的方法学框架,绘制与某一特定领域相关的关键概念、证据类型和研究空白。这种方法不仅对于通过巩固证据推进实践和研究至关重要,而且可以帮助知识用户更有效地做出基于证据的决策(Colquhoun et al.,2014)。
范围综述是一个相对较新的方法,目前尚无通用的研究定义以及应用程序。Arksey 与O’Malley(2005)最早提出了开展范围综述的五个步骤:第一,明确研究问题,这对于搜索策略的构建十分重要;第二,确定相关研究,即尽可能全面地确定原始研究,并审查是否适合回答中心研究问题;第三,研究选择,需要确定一种机制来帮助排除没有解决研究问题的研究,即确定研究纳入或排除的标准;第四,绘制数据图表;第五,整理、总结和报告结果。目前,使用范围综述的研究主要集中于公共卫生与医疗健康领域,比如公共卫生干预中的行为和行为理论(Davis et al.,2015)、心理健康中的机器学习(Shatte et al.,2019)等。本研究基于Arksey 与O’Malley提出的范围综述的五个步骤开展我国劳动力市场研究中大数据运用的文献回顾。
基于前文所述的研究背景,并结合研究者已有的专业知识以及对文献的初步阅读,本文将主要问题确定为我国劳动力市场研究中大数据运用的范围、特征等是什么。
本文通过搜索词“大数据”“机器学习”与搜索词“就业”“失业”“劳动力”的组合检索方式来识别符合研究问题的相关研究。文献搜索主要在中国知网中开展。考虑到已有研究的质量以及聚焦性,纳入研究的文献仅限于CSSCI(含扩展版)来源期刊。此外,为确保全面审查已有文献,搜索不仅包括上述数据库中的定量与定性研究,还通过滚雪球、手动搜索、搜索认证、引用文章等方式确定其他来源的文献。
如果符合以下标准,文献将包括在本综述中:第一,文章发表在同行评议的学术期刊上;第二,文章属于实证性研究;第三,文章利用大数据来分析就业、失业等与劳动力市场有关的现象或解决了相关问题。如果满足以下条件,则将文章排除在综述外:第一,文章属于概念性研究;第二,文章属于综述性研究,没有原始贡献;第三,文章使用的数据不属于大数据或没有利用大数据技术。本文的选择没有关于发表时间、地理位置、人口或研究设计的限制。
确定相关研究后,研究人员将对全文开展进一步评估,并提取每篇文章中劳动力市场所涉及的领域、大数据来源与类型、大数据处理与分析技术、学科领域、作者信息、发表年份以及期刊名称等内容。文章的引文主要通过Zotero 软件进行管理。
研究人员集中比较和讨论了各类数据。一方面,对研究文献进行描述性统计。考虑到已有研究中使用的数据类型,本综述并不适用于荟萃分析的方法,因此主要通过叙事性综述的综合方法来呈现已有研究。另一方面,对研究结果进行了比较评估和焦点讨论,确定已有研究的趋势和不足。
截至2022 年12 月31 日,本研究基于搜索词组合共确定297 篇CSSCI文章,通过手动检索、引用文献滚雪球检索等渠道共确定16 篇CSSCI 文献,共计313 篇文献,其中重复文献共有55 篇。研究人员对这些文献的摘要进行了回顾,剔除了与研究问题不相关的199 篇。此外,通过对剩下的59 篇文献的全文回顾,结合本研究范围综述的文献纳入与排除标准,共筛选出35 篇文献。因此,最终纳入综述的文献共有35 篇。本研究的范围综述具体流程参见图1。
图1 范围综述流程图
入选范围综述的文献主要发表于2016—2022 年,其中2016 年共有3 篇,2017 年共有5 篇,2018 年共有4 篇,2019 年共有7 篇,2020 年共有6 篇,2021 年共有5 篇,2022 年共有5 篇。根据中国知网的学科分类统计,35 篇文章中涉及劳动经济的有13 篇、城市经济9 篇、教育6 篇、通信经济5 篇、计算机5 篇、工商管理4 篇、社会4 篇、城乡规划与市政3 篇、语言2 篇、农业经济2 篇,涉及政治、国民经济、交通运输经济、金融的各1 篇。
研究发现,入选文献所使用的大数据大体上可以分为四种类别:第一类主要来源于智联招聘、前程无忧、应届生求职网、看准网、拉勾网、大街网、猎聘网、领英等国内外招聘网站,共有19 篇文章涉及,大数据主要以岗位与就业信息为主,少数研究使用访问量次数与访问人数数据、评论文本等信息;第二类主要来源于手机信令数据,手机信令数据指的是当手机与基站进行通信连接(如接打电话、接发短信、位置更新等)时,基站会进行记录并产生一条包含基站位置信息的信令数据,实际上这是一种人口流动的检测方式(王德等,2020),共有7 篇文章涉及;第三类主要来源于腾讯地图、高德地图、百度地图、微信热力大数据、一卡通刷卡数据等劳动力迁徙通勤大数据,共有5 篇文章涉及,比如“宜出行”是腾讯公司开发的基于地图显示当前选定区域人流分布的手机端小程序, 能够有效分析既定区域内的人流热度和分布变化(申犁帆等,2019);第四类主要来源于兴趣点(Point of Interest,POI)数据,指的是一些与人们生活密切相关的地标建筑和地理实体的点数据,如学校、医院、商场、公园以及政府机构等,常用于城市研究中,共有4 篇文章涉及;此外,还有研究使用的大数据主要来源于新闻报道、微博数据集、百度搜索行为数据、全样本行政大数据、启信宝(产业大数据)、房地产网络平台、美团网等。
基于对35 篇入选文献的全文阅读,本文对其关注的劳动力市场话题进行了提炼与概括,大体可以分为劳动力市场供求关系、劳动力市场结构、劳动力市场预警预测、职住空间关系以及其他等五个方面。
在劳动力市场中,供求关系是最基本的关系,影响经济发展的诸多方面,是连接人口与经济发展的重要环节,决定着失业率、劳动力价格等多重要素,入选的文献中共有12 篇主要关注该话题。在这些文献中,共有3 篇主要关注高校毕业生群体。刘全等(2016)基于网络爬虫技术所获得招聘高校毕业生信息,对我国人才市场对高校毕业生的需求进行了分析;宋齐明(2018)探讨了雇主对本科毕业生通用性能力的要求以及其中的差异化特征。许艳丽、吕建强(2019)检验和探讨了人工智能领域对高职毕业生的技能需求。其次,共有3 篇文献关注人才培养的议题,王梅等(2019)分析了劳动力市场对硕士生提出的复合性可雇佣能力需求以及相应的人才培养应对之策;王辉、夏金铃(2019)分析了非通用语人才培养现状及人才培养与市场需求的关系、问题及相应建议;姚亚芝、司显柱(2018)探讨了语言服务行业人才需求。此外,还有6 篇文章主要关注部分特殊岗位的市场需求,刘睿伦等(2017)对大数据工作岗位需求文本进行挖掘,探讨了企业对大数据岗位的需求特点。张俊峰、魏瑞斌(2018)基于国内招聘类网站的数据类岗位招聘信息,分析了数据类岗位人才需求的主要特点、相似性以及差异性。唐春勇等(2018)分析了新环境下员工对组织人力资源管理的关注点,总结出新环境下员工的个性化需求的聚焦点。王奕俊、杨悠然(2020)分析了人工智能时代下职业技能需求结构面临的变化与挑战。马晔风、蔡跃洲(2019)基于官方统计和领英平台大数据,就中国ICT 劳动力供给状况及分布特征进行了实证分析。周金燕、冯思澈(2020)利用网络爬虫获取的6 万多条教师招聘信息,对教师劳动力市场的技能或特征需求进行了研究。
入选文献中共有9 篇主要关注了劳动力市场结构议题,包括劳动力的迁徙流动、劳动力或就业岗位的空间分布、工资结构的分布与调整等。部分研究分别利用爬虫获取的网络招聘岗位信息、手机信令数据、产业大数据,分析了城市就业岗位空间分布特征、影响因素(孙晨等,2016;谢智敏等,2021;刘炜等,2022)。张涛、刘宽斌(2019)基于网民对于“找工作”的搜索痕迹大数据,测算了中国经济增长与失业率和农业劳动力转移之间的关系。还有研究分别利用腾讯迁徙大数据、手机信令大数据、美团大数据动态监测了人口迁徙流动的轨迹特点、影响因素等(陈双等,2020;陈莎、李春朋,2021;张文武、余泳泽,2021)。有学者基于网络零工招聘数据,探讨了数字技术对零工就业及其收入的主要影响(张艺、明娟,2022;张艺、皮亚彬,2022)。
入选文献中共有5 篇主要关注劳动力市场预警预测的话题。其中3 篇文章使用的均是中国人民大学中国就业研究所利用智联招聘大数据发布的中国就业市场景气指数(CIER),该指数涵盖了智联招聘提供的注册求职人数、发布的岗位空缺数量等大数据,基于市场招聘需求人数与市场求职申请人数的比值计算得出。该指数以1 为分水岭,指数大于1 表明就业市场中劳动力需求多于市场劳动力供给,就业市场竞争趋于缓和,就业市场景气程度高,就业信心较高,指数越大说明就业市场的景气程度越高。具体而言,耿林、毛宇飞(2017)的研究重点介绍了CIER 指数的构建方法,并搭建计量模型探讨CIER 指数与宏观经济景气指标的关联程度,从而对就业形势进行短期预测。王辉、曾湘泉(2017)结合CIER 指数和雇主—雇员匹配数据,探讨了我国劳动者工资和劳动力市场紧张程度之间的关系。毛宇飞、曾湘泉(2022)结合CIER 指数和微观数据,发现在疫情冲击下毕业生就业市场供需两端均受到影响。此外,董倩(2017)运用招聘网站的访问数据对失业率变化情况趋势进行了拟合,发现招聘网站活跃度与失业率之间高度相关,用其来预测与体现失业率变化趋势是可行的。黄冠华等(2021)基于某城市全样本行政大数据,利用机器学习算法,对每个城镇居民每个月的就业状态进行预测,再利用统计核算方法估计出该城市的失业率。
职住空间关系即居住就业空间关系,指居住地和工作地之间的空间联系与位置关系,主要包括居住、就业、通勤三大部分,已经成为劳动力市场以及城市可持续发展共同关注的重要议题(刘望保、侯长营,2013)。入选文献中共有7 篇主要关注这一研究议题。有研究利用腾讯“宜出行”定位数据、轨道站点POI、一卡通刷卡数据、微信热力大数据、手机信令数据等大数据,探讨了职住空间关系中的职住平衡问题(申犁帆等,2019;仇璟等,2020;周作江,2020;周新刚等,2021)。有研究基于手机信令数据,探讨了大数据如何应用于通勤模型构建等问题(顾家焕、王德,2020)。也有研究结合与城市生活设施相关的POI 大数据和居民住房与交通状况调查问卷,分析了居民个体属性及其对公共服务空间偏好与通勤距离的内在关系(王振坡等,2020)。还有研究使用多源大数据实证分析,比较了不同园区职住空间关系的演变特征和演变机制,归纳了后工业化背景下产业转型带来的产业园区职住空间关系演变模式(钮心毅、林诗佳,2022)。
除了上述四类主题以外,胡恩华等(2016)利用中华全国总工会网站上共计1 853 篇工会动态报道,运用扎根理论方法在完整呈现出中国工会实践职能现状的基础上探讨了工会的劳资关系调节职能。黄荣贵(2017)基于SMP2015 微博数据,集中筛选出含有种子用户的51 288 条博文并基于“网络与文化”和关系社会学的理论,探讨了目前劳动议题的主要社群关注点以及当前该研究领域的新趋势。
大数据的分析技术主要包括可视化技术、数据挖掘技术、预测技术以及语义分析技术。其中,可视化技术分为文本可视化、网络(图)可视化、时空数据可视化、多维数据可视化技术等;数据挖掘技术分为聚类分析(如K-means 算法、K-中心点算法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法等)、分类和预测(如决策树、粗糙集、贝叶斯、遗传算法、BP 和RBF 神经网络算法等)、关联分析(如Apriori 算法);预测分析技术主要指利用统计、建模、数据挖掘工具对已有数据进行研究以完成预测,分为定性预测(如集思广益法、德尔菲法、Boosting、贝叶斯网络等)与定量预测(如统计分析、因果联系模拟、人工智能算法等);语义分析技术指的是识别文本的意义、主题、类别等语义信息的过程,大体分为基于统计的文本语义分析(如潜在语义分析、概率潜在语义分析和隐含狄利克雷分布等)和基于语义学的文本语义分析。
入选文献使用的分析技术主要涉及三种类型:第一类是适用于大数据的特定技术,大多数研究习惯利用Python 工具包中TF-IDF 算法、Word2Vec 开源工具、python-digraph 模块、汉语分词系统(PyNLPIR)、LDA 模型、K-means 聚类等对大数据文本进行分词和词频分析、聚类分析、话题模型分析等,也有研究使用KNIME 开源数据分析平台对大数据进行关键词提取以及文本内容分析(王梅等,2019),还有研究利用基于R-gram的语料库分词和词频统计软件PowerConc 对大数据文本进行了分词和词频分析以确定高频关键词(宋齐明,2018);第二类主要结合空间地理信息,通过模型建构以可视化的方式呈现研究主要发现,比如基于核密度分析图形研究法、多尺度GIS 空间分析等;第三类主要是在结合截面或面板数据的基础上,利用描述性分析以及计量模型进行模拟分析等。
基于我国劳动力市场研究中大数据应用相关文献的范围综述,本文发现以核心关键词在中国知网进行检索虽然可以获取一定文献,但其中真正使用大数据且聚焦劳动力市场议题的研究并不多见。在符合各项指标要求的文章中,使用的大数据一方面主要源于求职网站中与劳动力市场紧密相关的岗位信息、求职信息等,另一方面主要源于互联网信息技术应用于劳动力工作生活场景后产生的相关数据。这些相关研究主要关注劳动力市场供求关系、劳动力市场预警预测、劳动力市场结构、职住空间关系等话题,涉及可视化、数据挖掘、预测分析、语义分析等大数据分析技术。不过,现阶段我国劳动力市场大数据仍处于发展初期,无论是大数据的收集,还是大数据的筛选,抑或是大数据的使用,都有待进一步发展。此外,相较于国外劳动力市场研究中大数据的应用,我国无论在技术手段上,还是在分析深度上,抑或是在大数据与政策制度的融合上均有很大的拓展空间。比如,有研究指出,利用大数据可以分析或预测宏观经济指标,从而做出精准的决策,纽约联储银行工作人员对国民生产总值进行早期估算的创新技术很好地诠释了大数据与政策制定的深度融合(Bok et al.,2018)。虽然当前可获得的大数据有限,但努力完善和利用现有数据不仅可以改善当前的分析工作,而且还可以未来的分析奠定基础(Dimas et al.,2023)。鉴于此,综合相关讨论,本文认为为了更好地利用大数据来开展劳动力市场研究并指导实践,可以在以下三个方面发力。
第一,进一步挖掘获取劳动力市场大数据。数据源是应用大数据的前提,没有丰富的数据源,大数据就无从谈起(陈之常,2015)。对此,首先,建立数据收集与整合协作机制,一方面建立一个全面的数据收集系统,包括政府机构、企业、教育机构和研究机构的数据源;另一方面,整合各种数据,包括就业统计、人力资源信息、教育背景、技能培训记录等,以形成全面的劳动力市场数据集。其次,推动数据标准化与共享,通过制定统一的数据标准和格式,确保各个数据源可以互相对接和共享。此外,目前国内研究使用的就业大数据主要依赖于各大招聘求职网站提供,这样可能会导致样本选择性偏差的出现,低学历、高龄、农民工等就业弱势群体容易被网络求职平台排斥在外。因此,本文建议提高就业弱势群体的信息化技术,培养网络求职招聘的习惯。最后,强化数据分析与挖掘能力,鼓励利用先进的数据分析技术,如机器学习、人工智能和数据挖掘算法,对劳动力市场数据进行深入分析。
第二,多渠道保障大数据的真实性。获取的大数据也并不一定是有效的,因为数据和数据集并不是完全客观的,不同的人会构建不同的信息系统来收集、存储、分析和解释数据,而这些信息系统是由价值系统塑造的。年龄、性别、民族、社会经济地位、在线体验和互联网技能都会影响人们使用习惯,这会在其行为痕迹中显示出来,并影响基于特定站点用户数据得出的结论(Hargittai,2015)。鉴于此,在使用大数据进行计算的过程中,认识 “小数据” 的价值变得越来越重要。与大数据相比,小数据需要更高的质量水平,因为它的特性可能会加剧或放大错误的结论(Dimas et al.,2023)。因此在某些情况下,关注 “特殊” 的单个人可能会非常有价值。此外,由于当下可以对大型数据集进行建模,这通常会将数据简化为适合数学模型的数据。但是一旦脱离上下文,数据就失去了意义和价值(Danah & Kate,2012)。所以需要注意警惕“唯数据论”,大数据本身就是一门技术,无法全面反映就业群体的就业意愿、能力以及机会等,在利用大数据技术的同时需要发挥好其他方法的作用。无论如何,大规模数据集都不能替代理论和小数据技术,理论仍然是数据分析的宝贵指南,而为回答特定问题而构建的小数据仍然可以提供最精确的答案(Mergel,2016)。
第三,高效安全地使用大数据。如何运用大数据实现政府决策观念、决策方式、决策手段、决策过程的转型,引领地方政府实现决策机制的优化,已经成为政府管理领域的方向性问题(谢治菊,2018)。在劳动力市场领域,生产大批量大数据的同时如何有效地利用大数据来促进就业的高质量发展需要在制度设计、机制体制、政策执行等方面共同发力,尤其是在国家数据局成立的背景下,需要更加积极主动地融入数字社会建设的潮流,提高大数据的使用效率,提高各级政府、社会科学界利用各类大数据深入开展我国劳动力市场理论研究和政策分析的能力。具体而言,可以利用大数据分析结果进行劳动力市场的预测和趋势分析,通过建立预测模型来预测就业市场的发展趋势、劳动力需求的变化以及技能需求的演变,从而帮助个人、企业和政府做出更明智的决策。与此同时,基于大数据分析结果,可以制定和优化与劳动力市场相关的政策和措施。尤其是通过深入了解劳动力市场的供需状况、结构性问题和瓶颈,政府可以有针对性地制定就业培训政策、职业发展规划和人才引进政策,以促进劳动力市场的发展。不过,技术是一把双刃剑,在收集并利用劳动力市场大数据的同时,还需要做好个人信息安全保护等工作。因此,在利用劳动力市场大数据的同时,需要进一步强化研究者以及数据使用者的隐私观念,加强法律体系与道德体系的“双约束”作用,在进行大数据分析之前,对敏感信息进行匿名化或脱敏处理,以避免个人身份的泄露。还可以建立包括招聘企业、政府法律部门、就业群体等相关利益主体的对话机制,保证数据取之于就业群体,同时也用之于就业促进。
2021 年11 月,工业和信息化部发布的《“十四五”大数据产业发展规划》中指出,强化大数据在政府治理、社会管理等方面的应用,提升态势研判、科学决策、精准管理水平。本文通过对我国劳动力市场大数据应用相关文献的系统综述,在一定程度上能够从宏观层面整体把握我国劳动力市场中大数据的立体画像,以期为更好地将大数据及其技术运用于劳动力市场提供一定启示。不过需要说明的是,本文也存在一定的不足,比如对于现有文献的综述并没有考虑外文文献,同时受研究方法的局限,一些正在研究的最新成果可能无法及时有效地捕捉到。