基于文本挖掘的园林专业人才需求分析

2022-05-12 09:25郑康乐韦婷婷张建桃
现代计算机 2022年5期
关键词:分词薪资园林

郑康乐,曾 莉,韦婷婷,张建桃

(华南农业大学数学与信息学院,广州 510642)

0 引言

近年来,伴随新型城镇化、美丽中国建设的不断推进以及旅游产业的持续繁荣,园林行业呈现出良好的发展势头,对人才的需求不断增加。虽然目前毕业生人数逐年增多,但依然存在企业人才需求与学生就业需求同时得不到满足的情况。且当前高校园林专业毕业生还存在专业能力较低、社会能力缺乏,以及对职业生涯规划不完善等问题。

针对园林人才培养与就业市场需求不相适应这一现状,许多研究者从定性分析的角度,面向就业市场、区域产业需求,对园林专业的人才培养提出了改革建议。如胡金龙针对地方高校风景园林人才培养中存在的问题,从人才培养目标、专业课程体系、实践教学体系、人才培养保障等方面提出了改革策略。洪艳铌指出要形成以校企合作为重点、以政府监管为支撑的“校企协同,工学结合”人才培养模式,为切实提高风景园林专业人才培养质量夯实基础。邵长芬和李得发研究园林技术专业实践教学的特点及存在问题,构建出适合园林技术专业人才市场需求的实践教学模式和教学体系。温娜等根据风景园林课程和专业特点,从“双线条”“双导师”及“双评价”3个层面优化了教学方式,为培养复合型和专业型人才、提高学生的专业技能和市场竞争力提供参考。

但鲜有利用招聘信息的文本数据对园林专业人才需求进行定量分析的研究,鉴于此,本文结合网络招聘数据,以市场需求为导向,利用文本挖掘技术分析招聘单位对园林专业人才的需求,帮助求职者快速找到市场需求定位,有效指导高校园林人才培养。

1 研究方法

利用自然语言处理及文本挖掘技术对园林专业相关的招聘信息进行文本分析,挖掘园林专业岗位的核心需求。技术路线如图1所示,总体上对园林专业岗位的人才需求分析可以概括为以下三个阶段:数据采集、数据预处理以及数据可视化。

图1 技术路线

1.1 数据采集

2021年3月10 日,以“园林”为关键词,利用Python 爬取前程无忧网上全国范围内有关园林专业的招聘信息,共获取24313 条招聘数据。数据的字段分别为:岗位名称、薪资、地点、相关信息、公司名称、公司类型以及岗位要求。

1.2 数据预处理

招聘网站上信息抓取有时会爬取到重复的岗位,且由于部分字段是非必填项,比如公司福利等,这就会难免会出现缺失值,因此必须先进行去重、去缺失值处理。同时,考虑到后续需要对岗位要求文本进行分析,本文将岗位要求文本字符串长度小于30且特殊字符(如?)占全字符串长度40%以上的文本都认为是无效文本,剔除该数据。

薪资单位不统一:经统计后发现,薪资字段共有9 种表示方法。为方便后续可视化分析,统一规范为“千/月”的形式。其中,天以每月30 天进行换算,日以每天8 小时进行换算,若薪资存在上下限区间则对其进行求和平均。

地点表达不规范:通过分析地点字段,发现第一个词都对应着中国的某个地级市,反之则显示异地招聘。因此,本文搜集31个省级行政区(除香港、澳门和台湾)下所属的各个地级市,以及东北、华北、华南等7大地区分布,遍历提取每一行地点中的地级市,与各省及地区所属地级市进行匹配,若匹配成功,则返回对应省份和地区,反之,则将地点标注为“其它”。

通过分析相关信息字段,发现大部分格式都遵从着“市区,工作经验,学历,招聘人数”这种写法,比如“成都-高新区,5-7年经验,大专,招若干人”。因此,本文从相关信息字段中提取“经验、学历、招聘人数”这三个特征字段,若提取不到对应字段,则对此数据进行剔除。至此,经过上述数据预处理后,本文保留了15569条有效的招聘数据,字段分别为:岗位名称、薪水(千/月)、招聘人数、经验、学历、地区、省份、公司类型及岗位要求。

在进行中文分词时,为了提高分词的准确率,防止一些专有名词被机器随机切分开,比如“风景园林、绿化工作、工程造价”等,往往需要自定义词典来降低切分错误率。本文以“园林、招聘、岗位、社会工作”等为关键字搜索并下载搜狗细胞词库中相关词典,并通过观察岗位要求这一列字段手动添加园林专业岗位的相关词汇。然后,使用Python 中的jieba 加载自定义词典。而对于岗位要求文本中的语气词、人称、标点符号等特殊字符,本文则采用哈工大停用词,并根据文本实际情况,手动添加了“备注、任职要求、岗位要求、有限公司”等相关词汇,便于提高文本分词的准确度。图2是经过分词和去除停用词后的文本。

图2 分词及去除停用词部分结果

由于进行jieba 分词后文本间可能会出现重复值,且分词后每行文本的字符串长度都会递减,有些甚至会减少到0。因此,有必要对文本进行进一步的清洗。本文对岗位要求中所有分词字符串总长度小于30 的数据进行剔除,再进行去重操作。经文本预处理后,岗位要求全部文本平均长度约为203个,最小值为31个,最大值为3828个。

1.3 LDA提取主题词

潜在狄利克雷分配(Latent Dirichlet Alloca⁃tion,LDA)模型是由Blei DM 等人于2003年提出的,它采用无监督的学习方法找出文本中所隐含的主题,其中的主题是一篇文档中所包含的中心思想,在模型中主题被看作由一些服从特定概率分布的词语构成,可用此模型得到文档的主题分布,通过分析文档的主题分布和主题对应的词分布,可以进行主题词的提取。

主题数的选取是LDA 建模最为关键的一步。一般地,主题数若选取过多,会导致主题提取过细,各部分重合度过高;主题数过少又会导致不同概念可能会归纳到同一个主题里,降低文本主题的可读性。

本文采取LDA模型的困惑度指标(perplex⁃ity)以及基于经验和主观判断对实际模型不断调参,绘制岗位要求字段困惑度的学习曲线,来选取最佳的主题数。LDA 模型的困惑度计算公式如下所示。

其中,表示语料库中的测试集,本文采用随机选择语料库中20%的文档作为测试集,剩下80%的文档作为训练集。是文档的篇数,N表示文档中词,(W)表示文档中W一词产生的概率。一般来说,困惑度越低,提取主题的效果越好。

2 数据可视化展示及分析

2.1 公司类型描述

由图3可知,共有11 种不同类型的公司。其中,发布园林类岗位招聘信息最多的是民营公司,共计12548 家,占比约为80.6%;其次是国企,共计1052 家,占比约为6.76%;发布量排名第三的则是上市公司,共计980家,占比约为6.29%;合资和外资公司也对园林类岗位人才有所需求,在样本中有470 家(3.02%)合资公司和332 家(2.13%)外资公司发布了招聘信息;而创业公司、非营利组织、事业单位、政府机关以及政企代表处对园林类岗位发布招聘信息较少。

图3 发布招聘信息公司类型及其数量分布

2.2 工作经验分析

从图4可以看出,在工作经验要求上,有28.96%的公司要求园林人才有4年工作经验,要求6年工作经验的公司占比达到了20.84%,而要求2年、1年以及无工作经验的公司占比差别不大(分别为16.71%、14.66%和11.78%),要求有8年和10年工作经验的公司累计占比约为7.04%。由此可见,公司比较看重有丰富工作经验的园林人才。因而,园林专业的学生需通过实践不断充实工作经历,在提升能力的同时积累自身经验。

图4 工作经验分析

2.3 学历与薪资分析

本文将薪资大于40 千/月的数据作为异常值进行剔除,绘制图5的学历与薪资箱线图。可以看出,大专、中专以及高中的箱线图较为类似,薪资的中位数也较为接近,基本上稳定在6~8千/月,但大专薪资内限以外的异常值较多,部分人最高薪资甚至可以达到40 千/月;本科与硕士的薪资中位数在10~13 千/月,从数据分布上来看,本科的薪资相比硕士来说更为分散,但两者就业薪资趋势大体上基本一致;初中及以下薪资中位数最低,为3~5 千/月,而博士薪资中位数最高,为19~22 千/月,其下四分位数也基本等同于本科薪资的中位数。由此可见,园林人才学历越高,就业竞争中优势越明显,薪资水平也会更高。

图5 学历与薪资箱线图

2.4 学历和地区需求分析

从图6可以看到,大专的招聘人数需求最为旺盛,共计18687人,占比59.86%;其次是本科,共计9309人,占比29.82%;中专所招人数1856人(5.95%); 高 中 所 招人 数 为964人(3.09%);初中及以下所招人数183人(0.59%);硕士所招人数199人(0.64%);而博士在累计招聘人数为31217人中只招19人。由此可见,园林专业岗位的招聘人数所需学历主要以大专和本科为主,占市场需求89.68%。

图6 学历招聘人数折线图

从图7、图8可以直观地看出,园林专业岗位人才在地理位置上的需求差异。

图7 招聘人数地区条形图

图8 招聘人数省份分布

华东地区招聘人数最多,为9199人,占全国园林岗位招聘需求的29.47%,其中华东地区以江苏、浙江、上海等发达省市为主,分别提供了3112、2708、1714个招聘名额;华南地区招聘人数为6691人,占全国园林岗位招聘需求的21.43%,其中以广东省为主力军,为整个华

南地区提供了6395个招聘名额,需求量在全国省市中最为旺盛;地区分布中标注为“其它”表示异地招聘,并不直接说明工作地点,但其招聘人数也达到了5695人,占比18.24%;西南地区招聘4143人,占比13.27%,其中四川、重庆、云南分别为西南地区提供了2183、1123、765个招聘名额;华中地区招聘3111人,占比9.97%,其中湖北、湖南、河南分别提供2231、538、342个招聘名额;西北地区招聘1024人,占比3.28%,其中陕西、甘肃分别提供962、36个招聘名额;华北地区招聘815人,占比2.61%,其中北京、天津、河北分别提供607、120、71个招聘名额;东北地区招聘人数最少,为539人,占比1.73%,其中辽宁、黑龙江、吉林分别提供423、60、56个招聘名额。综上所述,园林专业的招聘单位主要集中在华东和华南地区,其中以广东、江苏、浙江、湖北、四川、上海、重庆等发达省市为主。

2.5 “岗位要求”字段的LDA可视化

本文在不同主题数下计算岗位要求字段的LDA困惑度如图9所示。可以看出,当主题数取值在1~3 时,困惑度斜率变化最大,而当主题数大于3时,斜率变化较为平缓,此时的困惑度也相对较小,说明主题数为3可以较好提取岗位要求文本中的主题。因此,本文将3作为岗位要求字段LDA主题模型训练的主题数。

图9 岗位要求字段的LDA困惑度

运用LDA 模型可得到岗位要求字段中3个主题分布下的特征词,而对于那些与主题无关且实际意义不大的词语,进行人工剔除后选取每个主题下前30个权重值最大的特征词,接着利用Python 中封装好的WordCloud 包对3个主题的特征词进行可视化绘制,效果如图10—图12所示。下列各主题的前30个特征词占120 万个分词的权重值依次为29.42%、 32.86%和12.37%。

图10 主题1工程能力词云图

图11 主题2设计能力词云图

图12 主题3业务和管理能力词云图

图10—图12可以看出,输出的词云图分别代表企业招聘信息中蕴含着对园林专业岗位的三方面要求。从主题1和主题2 输出的特征词可以发现,两个主题所反映的能力均与园林专业所学知识密切相关,可以将两者概括为专业上的“硬技能”,且两者在所有分词中的综合权重为62.28%,说明招聘单位极为看重这方面的能力。从高校园林人才培养的角度出发,结合园林专业综合性和实践性较强的特点,可以将主题1 的前30个特征词概括为工程能力,主要体现在园林工程学和园林建设项目管理等课程上,强调园林人才需要以项目为驱动来夯实专业基础知识,培养工程师思维,以及在项目运营中充分锻炼计划、组织、控制以及现场施工能力;主题2 的前30个特征词则可以概括为设计能力,主要体现在中国园林设计和园林建筑学等课程上,强调园林人才需要提高自主设计与创新能力,熟练掌握CAD、PS和SU等软件的使用方法,在实际项目中能独立进行方案和景观设计,且需在团队中具备沟通、合作以及高度的责任感。主题3的特征词则更多的从市场的角度出发,注重园林人才“软实力”方面上的要求,因而可以将前30个特征词概括为业务和管理能力,强调园林人才需要投身于社会实践中不断提高自身的产品和服务意识,培养科学、全面及文档化的管理思维,在市场中磨练销售、营销和业务能力,从而敏锐判断行业的发展趋势,并做出准确的评估。

3 建议和结论

3.1 建议

结合上文对数据可视化的结果,对高校园林专业人才培养提出以下建议。

从工作经验分析中可知,88.22%的招聘单位对工作经验有一定的要求,说明企业十分看重求职者的实践经验。因此学校可以通过强化教育服务体系建设,将职业指导与日常的专业学习密切结合等方式,为学生争取更多的企业实践机会,可将目光重点聚焦在广东、江苏、浙江、湖北等园林专业岗位需求旺盛的发达省市中,为学生争取到宝贵的实习机会,让他们将所学知识充分运用到实践中。

由LDA 提取岗位要求字段的“硬技能”可知,工程能力和设计能力相关词语在所有分词文本中占综合权重为62.28%,说明大多数招聘单位都重视园林专业学生的工程思维、自主创新能力和综合实践水平,强调学生对基础知识的理解和运用。因此,在课程设置上,各大高校可在充分调研用人单位和往届毕业生的基础上,合理修订原有人才培养方案,适当增加实践课的比重,如生态园林设计和园林工程学的课程实训等。综合类院校则需要增加更贴合招聘单位需求的实践应用课程,让学生能在交流中进行思维共享和理论碰撞,充分将所学知识运用到园林规划设计项目的各个环节中,夯实专业基础知识,真正培养学生的工程能力和设计能力,提高专业核心素养。

综合LDA 所提取的“硬技能”和“软实力”来看,3个主题的前30个特征词在所有分词文本中累计权重为74.65%,说明招聘单位十分注重园林人才将专业知识与实际项目融会贯通,以及在工作中交流、表达的能力,着重从多方面考察学生在专业上的综合素质。因此,各大高校可以通过完善校企协同育人相关制度建设、出台保障措施等方式,围绕应用型、复合型、高素质园林人才的培养目标,引导民营公司等企业积极参与到人才培养方案制定和具体课程设置改革中来,丰富课堂教学形式,培养学生横向和纵向思维能力,扩宽个人眼界,全面提高学生的实践创新能力和综合素质。

3.2 结论

随着新型城镇化、美丽中国建设的不断推进以及旅游产业的持续繁荣,新常态下园林行业及相关产业对园林人才的需求变得越来越旺盛。通过对园林专业网络招聘信息进行文本分析,可以帮助致力于往园林方向发展的求职者,并有效指导高校园林人才培养。在生态文明建设日益加强的背景下,高等院校作为园林专业人才的主要供给主体,应当从提升学生的“硬技能”和“软实力”两方面入手,以面向就业市场需求为导向,既要改革自身的教育教学体系,又要强化校企协同育人,全方面提升学生的实践创新能力,培养具有核心就业竞争力的园林人才。

猜你喜欢
分词薪资园林
《园林清音》
园林一角与位置经营
不简单以“住房薪资”引才——遵循“一步一重天”的人才发展规律
分词在英语教学中的妙用
在园林里遇见自己
结巴分词在词云中的应用
结巴分词在词云中的应用
聚焦现在完成进行时