刘祺彬 高祥兰 何凤琴 李新元
摘 要: 在不违反相关协议准则的情况下,通过爬虫技术获取智能制造岗位数据,并对其进行清洗与脱敏处理. 应用Jieba中文分词工具、K-means聚类算法与隐含狄利克雷分布(LDA)模型,将岗位名称分为6类,将技能集分为8类. 最后,构建需求矩阵并归一化处理,得到各技能集对岗位簇的重要程度,为专业选择、课程建设与从业人员发展提供参考.
关键词: 智能制造; 大数据分析; K-means; 隐含狄利克雷分布(LDA)模型; 需求评估
中图分类号: TP 3-05 文献标志码: A 文章编号: 1000-5137(2024)02-0236-05
Research on intelligent manufacturing positions and skill requirements based on big data
LIU Qibin1, GAO Xianglan2*, HE Fengqin1*, LI Xinyuan1
(1.College of Information,Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai 201418,China; 2.School of Digital Science, Shanghai Lida University, Shanghai 201609, China)
Abstract: Without violating relevant protocol guidelines, the intelligent manufacturing job data was obtained by crawler technology, which was cleaned and desensitized in this paper. By Jieba Chinese text segmentation, as well as clustering algorithms such as K-means clustering algorithm and latent Dirichlet allocation (LDA) model, job titles were categorized into six clusters. Besides, skills were classified into eight clusters. Finally, a demand matrix was constructed and normalized, revealing the importance of each skill set to job clusters. The research was able to provide reference of choosing majors, curriculum development and the professional development of practitioners.
Key words: intelligent manufacturing; big data analysis; K-means; latent Dirichlet allocation (LDA) model; demand assessment
目前,許多院校开设了与智能制造相关的专业,然而学生对智能制造的了解不足,院校开设的课程也与市场需求存在差距[1],导致学生毕业后,无法满足岗位要求. 本文作者采用大数据方法,分析智能制造行业的信息和技能要求,以期解决人才培养与岗位需求不匹配的问题.
1 研究框架
研究框架如图1所示,通过Requests爬虫框架获取智能制造相关岗位信息,并对其进行数据清洗和脱敏处理,利用Jieba中文分词工具与K-means聚类算法对岗位簇进行分析,并参考智能制造技术图谱,结合隐含狄利克雷分布(LDA)模型,分析智能制造相关领域的技能集,通过构建岗位簇与各技能集之间的需求矩阵,全面评估各智能制造岗位簇对不同技能集的需求程度.
2 数据来源及清洗
2.1 数据来源
采用前程无忧招聘网站的网络数据作为数据来源,使用Python编程语言的Requests模块,按照相关协议和准则,在不对Web服务器和客户端造成压力的情况下,抓取前程无忧网站上与智能制造相关的岗位信息. 检索包含如工业物联网、工业软件等智能制造领域关键词的岗位标题或描述,筛选相关岗位信息. 最终获取了8 257条合法公开的招聘信息,包括岗位名称、企业名称、工作地点、学历要求、所处行业与岗位要求等内容.
2.2 数据清洗与脱敏
鉴于爬虫程序的缺陷以及部分企业在招聘网站上发布的信息存在不规范的情况,同时为了确保数据的质量与私密性,需要对数据进行如下步骤的清洗与脱敏处理:
(1) 删除招聘信息中重复的内容,剔除企业名称或岗位简介包含“智能制造”但实际岗位为其他行业的信息.
(2) 若某个岗位的所需技能与智能制造无关,那么剔除该条招聘信息.
(3) 对企业名称进行屏蔽处理,统一设为“****有限公司”,以保护隐私.
(4) 将工作地点统一到市级,例如,“上海-浦东新区”被简化为“上海”,便于后续统计,同时防止招聘企业具体位置信息外泄.
通过清洗与脱敏处理,最终保留6 801条有效数据.
本研究采用Jieba分词工具[2]来准确识别中文语句中的词汇,并过滤无效词,解决中英文书写方式不同所导致的误识别问题. 对于研究对象中的专业名词,如“图像处理” “控制算法”等,Jieba分词工具可能无法完全识别,因此需要输入相关的专业名词,建立附加词库来辅助识别. 此外,岗位名称中的形容词和通用性较高的名称后缀(如“高级” “资深”等)虽然出现频率高,但实际意义较低,需要建立停用词库,让Jieba分词工具自动过滤这些词,以消除对后续研究的影响. 通过以上处理方法,可以优化信息的处理效果,提高识别的准确性.
3 数据分析
3.1 岗位簇识别
采用K-means聚类算法对智能制造岗位进行分类. 首先,使用Jieba分词工具的lcut_for_search模式对岗位名称进行分词,得到包含所有关键词汇的信息. 根据词频制作岗位名词词典,并利用词袋模型,将岗位名称转化为86维的向量,每个向量表示岗位名称中是否包含词典中的词汇(1表示包含,0表示不包含). 采用手肘法[3]求得合理的聚类数量为6,通过K-means算法对向量化后的岗位名称进行聚类,以实现对智能制造岗位的明确分类.
表1展示了经过K-means聚类的智能制造岗位分类结果,每个岗位簇中截取最热门的10项,将智能制造岗位分为6大类:行业顾问、机械工程师、产品工程师、项目经理、软件工程师、电气工程师.
3.2 技能集识别
基于“能岗匹配”原理[4],不同性质的岗位对应不同的能力需求. 同时,各类型岗位对技能集合的依赖程度也存在差异. 为了分析各类技能在智能制造岗位中的需求情况,采用LDA进行技能聚类[5].
参考文献[6],创建技能词典,并将其作为LDA的输入,通过计算困惑度来获得最优的主题数. 表2展示了岗位要求中出现次数前50的技能.
根据困惑度大小,技能集主题数设置为8,分别为:嵌入式技术、工业设计、测试维护、机器学习、电气控制、信息化管理、软件开发和生产过程,具体结果如表3所示.
3.3 需求矩阵设计
通过LDA对技能集合进行划分,输出每一个技能集从属于不同岗位的概率分布,可理解为该技能集对岗位的重要程度,概率数值越大,则越重要.通过构建需求矩阵来展现不同技能集对岗位的重要程度.
6类岗位簇对应8类技能集,得到一个6×8的矩阵. 将矩阵归一化处理,得到需求矩阵,如表4所示.
定义技能集q对于岗位簇p的重要程度为,当<0.5时,q对p不重要;当0.5≤<1.0时,q对p的重要程度较低;当1≤<1.5时,q对p比较重要;当1.5≤<2.0时,q对p非常重要;当≥2.0時,q对p极其重要. 由此,需求评估结果如表5所示.
4 结论
由于对智能制造岗位的认识不够清晰,高校的人才培养与劳动力市场需求存在信息不对称的问题.本研究采用大数据方法对智能制造行业进行分析,并得出以下结论:
(1) 智能制造岗位可大致分为行业顾问、机械工程师、产品工程师、项目经理、软件工程师及电气工程师共6类. 岗位所涉及技能可大致分为嵌入式技术、工业设计、测试维护、机器学习、电气控制、信息化管理、软件开发与生产过程等8个技能集.
(2) 根据需求评估结果表明,信息化管理技能对行业顾问最为重要,工业设计技能对机械工程师最为重要. 产品工程师与项目经理所需技能较多,对测试维护、机器学习与生产过程均有技能需求. 软件工程师更注重嵌入式技术与软件开发技能,电气工程师则注重电气控制技能.
值得注意的是,本研究的数据来源仅为前程无忧网站数据,结论也仅适用于国内智能制造市场. 为更全面了解智能制造行业的人才需求情况,未来的主要工作方向是拓展数据来源范围,逐步纳入德国、日本及美国等智能制造大国的行业数据,以进行全球性的研究.
参考文献:
[1] 孙尚琪, 秦立光, 潘海军. 新工科背景下学科交叉中的问题与解决思路研究: 以智能制造专业为例 [J]. 科技风, 2023(31):55-58.
SUN S Q, QIN L G, PAN H J. Research on problems and solutions in interdisciplinary crossings under the background of new engineering discipline: taking im major as an example [J]. Science and Technology Wind, 2023(31):55-58.
[2] 曾小芹. 基于 Python 的中文结巴分词技术实现 [J]. 信息与电脑, 2019,31(18):38-39,42.
ZENG X Q. Implementation of Chinese Jieba segmentation technology based on Python [J]. Information and Computer, 2019,31(18):38-39,42.
[3] 吳广建, 章剑林, 袁丁. 基于K-means 的手肘法自动获取K值方法研究 [J]. 软件, 2019,40(5):167-170.
WU G J, ZHANG J L, YUAN D. Research on the Elbow method for automatically determining the value of K based onK-means[J]. Software, 2019,40(5):167-170.
[4] 傅美芬. 基于能岗匹配的人力资源优化配置 [J]. 中国商论, 2018(16):189-190.
FU M F. Optimization of human resource allocation based on job matching [J]. China Business Review, 2018(16):189-190.
[5] 陆振昇, 马超. 基于LDA模型的专利文本主题分析: 以国内元宇宙领域为例 [J]. 科技和产业, 2023,23(11): 85-88.
LU Z S, MA C. Topic analysis of patent text based on LDA model: a case study in the domestic metaverse field [J]. Science Technology and Industry, 2023,23(11):85-88.
[6] 周晓军,罗军, 白丽, 等. 关于智能制造技术研究现状及未来趋势的探讨 [J]. 中国设备工程, 2023(21), 36-37.
ZHOU X, LUO J, BAI L, et al. Discussion on the current research status and future trends of intelligent manufacturing technology [J]. China Equipment Engineering, 2023(21),36-37.
(责任编辑:包震宇,郁慧)
DOI: 10.3969/J.ISSN.1000-5137.2024.02.014
收稿日期: 2023-12-23
作者简介: 刘祺彬(1998—), 男, 硕士研究生, 主要从事机器学习与AI算法工程应用方面的研究. E-mail:1000513394@smail.shnu.edu.cn
* 通信作者: 高祥兰(1975—), 女, 讲师, 主要从事大数据商务管理及机器学习方面的研究. E-mail:gaoxianglan@lidapoly.edu.cn;何凤琴(1977—), 女, 副教授, 主要从事流体控制技术、 大数据和人工智能应用方面的研究. E-mail: hfq@shnu.edu.cn
引用格式: 刘祺彬, 高祥兰, 何凤琴, 等. 基于大数据的智能制造岗位与技能需求研究 [J]. 上海师范大学学报 (自然科学版中英文), 2024,53(2):236?240.
Citation format: LIU Q B, GAO X L, HE F Q, et al. Research on intelligent manufacturing positions and skill requirements based on big data [J]. Journal of Shanghai Normal University (Natural Sciences), 2024,53(2):236?240.