牛雨晨 郭思妙 周俊敏 陈彦君
DOI:10.16660/j.cnki.1674-098x.2011-5640-5706
摘 要:本文立足于南京江北自贸区在芯片产业上的痛点—人工智能芯片,在招聘方法的基础上,提出一种基于数据挖掘、文本主题提取、文本聚类分析等技术实现寻找、匹配合适人才的新模型:技术—专家模型。企业通过技术关键词可以直接查询对应人才的相关信息,通过知识图谱使技术-专家模型可视化,通过构建网站实现人才与企业双向匹配,从而更好地开展人才服务。
关键词:知识图谱 人才服务 数据挖掘 南京江北自贸区
中图分类号:c964 文献标识码:A 文章编号:1674-098X(2021)01(c)-0247-04
Research on Talent Service Based on Knowledge Graph —Take Jiangbei Free Trade Zone in Nanjing as an Instance
NIU Yuchen GUO Simiao ZHOU Junmin CHEN Yanjun
(School of Economy and Management, Nanjing Tech University,Nanjing,Jiangsu Province,211800 China)
Abstract: This article takes the shortfalls of chip industry in Jiangbei New Area:artificial intelligence chip, as an example. On the basis of the previous recruitment methods, this project proposes a new method to find talents with data mining, text subject extraction and text cluster analysis to establish technology—expert model. Enterprises can directly find professional talents who are good at the technology by technical keywords. The Knowledge Graph is established to visualize the model. In addition,we will establish a talent service website with the functions of retrieval and data analysis to realize the bidirectional matching between enterprises and professional talents so as to improve the level of talent services.
Key Words: Knowledge Graph; Talent service; Data mining; Jiangbei Free Trade Zone in Nanjing
2019年,中國(江苏)自由贸易试验区南京片区(简称江北自贸区)正式成立,大力发展芯片产业。目前自贸区内芯片产业已初具规模,但在人工智能芯片、大规模集成电路等领域仍存在技术难题,需要大量技术人才参与,因此,自贸区出台了一系列人才服务政策来推动人才引进。
目前企业主要通过公开招聘、内部推荐、参加行业峰会等传统方法引进人才,具有很大的局限性。第一,耗费较多时间与精力;第二,对人才全面考察的程度较浅,难以全面遴选人才;第三,寻找人才的范围较为狭隘。已有的商业招聘网站主要针对普通人才,在寻找高端人才方面仍存在较大的空白。本文针对南京江北自贸区芯片企业高端人才引进机制的痛点,提出一种运用大数据技术寻找高端人才的新模型,即建立技术-专家模型,企业通过技术关键词能够直接找到擅长该项技术的人才,了解其详细信息,并通过构建知识图谱将该模型可视化。该模型旨在挖掘专家与技术间的深层次联系,降低企业遴选专家的成本,提升企业与专家合作的深度和广度,进而促进自贸区集成电路产业的发展。
1 相关研究
挖掘技术与专家间的深层次联系,历来是数据分析领域的热点研究主题。已有的研究成果主要集中在技术与专家间的联系(专家知识网)、专家间的联系(专家聚集网)两方面。专家知识网方面,清华大学计算机科学与技术系教授唐杰率领团队建立了科技情报大数据挖掘与服务系统平台AMiner[1],构建科研人员、科技文献、学术活动之间的关联关系,支持学者、论文文献等学术信息资源检索以及面向科技文献、专利和科技新闻的搜索、分析等。专家聚集网方面,香港城市大学马建团队的科研人员专业社区网络服务平台——科研之友[2],支持跨文献库检索和保存科研论文成果、文献和文件,与好友和群组共享信息和科研合作。
2 构建技术-专家模型
2.1 模型简介
2.1.1 研究意义
本文在已有研究成果的基础上,提出构建技术-专家模型。该模型除专家聚集网、专家知识网外,增加了知识聚集网,提高了文本分析的精度。此外,深度学习提升了技术与专家之间的关联的准确性,提高了企业通过特定技术寻找到擅长该项技术的专家的准确性;语义关联则分析专家之间的联系,从而实现相似专家智能推荐功能,进一步扩大了企业寻找专家的范围。模型运用互联网与大数据分析技术,极大地降低了企业寻找人才的成本。
2.1.2 构成
技术-专家模型由技术的内在联系(技术聚集网)、技术与专家的联系(专家知识网)、专家间的联系(专家聚集网)三部分构成,见图1。技术的内在联系指不同的技术关键词可以共同实现某项成果;技术与专家的联系指通过某个技术关键词可以找到擅长该项技术的专家;专家之间的联系指共同合作成果较多的专家组合。
2.2 人才分类
根据人才取得成果类型的不同,将人才分为研究型人才和应用型人才两种。理论型人才通常为知名高校教授、研究所研究员等从事理论研究的人才,通过分析文献数据得到;实践型人才为在相关技术领域拥有多项发明专利的人才,通过分析专利数据得到。对两种人才考虑采取不同的合作方式,研究型人才考虑远程合作、研究成果共享等;应用型人才则考虑引进本地。挖掘两种人才的过程类似,本部分以挖掘研究型人才为例,对整个过程进行说明。
2.3 数据处理
数据处理的目标是获取数据并缩小文本主题,由与“人工智能”或“芯片”有关的文献提取出主题是“人工智能芯片”的文献。同时减小文本数量,将每篇文献抽象为一个文献信息列表。
2.3.1 数据获取
在英文文献数据库SpringerLink中同时检索“人工智能”和“芯片”两个关键词,得到与“人工智能”或“芯片”有关的文献。下载搜索结果,字段包括标題(Title)、作者(Authors)等字段,得到共计847条搜索结果。对搜索结果进行作者词频统计,原理是作者的出现频数与该作者的研究领域和“人工智能芯片”的关联性成正比。这样,过滤掉那些发表文献数量过少的作者的论文,可缩小文本主题范围。
2.3.2 LDA提取摘要主题词
在文献数据库中爬取每一位高频作者的全部摘要和关键词。用LDA文本主题模型提取摘要的主题词,减小文本数量,将每篇文章抽象为一个包含LDA主题词和关键词的文献信息列表。运行LDA的步骤如下:第一步,对摘要预处理,去掉停用词、标点;第二步,创建语料的词语词典,每个单独的词语都会被赋予一个索引,使用该词典将语料转换成DT矩阵。第三步,创建LDA模型对象并在DT矩阵上训练LDA模型。第四步,设置参数主题数量n、表示主题的词数m,得到反应出n种与可能主题相关的m个原文中的词的多项式。第五步,对提取结果进行数据清洗,去掉无关字符,只保留单词,即原文中反映文章主题的词[3]。本步共得到3501篇文献的文献信息列表。
2.4 提取技术词
通过数据处理对数据做了初步分析,提取出与“人工智能芯片”有关文献的主题词和关键词,但粒度较粗,结果中仍包含一些无关文献。因此,需要对数据进行进一步分析,提取出反映“人工智能芯片”相关技术的关键词。此外,与“人工智能芯片”有关的技术关键词分为不同类别,如“芯片制造”、“芯片设计”等与硬件相关的技术词,及与“算法改进”等软件算法有关的技术词,每一类的技术关键词差异较大,应当分类提取、分析。采用K-means聚类算法对每篇文章根据LDA提取的主题词进行分类,对每一类中的每一篇文献,通过主题词在文献信息列表中匹配其对应的关键词,若上一步爬取时没有爬取到关键词,则取TextBlob算法提取的摘要中的词组作为关键词。分别对每一类的技术关键词通过TF-IDF算法提取出高频词,作为每一类的技术关键词[4]。
将每篇文章的LDA提取的主题词转换为一个词袋向量,并进行降维处理转换为二维向量,缓解维度灾难。接着通过K-means算法聚类提取出“与人工智能芯片技术有关“的文献,并分类提取分析技术关键词。K-means将每一篇文献根据词袋向量间的文本相似度分成不同的类别,参数为分类数k,采用欧氏距离计算文本相似度。因为程序每次随机选择的质心不同,所以每次分类结果有细微差异。设置分类种数k=4,运行算法,经过平均10次迭代,得到聚类结果如表1所示。
每类中权数较大的前5%的词为候选技术关键词。相同类别的技术关键词反映了人工智能芯片有关技术中的某个子技术类,这些技术协同合作可共同实现该子技术类的成果,因此,可推导出技术-专家模型中技术间的联系,即不同的技术关键词可以共同实现某项成果[5]。
2.5 人才画像
依次在文献数据库中搜索上一步得到的技术关键词,对作者出现次数进行词频统计,选取每个技术关键词发表文献数量较多的作者为某一类技术的人才。依次搜索这些人才的全部文献,爬取这些文献的关键词,进行词频统计并计算权重,得到人才技术画像,推导出技术-专家模型中专家与技术间的联系(专家技术网)。爬取每一位人才的全部合作作者,根据频数计算权重,推导出该模型中专家间的联系(专家聚集网)。
2.6 挖掘实践人才
一项专利的申请人一般是公司,而发明人一般是在该公司工作的个人。通过这个特点,在专利数据库中,将人工智能芯片行业前十强的企业作为专利申请人,查找专利发明人,可以实现行业顶尖企业——专利——人才的寻找过程。以专利号作为技术关键词,建立人才画像,下载分析结果,最终,合计建立了309个人才画像。
3 技术-专家模型的应用
3.1 人才与技术的关联
通过浅层联系进行推断,进一步挖掘没有从文本分析中挖掘出的人才与技术间的深层联系。例如,技术间的联系是,FPGA与MPSoc同属一类技术词,技术与人才间的联系是专家A擅长FPGA,人才间的联系是人才A与人才B有多项合作专利。若某企业需要寻找擅长MPSoc的人才,但通过文本挖掘没有找到这类人才,通过上述联系,可推导出人才B有一定的可能性擅长MPSoc[6]。
3.2 知识图谱可视化
完成人才画像后,可以对研究型专家与应用型专家建立专家知识图谱,对两类专家的专家知识网、专家聚集网、技术聚集网分别建立。专家聚集网、技术聚集网为一层结构,结点分别为专家和技术,专家知识网为二层结构,第一层结点为技术关键词,第二层结点为人才,展开关键词结点可以显示擅长该技术的所有人才。两个结点间连线的粗细与该结点间联系的紧密程度成正比。这样用户可以有选择性地查看技术-专家模型中的部分节點,实现该模型的可交互可视化。
3.3 构建专家与企业双向匹配的网站
作为对模型的实际应用,建立一个促进专家与企业双向匹配的网站。网站功能分为两部分:第一,企业寻找专家。公司可以自己选择检索数据库的类型,在网站首页将技术关键词、专利号分类、文献名、作者等输入到自定义搜索字段,网站将调用一系列算法,输出擅长该项技术的专家,同时提供一系列可视化图表。第二,专家寻找企业,如果会某种技术的专家想找一个公司与其合作,在搜索栏中输入技术名、企业即可,使专家能够更好地寻找企业。网站还支持企业发布技术需求与专家发布简历,网站首页可根据搜索历史智能推荐专家或企业。这样,本网站能够成功地帮助实现企业与专家间的双向匹配,实现了技术-专家模型的实际应用。
4 结语
人才的引进对江北自贸区的发展有着至关重要的作用,是一个长期、发展的过程。本文提出的技术-专家匹配方法仍在实践使用中。后续计划将这种方法的使用范围从集成电路行业扩展到其他行业,从江北自贸区逐渐扩展到全国其他地区。
参考文献
[1] WAN HUAIYU,ZHANG YUTAO,ZHANG JING,etal. AMiner: Search and Mining of Academic Social Networks[J]. Data Intelligence,2019:58-76
[2] JIAN MA, WEI XU, YONG-HONG SUN,etal.An Ontology-Based Text-Mining Method to Cluster Proposals for Research Project Selection[J]. IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART A: SYSTEMS AND HUMANS, 2012 ,VOL. 42, NO. 3:784-790
[3] 刘昕,白婷婷,张淯舒,等.基于 EA-LDA 算法的领域知识图谱潜在关系扩展[J]. 计算机工程,2020
[4] 张斌.交叉学科主题探究:从主题聚类视角[J]. 情报科学,2020(38):49-55.
[5] 郑飞,韦德壕,黄胜.基于LDA和深度学习的文本分类方法[J].计算机工程与设计,2020(8):2184-2189.
[6] 朱光,刘蕾,李凤景. 基于LDA和LSTM模型的研究主题关联与预测研究——以隐私研究为例[J].现代情报,2020(8):38-50.