张 波
(天津电子信息职业技术学院,天津 300312)
采用爬虫技术,针对性收集了某知名招聘网站软件技术类聘任岗位数据,并保存在结构化数据库中。根据数据库中的原始数据,按照相关信息准确和完整性要求,建立清洗规则,并进行数据初步清洗。
图1 系统工作过程示意图
数据清洗完毕后,利用高频词分析手段,分析高关注的技术和能力核心词汇,得出量化高频词汇表及对比结果,用于确定核心岗位。
根据核心岗位相关高频词汇,对现有数据筛选,形成筛选结果。然后根据岗位描述信息,针对各目标岗位展开自然语言词句分析,形成岗位能力描述。
爬取数据部分采用成熟的Scrapy架构,结合报头自定义和IP代理池实现。主要爬取如下信息:
数据初步清洗采用拟定词语规则的方式,主要清洗了岗位名称过短和非岗位名称等情况。
高频词分析利用TextRank算法,利用结巴模块和Count模块,量化得到各专业技术高频词数量,按照连续3个月的结果,排序决定各岗位主要技术能力方向。
表1 爬取信息表
数据筛选主要使用同义词库归并相似岗位,并筛选描述中包括高频词的岗位描述记录。
利用WordVector等自然语言处理技术方式,进行岗位能力部分的挖掘和提取。
该系统采用了目前自然语言分析的诸多高新技术实现,实现了从以前人工手段岗位调研向半自动岗位调研的方式,节省了大量人力物力,并且数据客观性凸出,为高校专业人才培养方案调整积累了最有价值的数据。
本文重点描述了职业院校人才培养岗位能力挖掘系统的基本工作过程,给出了主要技术和手段,归纳出了技术优势和价值。该系统为职业院校人才培养岗位能力整理建设给出了重要参考,并为职业院校专业人才培养方案的建立提供重要支撑。