基于就业市场需求文本挖掘的信管专业人才培养探讨

2019-08-21 03:50曾莉蔡毓霞张建桃韦婷婷
现代计算机 2019年21期
关键词:用人单位经验词语

曾莉,蔡毓霞,张建桃,韦婷婷

(华南农业大学数学与信息学院,广州510642)

0 引言

在当今大数据时代,任何一家用人单位都离不开信息技术和专业化管理,用人单位对既懂计算机技术又兼具经济管理知识的复合型人才需求越来越强烈。因此,信息管理与信息系统(以下简称信管)这一多学科交叉融合的专业也应运而生。尽管信管有着多学科交叉融合的专业特色,社会对于这样复合型人才的需求也很强烈,但信管毕业生的就业情况却不容乐观:信管本科毕业生的就业能力已经难以满足当前企业的用人需求,就业现状不理想[1]。

在欧美,诸多大学以iSchool(Information Schools movement)运动为契机进行与信息管理与信息系统专业相关的学科整合和创建,并在此基础上对信管专业的课程体系进行改革和建设,实现面向实际职位职责与技能的培养,提高学生学习的自主性,以此适应信息社会的要求。司莉等人[2]在以美国、英国、加拿大权威网站上的招聘信息为研究对象的网络调研中,发现招聘者对于基本职业素养的要求最重视的是沟通能力,其次是团队协作能力;对于专业技能的要求主要是信息技术、信息组织与利用和信息管理/系统三大类的要求。李玲等人[3]对信息管理与信息系统专业的招聘要求信息进行研究,发现招聘要求中对于数据库运用、编程语言、沟通技能和工作经验都有普遍的要求。因此,高校应该优化学科体系、加强实践教学环节建设和完善就业指导体系,为人才培养提供决策支持[4]。

本文结合网络招聘数据,通过采用当下比较先进的研究方法——文本挖掘[5],对信管专业的招聘信息进行研究分析,为信管专业的人才培养提出有针对性的建议。本文的研究思路如图1 所示,总体上对信管专业人才培养模式研究的流程可以概括为以下三个阶段:数据采集、数据预处理以及数据分析与可视化。

1 研究方法

文本挖掘是从非结构化文本数据中提取有意义信息的算法[6]。基本过程是将文本文档中包含的关键字(或术语)转换为document-keyword 矩阵,这个特别的关键字结构称为关键字向量。基于文档关键字矩阵,应用了聚类、潜在语义分析、情感分析等多种数据挖掘领域[7-8]。在近几年,文本挖掘被普遍应用于数据分析领域,文本挖掘的好处在于能够获得文本中潜在的大量由于各种原因而无法在经典结构化数据格式中获得的有价值信息[9]。

图1 技术路线图

1.1 数据采集

本文首先以“信息管理与信息系统”为关键词,利用八爪鱼爬虫软件制定一定的爬取规则,在前程无忧招聘网站上爬取相关招聘数据共574 条,观察岗位类型及特征,结合信管专业的培养目标,在前程无忧上继续爬取相关数据共计52055 条,其中爬取的字段包括:岗位要求、工作地点、经验要求以及用人单位所属行业等,经数据清洗后剩余32443 条有效数据。

1.2 数据预处理

(1)构建自定义词典:在进行中文分词的过程中,由于某一个词具备的情感或语义在不同的语言情境下表达出的含义不一定相同,可能会有歧义,通过构建自定义词典可以较有效地解决这个问题,将一些不应该被分开的字词组成一个完整的词汇表(即自定义词典),根据不同的设计目的,不断完善自定义词典,此时就会呈现出较理想的分词效果,从而提高后续文本分析结果的质量。

(2)构建停用词表:文本中包含大量无实际意义的词语,如语气词、助词、介词、量词和标点符号等,这些词语对于文本分析来说无实际意义但又会加大分析难度,损耗分析资源,因此需将文本中无实际意义的高频词予以过滤。

(3)中文文本分词:中文文本是由连续的字符串组成文本中的语句信息,为了提取其中隐含的信息和特征项,需要把语句按照一定的规则划分成一个一个的独立词语。此处理过程是建立在构建自定义词典和过滤停用词的基础上来完成,为了达到最准确的分词效果,可通过观察分词结果不断完善自定义词典和停用词表。

1.3 Word2Vec提取文本特征

Word2Vec 模型是一种简单化的神经网络,是由Google 在2013 年提出的一种将词语表示成数值向量的工具[10-11]。Word2Vec 工具将文本中的每一个词以向量的形式表示出来,词向量即词的模型,是文本的基本结构,其凭借良好的性能受到自然语言处理研究者们的青睐。将词向量嵌入一个多维空间,通过训练这些以词向量形式为表现形式的文本,来计算并获得文本中词语间的相似度,对提取关键能力词汇有重要作用。Word2Vec 包括两个模型:CBOW 模型和Skipgram 模型。这两个模型的不同之处在于:CBOW 模型是通过输入某个词语的上下文,来预测出这个特定词语;而Skip-gram 模型是通过输入一个特定词来预测其上下文,由于Skip-gram 模型训练准确度相比CBOW模型更高,因此,本文使用Skip-gram 模型进行研究。

基于分词结果,如何提取出文本的特征并做特定的分析是文本挖掘的关键。Word2Vec 模型可以被用来计算语义相似度,寻找相似词。在引用Word2Vec 模型时,有两个关键的参数,即size 和window,其中size是词向量的维度,默认值为100,参数范围一般在50-300 之间,而window 即词向量上下文的最大距离,在上文中标记为c,参数范围一般在5-20 之间。本研究通过对此模型进行调参的过程以及对该参数下词聚类结果的观察来确定该参数的最优值,最终确定参数最优值为size=50,window=5,模型训练效果较好,词语最大相似度均达到0.9 以上。

2 结果可视化展现及分析

2.1 “岗位要求”字段处理结果

运用Word2Vec 模型提取文本特征后,寻找特定能力词汇的相似词,并使用NLTK(Natural Language Toolkit)算法统计这些词语的词频,利用Python 中封装的wordcloud 工具包进行可视化词云展现[12]如图3 所示。

图3 编程能力需求词云图

由图3 可以看出,目前用人单位对信管专业人才在技术方面的要求主要集中在数据库以及Java、前端开发等;根据词频统计结果,其中与数据库语言相关的词汇占比31.48%,后台开发编程语言中Java 占比多达37.63%,前端开发中涉及到多种框架的运用,由表1 可以看出,对信管专业学生除了专业知识上的要求,还在沟通能力、工作经验、团队合作能力、责任感、学习能力、逻辑思维能力、表达能力、抗压能力等进行多方位考察[13]。

表1 综合能力相关词语的词频统计

图4 其他能力需求词云图

2.2 其他字段数据统计结果

(1)对用人单位性质、规模、行业的统计分析

由图5 可知,对信管专业人才的招聘主要集中在民营单位(占70.36%),其次是外资企业(占9.32%)、上市公司(6.01%)、合资企业(5.90%)、国企(5.70%),其余性质的用人单位占比都不到3%。由此可见,相比之下,民营单位对信管专业人才的需求更大。

图5 用人单位性质分析

从用人单位所属行业来看,由图6 可知,在划分的13 个所属行业中,占据大多数的为IT/互联网行业(占43.50%),其次是通信/电子行业(占14.40%),贸易/批发/零售/快消行业(占6.83%),房地产/建筑行业(占5.72%),制造行业(占5.62%),其余8 个行业占比不到24%,由此可见,信管专业人才可以凭借自己的学术知识和各项技能在IT/互联网和通信/电子行业中寻找更多就业机会。

图6 用人单位所属行业分析

从图7 用人单位规模分析的结果来看,50-150 人规模的用人单位占了32.91%,其次是150-500 人规模用人单位(占24.13%)和少于50 人规模的用人单位(占19.73%),500-1000 人规模用人单位(占10.46%),1000-5000 人规模用人单位(占9.03%),其余大规模用人单位占比不到4%,由此可知,在国家对创业和各种小型企业的发展的鼓励和支持下,小规模的用人单位对人才的需求较大,可以为信管专业人才提供更多的就业机会。

图7 用人单位规模分析

(2)工作地点统计结果分析

在工作地点上,由于所采集的数据中包含了各个地区的招聘信息,此处取排名前十的工作地点做具体分析。由图8 可见,工作地点排名前十的分别是:上海、深圳、广州、北京、杭州、武汉、成都、南京、苏州以及长沙。信管专业人才的招聘工作地点更加集中在北上广深,符合一线城市招聘需求量更大的特点[3]。

图8 工作地点分析

(3)经验要求统计结果分析

由图9 可见,在工作经验要求上,占比最大的是无工作经验要求(占29.95%),其次是要求有3 年的工作经验(占23.16%)、2 年的工作经验(占17.32%),要求有1 年工作经验的和5 年工作经验的相差不大(分别是13.20%和13.12%),要求有8 年和10 年工作经验的占比不到3.26%。由此可见,用人单位对信管专业人才在工作经验要求上还是比较严格的,信管专业的学生需不断实践与充实自身的工作经历,在实践中提升自己的能力,积累经验。

图9 经验要求分析

3 结论及建议

3.1 注重学生编程能力的培养

Word2Vec 模型分析可知,大多数岗位对信管专业学生有编程能力上的要求,如Java、Python、C 语言、PHP、数据库等,由此可知,提升信管专业人才的编程能力有利于提高自身就业竞争力以促进就业。应注重学生编程能力的培养,由于信息管理与信息系统专业多学科交叉融合的特点,若要涵盖各个所有学科的内容,则在有限时间内很难保证学生的深入学习,因此,可以设置学习深度为递进的编程选修专业课,让学生能够根据自己兴趣和就业的方向选择相应的课程去提高编程能力,掌握硬技能。

3.2 重视素质能力的培养和提高

在词频统计结果中发现,用人单位不单需要信管专业学生有专业上的“硬技能”,同时也对沟通能力、执行力、抗压能力、学习能力、思考能力、逻辑思维能力等素质能力有一定的要求。因此,学校应重视课程设置中对学生素质能力的培养和提高,通过改变教学方式,如采用案例模拟、辩论会、小组展示以及学科竞赛等启发式授课方法,激发学生学习兴趣的同时也培养了学生的综合素质能力。

3.3 重视实践经验积累

从经验要求统计结果可知,70%的用人单位对工作经验有一定的要求,说明企业还是比较在意求职者的实践经验。因此可以在增加实践课程的同时积极探究校企合作的方式,为学生争取更多的企业实践机会,重点定位在北上广深等一线城市的IT/互联网和通信/电子行业,为学生提供从实践中提升各项能力的机会,让学生可以拥有更多的机会进入企业锻炼,将课堂上的理论知识应用到实践中。

猜你喜欢
用人单位经验词语
容易混淆的词语
2021年第20期“最值得推广的经验”评选
找词语
关于与特殊岗位劳动者书面劳动合同签订的责任分析
2018年第20期“最值得推广的经验”评选
这32种情形用人单位需向劳动者支付经济补偿金
Can lucid dreams kill you?
集体合同纠纷,用人单位“三不能”
当你遇见了“零经验”的他
一枚词语一门静