贾璇
基于文本挖掘的求职软件顾客评论情感分析
贾璇
(同济大学 经济与管理学院,上海 200092)
网络求职已经成为了当代人最喜欢的一种求职方式。通过利用各类求职软件可以搜索到大量的职位信息和工作机会,这为找工作提供了便利。针对当下最流行的几款求职软件,收集了相关软件的在线顾客评论信息,通过对评论进行特征词提取、制作词云图、语义网络分析和情感极性特征分析,得出了用户对各求职软件使用的情感极性分布,根据分析的结果为各求职软件提出了改进建议。
求职软件;文本挖掘;网络语义分析;情感分析
在快速发展的信息时代,每一个求职者想要找到理想的工作,不再需要参加各类大型招聘求职现场活动,而是仅需将自己的简历上传至网络,通过在各类求职网站上搜索求职信息并进行简历投递,进而等待面试邀请,真正做到了“足不出户找工作”。但是近期发生多起学生通过网络投递简历后求职被骗以及个人信息泄露的事件,这不得不让人们反思网络求职给带来便利的同时,它所存在的一些问题和漏洞。本文选择当下最流行的3款求职软件——BOSS直聘、前程无忧、智联招聘,通过网络爬虫手段获取以上软件的顾客评论,从顾客评论中挖掘出可用信息,发现以上软件的不足之处并进行对比,为相关软件开发公司提出改进建议。
文本挖掘是一个新型的研究领域,主要从大量的、无规则的文本数据中发现潜在的、可能的数据模式、内在联系、规律、发展趋势等,抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程[1]。
文本挖掘技术较成熟地应用于旅游和医疗行业。JOAO G和PAULO R通过对旅游行业的顾客评论进行分析,探索了在顾客评论中,能够为阅读评论的人提供明确建议的驱动因素。熊伟等学者对酒店顾客的在线评论进行词频和情感分析,并结合时间序列分析法预测未来的酒店的发展情况[2]。OKUHARA T等学者应用文本挖掘的方法,对日本HPV疫苗接种危机爆发前后的报纸文章内容进行了检查和比较,为新闻工作者就相关事实的公正报道提出了看法。钱宇星等学者通过对老年在线社区用户的评论进行文本分析,成功划分了老年在线社区用户的信息需求,为利用互联网开展精准的医学教育和科普服务提供依据,优化在线社区服务,吸引和鼓励更多老年人使用网络分享和获取健康信息[3]。
也有学者应用文本挖掘技术,为企业管理提出宝贵建议。张振华等认为社会化媒体发达的环境下,在线评论已成为商业竞争情报的重要来源[4],马文超等利用文本挖掘技术从个体和上市公司群体角度分析了CSR报告,认为文本挖掘技术便利了CSR报告的信息获取,为研究建构CSR报告的本体提供了参考[5]。
综上所述,当前的研究主要集中在实际服务质量改进的研究中,而对更迭速度快的、质量特性模糊的互联网产品质量改进的研究相对较少。
在国内被广泛使用的求职软件主要有BOSS直聘、前程无忧、智联招聘等。笔者对3款软件的顾客评论进行网络爬虫,获取各软件的顾客评论1 000条,并对无效评论(评论中大部分为符号或混乱的词语、语义不清晰)或重复评论(评论中出现多次语句重复)进行了手动剔除。最后剩余的有效评论条数为:BOSS直聘951条、前程无忧985条、智联招聘1 000条。
本文所选择的文本挖掘软件是ROSTCM 6.0软件。该软可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。
在进行分析前,需要对获取的评论样本进行文本预处理。文本预处理的方法主要有分词、去除停用词、词性标注、词频统计等。
本文主要是应用ROSTCM 6.0软件对样本集进行分词和去除停用词预处理,将样本集中的评论变成更加方便研究的、比较干净的评论,为文本挖掘做准备。
本文应用ROSTCM6.0软件对经过预处理的评论集进行特征分析和网络语义分析,归纳出顾客所聚焦的一些产品特性。然后分别围绕不同的产品特性做情感极性特征分析,得出顾客对每个软件的各个产品特性正面、中性、负面评论的占比。
本文采集到的文本数据量较大,可以利用词云图对数据进行可视化分析。词云图是在分词的基础上设计并实现的,是一种将文本中的高频词汇提取并以有趣、高效、新颖的方式呈现给阅读者的一种数据可视化工具。通过观察词云图,可以直观地分析和归纳出顾客所关注产品的焦点和主题。
本文针对3个招聘网站的全部在线顾客评论制作了词云图并进行了分析。在线顾客评论词云如图1所示。图1中文字的大小反映了该词组的词频,间接地说明了顾客所关注的热点话题和产品相关的主题,通过分析可知,顾客对3款软件的关注点主要聚焦在软件、平台、工作、职位、求职、简历、信息、公司、功能等方面。这说明用户比较在意求职软件是否是一个可靠的求职平台,对简历的管理工作是否合理,他们也在意软件提供的职位相关的信息,软件是否好用、功能是否全面。另外,词云图中还体现了一些具有情感偏向的高频词汇如方便、推荐、喜欢、感谢、简单、合适等,这可以说明这些软件能给求职者带来便利,使顾客满意。
图1 在线顾客评论词云
为了对顾客关注的焦点进一步分析,本文使用ROSTCM 6.0软件对3个网站的顾客评论分别作网络语义分析。采用网络语义分析可以得出主要特征词之间、特征与评价词之间的关联关系,为进一步分析评论特征提供重要依据。BOSS直聘评论语义关系网络如图2所示。
从图2中可以看出软件、找工作、招聘、简历等词是网络图的关键节点。进一步分析网络语义图可知,很多正向的评价词比如很好、规范、好的、方便、神器、效率、机会、满意以及减少麻烦等,表现了用户对使用BOSS直聘这款软件求职的满意心理。但图2中也有垃圾、担心受骗、错过、石沉大海等负向评价词,这说明该软件仍然存在一些让顾客不满意的地方。
图2 BOSS直聘评论语义关系网络
前程无忧评论语义关系网络如图3所示。从图3中可以看出软件、找工作、招聘、简历等词是网络图的关键节点,进一步分析网络语义图可知,图中显示了方便、简单、快捷、很好等正向的评价词,表现了用户在使用前程无忧软件进行求职时的满意心理。但图中也有骚扰、垃圾、浪费时间等负向评价词,这说明该软件还存在一些让顾客不满意的地方。
智联招聘评论语义关系网络如图4所示。从图4中可以看出软件、找工作、招聘、简历、平台、职位、方便等词是网络图的关键节点,进一步分析网络语义图可知,图中显示了方便、实用、很好、适合、可靠、称心、值得、快速、感谢、轻松等正向的评价词,表现了用户在使用智联招聘软件进行求职时的满意心理。从图中并不能发现负面的评论词。
通过对3款软件的顾客在线评论进行网络语义分析,可以初步得知顾客对各软件的积极和消极的态度。为进一步分析顾客对软件细节要素的评价,结合词云图和网络分析的结果,将同一主题的词汇合并,可归纳出顾客评论所聚焦的6个主题方向,即软件/平台、企业、招聘、职位/岗位、简历、求职/找工作。
图3 前程无忧评论语义关系网络
图4 智联招聘评论语义关系网络
“软件/平台”方向主要指顾客对软件使用的整体感知情况的相关评论,“企业”方向主要指顾客对软件中招聘企业事项的相关评论,“招聘”方向主要指顾客对软件招聘流程的相关评论,“职位/岗位”方向主要指顾客对软件职位设置事项的相关评论,“简历”方向主要是指顾客对填写和投递简历事项的相关评论,“求职/找工作”方向主要是指顾客对求职流程的相关评论。
本文使用Excel软件将3个网站的评论分别按照6个方向进行提取归类,归类条数如表1所示。
以上各软件不同主题方向评论条数总计均超过了该软件样本容量的80%,这说明所选主题方向可涵盖样本的绝大多数信息。
BOSS直聘评论特征情感极性分布如图5所示。从图5可知,BOSS直聘的“简历”方向的正面评论占比最少,说明用户对于该软件在填写和投递简历等相关事项存在不满意的地方。从具体的评论中可以看出,有的求职者抱怨因招聘人员在软件中一直没有回复消息而导致求职者无法投递简历的设置不合理,也有求职者抱怨投递简历时候不能进行批量投递,还有招聘人员抱怨筛选到的求职简历都长时间未更新。
表1 招聘软件各主题方向的提取评论条数
BOSS直聘前程无忧智联招聘 软件/平台290281415 企业334930 招聘118103148 职位/岗位417173 简历3514235 求职/找工作256176192 总计773822889
图5 BOSS直聘评论特征情感极性分布
BOSS直聘“招聘”方向的负面评论占比最多,说明该软件的招聘流程相关事项存在较多让用户不满意的地方。从具体的评论中可以看出,有的求职者抱怨软件的招聘类目划分不清晰,有的求职者抱怨招聘单位少而乱,有的招聘岗位不真实,有的招聘公司抱怨发布招聘信息时需要注册资金,且经常被无故查封账户。
前程无忧评论特征情感极性分布如图6所示。从图6可知,前程无忧的“招聘”方向的正面评论最少且负面评论最多,说明用户对于该软件在招聘流程相关事项中存在不满意的地方。从具体的评论中可以看出,有部分求职者反映网站上发布的招聘信息都是虚假招聘信息,还有部分求职者表示许多招聘和岗位都已经过期但是一直挂在网上没能得到及时的处理,也有一些求职者反映招聘公司的浏览简历的效率太低甚至不查看简历。
图6 前程无忧评论特征情感极性分布
智联招聘评论特征情感极性分布如图7所示。从图7中可知,智联招聘的“简历”方向的正面评论最少且负面评论最多,说明用户对于该软件在填写和投递简历等相关事项存在不满意的地方。从具体的评论中可以看出,有部求职者反映该软件泄露简历信息,有的求职者反映该软件不能添加多份简历等。
图7 智联招聘评论特征情感极性分布
从上述分析中可以得出以下结论:①智联招聘是好评率相对最高的软件,各个方面的好评率都相对较高。但是在简历方向的负面评论相对其他方向较多,该软件公司需要听取顾客的声音,并进行相应的改进。②BOSS直聘软件的中评相比于其他两款软件占了很大的比例。对于BOSS直聘软件公司,应该积极关注中性评论用户使用软件的情况,努力争取让多数中性评论客户转变成正面评论客户,相比于让负面评论的用户转变成正面评论的用户更容易。③前程无忧是差评率相对最高的软件,对于前程无忧软件公司,应该主要关注负面评论的用户需求,尤其是“简历”和“招聘”两个方
向,应作为软件改进的首要突破口。
[1]郑双怡.文本挖掘及其在知识管理中的应用[J].中南民族大学学报(人文社会科学版),2005(4):127-130.
[2]熊伟,郭扬杰.酒店顾客在线评论的文本挖掘[J].北京第二外国语学院学报,2013,35(11):38-47.
[3]钱宇星,周华阳,周利琴,等.老年在线社区用户健康信息需求挖掘研究[J].现代情报,2019,39(6):59-69.
[4]张振华,许柏鸣.基于在线评论文本挖掘的商业竞争情报分析模型构建及应用[J].情报科学,2019,37(2):149-153,160.
[5]马文超,吴商硕,黄麒,等.基于文本挖掘技术的企业社会责任报告研究[J].中国市场,2018(4):16-18.
TP311.10
A
10.15913/j.cnki.kjycx.2019.17.001
2095-6835(2019)17-0001-04
贾璇(1993—),男,同济大学经济与管理学院硕士研究生。
〔编辑:张思楠〕