罗仁芝 向光军 赵勇超 刘江云
摘要:该课题使用Python语言抓取某招聘网站上人工智能岗位信息,实现用代理隐藏爬虫;抓取到的数据存储到MYSQL数据库中,使用百度Echarts基本图表,生成饼图,通过Flask发布可视化报告。通过可视化报告,可直观的看出目前该岗位在全国范围内岗位需求的分布等情况,对还未择业大学毕业生以及将要毕业且想从事计算机专业的高中生能够给出有价值的参考数据,帮助对人工智能专业感兴趣的学生明晰自己的就业方向或就读方向。
關键词:人工智能岗位;岗位爬取;Python;Mysql;Echart;Flask
1 引言
随着数据科学的迅速发展,越来越多的应用涉及到大数据,而这些大数据的属性,包括数量、速度和多样性都呈现出了大数据不断增长的复杂性。大数据的获取和分析显得尤为重要,作为应聘者,无数的招聘网站上充斥着各种各样的职位信息,如何更高效率更准确的获取的我们所需要的信息就变得十分的重要,因此我们需要一种能自动获取网页内容并可以按照制定规则提取相应内容的程序,更加有针对性的去分析自己所需要的数据。
基于招聘网站设计的人工智能岗位数据可视化分析研究是为求职者提供查找、分类、存储功能的信息爬取系统,它具有开放体系结构的、高效率、速度快的优点。它克服了存储网站信息,查询效率低下等问题,更重要的是其便捷性,可靠性。它实现了招聘网站信息爬取的自动化。它为求职者提供准确、精细、实时的职位信息,便于求职者对于职位信息、企业岗位进行了解,提高了求职者的求职效率。
该系统使用高级程序设计语言Python,集成开发环境为当下流行的Pycharm,数据库使用了开源数据库MYSQL8.0,使用百度Echarts基本图表,生成饼图和柱形图,通过Flask发布可视化报告。
笔者在此也特别强调,该课题中使用的爬虫技术仅用于课题研究,不会作为他用。
2 系统分析及实现
2.1 系统分析
2.1.1 可行性分析
课题负责人从事计算机技术和数据分析的研究,课题组全体成员都在从事计算机方面的相关研究工作,也都从事过计算机数据分析方面的研究,并有成果发表和被引用。虽然都有一定的教学任务,但是课题组成员在时间上绝对有保证来完成本课题。课题组全体成员都拥有从事科研工作的基本物质条件,例如,电脑、上网条件、信息交流非常方便。另外,课题组所属的楚雄师范学院数计学院,在设备、时间等方面对于本课题都会提供最大的支持。
2.1.2需求分析
基于招聘网站设计的人工智能岗位数据可视化分析研究的目的是为了用户更方便查找职位信息,可以做到通过爬取系统进行职位信息的查看以及存储,系统具备以下功能:
1、职位爬取功能:从人才网上爬取关于人工智能岗位的数据库信息;
2、数据存储功能:将爬取下来的招聘信息存储到MySQL数据库中;
3、信息展示功能:将查询结果以更加直观的以图形化方式展示在用户面前以便用户进行分析。
2.1.3 系统流程分析
(1)系统操作流程:首先用户启动爬虫模块后,将会从人才网上爬取关于人工智能岗位的信息,然后保存到MySQL数据库,在从MySQL数据库中搜索职位信息。
(2) 保存职位流程:在保存爬取的职位信息时,数据库中的主键采用自增长属性,不需要用户填写,会将爬取到的数据保存到MySQL数据库中。
2.2系统设计
2.2.1系统总体模块设计
基于招聘网站设计的人工智能岗位数据可视化分析研究的总体模块设计如图2-1所示。
2.2.2数据库设计
概要设计
基于python的招聘网爬取系统的功能设计,首先要建立它们之间的关系,然后实现逻辑结构功能。基于python的招聘网爬取系统可以划分的数据库实体有如图2-2所示。
2.3详细设计与实现
2.3.1 爬虫
启动爬虫模块后会将招聘网上的人工智能岗位的招聘信息一条条的爬取下来,然后通过解析出职位名称、薪资、人数规模、经验要求、地区、学历、公司、更新时间、类型等字段,插入到数据库中的rgzn数据库表中保存起来。
2.3.2 登录
使用本地回环地址如:http://localhost:5000,输入用户名和密码登录到后台web网页中。当点击“登录”按钮时会验证密码是否正确,错误时提示信息,只有匹配成功后方可登录成功。
2.3.3 职位统计
点击“图表”按钮后,可以查看到各个地区的职位信息和岗位数图,如图2-3、2-4和2-5所示。因最终计算出的数据是按照降序来排列的,从饼状图中我们可以清晰的看到该岗位需求最多的地区是:深圳、上海、武汉、天水和广州,可以看出,在上述地区,提供的岗位较多,就业机会也相对较多。当然因岗位信息每天都在更新,每次爬取的数据都是不一样的。
2.4系统功能测试
编写测试用例,对照测试用例经过一系列的测试,测试了爬取岗位信息和图表可视化两大模块。各个模块在整个系统中都能完成各自的功能,相互之间的连接也很顺利。经过测试整个系统的功能都达到了预期的要求。在测试过程中发现的程序错误等也得到了及时的解决,从而保证了后期系统的稳定运行。
3 总结与展望
3.1 总结
基于招聘网站设计的人工智能岗位数据可视化分析研究最终实现了开题报告中原定设计功能。但有很多地方需要加强,比如对基础理论知识理解得不够透彻、分析需求、建模和编写代码的能力不足等。
3.2 展望
虽然该课题已经完成,但是还有很多问题需要在今后的学习过程中解决。
其一,更充分的认识到Python的应用确实是当下较为容易入门和掌握的开发模式。可并没有能完全的掌握这种开发方式的优势,未能发挥其全部能力,甚至只是用的它的冰山一角。需要更深入的学习才能在今后的工作中有更好的发挥。
其二,在Python爬虫编程应用上必须通过进一步的研究来完善这一方面的知识,才能脱离现在只能对其进行浅层次的应用的现状,以实现更多更好的系统功能。
参考文献
[1]火星超人. Python番外篇:让编程更方便[J]. 少年电脑世界, 2019(3).
[2]黄海涛.Python3破冰人工智能从入门到实战[M].北京:人民邮电出版社,2019
[3]Akeret J , Gamper L , Amara A , et al. HOPE: A Python just-in-time compiler for astrophysical computations[J]. Astronomy and Computing, 2015, 10:1-8.
[4]左卫刚. 基于Python的新闻聚合系统网络爬虫研究[J]. 武汉船舶职业技术学院学报, 2019, 000(001):122-125,130.
项目名称:2020年楚雄师范学院立项课题:基于招聘网站设计的人工智能岗位数据可视化分析研究(编号:XJYB2003)。
作者简介:罗仁芝(1982-),女,云南省禄劝县人,楚雄师范学院,本科学历,讲师,研究方向:计算机应用、数据分析。