张晓孪 王西锋
摘 要: 随着互联网技术的应用,大量求职者期望能从招聘网站中快速、精准获取有用信息,因此分析并抽取这些网站中的招聘信息具有实际应用的价值。针对Web信息抽取技术在招聘信息系统中的应用,提出了一种基于语义的Web招聘信息抽取的方法,首先是构建主题蜘蛛程序抓取网页,然后对预处理过的网页中的命名实体进行识别。经测试采用本文提出的方法进行信息抽取是可行的,命名实体识别的准确率和召回率能达到71%以上。
关键词: 语义; Web招聘信息抽取; 蜘蛛程序; 命名实体识别
中图分类号: TP391
文献标志码: A
文章编号:1007-757X(2019)06-0069-02
Abstract: With the application of the Internet technology, a large number of job seekers expect to obtain useful information quickly and accurately from the recruitment Website. That the recruitment information extraction provides for the majority of job seekers correct employment information is of great importance. Aiming at the application of Web information extraction technology in recruitment information system, this paper proposes a Web recruitment information extraction method based on semantic. The first is to build a topic spider program to crawl the Web page, and then to identify named entity from pre-processed Web pages. After testing, it is feasible to use the method proposed in this paper to extract the information, and the accuracy and recall rate of named entity recognition are all above 71%.
Key words: Semantic; Web recruiting information extraction; Spider program; Named entity recognition
0 引言
隨着互联网技术的应用与普及,越来越多的企业与公司通过网站发布相关招聘信息,这种招聘方式显现出信息量大、信息增长速度快和信息处理难度大等弊端,解决这些问题的关键就是从网页中抽取出人们感兴趣的信息。面对这些海量招聘信息,大量求职者期望能从这些网站中快速、精准的获取有用信息,对他们求职提供参考,因此招聘信息抽取为广大求职者提供正确的就业信息有着非常重要的意义,具有实际应用的价值。
虽然国内外学者已对网络招聘系统做了大量研究,但是却很少涉及对网络招聘信息的抽取、挖掘和分析。本文针对Web信息抽取技术在招聘信息系统中的应用,提出了一种基于语义的Web招聘信息抽取的方法,其目标是将分散在海量Web页面中的动态变化的招聘信息抽取出来,以结构化、语义清晰的形式提供给求职者,帮助求职者正确了解当前的就业趋势,尽快找到称心满意的工作,并进一步提高网络信息中数据的利用率。
1 相关工作
随着网络招聘系统的普及,网络招聘的信息也越来越多,目前国内学术界对网络招聘信息抽取的研究不多,大多是网络招聘系统的研究以及网络招聘的现状和优劣势的研究[1]。王孟頔[2]提出了一种基于VIPS视觉分割算法,利用网页所呈现出来的布局结构和视觉特征,对招聘页面进行视觉分割处理。陈建辉[3]提出一种基于模式发现的在线招聘信息抽取器设计框架,实现招聘信息的自动抽取。俞琰[4]提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,为每个抽取域生成一个隐马尔可夫模型HMM,用于获取更多的有用信息。
由于网页本身在某种程度上具有一定的结构,Web信息抽取不同于对普通文本的抽取。很多的网页基本上都遵从万维网联盟W3C制定的文档对象模型(DOM)树型结构标准,从而降低了Web信息抽取工作的难度[5]。有关中文信息抽取研究起步较晚,并且由于汉语本身的特点,以往的研究工作主要集中在对同一领域信息的抽取,传统的信息抽取方法由于缺少语义信息的支持,抽取的准确率不高,系统的扩展性和可移植性比较差,跨领域抽取大多数采用基于统计的方法,缺少对抽取文本的理解,抽取质量不高[6]。
2 Web招聘信息抽取的关键技术
由于各个招聘网站的结构各异,形态多样,传统的Web信息抽取方式,如基于HTML结构的方式以及包装器归纳方式就显得力不从心,所以本文研究采用基于自然语言理解的方式进行Web信息抽取。本文进行信息抽取的步骤为:首先构建网络蜘蛛Spider,“爬行”WWW上的若干招聘网站并抓取相关网页;然后由基于自然语言理解的信息抽取模块将Spider抓取的网页抽取成结构化信息并存入数据库;最后将用户所关注的招聘信息清楚地显示在界面上。
2.1 构建主题网络蜘蛛程序
网页蜘蛛又称为网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络蜘蛛的工作原理是从网站某一个页面开始读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫(主题网络爬虫)、增量式网络爬虫、深层网络爬虫[7]。主题蜘蛛能够定向性地采集和主题搜索范围相关的网页,忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页优先采集。考虑到抓取招聘网页的效率,本文在传统网络蜘蛛的基础上对其进行功能上进行扩充,实现搜索专业化,增加主题确立模块和主题相关度分析模块,设计实现主题型蜘蛛。主题确立模块主要功能是通过学习样本网页来确定用户所要抓取的主题,并将主题内容以文本形式保存,以便在实际的网页采集过程中作为判断网页和链接是否与主题相关的标准。主题相关度分析模块是系统的核心模块,它将获取的网页进行内容分析,提取页面内容进行网页主题相关度计算。
本文选择多家招聘网站首页,如拉勾网、中华英才网、中国人才热线和前程无忧等作为样本网站里的网页进行分析,自动提取这些网页里面的关键词并根据关键词在网页中出现的次数计算其权值,最后综合各样本网页的关键词,确定出一组能够代表主题的特征词。
2.2 网页预处理
对于常见的人才招聘網站来说,由于页面上除了招聘信息外,一般都有许多其他“噪声”信息。蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScript程序等无法用于抽取的内容。网页预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于信息处理的网页面文字内容。目前Web上的数据大部分都是以HTML形式出现,主要目的是为了显示,让人通过浏览器浏览,缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确。首先对蜘蛛程抓取的网页HTML/XML标签过滤,在过滤结束标签时加上段落分隔符就可以保留半结构化文本特征。其次是进行分词和停用词处理,本文选用中科院计算所汉语词法分析系统ICTCLAS作为词法分析组件,在ICTCLAS基础上,把它简单的封装成一个库,只保留段落的词法分析功能,并将分词结果输出为XML格式,便于后面信息抽取模块处理。
2.3 命名实体识别
命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中3个大类、7个小类命名实体,识别过程包括实体边界识别和确定实体类别。本文Web招聘信息抽取主要对预处理过的网页中的组织机构名、招聘职位名进行识别,具体识别过程如下:
(1) 组织机构名的识别:通过分析组织机构名的语法和构成方式,发现组织机构名的形成过程是一个具有词性选择的随机性和词语选择的随机性两个特征。组织机构名形成了一个隐马尔可夫链,并且该链具有两个层面的随机性特征,可以用词性的转移概率和词语的转移概率共同描述组织机构名的生成概率。形式化描述如下:
(2) 招聘职位名的识别:对职位名识别需要构造一个识别资源职位名列表,对待处理文本中出现的职位名根据职位名列表进行匹配,根据职位名核心词进行职位名识别的方法可以通过半结构化文本的特点以及职位名词法信息和某些关键性词的提示。职位名识别算法描述如下:a) 需要构造一个识别资源职位名列表,该列表可从网上搜集得到并进行完善,共有521条职位名。对待处理文本中出现的职位名根据职位名列表进行匹配,如果匹配成功,则保存识别出来的职位名;b) 再次以职位名核心词为驱动在文中遍历,根据文本中的分隔符进行职位名的识别;c) 通过词法信息和关键词的提示对识别出的职位名进行排除,然后与步骤a识别出的职位名相比较,如果不重复则保存该职位名,并重复步骤b和步骤c,直至职位名核心词表为空。
3 系统实现与测试
本系统处理流程为:首先是由Spider开始抓取招聘网站的网页,然后将保存的网页预处理后进入信息抽取模块,在知识库和规则库的辅助下识别出的命名实体并保存在数据库中。在测试阶段,选择网络爬虫抓取的500个网页的作为测试数据,其中招聘信息有231条(没有完全选取招聘信息是为了客观衡量识别的正确率),组织机构名有 242个,职位名205个(含重复)。评测标准使用正确率和召回率两个评测指标,测试结果如表1所示。
通过上面的一系列测试可以看出,系统的信息抽取的准确率和召回率均在71%以上。在界面呈现部分还提供了必要的提示信息,如显示给用户信息源的URL,便于用户进行重点关注。总体来说它可以满足人们的在Web招聘信息获取方面的基本需要。实验结果表明,本文提出的基于语义的招聘信息抽取技术能够有效抽取出招聘页面内重要的文本信息,优化了信息抽取结果。
4 总结
随着信息技术的普及和发展, 网络已成为招聘信息的重要来源。网络招聘、网络求职日趋流行,通过互联网进行招聘、求职对降低招聘、求职成本, 提高成功率起了重大的作用。网络招聘信息抽取是从半结构化的Web海量招聘数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。下一步的研究内容是采用新的模式发现的方法获取抽取规则, 使整个半结构化数据的抽取过程简化,且人工干预降低到最少,进一步提高信息抽取的质量。
参考文献
[1] 赵丹. 网络招聘信息的分析与挖掘[D]. 贵州:贵州财经大学, 2017.
[2] 王孟頔, 邰泳. 基于VIPS的职位信息抽取技术研究[J]. 软件导刊, 2015, 14(9): 22-24.
[3] 陈建辉, 刘利民. 基于模式发现的在线招聘信息抽取[J]. 微计算机信息, 2006, 22(9): 194-196.
[4] 俞琰. 基于隐马尔可夫模型的招聘网络信息抽取[J]. 北京电子科技学院学报, 2008, 16(4): 93-98.
[5] 李汝君, 张俊, 张晓民,等. 健康领域Web信息抽取[J].计算机应用, 2016, 36(1): 163-170.
[6] 杨选选, 张蕾. 基于语义角色和概念图的信息抽取模型[J]. 计算机应用, 2010, 30(2): 411-414.
[7] 孙立伟, 何国辉, 吴礼发. 网络爬虫技术的研究[J]. 电脑知识与技术, 2010, 6(15): 4112-4115.
(收稿日期: 2018.06.20)