基于实体与实体关系的智能人才推荐系统研究

2011-05-30 00:37
关键词:求职者结构化文档

胡 敏

(中国人民解放军通信指挥学院 基础部军事高技术教研室,湖北 武汉 430010)

随着互联网的普及和发展,推荐系统组建成为IT技术的一个重要研究内容,得到了越来越多研究者的关注[1].推荐系统是将数据挖掘技术应用到web智能领域的范例[2].随着web网站的应用,数据库中可以收集到大量的用户数据,这些数据中蕴涵着丰富的知识,基于数据挖掘的推荐系统通过数据挖掘技术对用户行为和用户属性进行学习,从中获取有价值的知识,根据得到的知识产生推荐[3].

本研究主要是针对人才的推荐系统.中国研究生人才网[4]成立于2001年,是国内第一家由教育部直属高校联合组建的研究生就业与人才服务平台,在2010年3月21日进行过一项就业问卷调查,调查结果显示,70%的研究生人为目前就业形势严峻,很难找到适合的工作.由此可见,现今社会,由于社会信息化的加快和各用人单位对人才的需求层次的提升,一方面,大学生、研究生毕业后工作就业难的问题依然存在;另一方面,招聘单位却往往招不到适合的人才.因此如何消除这个鸿沟,提高人才推荐的准确度是研究生人才推荐系统面临的一个难题.为此,设计并研发了基于实体及实体关系提取的智能人才推荐系统以期满足网络人才推荐的实际需求.

图1 智能人才推荐系统设计

1 智能人才推荐系统的体系结构设计

该系统总体设计流程分为三个阶段(见图1).

1)人才数据收集:包括非结构化的个人简历、求职信、推荐信等各种文档,以及包含毕业生姓名、年龄、毕业院校、所学专业等结构化的数据库;

2)人才数据自动建库:从人才数据中由自动提取实体以及实体之间的关系,并在此基础上构建人才知识库;

3)人才-单位智能推荐:利用建立的人才知识库,针对不同的招聘单位智能地推荐合适的人才.

1.1 数据收集与整理

全国800余所高校、科研院所和100余所海外机构的人才资源信息.这些信息主要包括毕业生的基本信息如姓名、性别、年龄、所在院校、所学专业等.这些结构化的信息主要是以数据库的形式存放.此外,还有大量的非结构化的信息,比如毕业生的个人简历、求职信、推荐信等等.对于结构化的数据,因为它们已经是结构化的,所以对于这些结构化的数据的收集与整理相对要容易得多.相较而言,非结构的数据的整理要困难的多.因为,这些数据以多种不同的文档格式存放,比如,Word、Text、 PDF和Email等等.为此,首先需把这些不同格式的数据统一转换成Text文档,并保存在文件系统中,为后继的自动提取工作做准备.

1.2 实体关系人才知识库的构建

对于非结构化文档,比如个人简历,它包含了求职者所参加过的项目、所有的实习经历、个人兴趣爱好、学习成绩、所学核心课程等大量的有用信息.这些信息对于招聘者来说往往是最有用的.因为招聘者从这些简历中可以基本判断出该求职者是否具备他们所需要的基本素质.因此,利用实体以及实体关系提取技术自动地从这些非结构化的文档之中提取各种实体和实体关系.例如,求职者所参加过的所有项目(项目名就是一个命名实体),包括这些项目的名称、起始截止时间、项目所属单位、项目完成地点、合作人、主要解决的问题、主要掌握的技能等等.最后,结合数据库中的求职者的个人信息,以及自动提取出来的各种实体,实体关系,构建一个巨大的知识库.有了这个知识库,可构建人才网络,再结合自动聚类和自动分类技术,继而自动发现网络社区,这样就可以把具有相同或类似技能的人才聚集在一起,最后就可以提供大规模地人才推荐服务.此外,还需要对这些入库的人才进行自动评测.把真正优秀的人才自动识别出来,把那种假人才或者伪人才给鉴别出来,做到去伪存真,从而提高人才推荐的精准度.

1.3 才智能推荐

针对不同的招聘单位,根据其职位需要,实现了人才与招聘单位需求的最佳匹配.从而消除求职者同用人单位需求之间的巨大鸿沟.这个阶段主要涉及到如何实现人才库中的人才和用人单位需求之间的最佳匹配.这里,主要应用了文档自动分类技术和协同过滤技术.在对人才和招聘单位的联合数据挖掘中,通常仅仅采用几种技术是不够的,本智能系统还集成了如回归、概括、依赖性模型、链接分析、序列分析、神经网络、决策树、遗传算法、粗糙集、模糊逻辑和规则归纳等理论和算法,从而消除求职者与用人单位之间的信息供求的不符合性和不匹配性,实现人才库中的人才和用人单位需求的平衡以及工作岗位的供需平衡.

2 系统的实现与应用

本系统平台的运行环境和界面如表2、图2所示.

表2 中国研究生人才网硬软件环境要求

基于实体和实体关系的智能系统的实现过程是基于人才所提交的各种信息如个人简历等材料而实现人才数据库的建立的,所以系统的实现首要的工作是将所有求职者的信息自动地归类和聚合.系统的实现同时也依靠了上文中提到的内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐和基于知识推荐的一些推荐方法,当然这些方法的利用平台也是依靠现代网络和信息技术进行的.基于实体和实体关系的智能人才推荐系统的实现在现代信息社会中的发展和使用也是市场需求所致.

3 结语

本文提出的基于实体及实体关系的智能人才推荐系统的发展和推广不仅能够改善现在人才推荐系统中明显存在的不足之处,更重要的是此系统能够使得求职者和招聘公司同时实现人才资源的合理调配,提高人才推荐的效能,将我国的人才推荐系统提升到一个更高的层次,最终为求职者、招聘机构以及各服务企业提供更专业和精确的服务,从而提升社会效益.

参考文献:

[1]曹渝昆. 基于神经网络和模糊逻辑的智能推荐系统研究[D].重庆:重庆大学,2006.

[2]Herlocker J. Understanding and Improving Automated Collaborative Filtering Systems[D].Depantment of Computer Science,University of Minesota,2000.

[3]Kohavi R. Applications of Data Mining to Electronic Commerce[J].Data Mining and Knowledge Discovery,2001,5(1/2):5-10.

[4]中国研究生人才网[EB/OL].(2010-08-11).http://www.91student.com/.

猜你喜欢
求职者结构化文档
起初为娱乐,现在做招聘:直播帮中国求职者找工作
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
加纳移民局招聘:有妊娠纹不行
民生表情
面试中的12个禁忌
基于RI码计算的Word复制文档鉴别