中国求职招聘类网站评介——基于网络链接及WEB影响因子的分析

2011-05-08 09:39:42
图书馆学刊 2011年4期
关键词:搜索引擎检索笔者

杨 行

(苏州大学社会学院信息资源管理系,江苏 苏州 215123)

1 引言

1.1 研究背景

教育部长袁贵仁在2010年全国普通高校毕业生就业工作视频会议上指出:国际金融危机对我国就业的不利影响还没有消除,如果说2010年是我国经济最困难的一年,2011年可能是最复杂的一年,整个宏观层面的就业形势非常严峻[1]。

2010年我国共有630万大学毕业生,加上往届没有实现就业的学生,需要就业的毕业生数量之大可想而知。面对严峻的就业形势,目前的大学生,尤其是即将毕业的学生应当及早准备,做好各类信息的搜集工作,寻找适合自己的工作方向,同时,也要考虑清楚自己大致可以面向哪些专业领域——这个时候,互联网上众多求职招聘类网站作为发布招聘信息的一个重要平台,成为大众求职必不可少的工具。经笔者不完全统计,我国现有求职招聘类网站已经超过400家。由于无法确认所浏览的网站是否权威,很多求职者在增加工作量、重复无用功的同时,也丧失了求职的最佳时机。

1.2 研究依据

目前,在对网站的研究评价中,基于链接分析及网络影响因子(Web影响因子)测度是一种应用较为广泛的网站评价方法。1998年,Peter Ingwersen提出WEB-IF的概念,他将WEB-IF(Web Impact Factors)定义为,在某一特定时刻,指向特定网站的链接总数与该网站总网页数之比。指向网站的链接可分为外部链接(external-citations)和内部链接(self-citations)。其中,外部链接的影响因子是测度网站影响力的重要指标,而内部链接的影响因子体现的是服务器上网页组织的逻辑结构[2]。经各国学者的大量研究,我们认为WEB-IF可以作为网站评价的重要指标,而外部链接WEB-IF与网站的影响力有明显的正向(肯定)联系,更能够真实反映网站的影响力大小,也可以说一个网站的ExternalWEB-IF越高,说明该网站越有影响力——这也是笔者利用网站外部影响因子来评价网站的理论依据。

1.3 研究目的

笔者运用链接分析方法和网络影响因子测度方法,通过搜索引擎(Altavista)搜集相关数据,对我国现有的求职招聘类网站的影响力进行评价,综合链接分析及网络影响因子测度结果和艾瑞网推出的招聘类网站排名,推选出10大权威求职网站,以求帮助众多的求职者更为轻松高效地找到理想工作。

2 研究设计

2.1 研究样本的选择

根据艾瑞网络媒体精品推荐(www.iwebchoice.cn)中招聘类网站的排名,选取前30名网站作为链接分析的对象(该排名是艾瑞网招聘网站8、9、10这3个月的综合排名,以下数据采集于2010年9月20日),研究样本排名如表1。

表1 研究样本

2.2 研究指标的确立

笔者采用的研究指标包括[3]:

①总页面数P:一个网站所包含的所有网页数量,可以反映该网站的规模大小。

②总链接数L:指向该网站的所有链接数,可以反映该网站的知名度。

③外部链接数EL:从网站外部指向该网站的链接数,理论上,被广泛链接的站点可以被认为在互联网上是具有较大影响力和较权威的信息源。

④内部链接数SL:从网站内部指向该网络实体的链接数,内部链接可以将网站内的相关信息很好地整合在一起,以完善信息的利用,内部链接反映了网站的逻辑结构。

⑤网络影响因子WIF:总链接数与总页面数的比值(L/P)。

⑥外部影响因子E-WIF:外部链接数与总网页数的比值(EL/P)。

理论上某一网站的总链接数应当等于内外链接数的总和,但由于重复链接、不相干链接等众多原因的干扰,会存在一定偏差(M)但如果偏差过大,可考虑剔除该样本,确保最终结果合理可靠。

3 研究方法

3.1 研究工具的选择和使用

Altavista、Allthweb、Google这3个商业搜索引擎都可以用于数据的获取,但根据相关文献[5-7]及笔者的多次实验,笔者最终选择Altavista(www.altavista.com)作为研究工具。下面以前程无忧网(www.51job.com)为例,列出部分数据的检索语句(仅限在www.altavista.com、www.alltheweb中使用)以及在3个商业搜索引擎中的搜索结果。

表2 检索语句

(备注:* 笔者用“host:51job.com”和“host:www.51job.com”这两个检索语句分别检索,前者结果少于后者,为防止漏检,最终统一选择后一个检索语句对网站的总页面数进行检索。**检索外部链接数时需注意“-”号前后的空格有无,正确的应该是“-host”,如果使用“-host”,搜索引擎则会默认检索的是内部链接数。)

表3 不同搜索引擎搜索结果比较

如表3所示,Google的搜索结果明显少于前两者,Altavista和Alltheweb的搜索结果相差无几,但经笔者多次试验,Altavista相对比较稳定,Alltheweb在检索结果较大的时候,第1页与第2页的结果显示往往会相差100甚至1000。因此为确保最终结果的可靠性,笔者选择Altavista作为链接分析工具。

3.2 数据的获取

采用上述搜索引擎及检索语句最终获取的数据见表4。

表4 检索结果

(注:以上数据采集于2010年9月21日,均为原始数据;M列为检索偏差,且检索偏差

如表4所示,所选30个样本经检索后发现,其中有4个网站的检索误差超过20%,所以笔者在分析数据时剔除该4家网站:职友集、Job88人才网、杭州人才网和浙江人才网。仅分析剩余26个样本网站,以保证最终结果的可靠性。

4 数据处理与结果

笔者利用EXCEL作为统计工具,借助Altavista检索出的网站总页面数、总链接数、外部链接数、内部链接数计算得出各网站的网络影响因子和外部链接影响因子,并按照外部链接影响因子将各网站重新排名(ORD列),结合艾瑞网的排名和按照E-WIF排列的新次序得出最终名次(N-ORD列)——把两者的排名进行算数相加。

表5 数据处理结果

5 讨论

5.1 结论

通过对各招聘网站的链接情况分析,笔者得出如下结论:26个招聘网站中网络影响力较大的十大网站分别是:智联招聘(www.zhaopin.com)、前程无忧(www.51job.com)、应届生求职网(www.yingjiesheng.com)、英才网联(www.800hr.com)、卓博网(www.jobcn.com)、中国人才热线(www.cjol.com)、应届毕业生求职网(www.yjbys.com)、过来人求职网(www.guolairen.com)和宾果求职网(www.bingojob.cn)。

5.2 补充说明

需要强调的是,由于各方面的局限,笔者的最终排名并不是此类网站的质量排名,仅能说明这些网站在互联网上有较大的影响力,因此所列权威招聘网站排名仅供广大求职者参考。

另一个值得关注的问题是,英才网联与过来人求职网外部链接的影响因子远远超出其他网站,原因笔者暂时还未能明确知晓。但网站的总链接数、内外链接数的检索结果又无明显异常,笔者在连续一周内利用Altavista以及Alltheweb对这两个网站进行不定期检索,其结果的波动也不是很大,因此笔者最终没有剔除这两个样本。

5.3 启示

大多数求职者在选择招聘网站的时候多是通过各类网址导航或是百度、Google进行查询,无目的、无条理的同时也必然导致信息搜集的慢速低效。笔者虽然无法确保所选出网站的质量,但影响力却是客观事实,其结果也能从另外一个方面考量各大网站被利用、被重视的程度。求职者完全可以参考此研究成果,再结合自身需求进行最终选择。

6 局限性

6.1 异常结果的出现

从各网站页面数、总链接数和内外链接数的测度结果来看,有些数据明显不合理,超过1/4的网站检索偏差超出10%,虽然笔者剔除了检索偏差超出20%的4个样本,只针对剩下的26个样本进行分析,但仍无法保证最终结果百分之百的可靠。搜索结果的异常一直是链接分析法应用过程中令人头疼的问题,相关研究者认为其主要原因在于:首先,网络的动态性会限制检索链接的工具运用,任何一个搜索引擎的覆盖率都是有限的,并且目前只能利用国外的搜索引擎进行链接分析,而国外的搜索引擎对中文网页的覆盖率又较低;其次,部分网站采用了flash技术,使用了框架网页结构甚至是带有病毒,加大了搜索引擎爬行器深入的难度[8];再者[9],招聘类网站上多有广告链接,与相关招聘信息的链接相比其重要性明显不是一个级别,而笔者研究的前提是假设所有链接同等重要,这对我们的搜索结果又产生了一定的影响,对于部分链入较少广告却提供较多信息的网站明显不公平。

6.2 算法本身的缺陷

李江在《网络影响因子的三大缺陷的探究》一文中对网络影响因子在网站评价中的应用从WIF的适用性、WIF算法本身的缺陷和WIF假设的前提难以成立这3个方面做了深入分析;同时,其指出Google推出的Pagerank算法比WIF更为合理,假设前提成立的可能性也更大[10]。笔者在对数据进行分析的时候虽然也综合考虑了艾瑞网提供的排名(注:艾瑞网的数据来源于Alexa),但笔者将各指标综合考虑时仅是简单的算数相加后再对各网站进行综合排名,此算法也并无具体的科学依据,还有待进一步考量。

[1]http://tuanwei.cdsu.edu.cn/jiuye/showNews.asp?newsid=724.

[2] Ingwersen Peter.The Calculation ofWeb Impact Factors[J].Journal of Documentation,1998(2):236-243.

[3] 庞景安.超链接网络分析的理论与应用研究[J].情报理论与实践,2005(6):632-635.

[4] 付威风,郑春厚.网络计量学常用工具比较研究[J].图书馆学研究,2009(7):24-27.

[5] 潘浩.网络链接分析法基本原理[J].科技情报开发与经济,2009(1):116-117.

[6] 杨涛,曹文娟.网络影响因子及其测度[J].图书情报工作,2009(9):24-27.

[7]曹青.中国旅游企业电子商务网站评价研究——基于网络链接与网络影响因子测度的分析[J].广东广播电视大学学报,2009(2):108-110.

[8] 杨涛.链接分析法存在的问题及改进方法[J].图书情报知识,2002(3):62-63.

[9] 李江.网络影响因子的三大缺陷探析[J].图书情报工作,2008(5):107-109.

猜你喜欢
搜索引擎检索笔者
2019年第4-6期便捷检索目录
专利检索中“语义”的表现
专利代理(2016年1期)2016-05-17 06:14:36
网络搜索引擎亟待规范
中国卫生(2015年12期)2015-11-10 05:13:38
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
国际标准检索
国际标准检索
Google Reader订阅按需读
两个插件,让Chrome变身iPhone
搜索,也要“深搜熟滤”