搜索引擎优化的作弊与防范

2010-08-15 00:48赵静
办公自动化 2010年22期
关键词:搜索引擎作弊网页

赵静

(陕西财经职业技术学院 信息工程系 咸阳 712000)

搜索引擎已逐渐成为人们日常生活中必不可少的工具,而且人们对搜索引擎的依赖还在不断增强。互联网上存在的巨大利润驱使着很多人使其站点和页面变得有名,以期待人们在进行相关内容查询时,他们的网页排在搜索结果的前列。当访问者使用关键字通过搜索引擎来查找相关网站时,哪个网站如果能在搜索结果中名列前茅,则无疑会获得更好的点击率。因此,伴随而来的搜索引擎排名的作弊也孕育而生。

一、 搜索引擎优化作弊的概念

搜索引擎作弊,或SEO作弊是指为了在搜索引擎中提高排名的目的而欺骗搜索引擎的行为。它与搜索引擎优化最大的区别在于,搜索引擎优化是一种利用搜索引擎的搜索规则来提高网站在有关搜索引擎内的排名。

二、 搜索引擎优化作弊的常见形式

1、 隐藏文本或隐藏链接

一般指网页专为搜索引擎所设计,网页内含的文字不能被人们所看到,但是却能被搜索引擎看到。在形形色色的隐藏技术中,最常见的就是把文本或链接文字的字体颜色设置为与背景色相同或十分接近。

2、 恶意更换页面内容

一般发生于先向搜索引擎提交一个网站,等该网站被收录后再以其它页面替换该网站。“诱饵行为”就属于此类偷梁换柱之举:创建一个优化页和一个普通页,然后把优化页提交给搜索引擎,当优化页被搜索引擎收录后再以普通页取而代之。

3、 关键词堆砌

关键词堆砌是指在页面上堆放大量与页面主题相关或无关的关键词,这样做是为了增加某些关键词的词频以提高页面相关性。它通常分为误导性关键词和重复性关键词两种形式。

4、 域名重定向

简单的说就是通过各种方法,例如使用刷新标记、CGI程序、JAVA等将各种网络请求重新定个方向转至其他位置。常见的重定向包括301 redirect,302 redirect和meta fresh三种。

5、 门页

门页是指针对搜索引擎而进行特别优化的页面,当用户访问门页时,会自动或被引导至另外一个内容完全不同的页面上。门页可能是针对一个搜索引擎,也可能是针对多个不同的搜索引擎。由于每个搜索引擎的算法会存在或多或少的差异,不同的搜索引擎会有不同的门页,在对不同的搜索引擎蜘蛛程序返回相应的门页。

6、 镜像网站

广义上的镜像网站是指那些复制或者抄袭其他网站内容的网站。常见的镜像网站有三种:克隆网站,数据采集网站,多域名网站。

7、 作弊链接技术

指由大量网页交叉连接而构成的一个网络系统。这些网页可能来自同一个域或多个不同的域,甚至可能来自不同的服务器。这种方法在建站初期的时候可能影响不会太大,毕竟搜索引擎要发现这些网站群的关系是需要一定的时间的。假如这些网站的链接超过了半年,依旧大量的相互链接,,很有可能这几十个网站都会被察觉。

三、 搜索引擎优化作弊的防范措施

1、 搜索引擎要反作弊的重要性

搜索引擎是各大搜索公司的生命。因此,对于上述提到的搜索引擎作弊行为,谷歌,百度这些知名公司总是想方设法防范的。搜索引擎作弊不仅直接破坏了搜索引擎网站赖以生存的关键,而且也破坏了搜索引擎网站获得收益的来源。近几年来谷歌、百度等已经在反作弊上做了很大的工作,并对这些作弊行为给出了相应的惩罚措施。

2、 搜索引擎反作弊方法

像谷歌,百度等这样的知名公司,总是不断的运用各种技术提高自己的搜索质量。因为作弊具有共性,只要抓住这些共性就可以解决一类问题,一类类问题的解决,作弊的影响就可以降到最低点。

(1)基于网页特征分析的方法

从大规模的网页实验集中提取网页特征,然后通过统计的方法对特征进行分析,得到作弊网页和正常网页的不同特征。根据这些特征建立一个网页分类器来实现自动的把网页分成作弊网页和正常网页。最常见的方法是建立常用的spam列表并对其分类和分级,通过常用的spam列表分析相关词汇重复使用率,密度,分布等情况,进而判断是否存在恶意重复现象。

(2)基于页面链接结构分析的方法

通过分析网页的链接结构来判断某网页是否是作弊页面,这种方法主要通过算法来实现,主要的思路是从正面出发的hilltop算法、trustrank算法和从反面出发的badrank算法。通过不同的算法对作弊进行防范,不同的排序算法会有不同的排序依据,不断的寻找作弊者不能控制的排序依据使其无法进行作弊行为。

(3)检测隐藏技术的方法

通过分析使用隐藏技术的网页的特征,一些简单的隐藏技术很容易被检测出来。例如:对于隐形页面作弊如果发现页面内部大量文本采用和背景相同的颜色设置,则确定为作弊页面;对于重定向、伪装页面可以使用网络爬虫来检测。搜索引擎可以让一部分爬虫伪装成普通用户来访问站点,对网站进行测试,看网站对用户和搜索引擎返回的内容是否一致,如果不一致则很大可能是在作弊。

(4)加强人工审查

虽然通过技术手段反作弊的精准度接近于100%,但也不可能完全的消除,只能有效的减少。当技术手段不能解决问题,就用人工来解决。人工审核是最后的补充,前面的技术方法可以将需要审核的作弊网站范围大大缩小,人工审核是判断搜索引擎作弊的最后方法,也是最准确的方法。

四、 总结

如今,反作弊技术已经日趋成熟,搜索引擎在对付网页作弊的工作上取得了不错的效果。但是,商业利益的诱惑让作弊技术不断的更新和改进,所以搜索引擎很难从根本上消除网页作弊现象。因此,作弊和反作弊的斗争将是一个长期的反复的过程,同时也变相的推动了互联网搜索行业的不断创新和发展。我们相信,随着反作弊技术的发展和成熟,在识别和对付作弊网页上一定可以取得更好的成绩。

[1]网利刚,赵政文,赵鑫鑫。搜索引擎中的反SEO作弊研究[M].计算机应用研究.2009.

[2]张兴华.搜索引擎技术及研究[J].现代情报.2004.

[3]格拉夫,库 辛.搜索引擎优化[M].清华大学出版社.2007.

[4]马张华.分类搜索引擎类目体系研究[M].图书情报工作.2001.

猜你喜欢
搜索引擎作弊网页
Chrome 99 Canary恢复可移除预置搜索引擎选项
作弊
基于HTML5与CSS3的网页设计技术研究
世界表情符号日
有人要你帮忙作弊怎么办
基于HTML5静态网页设计
防止作弊
搜索引擎怎样对网页排序
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌