文/杨望
Web Spam技术的发展与防御
文/杨望
随着Web技术的发展,Spam不再是Email领域的专利,万维网垃圾(Web Spam)成为一种新的危害,垃圾网页(Spam page)开始日益充斥着互联网。在今年USENIX举办的LEET 2011,业界对Web Spam的危害、发展以及控制进行了讨论,本文将通过对大会上几篇论文的分析对Web Spam进行一个概要的介绍。
来自微软公司的Sasi Parthasarathy在大会上作了题为“Complex Search of Web Spam”的演讲。在演讲中,Parthasarathy对垃圾网页和搜索引擎的关联做了详细的介绍。在他看来,一个垃圾网页是一个使用垃圾技术来提升其在搜索结果的排名,但实际对用户没有任何使用价值的网页。用户不会主动地去浏览这些垃圾网页,所以垃圾网页必须通过搜索引擎才能欺骗用户并创造收入。要达到这样效果,垃圾网页就必须了解搜索引擎对页面排名的方法。目前通用的页面排名依赖于两方面的数据:网页内容数据和网页链接数据。垃圾网页也从这两方面实施对搜索引擎的欺骗。在页面方面,常见的欺骗技术包括:
堆砌(Keyword Stuffing)
域名停放 (Parked Domain)
内容隐藏(Hidden Content)
机器自动生成内容 (Machine GeneratedContent)
社交媒体网站欺骗(Social Media Spam)这些欺骗技术有着不同的实现方法,但总体来说都是生成大量对用户没有意义甚至不可阅读的内容,但这些内容包含大量关键字,可以被搜索引擎发现并评估。例如内容隐藏技术可以生成如图1的一段HTML代码,这段代码在页面上不可见,但罗列并重复大量的搜索引擎敏感的关键字。当相应的关键字被搜索时,该页面会被排列在靠前的搜索结果中,但当用户点击该页面时,可能无法得到任何想要的与关键字相关的信息。
除了基于页面内容的欺骗,垃圾网页还采用基于链接的欺骗方式,主要形式包括:
链接农场(Link Farms)
链接交换(Link Exchange)
这两种方式都是企图通过对垃圾网页建立大量的链接,从而提高搜索引擎对垃圾网页的排名。
Parthasarathy针对这些欺骗技术指出,目前各家搜索引擎也在试图通过相关性判定等技术手段进行自动或人工的垃圾网页识别技术,但目前的效果很不理想。一方面一些合法的提升网站排名技术(例如一些大网站会购买付费链接)和欺骗技术的效果相似,搜索引擎难以判定哪一个是合法,哪一个是非法;另一方面如何判定内容的意义也是一个难题。
图1
来自印第安纳大学的Youngsang Shin等人发表的《The Nuts and Bolts of a Forum Spam Automator》通过对流行的垃圾网页工具XRumer的分析揭示了目前为何垃圾网页能如此盛行。XRumer这一类工具通过在各类论坛上自动发布包含执行垃圾网页链接的帖子来提高垃圾网页在搜索引擎对链接层次分析上的排名。尽管现在的论坛通过用户注册、CAPTCHA、用户信誉识别等技术来尽量避免这类自动发帖工具对论坛的污染,但在经济利益的驱动下,这类工具的开发者逐个击破了论坛管理员设立的各类防护手段。
Shin通过对XRumer软件的功能分析,发现XRumer可以通过模板自动注册帐号,并具有学习功能,对于没有见过的注册界面,可以将其关键字段采集并交由用户进行配置。对于大多数论坛需要的邮件认证,XRumer可以依赖用户配置的邮箱或者自动注册免费邮箱来完成认证过程。虽然很多论坛使用CAPTCHA技术来识别人和程序,阻碍程序的自动注册过程,XRumer可以自己破解简单的基于文本和问题的CAPTCHA,并提供接口识别那些基于图片的CAPTCHA技术,黑客的经济生态圈已经发展得很完善,存在一些第三方的CAPTCHA破解服务提供者,提供每1000个问题1美元的低廉价格服务。
很多论坛会对用户的行为进行统计,只有良好信誉的用户才能发帖并避免自己的帖子被删除。XRumer也提供了用户行为的模拟功能,例如设置不同的帐号互相提问和回答一些正常的问题来伪装正常用户。同时XRumer还会根据在论坛搜索关键字的结果,调整发帖的内容,并采用随机生成文本的方式,来避免基于黑名单过滤的监控方式。
简而言之,在这样强大的工具面前,为了将这些垃圾网页相关的发帖清除,论坛管理员将面对一场艰苦的斗争。
垃圾网页的清除是一项系统的工作,从搜索引擎和论坛管理员的角度,都无法最终有效地控制垃圾网页,而域名是垃圾网页的基础设施之一,如果能控制垃圾网页存在的域名,就能在一定程度上直接削弱垃圾网页的存在。来自加州圣迭戈分校的He Liu介绍了如何从域名上对垃圾网页进行控制。He Liu介绍了CNNIC(中国互联网信息中心)和LegalScript两个不同组织的不同手段。CNNIC是.cn域名的注册服务商,.cn域名曾经是垃圾网页的重灾区。
目前CNNIC采用的方式是提高域名注册和持有的成本,垃圾网页的控制者对经济因素非常敏感,.cn域名成本的升高成功地让中国的垃圾网页开始大量地向俄罗斯的.ru域名转移。LegalScript则采用域名认证的方式,对某些领域的网页进行审查,一旦判定该网页为垃圾网页,则和对应的域名服务商联系,采用ClientHold的方式,即中止用户对该域名的使用,同时继续保留该域名的使用权,防止有人试图在其他服务商那里继续注册和使用相同的域名,这一类域名主要针对使用.com等顶级域名的垃圾网页。
(作者单位为东南大学计算机学院)
网康科技连续三年入围中央政府采购系统
2011年6月1日,中央国家机关2011年度计算机等产品政府集中采购协议供货项目(总第18期)第三批开标,网康科技作为业内领先的网络应用管理设备提供商,凭借全球顶尖的网络应用管理技术、产品和解决方案,连续3年成功入围中央政府采购系统。
中央国家机关采购协议供货项目是我国目前级别最高的政府采购项目。网康科技作为国内成长最快、高端用户最多的网络应用管理厂商之一,在2011年持续发力,此次采购项目中,上网行为管理9款产品以及流量分析10款产品实现入围。同去年相比,产品数量有大幅度地提升。
在本次开标结果中,网康科技上网行为管理以及流量分析两大系列产品是同类入围产品数量最多的厂商,证明了网康科技在该领域的耕耘颇深。此外,网康的拳头产品上网行为管理系列产品在中央政府采购系统中,与同类厂商相比,采购量长期排名前三。
目前,网康科技的产品已经被广泛应用于政府、金融、能源、教育、通信、制造等众多行业,拥有超过一万家企业级客户。
首届互联网电视产业论坛在京举行
6月8日,由南方广播影视传媒集团、创维集团和北京优朋普乐联合主办的2011年首届中国互联网电视产业链高峰论坛在北京举行。在本次研讨会上,由南方传媒、创维集团、优朋普乐以及索尼影视等产业实践者联合组建的互联网电视产业链第一次正式完整展现。
据DisplaySearch预测,全球互联网电视市场在2012年则可望达8,700万部,市场占有率约38%, 2014年全球互联网电视出货量将达到1.2亿台。在这种形势下,产业链合作模式将为互联网电视产业运营服务打造出新标杆,成为服务提供的事实标准,对推动中国互联网电视产业的发展将会产生重大影响。通过产业链合作,广电牌照方、内容商、电信运营商、电视机厂商等多个企业都将有序参与到未来的互联网视频内容服务产业中。