百度:洋洋得意

2006-04-29 00:44
中国商界 2006年9期
关键词:关键字李彦宏搜索引擎

得意洋洋的百度

先看媒体报道:北京时间2005年8月5日晚,百度无人入睡。从夜里23时40分开始,3个小时里,百度人经历了人生里最激动人心的时刻,在纳斯达克指数的显示屏上,他们持有的百度原始股,涨幅达到了疯狂的353.85%,魔术般地成为每股122.54美元,一夜之间产生了9位亿万富翁、30位千万富翁和400位百万富翁,创造了21世纪的财富神话,全世界为之震惊。

再看百度的历史。2000年1月1日,公司创始人李彦宏、徐勇携120万美元风险投资,从美国硅谷回国,创建了百度公司。创立之初,百度就将自己的目标定位于打造中国人自己的中文搜索引擎,并愿为此目标不懈地努力奋斗。

2000年5月,百度首次为硅谷动力网提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商。

百度在美国纳斯达克上市后,百度由此进入一个崭新的发展阶段。

“中国Google”称号的百度,在成功迈向纳市红地毯的一瞬间,光环毕升、集万千宠爱于一身,屡刷新概念股之新高,150美金/股、狂涨了354%、200位百万富豪,随后几个月百度股价回落。同时,百度也遭遇了一系列的麻烦,百度下载因为内容涉及违法、色情而被关闭,MP3搜索下载遭受到上海步升以及环球、华纳等五大唱片的诉讼,最后以修改链接方式做出版权声明而落幕。

2005年10月27日,百度公司发布了2005年第三季度财报。尽管从财报来看,百度这一季度的业绩并不难看:较前一年同期有成倍增长,营收达1100万美元,利润为110万美元,但这依然没有达到华尔街的预期。当日,百度的股价应声而落,跌幅高达15%以上。

恰好在一周前,Google也公布了2005年第三季度财报。上面所显示的数字几乎令投资者们欣喜若狂:净利润为3.81亿美元,同比增长6倍,这对于一个巨无霸的企业而言,取得这样的成绩当然无异于一个神话。

成也搜索,败也搜索,在两者天壤之别的业绩面前,百度的尴尬姿态显得尤为突出。

看了这一系列的报道,你会作何感想?至少在我的印象里面,还没有见过争议这么大的IT企业。

关于点击欺诈

最近一年以来,各大网站只要有IT讨论版面的,基本上都可以发现骂百度的帖子,而且有越来越多的趋势,甚至出现了反百度联盟网站,好像中国没有第二家互联网公司能够担当如此“殊荣”,为什么?

一位网民举出例子,比如在百度上搜索“癌症”这个关键词时,搜索结果的前10条都是竞价排名广告,一直到下一页才出来真正和病情相关的搜索结果。

自然搜索结果和广告混在一起,这是所谓“点击欺诈”最常见的现象,它的产生和搜索公司提供的竞价排名广告有着直接关系。这种广告允许广告商凭付费的多少获取不同的网页位置,也就是说付出的广告费越多,就可以在搜索结果中拿到越靠前的位置,而参与的广告商越多,自然就可以占据更多的搜索版面。

但网民们却因此为信息的真假大伤脑筋,一位搜索业内的人士指出了其中的欺诈嫌疑,通过购买竞价排名广告,广告主还可以把与产品相关的“好话”都排在前面,这可能对消费者形成误导。

百度与Google的技术较量

李彦宏总是宣传他的技术在美国获得专利,他发明了搜索技术,笔者在网上找到了关于google和百度专利对比介绍文字说明:

Li Yanhong的美国专利号:5,920,859。专利提交日期为1997年2月5日,批准日期为1999年7月6日;Lawrence Page(即Larry Page)于1998年1月9日提交,于2001年9月4日被批准,美国专利号6,285,999。两个专利申请的区别在于,他们谈的根本就是两回事。要解决的问题和实施方法都不一样,虽然研究对象是一样的,都是链接。

李彦宏的超链分析技术要解决的是文件与搜索关键词的相关性。李彦宏提出的方法是,除了文件本身对关键词的引用外,还需要考虑反向链接中的关键词。具体来说,一个文件被索引进数据库的时候,会连同指向这个文件的超链接,以及每个超链接当中使用的锚文字(链接文字),一同记录在案。而搜索词也会建立一个数据库,每个词连同含有这个词的超链接,以及这些超链接所指向的文件一同被记录在案,每一个词都是搜索矢量的一个维度。

而Google的PR专利显然是专注在已经应用了超链分析之后还不能解决的问题。在Google的专利申请中,明确提到即使在考虑了指向文件的链接及链接锚文字之后,搜索引擎还有重要问题需要解决,那就是来自不同文件的链接有不同的权重值。你不能指望来自白宫网站的链接和非洲某小镇上一个学生的个人网站上的一个链接,投票值相同。而Google PageRank就是衡量网页重要性的一个方法。指向一个网页的链接越多,而这些链接本身的权重越高,那么这个被指向的网页的重要性及PageRank就越高。Google的专利申请当中给出了具体怎样计算这一重要性指标,他们取名为网页级别。网页级别的计算需要进行多个循环的替代计算,才能得到近似于最终结果的PR值。

笔者还在网上找到一个故事:说的是李彦宏在上个世纪90年代中期,他在澳大利亚讲超链分析,有两个斯坦福的学生坐在台下,后来这两个学生做出了Google。也许人们一直没太搞清楚这事儿的先后次序,到底是李彦宏的启蒙在前,还是Page和Brin的实践在前。终于在梁冬的书中找到了答案,这个会议的时间是1998年4月,地点是澳大利亚的布里斯班。如果没有搞错,这应该就是第七届国际WWW大会。不过这时候,Google的前身BackRub已经在斯坦福大学的网络上运行了两年多。Larry Page和Sergey Brin著名的论文——《一种大规模超文本Web搜索引擎的分析》就是在这次大会上提交的,作为对PageRank技术最早的公开阐述,这个论文后来被大量引用。

关于百度技术

Google是按照网页级别(PageRank)来收录的,网站有一定的网页级别,Google会快速收录的,而没有网页级别的网站,Google则坚决不去收录。Baidu则采用的是来者不拒的原则,不管三七二十一上来就抓整个网站,对于网站内容不做分析就快速收录,其爬虫数量就非常庞大,如果你的ISP服务商对你有流量限制,那么,你就倒大霉了,你的流量全部被占掉了。

说白了,百度的搜索方法就是大量派出爬虫,大量收集尽可能快和尽可能多的搜集页面,这样一来大家就会发现,百度好像更新特别快,可是这样是以牺牲有效性为代价的。

百度甚至不遵守robots规则,笔者曾经有一个网站,这个网站内容有些敏感,主要是跟朋友们一起交流的,所以就不想被搜索引擎收录,按照惯例在根目录下放了robots文件,明确规定拒绝收录全站,可是过了一过多月居然还是在百度搜索里面发现了这个网站的全部内容,更搞笑的是这个网站只有100多页,百度居然显示收录2万多页。

我们来看看百度的自白:“自从2000年公司成立以来的6年中,百度基于社区的搜索引擎、以及搜索引擎商业应用等方面,勇于创新,积累了一系列具有自主知识产权的核心技术,确保了百度在中文搜索领域的激烈竞争中处于领先地位。”

不掏钱就封你没商量

网上有这么一条消息:2005年年中,百度官方宣布对许多作弊站点进行集中整顿,清除一批通过技术手段或软件恶意欺骗搜索引擎、欺骗用户,把本身无内容或内容含量不高的垃圾网站排除在自身搜索结果之外,并给予封杀,随后网友“踏雪无痕”成立“反百度联盟”,通过签名、揭发的方式,收集百度对待站长和网友的不公正证据,促进监督百度公司走向公正,如今该站点签名总数已有6675条,基本上都是遭遇封杀的个人站长在控诉。反百度联盟的观点是:百度借清理作弊之名封杀个人站点是虚,借机威胁个人站点买单竞关键字广告才是真。

这一点笔者以及周围的朋友都有亲身体验,好好的从百度搜索过来的访问全都没有了,过不了几天,百度的代理商电话就打过来了。如果不做“搜索关键字服务”,这些搜索过来的访问全都没有了,更为有趣的是居然在搜索拒绝购买“搜索关键字服务”的网站时,结果把竞争对手的网站列出来。

有网友这样反映:“由于我的小站在google、baidu等几个搜索引擎上同时推广,看不到每个搜索引擎的效果到底怎么样,所以想到先把baidu停掉几天试试,礼拜五联系baidu客服,让她从后台把我的全部关键字停掉,当时baidu客服设定在下午4点开始停止推广,但到晚上我下班回家搜索几个常见的关键字时,发现找遍了前10页都没看到我的站,以前这几个关键字我的站自然排名都在第一页。更为糟糕的是搜索我自己网站的名字都搜不到了,只能通过搜索我的域名才能搜出我的站。”

百度自2006年6月1日起,大幅提高竞价排名的底价,升幅由几倍到十几倍,完全不是根据客户竞价了,百度美其名曰:根据商业价值来定。没有任何标准就将竞价底价随意提高十几倍,对已预付了钱的客户无异于抢钱,也是没有信用的表现。以前一个关键词的起价统一是0.3元,但调整后,关键词分了档次,有的起价在五六倍以上。有的关键字的起价远远超过了第三名第二名的价格,请问这样的价格是如何制定的?既然是竞价,应该是使用者之间的竞价,百度这样做,的确是有点费解。

猜你喜欢
关键字李彦宏搜索引擎
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
成功避开“关键字”
李彦宏的调侃
李彦宏的AI观
网络搜索引擎亟待规范
慢出来的尊重
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
李彦宏冒险之前先算一算
诱导性虚假下载链接不完全评测