当你使用搜索引擎时,它不是直接从网页中为你网罗信息,因为这样如同大海捞针,无法为用户提供快速而准确的反馈。
以谷歌搜索引擎为例,你搜索的其实是它的索引数据库。谷歌使用一种名为“蜘蛛”(spider)的程序(网络爬虫),它会先抓取少数网页,然后跟踪其中的网页链接,再由这些链接提取出更多网页信息存入数据库中,就像蜘蛛由一个中心点织出一张张网一样,形成一个相互联系的索引网络,包括数十亿网頁。
当你输入关键词后,搜索引擎算法会分析你输入的内容,再进入索引寻找带有关键字的网页。但含有这些关键字的网页依然可能多得数不清,因此就需要由算法根据关键词的匹配程度、出现频率、位置、网页质量等信息,评估网页内容是否有帮助,并计算出排名分数。另外其他网页链接到该网页的次数也是分数评定的重要依据。算法最后会得出网页的总积分,排出等级,再以此决定搜寻结果显示的先后顺序。尽管这些步骤看起来相当繁琐,但搜索引擎能在半秒之内将相关网页以相对合理的顺序为你调出。
不同的搜索引擎有不同的算法来建立各自的索引数据库,目的都是为了方便用户查找信息。虽然有时候也可能恰好避开了所有你想要的资料。总之不论如何广告总是躲不过的。