搜索引擎的原理是什么?

2020-04-10 06:39

电脑报 2020年8期

当你使用搜索引擎时，它不是直接从网页中为你网罗信息，因为这样如同大海捞针，无法为用户提供快速而准确的反馈。

以谷歌搜索引擎为例，你搜索的其实是它的索引数据库。谷歌使用一种名为“蜘蛛”（spider）的程序（网络爬虫），它会先抓取少数网页，然后跟踪其中的网页链接，再由这些链接提取出更多网页信息存入数据库中，就像蜘蛛由一个中心点织出一张张网一样，形成一个相互联系的索引网络，包括数十亿网頁。

当你输入关键词后，搜索引擎算法会分析你输入的内容，再进入索引寻找带有关键字的网页。但含有这些关键字的网页依然可能多得数不清，因此就需要由算法根据关键词的匹配程度、出现频率、位置、网页质量等信息，评估网页内容是否有帮助，并计算出排名分数。另外其他网页链接到该网页的次数也是分数评定的重要依据。算法最后会得出网页的总积分，排出等级，再以此决定搜寻结果显示的先后顺序。尽管这些步骤看起来相当繁琐，但搜索引擎能在半秒之内将相关网页以相对合理的顺序为你调出。

不同的搜索引擎有不同的算法来建立各自的索引数据库，目的都是为了方便用户查找信息。虽然有时候也可能恰好避开了所有你想要的资料。总之不论如何广告总是躲不过的。