十大深网搜索引擎提供无法从Google和Bing获取的信息

2018-09-10 09:39:38王雄
计算机与网络 2018年20期
关键词:搜索引擎网页页面

王雄

当想要搜索某些内容时,Google或Bing通常会是第一选择。但无论是Google还是Bing都不会提供隐藏在暗网中的信息。此外,当通过Google搜索时,Google还会记录你在互联网上的每一步操作。对于注重个人隐私安全的人来说,能够对在线活动保持匿名显然更能引起兴趣。

“深网(Deep Web)”也称为“不可见网(invisible Web)”,该术语指的是一个庞大的底层内容存储库,一个通用网络爬虫工具无法访问的在线数据库。

说它庞大,是因为深网所包含的内容估计要比能够通过常规搜索引擎搜索到内容要多近500倍,但由于搜索引擎的限制,大部分内容仍无法被搜索到。

由于大多数个人档案、公共记录和其他与个人有关的文档都存储在数据库中而不是静态网页上,因此大多数关于个人的敏感隐私信息对于常规搜索引擎来说都是“不可见的”。

然而,随着搜索算法的不断完善和更新,通过深网搜索引擎来找到想要的商品、内容或信息正在变得越来越容易。

为什么无法通过Google搜索出深网的内容

通常来讲,深网或者暗网(Dark Web,深网的一个子集)的内容是没有编制索引的,所以无法通过常规搜索引擎(如Google和Bing)搜索出结果。换句话来说,所有Deb网站(.onion)都没有编制索引,而Google不会提供任何不通过万维网索引的搜索结果,这些内容隐藏在HTML表单后面。

通过常规搜索引擎进行搜索,内容会从相互连接的服务器上提供,而当访问暗网时,并不是在浏览这些相互连接的服务器。相反,一切都保留在Tor网络的内部,这就为每个人都提供了安全和隐私。

根据研究人员的说法,只有4 %的互联网内容是公众可见的,其余96 %的网站和数据隐藏在深网中。

不得不说的robots.txt文件

robots.txt文件是搜索引擎中访问网站的时候要查看的第一个文件,通常位于一个站点的根目录下,其作用是告诉搜索机器人哪些记录、注册表、文件和目录禁止被索引。

当搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,搜索机器人将访问网站上所有没有受到口令保护的页面。

这里为大家介绍十款能够获取深网搜索结果的搜索引擎,有一些读者可能使用过,但相信并不是所有人都了解。

1. pipl

pipl的查询引擎可以帮助找到在常规搜索引擎上无法找到的深层网页。与其他搜索引擎不同,pipl能够提供从深网获取的搜索结果。pipl的robots文件设置为与可搜索的数据库进行交互,并从个人档案、成员目录、科学出版物、法庭记录和许多其他深网资源中提取相关信息。

根据pipl官方的说法,pipl搜索引擎所使用高级语言分析和排序算法,能够在一个简单、易于阅读的结果页面中提供关于某个人或事物的最相关的信息。

2. My Life

MyLife的公共頁面可以列出与某个人相关的大量数据,包括年龄、曾居地和现居地地址、电话号码、电子邮箱地址、就业信息、照片、亲属信息等。

据称,MyLife拥有超过2.25亿个公共页面,几乎涵盖了所有18岁以上的美国公民的数据。

3. Yippy

事实上,Yippy是一个元搜索引擎(它通过利用其他网络索引得到的结果)。与Google不同,它不会存储你的浏览历史、查看过的条款或电子邮件。

4. Surfwax

SurfWax搜索是一项免费和基于订阅的服务。该搜索网站提供了许多功能,而不是纯粹的搜索。这些功能包括:

Focus-允许添加“焦点词”到搜索中。根据焦点词的不同,可用于扩大或缩小搜索范围;

SiteSnaps-获取网站页面的简要说明,并进一步识别引擎认为与焦点词相关的词条;

ResultStats-衡量并显示要罗列出大量搜索结果所需花费的时间。

根据Surfwax的比喻,这就相当于在冲浪过程中,surfwax能够帮助冲浪者抓住他们的冲浪板,而对于网上冲浪的人来说,SurfWax可以帮助获得最佳的信息控制———提供最佳相关搜索结果。

5. Way Back Machine

Wayback Machine是互联网档案馆(Internet Archive)收集开放网页的一个前端,包含超过100 TB的数据。

Wayback Machine通过URL访问这些数据,但无法通过内容来访问,因为客户端必须知道特定网页或Web网站的正确URL才能进入对应的页面。

互联网档案馆允许公众将数字资料上传和下载到其数据集群,但其大部分数据是由其网络爬虫工具自动收集的,这些爬虫工具可以尽可能多地保留公共网络。Wayback Machine的Web档案包含超过1 500亿份网络捕获数据。

6. Google Scholar

Google Scholar允许搜索各种学术文献。它从期刊出版商、大学资料库和其他被它认为是学术性的网站上获取信息。Google Scholar旨在帮助发现与输入关键词相关的学术资源。另外,还可以配置Google Scholar,以允许它自动访问NCSU库对期刊和数据库的订阅。

7. DuckDuckGo

这个深网搜索引擎与其他九款搜索引擎一样,允许搜索常规的网页。它有一个简洁易用的界面,且不会追踪使用者的搜索内容,并且搜索设置中的选项是十分丰富,甚至可以通过自定义它来增强用户体验。

DuckDuckGo强调返回最好的结果,而不是最多的结果,并从400多个独立的来源中筛选出这些结果,包括一些知名的百科网站(如维基百科),以及其他搜索引擎,如Bing、Yahoo!、Yandex和Yummly。

8. Fazzle

Fazzle.com是一个元网络索引,可以用英语、法语和荷兰语访问。Fazzle会搜索120多个经过修改的Web索引,以传达“快速准确的结果”,每一条搜索结果旁边都有一个查看页面。它的查询项目包括网站、下载、图像、视频、音频、黄页、白页、购物和新闻等。

不管其他的查询项是什么,都是从Fazzle运行的众多搜索列表中组合起来的,但是Fazzle会在它的SERPS页面上显示“最佳选择”和20个不同的结果。

9. not Evil

与其他Tor搜索引擎不同,not Evil并不是以营利为目的的,它是Tor网络中的另一个搜索引擎,从功能和搜索质量来看,它在众多搜索引擎中具有很强的竞争力,且没有广告和追踪。随着搜索算法不断更新和完善,用户可以很容易找到想要的商品、内容或信息,使用not Evil,可以节省大量时间并保持完全匿名,且它的用户界面非常地直观。

10. Start Page

如果十分注重个人隐私安全,并且不会使用Tor浏览器,那么Start Page绝对会是一个非常不错的选择,它可以说是最好的搜索引擎之一。

Start Page也不会记录IP地址,因此用户的搜索历史会得到很好地保护。对于从事研究的人来说,Start Page搜索引擎会是一种很好的选择,因为它不会泄露个人隐私。

猜你喜欢
搜索引擎网页页面
刷新生活的页面
保健医苑(2022年1期)2022-08-30 08:39:14
基于CSS的网页导航栏的设计
电子制作(2018年10期)2018-08-04 03:24:38
基于URL和网页类型的网页信息采集研究
电子制作(2017年2期)2017-05-17 03:54:56
网页制作在英语教学中的应用
电子测试(2015年18期)2016-01-14 01:22:58
网络搜索引擎亟待规范
中国卫生(2015年12期)2015-11-10 05:13:38
基于Nutch的医疗搜索引擎的研究与开发
10个必知的网页设计术语
广告主与搜索引擎的双向博弈分析
同一Word文档 纵横页面并存
浅析ASP.NET页面导航技术