文 李萌
斯科特·霍夫曼(Scott Huffman)Google工程总监
斯科特·霍夫曼(Scott Huffman)加入Google已逾5年,专注搜索领域超过15年。现担任Google工程总监,负责领导搜索质量评估和移动搜索团队。
在加入Google之前,斯科特在一家硅谷的企业搜索与知识管理公司Knova任工程部副总裁一职。他在卡耐基梅隆大学完成大学学业,拥有密歇根大学计算机科学博士学位。他撰写了数十篇学术论文,内容涵盖信息检索、机器学习和信息提取领域,此外,他还是多项专利的发明人及共同发明人。
十年之前,搜索结果也许只是一个网页链接。而今天,用户得到的搜索结果内容是非常丰富的,包括网页链接以及相应的图片、视频、地图等各种各样的内容。随着互联网的不断发展,随着网络上信息内容的日渐丰富和无处不在,互联网搜索正在快速崛起,为了带给用户更加重要且准确的信息,让用户基于这些重要的信息做出一些重要的决定,Google搜索正在逐步完善,不断提高搜索质量,让搜索变得更加科学化,对此,记者专访了Google工程总监斯科特·霍夫曼,让他为我们揭开了科学搜索的面纱。
搜索中最基本的一个概念是“索引”,斯科特说,“Google搜索机器人会对几十亿的网页进行扫描,然后建立一个索引库,这就好像是每本书的目录,这是一本庞大的书目录,它分布在Google全球各地的数据中心里,当用户提交搜索请求后,这个搜索请求依据具体的地理位置会发送到Google全球各地不同的数据中心。”
斯科特介绍,平均来说,Google的每个搜索请求往返于电脑和数据中心的单程距离是750英里。数据中心接到搜索请求之后,把它散发到存有不同索引的计算机上。然后将用户提交的搜索请求同目录进行匹配,找到正确的文件或是网页。在众多的网页或者文件中挑选相关性最高而且是最新的数据和结果,并根据结果的属性和几百个指标进行排名,最终呈现给用户。虽然这看起来比较简单,但它背后的流程其实很复杂。Google需要通过特定的算法,将这些网页的内容和用户的搜索请求相对比,并将最终结果呈现给用户。尽管搜索过程比较复杂,但是却可以在不到1秒钟的时间内完成的。
为了能够从互联网丰富的信息海洋中为用户提供正确的信息,Google搜索会通过对算法的改进,在数十亿网页、图像、视频、新闻和更多信息来源中为用户筛选他们所需要的信息,通过整合各类信息,让搜索内容更加丰富。同时,搜索形式也会有不同变化,比如现在用户可以通过按图搜索、语音搜索等方式来得到自己想要的答案。
Google会用几百个指标来衡量结果并对其进行排名,最后的目的是给用户呈现相关度最高且质量最高的搜索结果,在搜索结果页中,排名越在后,信息的相关度和质量就越低。斯科特表示,“在信息筛选中也有一些衡量信息质量的因素,比如我们会考量这个关键词在文件中出现的频率以及关键词出现的位置,如果它出现在标题中就比它出现在文章的第十行或者更靠后的地方更重要。还会考虑用户本身的情况,比如输入‘北京’,而位置又在北京,它就不会出现‘北’和‘京’分开呈现的结果。另外,还要参考其他的网页对这份文件的重视程度,如其他网页对于这个网页引用的程度、频率和量有多高,引用的量越大这个网页的排名就越靠前,质量就越高或者越重要。”
在为用户提供最相关的结果时,还有很多其他指标需要考虑。比如权威性,如果用户查医学方面的问题或者查关于某一个疾病的问题,这时,用户可能最重视结果的权威性,而不是某个博客里多次谈到的这种疾病,在这样的搜索情况下,网页权威性的权重是最高的。
斯科特还强调,在搜索过程中还要注意其他几个方面。“其一,要考虑用户所在的位置,比如用户在北京搜索一家餐馆,上海的餐馆对用户来说就毫无意义。其二,要考虑信息的新鲜度或及时性。比如用户要搜索“奥运会”,大家想得到的信息肯定是与伦敦奥运会相关的一些搜索结果,而不是过去一些陈旧的奥运会信息。在过去的几个月中,我们所做的一个重大的调整就是在新鲜度算法上的调整,以给用户得到更新、更及时的一些信息,这也能为用户提供更好的搜索体验。其三,要注意一些新的指标和判断的因素。例如用户在使用手机搜索,就可以基于位置呈现搜索结果。如搜索“披萨”,搜索结果中很可能呈现最近的披萨店的信息,这和搜索领域未来的发展方向是相匹配的,未来会有更多的移动设备,基于位置的搜索会是用户的新需求之一。”
事实上,Google在呈现搜索结果时要考虑200多个指标,具体到某一个特定的搜索请求,所要考量的指标权重会有所不同,这是依据不同请求而变化的,要依据具体情况来分析。比如输入一个非常泛泛的搜索请求,可能它的指标和输入一个特别具体的,比如说某一个程序中的某一个代码,这样的搜索请求的指标就完全不一样,重要程度也完全不一样。
在斯科特看来,搜索的发展历程可以归纳为从数据到信息,再从信息到知识,最后从知识发展到智慧的过程。目前的搜索引擎仍处于将信息转化成知识的初始阶段。“就将数据转化为信息而言,我们已经做得很好了,现在我们想要进一步帮助用户把信息转化为知识,因此我们坚持快速创新,使搜索更智能化、个性化,充满互动性。
Google搜索的改进过程充满难度和挑战,斯科特表示,Google每天有超过10亿的搜索请求,在处理这些请求的同时,Google仍一直在改进搜索的算法。“大多数时候,在用户并未察觉到时,搜索已经改进了。”据他介绍,通常Google对算法的改进有3个步骤,首先对每项改进做必要性评估,然后在全球不同地区进行小规模实验,之后随机挑选用户进行在线实时实验。截至目前,Google在搜索算法开发上投入的时间超过1000人工年,在特定时间,Google针对搜索功能会进行50~200个在线实验。借助这些精准有序的科学方法,一个好的改进方案从构思到在Google.com上实施操作,最多只需24小时。“去年我们进行了58000多项搜索实验,并最终做出了520多项改进。”
搜索引擎想要做成智慧引擎尚需时日,斯科特展望,“我们发展知识引擎尚属起步阶段,如果我们能实现这一目标,也许有一天可以接近智慧引擎。这意味着我们的系统需要弄清楚用户想要什么,然后综合得出结果,在用户需要的时候将有用的结果呈现出来。我们需要超越页面上的意义,进而真正地理解人物、地点和事件,以及它们之间的相互关系。人脑自然擅长于此,但对计算机来说,这是人工智能的问题。”想要成功就必须克服挑战,目前,Google在数据转化信息方面已取得了巨大进步,现在正迈着稳健的步伐向知识引擎前行。