孙云丰:一“框”打尽搜索需求

2009-04-22 03:08
中国计算机报 2009年32期
关键词:暗网阿拉丁周杰伦

一“框”打尽搜索需求

“搜索引擎正从一个象牙塔里的高级系统,变成人们生活中必不可缺的日常工具。5年以来,中文用户的搜索行为,并没有变得更‘高级,更熟练,而是相反,变得更‘傻瓜了。甚至是当年的‘高级用户,搜索行为也慢慢地‘堕落了。”百度首席产品设计师孙云丰甚至觉得,现在的搜索引擎所面临的状况,完全不能让人乐观。

回首搜索引擎的创新之路,从表面上看,搜索引擎可以说是最简单、最简洁的,但它又是最复杂、最有深度的。10年间,搜索框还是原来那个搜索框,但其背后蕴含的技术已经发生了翻天覆地的变化。

百度要“框”谁?

2004年孙云丰加入百度时,百度只有4岁,那时候他甚至不知道李彦宏发明的超链分析技术,这早已成为一个百度内部广为流传的玩笑。一直从事搜索引擎相关的用户需求分析和产品设计工作的孙云丰,算得上是对用户需求了解程度最深的几个百度人之一。

孙云丰对记者说:“在过去一年中,中国网民在搜索框中输入的关键字越来越长,大于16个字节的搜索比例已经达到了29%。甚至有的网民直接在搜索框中输入一个问句,比如‘身体瘦弱,性格内向,一男孩应该报考什么高职专业?这些用户把搜索引擎当成一个活生生的人来提问。”他认为搜索引擎的作用并不是要教会人们如何使用复杂的关键字匹配技术,来达到“一击必中”的效果,而是要更聪明地去理解网民想要干什么,从而把更准确的结果提供给他。

这一个看似简单的搜索请求,首先需要被拆成不同粒度的20个语义单位进行分析,要在后台经过3亿次计算来识别这个需求,并在100亿个网页资源中检索并进行需求分配,而整个过程需要在不到十分之一秒内完成。

随着网民对信息获取的要求越来越高,搜索引擎正在面临新的挑战,只有追求创新、保持专注才能突破瓶颈。对此,百度在今年提出了“框计算”(Box Computing)技术理念和下一代搜索引擎阿拉丁平台。未来,框计算将被应用到各种互联网应用上,为用户提供一站式服务,而阿拉丁即是框计算的重要组成部分。

“框”的野心是,不仅要解答用户需要的知识,还要响应用户的情感需求;不仅希望用户通过搜索框能找到知识的答案,还希望能给用户以人性化的结果。类似于“电脑不显示桌面上的图标鼠标也不能右击怎么办”、“听起来让人觉得开心的MP3”、“北京哪里能找到女朋友结婚”,这样似乎不符合传统搜索规范的问题将都能在百度得到解决。

稀奇古怪的挑战

记者了解到,网络信息的爆炸式增长和网民的个性化需求不断增加,使搜索引擎靠传统方式抓取信息很难满足现状,而百度在优化传统抓取方式的同时,采用了“推”的思路获取资源。孙云丰说,未来搜索框的应用将无限扩展,成为一个便捷的纽带,将用户与信息、应用连接起来。

或许,未来的电脑将只有一个“框”。我们曾经在命令行中输入“Dir”来获取目录列表,如今在搜索框中却可以输入千奇百怪的句式。网民搜索请求正在变得多元化、个性化,甚至到了稀奇古怪的地步。

随着搜索引擎的普及,它已经成为人类获取信息最重要的途径之一。而在中国,百度的网民覆盖率已经超过92.2%,预计将成为第一个覆盖率达到100%的中文互联网服务。根据百度对搜索关键词的监测发现,来自网民的Unique Query(唯一检索请求)累计已经超过1亿,而在2003年的时候,这个数字只有几百万。

这也就是说,以往网民的需求往往“同质化”,倾向于了解“是什么”、“什么样”这样的问题,而现在,网民越来越倾向于通过搜索引擎帮助他做决策。比如,之前网民搜索“周杰伦”,主要是了解这位明星的资讯、专辑、歌曲等,现在网民或许希望知道“周杰伦有哪些绯闻女友”或者“周杰伦的妈妈是谁”等问题。

孙云丰说,用户正在变得越来越“懒惰”,他们希望得到直接的答案,而非一堆链接。这实际上可以大大降低用户获取信息的时间和判断成本。归结搜索引擎面临的挑战,实际上其本质便是用户需求的提高。

照亮无限暗网

所谓暗网就是那些数以万亿计的没有被搜索到的信息。实际上,用户能够搜索到的信息只是互联网中的冰山一角。

很显然,搜索引擎必须直面用户需求的变化,否则将被用户淘汰。百度在2008年4月就推出的开放搜索平台阿拉丁作为框计算技术理念的一部分,除了应对互联网上的暗网信息,更重要的是带来了搜索体验的革命,让查询的需求得到直接满足。

“暗网的存在是因为很多网络技术人员不懂得合理的建站技术,不恰当地建设网站和管理信息所导致的,对于这些人来说,暗网搜索或许是救星。”孙云丰表示,他将暗网分成四大类,包括:1.网上存在,但未公开。比如企业法人资质查询。2.网上公开,但难获取。比如很多数据库类的网站——北大图书馆。3.现实中存在,但未上网。Google正在做的数字图书馆计划,就是期望解决这类问题。4.人脑中存在,但未记录。这类浩如烟海的信息,完全没法统计。

阿拉丁平台的推出,正是为解决现有搜索引擎无法抓取和检索“暗网”信息的问题。“如果我们把百度搜索引擎比做一个探照灯,在无边无际的信息宇宙中扫射并且记录下来扫射到的信息,那么,那些探照灯从来扫射不到的区域,都是‘暗网。如何将这些已知和未知信息分门别类地融合,有序地纳入到我们的知识范畴,并且为广大互联网用户提供零成本、无障碍、无时差的精准送达,是百度有史以来在技术上面临的最大挑战。”孙云丰深感阿拉丁计划的压力。

猜你喜欢
暗网阿拉丁周杰伦
Chapter 2 A walk to nowhere
被“暗网”盯上的年轻人
不及格的周杰伦,说好不哭还是哭了!
当我们谈论周杰伦时
阿拉丁
《阿拉丁》 身份永远不能定义你自己
周杰伦 桀骜的少年也有坚持和守护
阿拉丁