那 罡
百度的“框计算”(Box Computing)技术理念提出已经有一段时间了,这个试图打破用户获取信息瓶颈的技术理念,最核心的元素就是阿拉丁平台。百度阿拉丁项目的总负责人、百度主任架构师廖若雪坚信,阿拉丁将会引起一场搜索引擎的风暴。
幕后的阿拉丁
廖若雪认为,搜索引擎面临的挑战,实际上其本质便是“用户需求的提高”。由阿拉丁为核心的框计算技术理念,与Google所倡导的计算平台云计算相比,后者更强调后台基础设施的配置不同,而前者更强调前端用户需求的满足和响应。
既然用户的需求在提高,那么基于满足用户需求的框计算顺理成章地成为了解决之道,而且,框计算也强调“提供基于互联网的一站式服务,是一种简单可依赖的互联网需求交互模式。”这与网民的“懒惰”颇为默契。根据百度董事长兼CEO李彦宏对框计算未来的描绘,“框计算”将应用到信息检索、旅游、游戏、购物、杀毒、投资理财等领域,是一个宏伟的计划。
对此,廖若雪表示:“资源获取不再局限于传统的抓取模式,需要有应对互联网环境和资源变迁的新型数据获取方式。阿拉丁是框计算技术理念的一部分,除了应对互联网上的暗网信息,更重要的带来了搜索体验的革命,让查询的需求得到直接满足。”由此可见,阿拉丁诞生的初衷是解决互联网上不能被检索到的暗网信息,但其根本目的却是满足网民对精准获取信息的需求。
所谓暗网就是那些数以万亿计的没有被搜索到的信息,而用户能够搜索到的信息只是互联网中冰山一角。阿拉丁是为暗网而生,它的得名也因此而来。在廖若雪看来,暗网实际上有四层含义。第一种是网上存在,但不可能获取到的,比如一些加密的数据库,收费的资源;第二种是网上存在;第三种是没有电子化的信息,比如一些古典著作;第四种是人脑中储存的信息。现在搜索引擎只有75%的需求得到了满足,很大一部分没被满足的需求,瓶颈就在“暗网”上。“挖掘暗网信息,让它们浮出水面,这是阿拉丁的第一步。”廖若雪说。
阿拉丁探索暗网
阿拉丁平台的推出,正是为解决现有搜索引擎无法抓取和检索暗网信息而来。如果把搜索引擎比做一个探照灯,在无边无际的信息宇宙中扫射并且记录下来,那么,那些探照灯从来扫射不到的区域,都是暗网。搜索引擎必须直面用户需求的变化,否则将被用户淘汰。百度在2008年4月就推出的开放搜索平台阿拉丁作为框计算技术理念的一部分,除了应对互联网上的暗网信息,更重要的带来了搜索体验的革命,让查询的需求得到直接满足。
作为整个项目的负责人,廖若雪最关心的还是技术障碍。在他看来,“用户需求分析”和“结果排序”是“阿拉丁”面临的最大挑战。同时, 如何将已知和未知信息分门别类地融合,有序地纳入到我们的知识范畴,并且能够为广大互联网用户提供零成本、无障碍、无时差的精准送达。
对于用户需求的识别,用户的表达方式是多样化的,所以必须通过自然语言处理等技术,找到用户的真正需求。比如,用户查找“从百度大厦到赛迪大厦有多远”,“百度大厦到赛迪大厦的距离是多少”,实际上问的是同一个问题,“阿拉丁”必须要做到对两个问题同等对待。
排序实际上是根据需求而来的,阿拉丁引入了两个因子来解决这个问题,一是“需求满足度”,二是“需求响应程度”,“结合这两种因子来说,最终我们可以对最终的结果排序做出一个比较好的解决。”
可以预见,阿拉丁的未来,会更加智能化,更加技术化。对此,廖若雪举了个“休假”的例子。假设未来用户要去休假,在现有的搜索引擎中,“检索到的东西几乎没价值”,但在阿拉丁平台中,结果截然不同。
廖若雪表示,首先我们通过语言处理技术,挖掘出用户想干什么,再挖掘出其隐含的需求,结合他所在的城市,甚至他的游玩习惯,最后匹配机票、火车票、酒店、旅行团,乃至目的地评价、天气、旅游保险、签证、地图……最后给用户一个一体化的展示页面。