新一代搜索引擎的研发战略

2011-02-17 04:20:23
中文信息学报 2011年6期
关键词:搜索引擎用户信息

周 明

(微软亚洲研究院,北京 100080)

1 引言

搜索引擎是用户到互联网的入口,对来自通用领域和各类垂直领域的信息起到了信息聚合和流量分配作用。作为互联网的研究平台,搜索引擎不断催生并持续推动着大规模数据的搜集、理解、索引、检索、可视化以及云计算的发展。有了搜索引擎,使得人类得以在大规模真实数据上建立有效的知识系统,推动粗知识粒度的基于逻辑的推理发展为细致知识粒度的基于实例的推理,由原来依赖专家建立的静态知识系统演变为以数据驱动和机器学习为基础的演进式系统。

搜索引擎成为用户获取信息的不可替代的工具。然而,过去的几年,搜索引擎却没有质量上的同步提高。据统计40%的搜索结果不能满意回答用户的问题,50%的搜索关键词需在搜索过程中不断修正以试探最佳结果。搜索引擎提供千人一面的搜索结果,但尚无法提供个性化的信息。

理想的搜索引擎不仅应该快捷地帮助找到所需要的信息,还应该像银行的窗口一样提供个性化的服务。更进一步,它还应该像专家一样辅助用户做出决策并快速完成各种交易。根据中国互联网络信息中心的报告显示,中国网民规模达到4.85亿。同时,社交网络的用户呈现出同步的高速增长, 2011年中国微博用户数量已增长到1.95亿,半年增幅达208.9%。中国庞大的网民数量为搜索的发展提供了广阔的空间。同时,社会关系网络和移动互联网推动搜索引擎的技术将会发生重大的改变。自然语言处理对用户意图的理解和对文本的理解能力的提高,将使得搜索的准确性也将持续改善。互联网搜索领域酝酿着前所未有的新机遇。然而搜索引擎的成功是多方面因素共同作用的结果,需要技术和战略的巧妙配合。本文将深入分析目前搜索引擎技术发展的趋势,指出应该关注的若干重要领域,并且探讨了搜索引擎的研发战略。

2 搜索引擎的发展趋势

首先,搜索引擎将会更加注重强大的信息的整合能力。搜索结果通过多角度、多数据渠道和多媒体展现。譬如搜索北朝鲜,关于朝鲜的简介、新闻、博客、论坛、视频、电视访谈、图片、还有Wiki搜索结果、电子商务搜索结果(比如亚马逊的书),实时的微博,等等各类信息分门别类整齐排列。为了达到完美的整合,需要对诸数据源作深入的信息挖掘。通过一套整合协议,通用搜索引擎平台可以包容来类垂直领域的资源,使用互联网中的庞大的暗网数据。垂直搜索引擎和通用的搜索引擎从原来的竞争关系演变成双赢的生态和谐关系。与此相关的另外一个明显的趋势是,搜索引擎业务和其他业务整合在一起,搜索成为其中的一个功能。例如,微软的英库(http://engkoo.com)把搜索、翻译、语音等技术综合起来,构建英语学习的平台[1-2]。电子商务公司把搜索和电子商务整合在一起。通用搜索的结果可链接到电子商务网店,而电子商务网站则提供更加针对性的商品搜索。还有,即时通信工具上植入搜索。而社会关系网络则将搜索整合进来为用户提供一站式全方位的服务。可以说搜索无处不在。

第二,越来越注重实时搜索能力。拥有上亿用户的Twitter、中文微博、各类社会关系网络,使得任何人可以快速发布信息和个人感想。基于这些信息发展的实时搜索可提供灵活的关键词搜索,譬如以指定在纽约市最近1个小时内的消息。还可提供很多关于地点敏感、人物敏感、情感敏感的搜索功能。发展独立的微博搜索和社会关系网络搜索或者把微博和社会关系网网络的内容纳入到通用的搜索,都是实时搜索的重要应用。

但是微博信息太过繁杂,若没有适当的过滤功能,将使得搜索的结果杂乱无章,甚至充斥着很多灌水、广告、欺诈的信息,从而利用价值大打折扣。另外,使用目前的基于page rank和关键词索引和搜索的技术,用户只能得到一组按照时间顺序排列的微博,用户需要花很长时间去阅读。语义分析技术从大规模杂乱无章的微博中萃取结构化的信息,支持后续的数据挖掘和搜索,应该引起更多的关注。语义分析技术除了常规的自然语言处理包括分词、抽取关键词、适度的句法分析、分类之外,要进行语义角色标注和情感分析[3-4]。

第三,社会关系网络和搜索的互相影响。社会关系网络昭示了下一代互联网的趋势。社会关系网络有望成为互联网的门户和目的地。譬如Facebook已经有7亿用户,用户在其内停留的时间是花在搜索引擎的时间170%和花在邮件和门户的时间的200%。在社会关系网络内提供了涉及新闻、视频、游戏、电子商务等几乎所有服务。人们使用社会关系网络进行信息发布,与别人通信和保持联络,表达自己的观点。企业可以跟踪用户对其品牌的认知度和反馈并进行新品牌的营销推广。

在日常生活当中,人们每天都从自己信赖的人那里获取信息并在此基础上作出决定。如我向同事询问公司附近哪儿能找到最好的饭店;我向父母询问自己是否应该出国留学。在社会关系网络的支持下,当你进行搜索时,你可以看到好友的推荐信息。利用社会关系网络可加强搜索能力[5]。用户使用“赞”可以标记对所搜索或者所阅读网页文档的评定。这些人工评价的信息可以帮助搜索引擎的结果排序。当用户搜索一个主题时,来自好友和其他公开Facebook账号的“赞”过的网页都将会推荐出来。最为重要的是,社会关系网络知道用户的搜索和阅读习惯,以及他的社会关系,因此可以进行个性化的搜索。即使用户不进行搜索,系统也可以为用户利用他的行为习惯和好友关系直接推荐他所感兴趣的内容。利用社会关系网络和互联网,“人肉搜索”也许可以进入规模化操作并且取得比自动搜索引擎不能企及的效果。目前已有一些新兴的网站开始利用SNS来进行回答服务。

第四,搜索结果更加精准。精准是用户对搜索引擎的不变的需求,尤其是在移动互联网时代,由于手机屏幕尺寸狭小且用户在移动中,不能让用户一页一页地翻找答案。未来利用用户在搜索时的丰富环境信息(发出搜索的时间和地点、用户个人信息、社会关系、过去的搜索行为),有望大大提高对用户搜索请求的理解能力,对搜索结果提供更加精准的排序。利用基于社会关系的问答服务(俗称人肉搜索),也可以进一步提高搜索的精度。

第五,搜索的移动化。在手机和平板电脑上网普及化的前提下,移动办公、移动电子商务、移动支付、移动游戏、移动新闻、移动学习、移动交友、移动博客、移动看视频、听音乐都成为常态。移动搜索将成为移动互联网发展的助推器。移动搜索会考虑到动态导航、位置识别,需要把地理信息加入到搜索参数。手机浏览器需要提供更加方便的阅读和浏览功能。在搜索基础上,需方便用户完成其他后续功能。譬如提供商品信息的比较、获取购物优惠券、进行评论。这一切使得人和互联网服务的互动更加直接。

第六,逐渐由搜到用的快速迁移。目前,多种形式的应用平台集合了最优秀的应用程序。用户搜索到相应的应用程序,就可以快速完成某一项任务。以苹果为代表的应用程序店为第三方软件的提供者提供了方便而又高效的软件销售平台,使得第三方软件的提供者参与其中的积极性空前高涨,适应了手机用户们对个性化软件的需求。各类应用程序平台覆盖了商业应用、游戏、音乐、娱乐、教育、社会关系网络、旅游指南、个人理财、辞典、输入法、博客编辑器等众多领域。用户通过搜索得到相关应用程序之后,需要一个通畅的下载并且使用的过程。而且,针对应用程序的搜索,目前多数局限在分类目录和简单关键词,可以预见,未来会逐渐过渡到语义检索以提高搜索的精准度和覆盖面。

第七,灵活的人机接口。利用自然语音、自然语言,图像、配上基于地理位置的各项服务创造出的崭新搜索体验,将会在移动场合(如开车)愈显重要。譬如如下的自然语言查询表达式: 最近的加油站;从新中关到王府井的行车路线;上地到农大沿线的小区;公司附近的饭店等。这些可以用自然语言也可以用语音输入。另外,用音乐搜索音乐和用图片搜索图片等多媒体内容作为查询进行搜索也会成为主流的搜索服务。

第八,个性化。社会关系网络和移动互联网的发展使得梦寐以求的个性化搜索逐步成为现实。它按照每个用户的需求来进行搜索,并且根据用户以前的行为来定制搜索结果的排列方式。另外还会提供强大的推荐功能。用户打开桌面或者手机,系统根据你以往的搜索行为、你所处的位置和时间会自动弹送你需要的信息供你查阅。

3 未来需要加强的研究方向

首先,要加强对用户意愿的理解。根据用户的查询,了解用户需要什么,是给出好的搜索结果的前提。了解用户的意愿可提升用户对搜索的信赖和忠诚度。当用户输入城市名的时候,他很可能要找当地的酒店、地图、名胜等;当用户输入某些症状时,他很可能要找疑似病的特征、原因、治愈方法、可信的专家和医院等。为此,需要加强自然语言理解,譬如抽取用户查询表达式的核心词、修饰成分,如果是自然语言的问题,还需要准确知道问题目标、问题类型。更加重要的是,需要增强对查询日志的分析,借助用户过去的使用行为,配合他所处的社会关系网络,增强对用户查询的理解能力。

第二,实体和知识的获取。从互联网的内容中抽取人、事、产品、服务、内容等实体,并且进而抽取实体之间的关系。从而建立对某些领域甚至全网的本体知识库。搜索引擎可以利用它增强对查询表达的理解,改善查询扩展、适当进行推理,抽取搜索结果并更好地进行排序。

第三,加强自然语言处理技术对搜索的影响。第一个层面就是在建立搜索索引的时候,对采集的网页或者文档进行深层的理解。传统上是把所有的词按照bag of word模型,利用一定的加权措施,建立索引。如果要到深层的理解,从海量信息中提取结构化数据,要依赖更加鲁棒的文本挖掘技术和信息抽取技术,包括命名实体的识别、情感分析、指代消解、语义角色标注、歧义词辩识。第二个层面就是对搜索系统返回的匹配的结果实现有序地进行分类,提取主题,排序,快速找到最佳的搜索结果。第三个层面就是多语言的处理。利用跨语言检索,用户可以用自己的母语搜索外国的网页内容或者在外国旅行的时候搜索本地的内容。机器翻译技术用来进行查询的翻译、摘要的翻译还有文档的翻译。对搜索来讲,通过翻译丰富了内容增加了流量。把对翻译用于搜索的应用得到大量的用户反馈,加上从互联网搜索得到的大规模的双语数据,会有效地提升机器翻译系统的质量。

4 自然语言处理的研究策略

利用互联网、Web2.0和社会关系网络,可有效地支持自然语言处理的研究。互联网已经成了最大的数据资源和最大的人际关系网络。Web2.0通过众包方式,可以建立庞大的数据库和知识库,并且进行低成本的标注。社会关系网络给我们提供了用户个性化的信息,其朋友关系也有助于提高文本处理和搜索的相关性。

在这样的时代下,过去的自然语言处理的方法(我们称之为NLP1.0)需要重新调整。NLP1.0的特点是对每一项单元技术(譬如分词、实体抽取、句法分析、双语词汇对齐等)做深加工以追求局部技术的完美,但是不太考虑该项技术在整个应用系统里面和其他技术配合从而得到系统级的最优。有很多研究片面追求方法的新颖性(哪怕很细小)以便助于发表,但是忽略了方法的简单可靠以支持规模化。有很多研究针对预先规定的数据集合进行训练和测试,但是却无法适用于大规模的真实场景。很多研究囿于小的实验环境却不考虑用户需求和市场因素。我认为有必要适当调整以往的重算法轻数据,重单元技术轻系统,重新颖轻实用,重研究轻用户体验,重实验轻推广,重开发轻商业运营的做法。作为在研究方法论上的一个尝试,我们提出了NLP2.0。其核心思想就是把互联网当成一个研究平台,在其上进行数据获取、模型训练、实施、与用户互动[6]。同时,把自然语言研究和用户需求和市场因素适度地联络起来,争取互动。为此我们倡导: 第一,利用互联网的海量数据来支持各类应用。互联网的各类数据,包括网页数据、论坛、博客、社区问答、用户标签、搜索日志和网络服务日志都需要充分地利用起来。第二,呼吁快速实施。系统在雏形阶段就需考虑尽快投放使用以便根据用户反馈改善功能并且完备界面设计。对搜索而言,可以根据用户日志优化问题理解并改变排序的权重。第三,充分利用社区问答、维基百科和用户标签加强训练和测试。 第四,要加强多学科的交叉,数据挖掘,机器学习,搜索、广告、人机交互、互联网经济学和社会学和自然语言处理充分交融。第五,建立大规模的数据处理平台以支持网络挖掘、信息抽取、模型训练和系统实施。我们通过进行微软对联(http://duilian.msra.cn)[7]和英库(www.engkoo.com)[1-2]的研究,对NLP2.0有了更深的体会。在Web上获取大规模对联数据以及双语例句,然后利用统计机器学习算法建立知识库、对联引擎和翻译引擎。在此基础上,针对用户需求建立系统,然后迅速把系统部署到互联网供用户使用。通过对用户的反馈和对用户使用日志的分析,了解详细的用户需求,获知系统的不足,从而改进系统能力。以微软对联为例,上个月还对不好的上联,下个月也许就可以给出完美的下联。英库也是一样,昨天还查不到的新词,今天就可以查到了,昨天还翻译不好的句型,今天就可以翻译得很好。这些都得益于NLP2.0的策略。

5 搜索引擎的战略

一个搜索引擎的成功非一蹴而就之功。为了支持可持续的发展,需要重视如下几个层次的工作。

5.1 互联网服务的基础架构

为了支持搜索引擎以及建立在其上的各种渐次展开的应用,一个低价的、可扩展的、容错的、安全的服务器阵列所需要的软件和硬件整体配合的基础架构体系是关系到搜索引擎未来长久稳定发展的基础。大公司应建立内部的云计算平台支持搜索引擎、门户、广告等系统。一个初创公司可考虑租用云计算服务以避免创新被基础设施的沉重负担而耽搁。

5.2 适度的并且适时的创新

我们需要研究如何帮助用户良好地表达自己的搜索需求;其次,研究把顺序排列的搜索结果变成结构化的层次性的或者表格化的搜索结果的呈列形式。需要重视提升整体上的用户体验,比如简明的题目和摘要。在垂直领域比如新闻,可以提供深层的新闻事件分析和情感分析。在内容的获取方面,加强对实时内容的搜集和聚合。开发垂直服务使得搜索到任务的完成变得方便。譬如旅游、新闻、购物、交通、地图、辞典等垂直领域。在开发创新的互联网服务时,要有深远的眼光和跨越技术、市场、用户的视角来决定努力的方向,又要把握切入的时机和与之配套的其他服务使得新的搜索系统与已有的生态系统内的服务可以很好地共存。在与搜索配套的广告领域,要持续探索创新的广告模式,加强广告系统的用户自主式服务。在社会关系网络和移动互联网时代,要考虑各种个性化的广告方式。

5.3 创新的文化和创新的人才

创新可以是一个新颖的算法,把时间复杂性和空间复杂性降低。也可以是一个系统,也许该系统的每一个部件都不是创新,但是整个系统的巧妙构造解决了一个新的问题。也可以是一个新的商业模式,该商业模式无奇之处,但是适应天时地利和人和。因此,我们不一定要去啃局部硬骨头,倒是可以鼓励拿来主义,快速掌握人类已有的知识和技术并使之适应本地文化和用户习惯从而解决一个用户头疼的问题。Twitter的成功也发人深思。其构思也许没有太多技术成分,但是它创造了一个崭新的交流方式,使得人们可以没有负担地完成信息发布、分享、评论、推荐等任务,很快使用者云集。

我们应该提倡做有用的研究。第一,问题要从市场需求中来;第二,既然叫研究,就要有独特的创意,而不是别人做了一些东西,你跟着做了一些东西;第三,其结果应该是提供针对某一个问题的整体解决方案。

要建立创新的文化,让所有人都敢于创新,伴随着创新成长。对每一个人要制定一个明确的职业发展路线,并通过严格的考核制度保证执行力。我们需要不拘一格降人才。企业需要找到对科技和创新有独到见解并在数学和编程有扎实基础的人。但是一个人不可能什么都强。因此需要大胆起用并且通过团队合作弥补每一个人的不足。搜索系统需要面对海量的不断变化的数据,面对各种各样的网民诉求而建立起来的互相协同的产品和服务体系,需要多方面的人才,同时也需要人才要不断提高自己增加其他方面的技能。搜索引擎迟早是一个全球化的业务,需要我们既有本地意识也要有全球视野。

6 结束语

搜索引擎的发展从依赖机器算法(譬如基于关键词和page rank)进入到引入人的因素(社区、问答、百科)提高精准性、用户的黏度和技术门槛,从通用搜索进入到各种垂直领域的精耕细作(譬如新闻、旅游),从粗放型的10个链接加上翻页进入到精美的个性化的答案展示。而社会关系网络和移动互联网的大潮催生着搜索引擎领域的新的创新。我们要顺应技术潮流,建立有前瞻性的研究规划,培育创新的技术,创造颠覆性的商业模式。

[1] Matthew R. Scott, Xiaohua Liu, Ming Zhou. Engkoo: Mining the Web for Language Learning[C]//Proceedings of ACL 2011(System Demonstrations).

[2] Matthew R. Scott, Xiaohua Liu, Ming Zhou. Towards a Specialized Search Engine for Language Learners[C]//Proc. of the IEEE, 2011, 99(9): 1462-1465.

[3] Xiaohua Liu, Long Jiang, Furu Wei, et al. QuickView: Semantic Search For Tweets[C]//SIGIR 2011 (System Demonstrations).

[4] Ming Zhou. Semantic Analysis and Search of Twitter and Chinese Weibo[C]//Tutorial at International Conference on Neural Information Processing http://iconip2011.sjtu.edu.cn/T6.html, Nov. 13, 2011.

[5] 李飞,搜索引擎与社交网络的博弈[J].计算机学会通讯,2011,7(9): 54-57.

[6] 周明. 互联网时代的自然语言处理[DB/OL]//第六届哈工大—微软亚洲研究院人类语言技术暑期学校讲座, http://mitlab.hit.edu.cn/2011summerschool/related/HIT-Summer-School-2011@Imingzhou.pdf.

[7] Long Jiang, Ming Zhou. Generating Chinese Couplets using a Statistical MT Approach[C]//COLING 2008: 377-384.

猜你喜欢
搜索引擎用户信息
订阅信息
中华手工(2017年2期)2017-06-06 23:00:31
关注用户
商用汽车(2016年11期)2016-12-19 01:20:16
关注用户
商用汽车(2016年6期)2016-06-29 09:18:54
关注用户
商用汽车(2016年4期)2016-05-09 01:23:12
网络搜索引擎亟待规范
中国卫生(2015年12期)2015-11-10 05:13:38
如何获取一亿海外用户
创业家(2015年5期)2015-02-27 07:53:25
展会信息
中外会展(2014年4期)2014-11-27 07:46:46
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
搜索,也要“深搜熟滤”