基于结构化数据的搜索引擎

2019-03-18 02:14姜恩波覃琳

现代情报 2019年2期

姜恩波覃琳

摘要：[目的/意义]搜索引擎作为互联网的核心技术与应用之一，代表了互联网发展的水平。了解当前搜索引擎的发展情况，有利于更好地把握技术前沿动态。[方法/过程]文章首先阐述搜索引擎的发展历史，然后重点介绍基于结构化数据的搜索引擎的原理、应用场景，揭示这一类搜索引擎的特征。[结果/结论]基于数据的搜索引擎是互联网发展过程中的必然结果，也是互联网发展的一个亮点。搜索引擎会继续将互联网的精英技术和理念收揽其中，在人们的学习、生活中发挥更加突出的作用。

关键词：搜索引擎;结构化数据;知识实体;互联网

DOI：10.3969/j.issn.1008-0821.2019.02.008

〔中图分类号〕G254.9〔文献标识码〕A〔文章编号〕1008-0821（2019）02-0066-07

数据是一个变化的概念。之前的数据主要是指在自然科学、社会科学研究上从自然界采集、在实验室产生的一手数据以及基于一手数据分析、统计产生的二手数据，也就是我们所说的科学数据。这可以算是数据的狭义概念。大数据时代，数据所包括的范围更加广泛，除了科学数据之外，还包括但不限于文本、音频、视频、图片、表格等。数据无处不在，万物皆是数据。而本文提到的基于数据的搜索引擎是指以结构化、细粒度的信息单元为基础，进行知识组织和语义搜索的搜索引擎。

1搜索引擎发展简史

搜索引擎作为第一代互联网的核心技术和成功应用，已经和我们的学习和研究密不可分。人们几乎已经把谷歌、百度、必应这些搜索引擎作为查找东西的代名词，论文、天气、股票、疾病、专家、旅游等等，都可以从搜索引擎里信手拈来。然而，就是这普通得再也不能普通的“你提问——我回答”的行为背后却蕴含着搜索引擎领域不断发展、不断演变，从分类导航到基于知识库服务的历史軌迹。当前，搜索引擎领域已经形成了一个极为庞大的产业，搜索引擎优化（SEO）成为人们推广成果的重要途径。大型的商业企业、学术出版商、信息服务、人工智能等领域都在为有一个功能强大，且方便易用的“搜索核”而努力探索和研究。而搜索引擎其自身也在不断地和最新的技术相结合，满足着大数据时代，用户不断攀升的需求。搜索引擎的发展就是互联网进步的标志。

第一代搜索引擎是以雅虎、DMOZ为代表的分类导航搜索引擎。在那个阶段，互联网信息的数量和类型都远不能和现在相比。雅虎还能通过人工来筛选网页，建立元数据信息，也就是给网页“编目”，再放到合适的类别之下。而Open Directory Project（又称Directory of Mozilla，简称DMOZ）是互联网上最大的目录社区。严格来说，第一代搜索引擎的核心服务是“组织”而不是“搜索”。

随着互联网快速发展，信息量也迅猛增长。更多、更快地汇聚信息，并提供准确的检索结果，是第二代搜索引擎的目标。第二代搜索引擎的核心技术是“采集”和“关联”。每个搜索引擎都会有采集组件。这个组件周期性地遍历互联网。人们形象地把它们称作网络蜘蛛（Spider）、网络爬虫（Crawler）等。评价第二代搜索引擎的一个重要指标就是采集和索引网页的速度和数量。比如谷歌一般是28天。而网络爬虫的性能、并发性、智能性都是研究的热点。

采集回了众多的网页，如何才能把内容更加准确地反馈给用户呢？也就是说在搜索引擎内部，如何更好地组织这些页面。谷歌是NSF资助的众多搜索引擎项目之一。其PageRank算法的主要核心就是不仅计算文本相似度，还计算网页之间的关联度。两个维度的叠加让用户不再需要频繁翻页就能找到自己真正的目标。这一段时间里出现了很多具有实际意义的搜索引擎：Alta Vista、Lycos、Infoseek、Yahoo等，谷歌成为第二代搜索引擎中的翘楚，并且不断推出新的功能，影响着整个互联网。搜索引擎也从单一的信息组织服务发展到电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务的综合体。

2搜索引擎向精准服务的发展

二代Internet飞速发展应该归功于Internet的商业化。商业机构踏入Internet这一陌生世界后，很快发现了它在通信、资料检索、客户服务等方面的巨大潜力[1]。商业机构的加入，从各个方面推动了互联网的普及以及人们对互联网的更进一步的依赖。对于搜索引擎，人们不再满足于仅仅提供一大堆摘要和链接，希望能够得到更为精准的服务。而这正是二代搜索引擎的不足。

20世纪90年代，Tim Berners Lee等人提出了“语义WEB”的概念，认为互联网发展的方向是由“文档网络（Web of Document）”向“数据网络（Web of Data）”进化。在“Web of Document”环境下，Html页面是搜索引擎采集、处理和服务于用户的基本单元。我们知道，Html页面是一种半结构化的组织方式，内容和显示模式放在一起。其次，URL两端所关联的是网页，而页面包含的内容很多，不易准确指向。另外，每一个页面都可能和很多其他的页面建立关联。而这些页面之间具体的关联关系在URL里也是无法直接体现的。而“Web of Data”则是要在互联网现有的内容层面上进行改造、优化和重构。改造和优化是指对Html页面内容增加描述、标注信息，形成结构化的元数据及摘要内容。重构，则是指以结构化的形式发布海量的信息，并且逐渐成为互联网的基础。至此，互联网进入了第3个发展阶段。在这个阶段，语义标注、知识库、知识组织、关联数据和自然语言处理成为其突出特征。

对于搜索引擎，它以互联网内容作为处理和服务的基础。前者发生了变化，自然会导致后者的跟随。“Web of Data”的思想让“搜索”的概念发生了翻天覆地的变化，由“搜索信息”向“理解搜索”转变[2]。人们开始基于结构化数据的信息来改造搜索引擎。

2.1语义标注（Semantic Annotation）与Schema.org

语义标注是采用类RDF形式，对HTML页面内容进行描述，并以“键值对”的方式嵌套到HTML标签中的一种技术手段。语义标注实质是一种隐形的内容片段，旨在为搜索引擎的语义检索和富文本摘要的显示提供支持。搜索引擎在处理特定网页的时候，除了对正文进行例行处理外，重点是要对这些语义信息进行识别。实现语义标注的技术有微数据（谷歌推荐使用）、微格式、RDFa。它们的区别在于所使用的标签不一样或者所嵌入的地点不一致，并且三者不能彼此兼容。

Schema.org是由谷歌、雅虎、必应（Bing）和Yandex联合推出的可用来描述互联网上结构化数据的语义标注体系。简而言之，它提供了描述纷繁事物的统一框架。Schema.org的目标是“改善搜索引擎的有效性，让人们更容易地找到需要的网页”[3]。Schema.org以Thing作为根节点，子标签分为4级。第一级8大类，分别是Creative Works、Intangible、MedicalEntity、Event、Organization、Person、Place、Product。第2、3、4级都是对其父级别的内容进行细化。每一类事物有若干属性以及对应的数据类型，随着标签级别的加深，事物的属性也在继承的基础上，增加本级特有的属性。在技术上，Schema.org采用微数据作为唯一的技术实现方案，希望统一HTML标注技术。

下面的例子来自于Schema.org中文网站[4]。通过对标签的分析，搜索引擎可以准确地了解网页主要是对一部电影（http：//schema.org/Movie）进行描述。电影有两个属性：电影名字（Name）和导演（Director）。

<span>Director：<span itemprop="director">詹姆斯·卡梅隆</span> （出生于1954年8月16日）</span>

</div>

语义标注是互联网发展的一个方向，它为搜索引擎精准服务提供基础素材。从目前的应用情况来看，语义标注在国外宣传和应用的情况较好。国内总体来说还处于理论研究和小范围使用阶段。一些机构制定了语义标注体系，例如cnSchema.org。cnSchema.org是一个基于社区维护的开放的知识图谱Schema标准，由来自北大、清华等若干高校和研究机构共同制定与维护。

2.2RDF搜索引擎

基于Tim Berners-Lee的“Web of Data”理念，众多的机构开始以关联开放数据（Linked Open Data，LOD）作为一种最佳实践来发布信息。这包括维基百科、大英图书馆书目信息、纽约时报等等。关联数据的特征之一就是采用RDF来对信息进行描述和组织，通过多个RDF实例来形成一个概念的数据模型。而每一个RDF实例则是由资源、属性类型、属性值构成的结构化的三元组（Triple）。三元组的架构准确地展现了主、宾之间的关系（谓语），为搜索引擎“理解”用户意图，提供精准服务打下了基础。

基于此，互联网上出现了众多RDF知识库，如Yago、Freebase、DBpedia、musicBrainz等，也出现了基于RDF的搜索引擎。与传统搜索引擎不一样，这些搜索引擎的采集对象不是网页，而是RDF三元组，如Swoogle、Falcons和Sindice等。

然而，RDF搜索引擎存储的是结构化的三元组信息，是用非常简洁的形式表达对象之间的关系。因此，这种搜索引擎的用户主要不是面向普通用户，而是机器。机器通过SPARQL语句发出请求，搜索引擎执行查询语句，并将结果以JSON-LD、RDF/XML、Turtle等格式返回。SPARQL是一种功能强大的查询语言，允许应用程序对RDF数

据库进行复杂的查询。但是它毕竟是一种面向底层的查询语言，普通用户掌握起来有很大的困难。因此，最开始的RDF搜索引擎存在搜索界面不友好、结果显示界面信息不丰富和欠美观的情况，并未走入寻常百姓家。

随着语义网的发展，RDF数据库越来越多，人們希望能够充分发挥RDF三元组精准描述的特性，因此，逐渐出现了一些能够提供基于半自然语言提问的问答型搜索引擎（Question and Answer Search Engine）。

2.3知识图谱（Knowledge Graph）与谷歌、必应

作为互联网搜索引擎巨头，谷歌不断推出新的理念、标准和产品。2012年5月，谷歌发布“知识图谱（Knowledge Graph，KG）”，并且将知识图谱加入到谷歌搜索中。知识图谱的概念来自于上世纪60年代，知识图谱的本质是描述真实世界中存在的各种实体或概念及其关系的网络图。它能够极大改进搜索引擎的效率和效果，为智能应用奠定基础。知识实体的建设是基于数据搜索引擎的基石。实体又被称作概念（Concept）、事物（Thing）或知识元。知识实体的数量、准确性以及详细程度决定搜索引器服务质量的基础。

谷歌知识图谱的实体信息内容丰富，包括且不限于CIA的世界概况，Freebase和维基百科[6]等。2012年谷歌知识图谱已经包含了超过5.70亿个经常被搜索的人、地名和事物[7]。它服务的方式类似于维基百科（Wikipedia）的InfoBox，在搜索结果页面的右边栏，加上了针对关键词的一些结构化描述内容。

与谷歌进行竞争的是微软的必应（Bing）搜索引擎。必应同样也是基于细粒度知识单元的搜索来提供服务。微软称之为“实体搜索”（Entity Engine），其知识库叫做Satori。与谷歌不同的是，微软知识库建设的方式是靠微软自身以及众多第三方加入[3]。2014年，必应在其Satori中加入了关于出租车[8]、历史名人时间履历（Timelines）[9]和关于医生、律师、牙医以及房地产的约1.5亿个实体和关系的内容[10]。后续，必应又陆续加入了TED演讲、大学排名、历史事件、大学开放课程以及地名与人名的关联等等[11]。而通过加入第三方的实体，必应希望在为用户提供检索结果的同时，帮助触发第三方的应用，从而让搜索引擎给用户的服务能够更加深入一步，因此，必应也叫做执行搜索引擎（Do Engine）[12]。

谷歌知识图谱和必应实体搜索的发展，是知识图谱技术经过多年的积累在互联网领域的应用。这也引发了国内外各个领域对知识图谱、知识库技术与应用的研究，例如大規模知识图谱的命名实体识别与关联构建、知识表示与知识融合、海量知识库的数据存储等等。国内也出现了一些基于知识图谱的典型应用，如搜狗知立方、百度知心等。

2.4问答型搜索引擎

问答型搜索引擎是一种特殊的搜索引擎。谷歌、必应、百度等搜索引擎给用户提供的还是以提供相关网页概要及链接为主。其背后的原理是根据关键词，帮助用户筛选出可靠的答案可能在的网页。而问答型搜索引擎则以为用户提供精准答案为目标。需要说明的是，问答型搜索引擎与问答型网站是两种不同的产品。前者如Wolfram Research、Ask Jeeves、QUERIX，是理解问题，自动计算并回答。而后者则是由产品管理人员或者用户回答，属于UGC模式的一种产品类型，如Yahoo Answers、百度知道、知乎、AnswerBag等。

问答型搜索引擎底层在搜索界面上屏蔽了之前RDF搜索引擎的技术细节，让使用过程更加人性化。另外，问答型搜索引擎集成了自然语言（NLP）的研究成果，让用户的检索过程更加方便。一些问答型搜索引擎为了更为准确地理解用户输入的内容，设置了一些句式模板。以图3 QUERIX为例，它在用户的提问方式上进行了一些限制，要求用户要以特定的词汇开始提问，例如What、Which、How Many、Give Me等等。接收到用户的输入后，搜索引擎首先会对语句进行结构分析、语词依赖性分析、实体识别，力图“理解”用户的真实意图，再转换为内部检索指令。以DBpedia的SPARQL Endpoint服务为例，如果我们要从维基百科中查询“有哪些人出生在柏林”，转换成SPARQL语句就是：“select ？p where{？p dbpprop：birthPlace"Berlin"@en.}”。

笔者认为，当前最为杰出的问答型搜索引擎是由沃尔夫勒姆研究公司（Wolfram Research）开发的WolframAlpha搜索引擎。有人认为，WolframAlpha其实是一个计算知识引擎，而不是搜索引擎。例如，如果想了解美国主要农产品的信息，只需要输入：What Are the Main Agricultural Products of U.S.，WolframAlpha给出的答案由以下几部分组成：美国12种主要农产品的名称、美国农业基本信息片段，包括2015年的农产品附加值;主要农产品类型、年度耕地面积以及气候类型、主要肉类产品2006年的产量、主要畜牧种群特定年份的数量。图4是其中的2个部分：

通过对搜索结果分析，我们不难发现这么几个特征：1）WolframAlpha能够比较好地理解用户问题，并且可做自动联想，实现了“模糊语义识别”;2）返回给用户的搜索结果不再是一堆网页链接，而是一些很“干净”的、经过计算的数据;3）围绕问题的核心答案之外，还给出了与问题相关的答案，互相补充;4）每一部分答案，WolframAlpha都给出了信息的来源“Source”，方便用户进一步阅读与核对。

WolframAlpha之所以能够提供这么直接和准确的服务，其核心组成部分是庞大的知识库和基于知识的编程Wolfram语言。与其他搜索引擎一样的是，WolframAlpha也拥有一个积累了30年的、从公众的和获得授权的资源中，发掘、建立起一个异常庞大的经过组织，高度结构化、关联化的数据库[14]。目前已经有上千个领域的数据。在这个知识库中，资源被抽取、处理成“符号”。符号表达表示所有数据、公式、代码、图形、文档、界面等，都可以被计算[15]。图5是Wolfram知识库的领域与数据类型。

而Wolfram语言则是操作这些知识和符号的强大工具。Wolfram语言是一种基于知识、符号编程、自然语言风格的编程语言，其结果则表现为一系列函数[17]。每个函数从不同的角度来处理信息，形成不同的效果。例如获取西欧各个国家的首都函数是：

在WolframAlpha系统中，“世界是可表示的，世界是可计算的”[18]。据统计，在其产品Mathematica中就有约5 000个函数。不仅如此，Wolfram面向互联网开放其编程语言，提供培训课程和知识库接口。用户通过Wolfram语言获取知识库反馈的相应结果，并嵌到自己的页面中来，“使得对任何信息的计算在任何地方都变成可能”[19]。

3结论

从分类目录导航到海量网页关联再到细粒度的知识实体抽取，伴随着互联网的发展，搜索引擎也从第一代进化到了第三代。在这个过程中，搜索引擎变得越来越庞大，需要囊括的辅助性内容也越来越多：知识实体抽取与摄入、结构化知识的组织、自然语言理解、海量内容的存储等等。简简单单的检索框后面蕴含了极其复杂的机制。“搜索”一词似乎已经不能很好地概括搜索引擎的核心特征了。搜索引擎的服务也从互联网初创时候的“求全”发展到大数据时代的“求准”。我们无法判断在下一个十年里，搜索引擎会以什么方式出现，但是我们可以知道的是搜索引擎的发展不会停歇，而是会以更加“鲸吞”的态势将互联网的精英技术和理念收揽其中，如人工智能、语音识别、知识计算等。搜索引擎将在人们的学习、生活中发挥更加突出的作用，融合地也更加紧密。

参考文献

[1]百度知道.互联网的发展历程是怎样的？[EB/OL].https：//zhidao.baidu.com/question/43968610.html，2018-06-12.

[2]外电精选.Bing推实体搜索：理解+执行[EB/OL].http：//it.sohu.com/20140331/n397476194.shtml，2018-06-12.

[3]ReadWriteWeb.com.Google、微软和雅虎宣布合作推出Schema.org[EB/OL].https：//www.csdn.net/article/2011-06-08/299399，2018-06-12.

[4]Schema.org中文.Schema.org 開始指南[EB/OL].https：//schema.org.cn/docs/getstarted.html#microdata_why，2018-06-12.

[5]Swoogle网站.Swoogle 检索结果[EB/OL].http：//swoogle.umbc.edu/2006/index.php？option=com_frontpage&service=search&queryType=search_swd_ontology&searchString=nano&searchStart=1，2018-06-12.

[6]维基百科.Google知识图谱[EB/OL].https：//zh.wikipedia.org/wiki/Google知识图谱，2018-06-12.

[7]果壳包果核.知识图谱：让搜索通往答案本身[EB/OL].https：//www.guokr.com/article/436628/，2018-06-12.

[8]Barry Schwartz.Bing Improves Tax Related Search Results Before April 15th[EB/OL].https：//searchengineland.com/bing-improves-tax-related-search-results-april-15th-185155，2018-06-12.

[9]Matt McGee.Bings Satori Adds Timeline Data For About 500k Famous People[EB/OL].https：//searchengineland.com/bings-satori-adds-timeline-data-500k-famous-people-184969，2018-06-12.

[10]Barry Schwartz.Bing Snapshot Adds 150 Million New Entities & Relationships To Search Engine[EB/OL].https：//searchengineland.com/bing-snapshot-adds-150-million-new-entities-relationships-search-engine-188076，2018-06-12.

[11]Barry Schwartz.Bings Knowledge Repository，Satori，Adds More Interactive Content[EB/OL].https：//searchengineland.com/bings-knowledge-repository-satori-just-got-a-lot-smarter-179800，2018-06-12.

[12]Frederic Lardinois.Microsoft Has Big Plans For Bings Entity Engine[EB/OL].https：//techcrunch.com/2014/03/30/microsoft-has-big-plans-for-bings-entity-engine，2018-06-12.

[13]Wolframalpha.com.WolframAlpha 检索结果[EB/OL].https：//www.wolframalpha.com/input/？i=what+are+the+main+agricultural+products+of+U.S，2018-06-12.

[14]百度百科.WolframAlpha百度百科词条[EB/OL].https：//baike.baidu.com/item/WolframAlpha/5286902，2018-06-12.

[15]Wolframalpha.com.WolframAlpha原理和概念[EB/OL].http：//www.wolfram.com/language/principles/，2018-06-12.

[16]Wolframalpha.com.Wolfram Data Repository[EB/OL].https：//datarepository.wolframcloud.com/，2018-06-12.

[17]36kr网站.革命性的基于知识编程语言Wolfram发布第一个演示[EB/OL].http：//36kr.com/p/209963.html，2018-06-12.

[18]360百科.Wolfram语言[EB/OL].https：//baike.so.com/doc/7879585-8153680.html，2018-06-12.

[19]Wolframalpha.com.关于Wolfram Research[EB/OL].http：//www.wolfram.com/company/background.html，2018-06-12.

（责任编辑：陈媛）