全龙翔 马行星
摘 要:大数据这个名词诞生于2008年,其主要应用于商业智能、互联网、云计算,最重要应用突出在人工智能领域。其主要特点是大量、高速、多样、价值及真实性。智能搜索引擎在大数据中应运而生,并且在不断的发展。通过介绍智能搜索引擎的技术选型、框架结构、技术实现方法及技术难点、主要系统功能等,分析其在大数据时代的实际应用性能。可为类似智能科技提供经验。
关键词:大数据;智能;搜索引擎;框架;应用
中图分类号:G250.74 文献识别码:A
文章编号:1003—6199(2020)02—0170—07
Abstract:Big data was born in 2008. It is mainly used in business intelligence,Internet and cloud computing. The most important application is in the field of artificial intelligence. Its main characteristics are large quantity,high speed,diversity,value and authenticity. Intelligent search engine has emerged in large data,and is developing continuously. This paper introduces the technology selection,framework structure,technical implementation methods,technical difficulties and main system functions of intelligent search engine,and analyses its practical application performance in the era of big data. It can provide experience for similar intelligent technology.
Key words:big data;intelligence;search engine;framework;application
“大數据”这个概念最早是全球知名的一家咨询公司“麦肯锡”提出的。它的需要更快更新的处理模式才能适应海量的数据规模、快速的数据流转、多样的数据类型以及价值密度低。这也是其明显的四大特征。
大数据技术的战略意义是在于能够通过对海量数据的加工,对原有数据“增值”。可以将大数据比作一种产业,为这种产业实现盈利。
随着大数据时代的来临,一些特殊技术孕育而生,例如分布式文件系统、云计算平台、MPP、可扩展性的存储系统、互联网和数据挖掘等都适用于大数据技术。
在数据体量持续增长的情况下,智能搜索引擎的出现解决了传统搜索引擎的搜索效率问题。通过人工智能技术的应用,其不仅能够完成传统搜索引擎的一系列功能,且可以根据用户的个人搜索倾向进行搜索内容的自动识别与推送等。
1 智能搜索引擎的技术选型
目前的搜索技术有Lucene、Elasticsearch和Solr。
Lucene是一个开源的高性能工具包,它能够为搜索引擎提供可扩展的搜索服务,在独立架构设计方面,Lucene可以完成基本的全文搜索功能,却使用起来相对复杂。所以当前主流的搜索技术有Elasticsearch和Solr两大框架。
1.1 Elasticsearch介绍
相比较其它搜索引擎来说,Elasticsearch的分布式搜索功能可以有效处理庞大的搜索数据,其能够实现多种搜索方式的融合应用。虽然,该搜索引擎是基于Apache Lucene框架结构,却依然需要利用Java辅助实现系统功能,因此,其框架结构设计也同样较为复杂。
为保证全文搜索功能的有效性,则需要确保其API开发的统一性,这里则无需了解基于Lucener内部引擎的工作原理等相关内容。
Elasticsearch能够将不同字段纳入搜索引擎之中,采用分布式实时搜索后,能够处理超大体量的数据搜索任务,甚至动用成百上千台服务器处理难度更高的非结构化数据。
1.2 Elasticsearch在使用中的优缺点
a.优点:
(1)Elasticsearch并不需要其他组件,因为它的分发是实时分布的。
(2)Elasticsearch 能够接近实时的搜索。
(3)处理多租户时不需要特殊配置。
(4)由于Elasticsearch采用了 Gateway 的概念,所以使得其备份更加简单。
(5)能够在出现节点故障时,自动分配其他节点替气进行工作,保证运行通畅。
b.缺点:自动化尚显不足。
1.3 Solr介绍:
Solr是最流行的企业级搜索引擎,在开源企业搜索平台中有着较为广泛的应用。Solr能够实现的搜索功能有全文搜索、目标搜索、面搜索、聚类搜索,以及多文本处理等。由此可以看出,Solr的功能较为丰富,多元化的数据搜索方案具备一定的扩展功能,且最新版增加了对NoSQL的支持。