摘 要:互联网技术的飞速发展,使得信息呈现出一种爆炸式的增长趋势,在这样的时代背景之下,通过搜索引擎技术能够让民众更加快速的在网络之上搜寻到自己需要的内容。对此,本文浅谈计算机搜索引擎智能化技术,期望能够借此有效促进我国计算机搜索引擎的进一步发展。
关键词:计算机技术;搜索引擎;智能化
中图分类号:TP393.09 文献标识码:A 文章编号:2096-4706(2019)05-0102-03
Abstract:With the rapid development of internet technology,information shows an explosive growth trend. In such an era background,search engine technology can enable people to search the content they need more quickly on the internet. In this regard,this paper discusses the intelligent technology of computer search engine,hoping to effectively promote the further development of computer search engine in China.
Keywords:computer technology;search engine;intelligent
0 引 言
网络时代的到来,促进了信息以及知识的网络化传播。随着当前我国科学技术的飞速发展以及智能化技术的广泛应用,搜索引擎智能化已经逐渐成为计算机搜索引擎的未来发展趋势,本文通过对计算机搜索引擎的设计原理进行研究分析,并在此基础之上浅谈搜索引擎智能化特征,最后对计算机搜索引擎智能化技术进行了深入探索。
1 搜索引擎智能化技术的重要性
随着大数据时代的到来,信息的传播方式逐渐朝着网络化方向发展,同时信息量也随之大大增加,这使得民众搜寻信息的效率大大下降。计算机搜索引擎是互联网时代背景之下新兴的一种信息检索系统,其主要功能就是在大量的网络信息之中搜索出特定的信息。在网络时代背景之下,网络中的海量信息根据关键词的不同被划分为不同的类别,民众在使用计算机搜索引擎的过程中,只需要输入关键词,就能够快速从海量信息之中搜寻出和关键词相关的信息内容,获得自身需要的信息。通过将智能化技术应用到计算机搜索引擎之中,可以提高检索分析结果的准确性。
2 计算机搜索引擎及其智能化技术
2.1 搜索引擎的设计原理
搜索引擎从本质上来说是一种软件程序,其主要是通过各种算法对网络之上的种种数据信息以关键词为核心划分为一个个类别,最终形成一个巨大的数据库。当民众使用搜索引擎通过关键词进行信息检索操作时,与民众输入的关键词相关的信息就会以一定的排名出现在界面之上,借此让民众能够快速检索到自身所需要的信息。
搜索引擎的主要功能就是信息检索。初期设计的搜索引擎主要是企业单位用来检索内部信息的数据库,借此快速获得企业单位的相关信息。随着我国科学技术的日新月异以及网络技术的发展与应用,计算机搜索引擎的应用范围也随之变得越来越大,搜索引擎的定義也因此发生了改变。
现今,计算机搜索引擎主要指的是检索互联网信息的软件程序,根据索引形式的不同,可以将计算机搜索引擎划分为综合门户搜索、链接评价搜索等多种类型。要想有效应用计算机搜索引擎,首先就必须要建立一个完善的索引数据库,通过利用搜索引擎来对索引数据库进行检索,借此帮助民众快速找到自身需要的信息资源。
第一点,信息分类机制的准确性不足。在对信息建立索引数据库时,涉及到的信息量太多,因此无法实现对所有的信息资源进行完全整合,例如:关键词出现的概率以及文档类别和长度之间的平衡处理等多方面的内容,这些都会导致信息分类准确性不足的问题发生。
第二点,信息排序的准确性不足。现今,我国所有对搜索引擎进行的优化工作,其根本目的都是为了提升信息排序的准确性。但绝大多数SEO优化都存在问题,非常容易造成搜索引擎信息排序出现错误,对信息排序的准确性产生严重影响。
第三点,信息实时更新能力较差。造成这一问题的主要原因就是网络上的信息量太大,当前我国搜索引擎相关硬件以及算法技术等多方面的内容无法实现实时检索。
3 计算机搜索引擎智能化特征
要想有效解决当前我国计算机搜索引擎之中存在的问题,就必须要积极研究计算机搜索引擎智能化技术。通过该技术不仅能够有效提高计算机搜索引擎的检索能力,同时还能够通过结合民众的性别进行自动识别,对于民众搜索的语义能够结合情境快速进行信息过滤以及信息推送,借此将计算机搜索技术从原来的以关键词为基础的算法转变成为以知识层为基础的算法,甚至实现自然语言搜索服务。
随着智能化技术的发展与应用,计算机搜索引擎智能化已经成为当前我国计算机搜索引擎未来发展的必然趋势。现今,我国民众在使用计算机搜索引擎的过程当中,首先需要提供一个或者多个关键词,之后通过搜索引擎在索引数据库之中进行检索,从而得到自己想要的信息。这种计算机搜索引擎具备一定的局限性,并且查找率也远远不足。通过将人工智能技术和计算机搜索引擎有机结合起来,设计一个智能化搜索引擎,可以有效提高用户信息检索的效率以及质量。相比于传统计算机搜索引擎,智能化搜索引擎检索精准度更高。计算机搜索引擎智能化特征主要有以下三个方面的内容:
第一点,智能属性。通过搜索蜘蛛能够自动完成遍历互联网,同时根据启发式学习能够实现自动索引信息,同时对索引的最终结果进行智能化分析,最终将具备价值的信息内容存储到数据库之中。
第二点,主动属性。计算机搜索引擎能够结合民众的搜索行为,进而对用户的实际需求以及兴趣进行总结和分析,进而对反馈信息进行合理调整。
第三点,交互属性。智能语音识别技术的发展与应用,使得计算机搜索引擎能够和民众之间实现语言交互,通过语言的语境来保障分词的准确性,从而精准把握住民众的实际搜索需求。
4 计算机搜索引擎智能化核心技术说明
现今,我国计算机搜索引擎智能化技术的核心主要分为以下两个方面的内容:分别是语义理解技术以及机器翻译技术。其中,机器翻译技术的主要作用就是让自然语言和计算机语言之间能够自由转换,从最开始的完全靠人为编写规则的全机械翻译方法,发展成为后来的SMT翻译方法,时至今日的具有人工智能的神经机器翻译NMT,在过去的日子,机器翻译不断迭代更新,尤其是在深度学习技术走入我们生活中后,机器翻译的正确率得到了很大提升。基于深度学习的神经翻译技术采用一种端到端(End-to-End)的结构,优点在于不再需要人为的去抽取特征。另外,网络结构设计简单,不需要进行词语切分、词语对齐、句法树设计等复杂的设计工作。虽然需要极其复杂的训练和大量的样本统计,但是还是广泛被Google等搜索引擎所采用。
从最初完全基于人为编纂规则的机器翻译方法,到后来基于统计的SMT方法,再到现在神经机器翻译NMT,机器翻译技术在过去60多年的时间里一直不断的更新,特别是在2012深度学习技术进入人们视野之后,机器翻译的准确率不断刷新,例如:在用户使用自然语言进行检索的过程当中,哪怕用户使用的是母语如汉语去搜索非母语如英语的网络页面,通过机器翻译技术也能够将用户的汉语翻译成英语进而获取搜索结果,并将最终结果之中的英语翻译成中文再提供给民众。语义理解技术主要是通过结合语言学来对民众的语言以及语义进行准确理解。语义理解技术是NLP技术组成的一大重要部分,语义理解的核心除了要理解词汇本身的含义,在文章行文中,在段落中,在句子中的语意都需考虑在内。语义理解可以分为三层结构:首先,应用层,包括行业应用和智能语音交互系统/技术应用,其次,NLP层面,主要以语言、文学、计算机语言等诸多学科为参照背景,对自然语言进行深度解析,抽取时间、因果、天气、情绪等因素来判断,最后,自然语言生成(NLG层),最终让计算机“明白”人的语言,具有人的言语认知,把计算机数据转化为自然语言。
4.1 自然语言语义理解技术
现今,我国语言识别技术已经发展的相当成熟了,但是要想通过该技术将识别的语言内容分解成为一个一个的关键词,进而让搜索引擎进行搜索获得准确的回答,那么其难度将会大大增加,特别是我国语言博大精深,一个相同的词汇在不同语境之下有着截然不同的含义。因此,自然语言理解技术必须要能够结合不同的语境来对关键词的含义进行精准把握,进而为民众提供更加准确的信息内容。本文总结了以下两种自然语言语义理解技术,分别是汉语分词技术、短语识别技术。
第一点,汉语分词技术。由于汉语之中词语和词语之间并不存在明确的界限,我国在没有发明标点符号之前,经常出现因为语句断句的不同,导致一句相同的句子有着截然不同的含义的情况发生。到现在,随着标点符号的出现,这一现象少了许多,但是在一句话之中,停顿的地方不同也同样会导致句子出现截然不同的含义。因此,必须要应用汉语分词技术,来精准把握民众语言的实际含义,有效防止因为识别错误导致最终检索结果与民众需要的内容南辕北辙的情况发生。例如:可以通过结合民众语言之中每个词语出现的频率,之后通过正向、逆向最大匹配法对词语的含义進行详细划分,有效防止歧义出现,有效保障分词的准确性。我们以最大匹配法为例,最大匹配法很简单,适用于对分词要求不高的场景。
按照匹配的方向,最大匹配法分为:正向最大匹配(Forward Maximum Matching,FMM)、逆向最大匹配法(Reverser Maximum Matching,RMM)、双向最大匹配法(Bi-directional Maximum Matching,BMM)。
以正向最大匹配法为例,设A为句子A的一个子串,词表中最长词的字数为m,正向最大匹配法的过程描述则为:首先初始化,指针p1指向句首位置,如果p1到达句子末尾,分词结束;p2=p1+m;如果p1和p2之间的字符串A在词表中不存在,p2--,重复此步骤;如果p1和p2之间的字符串A在词表中存在,则A是一个词,p1=p2+1,转第一步骤。
第二点,短语识别技术。短语识别技术主要是对汉语分词技术进行有效补充,基于基本名词短语(base noun phrase,base NP)的识别是我们研究自然语言处理的重要方向,目的是从文本中提取单一、非嵌套式、不包含其他名字的短语(非复合短语),基本名词短语含有丰富的语法和语意,识别结果可服务于搜索引擎。民众通过搜索引擎进行关键词查询时经常使用多个关键词组成的短语,其又被称为长尾关键词,并且长尾关键词叠加会形成加长长尾关键词,当出现这些情况时就必须要应用短语识别技术对这些关键词进行正确分词,借此有效保障民众信息检索的精准性。
4.2 人机界面交互智能技术
智能搜索引擎的人机交互最为显著的特征就是和民众之间的互动,其不再局限于搜索框之上的交互。一般情况下人机界面交互智能技术包含搜索提交技术的语言语音、搜索结果的智能化技术、搜索向导以及搜索行为技术等多方面的内容,GOMS模型认为,用户使用交互界面执行任务时,都有一个目的,这个目的可以细分为许多子目标,为了完成每个子目标,可使用不同的操作和方法。如果实现目标的方法多于一种,用户依据当前情境,利用GOMS提供的选择规则选取适当的方法来实现目标。通过该技术能够对模糊语义、精确语义以及自然语义等多种不同形式的语义进行查询,同时这些智能化技术也是建设人机交互界面的核心所在。
4.3 智能搜索引擎云技术
智能搜索引擎的数据库设立在全球服务器之中,为了有效提高检索工作的效率以及质量,我国计算机搜索引擎之中采用的大多都是代理技术。随着云技术的发展与应用,其能够将全球服务器作为一个云系统,借此有效提高数据库的调用效率。云,服务不在本地,云端服务器资源共享,云技术并没有什么新的语言,而是在传统的C++、Java基础上发展的,最主要的区别不在发展上而在架构上,通常采用分布式架构。其中,比较火热的云技术为:Hadoop,通过传统的Java语言来实现对云计算产生的大数据的处理,Hadoop是一个分布式架构的解决方案,众所周知云并没有将计算压力集于一身,而Hadoop能够很好的将压力分布于各个服务器之中,提升了云的处理速度,缓解了服务器的压力,用户可以共享更优质的云资源。云技术的飞速发展有效提高了计算机搜索引擎的算法速度,使智能搜索引擎的運行效率大大上升。
5 计算机搜索引擎智能化技术展现
智能搜索引擎虽然有着多种模式,但是这些模式的技术实现本质上都是相通的,主要分为以下两种技术实现方式,分别是知识库以及信息库。
其中,知识库决定了计算机搜索引擎智能化程度的高低,这主要是因为计算机搜索引擎智能化就是建立在知识库的基础之上的,通过知识库能够接受信息并对这些信息进行判断以及提取分析,最终对信息内容进行总结,从而有效扩充知识库的容量,实现精准的智能化搜索引擎服务,提高我国民众检索工作的效率以及质量;信息库主要是互联网和移动互联网的总称,信息库是一种非机构化并且会不断产生变化的信息空间。信息库的主要作用就是能够为知识库的成长提供足够的信息资源,有效促进知识库的发展壮大,
6 计算机搜索引擎智能化技术的未来发展
计算机搜索引擎智能化技术的未来发展一方面需要解决当前搜索引擎技术之中存在的不足之处,另一方面应当积极融入智能搜索技术,借此有效提高民众的搜索体验。因此,计算机搜索引擎智能化技术的未来发展应当注意以下两个方面的内容:
第一点,开发元搜索功能,并将其往云搜索以及集成化搜索的方向发展,借此有效提高资源的利用率,同时为民众提供更加多元化以及全面的信息内容。
第二点,促进自然语言搜索的无缝对接,借此实现智能化自然语言、上下文关键词搜索、智能化路径查询功能等多方面的内容,有效解决地域搜索问题。
7 结 论
随着时代的发展,我国搜索引擎技术已经正式开始朝着智能化的方向发展了,我国网络之中的信息质量将变得越来越高,垃圾信息将会变得越来越少,这将有效促进我国网络的健康发展,为我国社会经济的可持续发展打下坚实的基础。
参考文献:
[1] 杨宇,杜文斌,周亚军.计算机搜索引擎智能化技术研究 [J].电脑迷,2017(7):20.
[2] 林勇.计算机搜索引擎智能化技术研究 [J].煤炭技术,2013,32(6):175-177.
[3] 崔道江,陈琳,李勇.智能检索引擎中的网络数据挖掘技术优化研究 [J].计算机测量与控制,2017,25(6):189-191.
作者简介:刘波(1997.04-),女,汉族,辽宁沈阳人,本科,研究方向:计算机科学与技术。