刘思皖
摘 要:随着大数据技术的不断发展,构建智能化搜索引擎是满足现代网络应用的重要举措。传统的搜索引擎所提供的信息比较多,不利于精准服务,因此文章提出一种将数据挖掘技术应用到搜索引擎体系中,以此实现搜索引擎智能化,为用户提供最精准的信息搜索模型。
关键词:数据挖掘技术;智能;搜索引擎
中图分类号:TP391.3 文献标志码:A 文章编号:2095-2945(2018)36-0039-02
Abstract: With the continuous development of big data technology, the construction of intelligent search engine is an important measure to meet the needs of modern network applications. Traditional search engines provide more information, which is not conducive to accurate services, so this paper proposes a data mining technology applied to the search engine system, in order to achieve intelligent search engines and provide users with the most accurate information search model.
Keywords: data mining technology; intelligence; search engine
引言
随着互联网技术的不断发展,尤其是大数据技术在社会各领域的应用,网络已经成为人们获悉信息的主要渠道。传统的搜索引擎功能需要从大量的信息数据库中获得需要的信息,这样一来容易出现搜索的信息数量比较大,有用信息较少的现象。而且依赖于传统检索技术查询的信息显示比较混乱,有效性比较差,影响用户的使用,因此本文利用数据挖掘技术的优势,将数据挖掘技术应用到搜索引擎中,以此改善检索结果的组织,提高检索的准确性与有效性,增强用户的满意度。
1 数据挖掘技术与搜索引擎的概述
数据挖掘就是从大量的数据中挖掘用户感兴趣的或者存在潜在价值的知识。随着大数据技术的不断发展,数据挖掘技术成为当前互联网领域研究的热点课题。一般数据挖掘模式主要包括:(1)广义知识;(2)关联知识,就是反映了数据库中一个属性和其它属性之间的存在关系;(3)分类知识;
(4)偏差型知识等等。数据挖掘技术作为数据分析的有力工具,其主要需要满足以下功能,例如可以准确的表达出不同数据的关联性,能够从多抽象层交互挖掘知识等等。
搜索引擎就是在众多的网络信息中搜索对自己有用的信息,以此满足需要。搜索引擎由四个部分组成:搜索器、索引器、检索器以及用戶接口。搜索引擎已经成为用户浏览网络所必须的服务工具。其工作原理就是当用户以关键词查找信息时,搜索引擎会在数据库中进行搜索,以便快速的找到与用户需求相匹配的网站,并且采取特殊的算法按照一定的排序顺序等将其反馈给用户。实现搜索引擎需要完成以下三个步骤:在网络中发现并且搜集网页信息;对信息进行提取并且组织建立索引数据库;在利用检索器对数据进行查询,并且计算相关度,将输出的结果反馈给用户。
2 数据挖掘技术在智能搜索引擎中的应用
随着用户需求的精确性要求,实现个性化、智能化搜索引擎是大数据网络发展的主要趋势。传统的搜索引擎在精确性、个性化服务上存在缺陷。因此本文利用数据挖掘技术的特性设计一款基于数据挖掘的个性化信息检索系统(PIRSBDM),重点是为用户提供精确化、个性化的信息查询结果。在该系统中主要应用数据挖掘中的类别规则挖掘、基于关键词向量的文档分类挖掘以及基于SOM文档聚类挖掘方法以此满足个性化信息需求。具体的步骤为:首先通过对用户的个人信息的观察后,对用户的兴趣进行提取、描述等建立“用户个性化信息库”,对用户的访问日志采取关联规则的挖掘方法,同时不断地更新用户数据库。用户经过反馈将感兴趣的文档进行聚类挖掘,以此更新用户个性特征向量表。
2.1 PIRSBDM系统体系结构
基于数据挖掘技术的智能搜索引擎系统的结构运行流程为:首先用户根据自己的信息需求提交查询请求,中介数据库对用户查询主题进行模式化、以此产生精准化的检索模式,结合用户个人的特征向量表、关键词表等给用户提供最佳的搜索引擎模块;其次对于提供的最佳搜索引擎模块信息会提交“信息检索中心”,当然检索中心所提供的信息可能会存在不符合用户兴趣的内容,因此结合用户的个性兴趣等,例如数据挖掘技术中的分类挖掘等技术将重复的信息或者对用户不感兴趣的信息过滤掉,以此得到个性化的信息。
(1)用户。为了帮助用户准确的查询到自己感兴趣的信息,设计用户输入模块,其主要包括:模板、词典、关键词以及同义词。用户模块是智能搜索引擎构建的基础,也是智能搜索引擎设计的关键。
(2)最优检索式最优搜索引擎模块。该模块主要接收经过中介索引库转化的用户请求,将其变为能够被搜索引擎识别的格式,结合用户关键词表,如果用户搜索的关键词在该数据库中说明用户查询过,对此系统就会直接为用户提供相应的查询结果。但是如果该关键词在数据中没有,则表明用户没有查询过,对此系统就会对该关键词进行归类,如果在“关键词表”中存在该类别,则只需要将该关键词作为已有的属性值,如果没有则需要添加,以此更新“关键词表”。本模块主要完成的功能是,接收用户的转换后的“查询请求”,结合“用户个性化信息库”和“搜索引擎信息库”选择最优搜索引擎进行搜索,同时可以不断的更新“用户查询关键词表”。
(3)聚类挖掘模块。该模块的主要功能就是更新“用户信息库”中的用户特征向量表。实现个性化搜索引擎的关键就是根据用户的特征为其提供相应的信息,例如该模块所具备的跟踪用户学习、记忆用户兴趣可以增强搜索引擎的效率。实现该模块的方法主要是用户将自己感兴趣的信息按照特定的格式提交系统或者用户兴趣学习。
(4)关联规则挖掘模块。该模块出于用户与用户数据库之间,其作用主要是通过对用户日志的挖掘,寻求用户各个检索关键词之间的关联规则,以此发现用户潜在的兴趣,并且更新用户关键词表信息。挖掘的对象是以关键词作为列的内容,而以每次的检索事务中所查询的关键词组合成一行,通过对日志的挖掘形成的“用户查询关键词表”,挖掘出的用户的个性化信息。
(5)搜索引擎信息库。信息库是支撑搜索引擎的基础,搜索引擎信息库能够及时根据用户检索需求而提供相应的数据。搜索引擎信息库的构建应该具备网站、中文名字等等信息。
2.2 PIRSBDM系统关键技术
构建基于数据挖掘技术的智能搜索引擎需要重点利用以下关键技术:
(1)关联规则挖掘
该技术是数据挖掘技术的重要组成部分,它可以发现数据库中项或属性间的有趣关系。由于这些关系具有隐蔽性或者预先未知,因此难以依靠数据库逻辑实现,必须要通过关联规则挖掘技术进行实现。关联规则挖掘的过程分成两个步骤。第一步发现所有的频繁项目集,即支持度大于给定最小支持度阈值的项集;第二步根据所获得的频繁项目集产生关联规则,根据定义,这些规则必须满足最小置信度阈值。对于关联规则的算法主要采取的是Apriori算法。首先找出频繁1-项集,记为L1;然后利用L1来挖掘L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁k-项集为止。每挖掘一层Lk就需要扫描整个数据库一遍。
(2)基于关键词向量的文档分类挖掘
文档分类是实现智能搜索引擎的关键,文档顾名思义就是用来描述一定规则的文档,文档归类就是将大量的文档按照一个主题进行归类的过程。因此文档的分类直接关系到搜索引擎体系的构建。文档分类就是根据数据库信息种类属性进行特征归类,以此准确的为用户提供信息检索服务。当然在文档归类挖掘前必须要对文档相识度进行计算以及保证文档归类的合理性。例如文档相识度越接近,这样就可以更好的对属性相同的文档进行统一归类,便于提高检索速度,提升用户的满意度。
(3)基于SOM的Web文档层次聚类方法
聚类是一种无监督分类法,在聚类之前没有预先指定的类别。SOM网络的优点在于:可以实现实时学习,网络具有自穩定性,无须外界给出评价函数,能够识别向量空间中最有意义的特征,抗噪音能力强。Web文档的聚类:首先训练SOM网络。构造SOM聚类神经网络:以训练样本的N个(N=182)特征词作为SOM网络的输入神经元,人为限定M个(M=10)文档类别作为SOM网络的输出神经元,构成一个二层的Web文档自组织聚类训练SOM网络。提取文档特征词,构造输入向量序列Xk。将输入向量逐一输入SOM网络,进行学习训练;其次聚类用户感兴趣的文档。聚类用户感兴趣文档的处置流程为:中文文档经过预处理提取主题词,然后生成输入模式向量、文档自组织映射。预处理模块的主要作用就是为了利用SOM方法对文档进行有效地编码,例如在预处理模块需要对文档中的图形、非文字等信息进行处理,以此保证可以准确的提取到关键词,最终输入到训练好的SOM网络中进行层次聚类。对于输入向量,则是通过SOM网络所进行点积运算,以此获得相应的输出获胜结点,该结点也就是聚类中心。相应的聚类中心所构成的文档会形成同一类别的文档。如果某文档所包含的文档越多,说明用户对该方面的信息需求比较多。在实际的系统应用设计中需要注意以下两个问题:一是由于SOM属于多层次系统,因此可以采取多层聚类,这样可以减少系统的计算工作任务,以此更好的提高运行效率;二是要对用户的文档进行定时机制设计,例如可以设计夜里执行层次聚类的模式,这样可以增强信息储存量。
3 结束语
总之基于大数据技术的发展,用户对搜索引擎性能的要求越来越高,如何为用户提供个性化的信息检索是当前搜索引擎发展的主要趋势。数据挖掘技术依托自身存在的优势应用到搜索引擎体系建设中,不仅实现了精确化信息检索服务,而且还为用户构建了个性化的服务模式,大大提高了信息检索的速度,提高了用户的满意度。
参考文献:
[1]李娟.数据挖掘技术在智能搜索引擎中的应用[D].长春理工大学,2010.
[2]杨子墨.智能技术在搜索引擎中的应用[J].科技与创新,2017(03).
[3]赵丁.数据挖掘技术在船舶边检管理信息系统中的应用[D].河北科技大学,2017.
[4]Jason Bell,等.ASP.NET程序员参考手册[M].清华大学出版社,2002.
[5]韩家炜,Kamber M.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.