谢海艇
摘要:本文针对搜索引擎存在的问题,简要介绍了Web挖掘的相关技术,并构建了用户个性化数据库,设计出基于Web挖掘的个性化搜索引擎模型,使检索结果更加符合用户的实际需要。
关键词:Web挖掘;搜索引擎;个性化服务
搜索引擎的基本概念出现于20世纪70年代,并于20世纪90年代中期得到快速的发展。随着Web信息的迅速增加,搜索引擎市场出现了前所未有的繁荣景象,搜索引擎正向着智能化、个性化等适应不同用户需求的方向发展。目前,搜索引擎仍然存在很多的局限性,主要表现在以下几个方面:查询精度不高且不能根据用户兴趣返回信息、资料检索与用户的交互不够、查询结果排序不合理、不能处理多种格式的文件等。
Web挖掘[1]是指从异构的分布式互联网数据中收集信息,利用计算机网络技术和人工智能技术,不断地发现有用的数据模型和隐含知识。根据挖掘对象的不同,Web挖掘可分为Web内容挖掘、Web结构挖掘以及Web日志记录挖掘。
Web内容挖掘是基于Internet中各种网站的数据内容,以获得有效的知识驱动模型,并自动检索网络资源,提高网络数据的使用。
Web结构挖掘是研究Web文档的链接结构,找到链接中隐含的可用模式。其中两个最著名的算法是PageRank算法和HITS算法。
Web日志记录挖掘也称为Web日志挖掘,以Web服务器访问日志为主要数据,分析用户的浏览行为与页面之间的结构类型,改进站点结构,为用户提供个性化服务。
用户个性化数据库以用户的多维信息为基础,不断深入挖掘用户的浏览行为,并根据页面权重、时间间隔、下载信息等因素不断更新数据库,帮助用户查找真实需求的资源信息[2]。用户个性化数据库包括信息收集与信息更新。
1.收集用户访问信息
如何获取有关用户的个性化信息是用户个性化数据库需要解决的首要问题。用户个性化数据库的数据信息主要来自于用户提交的信息以及分析用户的访问日志。用户在访问互联网的过程中,提交的查询关键词、停留网页时间、下载状态等信息会在Web服务器上留下记录,并形成用户访问日志。用户个性化数据库通过不断分析用户访问日志,挖掘用户的潜在个性化信息。
2.更新用户个性化信息
用户的个性化需求不是一成不变的,大多数用户的个人特征数据会随着时间推移而变化。其主要表现形式有两方面,一为兴趣领域的变化,二为兴趣程度的变化。用户兴趣的变化将不可避免地影响用户个性化数据库的内容,这就要求用户个性化数据库具有自主学习的能力,并根据用户的兴趣变化不断更新数据库中的相关特征项。
本文采用改变权重的方法更新用户的个性化特征项,公式如下:
NewWeight= OldWeight+i×t
i为用户访问网站的参数。针对不同用户的访问行为进行定义,如用户对访问内容进行下载、对网页进行全文浏览、对部分网页内容进行浏览、未对网页进行浏览等。不同的访问行为反应了用户对信息的满意程度,依次为i确定不同的数值。
t是时间参数。用户通常会长时间浏览他们感兴趣的页面,否则浏览时间将会变短。
个性化服务的目标是反映用户之间的差异,尊重用户的个性特征并向用户提供各种信息服务[3]。基于Web挖掘的个性化搜索引擎模型主要为用户提供个性化的信息检索服务,便于用户查阅使用。
本系统主要包括个性化数据库、检索系统、后台管理系统。
个性化数据库主要表示用户的兴趣趋势,通过不断挖掘用户访问日志,自动更新用户的个性化特征项。
检索系统主要基于用户查询关键词,在检索信息的同时计算相应页面的权重,以此为依据进行排序,并把检索结果反馈给用户。
后台管理系统主要加强子系统之间的通信连接,维持系统的稳定运行。
随着互联网信息的急剧增加,搜索引擎技术在信息检索中发挥的作用越来越大。相信随着科学技术的进步,网络信息检索技术的发展也会越来越快。
参考文献:
[1] 张彦波.Web挖掘研究微探[J].北京電力高等专科学校学报(自然科学版),2010(27):145.
[2] 冯是聪,单松巍,张志刚等.基于Web挖掘的个性化技术研究[J].计算机工程与设计,2004(1):4-5.
[3] 王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005(3):651-653.