赵静
摘 要:针对高校的信息资源检索的命中率低问题提出了运用Web使用记录挖掘的高校图书馆搜索引擎。通过采用Web使用记录挖掘技术和Clementine对高校图书馆网站的Web访问日志记录进行挖掘。在Web使用记录挖掘流程中,提出一个基于用户IP、登陆时间、网站的拓扑图、引用网页和Agent来识别出单个用户的新算法,获得有效提高识别用户的实验结果。最后用路径分析来挖掘模式,优化网站结构,从而提高高校图书馆搜索引擎的命中率。
关键词:Web使用记录挖掘; 搜索引擎; 路径分析; 高校图书馆; 用户识别
中图分类号:TN911?34 文献标识码:A 文章编号:1004?373X(2013)02?0001?05
0 引 言
高校图书馆使用数字技术进行信息资源的组织和管理,能够存储海量的信息。高校图书馆的搜索引擎部分地解决了资源发现的问题,但是它可能会返回给用户成千上万检索到的网页,而其中很大一部分与用户的要求无关,用户不能快速、准确地得到所需的有价值的信息。因此,运用Web使用记录挖掘的高校图书馆搜索引擎随之产生。运用Web使用记录挖掘的高校图书馆搜索引擎是专门针对高校的信息资源进行检索的搜索引擎,是实现高校教学资源共享提高搜索命中率必不可少的工具,所以高校图书馆搜索引擎中Web使用记录挖掘的应用研究具有非常重要的科学意义和应用价值。
Web使用记录挖掘[1]是从用户“访问痕迹”中获取有价值的信息,是对Web上日志数据及相关数据的挖掘。Web使用记录挖掘技术和工具可分为2大类:访问模式的追踪和个性化的使用记录的追踪。一般的访问模式追踪通过分析使用记录来了解用户的访问模式和倾向,以改进站点的组织结构;个性化的使用记录追踪则倾向于分析个别用户的偏好,其目的是根据不同用户的访问模式,为用户提供定制的服务。其目的是预测用户网上的行为,比较网站的实际使用与期望的差别,根据用户的兴趣调整网站结构。通过Web使用记录挖掘技术对高校图书馆网站的Web访问日志记录进行挖掘,挖掘出用户访问模式、频繁访问路径等信息,从而优化站点结构、获取和分析用户需求信息、为用户提供高校图书馆搜索引擎系统服务以及为图书馆管理层提供决策支持。
1 高校图书馆搜索引擎中Web使用记录挖掘 流程分析
在高校图书馆系统中,运用Web使用记录挖掘的Web访问日志数据为核心分析高校图书馆搜索引擎系统。高校图书馆的日志文件采用SQL Server数据库来完成相应的挖掘操作,又用Clementine挖掘工具作以补充。
Clementine挖掘工具[2]是ISL公司开发的数据挖掘工具平台。Clementine结合Web使用记录挖掘技术可以快速建立预测性模型,进而应用到高校搜索引擎系统中,帮助高校图书馆改进图书馆搜索引擎系统的结构,为读者提供个性化服务。
整个高校图书馆搜索引擎系统提出了一套适合Web使用记录挖掘的流程图,根据这个流程图,进行数据收集,数据准备,建立用户兴趣模型,模式挖掘等操作。如图1高校图书馆搜索引擎中Web使用记录挖掘的流程图所示。
图1 高校图书馆搜索引擎中Web使用记录挖掘的流程图
1.1 数据收集
用户浏览信息被Web服务器自动收集并保存在访问日志、引用日志和代理日志中。基于高校图书馆网站自身特点,主要研究Web访问日志。根据高校图书馆的Web服务器访问日志,通过访问路径C:/WINDOWS/System32/LogFiles 收集需要的信息。Web访问日志记录用户访问信息。下面是一段收集的Web服务器访问日志:
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2012?05?21 07:06:45
#Fields: date time s?sitename s?ip cs?method cs?uri?stem cs?uri?query s?port cs?username c?ip cs(User?Agent) sc?status sc?substatus sc?win32?status
2012?05?21 07:06:45 W3SVC894523 192.168.16.86 GET /index.htm ? 80 ?192.168.16.80Mozilla/4.0+(compatible;
+MSIE+7.0;+Windows+NT+5.1;+Trident/4.0;+GTB6.6;
+.NET+CLR+2.0.50727;+360SE) 200 0 0
上述日志的数据包含的主要项的含义如下:
(1)date time:时间戳。
(2)s?sitename: 系统服务。
(3)s?ip: 被访问服务器的IP地址。
(4)cs?method: 客户访问的方式,有GET和POST。
(5)cs?uri?stem: 请求文档的URL,即所访问的页面。
(6)cs?uri?query: URL查询,用户预进行的查询。
(7)s?port: 被访问服务器的端口。
(8)cs?username: 用户ID,是在被访问页面需要进行用户注册时才有的。
(9)c?ip: 客户主机的IP地址。
(10)cs(User?Agent): 表示客户机的浏览器类型、版本即所运行的操作系统。
(11)sc?status: 返回码。200代表成功,404代表找不到所请求的页面。