买继文
高校图书馆网站作为图书馆信息系统的重要组成部分,是图书馆资源、服务与读者之间的桥梁。规划和建设好图书馆网站,可为用户获取信息、交流信息提供了一个很好的基于Web的信息服务平台。但随着校园图书馆资源的增多,利用基于Web日志挖掘技术根据用户的特性提供具有针对性的信息,还能通过对用户专业特征,研究兴趣的智能分析,主动地向用户推荐其可能需要的信息的个性化推荐系统的建立已成发展趋势。
1数字图书馆个性化推荐服务分析
数字图书馆个性化服务方式的具体应用主要依托于Push技术、信息过滤技术、智能代理技术、数据挖掘技术等的综合运用。本文将进一步探讨数据挖掘技术在数字图书馆个性化服务中的应用。
2 Web数据挖掘概述
2.1Web数据挖掘及其功能
从广义的角度出发,可以对Web挖掘作如下的定义:
定义1:Web挖掘是指从大量非结构化、异构的Web信息源集合中发现有效的、新颖的、潜在可用的及最终可理解的知识包括概念(Concepts)、模式(Patterns),规则(Rules)、规律(Regularities)、约束(Constraints)及可视化(Visualizations)等形式的非平凡过程。
如果从实用性开发的角度来考虑的话,可以对Web挖掘作出如下的定义:
定义2:Web挖掘是针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据源,在一定基础上应用数据挖掘的方法以发现有用的知识帮助人们从Web中提取知识,改进站点设计,更好地开展电子商务等应用。
①Web数据挖掘的对象是大量、异质、分布的文档。对数据挖掘而言,Web似乎太庞大了。Web的数据量目前以兆兆字节计算,而且仍然在迅速增长。
②Web是半结构化或非结构化的。Web页面的复杂性高于任何传统的文本文档。Web页面缺乏统一的结构。它包含了远比任何一组书籍或其它文本文档多得多的风格和内容。
③数据源具有很强的动态性。Web是一个动态性极强的信息源,其中的数据增长迅速,以每4到6个月的速度翻一番,而且信息在不断地发生更新。
④Web面对的是一个形形色色的用户群体,各个用户有着不同的兴趣和使用目的。
⑤Web上的信息只有很小的一部分是相关或有用的。
2.2 Web挖掘的分类
Web内容挖掘(Web content mining)是指在人为组织的Web上,从文件内容及其描述中获取有用的信息的断呈。Web的内容挖掘可以说是数据挖掘技术在网络信息处理中的应用。不同于传统的数据挖掘技术,Web内容挖掘主要是针对网页中非结构化的数据,如文本数据、音频数据、视频数据、图形图像数据等多种数据相融合的多媒体数据挖掘。Web检索又分为资源发现和信息获取。资源发现就是定位文档的位置,并自动生成文档的索引。Web上的资源一般分为两类:文档和服务。目前,Web上的资源发现主要集中于文档的搜索和获取,即Web内容的挖掘。
Web结构挖掘是从WWW的组织结构和链接关系中推导知识。主要是通过对图书馆的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。因为超文本网页之间的相互连接,网页显示的信息远比文档内容多。
Web结构挖掘所得到的模式。可以揭示许多蕴涵在Web内容之外的有用信息,如通过文档之间的超链接,可以挖掘出文档之间的引用关系,从而帮助我们找到与用户请求相关的权威页面。通过分析Web网页内部树形结构,可以发现与给定页面集合相关的其它页面。Web页面的URL同样可以反映页面的类型以及页面之间的从属关系,通过分析页面的URL信息。可以找到改变了位置的Web页面的新位置。
Web内容挖掘和Web结构挖掘的挖掘对象是网上的原始数据,而Web日志挖掘(也称为Web使用记录挖掘)面对的则是在用户和Web交互的过程中抽取出来的第二手数据,主要包括:Web服务器日志(包括服务器日志、引用日志和代理日志)、用户简介、注册信息、用户对话或交易信息、用户提问方式等。
Web日志挖掘的一般过程如下所述:
(1)数据的预处理:就是将来自于不同数据源的数据,如使用模式等信息重新组织成为模式发现所必需的数据结构。
(2)模式发现:对数据预处理所形成的文件,利用数据挖掘的一些有效算法(如关联规则、聚类、分类、序列模式等)来发现隐藏的模式和规则。
(3)模式分析:主要是对挖掘出来的模式、规则进行分析,找出用户感兴趣的模式,提供可视化的结果输出。
Web日志挖掘得到的结果,可以用于重构图书馆的页面之间的链接关系,及重构图书馆的拓扑结构、发现相似的客户群体,开展个性化的信息服务和有针对性的电子商务活动,应用信息推拉技术构建智能化图书馆。
3基于Web日志挖掘的实时个性化推荐系统
3.1基于Web日志挖掘的实时个性化推荐系统
Web访问个性化意味着一个用户访问图书馆时得到个性化的服务。如果不需要用户的注册信息,那么在图书馆上的个性化推荐系统的一种思路是将用户归结到一类用户,然后根据该类用户的访问规律进行Web页面的推荐。而实时个性化则意味着,随着用户的访问推进,算法会将用户归结到不同的用户类中,因为不同的用户类有不同的推荐集,所以通过不断地根据用户的当前访问,实时调整推荐集,给用户提供个性化的访问。同时推荐集不影响原有网站的分类结构。进行图书馆实时个性化推荐的工具就是Web访问信息挖掘,即利用数据挖掘的思想和方法。将其利用到Web服务器日志上进行Web访问信息挖掘,挖掘出用户的访问规律。挖掘的对象不再是传统的关系数据库,而是用户访问日志。
图书馆实时个性化推荐的主要步骤为:
①模型化页面和用户;
②分类页面和用户;
③在页面和对象之间进行匹配;
④判断当前访问的类别以进行推荐。
对一个用户而言,如果他的访问序列为:11.url,12.url,13.ur1,…1k,url,那么这种访问序列就代表了该用户的访问特性,其具体为:对该用户而言1K,url页面是在1k-1.ur1页面之后被访问的。用户对图书馆的访问存在某种有序关系,这种有序关系反映的是用户的特性。可以代表该用户兴趣,也就是说群体用户自身的特性和他们的访问序列有很强的相关性。这种有序关系表现两个方面:
当前用户的访问序列是一种有序序列。
曾经访问过站点的那些用户的访问也各是一种有序序列。
因此需要一种挖掘方法把这种有序关系所代表的用户特性关系挖掘出来。所以进行聚类挖掘的目的,就是从用户的访问日志中识别出当前用户相似的那一些用户,根据
这些用户的访问特性以对当前用户提供推荐。所以基于聚类方法的实时个性化方法的主要步骤为:
①将用户访问事务中的用户访问的顺序关系特性挖掘出来。
②对这种顺序关系进行路径分割聚类。
③在每个聚类集中挖掘出被访问页面之间的相互关系,得到推荐集。
④识别当前用户的访问序列。
⑤匹配当前用户的访问和聚类中心以得到针对当前用户的推荐集而进行实时个性化推荐。
3.2整体过程
3.2.1目标定义。在建模前要清楚知道需要完成什么,达到什么目标,对数字图书馆个性化服务来说就是要清楚提供什么内容的信息资源、什么形式的信息资源是用户最想获得的等。有了具体目标才能有针对性地进行后续工作。
3.2.2创建数据挖掘库。根据数字图书馆系统中用户的注册信息以及数字图书馆用户访问日志中的数据,找寻用户的信息需求和行为特征。利用关联规则和序列发现分析用户需求和行为特征,从数字图书馆的数据库、数据仓库以及网络资源中选择与其相符的初始信息,把它们提取出来存放到一个新建的用户数据挖掘库中。
3.2.3数据预处理。数据挖掘的数据预处理主要是去除噪声和处理数据缺失。在数字图书馆个性化服务建模中的预处理则主要是对挖掘库中从众多资源集散地搜集的数据进行偏差检测,包括审核数据内容,去除冗余、错误的数据,结合数据形式补充缺失数据。
3.2.4数据挖掘。在经过了前述步骤之后,选用合适的数据挖掘工具和技术创建挖掘模型。通常数据挖掘的重要任务就是建立预测模型。在创建模型前的关联规则和序列发现方法已经为我们在挖掘库中创立了初始模型,在对挖掘库中的数据进行预处理之后,利用数据挖掘算法一主要是统计方法、神经网络算法和决策树法(数据挖掘算法相对繁复,在此不予详细描述),统计用户的访问行为纪录、分析用户行为规律,进而修正模型,使模型的准确度趋于最优。
3.2.5评价和反馈。模型建立之后,并不是一成不变的,需要根据用户的使用情况对模型的结果予以评价。模型的输出结果低于用户要求,就及时根据外部信息修正模型、重现挖掘,直到用户基本满意为止;模型的输出结果符合用户要求,根据用户的使用情况和需求变化。及时得到反馈信息,调整挖掘库内容修正模型。
3.2.6 挖掘利用。数字图书馆个性化服务使用数据挖掘的最终目标就是提高信息服务质量,满足用户多样的信息需求。数字图书馆已经提供了个性化的服务页面和系统,数据挖掘的最终体现是完善用户系统,系统利用挖掘技术将用户的信息需求行为预测出,结合用户信息需求模型挖掘数据库、数据仓库和网络资源中的有用信息,第一时间在用户个性化服务系统中将信息推荐给用户使用。