罗刚
摘 要:随着时代的高速发展,我们日常生活中获得的信息急速增长,如何在这众多的信息中快速有效地找到我们需要的信息是越来越值得我们关注的问题。在高校图书馆中,我们就可应用数据挖掘的技术手段对图书馆中的文献系统产生的大量数据及WEB信息进行统计和分工,从而提高信息的利用效率额,为图书馆的使用者提供更高效、更高水平、更具信息时代特征及更为个性化的图书馆现代化信息服务。为此,本文就从数据挖掘技术的简要介绍出发,为学校图书馆应用WEB数据挖掘提出简要构象。
关键词:学校图书馆;数据挖掘;WEB数据挖掘
1 关于数据挖掘的简要介绍
数据挖掘(Data Mining)在当今时代已与计算机科学有着密不可分的关系,它是数据库只是发现(Knowledge-Discovery in Databases,KD)中的一个重要步骤。具体来说就是指从大量的、不完善的、模糊的、随机的实际数据中自动搜索隐含在其中的潜在的具有特殊关系性(属于Association rule learning)的信息和知识的过程。其主要相关于计算机科学技术利用统计技术、关联规则、基于历史的分析MBR方法、聚集检测、连接分析、决策树和规则推理、神经元网络、遗传算法等手段帮助人们对数据库中的大量业务数据进行抽取、转换、分析和转换模型化处理,从而实现利用数据预测未来,帮助决策者进行针对性更强、更为准确的决策的目标。所谓数据挖掘就是从有一定容量的数据库中发现各种数据模型、概要和导出值的过程,总而言之数据挖掘也是一个归纳的过程。一直以来,数据归纳应用主要集中在金融、零售及电子商务等方面。而随着数据额挖掘技术的发展,近年来其应用范围也扩展到图书馆信息系统的处理上。并利用WEB信息挖掘,与信息检索、文献加工及数据库等实现了紧密结合。
2 学校图书馆的Web数据挖掘构思
2.1 WEB数据挖掘技术
随着计算机时代的全面发展,在过去的几十年中Web以其不可比拟的优势发展成为了当今世界规模最大的公共数据源。其中,Web数据的挖掘即是指从Web超链接、网页内容和使用日志中探寻有用的信息。根据在挖掘过程中使用数据的不同,可将挖掘任务划分为主要的三大类:Web结构挖掘、Web内容挖掘和Web使用挖掘。而数据挖掘经常采用的技术就包括:统计技术、关联规则方法、基于历史的分析MBR方法、聚集检测、连接分析、决策树和规则推理、神经元网络、遗传算法等,各技术之间侧重点有所不同,笔者对其性能做出简要评比如下表: 2.2 数据挖掘在图书馆的应用
作为一所高校信息汇聚的地方,以及学子们获得知识的重要阵地,图书馆一直是高校重点管理的地方。其文献资源、数字资源和网络资源不断增加,从数量巨大的数据中挖掘出对读者最有价值的信息资源,就成了目前图书馆管理的重要任务。因此,我们利用对于图书馆资源系统WEB的数据挖掘,为读者提取了其所需的显性及隐形知识,显著提高了图书馆资源的利用率及效率,有效提升学校图书馆知识管理服务的水平。
⑴对图书馆文献管理集成系统的挖掘。图书馆要实现现代化管理,其中一项重要的任务就是对图书馆文献管理集成系统的数据挖掘。文献管理集成系统主要是对文献信息资源进行科学的管理、有效的开发并且最终实现资源的流通共享。在此过程中,我们可以利用数据挖掘的关联规则、决策树和聚类分析等方法对文献管理集成系统中的流通管理数据进行提取,着重注意其中的读者信息分类、书目信息以及相关借阅历史。从分析结果中,我们可以获得准确、科学的关于读者的借阅习惯及需求,以此来对照我们图书馆文献系统的现状,为图书馆的馆藏建设和图书推荐服务等工作提供科学依据。
第一,馆藏建设。传统的图书馆馆藏建设都是由专门的工作人员一手包办的,虽然这个过程中也要参考许多专业建议,但不可否认这样的馆藏建设在很大程度上都具有主观性,不能真实反映广大读者的需求。同时我们也在思考,如何才能利用有限的资金让图书馆配备最优质的、利用率最高的文献配置?如能通过对馆内文献管理集成系统信息进行挖掘及分析研究,统计出各类,甚至各文献的借阅率等基本情况,就可以根据读者的需求有针对性地进行文献信息资源的补充。此外,对于图书馆中老化、过时的即时性文献也能进行清除。并且,对WEB数据的挖掘对于馆藏的合理布局也具有十分重要的指导意义。
第二,图书推荐服务。对图书馆文献管理集成系统的数据进行挖掘,可以有效地了解该图书馆使用者的阅读习惯和研究方向等,从而进行有针对性的深入的相关主题推荐。从数据分析可对于时下大家感兴趣的主题进行介绍从而吸引更多的读者来进一步了解本馆的馆藏,甚至成为图书馆的常客。运用数据挖掘的关联规则对图书馆借阅数据进行处理,对相关的数据分析做出明确报告,还可得出各专业图书间的直接和潜在联系,真正为读者的阅读、深入研究提供便利。
⑵学校图书馆的Web数据挖掘。根据前文对于数据挖掘的简要介绍,具体来说WEB数据挖掘就是以Internet的数据为分析对象,为提炼有价值的信息,将传统的数据挖掘技术与现代信息技术相结合的重要手段。因此,WEB数据挖掘兼具了两种技术的特点,涉及面十分广泛,包含了统计学、计算机网络技术、信息学等多个领域。其主要内容包括了三个主要的方面:WEB内容挖掘(Web Content Mining)、WEB结构挖掘(Web Structure Mining)以及WEB日志挖掘(Web Usage Mining)。因此根据以上特点,将其应用于学校图书馆信息的管理。
第一,Web内容挖掘。顾名思义即针对网页内容进行Web挖掘,对于网页中的非结构化的数据,如文本数据、音频数据、视频数据、图形数据等进行综合分析,从大量的无序、随机的Web數据中提取对读者有价值的信息资源,而为我们所用。在图书馆的信息管理中,我们的工作人员需要从读者的角度出发,利用WEB内容挖掘帮助读者过滤信息的问题,进而提高信息质量,建立并集成WEB站点的数据模型,以满足广大读者的不同程度的查询需求,为其提供更有针对性、更专业的技术支持,从根本上改变原先只能提供简单关键词搜索的窘境。
第二,Web结构挖掘。这里的结构是指Web页面之间的超链接结构,因此Web结构挖掘就是从结构分析入手,寻找并总结“话外之音”,从而发现蕴藏在Web页面之外的潜在的有价值的模式和知识。对站点的组织结构和页面结构中的相关信息进行推导,挖掘出数据链的结构之间的共性、规律,对其进行分类总结。在图书馆信息管理中即可通过以上手段,为读者提供潜在的知识点。
第三,Web日志挖掘。Web日志挖掘是指对读者访问Web时在服务器留下的访问记录进行挖掘,获得读者访问的基本模式和内容。马克思指出,我们要透过现象看本质,因此,Web日志挖掘的核心就是对日志进行分析后得出的读者的信息访问的规律和喜好。根据以上结论,再对Web上的文档进行分类、寻找文档主题、并汇总搜索结果。进而对信息进行调整、更新为读者提供更为全面、准确的信息支持。
3 结语
在21世纪的今天,互联网大大丰富了我们的信息来源,在拓宽了我们的眼界的同时也带来了许多无价值信息。学校图书馆要提供高水平现代化的信息服务工作,就需要从信息的海洋中挖掘出为数不多的宝藏。Web数据挖掘帮助我们的学校图书馆实现了这个目标,并且向着更为人性化的服务发展,从被动提供简要信息到今天主动为读者提供更多更丰富的信息,不得不说这是非常有意义的进步。
[参考文献]
[1]杜文峦.数字图书馆网络个性化定制服务现状分析[J].情报资料工作, 2003,(1):57-59.
[2]曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报,2002,13 (10):1952-1961.
[3]夏年军.图书馆网站建设中的个性化信息服务[J].图书馆论坛,2002, 22(2):79-81.
[4]刘明亮,等.数据挖掘技术标准综述.计算机科学,2008(35).
[5]李朝葵,凌云.数据挖掘及其在图书馆中的应用.情报技术,2002(6).